DeepMind--AlphaFold(알파폴드)2
AlphaFold(알파폴드)는 구글의 자회사인 DeepMind에서 발표한 단백질 예측 플랫폼이다.
알파폴드가 나오기 전까지는 단백질 구조를 예측하는 문제는 굉장히 어려운 문제로 지금까지 과학자들이 알아낸 단백질 종류는 약 2억개, 이 중 구조를 알아낸 단백질은 약 17만종이라고 한다. 한 종류를 분석하는데 1년 ~ 수년 정도 걸렸으며 비용은 약 12만달러(약 1억 3000만원)가 들어간다고 한다. 하지만 알파폴드는 과학자들이 수년을 걸쳐 알아냈던것을 단 며칠만에 구조를 밝혀낸것이다.
AlphaFold(알파폴드)2 관련 영상
https://www.youtube.com/watch?v=uLDud7pNiNQ
AlphaFold(알파폴드)2 관련 기사
https://www.aitimes.kr/news/articleView.html?idxno=25674
인공지능 플랫폼 '알파폴드', 지구상 거의 모든 단백질 구조 예측...2억개 이상 ‘3D 단백질 구조'
지난해 7월 15일, 딥마인드는 \'알파폴드를 사용한 매우 정확한 단백질 구조 예측(Highly accurate protein structure prediction with AlphaFold-다운)\'이란 제목으로 네이처에 발표하고 단백질 구조 예측 인공...
www.aitimes.kr
AlphaFold(알파폴드)2 논문
https://www.nature.com/articles/s41586-021-03819-2
Highly accurate protein structure prediction with AlphaFold - Nature
AlphaFold predicts protein structures with an accuracy competitive with experimental structures in the majority of cases using a novel deep learning architecture.
www.nature.com
이번 주제는 머신러닝 보다는 생명과학 분야에 중점되어있어서 머신러닝을 공부하는 느낌이 아니라 생명과학 공부를 하는
느낌이 크다, 살짝 지루할수있으니 최대한 간단하게 논문을 해석해보겠다
알파폴드2의 작동 원리
이 그림은 알파폴드2의 처리 과정을 한눈에 보여줍니다. 알파폴드2는 다음의 3가지 스텝으로 구성되어 있습니다.
1. 입력 데이터를 전처리하는 Input feature embeddings단계
2. 어텐션 학습을 통해 전처리된 데이터에서 필요한 정보를 뽑아내는 Evoformer단계
3. 여기서 나온 정보를 구체적인 3차원 좌표로 처리하는 Structure module단계
1. Input feature embeddings
먼저 유전자 데이터베이스에서 유사한 evolutionary 서열을 검색하여 다중 서열 정렬(MSA)을 생성합니다.
그리고 나서 추가로 쿼리 시퀀스와 유사한 시퀀스 부분을 가진, 알려진 단백질 템플릿을 검색합니다.
여기서 알포폴드만의 특별한점이 나옵니다. 시퀀스 정보에서 필요한 정보를 추가는 과정이 있다는 것입니다.
많은 입력 데이터를 가지기 때문에, 현재 구조가 알려진 모든 pdb파일을 훈련 데이터로 사용하고, 여기에 구조가 알려지지 않은 시퀀스로 약 300,000여개의 구조를 예측한 후 이중 높은 정밀도로 예측했다고 판단되어 지는 것을 다시 훈련 데이터로 사용하는 방법을 써서 학습데이터를 확장했다합니다...
'인공지능 논문' 카테고리의 다른 글
[논문 리뷰] DALL-E 2 : Zero-Shot Text-to-Image Generation (1) | 2022.09.18 |
---|