바이오산업동향

구글 딥마인드의 알파폴드, 생물학의 최대 난제 해결

등록일: 2020-12-03
작성자: 의생명공학과
조회수: 1182

구글 딥마인드의 딥러닝 프로그램인 알파폴드가 단백질의 3D 구조를 해명하는 데 큰 도약을 이루었다. 과학자들은 이구동성으로 "알파폴드가 생물학을 확 바꿀 것"이라고 말한다.

CASP is both the gold standard for assessing predictive techniques and a unique global community built on shared endeavour. Accuracy is measured on a range of 0-100 “GDT”. AlphaFold has a median score of 92.4 GDT across all targets - its average error about the width of an atom. / ⓒ 트위터 (https://twitter.com/DeepMind/status/1333434841279442947)

생물학의 최대 난제 중 하나는, 아미노산들의 선형 사슬(linear chain)을 돌돌 말아 3D 형태로 만듦으로써 생명의 과제(life's task)를 수행하게 하는 것이다. 인공지능(AI: artificial intelligence)이 마침내 그것을 해결했다. 지난 11월 30일, 선도적인 구조생물학자들과 (2년에 한 번씩 열리는) 단백질접기 경연대회(protein-folding competition)의 조직위원회는 영국에 본사를 둔 AI 업체인 딥마인드(DeepMind)의 성과를 발표했다. 그 내용인즉 "딥마인드의 방법이 생물학에 지대한 영향을 미칠 수 있는데, 그중에는 신약개발의 극적인 가속화(dramatically speeding the creation of new medications)가 포함된다"는 것이다.

"딥마인드가 달성한 판타스틱한 업적은 구조생물학과 단백질 연구의 미래를 확 바꿀 것이다"라고 유럽생물정보학연구소(EBI: European Bioinformatics Institute)의 재닛 손튼 명예소장은 말했다. "그들은 50년 묵은 문제를 해결했다"고 이번 대회—「단백질구조예측능력평가(CASP: Critical Assessment of Protein Structure Prediction)」—를 공동으로 창설한 메릴랜드 대학교 섀디 그로브 캠퍼스의 존 몰트(구조생물학)는 덧붙였다. "내 살아생전에 이런 일이 벌어질 줄은 미처 생각하지 못했다."

인체는 수만 가지 상이한 단백질을 사용하는데, 각각의 단백질은 수십 개 ~ 수백 개의 아미노산들이 연결된 '끈'이라고 할 수 있다. 특정한 순서로 배열된 아미노산들은 상호간의 무수한 '밀고 당김'을 통해 단백질의 복잡한 3D 형태(complex 3D shape)를 형성하고, 나아가 그 기능이 수행되는 방식을 결정한다. 따라서 그런 형태를 알아낼 수 있다면, 단백질의 포켓(pocket)과 틈(crevice)에 들어맞는 약물을 고안하는 데 도움이 된다. 그리고 원하는 구조를 가진 단백질을 합성할 수 있다면, 바이오연료(biofuel)를 만들고 플라스틱 폐기물을 붕괴시키는 효소의 개발을 가속화할 수 있다.

지난 수십 년 동안, 연구자들은 엑스선결정술(x-ray crystallography)이나 초저온전자현미경(cryo-EM: cryo–electron microscopy) 등의 실험기법을 이용하여 단백질의 3D 구조를 해독해 왔다. 그러나 그런 방법들은 수개월 내지 수년이 걸리는 데다, 항상 작동하는 것도 아니다. 사정이 이러하다 보니, 생명형태를 통틀어 2억 개가 넘는 단백질 중에서 구조가 해명된 것은 약 17만 개에 불과하다.

1960년대에, 연구자들은 '만약 한 단백질 시퀀스 내의 개별적 상호작용들을 알아낼 수 있다면, 그 3D 형태를 예측할 수 있다'는 사실을 깨달았다. 그러나 단백질 하나당 수백 개의 아미노산이 들어 있고, 각 아미노산 쌍의 상호작용 방식이 무수히 많으므로, 시퀀스 하나당 '가능한 구조의 수'는 천문학적이었다. 이에 컴퓨터과학자들이 단백질에 뛰어들었지만 진척은 더뎠다.

1994년, 몰트와 동료들은 2년에 한 번씩 개최되는 CASP를 창설했다. 대회 조직위원회는 참가자들에게 (구조를 모르는) 약 100개의 단백질에 대한 아미노산 시퀀스를 제시했다. 어떤 팀은 컴퓨터를 이용하여 각 시퀀스의 구조를 계산했고, 어떤 팀은 그것을 실험적으로 결정했다. 그런 다음, 조직위원회는 컴퓨터로 예측된 것을 실험결과와 비교하여, 각 예측에 정확성검사(GDT: global distance test) 점수를 부여했다. "그리하여 100점 만점에 90점 이상이면 실험적 방법과 동등하다고 간주했다"고 몰트는 말했다.

1994년까지만 해도, 작고 간단한 단백질의 예측된 구조는 실험결과와 일치할 수 있었다. 그러나 더 크고 까다로운 단백질의 경우, 컴퓨터를 이용한 GDT가 20점밖에 안 나왔다. "그건 한마디로 대참사였다"라고 CASP의 판정관인 막스플랑크 발생생물학 연구소의 안드렐 루파스(진화생물학)는 말했다. 2016년 CASP에 참가한 팀들은 가장 복잡한 단백질에 대해 약 40점의 점수를 받았는데, 그들은 주로 'CASP의 목표와 근사(近似)한 단백질'의 '알려진 구조'에서 통찰을 얻었다.

구글 딥마인드의 알파폴드, 생물학의 최대 난제(難題) 해결

ⓒ Nature (참고 1)

2018년 CASP에 처음 참가했을 때, 딥마인드의 알고리즘인 알파폴드(AlphaFold)는 이러한 비교전략에 의존했다(참고 2). 그러나 그에 더하여, 알파폴드는 딥러닝(deep learning)이라는 컴퓨팅 접근방법을 도입했다. [딥러닝에서, 소프트웨어는 방대한 데이터 수집물—이 경우 알려진 단백질의 시퀀스와 구조—에서 훈련을 받아 패턴을 파악하는 법을 터득한다.] 그 결과, 딥마인드는 모든 구조에서 경쟁자들보다 15% 높은 성적으로 낙승(樂勝)했고(참고 3), 가장 어려운 목표에서는 60점의 GDT 점수를 받았다.

'그러나 우리의 예측은 여전히 너무 조잡해서, 유용성이 떨어졌다"고 딥마인드에서 알파폴드 개발을 지휘하는 존 점퍼는 말했다. "우리는 우리의 생물학적 적합성(biological relevance)이 얼마나 허접한지 잘 알고 있었다." 예측능력을 향상시키기 위해, 점퍼와 동료들은 딥러닝을 텐션 알고리즘(tension algorithm)과 결합했다. [텐션 알고리즘이란 직소퍼즐을 맞추는 방법을 모방한 것으로, 먼저 작은 부분—이 경우 아미노산 클러스터—들을 맞춘 다음, 그것들을 결합하여 더 큰 부분들을 맞추는 방법을 모색하는 것을 말한다.] 수수한(128개의 프로세서로 구성된) 컴퓨터 네트워크를 이용해, 그들은 기존에 알려진 단백질 구조 전부(17만 개)에 대해 알고리즘을 훈련시켰다.

그들의 전략은 적중했다. 올해 열린 CASP의 목표 단백질을 통틀어, 알파폴드는 92.4점(중앙값)의 GDT 점수를 얻었다. 가장 까다로운 단백질의 경우, 알파폴드는 87점(중앙값)을 얻어, 2등을 무려 25점이나 앞섰다. 알파폴드는 심지어 세포막에 끼여 있는 단백질의 구조까지 해명했는데, 이런 단백질은 인간의 질병에서 매우 중요하지만 엑스선결정술로 해명하기가 어렵기로 악명 높다. "이것은 단백질 접기 문제에서 놀랄 만한 진전이다"라고 MRC 분자생물학연구소(Medical Research Council Laboratory of Molecular Biology)의 벤키 라마크리슈난(구조생물학)은 말했다.

구글 딥마인드의 알파폴드, 생물학의 최대 난제(難題) 해결

ⓒ Science

"올해에 참가한 팀들의 성적은 모두 향상되었다"고 몰트는 말했다. 그러나 루파스에 따르면, 알파폴드는 게임의 판도를 바꿨다고 한다. 심지어 조직위원회에서는 '딥마인드가 무슨 부정행위를 하는 게 아닌가' 의심할 정도였다고 한다. 생각다 못한 루파스는 특별한 문제를 하나 냈는데, 그것은 한 고균(archaea)의 막단백질 구조를 예측하는 것이었다. 루파스가 이끄는 연구팀은 지난 10년 동안 (교과서에 나오는) 모든 수단을 동원해 그 단백질의 엑스선 결정구조를 알아내려고 했지만 허사였다.

그러나 알파폴드는 아무런 어려움 없이, '3개의 부분으로 구성되었고, 한가운데에 두 개의 기다란 나선형 팔(helical arm)이 있는 단백질'을 그려냈다. 루파스와 동료들은 그 모델 덕분에 엑스선 데이터를 이해했고, 그로부터 30분 내에 실험결과와 '알파폴드가 예측한 구조'가 일치한다는 결론에 도달했다. "그건 거의 완벽했다"고 루파스는 말했다. "그들은 부정행위흘 하지 않은 게 분명하다. 그러나 문제를 어떻게 풀었는지는 모르겠다."

CASP에 참가하기 위한 조건으로, 딥마인드는 다른 팀들과 마찬가지로 세부적인 방법을 충분히 설명하기로 동의했다. 그래야만 다른 팀들이 결과를 재현할 수 있기 때문이다. 딥마인드의 방법은 실험주의자들에게 요긴하게 사용될 것이다. 정확히 예측된 구조를 이용하여, 불분명한 엑스선 및 cryo-EM 데이터를 이해할 수 있을 테니 말이다. "또한 딥마인드의 방법은 신약 설계자들로 하여금 새롭고 위험한 병원체(예: SARS-CoV-2)의 단백질 구조를 신속히 파악할 수 있게 해 줄 것이다. 단백질의 구조를 파악하는 것은, 그것을 차단할 분자를 사냥하는 핵심 단계이기 때문이다"라고 몰트는 말했다.

그럼에도 알파폴드는 아직 완성품이 아니다. 알파폴드는 이번 대회에서 하나의 단백질에 고전을 면치 못했다. 그것은 52개의 작은 분절(segment)들이 반복되는 아말감인데, 각각의 분절들이 조립될 때 서로의 위치를 왜곡시킨다. 점퍼에 따르면, 딥마인드의 목표는 그런 단백질뿐만 아니라 (함께 협력하여 세포 안에서 핵심 기능을 수행하는) 단백질 복합체의 구조를 해명하도록 알파폴드를 훈련시키는 것이라고 한다.

설사 하나의 난제(難題)가 해결되더라도, 또 다른 난제가 등장하기 마련이다. "이게 끝이 아니다." 손튼은 말했다. "이것은 많은 새로운 것들의 시작일 뿐이다."

※ 참고문헌
1. https://www.nature.com/articles/d41586-020-03348-4
2. https://ibric.org/myboard/read.php?Board=news&id=307279&SOURCE=6
3. https://www.sciencemag.org/news/2018/12/google-s-deepmind-aces-protein-folding

※ 출처: Science https://www.sciencemag.org/news/2020/11/game-has-changed-ai-triumphs-solving-protein-structures

원문 보기 (클릭)

프린트