IT 엔지니어가 읽은 《알파폴드: AI 신약개발 혁신》

들어가며: 우리는 왜 AI에 열광하는가

인류는 왜 천문학적인 리소스를 투입하며 AI를 연구할까요? 단순히 원하는 답을 조금 더 빨리 찾기 위해서일까요?
만약 AI가 인간이 이미 학습시킨 데이터를 그저 매끄럽게 요약해서 내뱉는 수준에 그쳤다면, 우리는 이토록 이 기술에 몰입하지 않았을 것입니다.
AI의 진정한 가치는 인류가 오랫동안 풀지 못했던 난제를 해결하는 데 있다고 생각합니다.

그 난제의 중심에는 바로 '생명(Life)'이 있습니다. 인류의 가장 근원적인 바람인 건강한 삶과 직결된 분야임에도 불구하고, 생명 현상은 그 복잡도가 상상을 초월합니다.
수십 년간 축적된 실험 데이터가 있음에도 불구하고 이를 해석하고 예측하는 데 다른 어떤 분야보다 긴 시간이 걸렸던 이유이기도 합니다.

그러나 알파폴드로 인해서 단백질 구조 예측이라는 50년 된 난제를 해결한 뉴스를 접했습니다.
알파폴드가 해결한 문제가 얼마나 어려운 문제였는지, 그리고 이로 인해 어떤 변화가 다가왔는지, 또 앞으로 남아있는 문제는 무엇인지가 궁금했습니다.

'생명의 부품, 단백질을 프로그래밍하다'라는 문구는 IT 개발자에게도 꽤 직관적으로 다가옵니다.
이 책과 함께 수 십년간 단백질 연구가 어떻게 진행되었으며, 그 과정에서 어떤 어려움과 성취가 있었는지 살펴봅니다.

핵심 내용 요약

이 책을 읽으면서 인상깊었던 내용을 아래와 같이 정리합니다.

1. 단백질의 엄청난 복잡성!

우리 몸의 모든 정보는 DNA라는 곳에 저장되어 있습니다. DNA 정보에서 단백질을 어떻게 만들어내는지 설명합니다.

설계도와 재료: DNA는 A, T, G, C라는 네 가지 정보가 길게 나열된 형태입니다. 우리 몸은 이 정보를 읽어서 단백질의 재료인 '아미노산'을 가져옵니다.
3대 1의 규칙: 신기하게도 DNA의 정보 세 개가 모여서 딱 하나의 아미노산을 결정합니다. DNA의 정보 순서가 조금만 바뀌어도 가져오는 아미노산의 종류가 달라지게 됩니다.
한 줄로 세우기: 이렇게 정해진 순서대로 아미노산들이 기차 놀이를 하듯 한 줄로 길게 연결되면, 그것이 바로 단백질의 기본 형태가 됩니다.

단백질이 가지는 아미노산은 300개~400개 정도의 아미노산으로 구성되어 있습니다.
그리고 단백질을 만드는 아미노산의 종류는 총 20가지 입니다.
만약 100개의 아미노산으로 구성된 아주 작은 단백질이 하나 있다고 가정해 보겠습니다. 이 단백질이 가질 수 있는 경우의 수는 20^100이나 됩니다.

2. 단백질의 모양은 기능을 결정한다!

단백질은 아미노산의 긴 사슬처럼 만들어지지만, 그 상태로는 아무런 일을 할 수 없습니다.
아미노산의 성질에 따라서 단백질의 긴 사슬이 3차원 구조로 변경되어 유지됩니다.
(물론 생명체는 살아 움직이기 때문에 아미노산 서열이 같다고 해서 구조가 완전히 같지는 않습니다. 하지만 단백질이 활성화 상태로 존재하려면 자유 에너지 상태가 가장 낮은 3차 구조를 형성해야 하고, 이 구조는 같습니다.)

모양이 곧 기능: 단백질이 우리 몸에서 효소, 항체, 근육 등의 역할을 수행하려면 반드시 특정한 3차원 입체 모양을 갖춰야 합니다.
예를 들어, 소화 효소는 음식물 분자를 딱 물 수 있는 '주머니' 모양이 있어야 하고, 항체는 바이러스를 붙잡을 수 있는 '집게' 모양이 있어야 합니다.
열쇠와 자물쇠: 단백질이 다른 분자와 결합하는 과정은 '열쇠'가 '자물쇠'에 딱 들어맞는 과정과 비슷합니다.
모양이 조금만 틀어져도 열쇠가 돌아가지 않는 것처럼, 단백질도 구조가 비정상적이면 제 기능을 하지 못하고 오히려 질병(광우병, 알츠하이머 등)의 원인이 되기도 합니다.

단백질의 모양이 그만큼 중요하기 때문에 과학자들은 이 모양을 알고 싶었습니다.
그런데 단백질은 너무 작기 때문에 일반적인 현미경으로는 관측할 수 없었고, 아미노산 서열의 경우의 수가 너무 많아서, 컴퓨터로 모든 경우를 다 계산할 수 없는 어려움이 있었습니다. (다 계산하려면 우주의 나이보다 오랜 시간이 걸린다고 합니다..)

3. 단백질의 구조를 알면 질병을 막을 수 있을까?

단백질의 입체 구조를 알아야 하는 가장 실질적인 이유는 '약이 달라붙을 자리'를 찾기 위해서입니다.
우리 몸의 질병은 보통 특정 단백질이 과하게 작동하거나 고장 났을 때 발생하는데, 약은 이 단백질의 특정 부위에 딱 결합하여 기능을 멈추게 하는 역할을 합니다.

K-Ras: K-Ras는 세포의 성장을 조절하는 스위치 같은 단백질입니다.
만약 이 단백질의 모양이 변형(변이)되어 스위치가 '켜짐' 상태로 고정되면, 세포가 멈추지 않고 증식하여 암이 됩니다.
췌장암, 폐암, 대장암 등에서 매우 빈번하게 발견되는 아주 위험한 단백질입니다.
제약의 어려움: K-Ras의 매끄러운 구조를 가지고 있습니다. 약이 단백질에 달라붙으려면 움푹 들어간 주머니 같은 공간이 있어야 합니다.
구조 분석으로 인한 해결: 정밀한 구조 분석 기술(X선 결정학 등)을 통해 단백질이 움직이는 과정에서 아주 잠깐 생겼다 사라지는 미세한 틈(Pocket)을 발견했습니다.
그 틈새에 딱 맞는 모양의 화합물을 설계했고, 마침내 K-Ras의 스위치를 강제로 끌 수 있는 약이 탄생했습니다.

이 사건은 '구조 기반 신약개발' 이라는 새로운 패러다임의 기반이 됩니다.

https://www.researchgate.net/figure/Binding-of-different-inhibitors-on-KRASG12C-a-Molecular-structure-of-sotorasib_fig2_369312688

위 그림에서 C12(변이가 일어난 지점)에 약물들 (Sotorasib, Adagrasib, JDA443)이 결합하는 구조를 살펴볼 수 있습니다.

4. 단백질 구조 예측의 어려움

위에도 언급했듯이 아미노산 서열을 알면 단백질 3차 구조도 정해집니다.
또 현재 우리가 알고 있는 아미노산 서열은 약 2억 개 이상에 달합니다.
그런데 구조 데이터(PDB)는 약 20만 개 밖에 되지 않습니다. 서열을 통해서 구조를 아는 것은 왜 어려울까요?

1) 레빈탈의 역설 (Levinthal's Paradox): 무한에 가까운 경우의 수

앞서 아미노산 서열의 조합이 우주의 원자 수보다 많다고 말씀드렸죠? 하지만 더 큰 문제는 '접히는 방식'입니다.

아미노산 사슬의 각 마디는 여러 각도로 꺾일 수 있습니다.
만약 4개의 아미노산으로 이루어진 단백질이라면 360*360*360=46,656,000 종의 가능한 단백질 구조가 발생합니다.

2) 에너지 최저점을 찾는 숨바꼭질 (Energy Landscape)

단백질은 매우 다양한 구조를 가질 수 있으며, 물리 법칙에 따라 에너지가 가장 낮은 상태로 접힙니다.

과학자들은 컴퓨터 시뮬레이션으로 이 최저점을 찾으려 노력했습니다.
하지만 단백질의 에너지 지형은 수많은 골짜기와 언덕이 있는 복잡한 산맥과 같습니다. 컴퓨터는 흔히 '가짜 최저점(Local Minimum)'에 빠져서 헤매기 일쑤였고, 진짜 정답(Global Minimum)을 찾기가 매우 힘들었습니다.

3) 실험의 한계: 사진 한 장에 수억 원

예측이 안 되니 직접 찍어서 확인하는 수밖에 없었습니다. 하지만 이 과정 또한 고난의 연속이었습니다.

X선 결정학: 단백질을 돌처럼 단단한 '결정'으로 만들어야 하는데, 모든 단백질이 결정화되는 것도 아니며 이 과정에만 수년이 걸리기도 합니다.
초저온 전자현미경: 단백질을 급속 냉동해 관찰하는 최신 기술이지만, 장비 가격만 수십에서 수백억 원에 달하고 숙련된 전문가가 필요합니다.

5. 알파폴드 혁명

2021년, 구글 딥마인드의 알파폴드 2는 전 세계 과학자들을 충격에 빠뜨렸습니다.
수십 년간 수만 명의 과학자가 매달려도 해결하지 못했던 문제를 AI가 실험값에 육박하는 정확도로 풀어냈기 때문입니다.

알파폴드2의 구조

알파폴드 2는 단순히 신경망을 깊게 쌓은 것이 아니라, '단백질의 물리적 특성'과 '진화의 원리'를 딥러닝 아키텍처 안에 직접 설계해 넣었다는 점이 가장 큰 특징입니다.

https://www.nature.com/articles/s41586-021-03819-2

Step 1. 입력부

MSA (다중서열정렬)
- 타겟 단백질과 비슷한 서열들을 데이터베이스에서 찾아 나열합니다.
- 이는 다른 종의 서열 정보도 포함되며, 모든 종은 유사한 단백질 진화 과정을 거쳤다는 사실을 전제합니다.
- 진화 과정에서 특정 위치의 아미노산이 변할 때 함께 변하는 다른 위치를 찾아내어, 두 아미노산이 입체 구조상 서로 '가까이' 있을 확률을 추론하는 기초가 됩니다.

Step 2. 에보포머 (Evoformer)

트랜스포머
- 단백질 구조는 3차원으로 되어있기 때문에 아미노산 서열 상에서 서로 인접하지 않은 아미노산들끼리도 영향을 줍니다.
  (예를 들어 1번 아미노산과 20번 아미노산이 친화성이 있어 서로 붙는 성질이 있다면 서열 상으로는 관련이 없어보이지만 실제로는 관련이 있습니다.)
- self-attention 매커니즘은 인접하지 않은 아미노산들의 관계를 효율적으로 찾아냅니다.
- 이렇게 찾아낸 아미노산들의 관계는 '아미노산-아미노산 엣지' 형태로 저장됩니다.
삼각형 업데이트
- 단백질 구조가 입체 정보라는 기하학적인 제약 조건을 학습합니다.
- 예를 들어 "A와 B가 가깝고 B와 C가 가깝다면, A와 C도 일정 거리 안에 있어야 한다"는 삼각형 부등식 같은 물리적 상식을 AI가 스스로 유지하도록 설계되었습니다.

Step 3. 출력부: 구조 모듈 (Structure Module)

IPA (Invariant Point Attention)
- 단백질이 공간상에서 회전하거나 이동하더라도 그 본래의 구조적 관계는 변하지 않아야 합니다.
- 이를 위해 회전과 병진 변환에 영향을 받지 않는 특수한 어텐션 메커니즘을 사용합니다.
재활용 (Recycling)
- 결과물을 한 번 내놓고 끝내는 것이 아니라, 그 결과물을 다시 입력부로 넣어 서너 번 반복해서 정교하게 다듬습니다.
- 이 과정을 통해 모델은 아주 미세한 각도까지 정확하게 맞추게 됩니다.

알파폴드로 인해서 생명과학 연구의 패러다임은 바꼈습니다.
과거에는 단백질의 구조 규명에 집중했다면 현재는 이 구조를 가진 단백질은 어떤 질병에 관여하며 어떻게 조절할 수 있을지 집중합니다.

또한 딥마인드가 '알파폴드 데이터베이스'를 공개했기 때문에 전 세계 연구자들은 값비싼 장비나 고도의 숙련도 없이도 웹사이트에서 클릭 몇 번으로 단백질의 3D 모델을 내려받을 수 있게 되었습니다.

6. 알파폴드의 한계

단백질은 여러 가지 구조를 가질 수 있으나 예측은 이를 잘 반영하지 못 한다.
- 상당수의 단백질은 하나의 구조를 계속 유지하기보다 때에 따라 다양한 형태로 변화합니다.
- 알파폴드는 주로 단백질이 가장 안정적인 상태의 스냅샷 하나를 보여주기 때문에 이를 잘 반영하지 못 합니다.
단백질은 생체 내에서 다양한 물질과 상호작용하나 알파폴드의 예측은 단백질 한정이다.
- 우리 몸속 단백질은 혼자 일하지 않습니다. 다른 단백질, DNA, RNA, 그리고 각종 화합물과 복잡하게 얽혀 작용합니다.
- 최근 '알파폴드 3'가 나오면서 단백질-리간드, 단백질-핵산 결합 예측이 크게 개선되었지만, 수십 개의 단백질이 엉겨 붙은 거대 복합체의 정밀한 상호작용을 완벽히 모사하기에는 아직 갈 길이 멉니다.
단백질의 진화 정보가 부족하면 예측 정밀도가 떨어진다.
- 자연계에 유사 단백질 종류가 극히 적은 단백질이라면 정밀도가 떨어질 수 잇습니다.
단백질 복합체의 예측 정밀도는 단일 단백질에 비해서 떨어진다.
- 단백질 복합체에 대한 구조 정보가 단일 단백질만큼 많지 않고, 단백질 복합체의 형성은 여러 가지 조건에 따라 달라지기 때문에 이를 예측하기 어렵습니다.
- 일부 단백질 복합체는 단백질 내 아미노산 변형이 일어나는 등 특정한 조건에서만 형성되므로 이를 정확하게 예측하기 어렵습니다.
항원-항체 복합체의 예측은 어렵다.
- 몸속 면역계에서는 항원이 들어올 때마다 항체의 아미노산 서열에 변화를 일으켜서 '실시간 진화'가 일어납니다.
- 이렇게 면역계에서 일어나는 '실시간 진화' 정보는 얻기 어렵습니다.
돌연변이에 따른 단백질 구조 변화는 거의 예측하지 못한다.
- 신기하게도 알파폴드는 서열이 아주 조금 바뀌었을 때 그 구조적 변화를 민감하게 포착하지 못하는 경우가 많습니다.
- AI가 학습한 '일반적인 규칙'에 치중하다 보니, 특이한 변이가 가져오는 치명적인 구조 변화를 간과할 때가 있는 것입니다.

7. 앞으로의 미래: 단백질 디자인

단백질 디자인은 단백질 구조 예측의 '역함수'이며, 이미 정해진 단백질의 3차 구조를 형성할 수 있는 아미노산 서열을 찾는 문제입니다.
비유하자면 자동차의 부품을 파악하는 것을 넘어 부품을 제작하는 것과 같은 원리입니다. 이 과정이 있어야 우리는 진짜 생명을 이해한다고 할 수 있을지 모릅니다.
오늘날에는 자연계에서 발견되는 단백질에 새로운 특성을 부여하거나, 자연계에는 없는 아예 새로운 기능을 하는 단백질을 만드는 실용적인 목적으로 접근하고 있습니다.

단백질을 자유자재로 설계할 수 있게 된다면, 다음과 같은 혁신적인 변화가 가능해집니다.

맞춤형 정밀 치료제: 특정 암세포의 표면 단백질에만 아주 강력하게 결합하는 인공 항체나 단백질 바인더를 설계하여 부작용 없는 항암제를 만들 수 있습니다.
환경 및 에너지 문제 해결: 플라스틱을 분해하는 효소나 대기 중의 탄소를 포집하는 고효율 인공 효소를 설계하여 지구 온난화 문제에 대응할 수 있습니다.
바이오 센서 및 소재: 특정 바이러스가 나타나면 색이 변하는 감지 단백질이나, 강철보다 강한 인공 거미줄 단백질 같은 신소재 개발이 가속화됩니다.

디퓨전 모델에 의한 단백질 디자인

단백질 디자인에서 디퓨전 모델은 '조각'과정으로 비유할 수 있습니다.

포워드 디퓨전 (Forward Diffusion): 멀쩡한 단백질 구조를 조금씩 흐트러뜨려 결국 아무 형태도 없는 '노이즈(먼지 같은 상태)'로 만드는 과정입니다. AI는 이 과정에서 단백질이 어떻게 파괴되는지를 학습합니다.
리버스 디퓨전 (Reverse Diffusion): AI가 학습한 내용을 바탕으로, 아무 의미 없는 노이즈 상태에서 단백질의 입체적인 형태를 조금씩 복원해 나가는 과정입니다.
- 이때 우리가 "암세포에 딱 붙는 모양이어야 해" 혹은 "이 부분은 집게 모양이어야 해"라는 조건을 주면, AI는 그 조건에 맞는 새로운 단백질 구조를 창조해냅니다.

실제 연구 현장에서는 AI모델들 함께 일합니다.

RFDiffusion (생성): 우리가 원하는 기능을 가진 단백질 구조를 수천 개 생성합니다.
ProteinMPNN (서열 설계): 생성된 3차원 구조를 안정적으로 유지해 줄 아미노산 서열을 결정합니다.
AlphaFold (검증): 생성된 단백질들이 실제로 안정적으로 접힐지, 우리가 의도한 모양대로 만들어질지 '채점'합니다.
최종 선발: 알파폴드 점수가 높은 단백질들만 골라 실제 실험실에서 합성합니다.

결론

AI 플랫폼 엔지니어로서 AI가 학습되고 서빙되는 인프라를 아는 것도 중요하지만, 내가 다루는 모델이 어떤 목적을 지니는지, 그리고 그 데이터가 어떤 맥락을 담고 있는지와 같은 AI의 본질을 이해하는 것 또한 놓쳐선 안 될 핵심 역량이라 생각합니다.

이번에 읽은 《알파폴드: AI 신약개발 혁신》은 AI 기술의 화려한 결과물 이면에 자리 잡은 수십 년간의 실험적 분투기를 밀도 있게 다루고 있습니다.
이 과정을 따라가며 모델이 처리하는 데이터 하나하나에 담긴 과학적 가치와 생명 현상의 경이로운 복잡성을 깊이 이해할 수 있었습니다.

알파폴드는 분명 거대한 혁신이지만, 바이오 AI가 넘어야 할 산은 여전히 많습니다.
이 책은 앞으로 그 복잡한 맥락을 정확히 읽어내기 위한 초석을 단단히 다져준, 엔지니어로서 매우 가치 있는 책이었다고 생각합니다.

참고

https://www.ai-bio.info/alphafold2-paper-review

AlphaFold2 리뷰

www.ai-bio.info

https://www.nature.com/articles/s41586-021-03819-2

https://www.nature.com/articles/s41586-025-09721-5

https://youtu.be/tq9BirqS12c?si=HGW8Aj2HeB0v4ZPh

https://youtu.be/uIWDW9TfLaM?si=R8UU6XzdpqwXp7Pt

https://youtu.be/ks-NZddZMCM?si=Snyqqtee2d3Q_Zg8

'AI' 카테고리의 다른 글

AI 에이전트 엔지니어링 - 비결정적 AI를 제어하는 법 (0)	2026.03.26
Chain of Thought(CoT): AI가 신뢰를 주는 방법 (1)	2026.03.21
ColabFold: 알파폴드2 모델 실행과 해석 (0)	2026.03.11
MLOps Engineer가 보는 딥시크(DeepSeek)에 대한 생각 (0)	2025.02.01
[D/L] CNN 이란? (feat. DACON) (0)	2022.01.16

들어가며: 우리는 왜 AI에 열광하는가

핵심 내용 요약

1. 단백질의 엄청난 복잡성!

2. 단백질의 모양은 기능을 결정한다!

3. 단백질의 구조를 알면 질병을 막을 수 있을까?

4. 단백질 구조 예측의 어려움

5. 알파폴드 혁명

6. 알파폴드의 한계

7. 앞으로의 미래: 단백질 디자인

결론

참고

'AI' 카테고리의 다른 글

티스토리툴바