Search

AlphaGenome 리뷰

Table of contents

AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model

들어가며

2025년 6월 25일, 구글 딥마인드에서 기능유전체학(functional genomics) 분야의 새로운 foundation model, 알파지놈(AlphaGenome)을 발표했습니다. AlphaGenome은 오직 DNA 서열만을 이용하여 유전자 발현량, 스플라이싱(splicing) 패턴, 염색질 접근성(chromatin accessibility) 등 다양한 functional genomic modality를 예측하는 “sequence-to-function” 모델로서, 유전 변이에 의해 유전체 상에 일어나는 다양한 기능적인 변화들을 한번에, 그리고 높은 정확도로 예측할 수 있다는 점에서 유전체 분석 분야에서 폭넓은 활용도를 보일 것으로 기대되는 모델입니다. 이 포스팅에서는 AlphaGenome preprint를 살펴보고, 모델의 특징과 실험 결과를 정리하며 AlphaGenome이 생물정보학 분야에서 어떤 의미를 가지는지 알아보도록 하겠습니다.
이에 앞서, AlphaGenome의 작동 방식과 의의를 이해하기 위한 필수 배경 지식에 대해 먼저 짚고 넘어가볼까요?

유전체

우리 몸은 세포라는 단위로 구성되어 있고, (거의 모든) 세포의 안에는 막으로 둘러싸인 핵이라는 세포 소기관이 존재합니다. 핵 내에는 A, C, G, T의 4개 염기가 이어붙여진 DNA라는 길다란 분자들이 존재합니다. DNA는 핵 내에 흐물흐물하게 퍼져서 존재하는 것이 아니라, “히스톤”이라는 공 모양의 단백질에 감긴 상태로 존재하는데요, 마치 수많은 실타래에 실이 감겨있는 형태로 볼 수 있습니다. 이렇게 DNA와 히스톤 단백질 및 여타 단백질들의 복합 구조를 염색질(chromatin)이라고 하며, 염색질은 세포의 상태에 따라, 혹은 DNA 가닥의 위치에 따라 느슨하게 풀리기도 하고 단단하게 결합하여 압축되기도 합니다. 가장 극단적으로 압축된다면, 우리가 언젠가 한 번쯤 현미경으로 보았을 염색체(아래 그림)의 모양을 띠게 됩니다.
DNA, 염색질, 염색체. 출처: https://www.genome.gov/genetics-glossary/Chromatin
DNA가 세포 내에 어떻게 구조화되어 저장되어 있는지 간단히 알아보았습니다. 그렇다면 유전체(genome)란 대체 무엇일까요? 이를 위해서는 DNA가 담고 있는 정보에 대한 이해가 필요합니다.
유전자(gene)
DNA는 단순히 A, C, G, T라는 네 개의 염기가 무작정 나열된 것이 아닙니다. A, C, G, T의 나열, 즉 염기 서열에는 생명체가 살아가는 데 필요한 모든 정보가 담겨 있는데요, 마치 책 안의 글자들이 하나하나 모여 고유의 뜻을 가지는 단어들을 이루고, 단어들이 모여 문장을 구성하며, 문장들이 모여 하나의 완전한 이야기를 만들어내는 것처럼요.
DNA 서열 중에서 특정한 기능을 하는 단백질을 만들어내는 정보를 담고 있는(암호화하는) 구간을 우리는 유전자(gene)라고 부릅니다. 하나의 유전자는 보통 수백 개에서 수만 개의 염기로 이루어져 있으며, 각 유전자는 고유한 단백질을 만들어내는 설계도, 혹은 레시피와 같은 역할을 합니다. 예를 들어, 우리 눈의 색깔을 결정하는 멜라닌 색소를 만드는 단백질의 정보가 담긴 유전자가 있고, 혈액 속에서 산소를 운반하는 헤모글로빈 단백질의 정보가 담긴 유전자도 따로 존재하는 식이죠.
유전체(genome)
유전체란 한 생물이 가지고 있는 모든 유전 정보를 모두 합친 것을 총체적으로 의미합니다. 특히, 단백질에 대한 정보를 직접적으로 담고 있는 암호화 부위(coding region)은 물론이거니와, 아직 그 기능이 명확히 밝혀지지 않은 비암호화부위(non-coding region)들을 모두 포함하는 개념이라는 것이 중요합니다. 즉, 인간의 경우, 아버지와 어머니로부터 각각 23개씩 물려받은 총 46개 염색체에 담긴 약 32억 개의 염기쌍이 바로 인간의 유전체를 구성하게 됩니다.
유전체 안에는 앞서 설명한 유전자들이 약 2만 개 정도 존재한다고 알려져 있습니다. 하지만 흥미롭게도, 인간의 DNA 전체에서 실제로 단백질을 만드는 정보를 담고 있는 coding region은 전체의 약 2% 정도에 불과합니다. 나머지 98%의 non-coding region 부분에 대해서는 아직도 활발한 연구가 진행되고 있고, 흔히 유전자의 발현을 조절하거나 염색질의 구조를 유지하는 등 다양한 역할을 하는 것으로 알려져 있습니다.
AlphaGenome은 바로 이러한 non-coding region 부분에 집중하며, 특히 non-coding region의 DNA 염기가 “변했을 때” 어떤 일들이 생길지를 예측하는 모델입니다.
유전 변이(variant; mutation)
그렇다면 DNA 염기가 "변한다"는 것은 무엇을 의미할까요? 이를 이해하기 위해서는 유전 변이(variant 혹은 mutation)라는 개념을 이해해야 합니다.
유전 변이란 기준이 되는 DNA 서열(보통 참조유전체(reference genome)라 부르는)과 비교했을 때, 특정 위치의 염기가 다르게 나타나는 현상을 말합니다. 예를 들어, 어떤 위치에서 기준 서열에서는 A 염기가 있는데, 실제로는 T 염기가 관찰된다면 이것이 바로 유전 변이인 것이죠. 마치 책을 베껴 쓰는 과정에서 가끔 오타가 생기는 것과 비슷하다고 볼 수 있습니다.
유전 변이는 크게 두 가지로 나눌 수 있습니다. 첫 번째는 coding region에서 발생하는 coding variant입니다. 이러한 변이는 직접적으로 단백질의 아미노산 서열을 바꾸기 때문에 그 영향을 비교적 예측하기 쉽습니다. 단백질의 기능이 완전히 망가지거나, 반대로 전혀 영향을 주지 않는 경우가 대부분입니다.
두 번째는 non-coding region에서 발생하는 non-coding variant입니다. 이 경우가 훨씬 복잡한데, 직접적으로 단백질을 바꾸지는 않지만 유전자의 발현 정도를 조절하는 역할을 할 수 있습니다. 이를 양적 형질 유전자좌(QTL; Quantitative Trait Locus)라고 부르기도 하는데, 특정 형질(예: 키, 혈압, 질병 감수성 등)에 미치는 영향이 연속적이고 정량적으로 나타나는 특징이 있습니다. 바로 이 부분이 AlphaGenome이 주목하는 영역 중 하나입니다.

기능유전체

앞서 살펴본 유전체가 “생명의 설계도”라는 개념이었다면, 기능유전체는 “그 생명의 설계도가 어떻게 사용되고 있는지”에 집중합니다.
프로모터(promoter)와 유전자 발현(gene expression)
유전자가 단백질을 만들어내는 설계도라면, 그 설계도를 언제, 어느 정도로 사용할지를 결정하는 것이 바로 유전자 발현(gene expression)입니다. 이때 핵심적인 역할을 하는 것이 프로모터(promoter)라는 DNA 서열입니다.
프로모터는 각 유전자의 시작 부분 앞쪽에 위치한 조절 서열로, 마치 "이 유전자를 지금 사용하라"는 신호등과 같은 역할을 합니다. 프로모터 서열에는 RNA 중합효소(RNA polymerase)라는 효소가 결합하게 되고, 이 효소가 DNA를 읽어서 전령 RNA(messenger RNA, mRNA)로 전사(transcription)하는 과정이 시작됩니다. 프로모터의 활성도가 높을수록 더 많은 mRNA가 만들어지고, 결과적으로 더 많은 단백질이 생산되는 것이죠.
흥미롭게도, 같은 유전자라도 세포의 종류나 상황에 따라 발현 정도가 달라집니다. 예를 들어, 인슐린 유전자는 췌장의 베타 세포에서는 활발히 발현되지만, 뇌세포에서는 거의 발현되지 않습니다. 이러한 조절이 가능한 이유는 프로모터 주변에 다양한 조절 요소들이 존재하기 때문입니다.
전사 인자(transcription factor)
그렇다면 프로모터의 활성을 조절하는 것은 무엇일까요? 바로 전사 인자(transcription factor, TF)라는 단백질들입니다.
전사 인자는 특정한 DNA 서열에 결합하여 유전자 발현을 촉진하거나 억제하는 단백질로, 인간에게는 약 1,600개 정도의 전사 인자가 존재한다고 알려져 있습니다. 이들이 조합적으로 작용하여 세포 타입별로, 그리고 발달 단계별로 고유한 유전자 발현 패턴을 만들어내고, 이러한 복잡한 조절 네트워크 덕분에 같은 유전체(동일한 유전 정보)를 가진 세포들이 뇌세포, 간세포, 근육세포 등 전혀 다른 기능을 수행할 수 있는 것입니다.
염색질 접근성(chromatin accessibility)
전사 인자가 DNA에 결합하려면 먼저 그 DNA 부위에 물리적으로 접근할 수 있어야 합니다. 하지만 앞서 설명했듯이 DNA는 히스톤 단백질에 감겨있는 염색질 형태로 존재하기 때문에, 모든 DNA 서열이 항상 접근 가능한 것은 아닙니다.
염색질 접근성(chromatin accessibility)이란 특정 DNA 서열이 전사 인자나 다른 단백질들이 결합할 수 있을 정도로 열려있는 상태를 의미합니다. 염색질이 느슨하게 풀려 열린 상태(open chromatin)에서는 전사 인자들이 쉽게 결합할 수 있어 유전자 발현이 활발해지고, 반대로 염색질이 단단히 압축되어 닫힌 상태(closed chromatin)에서는 유전자 발현이 억제됩니다.
염색질 접근성은 다양한 요인에 의해 조절됩니다. 크로마틴 리모델링 복합체(chromatin remodeling complex)라는 단백질 복합체들이 ATP 에너지를 사용해서 히스톤을 이동시키거나 제거하여 DNA를 노출시키기도 하고, 특정 전사 인자들이 "개척자 전사 인자(pioneer transcription factor)" 역할을 하여 닫힌 염색질을 여는 역할을 하기도 합니다.
인핸서(enhancer), 염색질 접촉(chromatin contact), 3차원 genome(3D genome)
유전자 발현 조절에서 프로모터만큼 중요한 또 다른 요소가 바로 인핸서(enhancer)입니다. 인핸서는 유전자로부터 수천에서 수백만 염기 떨어진 곳에 위치하면서도 해당 유전자의 발현을 강화시키는 DNA 서열입니다.
그렇다면 멀리 떨어진 인핸서가 어떻게 특정 유전자에 영향을 줄 수 있을까요? 이는 3차원 유전체 구조와 관련이 있습니다. DNA는 핵 내에서 단순히 일직선으로 펼쳐져 있는 것이 아니라, 복잡하게 접히고 루프를 형성하면서 3차원적인 구조를 만들어냅니다. 이 과정에서 선형적으로는 멀리 떨어져 있던 인핸서와 프로모터가 물리적으로 가까워져 직접 상호작용할 수 있게 됩니다.
이러한 염색질 접촉(chromatin contact)은 무작위로 일어나는 것이 아닙니다. CTCF라는 단백질과 코헤신(cohesin) 복합체가 협력하여 특정 DNA 구간들을 루프 형태로 만들어주는 역할을 합니다. 이때 형성되는 구조를 토폴로지 관련 도메인(TAD; Topologically Associating Domain)이라고 하는데, 같은 TAD 내의 인핸서와 프로모터는 서로 상호작용할 확률이 높아집니다. 재밌는 것은, CTCF 단백질 또한 선호하는 DNA 서열이 있다는 점입니다. CCCTC-Binding Factor 에서 따온 단백질 이름에서부터 알 수 있죠. 곰곰이 생각해보면, 3차원 유전체 구조 형성에 깊게 관여하는 단백질이 선호하는 유전체 서열이 있다는 사실은 3차원 유전체 구조 형성 패턴 그 자체도 유전체 내에 하나의 정보로서 암호화되어 있다는 것을 의미합니다. 놀랍지 않나요?
스플라이싱(splicing)
DNA에서 mRNA로 전사가 완료되었다고 해서 바로 단백질이 만들어지는 것은 아닙니다. 진핵생물의 유전자는 대부분 엑손(exon)과 인트론(intron)이라는 구조로 되어 있는데, 엑손은 실제로 단백질 서열 정보를 담고 있는 부분이고, 인트론은 그 사이사이에 끼어있는 서열로 최종 mRNA에서는 제거되어야 하는 부분입니다.
스플라이싱(splicing)이란 바로 이 인트론을 제거하고 엑손들만을 이어붙이는 과정을 말합니다. 이 과정은 스플라이소솜(spliceosome)이라는 거대한 RNA-단백질 복합체에 의해 수행되며, 매우 정교한 인식 과정을 거쳐 정확한 위치에서 절단과 연결이 일어납니다.
흥미롭게도, 많은 유전자에서는 하나의 DNA 서열로부터 여러 가지 다른 mRNA가 만들어질 수 있습니다. 이를 대안적 스플라이싱(alternative splicing)이라고 하는데, 특정 엑손을 포함시키거나 제외시키는 방식으로 조절됩니다. 예를 들어, 어떤 유전자가 5개의 엑손을 가지고 있다면, 1-2-3-5번 엑손만 연결하거나, 1-2-4-5번 엑손을 연결하는 식으로 다양한 조합이 가능합니다.
이러한 대안적 스플라이싱 덕분에 인간은 약 2만 개의 유전자로부터 10만 개 이상의 서로 다른 단백질을 만들어낼 수 있습니다. 스플라이싱 패턴은 세포 종류나 발달 단계, 질병 상태에 따라 달라지며, 스플라이싱 조절 요소(splicing regulatory element)들과 관련 단백질들에 의해 정교하게 조절됩니다.
폴리아데닐화(polyadenylation)
mRNA가 완성되기 위한 마지막 단계 중 하나가 바로 폴리아데닐화(polyadenylation)입니다. 이는 mRNA의 3' 말단에 아데닌(A) 염기가 연속으로 약 200개 정도 붙는 과정으로, 이렇게 형성된 구조를 폴리A 꼬리(poly-A tail)라고 합니다.
폴리A 꼬리는 mRNA의 안정성과 번역 효율에 매우 중요한 역할을 합니다. 첫째, 폴리A 꼬리는 mRNA를 분해하는 효소들로부터 mRNA를 보호하여 반감기를 늘려줍니다. 둘째, 폴리A 결합 단백질(PABP)과 결합하여 리보솜에 의한 번역 과정을 촉진시킵니다.
폴리아데닐화가 일어나는 위치는 폴리아데닐화 신호(polyadenylation signal)에 의해 결정됩니다. 대표적으로 AAUAAA라는 서열이 있고, 이 서열 하류 10-30개 염기 떨어진 곳에서 실제 절단이 일어납니다. 하지만 많은 유전자들이 여러 개의 폴리아데닐화 사이트를 가지고 있어서, 어느 사이트를 사용하느냐에 따라 mRNA의 길이와 안정성이 달라집니다.
이러한 대안적 폴리아데닐화(alternative polyadenylation)는 유전자 발현 조절의 또 다른 중요한 메커니즘으로, 세포 분열, 세포 분화, 스트레스 반응 등 다양한 생물학적 과정에서 활용됩니다. 특히 3' UTR 길이가 달라지면 마이크로RNA의 결합 사이트 수가 변하여 전사 후 조절(post-transcriptional regulation)에도 영향을 미칩니다.
히스톤 변형(histone modifications)
마지막으로, 염색질 수준에서 유전자 발현을 조절하는 중요한 메커니즘인 히스톤 변형(histone modifications)에 대해 알아보겠습니다.
히스톤 단백질의 아미노산 서열 중 특정 위치에는 다양한 화학적 변형이 일어날 수 있습니다. 대표적으로 라이신(lysine) 잔기에 일어나는 아세틸화(acetylation), 메틸화(methylation), 유비퀴틴화(ubiquitination) 등이 있고, 세린(serine)이나 트레오닌(threonine) 잔기에 일어나는 인산화(phosphorylation) 등이 있습니다.
이러한 히스톤 변형들은 그 종류에 따라 고유한 기능을 가지고 있습니다. 예를 들어, H3K4me3(히스톤 H3의 4번째 라이신의 3-메틸화)는 활발히 전사되는 유전자의 프로모터 부위에서 주로 발견되는 "활성화 마크"입니다. 반면 H3K27me3는 유전자 발현이 억제된 부위에서 발견되는 "억제 마크"입니다. H3K4me1과 H3K27ac는 활성화된 인핸서의 특징적인 마크로 사용됩니다.
이러한 히스톤 변형 패턴은 후성유전학(epigenetics)의 핵심 요소로, DNA 서열의 변화 없이도 유전자 발현을 조절할 수 있게 해줍니다. 중요한 것은 이러한 변형들이 세포 분열을 통해 어느 정도 유지될 수 있다는 점입니다. 이를 통해 세포들이 자신의 정체성을 기억하고 유지할 수 있는 것이죠.

유전체 서열 분석 (시퀀싱)

유전체 서열 분석 방법의 흐름
유전자 발현 분석을 위한 시퀀싱 방법: RNA-seq, CAGE-seq, PRO-cap
유전자가 실제로 얼마나 활발하게 작동하고 있는지를 알아보기 위해서는 현재 세포 내에 존재하는 메신저 RNA(messenger RNA, mRNA)의 양을 분석해야 합니다. 실제 단백질의 생산은 개개의 mRNA를 읽으면서 이루어지기 때문에, 어떤 단백질 정보를 암호화하는 mRNA 양이 많다는 것은 대개 해당 단백질의 양이 많다는 것으로 생각해볼 수 있습니다.
염색질 접근성 분석을 위한 시퀀싱 방법: DNase, ATAC-seq
히스톤 변형 및 전사 인자 결합 분석을 위한 시퀀싱 방법: ChIP-seq
염색질 접촉 분석을 위한 시퀀싱 방법: Hi-C, micro-C
DNA는 세포 핵 안에서 무작정 뭉쳐있는 것이 아니라, 매우 정교한 3차원 구조를 가지고 있습니다. 마치 실뭉치가 복잡하게 얽혀있는 것처럼 보이지만, 실제로는 특정한 패턴과 규칙에 따라 접혀있는 것이죠. 전의 “인핸서” 파트에서 알아보았듯이 이러한 3차원 구조는 유전자의 발현 조절에 매우 중요한 역할을 하게 됩니다.
Hi-C(High-throughput Chromatin Conformation Capture)는 이러한 염색질의 3차원 구조를 분석하는 대표적인 방법입니다. 기본 원리는 의외로 간단한데요, 세포 안에서 공간적으로 가까이 위치한 DNA 부위들을 화학적으로 연결시킨 후, 이를 시퀀싱해서 어떤 부위들이 서로 접촉하고 있는지를 알아내는 것입니다.
micro-C는 Hi-C의 개선된 버전으로, 더 높은 해상도로 염색질의 접촉을 분석할 수 있는 방법입니다. Hi-C가 수 킬로베이스(kb) 단위의 해상도를 제공한다면, micro-C는 수백 베이스 단위까지 세밀하게 분석할 수 있어서, 개별 유전자 수준에서의 염색질 상호작용을 더 정확히 파악할 수 있습니다.

Sequence-to-function 모델의 역사

준비 중입니다…
유전자 발현 예측 모델
Xpresso
Expecto
ProCapNet (Transcription initiation 예측)
TF binding 예측
DeepBind
BPNet
ChromBPNet
Splicing 예측
SpliceAI
Pangolin
Alternative polyadenylation 예측
APARENT2
Chromatin contact 예측
Orca
Multi-modal 예측
Basenji
Borzoi
Enformer

AlphaGenome, 무엇을 예측하는 모델인가?

세포의 유전체가 어떻게 활용되고 있는지, 그 기능적인 상태는 어떻게 포착할 수 있을까요? 세포핵 내에 DNA가 어떤 형태로 존재하고, 어떤 일을 하고 있는지 사진이나 동영상이라도 찍을 수 있으면 좋을 텐데, 쉬운 일은 아닐 겁니다. 이렇게 유전체 상태를 우리 눈으로 직접 확인할 수는 없기에, 생물정보학 분야에서는 서열분석(시퀀싱; sequencing) 기법에 기반하여 간접적인 방법으로 유전체의 기능적인 상태를 포착하는 기법이 활발히 개발되어 오고 있습니다. (서열분석 기법에 대한 개요는 앞 섹션을 참고해 주세요.)
서열분석을 통해 어떻게 유전체의 활성 상태를 포착할 수 있을까요? 각각의 방법마다 고유의 시료 처리 방법과 분석 방법이 있지만 근본 원리는 모두 같습니다.
유전체의 어떤 지역 rr 에서 포착하고자 하는 기능적인 활성도(Ar(A_r)가 있다고 하자. 예를 들어, ArA_r은 유전자 발현량, 특정 전사 인자가 결합되었는지 아닌지의 여부, 염색질이 얼마나 열려 있는지(염색질 접근성) 등이 될 수 있다.
이 때, 세포 시료에 모종의 처리를 하여 시퀀싱했을 때 ArA_r이 클수록 유전체 지역 rr 에서 유래된 서열 조각들이 많아지게” 할 수 있다고 가정해 보자.
그러면 시퀀싱 데이터(기계로 읽어낸 수많은 서열 조각들)를 다시 참조유전체에 매핑했을 때 유전체 지역 rr 에 매핑된 서열 조각의 양은 곧 해당 유전체 지역의 기능적인 활성도를 나타내는 값이라고 생각할 수 있다. (”참조유전체 매핑”의 의미에 대해서는 앞 섹션을 참고해 주세요.)
AlphaGenome 논문 결과 데이터를 이해하기 위해서는 위의 원리를 이해하는 것이 필수적이므로, 몇 가지 예를 들어 좀 더 쉽게 이해해 봅시다.
유전체 지역 rr 이 어떤 유전자 X이고, 측정하고자 하는 기능적인 활성도 ArA_r 값이 유전자 발현량이라면 어떤 시퀀싱을 해야 할까요?
대표적으로 RNA 시퀀싱(RNA-seq) 이라는 방법을 이용하면 됩니다. 간단히 설명하자면 RNA-seq은, DNA를 읽는 대신 세포 내에 존재하는 RNA 서열 조각들을 읽어 내는 방법입니다. 따라서 유전자 발현량이 큰 유전자의 경우 해당 유전자에서 유래된 서열 조각들이 많아질 테고, 결과적으로 위의 원리를 만족하게 되는 것이죠!
주로 조절 부위(프로모터/인핸서)를 포함하는 임의의 유전체 지역 rr 에 대해, 측정하고자 하는 기능적인 활성도 ArA_r 값이 특정 전사 인자의 결합이라면 어떤 시퀀싱을 해야 할까요?
전사 인자 염색질 면역 침전 시퀀싱(TF ChIP-seq) 방법을 이용하면 됩니다. 간단히 설명하자면 이 방법은 “TF가 결합하여 붙잡고 있는” 서열을 더이상 떨어뜨리지 못하도록 단단히 결합시킨 후, 시료에서 TF를 분리한 다음 TF가 붙잡고 있던 서열을 읽어 내는 방법입니다. 따라서 많은 세포에서 TF가 공통적으로 결합해있던 유전체 지역의 경우 해당 지역을 “붙잡고 있던” TF가 많을 테고, 결과적으로 위의 원리를 만족하게 됩니다.
참고로 특정 히스톤 변형(히스톤 마크)의 양을 정량화할 때도 히스톤 ChIP-seq(histone ChIP-seq)이라는 유사한 방법을 사용합니다. 특정 히스톤 마크를 보유한 히스톤 단백질을 특이적으로 분리하여 “히스톤을 휘감고 있던” 서열을 읽어 내는 원리가 되겠습니다.
임의의 유전체 지역 rr 에 대해, 측정하고자 하는 기능적인 활성도 ArA_r 값이 염색질 접근성이라면 어떤 시퀀싱을 해야 할까요? 즉, 염색질이 얼마나 열려 있는지 측정하고 싶다면 어떻게 해야 할까요?
DNase-seq 혹은 ATAC-seq 등의 방법을 이용하면 됩니다. 이 방법들의 공통적인 원리는 바로 열린 염색질 부위에만 접근하여 작동하는 효소를 처리해준다는 것입니다. DNase-seq의 경우는 열린 염색질 부위에서 서열을 잘라내는 DNase를 처리하고, ATAC-seq의 경우에는 Tn5 transposase 효소를 처리하여 서열을 잘라내면서 서열분석에 사용되는 어댑터 서열로 태깅(tagging)하는 방법입니다. 결과적으로 이러한 효소들이 잘 처리되는 부분(즉, 열린 염색질 부위)에서 더 많은 서열 조각들이 유래하게 되고, 역시 위의 원리를 만족하게 됩니다.
마지막으로, 앞서 배운 것들을 조금 응용해봅시다. 임의의 두 유전체 지역 r1r_1r2r_2에 대해서, 측정하고자 하는 기능적인 활성도 Ar1r2A_{r_1r_2}값이 두 지역의 공간적 접촉이라면 어떤 시퀀싱을 해야 할까요?
Hi-C와 같은 방법을 이용합니다. 간단히 설명하면, 먼저 세포 내의 유전체 3차원 구조가 그대로 유지되도록, 즉 서로 붙어 있는 두 유전체 지역(r1r_1, r2r_2)이 떨어지지 않도록 cross-linking을 수행하고, 그 상태로 제한효소를 처리하여 DNA를 잘라냅니다. 공간적으로 붙어 있던 두 지역 r1r_1, r2r_2는 아직도 붙어 있다는 사실이 중요합니다. 이제 서로 붙어 있는 두 DNA 조각들을 서로 이어붙이고(ligation), 서열분석을 수행합니다.
이렇게 읽은 서열 조각의 양쪽 끝을 읽었을 때의 결과를 상상해 볼까요? 한쪽 끝은 r1r_1에서 왔고, 다른쪽은 r2r_2에서 왔을 겁니다. 결과적으로 이러한 서열 조각의 쌍을 참조유전체에 다시 매핑한다면, 원래 세포에서 공간적으로 접촉하고 있던 유전체 부위들을 역추적할 수 있게 됩니다.
위 모든 서열분석 방법의 결과로 우리는 각 유전체 위치에 대해 매핑된 서열 조각의 양을 얻고 이를 유전체의 기능적인 활성도로 보고 분석을 수행합니다. 이 때, 각 유전체 위치에 대해 매핑된 서열 조각의 양을 시각화한다면 아래와 같이 genomic track이라 부르는, 좌우로 길다란 그래프를 얻습니다.
Genomic track의 예시들.

AlphaGenome은 서열로부터 다양한 genomic track을 예측한다

이제 우리는 AlphaGenome이 무엇을 예측하는지 쉽게 이해해볼 수 있습니다.

Variant effect prediction 성능 평가

스플라이싱(splicing) 변화 예측

준비 중입니다…

유전자 발현 변화 예측

준비 중입니다…
eQTL 효과 예측
eQTL 분석을 위한 변이 점수화 방법. 참조 서열(REF) 상태일 때의 유전자 엑손 부분 RNA-seq track 시그널의 평균 값과, 변이(ALT) 상태일 때의 시그널 평균 값의 log-fold change로 볼 수 있다.
chr22:36201698:A>C 변이와 연관된 APOL4 유전자 발현량 감소를 예측하는 AlphaGenome.
5’-GT-3’ motif를 5’-GG-3’ 으로 바꾸는 것. Aberrant splicing이 일어나는 것 까지는 ok, 그러면 intron 부분의 expression이 올라간다거나 하는 결과가 나와야 하지 않을까? 왜 전체적인 발현량이 감소한다고 예측하지?
인핸서 - 유전자 연결(enhancer-gene linking) 예측 성능
어떤 유전자의 발현은 유전체 상에서 해당 유전자에 가까운 조절 요소들(예: 프로모터 부위의 히스톤 변형 및 염색질 접근성)의 영향을 가장 많이 받습니다. 그러나 신기하게도, 많은 경우에 유전자와 멀리 떨어진 부위에 의해서도 유전자 발현이 조절되는 현상이 알려져 있습니다. 오른쪽 그림에서 볼 수 있듯이, 이들은 1차원적으로는 유전자와 멀리 떨어져 있지만 염색질 접힘(chromatin folding)에 의해 유전자와 가깝게 위치하고, 전사 인자들을 추가적으로 끌여들여 유전자 발현을 조절합니다. 이러한 유전체 부위들을 통틀어 원거리 조절 요소(distal control elements/distal regulatory elements)라 부르며, 그 중에서도 유전자 발현을 촉진하는 요소들을 인핸서(enhancer), 억제하는 요소들을 사일런서(silencer)라 합니다. 아무래도 역사적으로 유전자 발현을 촉진하는 인핸서의 중요성이 부각되어 온 만큼, 축적된 데이터와 연구 결과 또한 인핸서 쪽이 더 많은 것이 사실입니다. 따라서 여기서는 인핸서에 주목해보도록 하겠습니다.
인핸서가 특정 조직에서 정해진 유전자의 발현을 정교하게 조절하는 것은 조직 특이적인 유전자 발현에 중요합니다. 반대로, 특정 조직에서 어떤 유전자와 연결되지 말아야 할 인핸서가 잘못 연결되어 해당 유전자 발현을 촉진할 경우 질병의 원인이 되기도 합니다. 결국 어떤 조직에서 특정 유전자와 연결된 인핸서를 찾아내고, 나아가 인핸서-유전자 연결을 예측하는 것은 질병의 기작을 이해하는데 굉장히 중요하다고 할 수 있겠습니다.
인핸서에 의한 유전자 발현 조절. 출처: https://opened.cuny.edu/courseware/lesson/685/student-old/?task=3
저자들은 AlphaGenome이 서열로부터 인핸서-프로모터 상호작용(E-P interaction)을 성공적으로 예측할 수 있다는 벤치마크 결과를 보여줍니다. 벤치마크 데이터로는 ENCODE-rE2G 논문에서 잘 정리해서 사용한, CRISPRi 실험을 통해 검증된 인핸서-유전자 쌍을 사용합니다. 총 10353개의 쌍들 중 471개의 정답 쌍이 있는 데이터라고 하네요. CRISPR를 사용한 enhancer 스크리닝 기법(예를 들어, CRISPRi-FlowFISH)은 흔히 사용되는 기법입니다. 궁금하신 분들은 아래의 설명을 참고해 주세요.
Enhancer-gene pair 검출을 위한 CRISPR 실험
CRISPRi-FlowFISH 실험 기법
ENCODE-rE2G 벤치마크 데이터셋
그러면 AlphaGenome을 통해서 어떻게 인핸서-프로모터 상호작용을 예측할 수 있을까요? 여기서는 gradient 기반 방법을 사용했다고 합니다. 방법을 간단히 정리하면 다음과 같습니다.
1.
타겟 유전자를 중심으로 윈도우를 정렬한 다음, 해당 서열을 AlphaGenome에 넣어 유전자 발현량(RNA-seq) track을 예측합니다. (K562 track에 대해서 수행합니다.)
2.
엑손 부분의 유전자 발현량 값의 평균을 구한 다음, 이 값으로 backpropagation을 수행하여 입력 서열에 걸리는 gradient contribution score를 구합니다.
즉, 각 입력 서열 위치에 대해 “염기를 다른 염기로 대체했을 때 유전자 발현량이 얼마나 변하는지”를 나타내는 값이라고 보면 됩니다.
3.
관심 있는 후보 인핸서를 중심으로 하여 2400kbp 윈도우를 잡고, gradient contribution score를 구합니다. 중심 부분의 점수를 더 강조하기 위해, 표준편차 300의 정규분포 가중치를 줍니다.
4.
이렇게 해당 유전자에 대해, 주변에 존재하는 후보 인핸서들의 점수를 뽑아낼 수 있습니다. 점수가 높을수록 유전자와 연관성이 높은 인핸서로 예측했다는 의미입니다.
이제 결과 그림을 한 번 살펴봅시다. 먼저 zero-shot 성능이 비교 대상 모델인 Borzoi 보다 약간 높아졌음을 보여주고 있네요 (아래 그림, 왼쪽). 여기서 zero-shot이라 함은, 명시적으로 “이 인핸서와 이 유전자가 쌍을 이룬다”라는 정보를 주고 지도학습을 한 것이 아니라, 유전자 발현 및 여타 track들을 예측하는 (관련성은 있지만 다른) 태스크로 학습한 모델을 인핸서-유전자 예측에 활용했다는 의미입니다. Y축(area under precision-recall curve)은 아주아주 쉽게 말해, 총 10353개의 쌍들 중 471개의 정답 쌍들의 점수가 얼마나 높게 분포하는지에 대한 값으로 보시면 됩니다. 예측 성능이죠. 100kb보다 멀리 떨어진 인핸서에 대한 예측은 아직 만족스러운 수준은 아닌 것으로 보이네요.
Figure 4j. Zero-shot 예측 성능 (왼쪽), ENCODE-rE2G-extended 모델의 입력 피처에 AlphaGenome에서 얻은 인핸서-유전자 예측 점수를 함께 사용했을 때의 예측 성능 (오른쪽)
오른쪽 그래프는 ENCODE-rE2G-extended 라는 인핸서-유전자 쌍 예측 모델이 학습할 때 사용했던 입력 피처에 AlphaGenome에서 얻은 인핸서-유전자 예측 점수를 함께 사용했을 때 예측 성능이 향상됨을 보여주고 있습니다. ENCODE-rE2G-extended 모델이 원래 사용했던 입력 피처는 염색질 접근성, 3차원 염색질 접촉 빈도 등 직관적으로 이해가 가능한 handcrafted 피처들입니다. 여기에 AlphaGenome이 학습을 통해 얻은 피처를 더했을 때 추가적인 성능 향상이 있다는 것은, AlphaGenome의 멀티모달 학습을 통해 형성된 유전자 발현의 원거리 조절에 관한 내재적인 피처가 기존의 handcrafted 피처들이 포착하지 못한 무언가를 잡아내고 있다는 것으로 생각해볼 수 있겠습니다.
끝으로, Zero-shot AlphaGenome 모델의 성능이 supervised AlphaGenome + rE2G-extended 성능에 많이 뒤떨어지지 않는다는 점 또한 강조하고 있습니다. 왼쪽 그래프와 오른쪽 그래프의 수치들을 비교해보면 되겠네요.
변이에 의한 염색질 접근성(chromatin accessibility) 및 전사 인자 결합(transcription factor binding) 변화 예측
준비 중입니다…

Variant effect의 멀티모달(multi-modal) 해석

저자들은 다음으로 AlphaGenome을 통해서 특정 variant의 효과를 멀티모달(multi-modal)하게 해석할 수 있는지 확인하였습니다. 이를 위한 case study로서, TAL1 유전자의 과발현을 유발하는 세 종류의 변이 집합을 예시로 들었습니다.
TAL1 유전자 (더보기)
T-ALL에서 호발하는 비암호화(non-coding) 변이 목록.
첫 번째 변이 집합은 위 그림 가장 오른쪽에 있는 TAL1 전사 시작 부위(transcription start site, TSS)보다 앞에 있는 네오-인핸서(neo-enhancer) 변이들입니다. 단일 염기 변이들도 있지만, 2bp, 3bp, 7-18bp등 짧은 DNA 조각들이 삽입(insertion)된 경우도 있군요. 다음으로는 그 왼편의 인트론(intron)에 존재하는 단일염기 변이가 있고, 마지막으로 가장 왼편의 TAL1 유전자 뒤에 존재하는 네오-인핸서 변이들이 있네요. 이러한 변이들은 공통적으로 TAL1 유전자의 과발현을 유도한다고 알려져 있습니다. 과연 AlphaGenome은 이 변이들에 의해 TAL1 유전자의 발현량이 증가한다는 것을 예측할 수 있었을까요?
실험을 위해 저자들은 AlphaGenome으로 예측 가능한 track들 중 T-ALL 세포와 가장 가까운 조상인 “CD34+ common myeloid progenitor” track에 주목했습니다. 가장 먼저 TAL1 앞의 네오-인핸서 유발 변이 중 하나인 chr1:47239296C>ACG 변이를 AlphaGenome에게 보여주자 아래 그림과 같은 흥미로운 해석을 보여주었습니다.
chr1:47239296C>ACG 변이에 의한 효과 예측. Track이 위로 올라올수록 변이에 의해 시그널이 더 강해진다는 의미이다.
위 그림에서, 가장 먼저 눈에 띄는 것은 변이에 의해서 RNA-seq 시그널(맨 위)이 더 커졌다는 겁니다. 즉, 유전자 발현이 더 많이 될 것으로 예측한다는 것이죠. 그렇다면 ‘유전자 발현’이라는 결과에 더해, “왜 발현이 증가했을까?”에 대한, 보다 근본적인 해석도 찾아볼 수 있을까요?
놀랍게도, 나머지 히스톤 마크(histone mark)에 대한 track들이 이를 잘 설명합니다! 유전자 발현 활성화와 연관되어 있다고 잘 알려진 히스톤 마크 3종(H3K27ac, H3K4me1, H3K4me3) track을 잘 살펴보면, 변이 근처에서 시그널이 강해진 것을 확인할 수 있습니다. 특히 H3K4me1 및 H3K27ac는 인핸서를 나타내는 히스톤 마크이기 때문에, 해당 지역이 변이에 의한 네오-인핸서로서 기능하고 있다는 것을 알 수 있습니다. 유전자 억제와 연관된 히스톤 마크(H3K9me3, H3K27me3) 시그널들이 변이 근처에서 약해진 점, 그리고 유전자 발현 시 유전자 본체(gene body)지역에서 시그널이 강해지는 H3K36me3 시그널이 강해진 점 또한 해당 지역이 네오-인핸서로써 작동하고 있다는 점을 뒷받침합니다.
나머지 변이에 대해서도 비슷한 결과가 나왔을지 궁금한데요, 아래 그림을 보면 그 결과를 알 수 있습니다.
T-ALL 환자 변이와 대조군 변이의 TAL1 유전자 발현량 변화량 예측 비교.
위 그림의 y축은 예측된 TAL1 유전자 발현량의 변화량을 나타냅니다. 위로 올라갈수록 “발현량이 커질 것”으로 예측되는 겁니다. 노란색 화살표로 표시된 발현량 수준은 T-ALL 환자들에게서 나타나는 변이에 대한 발현량 예측값이고, 회색의 분포는 “같은 길이의 무작위 변이”들에 대한 발현량 예측 값 분포입니다. T-ALL 환자들에게서 나타나는 변이들은 TAL1 발현량을 증가시킨다고 알려져 있으므로, AlphaGenome 예측이 우리의 예상을 벗어나지 않는, 그럴듯한 예측임을 알 수 있겠군요!
변이에 의한 시그널 변화량 패턴의 군집화 결과.
AlphaGenome의 TAL1 과발현 예측을 더욱 뒷받침하기 위해, 저자들은 변이에 의해 나타나는 track들의 패턴을 군집화(clustering)하여 보여줍니다. 위 그림의 가장 아래 가로줄에서, 노란색으로 표시된 T-ALL 환자들에게서 나타나는 변이들은 잘 군집화 되어 있음을 알 수 있습니다. 즉, 다양한 변이들의 유전체의 기능적 변화 패턴을 매우 유사하게 예측했다는 점에서 AlphaGenome 예측의 신빙성을 높여준다고 볼 수 있겠습니다.
지금까지의 결과를 정리하면, AlphaGenome이 T-ALL 호발 변이들이 유사한 기능적 변화에 의해 공통적으로 TAL1 과발현을 유도함을 다양한 track을 동시에 확인하는 멀티-모달 분석을 통해 알 수 있었습니다. 그렇다면 보다 직접적으로, 왜 이러한 변이가 네오-인핸서의 활성화로 이어지는지, 보다 직접적인 서열 수준에서의 해석이 가능할까요?
참조 서열(REF)과 변이 서열(ALT)에 대한 in silico mutagenesis 실험 결과.
위 그림은 변이가 없는 참조 서열(reference; REF)과 변이가 있는 서열(alternative; ALT)에서 모두 ISM 실험을 수행한 결과입니다. 앞서 배웠던 ISM 실험 결과의 해석 방법을 참고해서 위 그림을 해석해 보면, “chr1:47239296:C>ACG 변이가 생기자 해당 ACG 부분이 DNase, H3K27ac 및 유전자 발현량 증가에 유의미하게 많이 기여하게 되었다”고 볼 수 있겠네요. 흥미롭게도 이 지역에 ACG 염기 삽입에 의해 새로 만들어진 서열은 MYB라는 전사 인자 결합 서열과 일치하며, 이는 과거 Mansour et al. 의해 이미 알려진 사실입니다.

AlphaGenome 모델 구조

U-Net

모델 구조 및 학습에서, 어떤 부분이 효과적이었을까?

요약
스플라이싱 예측, 염색질 접근성 예측 등 높은 해상도가 요구되는 타겟에 대해서 높은 성능을 달성하기 위해서는 단일염기(1bp) 수준의 높은 해상도 데이터로 학습하는 것이 필수적
1Mb 수준의 큰 서열 윈도우로 학습하고, 마찬가지로 1Mb 서열 윈도우로 추론하는 것이 가장 높은 성능을 보임
Pretrained model의 ensemble 결과를 예측하도록 하는 distillation 학습을 통해 향상된 성능을 가지는 단일 모델 확보가 가능함
Target track의 해상도(resolution, 왼쪽)와, 학습/추론 시 사용하는 서열 윈도우의 크기(오른쪽)와 모델 성능 사이의 관계.
가장 먼저, 모델 학습에 사용하는 target track의 해상도(resolution)가 모델 성능에 미치는 영향을 확인해본 결과(위의 그림, 왼쪽)를 요약하면 아래와 같습니다.

마치며

준비 중입니다…

참고

AlphaGenome 논문은 아래 링크에서 확인하실 수 있습니다.
[25.06.27] AlphaGenome preprint가 bioRxiv에 업로드 되었습니다.