Search

Evo 2, 생명 전체 도메인을 학습한 게놈 파운데이션 모델

Nature 논문은 prokaryote·eukaryote·archaea·phage 게놈을 아우르는 대규모 DNA 언어모델 Evo 2를 소개함. 7B와 40B 모델이 9조 염기쌍 규모 데이터와 100만 token context를 사용해 변이 효과 예측, 유전체 주석, genome-scale 생성까지 다루며 단일 서열 모델의 적용 범위를 단백질 밖으로 넓힘.

요약

Evo 2는 OpenGenome2라는 8.8조 nucleotide 규모의 curated non-redundant 데이터셋으로 학습됐고, 7B 모델은 2.4조 token, 40B 모델은 9.3조 token을 사용함.
모델은 StripedHyena 2 기반 multi-hybrid architecture를 사용해 100만 base-pair context까지 확장했으며, 40B·100만 context 조건에서 Transformer baseline 대비 최대 3배 throughput 개선을 보고함.
저자들은 인간 감염 eukaryotic virus 서열을 학습 데이터에서 제외했고, 해당 영역에서 높은 perplexity와 낮은 downstream 성능을 확인해 biosafety 목적의 데이터 제외가 작동했음을 제시함.
Zero-shot likelihood는 coding·noncoding DNA, RNA, protein 변이의 기능적 영향과 일정 수준 상관을 보였고, start codon, Shine–Dalgarno/Kozak motif, stop codon usage 같은 생물학적 제약도 포착함.
ClinVar와 BRCA1/BRCA2 평가에서 Evo 2는 non-SNV coding variant와 noncoding non-SNV variant에서 기존 모델보다 강한 성능을 보였고, splice variant에서는 unsupervised 모델 중 상위 성능을 보임.
Evo 2 embedding으로 학습한 lightweight exon classifier는 8개 held-out species에서 AUROC 0.91–0.99를 기록해 비모델 생물 유전체 주석에 활용될 가능성을 제시함.
생성 측면에서는 mitochondrial, prokaryotic, eukaryotic sequence를 genome scale로 생성하고, predictive model과 inference-time search를 결합해 실험적으로 검증된 chromatin accessibility 패턴 생성 사례를 제시함.
AI-bio 관점에서는 오픈 모델·학습 코드·추론 코드·데이터셋 공개가 의미 큼. 다만 단백질 DMS에서는 state-of-the-art 구조/정렬 기반 모델에 뒤지는 영역이 있어, generalist genome model과 task-specialist model의 역할 분리가 남아 있음.

원문