Nature 논문은 prokaryote·eukaryote·archaea·phage 게놈을 아우르는 대규모 DNA 언어모델 Evo 2를 소개함. 7B와 40B 모델이 9조 염기쌍 규모 데이터와 100만 token context를 사용해 변이 효과 예측, 유전체 주석, genome-scale 생성까지 다루며 단일 서열 모델의 적용 범위를 단백질 밖으로 넓힘.
요약
•
Evo 2는 OpenGenome2라는 8.8조 nucleotide 규모의 curated non-redundant 데이터셋으로 학습됐고, 7B 모델은 2.4조 token, 40B 모델은 9.3조 token을 사용함.
•
모델은 StripedHyena 2 기반 multi-hybrid architecture를 사용해 100만 base-pair context까지 확장했으며, 40B·100만 context 조건에서 Transformer baseline 대비 최대 3배 throughput 개선을 보고함.
•
저자들은 인간 감염 eukaryotic virus 서열을 학습 데이터에서 제외했고, 해당 영역에서 높은 perplexity와 낮은 downstream 성능을 확인해 biosafety 목적의 데이터 제외가 작동했음을 제시함.
•
Zero-shot likelihood는 coding·noncoding DNA, RNA, protein 변이의 기능적 영향과 일정 수준 상관을 보였고, start codon, Shine–Dalgarno/Kozak motif, stop codon usage 같은 생물학적 제약도 포착함.
•
ClinVar와 BRCA1/BRCA2 평가에서 Evo 2는 non-SNV coding variant와 noncoding non-SNV variant에서 기존 모델보다 강한 성능을 보였고, splice variant에서는 unsupervised 모델 중 상위 성능을 보임.
•
Evo 2 embedding으로 학습한 lightweight exon classifier는 8개 held-out species에서 AUROC 0.91–0.99를 기록해 비모델 생물 유전체 주석에 활용될 가능성을 제시함.
•
생성 측면에서는 mitochondrial, prokaryotic, eukaryotic sequence를 genome scale로 생성하고, predictive model과 inference-time search를 결합해 실험적으로 검증된 chromatin accessibility 패턴 생성 사례를 제시함.
•
AI-bio 관점에서는 오픈 모델·학습 코드·추론 코드·데이터셋 공개가 의미 큼. 다만 단백질 DMS에서는 state-of-the-art 구조/정렬 기반 모델에 뒤지는 영역이 있어, generalist genome model과 task-specialist model의 역할 분리가 남아 있음.