Search

AlphaGenome 리뷰 (2)

AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model

학습 데이터 및 split

참조유전체(reference genome) 버전 및 유전체 주석(annotation)
AlphaGenome의 학습 데이터는 인간과 쥐 2종의 기능유전체 시퀀싱 데이터로 한정됩니다. 사용한 참조유전체 버전은 인간의 경우 hg38, 쥐의 경우 mm10입니다. 참조전사체 구성 및 모델 사후 분석에서 쓰일 유전자 위치 정보를 획득하기 위한 유전체 주석은 GENCODE Release 46을 사용한 것으로 보입니다.
참조유전체란?
유전체 주석이란 무엇이며, 왜 필요할까?
참조유전체의 발전
활용 데이터베이스
오믹스 분류
데이터베이스명
요약
RNA-seq
GTEx (Genotype-Tissue Expression) 링크
다양한 인간 조직에서 유전적 변이가 유전자 발현에 미치는 영향을 연구하기 위해 구축된 공개 데이터 리소스입니다. 미국 국립보건원(NIH)의 지원으로 2010년 시작된 국제 컨소시엄 프로젝트를 통해 만들어졌습니다.
CAGE
FANTOM5 (Functional ANnoTation Of the Mammalian genome 5) 링크
일본 이화학연구소(RIKEN)가 주도하는 국제 컨소시엄 연구 프로젝트로, 포유류 유전체의 기능적 주석을 달고 전사 조절 네트워크의 특성을 밝히는 것을 목표로 합니다. 특히 FANTOM5는 인간 및 생쥐의 다양한 세포, 조직, 암세포주에서 프로모터와 인핸서를 매핑하는 데 중점을 두고 있습니다.
RNA-seq, PRO-cap, DNase-seq, ATAC-seq, TF/histone-ChIP-seq
ENCODE 링크
인간 게놈의 기능적 요소를 종합적으로 식별하는 것을 목표로 하는 공공 연구 프로젝트입니다. 미국 국립인간게놈연구소(NHGRI)가 주도하는 국제 컨소시엄으로, 인간 게놈 프로젝트의 후속으로 시작되었습니다. ENCODE는 유전자의 단백질 코딩 부분뿐만 아니라, 유전자 발현을 조절하는 비코딩 영역과 같은 기능적 요소를 매핑하는 데 초점을 맞추고 있습니다.
Genomic contact maps
4D Nucleome portal 링크
4D Nucleome portal은 미국 국립보건원(NIH)에서 지원하는 4D 뉴클레옴 프로그램의 일환으로 구축된 데이터 허브입니다. 세포핵 내 유전체의 3차원적 구성과, 이것이 시간(4차원)에 따라 어떻게 변화하는지를 연구하기 위한 데이터를 수집, 정리, 시각화하여 제공합니다.
RNA-seq 데이터 전처리
Total RNA-seq과 polyA plus RNA-seq이란?
bigWig 파일 형식이란?
Reads per million (RPM)은 무슨 단위일까?

모델 구조 상세

앞서 살펴본 AlphaGenome의 전신 모델들(Basenji, Enformer, Borzoi)을 기억하시나요? AlphaGenome의 모델 구조는 그 중 CNN과 transformer 구조를 병합한 최신 모델들, Enformer 및 Borzoi의 구조와 크게 다르지 않습니다. 저자들은 아래와 같은 5가지를 AlphaGenome의 주요 특징으로 소개하고 있습니다.
1.
Convolution 기반의 sequence encoder
2.
Transformer tower
3.
Pairwise interaction blocks
4.
Sequence decoder
5.
Task-specific output heads

모델 학습 파라미터 요약

Pretraining
Distillation

마치며

참고

AlphaGenome 논문은 아래 링크에서 확인하실 수 있습니다.
[25.07.11] AlphaGenome preprint v2가 bioRxiv에 업데이트 되었습니다.