Search

Yeti, multimodal protein model을 위한 compact structure tokenizer

Yeti는 단백질 구조의 연속적인 atomic coordinates를 transformer 학습에 쓰기 쉬운 discrete token으로 바꾸는 compact protein structure tokenizer임. 저자들은 기존 tokenizer가 reconstruction에 치우쳐 generative ability를 충분히 보지 못했다고 보고, lookup-free quantization과 flow matching objective로 sequence·structure 공동 생성 모델에 맞는 구조 토큰화를 시도함. arXiv에 2026년 5월 11일 공개된 preprint로, ESM3보다 10배 적은 parameter 조건에서도 token diversity와 reconstruction/generation trade-off를 보여준다고 보고함.

요약

문제의식은 protein sequence, structure, function annotation을 하나의 multimodal representation으로 다루려면 구조를 discrete token으로 안정적으로 압축해야 한다는 점에서 출발함.
Yeti는 lookup-free quantization을 기반으로 한 compact tokenizer이며, multimodal learning을 염두에 두고 flow matching objective로 end-to-end 학습됨.
저자들은 기존 protein structure tokenizer들이 주로 reconstruction fidelity를 최적화했지만, 실제 생성 모델에서는 token diversity와 generative usability가 함께 중요하다고 봄.
초록 기준 Yeti는 여러 dataset에서 높은 codebook utilization과 token diversity를 보였고, ESM3보다 10배 적은 parameter로 두 번째로 좋은 reconstruction accuracy를 달성했다고 보고함.
검증을 위해 저자들은 Yeti structure token과 amino acid sequence를 함께 학습하는 compact multimodal model을 pretrained initialization 없이 scratch에서 훈련함.
이 multimodal model은 unconditional sequence-structure co-generation에서 plausible structure를 생성했고, 10배 큰 모델과 비교 가능한 결과를 냈다고 설명함.
AI-bio 관점에서는 foundation model의 성능이 거대 모델 자체뿐 아니라 structure tokenization bottleneck에 의해 제한될 수 있음을 보여주는 사례로 볼 수 있음.
다만 초록만으로는 downstream function-conditioned generation, wet-lab validation, binder/design task에서의 실질적 이득은 확인되지 않으므로, 현재 단계에서는 model infrastructure 성격의 결과로 읽는 편이 안전함.

원문