Yeti는 단백질 구조의 연속적인 atomic coordinates를 transformer 학습에 쓰기 쉬운 discrete token으로 바꾸는 compact protein structure tokenizer임. 저자들은 기존 tokenizer가 reconstruction에 치우쳐 generative ability를 충분히 보지 못했다고 보고, lookup-free quantization과 flow matching objective로 sequence·structure 공동 생성 모델에 맞는 구조 토큰화를 시도함. arXiv에 2026년 5월 11일 공개된 preprint로, ESM3보다 10배 적은 parameter 조건에서도 token diversity와 reconstruction/generation trade-off를 보여준다고 보고함.
요약
•
문제의식은 protein sequence, structure, function annotation을 하나의 multimodal representation으로 다루려면 구조를 discrete token으로 안정적으로 압축해야 한다는 점에서 출발함.
•
Yeti는 lookup-free quantization을 기반으로 한 compact tokenizer이며, multimodal learning을 염두에 두고 flow matching objective로 end-to-end 학습됨.
•
저자들은 기존 protein structure tokenizer들이 주로 reconstruction fidelity를 최적화했지만, 실제 생성 모델에서는 token diversity와 generative usability가 함께 중요하다고 봄.
•
초록 기준 Yeti는 여러 dataset에서 높은 codebook utilization과 token diversity를 보였고, ESM3보다 10배 적은 parameter로 두 번째로 좋은 reconstruction accuracy를 달성했다고 보고함.
•
검증을 위해 저자들은 Yeti structure token과 amino acid sequence를 함께 학습하는 compact multimodal model을 pretrained initialization 없이 scratch에서 훈련함.
•
이 multimodal model은 unconditional sequence-structure co-generation에서 plausible structure를 생성했고, 10배 큰 모델과 비교 가능한 결과를 냈다고 설명함.
•
AI-bio 관점에서는 foundation model의 성능이 거대 모델 자체뿐 아니라 structure tokenization bottleneck에 의해 제한될 수 있음을 보여주는 사례로 볼 수 있음.
•
다만 초록만으로는 downstream function-conditioned generation, wet-lab validation, binder/design task에서의 실질적 이득은 확인되지 않으므로, 현재 단계에서는 model infrastructure 성격의 결과로 읽는 편이 안전함.