DPLM-Evo, 삽입·삭제·치환을 직접 모델링하는 단백질 diffusion

DPLM-Evo는 단백질 서열을 마스크에서 생성하는 대신, 진화 과정에 가까운 삽입·삭제·치환 edit trajectory로 다루는 discrete diffusion 프레임임. 저자들은 variable-length latent alignment를 사용해 indel-aware generation을 가능하게 하고, contextualized evolutionary noising kernel로 치환 패턴을 더 생물학적으로 맞추려 함. ProteinGym 단일 서열 설정의 mutation effect prediction과 variable-length simulated evolution, 기존 단백질 post-editing/optimization을 함께 평가함.

요약

•

기존 discrete protein language model은 absorbing mask diffusion에 많이 의존하지만, 저자들은 단백질 진화가 마스크에서 출현하기보다 누적 edit로 진행된다는 문제의식에서 출발함.

•

DPLM-Evo는 denoising 과정에서 substitution, insertion, deletion을 명시적으로 예측하도록 학습되며, 길이가 달라지는 단백질 서열 생성을 latent alignment 공간으로 분리해 처리함.

•

indel-aware generation은 scaffold growth와 motif 주변 길이 조절이 필요한 단백질 설계에서 중요하며, 모델은 adaptive scaffold growth를 낮은 추가 비용으로 수행하도록 설계됨.

•

치환 과정에는 uniform noise 대신 문맥 의존적 evolutionary noising kernel을 넣어, 실제 진화적 변이 패턴에 더 가까운 mutation proposal을 만들려 함.

•

논문은 ProteinGym single-sequence 설정에서 state-of-the-art mutation effect prediction 성능을 보였다고 보고함.

•

생성 쪽에서는 variable-length simulated evolution, in-silico sequence family expansion, GFP directed evolution 사례를 통해 explicit edit trajectory가 후보 해석과 post-editing에 쓰일 수 있음을 제시함.

•

단백질 생성 모델을 ‘서열 샘플러’가 아니라 편집 가능한 진화 기계로 바꾸려는 접근으로, 후보 변이의 경로와 이유를 함께 추적해야 하는 protein engineering workflow에 맞닿아 있음.

원문

https://arxiv.org/abs/2605.00182