Search

DPLM-Evo, 삽입·삭제·치환을 직접 모델링하는 단백질 diffusion

DPLM-Evo는 단백질 서열을 마스크에서 생성하는 대신, 진화 과정에 가까운 삽입·삭제·치환 edit trajectory로 다루는 discrete diffusion 프레임임. 저자들은 variable-length latent alignment를 사용해 indel-aware generation을 가능하게 하고, contextualized evolutionary noising kernel로 치환 패턴을 더 생물학적으로 맞추려 함. ProteinGym 단일 서열 설정의 mutation effect prediction과 variable-length simulated evolution, 기존 단백질 post-editing/optimization을 함께 평가함.

요약

기존 discrete protein language model은 absorbing mask diffusion에 많이 의존하지만, 저자들은 단백질 진화가 마스크에서 출현하기보다 누적 edit로 진행된다는 문제의식에서 출발함.
DPLM-Evo는 denoising 과정에서 substitution, insertion, deletion을 명시적으로 예측하도록 학습되며, 길이가 달라지는 단백질 서열 생성을 latent alignment 공간으로 분리해 처리함.
indel-aware generation은 scaffold growth와 motif 주변 길이 조절이 필요한 단백질 설계에서 중요하며, 모델은 adaptive scaffold growth를 낮은 추가 비용으로 수행하도록 설계됨.
치환 과정에는 uniform noise 대신 문맥 의존적 evolutionary noising kernel을 넣어, 실제 진화적 변이 패턴에 더 가까운 mutation proposal을 만들려 함.
논문은 ProteinGym single-sequence 설정에서 state-of-the-art mutation effect prediction 성능을 보였다고 보고함.
생성 쪽에서는 variable-length simulated evolution, in-silico sequence family expansion, GFP directed evolution 사례를 통해 explicit edit trajectory가 후보 해석과 post-editing에 쓰일 수 있음을 제시함.
단백질 생성 모델을 ‘서열 샘플러’가 아니라 편집 가능한 진화 기계로 바꾸려는 접근으로, 후보 변이의 경로와 이유를 함께 추적해야 하는 protein engineering workflow에 맞닿아 있음.

원문