DPLM-Evo는 단백질 서열을 마스크에서 생성하는 대신, 진화 과정에 가까운 삽입·삭제·치환 edit trajectory로 다루는 discrete diffusion 프레임임. 저자들은 variable-length latent alignment를 사용해 indel-aware generation을 가능하게 하고, contextualized evolutionary noising kernel로 치환 패턴을 더 생물학적으로 맞추려 함. ProteinGym 단일 서열 설정의 mutation effect prediction과 variable-length simulated evolution, 기존 단백질 post-editing/optimization을 함께 평가함.
요약
•
기존 discrete protein language model은 absorbing mask diffusion에 많이 의존하지만, 저자들은 단백질 진화가 마스크에서 출현하기보다 누적 edit로 진행된다는 문제의식에서 출발함.
•
DPLM-Evo는 denoising 과정에서 substitution, insertion, deletion을 명시적으로 예측하도록 학습되며, 길이가 달라지는 단백질 서열 생성을 latent alignment 공간으로 분리해 처리함.
•
indel-aware generation은 scaffold growth와 motif 주변 길이 조절이 필요한 단백질 설계에서 중요하며, 모델은 adaptive scaffold growth를 낮은 추가 비용으로 수행하도록 설계됨.
•
치환 과정에는 uniform noise 대신 문맥 의존적 evolutionary noising kernel을 넣어, 실제 진화적 변이 패턴에 더 가까운 mutation proposal을 만들려 함.
•
논문은 ProteinGym single-sequence 설정에서 state-of-the-art mutation effect prediction 성능을 보였다고 보고함.
•
생성 쪽에서는 variable-length simulated evolution, in-silico sequence family expansion, GFP directed evolution 사례를 통해 explicit edit trajectory가 후보 해석과 post-editing에 쓰일 수 있음을 제시함.
•
단백질 생성 모델을 ‘서열 샘플러’가 아니라 편집 가능한 진화 기계로 바꾸려는 접근으로, 후보 변이의 경로와 이유를 함께 추적해야 하는 protein engineering workflow에 맞닿아 있음.