Search

DPLM-Evo 논문 리뷰

DPLM-Evo 논문 리뷰

들어가며

Protein sequence generator를 어떻게 이해할 것인지는 생각보다 중요한 문제입니다. 어떤 모델은 amino acid sequence를 문장처럼 보고 빈칸을 채웁니다. 어떤 모델은 backbone structure를 먼저 만들고 그 위에 sequence를 얹습니다. 또 어떤 모델은 자연 protein family의 통계 구조를 배워 mutation effect를 예측합니다.
DPLM-Evo는 이 중에서도 조금 다른 위치에 있습니다. 이 논문은 protein sequence generation을 단순한 masked-token recovery로 보지 않고, substitution, insertion, deletion이 누적되는 edit process로 다시 정의합니다. 즉 “mask를 채우는 모델”이라기보다 “sequence를 편집하는 모델”에 가깝습니다.
이 방향은 protein engineering 관점에서 꽤 자연스럽습니다. 실제 protein은 고정 길이 문자열 위에서만 바뀌지 않습니다. Point mutation도 있고, loop나 linker 길이가 바뀌기도 하며, insertion/deletion이 fold나 function에 영향을 주기도 합니다. 그런데 많은 sequence diffusion model은 길이가 고정된 sequence에서 mask를 복원하는 문제에 머물러 있었습니다. DPLM-Evo는 이 간극을 직접 겨냥합니다.
이 글에서는 DPLM-Evo를 protein language model과 discrete diffusion이 evolutionary signal, variant effect prediction, variable-length sequence editing 쪽으로 어떻게 확장될 수 있는지를 보여주는 method paper관점에서 살펴보겠습니다. Binder hit-rate를 내세우는 논문은 아니지만, 오히려 그 덕분에 sequence model 자체의 표현 방식과 noising design을 차분히 볼 수 있습니다.

Mask filling에서 sequence editing으로

기존 DPLM류 masked diffusion은 protein sequence 일부를 mask하고, denoising 과정에서 amino acid token을 복원하는 방식으로 generation을 수행합니다. 이 구조는 fixed-length sequence에서는 잘 맞습니다. 하지만 insertion이나 deletion처럼 sequence 길이가 바뀌는 edit는 기본 action으로 다루기 어렵습니다.
DPLM-Evo의 첫 번째 아이디어는 observed sequence와 latent alignment space를 분리하는 것입니다. 실제 sequence `x`는 amino acid와 mask token으로 이루어진 observed sequence입니다. 반면 latent alignment `z`는 여기에 gap token `ϕ`를 끼워 넣은 upsampled canvas입니다. 논문은 원래 길이 `L`의 sequence에 대해 길이 `2L`의 latent alignment space를 둡니다.
이 gap token이 핵심입니다. Gap이 amino acid로 바뀌면 insertion입니다. Amino acid가 gap으로 바뀌면 deletion입니다. Amino acid가 다른 amino acid로 바뀌면 substitution입니다. 이렇게 보면 sequence generation은 단순히 mask를 채우는 문제가 아니라, latent alignment 위에서 edit operation을 선택하고 적용하는 문제가 됩니다.
모델도 이 구조에 맞게 세 가지 head를 가집니다. Substitution head는 각 위치의 amino acid identity를 예측합니다. Deletion head는 현재 token을 제거할지 binary decision을 냅니다. Insertion head는 해당 위치 오른쪽에 새 residue를 삽입할지 예측합니다. Insertion이 선택되면 먼저 mask token이 들어가고, 실제 residue identity는 substitution head가 채우는 식입니다.
이 설계 덕분에 DPLM-Evo는 fixed-dimensional computation을 유지하면서 observed sequence 길이를 바꿀 수 있습니다. 다만 기본 canvas가 `2L`이기 때문에 insertion capacity에는 상한이 있습니다. 또 reverse sampling에서 가능한 latent alignment를 모두 marginalize하지 않고 canonical alignment approximation을 쓰기 때문에, exact inference라기보다 practical sampler에 가깝습니다.

Evolutionary noising kernel

DPLM-Evo에서 가장 흥미로운 부분은 noising kernel입니다. Diffusion model은 forward process에서 data에 noise를 넣고, reverse process에서 그 noise를 제거하도록 학습합니다. 이미지 diffusion에서는 Gaussian noise가 자연스럽지만, protein sequence에서는 “어떤 amino acid로 corrupt할 것인가”가 그 자체로 modeling choice가 됩니다.
가장 단순한 선택은 uniform noise입니다. 어떤 residue든 20개 amino acid 중 하나로 무작위 치환합니다. 하지만 protein evolution은 uniform random substitution처럼 움직이지 않습니다. Hydrophobic core의 leucine이 갑자기 charged residue로 바뀌는 mutation과, 비슷한 physicochemical property를 가진 residue로 바뀌는 mutation은 같은 의미가 아닙니다.
논문은 이 문제를 contextualized evolutionary noising kernel로 다룹니다. 각 position을 mask한 뒤, 주변 sequence context를 본 model prediction으로 site-specific substitution distribution을 만듭니다. Confidence가 충분히 높으면 이 distribution에서 amino acid noise를 sampling하고, confidence가 낮으면 mask token으로 fallback합니다. 이렇게 하면 모델은 mask prediction ability를 잃지 않으면서도, 단순 uniform corruption보다 sequence context에 맞는 substitution noise를 보게 됩니다.
Static alternative로는 BLOSUM62 기반 kernel도 제시됩니다. BLOSUM score를 temperature-scaled softmax로 바꿔 conservative substitution을 더 자주 sampling하는 방식입니다. 이 비교가 좋은 ablation을 만듭니다. ProteinGym substitution benchmark에서 uniform kernel은 average Spearman 0.295, BLOSUM kernel은 0.35, contextualized kernel은 0.42로 보고됩니다.
이 결과는 DPLM-Evo를 단순히 “DPLM에 indel head를 붙인 모델”로만 보기 어렵게 만듭니다. 성능 차이의 한 축은 model scale이 아니라 protein substitution noise를 어떻게 정의했는지에 있습니다. Evolutionary signal을 static amino-acid similarity로만 볼 것인지, sequence-context-aware distribution으로 볼 것인지가 실제 benchmark score에 영향을 준 셈입니다.

Sampler가 하는 일

DPLM-Evo의 reverse sampling은 deletion, insertion, substitution, low-confidence token re-noising 순서로 진행됩니다. Deletion과 insertion에는 threshold가 들어갑니다. 논문은 inference에서 `τdel = τins = 0.7`을 사용해 conservative edit decision을 유도합니다. Multi-residue insertion은 한 번에 여러 residue를 넣는 것이 아니라, 여러 denoising step에 걸쳐 single-slot insertion을 반복해 만듭니다.
마지막의 low-confidence re-noising도 눈에 띕니다. 모델이 확신하지 못하는 token을 다시 noisy set으로 보내 다음 step에서 재검토하게 하는 장치입니다. 이는 local optimum에 너무 빨리 고정되는 것을 막으려는 sampling recipe로 이해할 수 있습니다.
이 부분은 diffusion 논문을 읽을 때 자주 놓치기 쉽습니다. 모델이 어떤 denoiser architecture를 가졌는지만큼, 어떤 sampler와 discretization rule을 쓰는지도 결과의 일부입니다. DPLM-Evo의 edit-based generation은 latent alignment, 세 가지 edit head, contextualized kernel, thresholded approximate sampler가 함께 만들어내는 시스템입니다.

ProteinGym substitution benchmark

첫 번째 주요 evidence는 ProteinGym substitution variant effect prediction입니다. DPLM-Evo는 217개 DMS substitution assay에서 sequence-only zero-shot variant effect prediction을 평가합니다. Wild-type sequence를 입력하고, mutated site의 substitution distribution을 이용해 log-odds mutation score를 계산합니다.
논문은 DPLM-Evo가 single-sequence foundation model들 중 높은 average Spearman을 얻었다고 보고합니다. 핵심 숫자는 DPLM-Evo 0.420, GEMME-aligned setting 0.459입니다. Extended comparison에는 structure, MSA, multimodal input을 쓰는 AIDO Protein-RAG/VenusREM 0.518, ProSST 0.507, Protriever 0.479, ESM3-open 0.466, GEMME 0.455, EVE ensemble 0.439 같은 baseline도 함께 제시됩니다.
이 수치는 DPLM-Evo가 sequence-only setting에서도 mutation effect signal을 꽤 잘 끌어낸다는 근거로 이해할 수 있습니다. 특히 MSA나 structure input을 직접 쓰지 않는 모델이 DMS correlation에서 이 정도 위치에 올라왔다는 점은 method contribution으로 받아줄 만합니다. 다만 ProteinGym은 variant-effect benchmark이므로, 여기서의 성능은 새 후보를 합성해 확인한 design campaign success와는 구분해서 보면 충분합니다.
그래도 ablation은 설득력이 있습니다. Contextualized kernel을 uniform corruption으로 바꾸면 average Spearman이 0.420에서 0.295로 떨어집니다. BLOSUM kernel은 0.35로 중간에 놓입니다. 이 ladder는 “evolutionary prior를 어떻게 넣는가”가 variant-effect scoring에 영향을 준다는 메시지를 비교적 깨끗하게 보여줍니다.

Indel benchmark가 method와 맞물리는 지점

DPLM-Evo의 두 번째 evidence는 ProteinGym indel benchmark입니다. 논문은 insertion/deletion head를 이용해 indel variant scoring을 수행하고, average Spearman 0.495를 보고합니다. Single-sequence baseline인 ProGen2 M 0.464, RITA L 0.457, Tranception M 0.453보다 높고, MSA 기반 ProFam ensemble 0.530, PoET 0.517에 접근하는 수치입니다.
이 결과는 DPLM-Evo에서 특히 중요합니다. Substitution scoring만 잘했다면 contextualized substitution kernel의 효과로 설명할 수 있습니다. 하지만 indel benchmark는 모델의 explicit insertion/deletion head가 task와 직접 연결되는 부분입니다. 논문의 method claim과 evaluation이 가장 잘 맞물리는 지점이라고 볼 수 있습니다.
이 논문이 여기서 보여주는 것은 indel-aware sequence model이 indel variant scoring benchmark에서 경쟁력 있는 signal을 낸다는 점입니다. Variable-length editing을 실제 engineering loop에 넣었을 때의 성능은 별도 문제지만, indel을 모델의 주변 기능이 아니라 scoring 가능한 action으로 끌어올렸다는 점은 충분히 의미가 있습니다.

Unconditional generation: 그럴듯한 sequence를 만든다는 것

DPLM-Evo는 DPLM-650M에서 initialized되고 UniRef50에서 100,000 steps training됩니다. Training setup은 32 H100 GPUs, 약 25시간으로 보고되며, contextualized kernel의 추가 gradient-free forward pass 때문에 per-step overhead가 약 24% 증가합니다.
Unconditional generation에서는 ESMFold pLDDT를 foldability proxy로 사용합니다. DPLM-Evo의 pLDDT는 83.6으로, DPLM 84.0, DiMA 83.3과 비슷한 수준입니다. Secondary structure distribution도 SwissProt와 비슷하다고 보고됩니다. 논문은 DPLM-Mask와 비슷한 foldability를 유지하면서 sequence/structure cluster diversity가 높고 repetition ratio가 낮다고 주장합니다.
이 결과는 DPLM-Evo가 edit-based objective를 넣으면서도 foldability proxy를 크게 잃지 않았다는 신호로 이해할 수 있습니다. Sequence editing capability를 추가했는데 pLDDT가 기존 DPLM류와 비슷하게 유지된다는 점은 method 입장에서 중요합니다. 실험적 folding이나 function까지 말하는 결과는 아니지만, generation quality가 무너지지 않았다는 확인으로는 충분히 쓸 만합니다.
흥미로운 관찰은 indel probability의 시간적 패턴입니다. 논문은 high-noise stage에서 indel probability가 더 높고, denoising이 진행될수록 낮아진다고 설명합니다. 즉 초기에는 coarse length adjustment가 일어나고, 후반에는 substitution 중심의 fine refinement로 이동하는 양상입니다. 이 패턴은 DPLM-Evo가 sequence editing trajectory를 어떻게 쓰는지 보여주는 좋은 Figure 설명 포인트입니다.

Motif scaffolding: 길이를 바꾸는 scaffold editing

Motif scaffolding은 DPLM-Evo의 variable-length edit가 가장 자연스럽게 드러나는 task입니다. Motif residues는 고정하고 scaffold region만 edit합니다. Insertion/deletion head를 통해 scaffold length를 동적으로 조정할 수 있다는 점이 이 task와 잘 맞습니다.
평가 기준은 pLDDT > 70 그리고 motif RMSD < 1 Å입니다. 각 motif instance마다 100 samples를 생성합니다. Zero-shot setting에서 DPLM-Evo는 EvoDiff와 DPLM-Mask보다 더 많은 motif problem을 solve하고, overall success rate 0.23을 보고합니다. Continued finetuning setting에서는 더 좋아지며, finetuned DPLM-Evo는 ESM3보다 overall success rate는 높지만 resolved target 수는 약간 적다고 설명됩니다.
이 결과는 DPLM-Evo의 편집 능력을 보여주는 좋은 사례입니다. Motif residues를 유지하면서 주변 scaffold를 고치고, 필요한 경우 길이까지 조정한다는 점에서 DPLM-Evo의 design space가 가장 자연스럽게 드러납니다. Success criterion은 pLDDT와 motif RMSD이므로 기능 검증과는 구분해야 하지만, sequence-space model이 motif-conditioned scaffold editing으로 넘어갈 수 있다는 데모로는 설득력이 있습니다.

In-silico family expansion

논문은 CAMEO dataset에서 자연 sequence를 시작점으로 unconstrained post-editing을 수행한 사례도 보여줍니다. 생성된 sequence는 identity가 50% 아래로 내려갈 만큼 많이 edit되면서도 predicted fold는 유지되는 패턴을 보입니다. Figure 5의 예시는 sequence identity 33.33%, RMSD 3.83인 generated relative입니다.
이 부분은 DPLM-Evo가 natural sequence 주변에서 fold를 유지한 채 꽤 큰 sequence move를 만들 수 있음을 보여줍니다. 실제 homolog 발견이나 functional family member 검증으로 보기보다는, substitution-only mutation model보다 넓은 edit space를 탐색하는 사례로 쓰면 자연스럽습니다.

GFP case: directed evolution이 아니라 in silico optimization demo

가장 조심해서 읽을 부분은 GFP optimization입니다. 논문은 DPLM-Evo를 beam search와 Chai-1 score/filter에 연결해 GFP-like sequence를 optimize합니다. Algorithm 2 기준으로 max iteration은 20, search width는 100, beam size는 10입니다. 각 step에서 한 position씩 mutation한 후보를 만들고, chromophore site RMSD < 1.5 Å 같은 filter와 Chai-1 pTM score를 사용합니다.
결과는 눈에 띕니다. Initial pTM 0.263에서 substitution-only setting은 0.793, indel-enabled setting은 0.857까지 올라갑니다. ESM-2 baseline 0.737, random mutation < 0.6보다 높다고 보고됩니다.
이 결과는 directed-evolution-style objective를 sequence editor에 연결한 흥미로운 데모입니다. 실제 fluorescence, expression, chromophore maturation을 측정한 것은 아니므로 ESM3의 esmGFP처럼 기능 검증 사례로 놓기는 어렵습니다. 그래도 DPLM-Evo가 substitution과 indel을 이용해 sequence를 edit하고, external structure predictor score를 따라 in silico trajectory를 만들 수 있다는 점은 분명합니다. Protein engineering workflow에서는 candidate proposal이나 local sequence optimization tool로 이어질 수 있는 방향입니다.

DPLM-Evo를 어디에 놓을까

DPLM-Evo는 binder generator benchmark보다는 Protein Language Model, Denoising Diffusion, Evolutionary Signal, Sequence Design 사이에 걸치는 method anchor에 가깝습니다. 이 위치에서 보면 논문의 contribution이 더 선명해집니다.
Protein Language Model 관점에서는 masked-token recovery 중심의 sequence model을 explicit edit predictor로 확장합니다. Denoising Diffusion 관점에서는 coordinate cloud나 residue frame이 아니라, amino acid, mask, gap token으로 이루어진 latent alignment를 denoise합니다. Evolutionary Signal 관점에서는 uniform noise보다 context-aware substitution distribution이 ProteinGym score를 크게 개선한다는 ablation을 제공합니다. Sequence Design 관점에서는 fixed-backbone inverse folding보다 post-editing, family expansion, guided sequence optimization 쪽에 가깝습니다.
이 positioning은 실용적으로도 중요합니다. DPLM-Evo는 ESM3, ProteinGenerator, EvoDiff, DPLM lineage와 비교할 때 더 자연스럽습니다. 특히 “sequence-space diffusion이 protein engineering에 맞으려면 length-changing edit를 어떻게 다룰 것인가”라는 질문에 대한 답안으로 이해할 수 있습니다.

읽을 때의 균형점

DPLM-Evo를 읽을 때는 한 가지 균형만 잡으면 됩니다. 이 논문은 generated candidate를 실험으로 검증한 design milestone은 아니지만, 그렇다고 단순한 proxy benchmark 모음으로만 볼 필요도 없습니다. 논문의 contribution은 sequence-space diffusion을 substitution, insertion, deletion edit process로 재구성하고, 그 선택이 ProteinGym substitution/indel scoring과 motif-conditioned editing에서 실제로 작동하는지를 보여준 데 있습니다.
따라서 ProteinGym correlation, pLDDT, motif RMSD, Chai-1 pTM은 각각의 evidence layer 안에서 읽으면 됩니다. 이 지표들이 곧바로 wet-lab function이나 binding을 의미하지는 않지만, method paper가 자신의 설계 선택을 설명하기에는 충분히 유용한 평가입니다.
Sampler가 canonical alignment와 thresholded edit decision을 쓰는 approximation이라는 점도 기억해둘 만합니다. 다만 이 제약은 논문을 약하게 만든다기보다, variable-length sequence diffusion을 실제로 돌리기 위해 필요한 engineering trade-off로 보는 편이 자연스럽습니다.

평가

DPLM-Evo의 장점은 protein sequence diffusion을 edit process로 재구성했다는 데 있습니다. Protein engineering에서 mutation은 substitution만으로 끝나지 않습니다. Loop length, linker length, insertion/deletion, scaffold editing은 실제 설계 문제와 자주 맞닿습니다. DPLM-Evo는 이 문제를 PLM/diffusion의 representation과 sampler 안으로 끌어들입니다.
특히 contextualized evolutionary noising kernel은 좋은 technical hook입니다. Uniform random corruption에서 시작해 BLOSUM 같은 static biochemical prior를 거쳐, sequence-context-aware kernel로 가는 ladder가 명확합니다. 이 ablation은 “protein sequence diffusion에서 noise는 단순한 구현 detail이 아니라 biological prior를 담는 자리”라는 메시지를 만듭니다.
Evidence boundary는 짧게 정리하면 충분합니다. ProteinGym correlation과 indel scoring은 sequence-level evolutionary benchmark이고, pLDDT와 motif RMSD는 structural plausibility 평가이며, GFP case는 Chai-1-guided in silico optimization입니다. 이 구분만 유지하면 DPLM-Evo의 contribution을 굳이 낮춰 볼 이유는 없습니다.
DPLM-Evo는 현재 단계에서 “실험적으로 검증된 protein designer”라기보다 “evolution-like sequence editor로 확장되는 protein language model”에 가깝습니다. 이 방향이 실제 protein engineering campaign에서 얼마나 유용한지는 다음 단계의 질문입니다. 하지만 PLM이 단순히 sequence를 채우는 모델을 넘어, substitution과 indel을 score하고 편집하는 도구로 이동하고 있다는 점은 충분히 주목할 만합니다.

참고

- Paper: “DPLM-Evo: Evolutionary Discrete Diffusion for Protein Sequence Generation” - Authors: Xinyou Wang, Liang Hong, Jiasheng Ye, Zaixiang Zheng, Yu Li, Shujian Huang, Quanquan Gu - Venue: arXiv preprint, 2026-04-30 - arXiv: https://arxiv.org/abs/2605.00182 - Raw source: `raw/papers/DLPM-Evo/dlpm_evo.pdf` - Extracted source: `raw/papers/DLPM-Evo/extracted/dlpm_evo.txt`