MochiDiff 논문 리뷰
들어가며
항체 언어모델이 정말 항체를 이해하는 걸까요, 아니면 germline과 V(D)J recombination pattern을 잘 외우는 걸까요? MochiDiff는 이 질문을 꽤 정면으로 찌르는 논문입니다. 항체 sequence model이 낮은 perplexity를 보인다고 해도, 그 성능의 상당 부분이 common germline sequence를 복원하는 능력에서 나온다면 therapeutic design에서 원하는 능력과는 조금 다를 수 있습니다.
논문 제목은 “Conditional generation of antibody sequences with classifier-guided germline-absorbing discrete diffusion”입니다. University of Washington과 Amazon Web Services Life Sciences 연구진이 발표한 arXiv preprint입니다. 이 논문은 antibody structure generation paper가 아닙니다. CDR loop geometry, antibody-antigen pose, paired heavy/light chain, full IgG format을 생성하지 않습니다.
MochiDiff의 정확한 위치는 antibody protein language model + discrete diffusion + classifier-guided sequence optimization입니다. 핵심 아이디어는 두 가지입니다. 첫째, ESM-2 기반 discrete diffusion model을 antibody heavy-chain sequence에 맞게 fine-tune합니다. 둘째, 일반적인 absorbing diffusion의 `[MASK]` token 대신 각 sequence의 germline sequence를 absorbing state로 사용합니다. Forward process는 observed antibody sequence를 germline으로 되돌리고, reverse process는 germline에서 observed-like antibody variation을 만들어내는 방식입니다.
항체 pLM의 germline bias 문제
Antibody repertoire sequence는 단순한 protein sequence corpus가 아닙니다. Germline V, D, J segment variation, V(D)J recombination, somatic hypermutation, affinity maturation, selection, tolerance가 섞여 있습니다. 이 중 therapeutic design에서 특히 중요한 것은 germline 이후 어떤 mutation과 variation이 binding이나 developability에 기여하는가입니다.
기존 antibody pLM은 OAS 같은 대규모 B-cell receptor sequence data에서 학습합니다. AntiBERTy, AbLang, IgLM 같은 모델은 liability prediction, humanization scoring, CDR infilling에서 좋은 성능을 보였습니다. 하지만 antibody-specific pLM의 성능 향상이 실제 somatic variation modeling인지, 아니면 common germline과 recombination pattern memorization인지에 대한 의문이 있었습니다.
MochiDiff는 이 문제를 diffusion의 noising endpoint를 바꾸는 방식으로 다룹니다. 일반 absorbing diffusion에서는 token이 점진적으로 `[MASK]`로 바뀝니다. MochiDiff에서는 각 residue가 해당 antibody의 IgBLAST-assigned germline residue로 바뀝니다. 모델이 generation을 시작하는 완전한 noise state도 무작위 token이나 mask가 아니라 biological germline sequence입니다.
직관적으로 보면, 모델은 “germline sequence가 주어졌을 때 observed antibody sequence로 가는 variation”을 학습합니다. Germline 자체의 distribution이나 V(D)J statistics를 모델이 새로 외울 필요를 줄이고, post-germline variation에 capacity를 더 쓰게 만들겠다는 inductive bias입니다.
Figure 1: germline absorbing discrete diffusion
Figure 1은 MochiDiff의 전체 구조를 보여줍니다. 모델은 SEDD, 즉 Score Entropy Discrete Diffusion을 기반으로 합니다. Discrete sequence token space에서 forward diffusion은 data distribution을 stationary distribution으로 점진적으로 보내고, reverse process는 score ratio를 이용해 다시 data distribution으로 돌아옵니다.
표준 absorbing discrete diffusion에서는 absorbing state가 `[MASK]`입니다. MochiDiff는 이 부분을 germline으로 바꿉니다. 각 training sequence는 IgBLAST로 assigned germline sequence를 갖고, forward process는 observed sequence residue를 germline residue로 점진적으로 치환합니다. Reverse process는 germline sequence에서 시작해 observed antibody-like sequence를 생성합니다.
Neural network는 ESM-2 650M encoder architecture를 사용합니다. Pretrained ESM-2 weights로 초기화한 뒤, antibody sequence diffusion objective로 fine-tune합니다. SEDD는 각 position과 amino-acid token에 대해 edit distance 1 neighbor로 이동하는 score ratio를 출력하는 formulation입니다. 이 덕분에 ESM-2 architecture를 비교적 직접적으로 가져올 수 있습니다.
Training data는 OAS의 unpaired human heavy-chain PBMC sequences입니다. 1.1B raw sequences에서 complete V(D)J annotation, productive sequence, no stop/frameshift, no X residues, conserved cysteine 등의 filter를 거칩니다. 이후 337M filtered sequences가 되고, mmseqs linclust 70% identity clustering과 germline identity split을 거쳐 final 25.6M sequences를 사용합니다. Validation/test는 각각 800k sequences입니다.
이 setup은 명확한 장점과 제약을 동시에 가집니다. Heavy-chain repertoire scale을 잘 활용하지만, paired VH/VL paratope나 antibody-antigen complex pose는 모델링하지 않습니다. Germline annotation이 있어야 하며, germline이 conditioning input으로 들어간다는 점도 downstream comparison에서 분리해야 합니다.
Table 1: non-germline residue를 더 잘 맞추는가
MochiDiff의 가장 중요한 benchmark는 Table 1입니다. 비교 대상은 ESM-2, ESM-2 antibody-finetuned MLM, AbLang-2, IgLM, 그리고 MochiDiff의 uniform / absorbing / germline diffusion variants입니다.
Perplexity만 보면 antibody-finetuned language model들은 이미 꽤 강합니다. ESM-2는 perplexity 3.509이고, ESM-2 finetuned MLM은 1.448, IgLM은 1.411입니다. MochiDiff germline은 perplexity ≤ 1.293으로 보고됩니다. 하지만 germline model은 germline sequence라는 additional input을 받기 때문에 perplexity를 같은 조건에서 직접 비교하면 안 됩니다. 논문도 이 값을 star로 표시합니다.
더 중요한 metric은 non-germline accuracy입니다. ESM-2는 0.193, ESM-2 finetuned MLM은 0.247, AbLang-2는 0.229, IgLM은 0.257입니다. MochiDiff uniform은 0.261, absorbing은 0.255에 머뭅니다. 반면 MochiDiff germline은 0.463입니다. Nearest-neighbor upper bound가 0.538이라는 점을 고려하면 꽤 큰 차이입니다.
이 결과는 논문의 핵심 claim을 뒷받침합니다. Antibody sequence model이 germline을 endpoint로 받으면, common germline을 맞추는 쉬운 문제보다 germline 이후 variation을 더 잘 다루게 됩니다. Therapeutic antibody optimization에서 중요한 residue는 종종 germline과 다른 mutation 위치에 있으므로, non-germline accuracy 개선은 단순한 perplexity 개선보다 설계 관점에서 더 의미가 있습니다.
다만 이 결과도 sequence prediction benchmark입니다. Non-germline residue를 더 잘 예측한다고 해서 antigen binding, specificity, developability가 자동으로 따라오는 것은 아닙니다. MochiDiff가 보여주는 것은 antibody sequence prior의 방향을 design-useful하게 바꾸는 방법입니다.
Classifier guidance: gradient보다 probability ratio
MochiDiff의 두 번째 축은 classifier-guided conditional generation입니다. Antibody design에서는 binding affinity predictor, hydrophobicity predictor, developability classifier 같은 외부 model로 generation을 guide하고 싶습니다. 기존 gradient-based MCMC 방식은 classifier가 differentiable해야 하거나, discrete sequence space에서 continuous relaxation을 써야 합니다. 이때 gradient가 실제 amino-acid mutation 의미와 잘 맞는지도 애매합니다.
SEDD formulation에서는 conditional score ratio를 unconditional score ratio와 classifier probability ratio로 분해할 수 있습니다. 그래서 classifier gradient가 아니라 classifier logit/probability ratio만 있으면 guidance를 걸 수 있습니다. 이론적으로는 off-the-shelf classifier를 더 유연하게 붙일 수 있습니다.
이 방식의 장점은 명확합니다. Guidance classifier가 neural network gradient를 sequence token에 대해 제공하지 않아도 됩니다. 모델을 새로 학습할 때부터 condition token을 넣을 필요도 없습니다. 원하는 property predictor가 있으면 sampling 중에 conditional score를 바꾸는 방식으로 generation을 밀 수 있습니다.
단점도 있습니다. 각 timestep에서 length × vocabulary 수만큼 classifier forward pass가 필요합니다. 작은 ESM-2 linear probe라면 가능하지만, 비싼 structure predictor나 docking model을 그대로 붙이기는 어렵습니다. Guidance strength도 경험적으로 조절해야 합니다. 강하게 밀면 property adherence는 올라가지만 sample quality나 manifold proximity가 떨어질 수 있습니다.
MochiDiff가 germline diffusion을 쓰는 또 다른 이유도 여기서 나옵니다. Fully noised state가 `[MASK]` sequence이면 pretrained classifier 입장에서는 out-of-distribution일 수 있습니다. 반면 germline sequence는 실제 antibody-like input이므로 classifier가 더 in-distribution으로 볼 가능성이 있습니다.
Figure 2A: V-gene class guidance는 sanity check
첫 conditional generation task는 V-gene family class입니다. Simple V-gene family classifier를 guidance로 사용해 heavy-chain sequence를 특정 V-gene class에 맞게 sample합니다. Guidance strength가 올라가면 class adherence가 올라갑니다. 대신 sample quality와 training-set manifold proximity가 떨어지는 tradeoff가 나타납니다.
이 task는 MochiDiff의 핵심 application이라기보다 classifier guidance가 작동한다는 sanity check에 가깝습니다. V-gene family는 germline에서 이미 대부분 결정되므로, germline diffusion model에는 적용하지 않습니다. Uniform이나 mask absorbing setup에서 guidance tradeoff를 보는 용도입니다.
중요한 점은 이 결과가 “원하는 항체 function을 만들었다”는 evidence가 아니라는 것입니다. Classifier-guided discrete diffusion이 target class 방향으로 sample distribution을 움직일 수 있음을 보여주는 첫 demonstration입니다.
Hydrophobicity guidance: developability proxy를 낮추기
두 번째 task는 hydrophobicity-conditioned generation입니다. Antibody developability에서 hydrophobic surface나 high hydrophobicity는 aggregation, nonspecific binding, poor solubility와 연결될 수 있습니다. MochiDiff는 Bashour et al. dataset의 약 2M antibody hydrophobicity values로 학습한 ESM-2 linear probe를 guidance classifier로 사용합니다. Test Spearman correlation은 0.998로 보고됩니다.
Table 2에서 MochiDiff germline은 guidance strength가 올라갈수록 predicted hydrophobicity를 낮춥니다. No guidance에서는 0.057 kcal/mol, low guidance에서는 0.031, medium guidance에서는 -0.007, high guidance에서는 -0.063입니다. 동시에 nearest-neighbor similarity는 0.93에서 0.81로 낮아지고, diversity는 61.3에서 64.9로 증가합니다.
EvoProtGrad도 hydrophobicity를 낮추지만, NN similarity가 0.75에서 0.51로 더 크게 떨어지고 diversity도 더 높아집니다. 논문은 이를 off-manifold risk가 더 큰 것으로 해석합니다. MochiDiff는 property improvement와 sample quality 사이에서 더 나은 tradeoff를 보였다는 주장입니다.
이 결과는 design utility 관점에서 흥미롭습니다. Germline-conditioned antibody sequence prior를 유지하면서 hydrophobicity proxy를 낮출 수 있기 때문입니다. 하지만 hydrophobicity는 developability의 일부입니다. Expression, solubility, aggregation, monomericity, polyreactivity, stability, immunogenicity, viscosity를 모두 대체하지 않습니다. 따라서 “developable antibody를 만들었다”보다는 “hydrophobicity proxy를 낮추는 guided sequence generation을 보였다”가 정확합니다.
HGFR / Emibetuzumab: binding proxy optimization
가장 application에 가까운 task는 HGFR / Emibetuzumab binding proxy optimization입니다. Dataset은 Makowski et al.의 Emibetuzumab CDR-H3 random variant 4,000개와 experimentally determined binary high/low binding labels입니다. 이 data로 binding classifier를 학습하고, classifier AUROC는 0.97로 보고됩니다.
MochiDiff는 이 classifier를 사용해 germline diffusion sampling을 guide합니다. 문제는 같은 classifier로 generation을 guide하고 validation까지 하면 adversarial optimization처럼 보일 수 있다는 점입니다. 논문은 이를 의식하고 Boltz-2 multimer prediction을 orthogonal validation으로 사용합니다.
Table 2에서 MochiDiff germline no guidance는 classifier p(bind) 0.19, Boltz-2 p(bind) 0.27, ipTM 0.22, pLDDT 0.96입니다. High guidance에서는 classifier p(bind)가 0.80으로 올라가고, Boltz-2 p(bind)는 0.35, ipTM은 0.37이 됩니다. EvoProtGrad high guidance도 classifier p(bind) 0.77까지 오르지만, Boltz-2 p(bind)는 0.29, ipTM은 0.25에 머뭅니다.
논문 abstract는 Emibetuzumab seed optimization에서 MochiDiff가 평균 Boltz-2 predicted antibody-antigen complex score를 48% 높였고, tested designs 중 best predicted binder를 만들었다고 표현합니다. 이 claim은 table의 trend와 맞습니다. MochiDiff가 classifier guidance와 antibody sequence prior를 함께 쓰면서 proxy binding signal을 더 안정적으로 끌어올린다는 그림입니다.
하지만 이것은 wet-lab binding validation이 아닙니다. 새로 생성한 antibody를 발현하거나 SPR/BLI로 KD를 잰 결과가 없습니다. Boltz-2 metric도 이 setup에서 weakly predictive하다고 supplement가 설명합니다. HGFR result는 experimental label dataset을 이용한 in silico directed-evolution simulation으로 보는 편이 정확합니다.
Figure 2B–D: seed와 diversity 사이의 거리
Figure 2B–D는 generated designs가 seed와 얼마나 가까운지, 서로 얼마나 다양한지, 그리고 binder/non-binder distribution과 어떻게 비교되는지를 보여줍니다. MochiDiff는 Emibetuzumab seed 주변에서 variation을 만들면서 classifier와 Boltz-2 proxy를 개선하려 합니다.
이런 visualization은 antibody sequence optimization에서 중요합니다. 너무 seed에 가까우면 novelty나 optimization 폭이 작고, 너무 멀어지면 antibody-like manifold를 벗어나거나 framework/CDR compatibility가 깨질 수 있습니다. MochiDiff의 주장은 이 tradeoff에서 EvoProtGrad보다 더 나은 balance를 보인다는 것입니다.
다만 sequence distance만으로 paratope geometry를 알 수는 없습니다. CDR-H3 sequence variation이 antigen contact chemistry를 어떻게 바꾸는지, heavy/light chain pairing과 framework가 pose를 유지하는지, target epitope가 보존되는지는 구조와 실험이 있어야 안정적으로 판단할 수 있습니다.
항체 design paper로서 어디까지인가
MochiDiff는 antibody design map에서 위치를 잘 잡아야 하는 논문입니다. DiffAb, AbDiffuser, RFdiffusion-Antibody, Origin-1, Latent-X2, Chai-2 같은 논문은 CDR loop geometry, antibody-antigen pose, paired-chain context, wet-lab binding campaign을 다루는 경우가 많습니다. MochiDiff는 그 층위가 아닙니다.
MochiDiff는 sequence-only heavy-chain model입니다. Training data도 unpaired human heavy-chain PBMC sequences입니다. 따라서 full antibody나 VHH format, paired VH/VL paratope, antigen-bound pose, specificity, Fc format, developability panel을 직접 다루지 않습니다.
그렇다고 기여가 작다는 뜻은 아닙니다. 항체 design에서 sequence prior는 중요합니다. 특히 CDR sequence optimization, directed evolution, human-like repertoire constraint, developability proxy guidance는 structure generation과 별도의 축입니다. MochiDiff는 이 sequence prior가 germline memorization에 갇히지 않도록 diffusion process 자체를 antibody biology에 맞춘다는 점에서 의미가 있습니다.
가장 좋은 독해법은 “새 항체 binder를 설계한 논문”이 아니라 “antibody sequence prior를 directed evolution에 더 맞게 바꾸는 논문”입니다. 이 관점에서는 non-germline accuracy 개선과 classifier guidance tradeoff가 핵심 성과입니다.
DPLM-Evo, ProteinGenerator, ESM3와의 거리
MochiDiff는 sequence-space discrete diffusion 계열에 놓을 수 있습니다. DPLM-Evo는 substitution/insertion/deletion trajectory를 명시적으로 다루며 broader protein evolutionary sequence editing에 초점을 둡니다. MochiDiff는 antibody heavy-chain germline-to-observed variation에 초점을 둡니다. 둘 다 sequence-level generative modeling이지만 biological prior가 다릅니다.
ProteinGenerator는 RoseTTAFold를 sequence-space diffusion model로 fine-tune해 sequence와 structure를 함께 생성합니다. MochiDiff는 structure를 생성하지 않습니다. 대신 antibody sequence prior와 off-the-shelf classifier guidance에 집중합니다.
ESM3는 sequence, structure, function을 discrete token track으로 통합한 multimodal protein language model입니다. MochiDiff는 그보다 좁고 antibody-specific합니다. 하지만 ESM3가 보여준 “protein LM이 design interface가 될 수 있다”는 큰 방향 안에서, MochiDiff는 항체 sequence biology에 맞춘 discrete diffusion variant로 볼 수 있습니다.
이 비교에서 중요한 것은 representation입니다. ESM3는 multimodal token tracks, ProteinGenerator는 noised one-hot amino-acid sequence plus RoseTTAFold structure output, MochiDiff는 germline-absorbing antibody heavy-chain token diffusion입니다. 모두 sequence를 다루지만 해결하려는 문제와 evidence layer가 다릅니다.
Evidence가 말해주는 범위
MochiDiff의 evidence는 세 층으로 나누면 깔끔합니다.
첫 번째는 language-modeling evidence입니다. Germline absorbing diffusion은 non-germline residue prediction accuracy를 약 26%에서 46%로 끌어올립니다. 이는 antibody pLM이 common germline을 외우는 문제에서 벗어나, germline 이후 variation을 더 잘 다루게 만들 수 있음을 보여줍니다.
두 번째는 classifier-guided generation evidence입니다. V-gene class, hydrophobicity, HGFR binding proxy에서 guidance strength에 따라 target property가 움직입니다. 특히 hydrophobicity와 HGFR task에서 MochiDiff는 EvoProtGrad보다 sample quality와 property adherence tradeoff가 좋게 제시됩니다.
세 번째는 structure-based proxy validation입니다. HGFR task에서 Boltz-2를 orthogonal proxy로 사용해 classifier-only overoptimization 우려를 줄이려 합니다. 다만 Boltz-2 metrics 자체도 weak predictor이고, wet-lab validation은 없습니다.
따라서 MochiDiff를 “antibody binder generation success”로 정리하면 과장입니다. “Germline-aware antibody sequence diffusion이 non-germline variation modeling과 classifier-guided proxy optimization을 개선했다”가 더 정확합니다.
한계점
가장 큰 한계는 wet-lab validation 부재입니다. MochiDiff는 새로 생성한 antibody를 합성하거나 발현하지 않았고, SPR/BLI로 binding affinity를 측정하지 않았습니다. Hydrophobicity와 HGFR 결과는 classifier와 Boltz-2 proxy evidence입니다.
두 번째는 sequence-only heavy-chain scope입니다. Paired heavy/light chain, antibody-antigen pose, CDR loop conformation, full IgG/scFv/VHH format, Fc context, avidity, epitope accessibility는 직접 모델링하지 않습니다. Antibody/VHH design에서는 이런 요소가 candidate viability를 크게 좌우합니다.
세 번째는 germline conditioning이 task 자체를 바꾼다는 점입니다. Germline model은 additional input을 받기 때문에 perplexity나 generation quality를 다른 language model과 같은 정보 조건에서 직접 비교하면 안 됩니다. Non-germline accuracy가 더 중요한 metric으로 보입니다.
네 번째는 classifier guidance의 proxy overoptimization입니다. HGFR task는 이 문제를 잘 의식하고 Boltz-2를 orthogonal validation으로 붙였지만, Boltz-2 역시 실험이 아닙니다. Stronger guidance가 실제 binding이나 developability를 개선한다는 결론은 아직 이릅니다.
마지막으로 guidance cost가 큽니다. Length × vocabulary × timesteps에 비례하는 classifier forward pass가 필요합니다. 작은 linear probe에는 괜찮지만, 더 비싼 multi-objective predictor나 structure model로 확장하려면 approximation이나 efficient sampler가 필요합니다.
평가
MochiDiff의 가장 좋은 점은 항체 sequence modeling의 문제를 biology-aware diffusion process로 바꿨다는 것입니다. 일반 pLM이 antibody repertoire를 학습할 때 germline/V(D)J statistics를 많이 외울 수 있다는 문제를, absorbing state를 germline으로 바꾸는 방식으로 해결하려 합니다. 이 아이디어는 단순하지만 항체 sequence design에는 꽤 잘 맞습니다.
이 논문은 큰 wet-lab milestone은 아닙니다. 하지만 antibody pLM을 directed evolution이나 sequence optimization에 쓰려면 어떤 inductive bias가 필요한지 보여주는 좋은 source입니다. 특히 non-germline accuracy 개선은 “항체답게 보이는 sequence”보다 “germline 이후 의미 있는 variation”을 모델링하는 쪽으로 초점을 옮깁니다.
MochiDiff를 읽을 때는 ambition과 evidence를 분리하는 것이 좋습니다. Ambition은 항체 sequence generation을 더 design-useful하게 만드는 것입니다. Evidence는 germline-aware sequence modeling, hydrophobicity proxy, HGFR binding proxy, Boltz-2 weak orthogonal validation입니다. 아직 paired-chain structure나 wet-lab binding까지 간 논문은 아닙니다.
그래도 항체 설계 지도에서는 중요한 빈칸을 채웁니다. RFdiffusion-Antibody나 Origin-1이 구조와 pose 중심의 antibody design을 보여준다면, MochiDiff는 antibody sequence prior 자체를 더 목적에 맞게 만드는 방향입니다. 둘은 경쟁이라기보다 서로 다른 layer입니다. 좋은 항체 design pipeline에는 결국 둘 다 필요할 가능성이 큽니다.
참고
- Sanders et al., “Conditional generation of antibody sequences with classifier-guided germline-absorbing discrete diffusion,” arXiv:2605.06720v1, DOI: 10.48550/arXiv.2605.06720. - 비교 맥락: Protein Language Model, Denoising Diffusion, Antibody-VHH Constraints, CDR Design, Binding Affinity Prediction, Candidate Filtering, Wet-lab Validation.