Protein design model atlas
들어가며
Protein design 모델을 하나씩 따라가다 보면 어느 순간 이름보다 계열이 더 중요해집니다. RFdiffusion, AlphaProteo, BoltzGen, ESM3, PLAID, ProteinGenerator, Chai-2, Latent-X, MochiDiff는 모두 “AI로 protein을 설계한다”는 큰 문장 안에 들어가지만, 실제로는 서로 다른 문제를 풀고 있습니다.
어떤 모델은 backbone geometry를 먼저 만듭니다. 어떤 모델은 sequence space에서 diffusion을 돌립니다. 어떤 모델은 structure predictor를 뒤집어 design objective로 쓰고, 어떤 모델은 sequence, structure, function을 모두 token으로 바꿔 language model 안에 넣습니다. Antibody/VHH 쪽으로 가면 framework, CDR loop, paired-chain geometry, developability, epitope accessibility 같은 modality-specific constraint가 다시 붙습니다.
이 글은 개별 논문 리뷰를 읽기 위한 지도입니다. 모든 모델을 하나의 순위표로 세우기보다, 각 모델이 어느 축에서 의미가 있는지 정리합니다. 특히 중요한 기준은 “무엇을 생성하는가”, “어떤 조건을 넣을 수 있는가”, “실험 검증은 어디까지인가”입니다.
먼저 나눠야 할 세 가지 질문
Protein design 모델을 볼 때는 적어도 세 가지 질문을 분리해야 합니다.
첫째, 모델이 생성하는 대상은 무엇인가입니다. Backbone coordinate인지, residue frame인지, sequence token인지, all-atom coordinate인지, folding model의 latent인지, antibody CDR loop인지에 따라 모델의 장단점이 달라집니다. 예를 들어 RFdiffusion은 backbone diffusion의 대표 사례이고, ProteinGenerator는 sequence-space diffusion 쪽입니다. PLAID는 ESMFold latent를 생성 대상으로 삼는 다른 route입니다.
둘째, 조건이 어디에 들어가는가입니다. Motif coordinate, target surface hotspot, functional keyword, amino-acid composition, germline sequence, antibody framework, CDR length는 모두 “조건”이지만 성격이 다릅니다. 조건을 sampling 중에 직접 넣는지, post hoc filtering으로 고르는지, structure predictor의 score를 optimization하는지도 구분해야 합니다.
셋째, evidence가 어디까지 가는가입니다. AF2/ESMFold self-consistency, pLDDT, ipTM, Foldseek novelty, Boltz-2 p(bind)는 모두 유용한 proxy입니다. 하지만 wet-lab binding, specificity, functional assay, cryo-EM/X-ray/NMR structure, developability panel과 같은 evidence와는 층위가 다릅니다. 이 구분을 놓치면 모델의 의미를 과장하거나 과소평가하기 쉽습니다.
Backbone diffusion과 geometry-first design
RFdiffusion 이후의 protein design은 backbone-first 사고방식에서 크게 발전했습니다. 구조를 먼저 만들고, 그 구조에 맞는 sequence를 설계한 뒤, structure predictor와 실험으로 검증하는 흐름입니다. 이 route는 motif scaffolding, symmetric assembly, target-conditioned binder design처럼 geometry가 중심인 문제에 특히 강합니다.
RFdiffusion은 이 축의 출발점입니다. RoseTTAFold를 denoising diffusion model로 fine-tune해 protein backbone을 생성하고, motif, topology, symmetry, target hotspot 같은 조건을 넣을 수 있게 만들었습니다. 이 논문이 중요한 이유는 단순히 그럴듯한 backbone을 만든 것이 아니라, ProteinMPNN sequence design, AF2 filtering, wet-lab validation까지 이어지는 design pipeline을 보여줬기 때문입니다.
Genie2와 Genie3는 motif scaffolding과 binder generation에서 다른 geometry route를 보여줍니다. Genie2는 motif를 pairwise distance로 넣어 scaffolding 문제를 다루고, Genie3는 branched polymer representation과 partial atomization을 통해 SE(3)-equivariant reasoning을 확장합니다. Genie3의 Nipah glycoprotein G wet-lab result는 이 계열이 단순 benchmark를 넘어 design task로 이어질 수 있음을 보여주는 anchor입니다.
이 축의 장점은 명확합니다. 구조적 조건이 구체적일수록 강합니다. 하지만 backbone-first design은 sequence와 sidechain chemistry, expression, solubility, specificity를 자동으로 해결하지 않습니다. 그래서 이 계열의 논문은 항상 sequence design과 filtering, wet-lab layer를 함께 봐야 합니다.
Sequence-space diffusion: sequence가 조건의 중심일 때
어떤 design problem에서는 backbone보다 sequence가 먼저입니다. 특정 amino acid composition을 원하거나, fixed peptide sequence를 scaffold 안에 넣거나, 같은 sequence가 여러 state에서 다르게 접히게 만들거나, experimental sequence-activity data로 sampling을 guide하고 싶을 수 있습니다. 이런 문제에서는 sequence-space generation이 자연스럽습니다.
ProteinGenerator는 이 축의 대표적인 논문입니다. RoseTTAFold를 sequence-space diffusion model로 fine-tune해 noised amino-acid sequence에서 sequence와 structure를 함께 생성합니다. 이 모델의 강점은 amino-acid composition, fixed peptide sequence, repeat symmetry, multistate parent-child design 같은 sequence-side constraint를 generation trajectory 안에 넣을 수 있다는 점입니다.
DPLM-Evo는 sequence/edit-space protein language model 계열입니다. Mask filling을 넘어 substitution, insertion, deletion trajectory를 다루고, motif scaffolding이나 family expansion 같은 in silico sequence optimization task를 보여줍니다. 다만 wet-lab validation 없이 proxy 중심으로 해석해야 합니다.
MochiDiff는 sequence diffusion을 antibody heavy-chain biology에 맞춘 사례입니다. 일반 `[MASK]` 대신 germline sequence를 absorbing state로 사용해, 모델이 germline/V(D)J statistics를 외우는 대신 germline에서 observed antibody sequence로 가는 variation을 학습하도록 합니다. Non-germline accuracy 개선과 hydrophobicity/HGFR proxy optimization은 흥미롭지만, sequence-only heavy-chain 모델이고 wet-lab binding validation은 없습니다.
이 계열은 “sequence를 어떻게 만들 것인가”가 중요한 문제에서 빛납니다. 반대로 target-bound pose, sidechain contact chemistry, paired-chain antibody geometry처럼 구조적 조건이 강한 문제에서는 별도의 structure-aware layer가 필요합니다.
Protein language model route
Protein language model은 처음에는 sequence representation model에 가까웠습니다. 하지만 ESM3 이후로는 sequence-only model로만 보기 어렵습니다. ESM3는 sequence, structure, function을 discrete token track으로 바꾸고, 하나의 multimodal transformer 안에서 masked generation을 수행합니다.
ESM3의 핵심은 protein design 문제를 “어떤 token track을 prompt로 주고, 나머지를 채울 것인가”로 바꾼다는 점입니다. Sequence token, structure token, SS8, SASA, function keyword, residue annotation이 모두 같은 framework 안에 들어갑니다. GFP active-site/local-structure prompt에서 시작해 실제 fluorescence를 보이는 esmGFP를 합성·검증한 결과는 protein language model이 functional design space로 들어갈 수 있음을 보여주는 milestone입니다.
하지만 ESM3도 모든 design problem을 해결한 것은 아닙니다. esmGFP는 강한 functional validation이지만, binder design이나 therapeutic protein design 전반의 성공률을 보장하지 않습니다. “500 million years”라는 문구도 literal evolution replay가 아니라, sequence-distance와 phylogenetic calibration으로 본 equivalent evolutionary distance로 이해하는 편이 정확합니다.
Protein language model route는 앞으로 function keyword, local motif, structural abstraction, sequence generation을 하나의 model interface로 묶는 방향에서 중요해질 가능성이 큽니다. 다만 prompt following benchmark와 wet-lab functional validation은 계속 분리해서 봐야 합니다.
Folding-model latent와 prediction-model inversion
최근 흥미로운 흐름은 structure prediction model을 단순 evaluator로 쓰지 않는 것입니다. 이미 학습된 folding/prediction model의 latent, confidence, hallucination behavior를 design에 직접 활용합니다.
PLAID는 ESMFold의 sequence-to-structure latent를 생성 대상으로 삼습니다. Coordinate를 직접 denoise하지 않고, ESMFold가 만든 latent representation을 CHEAP으로 압축한 뒤 diffusion을 학습합니다. 이렇게 하면 sequence-scale Pfam data와 GO/organism annotation을 활용하면서 all-atom output을 얻을 수 있습니다. Heme-binding UV-vis validation은 좋은 anchor이지만, broad function generation이나 binder design으로 바로 일반화하면 안 됩니다.
BoltzDesign1은 AF3-style all-atom structure prediction model을 inversion/hallucination objective로 사용합니다. Pairformer distogram과 confidence module을 이용해 biomolecular binder 후보를 만드는 방향입니다. 여기서 중요한 것은 prediction model의 어떤 signal을 optimization objective로 삼는지입니다.
ProteinHunter는 또 다른 방향입니다. AF3-style predictor가 all-X sequence에서 만드는 structure hallucination을 seed로 쓰고, ProteinMPNN/LigandMPNN sequence redesign과 structure reprediction을 반복합니다. Generator를 새로 학습하지 않고, predictor의 failure mode처럼 보이는 hallucination을 design loop 안으로 가져온다는 점이 흥미롭습니다.
이 계열은 앞으로 더 커질 가능성이 큽니다. AlphaFold3 이후 structure prediction model은 단순 예측기를 넘어, design prior, evaluator, optimizer, sampler의 일부로 쓰이기 시작했습니다. 다만 prediction confidence가 곧 experimental success는 아니라는 점은 계속 붙잡아야 합니다.
All-atom generation과 binder platform
Backbone만으로는 binding과 function을 설명하기 어렵습니다. Sidechain packing, charge, hydrogen bond, ligand contact, interface chemistry가 중요하기 때문입니다. 그래서 all-atom generation과 binder platform은 protein design의 자연스러운 다음 단계입니다.
BoltzGen은 Boltz-2-style architecture를 design-oriented all-atom generation으로 확장한 사례입니다. Protein, nanobody, peptide, cyclic peptide, disordered-protein, small-molecule, antimicrobial task까지 넓은 wet-lab campaign을 보고합니다. Broad platform claim이 강한 만큼, target별 denominator와 assay endpoint를 분리해서 봐야 합니다.
AlphaProteo는 Google DeepMind의 target-conditioned binder generation technical report입니다. Target structure와 optional hotspot residues를 입력으로 받고, filtering을 거쳐 medium-throughput experimental screen을 수행합니다. Hit rate와 affinity evidence가 강하지만, closed system이고 target set과 assay context를 분리해서 봐야 합니다.
Chai-2는 low-N antibody/VHH/miniprotein design benchmark에 가깝습니다. 24-well plate benchmark, VHH/scFv/full IgG format transfer, cryo-EM pose validation, GPCR/pMHC cases를 포함하지만, closed system이고 format별 evidence를 섞으면 안 됩니다.
이 cluster는 실제 wet-lab evidence가 많아서 가장 흥미롭지만, 동시에 가장 조심해야 합니다. Hit rate, affinity, specificity, developability, pose validation, functional assay는 서로 다른 endpoint입니다. 하나가 좋다고 나머지가 자동으로 따라오지는 않습니다.
Antibody와 VHH design은 별도 축이다
Antibody/VHH design은 general binder design의 하위 문제가 아니라, modality-specific constraint가 강한 별도 축입니다. Framework, CDR loop geometry, paired heavy/light chain, paratope pose, developability, epitope accessibility가 모두 중요합니다.
RFdiffusion-Antibody는 RFdiffusion을 VHH/scFv/full antibody design으로 확장한 대표 사례입니다. Initial VHH hit rate는 낮지만, yeast display, OrthoRep maturation, SPR, cryo-EM validation까지 이어지며 antibody design에서 generation, screening, maturation, structure validation이 어떻게 연결되는지 보여줍니다.
MochiDiff는 구조 생성이 아니라 antibody heavy-chain sequence prior 쪽입니다. Germline absorbing diffusion은 antibody pLM의 germline memorization 문제를 줄이려는 좋은 아이디어지만, paired-chain paratope geometry나 wet-lab binding validation은 없습니다.
Boltz 계열: prediction에서 design으로
Boltz 계열은 AF3 이후 공개 structure prediction model과 design model이 어떻게 갈라지는지 보여주는 좋은 mini-cluster입니다.
이후 BoltzDesign1은 prediction model inversion route로, BoltzGen은 design-oriented all-atom generation route로 이어집니다. 같은 Boltz 이름이 붙어도 prediction, steering, affinity prediction, inversion, generation의 역할이 다르므로 섞어 읽으면 안 됩니다.
Boltz-2는 다른 논문에서도 proxy로 등장합니다. 예를 들어 MochiDiff는 HGFR/Emibetuzumab task에서 Boltz-2 multimer prediction을 orthogonal validation proxy로 사용합니다. 이런 연결을 보면 structure predictor가 design workflow의 evaluator로 넓게 쓰이고 있음을 알 수 있습니다.
읽는 순서 추천
처음부터 모든 글을 순서대로 볼 필요는 없습니다. 관심사에 따라 다른 path가 좋습니다.
Backbone diffusion과 motif scaffolding을 보고 싶다면 RFdiffusion에서 시작해 Genie2, Genie3, ProteinHunter로 넘어가는 흐름이 좋습니다.
Sequence와 language model route가 궁금하다면 ESM3, ProteinGenerator, PLAID, MochiDiff, DPLM-Evo를 묶어 읽는 편이 좋습니다.
앞으로 볼 기준
앞으로 나오는 protein design 논문을 볼 때도 이 atlas의 기준을 그대로 적용할 수 있습니다.
먼저 representation을 봅니다. 모델이 coordinate를 생성하는지, sequence를 생성하는지, token track을 채우는지, latent를 생성하는지 확인합니다. 다음으로 condition을 봅니다. Motif, target, keyword, germline, framework, classifier guidance 중 무엇이 generation을 움직이는지 봅니다. 마지막으로 validation을 봅니다. Proxy인지, wet-lab인지, binding인지, function인지, structure인지, developability인지 분리합니다.
이렇게 보면 “새로운 SOTA protein design model”이라는 문장이 조금 덜 흐릿해집니다. 어떤 SOTA인지, 어떤 task에서 강한지, 어느 evidence layer까지 갔는지가 보입니다. Protein design은 이제 하나의 leaderboard가 아니라 여러 축이 교차하는 지형도에 가깝습니다.
이 atlas는 그 지형도를 계속 업데이트하기 위한 출발점입니다. 새 모델이 나올 때마다 순위표에 하나 더 넣기보다, 어느 축을 새로 만들었는지, 기존 축의 어느 병목을 줄였는지, 그리고 실험 evidence가 어디까지 따라왔는지를 기준으로 보는 것이 좋겠습니다.
함께 읽기
•
ESM3 논문 리뷰 — multimodal protein language model과 esmGFP wet-lab validation.
•
ProteinGenerator 논문 리뷰 — sequence-space diffusion과 multistate / peptide-caging validation.
•
PLAID 논문 리뷰 — ESMFold latent diffusion과 heme-binding proof-of-concept.
•
MochiDiff 논문 리뷰 — antibody germline-aware discrete diffusion.
•
AlphaProteo technical report 리뷰 — target-conditioned binder generation과 medium-throughput screen.
•
BoltzGen 논문 리뷰 — broad all-atom binder platform.
•
RFdiffusion-Antibody 논문 리뷰 — antibody/VHH design에서 generation, screening, maturation, pose validation의 연결.