Proteo-R1 논문 리뷰

들어가며

Reasoning을 통해 key residue, key interaction을 찾아내기

Fixed-complex CDR redesign setting

Understanding expert와 generation expert

Three-stage training curriculum

Table 1: multi-CDR redesign benchmark

Table 2: RAbD HCDR3 benchmark

Table 3–4: sequence-realizability와 antibody-likeness proxy

Table 5: UniMoMo generator와의 결합

Structural proxy evidence로 읽기

정리하며: Reasoning-guided CDR design architecture로서의 Proteo-R1

참고

Proteo-R1 논문 리뷰

들어가며

LLM이 결합된 protein design, 매력적인 개념이지만 동시에 간단히 생각할 일은 아닙니다. 단백질 설계는 자연어 reasoning만으로 해결되는 문제가 아니기 때문이죠. 어느 residue가 target과 접촉하는지, CDR loop가 어떤 geometry를 만드는지, 그 sequence가 실제 antibody framework 안에서 말이 되는지, 결국 실험에서 binding이 나오는지는 서로 다른 층위입니다.

Stanford 중심의 그룹이 ICML 2026에 발표한 “Proteo-R1: Reasoning Foundation Models for De Novo Protein Design” 연구에서는 LLM을 protein generator 자체로 쓰지 않습니다. 대신 multimodal LLM을 understanding expert로 두고, 이 expert가 antibody CDR 안에서 key residue anchor를 먼저 고릅니다. 그 다음 AF3-style diffusion generation expert가 이 anchor를 hard constraint처럼 받아 CDR 서열과 구조를 co-design합니다.

이 리뷰에서는 Proteo-R1을 “LLM reasoning을 protein design pipeline에 어느 부분에 결합시킬 것인가”에 대한 architecture proposal로 이해해 보겠습니다. 특히 Proteo-R1이 SAbDab/RAbD 기반 in silico antibody CDR redesign benchmark와 ablation 실험 결과까지는 보여주고 있지만, 엄밀한 wet-lab binder discovery를 보여주는 논문은 아니라는 점을 감안하고 같이 이해해 보도록 합시다.

Reasoning을 통해 key residue, key interaction을 찾아내기

Proteo-R1의 출발점은 기존 diffusion/flow protein design model이 “non-deliberative”하다는 문제의식입니다. 많은 generative model은 denoising trajectory 안에서 residue choice와 geometry optimization을 함께 처리합니다. 이 방식은 좋은 방법이기는 하지만, 어떤 residue가 binding이나 specificity에 중요하다고 판단됐는지 외부에서 검사하기 어렵습니다. 즉, 생성 과정에 “어떤 interaction이 선호되어야 한다”, “어떤 residue가 결합에 매우 중요하다” 등의 의도를 담을 수 없다는 점을 한계로 지적하고 있습니다.

Proteo-R1은 이 과정을 understanding export와 generation expert, 두 expert로 나눕니다. Understanding expert는 masked antibody-antigen complex를 보고 CDR 안에서 key interaction anchor가 될 residue와 preferred amino-acid identity를 예측합니다. Generation expert는 antigen, antibody framework, 그리고 understanding expert가 도출한 fixed anchor residues를 조건으로 CDR sequence와 full-atom coordinates를 생성합니다.

여기서 잘 설계되었다고 생각되는 점은 reasoning의 output이 text embedding이나 chain-of-thought 자체가 아니라는 점입니다. Proteo-R1은 reasoning을 residue-level commitment로 바꿉니다. 어느 CDR position을 anchor로 볼지, 그 residue identity를 무엇으로 고정할지를 결정할 수 있는 것입니다. LLM이 “뭔가 생화학적으로 생각했다”가 아니라, generator에 condition으로 자연스럽게 넘길 수 있는 통일된 인터페이스를 만든 셈입니다.

이 인터페이스는 antibody CDR design과도 잘 맞습니다. Antibody/VHH에서는 일반 단백질 binder처럼 넓은 protein surface를 마음대로 만드는 것이 아니라, framework 위의 CDR loop가 주로 target epitope를 만납니다. 사람이 epitope와 paratope hotspot을 먼저 생각하고, 그 다음 주변 geometry와 sequence를 조정하는 방식과 닮아 있습니다.

Fixed-complex CDR redesign setting

Proteo-R1의 task 설정을 먼저 짚고 가야 할 것 같습니다. 논문 제목에는 de novo protein design이 들어가지만, 실험의 중심은 antibody CDR co-design / redesign입니다. Antigen sequence/structure, antibody framework region, antibody-antigen docking pose는 고정합니다. CDR residue의 아미노산 종류만 서열 수준에서 <X> 로 mask하고, model이 CDR amino-acid identity와 full-atom coordinates를 conditional generation합니다.

따라서 Proteo-R1은 “target만 주면 새로운 antibody를 찾아주는 zero-prior (de novo) discovery system”이 아닙니다. 이미 antibody-antigen complex context가 있고, docking pose도 고정되어 있으며, 그 안에서 CDR를 다시 설계하는 방법론에 가깝습니다. 즉 Proteo-R1이 보여주는 것은 prospective antibody discovery가 아니라 reasoning-guided CDR redesign의 structural proxy evidence 라고 볼 수 있겠습니다.

Understanding expert와 generation expert

Understanding expert는 sequence와 structure, text (prompt) context를 함께 받아 residue-level representation을 만듭니다. Sequence encoder로는 ESM-2를 쓰고, structure encoder로는 AF3-style model의 truncated diffusion features (아래 참조)를 사용합니다. Native CDR geometry leakage를 줄이기 위해 CDR sequence를 <X>로 mask한 뒤 AF3-style refolding/inpainting을 수행하고, coordinate decoder 이전의 residue embeddings를 structure features로 사용합니다.

참고) Truncated diffusion feature를 형성하는 과정

Generation expert는 AF3-style diffusion model입니다. 핵심 연결부는 sparse residue-aligned anchor interface입니다. Understanding expert가 CDR residue subset을 key anchor로 고르고, 각 anchor에 predicted amino-acid identity와 final-layer hidden representation을 부여합니다. Generator에서는 anchor identity가 sequence level에서 fixed되고, 해당 identity embedding에 projected reasoning embedding이 더해집니다. Non-anchor CDR positions는 계속 <X>로 남아 diffusion generator가 해결합니다.

이 구조는 두 가지 장점을 가집니다. 첫째, LLM reasoning이 generator의 continuous denoising process를 직접 흔들지 않습니다. 둘째, anchor를 바꾸거나 검사할 수 있으므로 interpretability와 controllability가 생깁니다. 반대로 anchor가 틀리면 generator가 그 잘못된 constraint를 안고 가야 합니다. 뒤에 살펴볼 Proteo-R1의 oracle anchor ablation이 계속 더 좋은 결과를 보이는 이유도 이 지점과 연결됩니다.

Three-stage training curriculum

Proteo-R1은 세 단계로 훈련됩니다. Stage I은 multimodal alignment입니다. LLM backbone은 freeze하고 projection layer만 학습합니다. Supervision은 chain count, length bin, secondary-structure statistics 같은 schema completion과 captioning입니다. Table 9에서 structure+sequence fusion은 overall schema accuracy 81.4%로 sequence-only 80.3%, structure-only 71.7%보다 약간 높습니다. 이 단계는 biochemical reasoning이라기보다 structural grounding을 맞추는 warm-up에 가깝습니다.

Stage II는 structural reasoning mid-training입니다. 여기서는 residue retrieval, DSSP/RSA, pairwise distance/contact, salt bridge, interacting chain pair, top interface/hotspot residue 같은 deterministic structure-derived tasks를 학습합니다. Curriculum은 M0 residue grounding, M1 pairwise geometry, M2 compositional/chemistry, M3 interface localization으로 이어집니다.

Stage III는 SAbDab antibody-antigen complexes를 사용한 joint reasoning-guided design입니다. Six CDR loops를 designable regions로 두고, Eund와 Egen을 end-to-end로 학습합니다. CDR sequence output은 structured JSON 형태로 만들며, optional antigen hotspot residues를 conditioning으로 줄 수 있습니다. Hyperparameter로는 Qwen-3-4B-Instruct backbone, frozen ESM-2, frozen AF3-style diffusion trunk, Stage III batch size 16, 10K steps, diffusion steps 200이 제시됩니다.

이 curriculum에서 조심해서 볼 부분은 Stage II reasoning task입니다. Table 12를 보면 CHAIN 90.6%, TOP 100.0%처럼 쉬운/global task는 높지만, HOT 11.6%, INTF 15.1%, DIST 39.6%, SALT 46.9%처럼 residue-level interface/hotspot localization은 아직 거칩니다. 따라서 “LLM이 biochemical hotspot을 정확히 이해한다”기보다, structure-derived supervision으로 interface-aware representation을 만들려는 시도로 보는 편이 안전합니다.

Table 1: multi-CDR redesign benchmark

Table 1은 simultaneous multi-CDR redesign의 geometry-centric evaluation입니다. Proteo-R1은 DiffAb, dyMEAN, HTP, IgGM, AbX, MFDesign과 비교됩니다. Reported per-CDR RMSD는 H1 1.33 Å, H2 1.13 Å, H3 3.81 Å, L1 1.54 Å, L2 0.85 Å, L3 1.51 Å입니다. Loop-RMSD는 4.51 Å, IMP는 56.58%, Clash_in은 0.50%, Clash_out은 0.14%, JSDbb는 0.2661입니다.

이 숫자는 Proteo-R1이 여러 CDR region에서 낮은 RMSD와 physical realism proxy 개선을 보인다는 해석을 가능하게 합니다. MFDesign보다 clash/JSDbb metric이 낮고, five-of-six CDR regions에서 lowest or near-lowest RMSD를 보입니다.

다만 H3는 여전히 어렵습니다. Proteo-R1의 H3 RMSD는 3.81 Å로 MFDesign의 3.71 Å보다 약간 나쁩니다. Oracle anchor setting에서는 H3 RMSD 3.34 Å, Loop-RMSD 3.93 Å, IMP 62.25%까지 좋아집니다. 이 차이는 Proteo-R1의 병목이 generator capacity만이 아니라 anchor selection accuracy에도 있음을 보여줍니다.

Table 2: RAbD HCDR3 benchmark

Table 2에서 보여주는 RAbD benchmark에서는 HCDR3만 mask하고 framework와 다른 CDR residue들은 고정합니다. Proteo-R1은 lDDT 0.9693, TMscore 0.9816, RMSD 2.46 Å, DockQ 0.801을 보고하는데요, 구조/interface metric만 보면 다른 모델에 비해 상당히 좋은 결과입니다. BoltzGen baseline은 AAR 39.07%, lDDT 0.8372, TMscore 0.9675, RMSD 2.69 Å, DockQ 0.473으로 제시되고 있네요.

여기서 분리해서 볼 지표는 AAR입니다. Proteo-R1의 AAR은 10.75%로 낮습니다. 저자들은 이를 native sequence를 복사하지 않고 alternative structural solution을 만든다는 쪽으로 해석합니다. De novo design 관점에서는 가능한 해석입니다. 하지만 wet-lab binding이나 developability가 없기 때문에, 이 결과를 “실제로 더 좋은 antibody를 만든다”로 바로 연결하면 안 될 것 같네요.

종합적으로 볼 때, 이 결과에서 확인할 수 있는 것은 native sequence recovery와 predicted structural interface quality가 분리된다는 점입니다. Proteo-R1은 native-like sequence를 맞추는 모델이라기보다, fixed complex setting에서 구조적으로 plausible한 alternative CDR solution을 제안하는 모델에 가깝다고 볼 수 있겠습니다.

Table 3–4: sequence-realizability와 antibody-likeness proxy

Table 3은 generated structure를 ABMPNN으로 inverse folding했을 때의 IF-AAR를 Proteo-R1 자체적인 AAR와 비교합니다. Proteo-R1은 AAR 자체는 낮지만 IF-AAR와의 gap이 작습니다. 예를 들어 H3에서 MFDesign은 AAR 65.04 / IF-AAR 19.73으로 gap이 -45.31인 반면, Proteo-R1은 AAR 15.06 / IF-AAR 19.27로 gap이 +4.21로, 절대적인 차이가 더 작음을 알수 있죠.

이 결과는 Proteo-R1이 그 자체로 native sequence(자연계에 나타나는 서열)를 많이 복원하지는 않지만, 생성된 구조가 독립적인 inverse-folding model 입장에서 sequence-realizable하게 보인다는 주장을 뒷받침합니다. 즉, inverse-folding model 입장에서, “나도 그렇게 예측할만한” 서열로 예측한다는 것이죠. 다만 ABMPNN 역시 어디까지나 computational model이므로, IF-AAR는 structure-sequence consistency proxy이지, expression이나 binding validation은 아니라는 점을 간과하면 안 되겠습니다.

Table 4는 IgLM, AbLang, IgT5 perplexity를 사용해 generated antibodies와 native GT를 비교합니다. Proteo-R1 generated sequences가 antibody language-model distribution에서 크게 벗어나지 않는다는 결과를 간접적으로 보여주고 있습니다. 이 역시 유용한 결과지만, language-model perplexity는 “서열의 그럴듯함”을 보여줄 뿐이라는 것을 염두에 두고 이해하는 편이 좋을 것 같네요.

Table 5: UniMoMo generator와의 결합

제안된 Proteo-R1의 방법론적 이점 중 하나는 generator modularity입니다. 즉, Proteo-R1 프레임워크 하에서 다양한 generative model을 사용해볼 수 있다는 것이죠. 저자들은 Proteo-R1을 AF3-style generator에만 묶지 않고, UniMoMo generator와 결합한 setting도 보여줍니다.

Table 5를 보면 UniMoMo(all)로 100 개 생성한 평가 결과는 AAR 52.34%, RMSD 1.04 Å, IMP 65.00%, ΔG 8.46 으로 나타났습니다. 반면, Proteo-R1(UniMoMo) 100 samples는 AAR 48.94%, RMSD 0.83 Å, IMP 67.79%, ΔG 7.35로 보고됩니다. Oracle Anchor residue를 제공했을 때는 IMP 74.5%, ΔG 4.51까지 좋아집니다.

이 결과는 Proteo-R1의 reasoning expert가 특정 generator에서만 잘 작동하는 일종의 trick이 아니라, sparse residue anchor interface를 이용해 범용적으로 geometric generator를 guide할 수 있다는 주장과 연결됩니다. LLM을 diffusion model 내부에 직접 주입하는 방식보다, residue anchor라는 중간 representation을 두었기 때문에, generator를 다양하게 바꿔 끼울 수 있는 modularity가 생긴다는 것이죠.

다만 역시 RMSD, IMP, ΔG-like score는 structural plausibility와 interface proxy에 가까운, in silico result라는 점을 짚고 넘어가야겠습니다.

Structural proxy evidence로 읽기

Proteo-R1의 결과는 대부분 in silico 평가에서의 structural plausibility 정도를 보여주고 있습니다. RMSD, DockQ, clash, JSDbb, IF-AAR, antibody language-model perplexity, predicted ΔG-like score는 모두 “후보가 구조적으로 말이 되는가”를 묻는 proxy 값이라고 볼 수 있습니다. 이들은 wet-lab 전에 후보를 줄이는 데 유용하지만, binding truth는 아닙니다.

특히 antibody CDR design에서는 paratope geometry와 wet-lab binding을 분리하는 편이 안전합니다. Predicted pose가 그럴듯하다는 것과 실제 target에 결합한다는 것은 차원이 다른 문제입니다. Intended epitope나 hotspot에 의존하는지도 별도의 문제이지요. Germinal처럼 alanine mutagenesis나 cryo-EM을 보여주거나, Origin-1처럼 selected complexes에 대해 cryo-EM pose validation을 제시하는 등의 실험적인 결과가 좀 더 추가된다면 좋았겠습니다. 결과들을 모아 볼 때, Proteo-R1을 평가할 때 가장 안전한 표현은 “reasoning-guided CDR redesign architecture가 structural/interface proxy metric을 개선했다”입니다. “LLM reasoning으로 antibody design을 해결했다”는 표현은 현재 결과가 뒷받침하기는 좀 어렵지 않나 싶네요.

정리하며: Reasoning-guided CDR design architecture로서의 Proteo-R1

제가 느끼기에 Proteo-R1의 가치를 “LLM이 단백질 설계를 한다” 까지 넓히기는 어렵지만, LLM을 이용해 residue-level anchor라는 좁고 검사 가능한 bottleneck을 만들어 뒷단의 generator의 condition으로 부여했다는 점이 좋아 보입니다. 이 방식은 protein design에서 LLM을 쓰는 비교적 안전한 interface라고 볼 수 있겠습니다. 직접적인 단백질 설계 모듈은 기존 방식을 차용하되, 해당 설계 모듈에 부여되는 조건들을 LLM을 바탕으로 수립하여 제공하는 접근은 꽤 일리있어 보입니다.

논문이 보여주는 근거들도 그 범위 안에서는 의미가 있습니다. Multi-CDR redesign, RAbD HCDR3 benchmark, IF-AAR analysis, antibody language-model perplexity, UniMoMo compatibility는 모두 Proteo-R1이 structural proxy metric에서 쓸 만한 신호를 만든다는 쪽을 뒷받침합니다. Oracle anchor ablation은 더 좋은 anchor가 있으면 generation result가 좋아질 수 있다는 병목도 보여줍니다.

하지만 아직 wet-lab validation 결과가 마땅이 있지는 않으므로, Proteo-R1은 아직 잘 정립된 antibody discovery paper라고 보기에는 어렵습니다. 결국 아직까지는 하나의 validated binder platform이 아니라, reasoning-guided protein design architecture의 초기 사례로 읽는 편이 안전할 것 같네요.

그럼에도 Proteo-R1에 주목하는 것이 의미있는 이유는, Protein design에서 LLM을 어디에 붙일지에 대한 논의는 앞으로 더 커질 가능성이 크기 때문입니다. Proteo-R1은 그 답을 “text를 generator에 넣자”가 아니라 “reasoning을 residue anchor로 바꿔 geometry generator에 넘기자”로 제안합니다. 이 정도의 조심스러운 인터페이스라면, practical binder pipeline에서도 검토할 만해보이네요!

참고

•

Wu et al., “Proteo-R1: Reasoning Foundation Models for De Novo Protein Design”, ICML 2026 / arXiv:2605.02937 — https://arxiv.org/abs/2605.02937

•

Project page: https://smiles724.github.io/r1/