Proteina-Complexa 논문 리뷰

Binder design 논문을 볼 때 자주 마주치는 갈림길이 있습니다. 하나는 RFdiffusion처럼 target에 조건을 걸고 binder backbone을 생성하는 generative route입니다. 다른 하나는 BindCraft나 BoltzDesign처럼 structure predictor의 confidence score를 직접 끌어올리는 hallucination route입니다. 전자는 빠르게 다양한 후보를 만들 수 있지만 어려운 target에서는 좋은 후보를 충분히 찾기 어렵고, 후자는 predictor score를 강하게 최적화할 수 있지만 generative prior 없이 넓은 sequence-structure space를 탐색해야 합니다.

Proteina-Complexa는 이 둘을 굳이 나누지 말자는 쪽에 가깝습니다. NVIDIA가 Proteína, La-Proteina로 쌓아온 flow-matching generator를 target-conditioned binder generation으로 확장하고, 그 생성 trajectory 안에 test-time search를 얹습니다. 먼저 강한 generative prior를 만들고, sampling 과정에서 AF2-Multimer/RF3 confidence나 interface hydrogen bond reward를 사용해 더 나은 interface 쪽으로 후보를 밀어주는 방식입니다.

논문 제목은 “Scaling Atomistic Protein Binder Design with Generative Pretraining and Test-Time Compute”입니다. ICLR 2026 oral presentation으로 공개되었고, NVIDIA GenAI for Bio 연구진을 중심으로 University of Oxford, Mila/Université de Montréal, HEC Montréal, AITHYRA, Seoul National University 공동 저자들이 참여했습니다. 이 글에서는 Proteina-Complexa를 wet-lab binder discovery 논문이 아니라, atomistic binder generator에 data scale과 inference-time compute를 결합한 method paper로 다룹니다. 특히 결과 수치를 볼 때는 생성 모델, sequence redesign, folding-model evaluator, search budget이 어디까지 관여했는지 나누어 보겠습니다.

Proteína 계열에서 Complexa의 위치

Proteina-Complexa를 이해하려면 NVIDIA Proteína 계열의 흐름을 먼저 잡는 편이 좋습니다. Proteína는 Cα backbone을 flow matching으로 생성하는 scaled backbone generator였습니다. La-Proteina는 Cα coordinates는 explicit하게 두고, sequence와 sidechain/full-atom detail은 per-residue latent variable로 압축해 all-atom sequence-structure generation으로 넘어갔습니다. Proteina-Atomistica는 explicit all-atom generation과 sequence-structure consistency data 문제를 다뤘습니다.

Complexa는 이 흐름을 target-conditioned binder design으로 옮깁니다. Binder의 Cα coordinates는 직접 생성하고, sequence와 non-Cα atomistic detail은 La-Proteina식 latent variable로 표현합니다. Target은 생성하지 않습니다. Target structure와 hotspot 정보를 conditioning signal로 넣고, 모델은 그 target 주변에 놓일 binder를 생성합니다. 따라서 Complexa는 “전체 complex를 새로 만드는 모델”이라기보다, target을 보고 binder 쪽만 생성하는 conditional atomistic binder generator입니다.

이 차이는 중요합니다. 기존 backbone generator는 보통 backbone을 만든 뒤 ProteinMPNN이나 LigandMPNN으로 sequence를 붙이고, 다시 AF2/AF3/RF3류 predictor로 평가합니다. Complexa는 generated binder의 sequence와 atomistic detail을 같은 partially latent representation 안에서 다룹니다. 그래도 최종 성능은 여전히 folding-model evaluator와 search pipeline을 포함한 결과입니다. 모델 단독의 생물학적 성공률로 받아들이면 과합니다.

Teddymer: AFDB monomer에서 interaction data 만들기

Binder generation에서 큰 병목은 data입니다. Experimental PDB multimer는 품질은 좋지만 scale이 작습니다. 반대로 AFDB에는 거대한 monomer structure collection이 있지만, 이것은 곧바로 binder-target complex data가 아닙니다. Complexa의 데이터 contribution은 이 사이를 메우려는 시도입니다.

저자들은 AFDB50 구조 중 TED domain annotation이 있는 monomer를 domain 단위로 쪼개고, 같은 monomer 안에서 가까이 놓인 domain-domain pair를 synthetic dimer처럼 취급합니다. 여기에 proximity, CATH C/A/T annotation, interface quality, clustering/filtering을 적용해 Teddymer라는 synthetic dimer dataset을 만듭니다. 최종 clustering은 3,556,223 clusters이고, interface length >10, interface-pAE <10, interface-pLDDT >70 기준의 Teddymer-based training set은 510,454 cluster representatives와 7,112,609 overall datapoints로 설명됩니다.

이 아이디어는 실용적입니다. AFDB monomer 내부의 domain-domain contact는 자연 단백질 안에서 이미 형성된 interface-like geometry를 담고 있습니다. 이를 binder-target pretraining data로 쓰면 PDB multimer만 사용할 때보다 훨씬 큰 interaction-like prior를 얻을 수 있습니다.

동시에 Teddymer는 synthetic data입니다. Domain-domain interface가 natural binder-target distribution과 같다는 뜻은 아닙니다. 논문은 Teddymer interface distribution을 PDB multimer와 비교해 hydrogen bond, hydrophobicity, shape complementarity, dSASA, interface-residue count가 어느 정도 겹친다는 근거를 제시합니다. 이 정도면 pretraining data로서 설득력은 있습니다. 다만 실제 target-specific binding hit rate를 직접 예측하는 evidence는 아닙니다.

Target-conditioned partially latent flow

Complexa의 model architecture는 La-Proteina의 partially latent representation을 binder design에 맞게 바꾼 형태입니다. Autoencoder는 binder protein만 encode/decode합니다. Target conditioning은 denoiser에 들어갑니다. 이 구조는 text-conditioned latent diffusion에서 autoencoder는 공유하고, latent generator만 text conditioning을 받는 방식과 비슷합니다.

Protein target은 Atom37 coordinates, amino acid identity, hotspot token, backbone/sidechain angle features로 표현됩니다. Target residue feature는 noisy binder Cα coordinates와 latent embedding 쪽 feature와 함께 처리되고, binder-target pair representation은 pair-biased transformer attention의 bias로 들어갑니다. Cross-pair feature에는 noisy binder backbone과 target backbone 사이의 distance bucket, chain index, hotspot pair variable 등이 들어갑니다. Denoiser는 target과 binder를 함께 처리하지만, output velocity field는 binder에 대해서만 냅니다.

Small molecule target도 같은 framework 안에 들어갑니다. Residue sequence가 없기 때문에 ligand heavy atom을 sequence-like token처럼 다룹니다. Atom type, atom name, coordinates, charge, graph Laplacian positional encoding을 target feature로 쓰고, target-target pair에는 distance, bond adjacency, bond order를 넣습니다. Binder-target cross-pair에는 binder backbone atom과 ligand atom 사이의 distance가 들어갑니다.

여기서 method의 핵심은 representation 자체보다 conditioning의 범위입니다. Complexa는 target surface, hotspot, small molecule atom graph를 같은 denoising framework에 넣습니다. protein-protein binder, small-molecule binder, enzyme active-site motif placement를 하나의 계열로 묶으려는 설계입니다.

Translation noise가 필요한 이유

Monomer generation에서는 전체 단백질을 어디에 놓는지가 별 의미가 없습니다. 회전과 병진은 gauge에 가깝습니다. Binder design에서는 다릅니다. Binder가 target surface의 어느 위치에 어떤 orientation으로 놓이는지가 바로 문제의 중심입니다.

Complexa는 binder Cα interpolation에 random global translation noise를 추가합니다. 저자들의 설명은 이렇습니다. Translation noise가 없으면 interpolation time에서 binder center-of-mass가 너무 쉽게 recover되고, 모델이 target 주변 placement를 제대로 refine하는 훈련을 덜 받게 됩니다. Default는 `c_d = 0.2 nm`입니다.

Ablation은 이 선택이 성능에 큰 영향을 준다고 제시합니다. 19 protein targets 평균 unique success가 base Complexa에서 Self/MPNN-FI/MPNN 기준 9.10/13.5/14.4인데, translation noise를 제거하면 1.47/3.89/3.73으로 떨어집니다. Binder generation에서는 global placement noise가 단순 regularization이 아니라 target-conditioned sampling dynamics의 일부라는 의미입니다.

Figure 흐름: generation에서 search까지

Figure 1과 project Figure 2는 Complexa의 전체 그림을 제시합니다. Target structure와 hotspot을 조건으로 넣고, binder Cα와 latent sequence/sidechain representation을 denoising하면서 후보를 생성합니다. 이후 candidate를 decoder로 full-atom sequence/structure로 복원하고, AF2-Multimer나 RF3 같은 evaluator로 interface quality를 평가합니다.

Figure 3과 Figure 4는 Teddymer data construction을 다룹니다. AFDB monomer에서 TED domain을 나누고, domain-domain interface를 synthetic dimer로 바꿔 large-scale pretraining data를 만드는 과정입니다. Complexa의 성능 claim은 모델 architecture뿐 아니라 이 데이터 construction에 강하게 기대고 있습니다.

Figure 5는 latent target conditioning architecture를 설명하는 부분입니다. Target과 binder를 joint process하되, 생성 output은 binder에만 적용됩니다. Binder design 문제를 “target-conditioned conditional generation”으로 정리하는 지점입니다.

Figure 7–9는 inference-time compute scaling입니다. 여기서 Complexa는 Best-of-N, beam search, Feynman-Kac steering, MCTS, Generate & Hallucinate를 비교합니다. Easy targets에서는 Best-of-N만으로도 강한 결과가 나오고, hard targets에서는 structured search가 더 중요해집니다. 이 결과는 “compute를 많이 쓰면 된다”보다 좁은 claim입니다. Strong generative prior 안에서 reward-guided search를 할 때 compute scaling이 효율적이라는 주장에 가깝습니다.

Figure 10과 Table 12는 AME enzyme design benchmark입니다. Small-molecule-conditioned model을 catalytic motif placement task로 확장한 결과입니다. Figure 11과 Table 3은 interface hydrogen bond reward optimization입니다. folding-model confidence뿐 아니라 interface chemistry에 가까운 reward를 search objective로 넣을 수 있다는 demonstration입니다.

Base generator 성능: protein binder benchmark

Protein target benchmark는 AlphaProteo/BindCraft target set에서 가져온 22개 중 H1, IL17A, TNF-α를 main benchmark에서 제외한 19 targets로 구성됩니다. 각 target당 200 binders를 생성하고, self-generated sequence, ProteinMPNN redesign, interface-fixed ProteinMPNN redesign을 따로 평가합니다. AF2-Multimer/ColabDesign implementation으로 target templating과 initial guess를 켠 뒤, `ipAE < 7 Å`, `complex pLDDT > 0.9`, `binder scRMSD < 1.5 Å`이면 success로 봅니다. Success는 Foldseek clustering으로 unique count를 셉니다.

Table 2에서 Complexa base model은 공개 generative baseline보다 강하게 나옵니다. RFDiffusion은 MPNN setting에서 평균 unique success 4.68, APM은 MPNN setting에서 3.15입니다. Complexa는 Self 9.10, MPNN-FI 13.6, MPNN 14.4를 보고합니다. Sampling time도 15.6초로 제시되어 RFDiffusion 70.8초, APM 73.1초보다 빠릅니다.

이 결과의 인상적인 점은 self-generated sequence만으로도 일부 baseline의 redesign setting을 넘는다는 데 있습니다. Complexa가 sequence와 atomistic detail을 같이 생성하는 partially latent design의 장점을 살린 결과로 볼 수 있습니다. 다만 success criterion은 AF2-Multimer confidence와 self-consistency proxy입니다. Binding assay, specificity panel, developability assessment는 포함되지 않습니다.

Small molecule binder benchmark

Small molecule target에서는 SAM, OQO, FAD, IAI 네 target을 사용합니다. RF3로 ligand-protein complex co-folding을 수행하고, `min ipAE < 2`, `binder Cα scRMSD < 2 Å`, `binder-aligned ligand scRMSD < 5 Å`를 success 기준으로 둡니다.

Table 1에서 RFDiffusion-AllAtom과 비교하면 SAM/OQO/FAD/IAI unique success가 RFDiffusion-AllAtom 2/3/5/8, Complexa 10/6/17/19로 보고됩니다. Sampling time도 87.4초와 13.5초로 차이가 납니다. Protein-protein binder뿐 아니라 protein-ligand binder conditioning까지 같은 framework로 확장할 수 있다는 근거입니다.

여기서도 해석 범위는 분명합니다. RF3 confidence와 ligand RMSD proxy는 구조적 plausibility를 평가합니다. Small-molecule binding affinity, enzymatic activity, selectivity를 직접 보여주는 결과는 아닙니다. 그래도 같은 partially latent generator가 protein target과 ligand target을 모두 다룰 수 있다는 점은 method paper로서 의미가 있습니다.

Teddymer와 translation-noise ablation

Complexa에서 가장 설득력 있는 ablation은 Teddymer와 translation noise입니다. Base Complexa의 평균 unique success는 Self/MPNN-FI/MPNN 9.10/13.5/14.4입니다. Teddymer 없이 PDB data만 쓰면 0.15/1.68/3.84로 떨어집니다. Translation noise 제거도 1.47/3.89/3.73으로 낮아집니다.

이 숫자는 Complexa의 contribution을 잘 분해합니다. 성능은 단순히 La-Proteina representation을 target conditioning에 붙였기 때문에 나온 것이 아닙니다. Large-scale synthetic interaction data와 binder placement를 어렵게 만드는 translation noise가 같이 작동합니다.

저자들은 AFDB-derived Teddymer와 AF2-Multimer evaluator 사이의 coupling 우려를 의식해 Boltz-2와 RF3로도 ablation을 반복합니다. Boltz-2 평가에서는 Teddymer 포함 model이 MPNN/MPNN-FI/Self 34.4/31.4/14.8, Teddymer 없음은 16.2/13.1/2.2로 낮습니다. RF3에서도 같은 방향의 benefit을 보고합니다. 이 보조 평가는 Teddymer 효과가 AF2-Multimer evaluator 하나에만 묶인 현상은 아니라는 근거를 줍니다. 그렇다고 prediction-model proxy ecosystem 바깥의 evidence로 넘어가는 것은 아닙니다.

Test-time compute: generation과 hallucination 사이

Complexa가 가장 흥미로운 지점은 inference-time search입니다. 논문은 Best-of-N, beam search, Feynman-Kac steering, MCTS, Generate & Hallucinate를 비교합니다. Search reward로는 AF2-Multimer/RF3의 interface confidence나 interface hydrogen bond energy를 사용합니다.

Beam search는 denoising trajectory 중간에서 branch를 만들고, rollout-decoding-folding-scoring을 거쳐 top states를 유지합니다. Feynman-Kac steering은 reward-tilted distribution을 importance sampling으로 근사합니다. MCTS는 continuous denoising trajectory tree에서 exploration과 exploitation을 조절합니다. Generate & Hallucinate는 Complexa sample을 BindCraft hallucination refinement의 initialization으로 사용합니다.

중요한 세부사항은 reward를 noisy intermediate에 직접 계산하지 않는다는 점입니다. Complexa search는 clean sample까지 rollout하고, decoder와 structure predictor가 평가할 수 있는 realistic sequence/structure에서 reward를 계산합니다. 이 방식은 reward function이 differentiable일 필요가 없습니다. Folding-model confidence와 hydrogen-bond energy처럼 서로 다른 종류의 score를 search objective로 넣을 수 있습니다.

Easy targets에서는 Best-of-N만으로도 hallucination baselines를 넘고, hard targets에서는 structured search가 더 크게 작동합니다. VEGFA hard-target case에서도 matched compute 조건에서 Complexa search가 hallucination baselines보다 많은 unique success를 만든다고 보고합니다. 이 결과는 binder design을 “생성 후 필터링”에서 “generative trajectory 위의 search”로 확장하는 사례입니다.

Interface hydrogen bond reward

Table 3은 search reward를 바꿨을 때 interface hydrogen bond가 어떻게 달라지는지 보여줍니다. No reward는 77.00 unique successes와 평균 5.271 H-bonds입니다. `fipAE` reward는 83.36 unique successes와 5.524 H-bonds, `fH-Bond` reward는 82.36 unique successes와 7.154 H-bonds, combined reward는 86.26 unique successes와 6.518 H-bonds로 보고됩니다.

이 결과는 Complexa search가 folding-model confidence만 최적화하는 도구에 머물지 않는다는 좋은 예입니다. Interface hydrogen bond처럼 더 구조화학적인 objective를 넣어도 unique success를 유지하거나 올리면서 contact chemistry를 바꿀 수 있습니다.

물론 hydrogen bond count나 energy가 affinity와 specificity를 보장하지는 않습니다. Buried unsatisfied polar atom, solvation, conformational flexibility, off-target surface compatibility는 별도 문제입니다. 그래도 search objective를 접합부 화학 쪽으로 넓힐 수 있다는 점은 practical pipeline에서 참고할 만합니다.

Hard targets와 compute budget

Main benchmark에서 제외된 TNF-α, H1, IL17A는 공개 baselines가 32 GPU hours 안에 success를 찾지 못한 difficult multi-chain targets로 제시됩니다. Complexa는 search horizon을 100 GPU hours 이상으로 늘려 TNF-α 15 unique successes, H1 7, IL17A 1을 찾았다고 보고합니다.

이 수치는 hard target에서도 long search가 in silico candidate discovery를 확장할 수 있음을 제시합니다. 동시에 target difficulty와 compute budget을 함께 봐야 합니다. “모든 hard target을 해결했다”보다, generative prior와 structured search를 결합하면 더 긴 compute horizon에서 후보를 찾는 방식이 가능하다는 claim에 가깝습니다.

AME enzyme benchmark

Complexa는 small-molecule-conditioned model을 Atomic Motif Enzyme, 즉 AME benchmark로 확장합니다. AME는 ligand/substrate와 catalytic residue fragment 또는 theozyme geometry가 주어졌을 때, protein이 catalytic residues를 배치하고 ligand clash를 피하는지를 보는 task입니다. Complexa는 condition sequence에 target과 catalytic residue fragments를 추가해 unindexed motif placement를 수행합니다.

RF3 refolding 후 success criteria는 catalytic residue type recovery, binder backbone scRMSD ≤2 Å, catalytic functional group all-atom scRMSD ≤1.5 Å, ligand clash 없음입니다. Table 12 summary에서 Complexa는 self-generated sequences로 41/41 tasks, single LigandMPNN redesign으로 40/41 tasks에서 success를 얻고, best-of-8 LigandMPNN setting에서는 RFDiffusion2를 38/41 tasks에서 넘는다고 보고합니다.

이 결과는 catalytic motif geometry reconstruction benchmark에서는 강합니다. 특히 unindexed motif placement까지 포함한다는 점에서 단순 fixed-motif scaffolding보다 어려운 문제를 다룹니다. 다만 AME는 enzyme activity assay가 아닙니다. Catalytic turnover, kcat/KM, product formation 같은 wet-lab evidence는 이 결과에 포함되지 않습니다. Active-site geometry를 맞추는 것과 실제 catalysis 사이에는 여전히 큰 간격이 있습니다.

Evidence가 말해주는 범위

Proteina-Complexa의 evidence는 네 층으로 나누면 이해하기 쉽습니다.

첫 번째는 method evidence입니다. La-Proteina식 partially latent representation, target conditioning, translation noise, staged training, Teddymer data construction, denoising trajectory search가 여기에 들어갑니다. 논문이 가장 강하게 기여하는 층입니다.

두 번째는 in silico benchmark evidence입니다. Protein target AF2-Multimer proxy, small molecule RF3 proxy, AME RF3 refolding/clash proxy, unique success clustering, novelty/time comparison이 해당합니다. 이 층은 model과 pipeline의 computational performance를 평가하는 근거가 됩니다.

세 번째는 evaluator robustness evidence입니다. Teddymer ablation을 AF2-Multimer뿐 아니라 Boltz-2/RF3로 반복한 부분입니다. AF2-family coupling 우려를 줄이는 데 도움이 됩니다.

네 번째는 아직 비어 있는 experimental evidence입니다. Generated candidates의 expression, purification, BLI/SPR/HTRF/yeast display binding, specificity, developability, experimental structure, enzyme activity는 보고되지 않습니다. 따라서 Complexa는 AlphaProteo나 RFdiffusion의 wet-lab validated binder story와 같은 층에 놓기보다는, 강한 in silico method paper로 정리하는 것이 정확합니다.

한계점: 독자가 조심해서 볼 지점

첫째, success metric은 folding-model proxy입니다. Protein target에서는 AF2-Multimer ipAE/pLDDT/scRMSD, small molecule과 AME에서는 RF3 기반 RMSD/confidence/clash proxy를 사용합니다. 이 수치는 구조적 plausibility와 self-consistency를 평가하지만, binding affinity나 functional activity를 직접 측정하지 않습니다.

둘째, Teddymer는 synthetic interface dataset입니다. AFDB/TED domain-domain interaction을 large-scale pretraining data로 쓰는 아이디어는 강하지만, natural binder-target distribution과 동일하지는 않습니다. Teddymer가 실제 hit rate와 얼마나 연결되는지는 공개된 결과만으로는 아직 알 수 없습니다.

셋째, compute-scaling result는 pipeline-level claim입니다. Base generator, reward choice, rollout frequency, folding model, clustering threshold, target difficulty split이 모두 결과에 영향을 줍니다. Test-time compute 자체보다, 어떤 generative prior 위에서 어떤 reward로 search하는지가 중요합니다.

넷째, interface hydrogen bond reward는 chemistry의 일부만 봅니다. Hydrogen bond가 늘어난다고 affinity, specificity, solubility, developability가 자동으로 따라오지는 않습니다. 그래도 folding-model confidence 바깥의 reward를 넣을 수 있다는 점은 의미가 있습니다.

평가: binder design의 test-time compute paper

Proteina-Complexa의 장점은 여러 축이 한 방향으로 맞물려 있다는 데 있습니다. La-Proteina의 partially latent all-atom representation은 sequence와 sidechain detail을 binder generation 안으로 가져옵니다. Teddymer는 PDB multimer의 data scale 한계를 우회합니다. Translation noise는 target 주변 placement를 generation 문제의 중심에 놓습니다. Test-time search는 generative model과 hallucination optimization 사이의 갈라진 길을 다시 연결합니다.

이 조합 때문에 Complexa는 단순한 “새 binder generator”보다 test-time compute paper로 더 흥미롭습니다. Language model에서 pretrained generator 위에 search/reasoning을 얹듯이, protein binder design에서도 generative prior 위에 reward-guided inference를 얹을 수 있다는 사례를 제시합니다. 특히 reward가 differentiable일 필요가 없다는 점은 folding-model score, structure chemistry score, future developability proxy를 같은 search framework 안에 넣을 가능성을 엽니다.

다만 결론은 차분해야 합니다. Complexa는 실험으로 검증된 binder discovery platform이라기보다, atomistic binder generation에서 data scale과 inference-time compute를 어떻게 결합할지 보여주는 method paper입니다. 실제 pipeline에 넣을 때는 expression, folding, affinity, specificity, developability, assay feasibility가 모두 별도 evidence layer로 따라와야 합니다.

그럼에도 이 논문은 protein design 쪽에서 앞으로 자주 보게 될 방향을 잘 압축합니다. 더 큰 generative prior, 더 큰 synthetic interaction data, 더 적극적인 inference-time search. Binder design도 “한 번 생성하고 필터링”하는 방식에서, 생성 과정 자체를 목표 함수와 함께 탐색하는 방식으로 이동하고 있습니다. Proteina-Complexa는 그 전환을 NVIDIA Proteína 계열의 언어로 정리한 논문입니다.

참고

- Paper: “Scaling Atomistic Protein Binder Design with Generative Pretraining and Test-Time Compute” - Authors: Kieran Didi, Zuobai Zhang, Guoqing Zhou, Danny Reidenbach, Zhonglin Cao, Sooyoung Cha, Tomas Geffner, Christian Dallago, Jian Tang, Michael M. Bronstein, Martin Steinegger, Emine Kucukbenli, Arash Vahdat, Karsten Kreis - Venue: ICLR 2026 conference paper / oral presentation - Project page: https://research.nvidia.com/labs/genair/proteina-complexa/ - OpenReview: https://openreview.net/forum?id=qmCpJtFZra - Related: Proteína, La-Proteina, Proteina-Atomistica, RFdiffusion, BindCraft, BoltzDesign, AlphaProteo, RFDiffusion2