ProteinHunter 논문 리뷰
들어가며
Structure prediction model의 hallucination은 보통 문제로 취급됩니다. 입력 sequence가 실제로 그런 fold를 가질 근거가 없는데도 모델이 그럴듯한 구조를 내놓는다면, prediction 관점에서는 false confidence일 수 있습니다. ProteinHunter는 이 현상을 반대로 사용합니다. 예측 모델이 all-X sequence에서 compact한 protein-like structure를 상상한다면, 그 구조를 design seed로 삼고 sequence를 다시 맞춰가면 되지 않느냐는 아이디어입니다.
논문 제목은 “Protein Hunter: exploiting structure hallucination within diffusion for protein design”입니다. MIT와 University of Washington / Institute for Protein Design 공동 연구로, bioRxiv preprint 형태로 공개되었습니다. 핵심은 새로운 generator를 학습하는 것이 아닙니다. Boltz-2, Chai-1, AlphaFold3 같은 AF3-style diffusion structure predictor와 ProteinMPNN/LigandMPNN을 엮어, prediction → sequence redesign → reprediction cycle을 반복합니다.
이 글에서는 ProteinHunter를 wet-lab binder discovery paper가 아니라, prediction model의 failure mode를 design resource로 바꾸는 method paper로 다룹니다. 그래서 성능 수치는 “실험 hit rate”가 아니라 “predictor가 self-consistent하다고 보는 후보를 얼마나 잘 만드는가”라는 층에서 보겠습니다. 논문은 protein binder, cyclic peptide, small molecule, DNA/RNA binder, motif scaffolding, antibody CDR partial redesign까지 넓은 scope를 보여주지만, evidence는 대부분 AF3/Boltz/Chai confidence와 self-consistency proxy입니다. 이 구분이 리뷰 전체의 기준점입니다.
세 번째 길: generator도, gradient hallucination도 아닌 방식
최근 protein design 방법은 크게 두 축으로 나뉘어 설명되는 경우가 많습니다. RFdiffusion 계열은 target이나 motif 조건을 넣고 diffusion trajectory를 따라 backbone을 생성합니다. 이후 ProteinMPNN으로 sequence를 붙이고, AF2/AF3 계열 predictor로 filtering합니다. 반면 BindCraft나 BoltzDesign1은 structure prediction model의 내부 signal을 objective로 삼아 sequence나 relaxed logits를 직접 optimization합니다.
ProteinHunter는 이 둘과 조금 다릅니다. RFdiffusion처럼 별도의 generator를 학습하지 않습니다. BindCraft/BoltzDesign1처럼 predictor를 backpropagation objective로 뒤집지도 않습니다. 대신 predictor 자체의 diffusion sampling behavior를 이용합니다. All-X 또는 UNK sequence를 넣으면 AF3-style model이 folded-looking structure를 hallucinate하고, 그 구조를 ProteinMPNN/LigandMPNN으로 sequence화한 뒤 다시 predictor로 평가하고 다듬습니다.
이 차이는 방법론적으로 큽니다. Gradient-based hallucination은 objective를 세밀하게 설계할 수 있지만 느리고 local minima에 빠질 수 있습니다. Single-shot generative diffusion은 빠르게 backbone을 만들지만 sequence와 structure가 나중에 따로 맞춰집니다. ProteinHunter는 구조 예측과 sequence redesign을 여러 번 왕복하면서 sequence와 structure를 같이 맞추려 합니다.
All-X sequence에서 시작한다는 것
ProteinHunter의 출발점은 amino acid sequence를 설계하지 않는 것입니다. Designable chain을 unknown token인 `X`로 채우고, AF3-style model에게 구조를 예측하게 합니다. 정상적인 prediction task라면 이상한 입력입니다. Unknown residue만으로 이루어진 sequence가 특정 fold를 가져야 할 생물학적 이유는 없습니다.
그런데 논문은 Boltz-2와 Chai-1 같은 diffusion-based structure predictor가 all-X 또는 single-amino-acid repeat sequence에서도 compact하고 folded-looking한 구조를 만들 수 있다고 보고합니다. Appendix에서는 single amino acid repeat와 X token의 Pairformer distogram을 CATH background residue-distance distribution과 비교합니다. Histidine과 asparagine repeat는 Spearman correlation이 약 0.6, X token도 약 0.5 수준으로 나타납니다.
Conditional binder generation에서도 X-initiated designs가 높은 ipTM과 낮은 loop fraction을 보여 가장 compact하고 stable한 fold로 나왔다고 제시됩니다. 논문이 말하는 핵심은 단순합니다. Predictor가 X token을 완전히 무의미하게 처리하지 않고, learned protein prior를 이용해 plausible한 structure 쪽으로 denoise한다면, 그 hallucination은 design의 시작점이 될 수 있습니다.
Structure-sequence cycling
초기 hallucinated structure는 완성된 design이 아닙니다. Sidechain 정보는 부족하고, backbone도 noisy하거나 sequence와 잘 맞지 않을 수 있습니다. ProteinHunter는 여기서 cycle을 돌립니다.
첫째, all-X 또는 UNK sequence를 넣고 AF3-style predictor로 structure를 얻습니다. 둘째, 그 backbone이나 complex를 ProteinMPNN 또는 LigandMPNN으로 redesign합니다. 셋째, redesigned sequence를 다시 AF3-style predictor에 넣어 structure를 재예측합니다. 넷째, 이 과정을 N cycle 반복하거나 convergence할 때까지 진행합니다.
논문은 cycler design에서 cycle마다 하나의 sequence만 생성해 평가한다고 적습니다. 이 점이 중요합니다. 성공률을 대량 sequence sampling과 refolding으로만 끌어올리는 것이 아니라, cycle 자체가 sequence space를 점진적으로 정리한다는 주장입니다. 실제로 논문은 repeated cycles가 alanine bias를 줄이고, secondary-structure packing을 개선하며, pLDDT와 ipTM을 높인다고 보고합니다.
ProteinHunter는 AF2cycler나 LASErMPNN의 아이디어와도 닿아 있습니다. 차이는 시작점입니다. AF2cycler류는 보통 어떤 sequence나 structure seed가 필요하지만, ProteinHunter는 all-X hallucination으로 seed를 만들 수 있다고 봅니다.
Predictor마다 다른 hallucination behavior
ProteinHunter에서 흥미로운 부분은 predictor의 hallucination behavior 자체가 method choice가 된다는 점입니다. 논문은 Boltz-2가 가장 높은 in silico success rate를 보였다고 주장합니다. 설명은 두 가지입니다.
첫째, Boltz-2는 non-canonical residue를 single learned token으로 encode하기 때문에 X token이 하나의 residue처럼 작동하기 쉽다고 해석합니다. 반면 AF3와 Chai-1은 atom-level tokenization을 사용해 sampling complexity가 커질 수 있습니다. 둘째, Boltz-2는 reverse diffusion step마다 rigid-body alignment를 적용해 denoising path drift를 줄이고 compactness를 유지한다고 설명합니다.
AF3에 대한 대조도 흥미롭습니다. 논문은 AF3가 AF2 distillation prediction fine-tuning 때문에 low-confidence region에서 spaghetti-like structure를 더 보존하는 경향이 있다고 해석합니다. Boltz-2와 Chai-1은 그런 fine-tuning이 없어서 low-confidence region을 ordered/packed structure로 hallucinate하기 더 쉽다는 설명입니다.
이 부분은 확정된 mechanism이라기보다 hypothesis에 가깝습니다. Model internals와 training recipe가 실제로 어떤 hallucination behavior를 만드는지는 독립적인 분석이 더 필요합니다. 그래도 ProteinHunter가 중요한 이유는 여기에 있습니다. Structure predictor의 “이상한 입력에서의 행동”이 design algorithm의 성능을 좌우하는 변수가 됩니다.
Figure 1: 세 design loop의 비교
Figure 1은 논문의 포지션을 가장 잘 보여줍니다. Panel A는 BindCraft나 BoltzDesign 같은 multi-step gradient-based method입니다. Predictor 내부 signal을 objective로 두고 sequence나 structure를 직접 optimization합니다. Panel B는 RFdiffusion 같은 single diffusion trajectory입니다. Generator가 한 번 denoising trajectory를 따라 후보 backbone을 만듭니다.
Panel C와 D가 ProteinHunter입니다. 여기서는 diffusion predictor가 hallucinated structure를 만들고, sequence redesign과 structure prediction이 여러 cycle로 이어집니다. Bet v1 allergen binder 예시에서는 cycle 0, 2, 5를 지나며 binder structure와 confidence가 개선되는 흐름을 보여줍니다.
이 figure의 메시지는 분명합니다. ProteinHunter는 “prediction model을 filter로 쓰는 방법”이 아니라, prediction model을 design loop 안에 넣는 방법입니다. 하지만 gradient를 흘리는 방식이 아니라, predictor output과 sequence design tool을 번갈아 사용합니다. 그래서 구현은 비교적 가볍고, target class를 넓히기 쉽습니다.
Unconditional generation: 긴 protein도 빠르게 만든다
Unconditional setting에서는 100–900 residue 길이의 all-X sequence를 AF3-style model에 넣고 structure를 생성합니다. 각 length마다 20 sequences를 만들고, ProteinMPNN/LigandMPNN으로 sequence를 하나 design한 뒤 AF3 또는 Boltz-2로 refold해 backbone RMSD와 pLDDT를 봅니다.
논문은 100-residue protein은 약 10초, 900-residue design은 약 130초로 수행된다고 적습니다. 이 속도는 ProteinHunter의 장점입니다. 새로운 generator를 학습하거나 거대한 gradient optimization을 돌리지 않고, 이미 있는 predictor와 sequence design model을 가볍게 엮는 방식이기 때문입니다.
Figure 2A와 2B는 cycling이 long protein designability를 개선한다고 제시합니다. Single-pass designs는 300 residue를 넘으면 pLDDT가 0.7 아래로 떨어지는 경우가 많지만, cycling은 700 residue까지 pLDDT around 0.8을 유지하고 TM-score 기반 designability도 높인다고 보고합니다.
이 결과는 folding/self-consistency proxy에 해당합니다. 실제 expression, solubility, monomericity, CD, SEC 같은 biophysical validation은 포함되지 않습니다. 따라서 “긴 protein을 실제로 잘 만든다”보다 “predictor가 보기에 self-consistent한 long design을 빠르게 만든다”가 정확한 표현입니다.
Protein binder benchmark
Protein target binder design에서는 target sequence와 MSA를 input으로 제공하고, binder residues만 X token으로 초기화합니다. Target은 유지하면서 binder chain을 hallucination/cycling으로 생성합니다.
Figure 2C에서 ProteinHunter + Boltz-2는 11개 target 중 9개에서 RFdiffusion보다 높은 ipTM을 보였고, ProteinHunter + Chai는 11개 중 7개 target에서 RFdiffusion보다 높은 ipTM을 보였다고 보고됩니다. BBF-14 binder example에서는 cycle이 진행되며 pLDDT와 ipTM이 개선됩니다. Figure 3A는 TNF-α trimer binder design example을 보여주며, multimeric target surface에서도 binder를 만들 수 있음을 제시합니다.
여기서 중요한 단서는 논문 footnote입니다. RFdiffusion은 comparability를 위해 single-sequence refolding으로 평가되었고, 원 논문에서 보고된 pipeline-level success rate와 다를 수 있다고 적습니다. 따라서 이 비교는 “RFdiffusion보다 실험적으로 더 낫다”가 아닙니다. 같은 proxy setup에서 ProteinHunter가 높은 ipTM을 얻었다는 결과입니다.
Binder result의 evidence는 ipTM, pLDDT, structural confidence입니다. Binding assay나 specificity, developability, target engagement는 없습니다. 그래도 method idea는 흥미롭습니다. Binder generation을 target-conditioned diffusion trajectory 하나로 끝내지 않고, predictor가 좋아하는 interface 쪽으로 sequence와 structure를 반복적으로 맞춰간다는 점 때문입니다.
Small-molecule binder와 all-atom target
ProteinHunter는 small-molecule binder design도 보여줍니다. RFdiffusionAA와 BoltzDesign1에서 다뤘던 네 ligand target을 사용하고, AF3로 평가합니다. Success 기준은 backbone RMSD ≤ 1.5 Å, ligand RMSD ≤ 5 Å, interface PAE ≤ 1.5, ipTM ≥ 0.8입니다.
Figure 2F와 2G에서 ProteinHunter는 RFdiffusion-AA, BoltzDesign2, single-pass mode보다 높은 success rate를 보였다고 보고합니다. SAM example에서는 cycle 0에서 cycle 5로 갈수록 ligand-binder proximity와 confidence가 개선되는 모습을 보여줍니다.
이 결과는 all-atom target까지 같은 loop로 다룰 수 있다는 점에서 의미가 있습니다. LigandMPNN을 sequence redesign에 쓰고, AF3-style predictor를 pose plausibility evaluator로 사용합니다. 그러나 ligand RMSD, interface PAE, ipTM은 binding affinity나 specificity가 아닙니다. RFAA/RFdiffusionAA에는 일부 small-molecule/cofactor binder wet-lab evidence가 있지만, ProteinHunter의 small-molecule result는 현재 논문 기준 prediction-model proxy입니다. 두 evidence level을 섞으면 안 됩니다.
Cyclic peptide, nucleic acid, motif scaffolding
ProteinHunter의 scope는 protein binder에 그치지 않습니다. Cyclic positional encoding을 사용해 protein-binding macrocyclic peptide design도 지원합니다. Figure 2H와 2I는 MDM2 cyclic peptide binder design에서 cycle 0–4 동안 AF3 iPAE(min)과 ipTM이 개선되는 결과와 14, 16, 18 residue peptide examples를 보여줍니다.
Nucleic-acid binder example도 있습니다. Figure 3D는 B-DNA binder에서 iterative cycling이 iPTM을 0.28에서 0.73으로 올렸다고 설명합니다. Appendix는 five nucleic-acid targets에서 diffusion steps와 cycling에 따른 pLDDT/ipTM 변화를 보여줍니다.
Motif scaffolding에서는 heme ligand 근처의 두 motif를 fixed template feature로 두고, 나머지 scaffold와 termini를 X token으로 rebuild합니다. Figure 3B와 Figure 13이 여기에 해당합니다. Partial redesign에서는 PDB 5NGV antibody heavy/light chain CDRs를 redesign하고 framework는 유지합니다. Appendix에서는 PD-L1 binder VHH complex에 대한 CDR-redesigned examples도 제시됩니다.
이 broad scope는 ProteinHunter의 장점이자 독자가 가장 조심해서 봐야 할 지점입니다. 같은 loop가 많은 target class에 적용될 수 있다는 것은 좋은 method signal입니다. 하지만 각 example은 대부분 predicted plausibility demonstration입니다. Cyclic peptide binding, DNA/RNA specificity, heme binding/catalysis, antibody antigen binding은 실험으로 확인된 것은 아닙니다.
Helical bias와 diversity 문제
ProteinHunter는 빠르고 유연하지만, diversity 문제를 숨기지는 않습니다. 논문은 AF3-style model hallucination이 RFdiffusion보다 structural diversity가 낮고 α-helical topology bias가 있다고 보고합니다. Figure 7C는 이 차이를 보여주는 부분입니다.
이를 완화하기 위해 negative helix bias를 Pairformer pair features에 넣어 β-sheet content를 높이는 steering을 시도합니다. Figure 12는 이 bias가 sheet-containing samples를 늘릴 수 있음을 보여줍니다. 이 결과는 ProteinHunter가 단순히 predictor output을 받아들이는 것이 아니라, Pairformer feature 쪽에 bias를 넣어 sampling distribution을 조절할 수 있다는 가능성을 제시합니다.
다만 broad fold diversity가 해결되었다고 말하기는 어렵습니다. Helix bias는 많은 protein generator에서 반복되는 문제이고, predictor hallucination 기반 method라면 그 predictor의 learned prior와 tokenization behavior에 더 강하게 묶일 수 있습니다. Negative helix bias는 유용한 steering example이지만, fold space 전체를 안정적으로 제어하는 해법은 아닙니다.
Evidence가 말해주는 범위
ProteinHunter의 evidence는 세 층으로 나누면 이해하기 쉽습니다.
첫 번째는 method evidence입니다. All-X sequence에서 AF3-style predictor가 folded-looking structure를 hallucinate하고, ProteinMPNN/LigandMPNN redesign과 reprediction cycle을 통해 pLDDT, ipTM, self-consistency가 개선된다는 점입니다. 이 층이 논문의 핵심입니다.
두 번째는 scope evidence입니다. Protein binder, small-molecule binder, cyclic peptide, DNA/RNA binder, heme motif scaffolding, antibody CDR redesign까지 같은 loop를 적용할 수 있음을 보여줍니다. 이것은 broad applicability claim을 지지하지만, 각 task의 깊이는 다릅니다.
세 번째는 아직 비어 있는 experimental evidence입니다. Current PDF는 BLI/SPR/display binding, expression, purification, SEC, stability, specificity, function, X-ray/cryo-EM pose validation, enzyme or ligand activity assay를 보고하지 않습니다. 따라서 ProteinHunter는 실험 검증된 binder platform이 아니라, in silico method paper로 정리하는 것이 정확합니다.
독자가 조심해서 볼 지점
첫째, success metric은 predictor proxy입니다. pLDDT, ipTM, iPAE/interface PAE, backbone RMSD, ligand RMSD, AF3 reprediction consistency는 structural plausibility와 self-consistency를 평가합니다. Binding이나 function을 직접 측정하지 않습니다.
둘째, method는 predictor hallucination을 이용합니다. 이것이 핵심이지만, model-version dependency도 함께 생깁니다. Boltz-2, Chai-1, AF3의 tokenization, training, distillation, diffusion implementation이 바뀌면 all-X hallucination behavior도 달라질 수 있습니다.
셋째, RFdiffusion comparison은 조심해야 합니다. 논문은 RFdiffusion을 single-sequence refolding setting에서 비교했다고 밝힙니다. 원래 RFdiffusion pipeline의 sampling, ProteinMPNN multiplicity, AF2 filtering, wet-lab evidence와 같은 층의 비교가 아닙니다.
넷째, sequence redesign은 method의 일부입니다. ProteinHunter는 pure zero-shot predictor generation이 아닙니다. Reported designs는 ProteinMPNN/LigandMPNN과 repeated reprediction cycles에 의존합니다.
다섯째, broad target scope가 곧 broad validated function은 아닙니다. Small molecule, DNA/RNA, cyclic peptide, heme motif, CDR redesign examples는 가능성을 보여주지만, 실험적 molecular function을 확립하지는 않습니다.
평가: hallucination을 문제에서 도구로 바꾸다
ProteinHunter의 가장 좋은 점은 관점 전환입니다. Prediction model이 all-X sequence에서 그럴듯한 protein을 hallucinate하는 현상은 prediction benchmark에서는 이상한 behavior일 수 있습니다. ProteinHunter는 이를 design seed로 삼습니다. Structure predictor가 learned protein prior를 이용해 compact한 structure를 상상하고, ProteinMPNN/LigandMPNN이 그 structure에 맞는 sequence를 붙이며, 다시 predictor가 structure를 고쳐갑니다.
이 방식은 practical합니다. Fine-tuning이 필요 없고, 이미 공개된 predictor와 sequence design model을 조합할 수 있습니다. Protein, ligand, nucleic acid, peptide, motif, CDR 같은 다양한 target context로 확장하기도 쉽습니다. 특히 BoltzDesign1과 같은 predictor inversion method와 비교하면, 같은 저자 lineage 안에서 “gradient로 predictor를 뒤집는 길”과 “predictor의 diffusion hallucination을 cycle로 쓰는 길”이 나란히 제시된 셈입니다.
하지만 결론은 차분해야 합니다. ProteinHunter는 지금 단계에서 실제 binder hit rate를 보여주는 논문이 아닙니다. 이 논문이 보여주는 것은 AF3-style predictor가 좋아하는 structure/complex를 빠르게 만들고, cycling으로 proxy score를 개선할 수 있다는 점입니다. 실제 pipeline으로 이어지려면 expression, folding, binding, specificity, developability, structural validation이 별도 evidence layer로 따라와야 합니다.
그래도 protein design field에서 중요한 아이디어임은 분명합니다. Structure prediction model은 더 이상 단순 evaluator가 아닙니다. 때로는 generator처럼 행동하고, 때로는 optimizer처럼 사용되며, 때로는 failure mode가 design primitive가 됩니다. ProteinHunter는 그 흐름을 가장 노골적으로 보여주는 사례입니다.
참고
- Paper: “Protein Hunter: exploiting structure hallucination within diffusion for protein design” - Authors: Yehlin Cho, Griffin Rangel, Gaurav Bhardwaj, Sergey Ovchinnikov - Venue: bioRxiv preprint / under review - DOI: https://doi.org/10.1101/2025.10.10.681530 - Code/data: https://github.com/yehlincho/Protein-Hunter - Related: BindCraft, BoltzDesign1, RFdiffusion, RFAA/RFdiffusionAA, RFdiffusion3, Boltz-2, Chai-1, AlphaFold3, ProteinMPNN, LigandMPNN