ProtDBench 논문 리뷰

들어가며

Binder design 성능표가 어려운 이유

ProtDBench의 구성

Figure 1: verifier가 바뀌면 success의 의미도 바뀐다

Table 1: filter threshold는 benchmark의 일부다

Figure 2와 Table 2: success rate와 throughput은 분리된다

Figure 3: pass한 후보가 다양해야 하는 이유

Structural consistency: generated backbone을 sequence가 따라오는가

ProtDBench가 말해주는 범위

평가: binder design 성능표를 읽기 위한 benchmark

참고

ProtDBench 논문 리뷰

들어가며

Protein binder design 논문을 읽다 보면 success rate가 자주 등장합니다. 어떤 모델은 특정 target에서 높은 pass rate를 보이고, 어떤 pipeline은 적은 수의 후보만 실험해도 binder를 찾았다고 말합니다. 문제는 그 success가 항상 같은 뜻이 아니라는 점입니다. AF2-style filter를 통과했다는 뜻일 수도 있고, Protenix나 Chai 계열 verifier에서 높은 confidence를 받았다는 뜻일 수도 있습니다. Wet-lab에서 실제 binding을 확인했다는 뜻일 수도 있지만, 대부분의 in silico benchmark에서는 그 전 단계에서 멈춥니다.

ProtDBench는 이 혼란을 정면으로 다루는 benchmark 논문입니다. 제목은 “ProtDBench: A Unified Benchmark of Protein Binder Design and Evaluation”이고, 2026년 5월 arXiv preprint로 공개되었습니다. University of Amsterdam AMLab / AI4Science Lab과 ByteDance 저자들이 함께 쓴 논문이며, de novo protein binder design 결과를 비교할 때 evaluation protocol 자체가 성능 숫자를 얼마나 바꾸는지 보여줍니다.

이 글에서는 ProtDBench를 새로운 binder generator 논문으로 다루지 않습니다. 이 논문의 주인공은 generator가 아니라 evaluation입니다. 어떤 verifier를 쓰는지, 어떤 filter threshold를 쓰는지, 24시간 안에 얼마나 많은 successful backbone을 만들 수 있는지, 그리고 pass한 후보들이 구조적으로 다양한지까지 같이 봐야 한다는 것이 핵심입니다.

Binder design 성능표가 어려운 이유

최근 binder design 논문들은 구조 예측 모델을 evaluator처럼 씁니다. 후보 binder를 만들고, ProteinMPNN이나 LigandMPNN으로 sequence를 붙이고, AF2/AF3 계열 structure predictor로 target-binder complex를 다시 예측합니다. 그다음 ipTM, ipAE, pLDDT, RMSD 같은 score를 기준으로 후보를 통과시킵니다.

이 방식은 실용적입니다. 실험으로 보낼 후보 수는 제한되어 있고, 수만 개의 design 중에서 우선순위를 정해야 하기 때문입니다. 하지만 score는 ground truth가 아닙니다. ipTM이 높다고 binding affinity가 보장되는 것도 아니고, ipAE가 낮다고 specificity나 developability가 확인되는 것도 아닙니다. 더 까다로운 지점은 논문마다 verifier와 threshold가 다르다는 점입니다.

예를 들어 어떤 논문은 AF2-IG 기준을 쓰고, 어떤 논문은 AF3-style predictor를 씁니다. 어떤 pipeline은 generation 중간에 낮은 confidence 후보를 계속 버리고 다시 생성합니다. 그러면 최종 sample set의 success rate는 높아 보일 수 있지만, raw generator가 처음부터 좋은 후보를 많이 냈다는 뜻과는 다릅니다.

ProtDBench는 이 문제를 “모델 A가 모델 B보다 좋다”는 단일 ranking으로 줄이지 않습니다. 대신 성능 숫자가 만들어지는 과정을 evaluation framework로 분해합니다.

ProtDBench의 구성

ProtDBench는 크게 두 가지 질문을 던집니다. 첫째, structure prediction model을 verifier로 쓸 때 실제 binder/non-binder label을 얼마나 잘 enrich하는가. 둘째, 공개된 binder generator들을 같은 protocol 아래에 놓으면 success rate, throughput, diversity가 어떻게 달라지는가.

첫 번째 질문에는 Cao et al. 2022 dataset을 사용합니다. 이 dataset은 energy-based de novo binder candidate에 대해 experimental binder/non-binder label을 갖고 있습니다. 중요한 점은 prior AlphaFold-based filtering 없이 wet-lab label이 붙었다는 것입니다. 그래서 structure predictor confidence가 실제 binding label과 어느 정도 연결되는지 retrospective하게 볼 수 있습니다.

두 번째 질문에서는 open-source hotspot-conditioned binder design method를 비교합니다. 대상은 RFdiffusion-3, BoltzGen, Protpardelle-1c, ODesign, PXDesign, BoltzDesign1, BindCraft입니다. Latent-X, AlphaProteo, Chai-2, SeedProteo처럼 closed 또는 disclosure가 제한된 system은 head-to-head benchmark에서 제외됩니다. 이것은 성능이 낮다는 뜻이 아니라, 같은 protocol로 재현 가능한 비교가 어렵다는 뜻에 가깝습니다.

Benchmark target은 AlphaProteo 계열에서 익숙한 10개 protein target입니다. BHRF1, SC2RBD, IL-7RA, PD-L1, TrkA, Insulin receptor, H1, VEGF-A, IL-17A, TNFα가 들어갑니다. 각 target에는 crop, hotspot residue, natural binder, binder length range가 정의되어 있습니다.

Figure 1: verifier가 바뀌면 success의 의미도 바뀐다

Figure 1은 ProtDBench에서 가장 중요한 출발점입니다. 논문은 AF2-IG, Boltz-1, Boltz-2, Chai-1, ColabFold, Protenix, Protenix-Mini, ESMFold를 verifier로 놓고, Cao dataset에서 top-1% confidence 후보가 실제 binder를 얼마나 enrich하는지 봅니다.

결과는 단순하지 않습니다. Protenix와 Protenix-Mini 같은 AF3-style verifier는 여러 target에서 강한 enrichment를 보입니다. 하지만 어떤 single metric이나 verifier도 모든 target에서 일관되게 이기지는 않습니다. 같은 top-1% ipTM이라도 target과 model에 따라 실제 binder를 잡아내는 정도가 달라집니다.

Figure 1c와 1d는 더 흥미로운 지점을 보여줍니다. 여러 verifier의 top-1% ipTM 결과를 union으로 합치면 true binder recall이 올라갑니다. 반대로 여러 verifier가 동시에 동의해야 한다는 조건을 걸면 recall이 빠르게 떨어집니다. 즉 verifier들은 같은 true binder subset을 반복해서 찾는 것이 아니라, 서로 다른 부분을 잡고 있습니다.

이 결과는 binder design 평가에서 verifier 선택이 구현 detail이 아니라는 뜻입니다. AF2-IG로 통과한 후보와 Protenix로 통과한 후보는 같은 종류의 success라고 보기 어렵습니다. 둘 다 structural plausibility signal이지만, 각 predictor의 inductive bias와 coverage를 포함합니다.

Table 1: filter threshold는 benchmark의 일부다

ProtDBench는 combined filter threshold도 명시합니다. AF2-IG-Easy는 BindCraft 쪽에서 쓰인 기준을 가져와 `ipAE < 10.85`, `ipTM > 0.5`, `pLDDT > 0.8`, binder bound/unbound RMSD < 3.5 Å를 사용합니다. AF2-IG 기준은 `ipAE < 7.0`, `pLDDT > 0.9`, binder RMSD < 1.5 Å입니다. AF3 기준은 `min ipAE < 1.5`, binder pTM > 0.8, complex RMSD < 2.5 Å입니다. Protenix / Protenix-Mini filter는 binder ipTM > 0.85, binder pTM > 0.88, complex RMSD < 2.5 Å를 사용합니다.

이 숫자들은 단순한 parameter가 아닙니다. Success rate를 정의하는 규칙입니다. 같은 candidate pool이라도 threshold를 조금 완화하거나 verifier를 바꾸면 pass/fail이 달라질 수 있습니다. 그래서 ProtDBench에서 filter는 모델 평가의 사후 처리 단계가 아니라 benchmark design의 일부입니다.

이 관점은 최근 binder design 논문을 읽을 때 유용합니다. 논문이 “높은 in silico success”를 말한다면, 먼저 어떤 verifier와 threshold를 썼는지 봐야 합니다. 그 숫자가 wet-lab hit rate인지, filter pass rate인지, post-filter selected design의 success인지 구분하지 않으면 모델의 실제 위치를 과대평가하기 쉽습니다.

Figure 2와 Table 2: success rate와 throughput은 분리된다

ProtDBench의 두 번째 축은 open-source generator 비교입니다. 여기서 main metric 중 하나는 24시간 single NVIDIA A100 GPU budget 안에서 AF2-IG-Easy filter를 통과하는 successful backbone을 몇 개 만들 수 있는지입니다. 이 숫자는 generation, inverse folding, evaluation을 포함한 end-to-end budget에서 계산됩니다.

Table 2를 보면 diffusion-based method와 hallucination-based method 사이에 뚜렷한 차이가 나타납니다. Diffusion-based method는 대체로 throughput이 높습니다. PXDesign, BoltzGen, ODesign, RFdiffusion-3 같은 모델은 많은 target에서 더 많은 successful backbone을 만듭니다. 반면 BindCraft나 BoltzDesign1 같은 hallucination-based pipeline은 per-sequence success rate가 높게 보일 수 있지만, 계산 비용과 내부 filtering/regeneration 구조 때문에 24시간 yield에서는 다른 양상을 보입니다.

ProtDBench가 이 지점을 강조하는 이유는 간단합니다. Per-sequence success rate만 보면 “한 후보를 뽑았을 때 얼마나 자주 통과하는가”를 봅니다. Throughput은 “같은 시간과 compute 안에서 실험 후보 pool을 얼마나 만들 수 있는가”를 봅니다. 두 숫자는 같은 것이 아닙니다.

BindCraft의 경우 논문은 해석에 특히 주의를 둡니다. BindCraft는 generation과 internal scoring/filtering이 결합된 pipeline입니다. 낮은 ipTM 같은 중간 실패 후보를 버리고 다시 생성하는 구조가 있기 때문에, 최종 sample set의 per-sequence success는 post-hoc으로 높아질 수 있습니다. 이것이 나쁘다는 뜻은 아닙니다. 실용 pipeline으로는 오히려 자연스러운 전략입니다. 다만 raw generator 비교와 같은 의미로 놓으면 안 됩니다.

Figure 3: pass한 후보가 다양해야 하는 이유

Binder design에서 후보 수가 많다는 것은 중요하지만, 그 후보들이 모두 비슷한 structural mode에 몰려 있다면 실험 전략은 취약해집니다. ProtDBench는 이 문제를 diversity-adjusted cluster pass rate로 다룹니다. AF2-IG-Easy filter를 통과한 backbone만 모아 Foldseek/TM-score 기준으로 clustering하고, unique structural cluster 수를 전체 generated backbone 수로 normalize합니다.

Figure 3에서는 hallucination-based method가 일부 target에서 더 높은 cluster pass rate를 보입니다. 논문은 이를 explicit generative prior 없이 각 design을 독립적으로 optimize하기 때문에 다양한 local optima를 탐색할 수 있기 때문으로 해석합니다. 반대로 diffusion-based model은 학습된 distribution에서 샘플링하기 때문에, evaluation criterion을 만족하는 더 좁은 structural mode에 집중될 수 있습니다.

이 결과는 “diversity가 높으면 더 좋은 모델”이라는 단순한 결론은 아닙니다. Diversity도 success definition과 함께 봐야 합니다. 다양한데 filter를 통과하지 못하면 실험 후보로 쓰기 어렵고, filter를 많이 통과하지만 mode collapse가 심하면 실패했을 때 대안이 줄어듭니다. ProtDBench의 장점은 이 trade-off를 success rate 하나로 뭉개지 않는다는 데 있습니다.

Structural consistency: generated backbone을 sequence가 따라오는가

ProtDBench는 structural consistency도 별도 축으로 봅니다. Generated backbone에 sequence를 붙인 뒤 Protenix-Mini로 다시 structure를 예측했을 때, 원래 backbone을 RMSD < 2.5 Å 안에서 재현하는지를 측정합니다.

이 metric은 binder design pipeline에서 자주 놓치는 질문을 다룹니다. Backbone generator가 그럴듯한 구조를 만들었다고 해도, 실제 amino acid sequence가 그 구조를 안정적으로 구현할 수 있어야 합니다. Sequence design 이후 structure predictor가 원래 backbone을 recapitulate하지 못한다면, generated backbone은 downstream sequence realization 단계에서 흔들릴 수 있습니다.

Figure 2b에서는 PXDesign이 여러 target에서 높은 structural consistency를 보입니다. 반대로 SC2RBD 같은 target은 여러 method에서 어려운 target으로 남습니다. 여기서도 결론은 ranking보다 trade-off입니다. Generator quality, sequence design compatibility, target-specific prediction difficulty가 함께 metric에 들어갑니다.

ProtDBench가 말해주는 범위

ProtDBench의 evidence level은 benchmark/evaluation framework입니다. Cao dataset을 이용한 retrospective wet-lab label calibration이 들어가지만, generator benchmark 자체는 in silico comparison입니다. 따라서 Table 2의 순위를 “실험적으로 가장 좋은 binder generator 순위”로 받아들이면 안 됩니다.

이 논문이 강하게 보여주는 것은 따로 있습니다. Verifier choice, filter threshold, compute budget, diversity aggregation이 reported performance를 크게 바꾼다는 점입니다. Structure predictor confidence는 binder enrichment signal을 가질 수 있지만, target과 verifier에 따라 편차가 크고 서로 동의하지 않는 부분도 많습니다. Open-source generator 비교에서는 per-sequence success, 24시간 yield, cluster diversity, structural consistency가 서로 다른 trade-off를 만듭니다.

반대로 ProtDBench score만으로 binding affinity, specificity, cellular function, developability를 말할 수는 없습니다. AF2-IG-Easy나 Protenix-Mini pass는 wet-lab validation이 아닙니다. Closed system이 benchmark에서 빠졌다는 사실도 성능 열위가 아니라 disclosure/reproducibility 조건의 차이로 보는 것이 자연스럽습니다.

평가: binder design 성능표를 읽기 위한 benchmark

ProtDBench의 가치는 새로운 SOTA generator를 제안하는 데 있지 않습니다. Binder design 성능표를 읽는 기준을 정리한 데 있습니다. 최근 논문들을 나란히 놓고 비교할 때, “success rate가 몇 퍼센트인가”보다 먼저 봐야 할 질문들이 있습니다.

어떤 verifier를 썼는가. Threshold는 무엇인가. Candidate가 raw generation output인가, 아니면 pipeline 내부에서 여러 번 filtering/regeneration을 거친 post-filter sample인가. 같은 compute budget 안에서 몇 개의 successful backbone이 나오는가. Pass한 후보들은 구조적으로 다양한가. 그리고 이 모든 숫자가 wet-lab validation과 어디에서 연결되는가.

ProtDBench는 이 질문들을 하나의 protocol로 묶어줍니다. 그래서 AlphaProteo, Chai-2, Latent-X처럼 closed wet-lab performance가 강한 논문과, RFdiffusion-3, BoltzGen, PXDesign, BindCraft처럼 open 또는 partially open in silico benchmark가 강한 논문을 같은 표에 올릴 때 특히 유용합니다. 서로 다른 evidence layer의 숫자를 같은 단위처럼 취급하지 않게 만들어주기 때문입니다.

이 리뷰에서는 ProtDBench를 “최종 순위표”보다 “성능 claim을 해부하는 도구”에 가깝게 봅니다. Binder design 분야가 빠르게 움직일수록 모델보다 evaluation protocol이 뒤늦게 따라오는 경우가 많습니다. ProtDBench는 그 간격을 줄이려는 시도이고, 앞으로 나올 binder generator 논문을 읽을 때 반복해서 참조할 만한 기준점입니다.

참고

•

Cong Liu et al., “ProtDBench: A Unified Benchmark of Protein Binder Design and Evaluation”, arXiv:2605.04118v1, 2026.

•

Cao et al. 2022 wet-lab annotated binder dataset.

•

ProtDBench에서 비교한 open-source method: RFdiffusion-3, BoltzGen, Protpardelle-1c, ODesign, PXDesign, BoltzDesign1, BindCraft.