Protenix-v2 technical report 리뷰
들어가며
ByteDance Seed가 발표한 technical report “Protenix-v2: Broadening the Reach of Structure Prediction and Biomolecular Design”는 Protenix-v1 계열을 확장한 결과를 보여줍니다. 본문에서 antibody-antigen structure prediction benchmark, ligand plausibility, mini-binder design, VHH-Fc/mAb design, GPCR antibody hit discovery, developability assay까지 넓게 다루고 있는데요, 이 글에서는 그중 “structure predictor가 design/ranking layer로 넘어가며 antibody-like binder hit discovery에 어떻게 연결되는지”를 중심으로 결과를 정리해 보겠습니다.
다만 처음부터 선을 긋고 가자면, Protenix-v2는 투명하게 공개된 리포트라기보다 일부만 공개된 high-performance 리포트에 가깝습니다. Model architecture, design/ranker details, training data, candidate selection logic이 충분히 공개되어 있지는 않아서, 이 글에서는 Protenix-v2를 RFdiffusion이나 BindCraft처럼 바로 가져다 쓸 수 있는 pipeline으로 두기보다, 회사 주도의 단백질 설계 시스템이 어떤 experimental evidence를 제시했는지 보는 benchmark-style review로 시각을 좁혀 다루겠습니다.
Structure prediction에서 design pipeline으로
Protenix-v2의 출발점은 structure prediction입니다. 이 technical report는 antibody-antigen interface prediction benchmark 세 종류, PXMeter-AB, FoldBench-AB, AF3-AB에서 Protenix-v1 대비 DockQ > 0.23 success rate가 개선되었다고 보고합니다. 5-seed top-1 setting에서 Protenix-v2는 PXMeter-AB 49.7%, FoldBench-AB 65.0%, AF3-AB 53.5% success rate를 보입니다. Protenix-v1 대비 대략 9–13%p 정도 오른 셈입니다.
이 숫자는 antibody-antigen pose prediction에서는 의미가 있습니다. 특히 technical report는 Protenix-v2의 5-seed performance가 Protenix-v1의 1000-seed result를 넘는다고 주장합니다. Antibody-antigen prediction이 seed budget에 민감하다는 점을 생각하면, inference-time scaling efficiency는 practical pipeline에서 꽤 유용하게 생각되는 개선 포인트입니다.
하지만 DockQ benchmark는 결과적으로 wet-lab validation이 아니기 때문에, antibody-antigen complex pose를 더 잘 맞춘다는 것은 paratope-epitope geometry를 평가하는 데 유용하지만, 새로운 VHH나 mAb가 실제로 bind하는지를 더 잘 구분해낼 수 있다는 결론과 직결되는 것은 아닙니다. 이를 보여주기 위해, Protenix-v2 report에서는 prediction improvement를 design/ranking system으로 연결해 BLI hit discovery까지 보여주고자 시도합니다.
Soluble target VHH-Fc campaign
다음으로는 soluble targets에서 VHH-Fc design campaign을 수행하여 target-level success rate 100%를 달성했다고 주장합니다 (Target panel의 각 antigen에 대해 적어도 하나 이상의 BLI-confirmed binder를 얻었다는 것). Candidate-level hit rate는 target마다 다르게 나타났습니다.
Figure 4A 기준으로 VEGF-A는 41개 BLI-tested 후보 중 21 hits, SOMA는 45개 중 12 hits, UBC9는 43개 중 7 hits, CEAM6는 42개 중 10 hits, NTM1A/MTM1A는 38개 중 2 hits, TACT는 28개 중 1 hit, CD226은 40개 중 7 hits, IDI2는 49개 중 12 hits, IL-20은 19개 중 9 hits를 보입니다. AMBP는 epitope 1과 epitope 2가 따로 제시되는데, 각각 47개 중 2 hits와 24개 중 13 hits입니다.
이 결과는 low-to-moderate testing budget에서 BLI hit를 얻은 post-filter handoff result로 읽을 수 있습니다. 동시에 AMBP가 좋은 cautionary example입니다. 같은 target protein이라도 epitope choice에 따라 hit rate가 4%와 48%로 크게 달라집니다. Antibody/VHH design에서 difficulty unit은 target 하나가 아니라 target surface, epitope accessibility, format, assay setup까지 포함한 campaign입니다.
GPCR VHH-Fc와 mAb 결과
Protenix-v2에서 가장 실용적으로 눈에 띄는 부분은 GPCR target입니다. GPCR은 soluble protein보다 까다롭습니다. Membrane context, receptor conformation, extracellular epitope accessibility, assay orientation이 모두 hit discovery를 어렵게 만듭니다.
technical report는 CCR5, CCR8, GPRC5D, CCR7 네 GPCR targets에서 VHH-Fc와 full-length mAb design을 보고합니다. VHH-Fc hit rates는 각각 16%, 62%, 40%, 88%이고, mAb campaigns는 0%, 17%, 50%, 44%로 제시됩니다. Tested designs는 target마다 대략 16–30개 규모입니다. 이 숫자들은 antibody/VHH design 문헌에서 높은 편입니다.
하지만 format별로 분리해서 읽어야 합니다. VHH-Fc와 full-length mAb는 같은 antibody-like category 안에 있지만 실험적 물체가 다릅니다. Fc fusion은 avidity와 orientation 영향을 받을 수 있고, full-length mAb는 heavy/light pairing과 IgG context가 추가됩니다. 실제로 CCR5에서는 VHH-Fc hit가 16%인데 mAb hit는 0%이고, GPRC5D에서는 mAb가 50%로 더 높게 보고됩니다. Format transfer가 자동으로 보장되는 구조는 아닙니다.
GPRC5D VHH-Fc example의 lowest KD는 112 pM로 보고되지만, technical report는 이 값을 avidity condition 아래의 값으로 표시합니다. Antigen이 native dimeric form이기 때문입니다. 따라서 이 수치는 monovalent affinity로 단순 비교하면 안 됩니다. Protenix-v2 리뷰에서 affinity와 avidity를 분리하는 이유가 여기에 있습니다.
BLI hit definition과 denominator
Protenix-v2의 주요 experimental hit는 BLI 기반입니다. 대부분의 antibody target에서 designed antibody를 ProA/ProG sensor에 immobilize하고 1000 nM antigen을 흘려 single-concentration screen을 수행합니다. Positive hit는 buffer background보다 0.05 nm 이상 큰 binding response로 정의됩니다. 이후 많은 hits는 multi-concentration KD determination으로 넘어가고, 대체로 KD < 1000 nM 범위로 보고됩니다.
이 설정은 practical early discovery screen으로는 유효합니다. 하지만 BLI response hit, multi-concentration KD-confirmed binder, functional binder, specificity-confirmed binder, developable therapeutic candidate는 서로 다른 evidence layer입니다. Protenix-v2의 headline hit rate는 BLI-centered discovery result입니다. Function, broad specificity, structural pose validation은 같은 숫자 안에 포함되어 있지 않습니다.
Denominator도 분리해서 봐야 합니다. Protenix-v2는 raw generated designs, BLI-tested candidates, structural clusters, hits를 같이 보여줍니다. 리뷰에서는 “raw design 대비 hit rate”가 아니라 “BLI-tested candidate 대비 hit rate”로 읽는 편이 안전합니다. Candidate filtering/ranking이 이미 들어간 후의 wet-lab handoff result이기 때문입니다.
Developability evidence
Protenix-v2는 binding만 보고 끝내지 않습니다. Antibody constructs는 CHO transient expression을 거치고, Protein A purification, SEC-HPLC purity check를 수행합니다. Kinetic assays에는 SEC-HPLC purity >90% batch만 사용했다고 설명합니다.
Developability panel은 DSF, AC-SINS, BVP ELISA 세 가지입니다. DSF는 apparent melting temperature를 보고 Tm > 60°C를 pass threshold로 둡니다. AC-SINS는 self-interaction을 red shift < 11 nm 기준으로 봅니다. BVP ELISA는 non-specific binding/polyreactivity를 corrected BVP score < 5.3 기준으로 평가합니다. 보고된 pass rates는 DSF 100.0%, AC-SINS 97.5%, BVP ELISA 93.3%입니다.
이 데이터는 Protenix-v2의 evidence를 binding-only보다 두껍게 만듭니다. Antibody/VHH-Fc design에서 expression, purity, stability, self-interaction, polyreactivity는 초기 developability 판단에 볼 지점입니다. 다만 이것은 early biophysical/manufacturability-adjacent evidence입니다. Immunogenicity, PK/PD, toxicity, formulation stability, in vivo efficacy, process-scale manufacturability까지 보여주는 것은 아닙니다.
VEGF-A ranking study
VEGF-A는 Protenix-v2에서 ranking story를 보여주는 case study입니다. 저자들은 약 300개의 VHH candidates를 만들고, human expert와 두 model rankers가 각각 30개씩 후보를 골라 experimental validation으로 보냅니다.
결과는 ranking strategy를 비교하기에 좋습니다. Human expert selection은 7 binders를 얻었고 모두 unique하며 model-selected hits와 overlap이 없습니다. Ranker A는 9 binders, Ranker B는 10 binders를 얻었고, 두 ranker 사이에는 5개 hit가 overlap됩니다. Model rankers는 1000 nM에서 더 높은 response를 보이는 binders를 고르는 경향이 있었고, human selection은 더 넓은 structural clusters를 포괄했습니다.
이 section은 Protenix-v2의 candidate filtering claim을 이해하는 데 유용합니다. Model ranker가 human intuition과 다른 binding-relevant features를 잡을 수 있다는 가능성을 보여줍니다. 동시에 diversity 보존 측면에서는 human selection이 다른 장점을 가질 수 있습니다. Hit rate만 볼 것이 아니라 ranking objective와 diversity tradeoff도 같이 두고 봐야 합니다.
Ligand plausibility와 mini-binder result
Protenix-v2는 antibody/VHH-Fc design만 다루지 않습니다. Ligand plausibility와 mini-binder result도 들어 있습니다. Ligand 쪽에서는 training-free guidance를 통해 pocket-aligned ligand RMSD < 2 Å와 validity pass를 동시에 요구하는 joint success metric을 제시합니다. Protenix-v2-TFG는 revised validity criterion에서 60.46%를 보고하고, Boltz-1x 53.96%보다 높고 Boltz-2x 62.86%에 가깝다고 설명합니다.
이 결과는 structure prediction / ligand pose plausibility 쪽 claim입니다. Antibody wet-lab evidence와 섞으면 안 됩니다. Protenix-v2가 biomolecular prediction system으로 넓어지고 있다는 근거로는 중요하지만, VHH-Fc/mAb design hit rate와 같은 종류의 evidence는 아닙니다.
SARS-CoV-2 RBD dual-binding mini-binder result도 비슷합니다. Prototype RBD와 Omicron B.1.1.529 RBD를 함께 input으로 넣었을 때, 4개 tested designs 중 2개 dual-binding mini-binders를 얻었다고 보고합니다. 두 design은 양쪽 variant에 대해 nM-scale KD를 보입니다. 유용한 breadth-oriented result지만, 4개 tested design이라는 작은 denominator와 mini-binder format을 분리해서 읽어야 합니다.
Closed or partly disclosed system으로 읽기
Protenix-v2의 evidence는 넓습니다. Antibody-antigen DockQ benchmark, soluble target VHH-Fc hit discovery, GPCR VHH-Fc/mAb hit rates, early developability panel, VEGF-A ranking study, ligand plausibility, mini-binder breadth까지 포함합니다. 다만 이 넓이가 곧 reproducibility를 뜻하지는 않습니다.
technical report는 technical report 성격이고, design/ranker architecture와 training/selection detail이 충분히 공개되어 있지 않습니다. 그래서 Protenix-v2를 open method anchor로 놓고 재현 가능한 workflow처럼 소개하면 부정확합니다. 이 technical report는 partly disclosed Protenix system이 design/ranking layer까지 확장되었을 때 어떤 experimental readout을 냈는지 보여주는 performance report에 가깝습니다.
또 하나의 주의점은 evidence layer가 서로 다르다는 것입니다. DockQ와 ligand validity는 in silico prediction metrics입니다. BLI hit rate는 binding validation입니다. DSF/BVP/AC-SINS는 early developability evidence입니다. GPCR campaigns는 binding 중심입니다. Broad functional pharmacology나 receptor-state structural validation까지 보여주는 것은 아닙니다. 이 층위를 분리할수록 technical report의 의미가 더 선명해집니다.
평가: antibody design benchmark로서의 Protenix-v2
Protenix-v2는 antibody/VHH design 흐름에서 중요한 위치에 있습니다. RFdiffusion-Antibody가 open structural design과 pose validation을 보여줬다면, Protenix-v2는 partly disclosed system이 작은 BLI testing budget에서 높은 hit rates를 보고한 사례입니다. Chai-2와도 가까운 흐름에 있지만, Protenix-v2는 structure prediction benchmark와 ranking/selection story를 더 전면에 둡니다.
내가 보기엔 이 technical report의 가장 적절한 해석은 “better predictor가 better design pipeline으로 이어질 수 있다”입니다. 다만 여기서 better design pipeline은 raw generator만 뜻하지 않습니다. Structure prediction, candidate ranking, format choice, epitope choice, assay orientation, developability screen이 함께 움직이는 pipeline입니다.
그래서 Protenix-v2를 읽을 때는 headline hit rate보다 denominator와 evidence layer를 먼저 보는 편이 좋습니다. Soluble target VHH-Fc result, GPCR VHH-Fc/mAb result, developability pass rate, ligand plausibility, mini-binder result는 모두 의미가 있지만 같은 claim은 아닙니다. 이 구분을 유지하면 Protenix-v2는 “antibody design이 끝났다”는 선언이 아니라, prediction-centered company system이 limited-budget antibody hit discovery에서 어디까지 왔는지를 보여주는 자료로 읽힙니다.
참고
•
Zhang et al., “Protenix-v2: Broadening the Reach of Structure Prediction and Biomolecular Design”, preprint / technical report, 2026. DOI: 10.64898/2026.04.10.717613
•
ByteDance Seed / Protenix Team, Protenix repository: https://github.com/bytedance/Protenix