PXDesign 논문 리뷰

들어가며

Protenix 기반 design pipeline

PXDesign-d와 PXDesign-h: 두 generator의 역할

Filtering benchmark와 score 해석

In silico benchmark와 wet-lab hit 분리

Six-target BLI campaign 결과

Denominator: bind-over-tested와 bind-over-designed

TNF-alpha failure case

Binding evidence의 범위

평가: generation-filtering pipeline으로서의 PXDesign

참고

PXDesign 논문 리뷰

들어가며

Binder design 논문을 몇 편 이어서 읽다 보면, 같은 지점으로 자꾸 돌아오게 됩니다. 좋은 generator만으로는 부족합니다. 후보를 많이 만들 수 있어도 wet-lab으로 보낼 수 있는 수는 제한적이고, 그 좁은 문 앞에서 filtering이 거의 같은 무게를 갖습니다. 어떤 후보를 버릴지, 어떤 후보를 실험으로 넘길지, 그 기준이 target이 바뀌어도 버티는지가 실제 hit rate를 좌우합니다.

PXDesign은 이 지점을 직접 다룹니다. ByteDance Seed / Protenix Team의 “PXDesign: Fast, Modular, and Accurate De Novo Design of Protein Binders”는 Protenix 기반 diffusion generator인 PXDesign-d와 hallucination 방식인 PXDesign-h를 제시하고, Protenix/AF2-IG confidence filter를 조합해 BLI validation으로 이어지는 binder design pipeline을 만듭니다.

AlphaProteo가 closed high-performance validation benchmark였고, BoltzGen이 open all-atom multi-modality platform이었다면, PXDesign은 predictor/filter ecosystem과 generator가 함께 진화하는 company-led binder pipeline으로 읽기 좋습니다. 세 논문은 모두 hit rate를 말하지만, 실제 비교 축은 서로 다릅니다. PXDesign의 흥미로운 점은 “더 좋은 generator”에서 끝나지 않는 데 있습니다. Protenix score가 후보를 얼마나 잘 골라내는지, AF2-IG와 어디서 겹치고 어디서 갈라지는지, filtering threshold가 target마다 어떻게 달라지는지를 논문의 중심으로 끌고 옵니다.

Headline은 매력적입니다. PXDesign은 6개 target 중 5개에서 BLI 기준 nanomolar binder를 얻었고, target별 post-filter hit rate는 20–73% 범위로 보고됩니다. 다만 이 수치는 generation 이후 dual filtering, clustering, expression qualification, BLI screen, KD cutoff를 지난 뒤의 숫자입니다. Raw generation success가 아니라 post-filter wet-lab handoff의 성과입니다. 이 구분을 놓치면 PXDesign의 결과는 실제보다 더 마법처럼 보입니다.

Protenix 기반 design pipeline

PXDesign을 이해하려면 Protenix를 단순한 structure predictor로만 보면 부족합니다. Protenix-v1은 AlphaFold3-style biomolecular complex prediction을 open-source 방향으로 끌어간 모델이고, PXDesign에서는 이 predictor가 후보 평가와 hallucination objective의 핵심 부품으로 쓰입니다. 구조를 예측하는 모델이면서, binder design pipeline 안에서는 filter이자 scorer가 됩니다.

이 전환이 볼 지점입니다. Structure prediction benchmark에서 좋은 성능을 내는 것과 binder design에서 좋은 후보를 고르는 것은 같은 문제가 아닙니다. Prediction confidence는 binding affinity도 아니고 specificity도 아니며 developability도 아닙니다. 그래도 좋은 interface confidence proxy가 있으면 후보군을 실험 가능한 규모로 줄이는 데 도움이 됩니다. PXDesign은 바로 이 가능성을 체계적으로 테스트합니다.

논문은 AF2-IG, Protenix, Protenix-Mini, Protenix-Mini-Templ 같은 predictor/filter를 Cao de novo binder dataset, EGFR challenge, SKEMPI subset, RFdiffusion wet-lab design set에서 비교합니다. Protenix-derived confidence metrics는 여러 setting에서 true binder enrichment를 높이고, published RFdiffusion designs를 Protenix ipTM으로 re-ranking했을 때 top subset의 success rate가 올라간다고 보고됩니다. 이 부분이 PXDesign의 핵심 contribution입니다. Generator 자체보다, predictor confidence를 wet-lab 후보 triage에 어떻게 쓸 수 있는지를 보여주는 논문에 가깝습니다.

PXDesign-d와 PXDesign-h: 두 generator의 역할

PXDesign에는 두 가지 generation route가 있습니다. PXDesign-d는 diffusion-based binder generation model입니다. Design할 residue를 special token으로 표시하고, target structure condition 아래에서 noisy all-atom coordinates를 denoise해 binder coordinates를 생성합니다. AF3-style Diffusion Transformer를 사용하고, diffusion 중 expensive triangle update를 피한다고 설명합니다. Protein target뿐 아니라 small molecule, DNA/RNA, PTM target까지 확장 가능한 방향을 주장하지만, 이 논문의 wet-lab result는 protein binder campaign에 집중되어 있습니다.

PXDesign-h는 hallucination route입니다. Frozen Protenix predictors를 differentiable scoring function처럼 사용해 binder sequence logits를 gradient로 업데이트합니다. Loss에는 pLDDT, pAE, ipAE, contact, interface contact, helix, radius of gyration 등이 들어갑니다. Softmax warm-up에서 시작해 점점 hard sequence로 가는 relaxed-to-hard optimization입니다.

둘 다 흥미롭지만, wet-lab campaign의 중심은 PXDesign-d입니다. PXDesign-h는 in silico benchmark와 webserver/efficiency 비교에서 의미가 있고, PXDesign-d는 six-target BLI validation으로 이어집니다. 따라서 PXDesign의 experimental claim은 PXDesign-d + AF2-IG/Protenix dual filtering + clustering + BLI validation의 결과로 읽는 편이 안전합니다.

Filtering benchmark와 score 해석

PXDesign 논문에서 가장 실용적인 파트는 filtering benchmark입니다. 저자들은 AF2-IG, AF3-style criteria, Protenix family criteria를 비교하고, Table 3에서 threshold를 제시합니다. 예를 들어 AF2-IG strict filter는 ipAE < 7.0, pLDDT > 0.9, binder RMSD < 1.5 Å를 쓰고, Protenix filter는 binder ipTM > 0.85, binder pTM > 0.88, complex RMSD < 2.5 Å를 씁니다.

이 수치들은 얼핏 깔끔한 recipe처럼 보이지만, 실제로는 target-specific합니다. Filter threshold는 universal law라기보다 실험 후보를 줄이는 operating point에 가깝습니다. 논문도 threshold tradeoff가 target마다 다르고, confidence distribution이 달라서 하나의 universal cutoff가 잘 작동하지 않을 수 있음을 보여줍니다. 어떤 target에서는 threshold를 강화하면 precision이 좋아질 수 있지만, 다른 target에서는 쓸 만한 후보가 거의 사라질 수 있습니다.

따라서 Protenix score를 binding truth처럼 읽으면 곤란합니다. 더 정확한 해석은 Protenix confidence가 AF2-IG와 partially complementary한 filtering signal을 제공하고, candidate triage에 유용할 수 있다는 쪽입니다. PXDesign의 wet-lab success도 이 filtering layer를 떼어내면 같은 의미를 갖기 어렵습니다.

In silico benchmark와 wet-lab hit 분리

PXDesign은 unconditional monomer generation과 conditional binder generation benchmark도 제시합니다. Monomer generation에서는 RFdiffusion, MultiFlow, Proteina와 비교하고, designability를 ProteinMPNN-CA sequence design 후 ESMFold self-consistency RMSD < 2 Å로 정의합니다. Conditional protein binder benchmark에서는 RFdiffusion과 PXDesign-d가 만든 후보를 ProteinMPNN으로 sequence design하고, AF2-IG/Protenix filters로 평가합니다.

이 결과들은 PXDesign-d가 긴 monomer나 binder candidate를 효율적으로 많이 만들 수 있음을 보여주는 proxy입니다. 하지만 여전히 computational proxy입니다. scRMSD, ESMFold recapitulation, AF2-IG pass, Protenix pass는 모두 구조적 그럴듯함과 predicted interface confidence에 관한 지표입니다. Expression, binding, specificity, function은 별도입니다.

PXDesign이 흥미로운 이유는 여기서 멈추지 않고 wet-lab validation으로 넘어갔기 때문입니다. 따라서 리뷰에서는 in silico benchmark를 generator/filter의 성질을 보여주는 파트로 두고, 실제 claim의 무게는 BLI validation에서 다시 평가하는 것이 좋습니다.

Six-target BLI campaign 결과

PXDesign-d는 IL-7RA, SARS-CoV-2 RBD, PD-L1, TrkA, VEGF-A, TNF-alpha 여섯 target에서 실험되었습니다. Pipeline은 비교적 명확합니다. 60–160 amino acid binder를 생성하고, AF2-IG와 Protenix filter를 모두 통과한 후보를 고릅니다. VEGF-A, SC2RBD, TNF-alpha에서는 diversity를 보존하기 위해 Protenix ipTM cutoff를 0.80으로 완화합니다. 이후 Foldseek으로 structural clustering을 하고, 각 cluster에서 Protenix ipTM이 높은 대표를 고릅니다.

Wet-lab 단계에서는 E. coli cell-free system으로 binder를 expression하고, N-terminal Strep-tag으로 purification한 뒤 BLI를 수행합니다. 1000 nM에서 BLI response > 0.06 nm이면 multi-concentration BLI KD measurement로 넘어가고, 최종 successful binder criterion은 KD < 1000 nM입니다.

Target별 결과는 강합니다. IL-7RA는 10개 v0 후보 중 4개 binder, SC2RBD는 v0와 updated design을 합쳐 여러 hit를 얻었고, PD-L1은 11개 BLI-tested candidate 중 8개 binder로 72.7% bind-over-tested를 보입니다. TrkA는 15개 중 3개, VEGF-A는 17개 중 8개, TNF-alpha는 16개 중 0개입니다. 논문 abstract의 20–73% nanomolar binder hit rate는 이 five-successful-target 결과를 요약한 것입니다.

여기서 강한 지점은 low-N handoff입니다. 수십만 후보를 screening한 것이 아니라, filtering과 clustering으로 줄인 소수 후보에서 BLI-confirmed nanomolar binder를 얻었습니다. 특히 PD-L1과 VEGF-A는 post-filter hit rate가 높습니다. Binder design이 practical workflow가 되려면 이런 low-N handoff 성능이 볼 지점입니다.

Denominator: bind-over-tested와 bind-over-designed

PXDesign에서 가장 조심해서 읽을 숫자는 hit rate입니다. Appendix E는 bind-over-tested와 bind-over-designed를 따로 둡니다. Bind-over-tested는 BLI testing에 올라간 후보 중 binder 비율이고, bind-over-designed는 expression failure 등 앞단 실패까지 포함한 비율에 가깝습니다. 예를 들어 PD-L1은 bind-over-tested로는 72.7%지만, expression failure를 포함한 bind-over-designed에서는 47.1%로 내려갑니다.

이 차이는 사소하지 않습니다. 실제 pipeline에서 expression failure도 실패로 남습니다. 반대로 BLI-tested 후보만 놓고 보면 filtering의 precision을 더 직접적으로 볼 수 있습니다. 두 숫자 모두 의미가 있지만 답하는 질문이 다릅니다. 리뷰에서 둘 중 하나만 쓰면 pipeline 성능을 왜곡하기 쉽습니다. “실험에 올라간 후보 중 얼마나 binder였나”와 “디자인해서 생산하려 한 후보 중 최종 binder가 얼마나 나왔나”는 다릅니다.

Cross-paper comparison으로 넘어가면 더 복잡합니다. PXDesign main table은 AlphaProteo, Chai-1d, Chai-2, Latent-X, RFdiffusion과 비교합니다. 하지만 AlphaProteo는 HTRF true-positive ratio로 correction되고, Chai 계열 일부 값은 figure에서 manually read되며, Latent-X는 display와 HT-BLI-corrected rate가 섞입니다. 이런 표는 field의 대략적 위치를 보는 데는 유용하지만, 순위표처럼 읽기에는 위험합니다.

TNF-alpha failure case

PXDesign은 다섯 target에서 강한 결과를 냈지만, TNF-alpha에서는 16개 후보 중 binder를 얻지 못했습니다. 이 실패는 AlphaProteo에서도 반복되는 pattern과 맞닿아 있습니다. TNF-alpha는 flat하고 polar한 homotrimer interface를 target으로 삼는 어려운 case입니다.

이 failure는 평균 hit rate 뒤에 숨기기보다, PXDesign을 읽는 guardrail로 두는 편이 좋습니다. Protenix-based filtering과 diffusion generation이 잘 작동하는 target class가 있고, 여전히 어려운 interface가 있습니다. 특히 flat/polar interface, multimeric geometry, epitope accessibility, target construct, assay 조건이 결합되면 high-confidence structural proxy만으로는 충분하지 않을 수 있습니다.

그래서 PXDesign의 위치는 더 구체적으로 잡는 편이 좋습니다. Overlapping benchmark targets에서는 강한 post-filter BLI performance를 보였고, TNF-alpha 같은 difficult interface에서는 실패했습니다.

Binding evidence의 범위

PXDesign의 wet-lab evidence는 BLI binding 중심입니다. Binding validation으로는 의미가 큽니다. 1000 nM screen과 multi-concentration KD follow-up을 거쳤고, success criterion도 KD < 1000 nM로 명시되어 있습니다.

하지만 이 논문은 functional assay, cell signaling, neutralization, specificity panel, high-resolution designed-pose structure를 보여주는 논문은 아닙니다. 따라서 PXDesign binder를 therapeutic candidate처럼 읽기보다는, post-filter BLI-confirmed binder discovery evidence로 보는 편이 안전합니다. Binding은 강하지만, function과 specificity와 pose validation은 별도의 evidence layer입니다. 이 선을 유지해야 PXDesign의 장점도, 아직 비어 있는 부분도 정확히 보입니다.

이 점은 AlphaProteo와 비교할 때 선명합니다. AlphaProteo는 일부 target에서 live-virus neutralization, VEGF signaling inhibition, cryo-EM/X-ray structure까지 제시했습니다. PXDesign은 hit rate와 filtering analysis가 강하지만, validation breadth는 BLI binding에 더 집중되어 있습니다. 두 논문은 같은 숫자 경쟁으로만 비교하기보다 evidence profile이 다르다고 보는 편이 정확합니다.

평가: generation-filtering pipeline으로서의 PXDesign

내가 보기에 PXDesign의 좋은 독해 포인트는 “좋은 binder design pipeline은 generator와 predictor/filter가 같이 움직인다”는 것입니다. RFdiffusion 이후 많은 논의가 backbone generation이나 target-conditioned generation에 집중됐지만, 실제 wet-lab hit rate를 올리는 데는 candidate filtering이 거의 같은 무게로 볼 지점입니다. PXDesign은 이 점을 Protenix ecosystem 안에서 선명하게 보여줍니다.

특히 Protenix score가 AF2-IG와 완전히 같은 후보를 고르는 것이 아니라 일부 complementary signal을 제공한다는 점이 실무적으로 볼 지점입니다. 좋은 filter 하나를 찾는 문제라기보다, 서로 다른 predictor confidence와 structural diversity를 어떻게 portfolio로 구성할지가 production pipeline의 핵심일 수 있습니다.

물론 PXDesign은 binding-focused report입니다. Functional modulation, specificity, developability, structural pose validation은 다음 evidence layer로 남아 있습니다. Model/weights 공개성과 practical reproducibility도 publication-facing 표현에서는 조심스럽게 다루는 편이 안전합니다. 그래도 PXDesign은 post-filter BLI hit rate를 어떻게 끌어올릴 것인가라는 질문에 직접적인 답을 줍니다.

AlphaProteo가 closed system의 높은 validation ceiling을 보여주고, BoltzGen이 open all-atom platform의 breadth를 보여줬다면, PXDesign은 Protenix-style predictor/filter가 binder design pipeline의 성패를 얼마나 좌우할 수 있는지를 보여줍니다. Binder design field가 generator 경쟁에서 filtering과 validation stack 경쟁으로 넘어가고 있다는 점을 읽기 좋은 사례입니다. 과장 없이 말하면, PXDesign의 주인공은 generator 하나가 아니라 Protenix-based selection stack 전체입니다.

참고

•

Protenix Team, “PXDesign: Fast, Modular, and Accurate De Novo Design of Protein Binders”, bioRxiv, 2025. https://www.biorxiv.org/content/10.1101/2025.08.15.670450v1

•

PXDesignBench: https://github.com/bytedance/PXDesignBench

•

Protenix server: https://protenix-server.com