HelixDesign-Antibody 논문 리뷰

들어가며

Reference-complex CDR redesign platform

HelixFold3를 중심으로 한 filtering stack

Five known systems: proxy metrics의 개선

Epitope overlap과 interface examples

Scaling law처럼 보이는 결과

HelixFold3 affinity-discrimination benchmark

Figure별로 읽기

mBER, Germinal, IgDesign과의 위치

평가: wet-lab paper가 아니라 workflow paper

참고

HelixDesign-Antibody 논문 리뷰

들어가며

Antibody design 논문을 읽다 보면 “모델이 후보를 생성했다”와 “실제로 antibody design workflow가 돌아간다” 사이의 간격을 자주 보게 됩니다. 후보 sequence를 만드는 일은 한 단계일 뿐입니다. 그 후보가 reference epitope를 유지하는지, complex prediction confidence가 괜찮은지, FoldX나 physicochemical score가 나쁘지 않은지, 수천 개 후보를 어떻게 접고 rank할지까지 이어져야 실무적인 design workflow가 됩니다.

Baidu/PaddleHelix Team의 arXiv preprint “HELIX DESIGN-ANTIBODY: A SCALABLE PRODUCTION-GRADE PLATFORM FOR ANTIBODY DESIGN BUILT ON HELIXFOLD3”는 이 operational layer를 전면에 놓은 논문입니다. HelixDesign-Antibody는 새 wet-lab validated antibody generator라기보다, HelixFold3를 중심으로 CDR sequence design, high-throughput complex prediction, epitope-overlap check, FoldX/physicochemical scoring, visualization, HPC screening을 묶은 antibody redesign platform입니다.

그래서 이 논문은 Germinal이나 mBER와 같은 방식으로 읽으면 범위가 흔들립니다. Germinal은 low-N purified BLI/SPR와 일부 pose/epitope evidence를 제공합니다. mBER는 million-scale VHH phage/NGS matrix로 breadth와 denominator를 보여줍니다. HelixDesign-Antibody는 새로운 SPR/BLI/cryo-EM validation을 보고하지 않습니다. 이 논문의 위치는 wet-lab hit-rate paper가 아니라, antibody CDR redesign과 candidate filtering을 production workflow로 묶는 infrastructure/evaluator paper에 가깝습니다.

Reference-complex CDR redesign platform

HelixDesign-Antibody의 input은 reference antibody–antigen complex structure입니다. 이 structure는 experimentally determined co-crystal structure일 수도 있고, HelixFold3나 다른 folding/docking method로 예측한 complex일 수도 있습니다. 사용자는 CDR1–3, full Fv, user-defined antibody region 같은 design region을 지정할 수 있습니다. 논문은 IgG와 nanobody 지원도 언급합니다.

다만 demonstrated result scope는 더 좁습니다. Main design experiment에서는 co-crystal structure가 있는 five known antibody–antigen systems를 사용하고, reference antibody backbone을 template로 둔 채 heavy-chain CDRs only를 optimize합니다. Light chain과 framework residues는 fixed입니다. 이 차이가 중요합니다. Platform claim은 넓지만, quantitative evidence는 reference-complex-based heavy-chain CDR redesign에 집중되어 있습니다.

Current implementation은 modified ESM-IF1을 antibody partial-region design에 맞게 사용합니다. Backbone conformation과 non-designed region의 amino-acid sequence는 유지하고, designed region에 대해서만 novel residues를 제안합니다. 한 run에서 1,000 candidate antibody sequences를 생성하며, 각 candidate는 template structure에 대한 residue-wise compatibility log-likelihood, 즉 sequence-based fitness score를 받습니다.

HelixFold3를 중심으로 한 filtering stack

Generated candidate sequences는 HelixFold3로 antibody–antigen complex prediction을 수행합니다. Input에는 target antigen sequence/structure와 designed antibody candidate sequence가 들어갑니다. 논문은 AlphaFold3와 달리 target antigen input structure를 넣을 수 있고, 이 구조가 antigen–antibody complex conformation prediction과 scoring reliability를 높인다고 주장합니다.

HelixFold3 output에서는 ipTM과 inter-chain PAE가 중심 score로 사용됩니다. ipTM은 interface quality confidence로, PAE는 antibody–antigen interface의 local uncertainty를 보는 보조 지표로 쓰입니다. Epitope information과 residue contact constraint도 포함할 수 있습니다. Reference complex에서 정의한 epitope contact pattern을 designed complex가 얼마나 유지하는지도 평가합니다.

Scoring은 크게 세 층입니다. 첫째, ESM-IF1-style inverse folding에서 나온 sequence fitness입니다. 둘째, HelixFold3의 ipTM/PAE/CDR pLDDT 같은 structure confidence입니다. 셋째, FoldX ΔG와 physicochemical metrics 같은 energy/biophysical proxy입니다. 논문은 epitope contact manual validation도 final selection에서 중요하다고 말합니다.

이 stack은 실용적입니다. Antibody design은 generator 하나로 끝나지 않고, sequence plausibility, interface confidence, epitope preservation, energy proxy, manual inspection이 모두 얽히기 때문입니다. 다만 이 모든 score는 proxy입니다. SPR KD, BLI binding, function, pose validation을 대신하지 않습니다.

Five known systems: proxy metrics의 개선

Main evaluation은 five known antibody–antigen systems에서 수행됩니다. ACVR2B (`5NGV`), TNFRSF9 (`6A3W`), FXI (`6HHC`), IL-36R (`6U6U`), IL17A (`6PPG`)가 포함됩니다. 각 case에서 reference antibody backbone이 template로 쓰이고, heavy-chain CDRs를 redesign합니다.

Designed antibodies는 HelixFold3 ipTM, CDR pLDDT, FoldX-predicted binding free energy ΔG, epitope overlap, sequence diversity/novelty로 평가됩니다. 논문은 designed antibodies의 ipTM이 wild-type/reference antibody와 comparable하며, four antigens에서 designed antibody ipTM이 0.7을 넘는다고 보고합니다. CDR pLDDT는 대체로 80 이상이고, FoldX ΔG는 five antigens 모두에서 wild type보다 favorable하다고 합니다.

이 결과는 HelixDesign-Antibody의 in silico redesign/filtering behavior를 보여줍니다. 하지만 lower FoldX ΔG나 higher ipTM을 measured affinity처럼 읽으면 안 됩니다. FoldX ΔG는 predicted energy이고, ipTM은 interface-confidence proxy입니다. 이 결과가 지지하는 claim은 “이 workflow가 reference-complex CDR redesign candidates를 proxy metrics로 rank하고 enrich할 수 있다”에 가깝습니다.

Epitope overlap과 interface examples

논문은 antigen residue가 antibody residue와 8 Å 안에 있으면 epitope-contacting residue로 정의합니다. 그런 다음 wild-type/reference antibody epitope와 designed antibody epitope의 overlap을 계산합니다. 이는 functional similarity를 보는 proxy로 사용됩니다.

TNFRSF9 (`6A3W`) example에서는 wild-type W33 aromatic interaction이 designed Y52로 대체됩니다. Aromatic chemistry는 유지되지만 orientation과 local packing은 달라집니다. R134와 D55는 antigen surface 근처에 위치해 polar/hydrogen-bond interaction을 추가할 수 있는 residue로 해석됩니다.

IL-36R (`6U6U`) example에서는 parental antibody BI 655130에서 중요하다고 알려진 Y101 CDRH3 interaction이 유지됩니다. Designed antibody는 D1–D2 interdomain pocket에 Y101을 넣고, G211/N192 같은 residue와 shape complementarity 또는 hydrogen-bonding을 유지하는 것으로 해석됩니다.

이 examples는 HelixDesign-Antibody가 epitope-preserving redesign을 어떻게 설명하는지 보여줍니다. 다만 이것도 structural/proxy interpretation입니다. Epitope overlap은 competition assay, alanine scan, cryo-EM pose validation을 대체하지 않습니다.

Scaling law처럼 보이는 결과

Figure 4는 sampling size와 top-ranked designs의 proxy quality 관계를 보여줍니다. Sampling size가 커질수록 top 100 designs의 mean ipTM과 predicted binding free energy가 개선됩니다. 논문은 이를 large-scale design/HPC screening의 근거로 제시합니다.

이 결과는 platform 관점에서는 자연스럽습니다. 더 많이 만들고 더 많이 접어보면, proxy score가 좋은 상위 후보를 찾을 가능성이 커집니다. 실제 antibody design workflow도 점점 이런 search-and-filter system에 가까워지고 있습니다.

하지만 이 scaling은 experimental hit-rate scaling이 아닙니다. Top-ranked proxy metric이 좋아졌다는 것과 wet-lab binder가 더 자주 나온다는 것은 다른 claim입니다. 따라서 “scale을 키우면 좋은 항체가 나온다”가 아니라, “scale을 키우면 chosen proxy metrics 기준의 top candidates가 좋아진다”로 읽는 편이 안전합니다.

HelixFold3 affinity-discrimination benchmark

논문은 HelixFold3 ipTM을 influenza broadly neutralizing antibody affinity landscapes에 대해 benchmark합니다. CR6261–H1N1, CR9114–H1N1, CR9114–H3N2 datasets를 사용하고, HelixFold3 ipTM과 experimental KD landscape의 Pearson correlation을 계산합니다. Reported correlations는 각각 0.40, 0.64, 0.52입니다.

이 결과는 HelixFold3가 antibody-antigen interface affinity variation을 어느 정도 구분할 수 있음을 시사합니다. 논문은 이 비교에서 HelixFold3가 AlphaFold-Multimer와 ESM-2보다 낫다고 설명합니다. FoldX binding free energy도 HelixFold3 structures 위에서 계산할 때 더 낫다고 합니다.

다만 correlation은 calibration이 아닙니다. ipTM은 KD predictor가 아니라 interface-confidence proxy입니다. Known HA antibody landscapes에서의 correlation이 new antigen, new epitope, new framework로 바로 일반화된다는 뜻도 아닙니다. 이 benchmark는 HelixFold3-centered filtering stack의 근거이지, 새로운 antibody candidates의 wet-lab validation은 아닙니다.

Figure별로 읽기

Figure 1은 전체 workflow를 보여줍니다. Reference antibody–antigen complex, design region selection, inverse-folding sequence design, HelixFold3 high-throughput folding, scoring, ranking, iteration이 이어집니다. 여기서 볼 것은 antibody design이 generator 단독 문제가 아니라 orchestration 문제로 바뀌고 있다는 점입니다.

Figure 2는 five target redesign의 proxy metrics입니다. ipTM, FoldX ΔG, epitope overlap, CDR pLDDT, diversity/novelty가 함께 제시됩니다. 이 figure는 multi-score filtering의 모양을 보여주지만, wet-lab hit rate figure는 아닙니다.

Figure 3은 TNFRSF9와 IL-36R interface examples입니다. Wild-type interaction이 designed residue로 어떻게 보존되거나 바뀌는지 설명합니다. Epitope preservation을 구조적으로 해석하는 figure입니다.

Figure 4는 sampling-size scaling입니다. 더 많은 sampling이 top-ranked proxy scores를 개선한다는 operational argument가 들어 있습니다. Experimental scaling으로 읽지 않는 것이 중요한 지점입니다.

Figure 5는 CR6261/CR9114 HA affinity landscape benchmark입니다. HelixFold3 ipTM의 affinity-discrimination proxy value를 보여주는 figure입니다.

Figure 6–7은 HelixDesign-Antibody Server input/output page 예시입니다. Paper의 platform 성격을 가장 직접적으로 보여주는 부분입니다.

mBER, Germinal, IgDesign과의 위치

HelixDesign-Antibody는 mBER, Germinal, IgDesign과 같은 antibody design landscape 안에 있지만 evidence layer가 다릅니다.

mBER는 scale-heavy experimental breadth입니다. Phage/NGS matrix로 145 screened targets와 on/off-design enrichment를 보여줍니다. Germinal은 low-N biophysical depth입니다. BLI/SPR, expression rescue, polyreactivity, alanine mutagenesis, one cryo-EM pose check까지 갑니다.

IgDesign은 native-complex CDR sequence redesign을 SPR로 검증한 case입니다. 1,437 Fab variants와 278 binders라는 wet-lab denominator가 있습니다. 반면 HelixDesign-Antibody는 new wet-lab validation이 아니라, reference-complex CDR redesign을 대규모 proxy scoring workflow로 묶은 platform입니다.

그래서 HelixDesign-Antibody는 “open antibody design success rate”로 비교하기보다 infrastructure/evaluator corner로 두는 편이 안전합니다. 이 논문의 질문은 “몇 개 중 몇 개가 bind했나?”가 아니라 “antibody CDR redesign에서 generation, folding, scoring, epitope check, HPC throughput을 어떻게 operationalize하나?”에 가깝습니다.

평가: wet-lab paper가 아니라 workflow paper

내가 보기엔 HelixDesign-Antibody의 가치는 antibody hit rate가 아니라 workflow integration에 있습니다. Modified ESM-IF1 sequence design, HelixFold3 complex prediction, ipTM/PAE/CDR pLDDT, FoldX ΔG, epitope overlap, visualization, HPC sampling을 하나의 platform으로 묶었다는 점이 핵심입니다.

동시에 이 논문은 evidence layer를 분명히 낮춰 읽는 편이 안전합니다. Main evidence는 in silico redesign/filtering behavior입니다. New SPR, BLI, yeast display, cell assay, cryo-EM, X-ray validation은 보고되지 않습니다. Platform claim은 IgG/nanobody/Fv/user-defined region까지 넓지만, quantitative examples는 known reference complexes에서 heavy-chain CDR redesign에 집중되어 있습니다.

안전한 결론은 이 정도입니다. HelixDesign-Antibody는 validated antibody binder generator라기보다, HelixFold3-centered antibody CDR redesign infrastructure입니다. Wet-lab validation을 채운 논문은 아니지만, antibody design이 점점 generation-only model에서 filtering/evaluation/HPC orchestration problem으로 이동하고 있다는 점을 보여줍니다.

참고

•

Gao et al., “HELIX DESIGN-ANTIBODY: A SCALABLE PRODUCTION-GRADE PLATFORM FOR ANTIBODY DESIGN BUILT ON HELIXFOLD3”, arXiv:2507.02345v1, 2025.