Chai-2 논문 리뷰
들어가며
Binder design 이야기를 miniprotein에서 antibody로 옮기면 문제의 결이 달라집니다. 일반 scaffold binder는 비교적 열린 구조 공간에서 target surface에 맞는 작은 단백질을 찾는 문제에 가깝습니다. Antibody나 VHH는 framework와 CDR loop라는 문법 안에서 움직입니다. Target에 붙는 sequence를 하나 찾는 것만으로는 부족하고, 그 후보가 scFv, VHH-Fc, full-length IgG 같은 실제 format으로 옮겨가도 유지되는지까지 봐야 합니다.
Chai-2는 이 지점에서 company-led performance milestone으로 읽을 수 있습니다. 다만 strong evidence와 reproducible method는 다릅니다. Chai Discovery가 공개한 두 source, “Zero-shot antibody design in a 24-well plate”와 “Drug-like antibody design against challenging targets with atomic precision”은 Chai-2를 closed de novo antibody/binder design system으로 제시합니다. 첫 번째 source는 52개 novel antibody targets에 대해 target당 20개 이하 design을 wet-lab으로 보내는 low-N benchmark를 보여주고, 두 번째 source는 full-length IgG transfer, developability, cryo-EM pose validation, GPCR/pMHC case study로 evidence layer를 한 단계 더 확장합니다.
이 글에서는 Chai-2를 open method처럼 읽지 않겠습니다. Model architecture, training data, scoring/ranking details, weights, runnable generation pipeline은 충분히 공개되어 있지 않습니다. 대신 AlphaProteo처럼 closed system의 실험 성능 benchmark로 두는 편이 안전합니다. 다만 Chai-2는 miniprotein보다 antibody/VHH modality 쪽 evidence가 두껍고, drug-like follow-up에서 developability와 pose validation을 같이 보여준다는 점이 다릅니다.
핵심 질문은 단순합니다. Antibody discovery가 million-scale screening에서 24-well plate 수준의 direct validation으로 줄어들 수 있을까? Chai-2의 답은 “일부 target과 format에서는 가까워졌다”에 가깝습니다. 다만 그 답을 제대로 읽으려면 hit rate, format, assay, developability, function, pose validation을 한 숫자로 합치지 않아야 합니다.
24-well plate benchmark
24-well paper의 주요 hook은 low-N입니다. 저자들은 Chai-2가 target structure와 epitope residues를 prompt로 받아 VHH, scFv, miniprotein 후보를 만들고, in silico ranking/selection 후 top designs를 small-scale wet-lab validation으로 보낸다고 설명합니다. 여기서 “24-well plate”는 high-throughput screening 없이도 직접 characterization 가능한 후보 수로 줄였다는 claim을 담고 있습니다.
Antibody benchmark는 SAbDab 기준으로 known antibody-antigen과 가까운 항원을 제거한 52 novel antigens를 대상으로 합니다. 각 target/format마다 up to 20 generated designs를 실험했고, BLI positive curve signature, background 대비 signal threshold를 hit criterion으로 씁니다. 결과는 52 target 중 26 target에서 at least one binder입니다. 평균 antibody hit rate는 15.5%, VHH는 20.0%, scFv는 13.7%로 보고됩니다.
이 숫자는 antibody design field에서는 높은 편입니다. 기존 de novo antibody design은 large library, display screening, maturation에 자주 기대었습니다. Target당 20개 이하 후보에서 절반의 target에 at least one binder가 나왔다면, low-N handoff 성능은 분명히 인상적입니다.
하지만 이 숫자를 읽을 때는 denominator 분리가 먼저입니다. 26/52는 target-level success입니다. 15.5%는 candidate-level antibody hit rate입니다. VHH 20.0%와 scFv 13.7%도 format-specific hit rate입니다. 이 숫자들을 한데 섞어 “Chai-2 hit rate”라고 부르면 정작 중요한 차이가 사라집니다. Antibody/VHH design에서는 format과 assay가 곧 해석입니다.
Miniprotein 결과 분리해서 보기
Chai-2는 antibody만 한 것이 아닙니다. 24-well source는 IL-7Rα, InsulinR, PD-L1, PDGFRβ, TNFα 다섯 target에서 miniprotein binder design도 보여줍니다. Target당 20–25개 design을 test했고, 전체 75/111, 즉 68% hit rate와 5/5 target-level success를 보고합니다. 일부 target에서는 pM KD examples가 제시되고, TNFα에서도 low-nanomolar binder examples가 나옵니다.
이 결과는 좋지만 antibody benchmark와 합치면 안 됩니다. Miniprotein은 framework/CDR constraint가 없고, assay와 denominator도 다릅니다. Chai-2가 miniprotein과 antibody 모두를 다룬다는 점은 platform breadth를 보여주지만, “antibody design hit rate 68%”라는 식으로 읽으면 숫자가 틀어집니다.
오히려 이 대비가 Chai-2를 이해하는 데 좋습니다. 같은 Chai-2 system 안에서도 modality가 바뀌면 hit rate와 evidence meaning이 바뀝니다. General binder design과 antibody/VHH design은 같은 target-conditioned generation이라는 말 아래 묶일 수 있지만, practical constraint는 다릅니다.
Antibody/VHH format constraints
Antibody/VHH design은 general scaffold binder design과 다른 문법을 가집니다. VHH는 single-domain scaffold이고, scFv는 VH/VL pair를 연결한 format입니다. 두 경우 모두 target recognition은 CDR loop geometry와 framework compatibility 위에서 만들어집니다. CDR3 하나만 잘 만들면 되는 문제가 아니라, paratope 전체의 geometry, epitope accessibility, expression, aggregation, stability가 같이 걸립니다.
Chai-2 source는 therapeutic framework choices와 CDR residue/length design을 통해 VHH와 scFv 후보를 만든다고 설명합니다. CCL2 case에서는 같은 target에서 VHH/scFv와 two epitopes를 따로 prompt해 format/epitope flexibility를 보여줍니다. Human/cyno homolog prompt case에서는 14 candidates 중 lead antibody가 human/cyno target에 각각 77 nM / 121 nM KD를 보였다고 보고합니다.
이 사례들은 Chai-2가 format과 epitope prompt를 다룰 수 있다는 점을 보여줍니다. 다만 systematic benchmark라기보다는 case study입니다. Antibody/VHH design에서 promptable specificity나 cross-reactivity는 매력적인 기능이지만, broad generalization claim으로 곧장 확장하기보다는 개별 evidence로 놓는 편이 안전합니다.
Drug-like antibody evidence
24-well paper가 low-N binding hit rate를 보여준다면, drug-like follow-up은 “그 hit들이 antibody drug-like format에서 얼마나 버티는가”를 묻습니다. 이 source는 scFv hits를 full-length mAb/IgG format으로 reformat했을 때 93%가 activity를 유지했다고 보고합니다. 이후 88 IgGs가 developability assessment로 넘어갔고, low-purity samples를 제외한 Chai-designed IgGs 80개와 VHH-Fcs 17개가 core developability panel로 평가됩니다.
Developability panel은 NanoDSF/Fab or VHH Tm, HIC-HPLC retention, BVP ELISA, AC-SINS를 봅니다. 저자들은 IgG Fab Tm, hydrophobicity, polyreactivity, self-association threshold를 green flag로 정의하고, IgG designs에서 85% 이상이 세 개 이상의 green flags를 가진다고 보고합니다. 28 targeted antigens 중 24개 target에서 at least one design이 세 개 이상의 green flags를 가졌다는 점도 제시됩니다.
이 결과는 Chai-2의 evidence를 binding-only에서 한 단계 올립니다. Antibody는 affinity만 좋아도 developability가 나쁘면 실제 후보로 쓰기 어렵습니다. 초기 biophysical developability panel을 붙였다는 점은 볼 지점입니다. 다만 이것도 therapeutic readiness와 같지는 않습니다. Humanness와 chemical liability 일부는 in silico이고, immunogenicity, PK/PD, toxicity, in vivo efficacy, manufacturing scale은 여전히 별도 evidence입니다.
Cryo-EM pose validation
Drug-like source에서 가장 중요한 부분 중 하나는 cryo-EM pose validation입니다. EPCR_design_17, EFNA5_design_10, CSF1_design_6, S1433B_design_3, IL20_design_9 다섯 antibody-antigen complexes에 대해 cryo-EM maps를 얻었고, resolution은 3.5–5.7 Å입니다. Global complex RMSD는 0.41–1.7 Å 범위로, HCDR3 loop RMSD는 0.26–0.39 Å 범위로 제시됩니다.
이 결과는 단순 binding hit와 다릅니다. De novo antibody design에서는 target에 붙는 후보를 찾는 것만큼, 설계한 epitope와 pose가 실제로 맞는지도 볼 지점입니다. Chai-2 source는 refinement 과정에서 CDR model이나 binding-orientation information을 제공하지 않았다고 설명해 design-derived model bias를 줄이려 했다고 주장합니다.
물론 cryo-EM resolution이 모두 side-chain level 해석을 강하게 밀어주는 것은 아닙니다. 그래도 다섯 complex에서 designed pose가 observed pose와 맞는다는 evidence는 Chai-2를 단순 BLI hit-rate paper보다 훨씬 강하게 만듭니다. AlphaProteo의 structural validation과 비슷하게, closed design system의 성능 benchmark를 두껍게 만드는 축입니다.
GPCR binding과 agonism
Chai-2 drug-like source는 GPCR target도 다룹니다. CCR8, CXCR4, CXCR6, GPRC5D, CCR2, CCR5에 대해 antibody/VHH-Fc/IgG designs를 test했고, 모든 six GPCR target에서 binding hit를 얻었다고 보고합니다. Assay는 target마다 다릅니다. SPR, ELISA, flow cytometry, BLI가 섞입니다.
여기서는 binding hit와 functional agonism을 따로 읽는 편이 안전합니다. CCR8에서는 VHH-Fc 10개 중 5개 binding hit가 나오고, CCR8_design_06이 β-arrestin PathHunter assay에서 EC50 약 292 nM agonism을 보입니다. CXCR4에서는 19개 중 2개 binding hit가 나오고, CXCR4_design_06이 cAMP assay에서 partial agonism, estimated EC50 약 164 nM를 보입니다. 반면 GPRC5D, CCR2, CCR5 등은 binding evidence로 읽는 것이 맞고, function까지 일반화하면 안 됩니다.
GPCR binder design은 soluble protein binder보다 까다롭습니다. Membrane context, receptor conformation, orthosteric site 접근성, signaling output이 모두 볼 지점입니다. Chai-2의 GPCR 결과는 binding과 일부 functional agonism을 보여주는 흥미로운 case study이지만, broad pharmacology, signaling bias, in vivo activity, receptor-state structural validation까지 보여주는 것은 아닙니다.
pMHC specificity case
pMHC section도 흥미롭습니다. HLA-A*02:01-p53 R175H, HLA-A*02:01-gp100, HLA-A*03:01-KRAS G12V 세 campaigns를 테스트했고, hit는 KRAS G12V campaign에서만 나왔습니다. Tested designs는 각각 27, 48, 50개였고, KRAS G12V에서 two binders가 보고됩니다.
주요 사례는 design_46입니다. HLA-A*03:01-KRAS G12V에 apparent SPR affinity 1.5 nM를 보이고, KRAS WT, KRAS G12D, HLA-A*11:01-KRAS G12V에는 negligible 또는 no detectable binding을 보였다고 보고됩니다. pMHC는 peptide와 HLA allele specificity가 동시에 중요하기 때문에, 이 결과는 인상적입니다.
다만 pMHC generalization으로 과장하면 안 됩니다. 세 campaign 중 하나만 성공했고, p53 R175H positive control signal이 marginal했다는 assay limitation도 있습니다. 따라서 이 section은 “Chai-2가 pMHC specificity를 systematic하게 해결했다”가 아니라, “KRAS G12V pMHC에서 strong specificity case를 보여줬다”로 읽는 편이 안전합니다.
Closed system으로 읽기
Chai-2의 evidence는 충분히 두껍습니다. 52 novel antigens에서 low-N antibody hit를 보고하고, miniprotein에서는 더 높은 hit rate를 보이며, full-length IgG transfer와 developability panel, cryo-EM pose validation, GPCR function, pMHC specificity까지 이어집니다. 이 정도면 단순 demo라고 보기 어렵습니다.
동시에 Chai-2는 closed/company-led system입니다. Model architecture, training data, scoring/ranking, selection details가 충분히 공개되어 있지 않습니다. 그래서 이 논문을 RFdiffusion이나 BoltzGen처럼 재현 가능한 method anchor로 쓰면 곤란합니다. Chai-2는 reproducible algorithm이라기보다 performance evidence입니다.
또 하나의 주의점은 evidence가 여러 층위에 흩어져 있다는 것입니다. 24-well antibody result는 mostly binding evidence입니다. Drug-like source는 selected hits에 대해 developability와 pose validation을 더합니다. GPCR function은 CCR8/CXCR4 case-specific이고, pMHC specificity는 KRAS G12V case-specific입니다. 각 층위가 모두 중요하지만, 서로 같은 claim은 아닙니다. 이 구분이 Chai-2 리뷰의 핵심입니다.
평가: low-N antibody design benchmark로서의 Chai-2
내가 보기에 Chai-2의 의미는 “항체 설계가 완결됐다”가 아닙니다. 더 정확히는 closed model이 low-N antibody design의 기준선을 올렸다는 것입니다. Target당 ≤20 designs로 절반의 novel antigens에서 binder를 얻었다는 claim은 antibody discovery의 감각을 바꿉니다. 전통적인 library screening이나 display campaign을 바로 대체한다고 말할 수는 없지만, early hit discovery의 experimental budget을 줄일 가능성은 설득력 있게 보여줍니다.
특히 drug-like follow-up이 볼 지점입니다. 단순히 BLI hit가 나왔다는 것에서 멈추지 않고, full-length IgG transfer, developability green flags, cryo-EM pose validation을 붙였습니다. Antibody design에서는 바로 이 다음 층위가 볼 지점입니다. Affinity-only benchmark가 아니라, format과 developability와 pose를 같이 봐야 하기 때문입니다.
그래도 Chai-2는 closed performance milestone입니다. 우리가 가져다 쓸 수 있는 공개 pipeline이라기보다, company-led system이 어디까지 왔는지를 보여주는 benchmark입니다. 그래서 이 논문을 읽을 때는 흥분과 조심스러움을 같이 가져가는 편이 좋습니다. 성능은 분명히 강합니다. 하지만 denominator, format, assay, function, developability, pose validation을 분리해서 볼 때 그 강함이 더 정확하게 보입니다. Chai-2의 메시지는 “screening이 사라졌다”가 아니라, “closed model이 low-N antibody discovery의 실험 설계를 바꿀 수 있다”에 가깝습니다.
참고
•
Chai Discovery Team, “Zero-shot antibody design in a 24-well plate”, bioRxiv, 2025. https://www.biorxiv.org/content/10.1101/2025.07.05.663018v1
•
Chai Discovery Team, “Drug-like antibody design against challenging targets with atomic precision”, bioRxiv, 2025. https://www.biorxiv.org/content/10.1101/2025.11.29.691346v2