GeoFlow-V3 technical report 리뷰
들어가며
AI antibody design의 경쟁은 점점 “많이 만들 수 있는가”에서 “적은 실험 예산으로 hit를 얻을 수 있는가”로 이동하고 있습니다. Display library를 million-scale로 만들지 않고, target 또는 epitope당 수십 개 후보만 주문해도 binder가 나오는가. 2025년 이후 company-led report들을 읽을 때 이 질문이 중요해졌습니다.
BioGeometry Team의 “Rapid De Novo Antibody Design with GeoFlow-V3” technical report는 이 흐름 안에 있습니다. GeoFlow-V3는 antibody-antigen structure prediction과 epitope-conditioned VHH design을 함께 다루는 unified atomic diffusion model로 소개됩니다. Report의 중심 claim은 target당 최대 50개 후보를 직접 합성하고 one-point BLI로 검증해, 5개 target·8개 epitope campaign에서 모두 binder를 얻었다는 것입니다.
다만 GeoFlow-V3를 읽을 때 숫자만 앞세우면 위험합니다. 15.5% hit rate는 raw generation hit rate가 아니라 post-design/selected-candidate BLI screen denominator입니다. PD-1은 preliminary version으로 진행되어 headline average에서 제외됩니다. 구조 prediction benchmark, confidence score, ipTM/CDR-ipAE도 wet-lab validation이 아니라 candidate filtering proxy입니다. 이 technical report의 가치는 low-N experimental loop에 있고, 해석 범위선도 그 denominator 위에 있습니다.
Low-N VHH campaign으로 넘어가는 흐름
GeoFlow-V3의 맥락은 Chai-2, Protenix-v2, Origin-1, Latent-X2, BoltzGen 같은 company-led design report들과 함께 봐야 합니다. 이 보고서들은 architecture 자체보다 wet-lab handoff denominator를 전면에 세웁니다. 몇 개를 생성했는가보다, 몇 개를 주문했고 그중 몇 개가 assay에서 signal을 냈는지가 중심으로 이동합니다.
GeoFlow-V3는 이 점을 비교적 직접적으로 제시합니다. 5개 therapeutically relevant targets를 고르고, TSLP, IL-33, IL-13은 각각 두 epitope campaign으로 나눕니다. CCR8은 ECL2, PD-1은 PD-L1 binding interface를 겨냥합니다. 결과적으로 8개 VHH design campaign이 됩니다.
이 setting은 antibody/VHH design에서 특히 의미가 있습니다. Antibody design은 miniprotein binder처럼 target surface만 잘 맞추면 끝나는 문제가 아닙니다. VHH framework, all-CDR variable length, epitope access, assay orientation, polyreactivity까지 따라옵니다. GeoFlow-V3는 이 어려움을 low-N direct synthesis/BLI setup에서 보여주려는 report입니다.
Unified atomic diffusion model과 pseudo sequence
GeoFlow-V3는 protein structure prediction과 de novo design을 함께 처리하는 unified atomic diffusion model로 설명됩니다. PDB와 high-quality predicted structures를 사용했고, training data cutoff는 2024년 6월 30일입니다. GeoFlow-V2의 pseudo protein sequence mechanism을 이어받아, full sequence는 structure prediction에, partially 또는 fully masked sequence는 design에 쓰는 구조입니다.
Antibody-antigen complex prediction에서는 GeoFlow-V2보다 high-DockQ prediction 비율이 늘었다고 주장합니다. Report는 이 structure prediction 능력을 de novo antibody design capability의 proxy로 연결합니다. 이 연결은 이해할 수 있습니다. 좋은 antibody design에는 target과 antibody의 relative pose를 예측하는 능력이 필요하기 때문입니다.
하지만 DockQ는 어디까지나 known complex pose를 얼마나 잘 복원하는가에 가까운 metric입니다. DockQ success가 높다는 말은 binding affinity, specificity, function, developability가 확인됐다는 말이 아닙니다. GeoFlow-V3의 in silico benchmark는 design loop를 뒷받침하는 구조적 plausibility evidence로 이해하면 충분합니다.
Constraint-guided prediction/design
GeoFlow-V3는 여러 constraint를 지원합니다. Epitope Constraint는 binder가 접촉해야 하는 target residue set을 지정합니다. Contact Constraint는 residue pair contact 또는 distance restraint를 넣습니다. Target-Structure Constraint는 target structure에서 얻은 noise-perturbed distance map을 사용합니다. Initial-Guess Constraint는 diffusion process를 user-provided starting conformation으로 seed합니다.
Antibody-antigen structure prediction benchmark에서는 four-epitope constraints와 holo-antigen conditioning 조합이 강한 성능을 보입니다. Combined setting에서 high-DockQ success가 Top-1 44.2%, Top-10 57.7%까지 올라간다고 보고합니다.
이 결과에서 읽을 수 있는 것은 constraint가 antibody-antigen pose search를 좁히는 데 도움이 된다는 점입니다. 반대로 말하면, GeoFlow-V3의 design claim은 epitope-conditioned setting에 강하게 묶여 있습니다. Target만 던져주고 원하는 functional epitope를 자동으로 찾는 문제와는 다릅니다.
Confidence score, ipTM, CDR-ipAE
GeoFlow-V3는 confidence score와 ipTM/CDR-ipAE 같은 구조 confidence metric을 candidate filtering에 사용합니다. Confidence score threshold 0.8을 쓰면 Acceptable DockQ(DockQ > 0.23) 구조를 가려내는 precision이 여러 constraint setting에서 0.82–0.88 수준이라고 보고합니다.
Binder/non-binder discrimination benchmark도 포함됩니다. HER2/Trastuzumab, 5A12 VEGF, 5A12 ANG-2, TSLP, FXI, IL36R, TNFRSF9, C5, ACVR2B, IL17A 등 10개 antibody-antigen target dataset에서 binder/non-binder AUROC를 비교하고, 내부 metric 중 ipTM이 robust하다고 주장합니다.
여기서 구분할 지점은 분명합니다. Correct-pose discrimination과 binder/non-binder discrimination은 후보를 줄이는 데 유용한 proxy일 수 있습니다. 하지만 fine-grained affinity ranking은 다릅니다. Report도 SKEMPI 2.0 antibody-antigen subset에서 affinity ranking이 여전히 어렵다고 적습니다. 구조 model은 PDB complex를 대체로 “bind하는 entity”로 학습하기 때문에 mutation-level affinity sensitivity가 낮을 수 있다는 설명도 붙입니다.
In silico antibody evolution
GeoFlow-V3는 initial candidates에서 출발해 partial diffusion으로 structure와 CDR sequence를 반복적으로 redesign하는 in silico antibody evolution 절차를 제안합니다. Structure redesign은 clean structure에 reverse noising을 diffusion timestep의 35–45% 적용한 뒤 denoise합니다. Sequence redesign은 all CDR redesign 또는 residue-level CDR-ipAE가 높은 suboptimal residues만 selective redesign하는 방식입니다.
이 절차는 filtered candidate 수와 maximal ipTM score를 높인다고 보고됩니다. 이름은 antibody evolution이지만, 실제 affinity maturation 실험은 아닙니다. Confidence-guided test-time scaling에 가깝습니다.
이 구분은 중요합니다. Natural affinity maturation은 selection pressure와 biochemical assay feedback이 들어가는 과정입니다. GeoFlow-V3의 in silico evolution은 model confidence landscape 안에서 후보를 다시 샘플링하고 다듬는 절차입니다. 후보 quality를 높이는 practical trick일 수 있지만, wet-lab affinity maturation과 같은 evidence layer로 올리면 안 됩니다.
Wet-lab design setup
Wet-lab validation은 de novo VHH/nanobody design으로 진행됩니다. Target은 TSLP, IL-33, IL-13, CCR8, PD-1입니다. TSLP, IL-13, IL-33은 receptor-binding epitope를 둘씩 잡고, CCR8은 ECL2, PD-1은 PD-L1 binding interface를 겨냥합니다.
각 campaign은 PDB complex에서 유래한 최대 10개 epitope residues를 제공하고, generation 중 4개를 subsample합니다. Framework는 standardized humanized VHH framework h-NbBcII10 FGLA를 사용합니다. All three CDRs를 variable length로 설계한다는 점도 중요합니다.
Report는 known VHH binder가 in silico design pipeline 어느 단계에도 사용되지 않았다고 명시합니다. 이 claim은 novelty와 de novo design framing을 지지합니다. 다만 target structure와 epitope residue는 prior로 들어갑니다. 따라서 “zero-prior antibody discovery”라기보다 “structure/epitope-conditioned VHH design”으로 보는 것이 정확합니다.
BLI hit definition과 denominator
Primary screen은 direct gene synthesis 후 one-point BLI입니다. Positive binder는 binding-positive curve signature, negative background signal의 300% 초과, background 대비 0.1 nm 이상 signal이라는 세 조건을 만족하는 design으로 정의됩니다.
KD 측정은 VHH-Fc를 ProA biosensor에 immobilize하고 monovalent His-tagged antigen을 analyte로 사용합니다. 이 setup은 avidity effect를 줄이려는 설계입니다. Hit screen은 analyte 5 µM 또는 10 µM one-point BLI로 진행하고, KD determination은 2- 또는 3-fold dilution의 3–7 point series로 진행합니다.
여기서 denominator를 놓치면 안 됩니다. GeoFlow-V3가 보고하는 hit rate는 generated pool 전체가 아니라, campaign별로 합성·테스트된 23–50개 후보에서 나온 BLI-positive 비율입니다. 이 숫자는 wet-lab handoff efficiency에 가깝습니다.
Campaign별 hit rate
Table S1의 campaign-level 결과는 GeoFlow-V3 report의 핵심입니다. TSLP Ep1은 50개 중 13 binders로 26.0%, TSLP Ep2는 50개 중 11 binders로 22.0%입니다. IL-33 Ep1은 46개 중 6 binders로 13.0%, IL-33 Ep2는 50개 중 3 binders로 6.0%입니다.
IL-13 Ep1은 50개 중 9 binders로 18.0%, IL-13 Ep2는 34개 중 2 binders로 5.9%입니다. CCR8은 23개 중 3 binders로 13.0%입니다. PD-1은 50개 중 1 binder로 2.0%입니다.
Report가 강조하는 average hit rate 15.5%는 PD-1을 제외한 값입니다. PD-1은 in silico evolution이 없는 preliminary GeoFlow-V3 version으로 설계했기 때문에 따로 둡니다. 이 분리는 기술적으로 이해할 수 있지만, 전체 target/campaign distribution을 함께 봐야 합니다. Headline average만 보면 PD-1의 낮은 결과와 epitope별 편차가 가려집니다.
Affinity와 hit quality의 범위
Figure 8C는 confirmed binders의 representative multi-concentration BLI curve를 보여줍니다. 예시 affinity는 PD-1 224 nM, IL-33 Ep1 346 nM / 557 nM, TSLP Ep1 820 nM / 713 nM, IL-33 Ep2 3.8 µM, TSLP Ep2 225 nM / 455 nM, IL-13 Ep1 556 nM입니다.
따라서 “nanomolar binding affinity” claim은 selected examples 기준으로는 맞습니다. 하지만 모든 binder가 sub-µM인 것은 아닙니다. IL-33 Ep2 대표 binder처럼 µM affinity example도 있습니다. Affinity는 target/campaign/example별로 이해해야 합니다.
Novelty와 diversity도 보고됩니다. 모든 experimentally tested designs는 closest SAbDab-nano example과 CDR edit distance가 최소 10 이상입니다. Confirmed binders는 antigen-aligned antibody framework RMSD 5 Å threshold로 clustering하고, 대부분 target에서 multiple structural clusters를 보입니다. 이 결과는 sequence novelty와 structural diversity claim을 지지하지만, developability나 functional activity를 직접 보장하지는 않습니다.
Specificity와 developability의 첫 단서
GeoFlow-V3는 preliminary additional characterization도 제시합니다. TSLP Ep2 competition assay에서는 representative VHH binders가 RefAb2와 경쟁하지만 RefAb1과는 경쟁하지 않아, RefAb2와 overlapping epitope를 가질 가능성을 보여줍니다.
BVP ELISA polyreactivity assay에서는 13개 tested designs 중 9개가 negative control과 비슷하거나 낮은 polyreactivity signal을 보입니다. 나머지는 varying polyreactivity risk를 보입니다.
이 결과들은 유용한 early screen입니다. 하지만 broad specificity panel, developability package, immunogenicity, PK/PD, manufacturability, in vivo efficacy, functional antagonism/agonism까지 말해주지는 않습니다. GeoFlow-V3의 wet-lab evidence는 BLI hit와 selected KD, competition/BVP early characterization까지라는 관점에서 이해하면 충분합니다.
Figure와 table로 보기
Figure 1–2는 GeoFlow-V3의 unified prediction/design framing과 pseudo sequence mechanism을 잡아줍니다. Structure prediction과 design을 같은 diffusion model 안에서 다루겠다는 report의 출발점입니다.
Constraint-guided prediction result에서는 four-epitope constraints, holo-antigen conditioning, confidence threshold가 어떻게 pose prediction success를 바꾸는지 봐야 합니다. 이 부분은 design success가 아니라 pose/confidence benchmark입니다.
Figure 8과 Table S1은 wet-lab campaign을 읽는 핵심입니다. Figure 8C는 selected BLI curves와 affinity examples를 보여주고, Table S1은 campaign별 binders/tested denominator를 제공합니다. GeoFlow-V3의 headline은 이 둘을 같이 봐야 과장되지 않습니다.
Chai-2, Protenix-v2, Origin-1과의 위치
GeoFlow-V3는 Chai-2, Protenix-v2, Origin-1, Latent-X2와 같은 2025년 company-led antibody design report cluster에 놓기 좋습니다. 공통점은 in silico benchmark보다 low-N wet-lab handoff를 전면에 세운다는 점입니다.
차이도 있습니다. Chai-2는 closed all-atom design system으로 VHH/scFv/miniprotein/IgG와 GPCR/pMHC case까지 넓게 갑니다. Protenix-v2는 predictor/ranker-to-design story와 VHH-Fc/mAb BLI hit를 강조합니다. Origin-1은 full-length mAb, developability, cryo-EM, function after optimization까지 이어지는 integrated platform story입니다.
GeoFlow-V3는 그중 epitope-conditioned VHH design과 confidence-guided in silico evolution, low-N direct BLI campaign에 초점이 있습니다. Full implementation disclosure는 제한적이고, pose structure validation이나 broad function/developability evidence는 아직 얕습니다. 대신 campaign별 denominator가 비교적 선명하다는 장점이 있습니다.
평가: low-N antibody design loop의 좋은 사례
GeoFlow-V3의 가치는 “antibody design이 low-N experimental loop로 들어오고 있다”는 흐름을 보여주는 데 있습니다. Target/epitope당 최대 50개 후보를 주문해 BLI hit를 얻는 setup은 million-scale display screening과는 다른 실험 경제성을 제시합니다.
동시에 GeoFlow-V3는 confidence metric의 한계도 스스로 보여줍니다. DockQ, ipTM, CDR-ipAE, confidence score는 candidate filtering에는 유용할 수 있지만, KD ranking이나 specificity/function/developability를 대신하지 않습니다. Report가 affinity ranking remains hard라고 명시하는 점은 오히려 신뢰도를 높입니다.
결론적으로 GeoFlow-V3는 epitope-conditioned VHH design을 low-N BLI loop로 밀어 넣은 company-led technical report입니다. 15.5% hit rate는 의미 있는 숫자이고, post-design tested-candidate denominator와 PD-1 exclusion, selected affinity examples, specificity/developability depth를 함께 보면 가장 정확하게 읽힙니다.
참고
- BioGeometry Team, “Rapid De Novo Antibody Design with GeoFlow-V3”, bioRxiv, 2025. https://doi.org/10.1101/2025.10.20.682964 - Demo claim: https://prot.design