Search

DiffAb 논문 리뷰

DiffAb 논문 리뷰

들어가며

Antibody CDR design에서 diffusion이 어떤 모양으로 들어왔는지를 보려면 DiffAb가 좋은 출발점입니다. 지금은 RFdiffusion-Antibody, AbDiffuser, MFDesign처럼 더 복잡한 antibody-specific diffusion 계열이 있지만, DiffAb는 antigen structure를 조건으로 CDR sequence와 structure를 함께 생성하겠다는 문제를 이른 시점에 잡았습니다.
bioRxiv preprint “Antigen-Specific Antibody Design and Optimization with Diffusion-Based Generative Models for Protein Structures”는 antibody framework와 antigen structure를 context로 두고, 제거된 CDR의 position, orientation, amino-acid type을 diffusion process로 함께 denoise합니다. Sequence-only generation이 아니라 antigen-conditioned sequence-structure co-design으로 CDR design을 정의했다는 점이 이 논문의 위치입니다.
다만 DiffAb는 wet-lab validation paper가 아닙니다. Evidence는 SAbDab/RAbD-style in silico benchmark, AAR, RMSD, Rosetta InterfaceAnalyzer 기반 IMP 같은 proxy metrics입니다. Binding affinity라는 표현이 나오더라도 여기서는 KD나 IC50가 아니라 biophysical energy-function proxy에 가깝습니다. 그래서 DiffAb는 “실험적으로 항체를 만들었다”가 아니라, antibody CDR diffusion lineage의 early method paper로 읽는 편이 안전합니다.

Antigen-conditioned CDR co-design

DiffAb의 task는 antibody-antigen complex에서 CDR를 제거하고, antigen structure와 antibody framework를 조건으로 CDR sequence와 structure를 다시 생성하는 것입니다. Model은 CDR residue의 position, orientation, amino-acid type을 함께 다룹니다. Antigen context를 보면서 CDR loop geometry와 residue identity를 동시에 샘플링하는 구조입니다.
논문은 같은 framework 안에서 세 가지 task를 지원한다고 설명합니다. 첫째, sequence-structure co-design입니다. CDR sequence와 structure를 동시에 샘플링합니다. 둘째, fixed-backbone sequence design입니다. CDR backbone은 고정하고 sequence만 샘플링합니다. 셋째, antibody optimization입니다. 기존 antibody에 noise를 일부 넣고 denoise해 variant를 만듭니다.
이 framing은 이후 논문들과 연결됩니다. AbDiffuser는 antibody-specific priors와 full-atom generation 쪽으로 가고, RFdiffusion-Antibody는 epitope-specific antibody/VHH pose와 CDR geometry generation으로 갑니다. MFDesign은 AF3/Boltz-like folding model의 diffusion module을 sequence-structure co-diffusion으로 repurpose합니다. DiffAb는 이 계열의 early anchor입니다.

SAbDab benchmark와 RAbD comparison

Training/evaluation data는 SAbDab에서 가져옵니다. Resolution이 낮은 structure와 non-protein antigen을 제외하고, CDR-H3 sequence 50% identity 기준으로 cluster split을 만듭니다. Test set은 5 clusters, 19 antibody-antigen complexes로 구성되며 SARS-CoV-2, MERS, influenza 같은 pathogen antigen을 포함한다고 설명됩니다.
Sequence-structure co-design benchmark에서는 test antibody-antigen complex에서 original CDR을 제거하고, 같은 length의 CDR을 100 samples씩 생성합니다. Baseline은 RosettaAntibodyDesign, RAbD입니다. Metrics는 AAR, RMSD, IMP입니다. AAR은 native amino-acid recovery, RMSD는 structural recovery, IMP는 original CDR보다 낮은 Rosetta InterfaceAnalyzer binding energy를 갖는 design 비율입니다.
Table 1에서 DiffAb는 AAR 기준으로 RAbD보다 전반적으로 높습니다. H1은 65.75% vs 22.85%, H2는 49.31% vs 25.50%, H3는 26.78% vs 22.14%, L1은 56.67% vs 34.27%, L2는 59.32% vs 26.30%, L3는 46.47% vs 20.73%입니다. Antigen-conditioned neural diffusion model이 CDR sequence recovery에서는 Rosetta sampling baseline보다 좋은 신호를 보인 셈입니다.
RMSD와 IMP는 더 섞여 있습니다. H1/H2 RMSD에서는 DiffAb가 낮지만, H3 RMSD는 DiffAb 3.597 Å, RAbD 2.900 Å로 RAbD가 더 낮습니다. IMP도 H1에서는 DiffAb가 53.63% vs 43.88%로 높지만, H2/L2/L3에서는 RAbD가 더 높습니다. 즉 DiffAb가 모든 구조/energy proxy에서 일관되게 우세한 것은 아닙니다.

Proxy metric으로 읽기

DiffAb에서 조심할 부분은 “binding affinity”라는 표현입니다. 논문은 biophysical energy functions로 binding affinity를 평가한다고 설명하지만, 실제 readout은 Rosetta InterfaceAnalyzer energy 같은 computational proxy입니다. KD, SPR/BLI kinetics, competition assay, cell function, cryo-EM pose validation이 아닙니다.
AAR도 마찬가지입니다. Native sequence를 얼마나 회복했는지는 useful model-quality metric이지만, de novo design의 success와는 다릅니다. Native와 다른 CDR sequence가 valid binder일 수 있고, 반대로 native-like recovery가 높아도 expression, specificity, developability, functional activity를 보장하지 않습니다.
RMSD는 structural plausibility를 보는 데 도움을 주지만, designed paratope가 실제 target에 binding하는지를 직접 말하지 않습니다. IMP는 interface-energy proxy로 후보를 비교하는 데 쓸 수 있지만, measured affinity나 off-target specificity를 대체하지 않습니다. DiffAb의 결과는 CDR co-design이 구조적으로 그럴듯한 후보를 만들 수 있다는 in silico evidence layer에 머뭅니다.

CDR-H3와 length constraint

DiffAb benchmark는 original CDR length를 고정합니다. 이 설정은 비교를 깔끔하게 만들지만, 실제 antibody design에서는 CDR length 자체가 큰 design variable입니다. 특히 CDR-H3 length는 epitope 접근성, paratope shape, loop flexibility에 직접 영향을 줍니다.
H3 결과도 이 관점에서 읽을 수 있습니다. DiffAb는 H3 AAR에서는 RAbD보다 약간 높지만, H3 RMSD에서는 RAbD보다 높습니다. HCDR3는 antibody recognition에서 가장 다양하고 어려운 loop 중 하나라, sequence recovery와 structural recovery가 동시에 쉽지 않습니다. DiffAb는 이 어려움을 해결했다기보다, antigen-conditioned diffusion으로 접근하는 초기 형태를 보여줍니다.
이 한계는 이후 연구 흐름으로 이어집니다. AbDiffuser는 antibody priors와 full-atom generation을 더 강하게 넣고, MFDesign은 AF3-like structure diffusion에 sequence denoising을 결합하며, RFdiffusion-Antibody는 CDR/dock generation과 wet-lab screening/pose validation까지 연결합니다.

Figure와 table로 읽기

Figure 1은 antibody-antigen complex와 CDR design problem framing을 보여줍니다. Antigen structure와 antibody framework를 condition으로 두고, missing CDR를 생성하는 문제를 설정합니다.
Table 1은 RAbD와 DiffAb의 CDR co-design metrics입니다. AAR, RMSD, IMP를 CDR별로 비교합니다. DiffAb의 강점은 AAR이고, RMSD/IMP는 CDR별로 mixed result입니다.
Figure 4는 CDR-H3 design examples와 Rosetta interaction energy / RMSD distribution을 보여줍니다. 이 figure는 DiffAb가 H3 loop를 어떻게 생성하는지 보여주지만, experimental binding figure는 아닙니다.
Sections 4.2–4.4는 fixed-backbone sequence design, antibody optimization, unknown-bound-framework use case를 다룹니다. DiffAb가 단순 generation뿐 아니라 optimization framing까지 염두에 둔 early framework였다는 점을 보여줍니다.

AbDiffuser, MFDesign, RFdiffusion-Antibody와의 위치

DiffAb는 AbDiffuser, MFDesign, RFdiffusion-Antibody와 같은 diffusion lineage 안에 있습니다. 하지만 evidence layer는 훨씬 초기입니다.
AbDiffuser는 HER2/Trastuzumab-context CDR-H3 redesign에서 16개 후보를 실험하고, expression과 binding affinity를 보고합니다. Narrow setting이지만 wet-lab evidence가 있습니다. MFDesign은 wet-lab은 없지만 AF3/Boltz-like folding model을 sequence-structure co-diffusion으로 repurpose해 stronger native recovery benchmark를 제시합니다. RFdiffusion-Antibody는 낮은 초기 hit rate에도 yeast/SPR screening, OrthoRep maturation, cryo-EM pose validation까지 갑니다.
DiffAb는 이들보다 앞선 문제 제기입니다. Antigen-conditioned CDR sequence/structure diffusion이라는 방향을 제시했지만, evidence는 Rosetta/interface-energy proxy와 native recovery에 머뭅니다. 그래서 lineage paper로는 중요하지만, experimental antibody design performance anchor로 쓰면 범위를 넘습니다.

평가: early diffusion lineage로서의 가치

내가 보기엔 DiffAb의 가치는 “antibody CDR design을 antigen-conditioned sequence-structure diffusion 문제로 잡았다”는 데 있습니다. 지금 기준으로 보면 benchmark도 작고, evidence도 in silico proxy 중심입니다. 그래도 CDR position/orientation/amino-acid type을 함께 denoise한다는 framing은 이후 antibody diffusion 계열을 이해하는 데 좋은 출발점입니다.
동시에 reader guide는 분명한 편이 좋습니다. DiffAb에는 wet-lab validation이 없습니다. RAbD 대비 AAR improvement는 의미가 있지만, Rosetta energy나 RMSD가 binding, affinity, specificity, function, developability를 대신하지 않습니다. Original CDR length를 고정한 benchmark라는 점도 practical antibody design과의 거리를 만듭니다.
안전한 결론은 이 정도입니다. DiffAb는 antibody CDR diffusion의 early method paper입니다. Antigen-conditioned CDR co-design이라는 방향을 열었지만, evidence는 in silico structural/proxy layer에 머뭅니다. 이후 AbDiffuser, MFDesign, RFdiffusion-Antibody가 각각 wet-lab validation, AF3-like co-diffusion, epitope-specific pose validation 쪽으로 이 문제를 확장했다고 보면 흐름이 자연스럽습니다.

참고