Search

AbDiffuser 논문 리뷰

AbDiffuser 논문 리뷰

들어가며

Antibody design에서 diffusion model을 이야기할 때 놓치기 쉬운 부분이 있습니다. Antibody는 generic protein이 아니라 family-specific structure를 강하게 가진 molecule입니다. Conserved framework가 있고, variable CDR loop가 있고, numbering/alignment scheme이 있으며, sequence와 structure가 framework/CDR context 안에서 같이 움직입니다.
NeurIPS 2023 논문 “AbDiffuser: Full-Atom Generation of in vitro Functioning Antibodies”는 이 family-specific prior를 diffusion model에 넣으려는 early antibody-generation 논문입니다. Prescient Design / Genentech / Roche 쪽 연구진이 참여했고, model은 full-atom antibody sequence/structure를 함께 denoise합니다. 핵심 실험은 HER2/Trastuzumab context에서 CDR-H3를 redesign하고, 16개 후보를 wet-lab으로 보낸 validation입니다.
결과만 보면 눈에 띕니다. 16개 후보 모두 antibody로 발현되었고, 전체 기준 37.5%가 HER2 binding을 보였습니다. Raw subset binding rate는 22.2%, filtered subset은 57.1%였고, best binder는 KD = 3.17e-10 M, pKD = 9.50으로 보고됩니다. Trastuzumab measured average pKD 9.21과 비교하면 상당히 강한 affinity입니다.
다만 이 논문은 narrow HER2/Trastuzumab-context CDR-H3 redesign으로 읽는 편이 안전합니다. 새 target을 보고 zero-prior full antibody를 만든 논문은 아닙니다. AbDiffuser의 가치는 “antibody-specific full-atom diffusion prior가 실제 binding antibody 후보로 이어질 수 있다”는 초기 wet-lab evidence에 있습니다.

Antibody-specific prior를 diffusion에 넣기

AbDiffuser의 문제의식은 명확합니다. 일반 protein diffusion model을 antibody에 그대로 적용하면 family-specific structure를 놓칠 수 있습니다. Antibody는 conserved framework와 variable CDR, length variation, sidechain placement, numbering/alignment scheme을 함께 갖습니다. CDR만 부분적으로 바꾸더라도 전체 antibody context와 충돌하면 발현, folding, binding이 무너질 수 있습니다.
AbDiffuser는 atom positions와 residue types를 함께 denoise합니다. Atom positions에는 Gaussian noise를, residue identity에는 categorical noise를 적용합니다. Reverse process에서는 full-atom coordinates와 residue type을 joint prediction합니다. 즉 sequence와 structure를 따로 다루기보다, full-atom antibody candidate를 한 번에 생성하는 쪽에 가깝습니다.
Antibody-specific prior로는 AHo numbering, position-specific residue frequency, learned covariance를 사용합니다. 이 prior는 antibody alignment structure를 이용해 diffusion process가 더 antibody-like한 sequence/geometry space를 탐색하도록 돕습니다. 여기서 갈림길이 생깁니다. “항체답게 생긴 후보”를 만드는 것과 “target에 결합하는 후보”는 같은 말이 아닙니다. AbDiffuser는 그 둘을 HER2 wet-lab validation으로 일부 연결합니다.

APMixer와 full-atom generation

Architecture는 Aligned Protein Mixer, APMixer입니다. 논문은 APMixer가 residue-to-residue relation을 implicit하게 모델링하고, sequence length change를 다루며, EGNN/FA-GNN류보다 memory footprint가 작다고 설명합니다. 이 덕분에 full antibody framework, CDR, sidechain generation을 더 가볍게 다룰 수 있다는 주장입니다.
Projection layer도 중요한 장치로 제시됩니다. Coordinate space에서는 Gaussian noise를 쓰지만, generated structure가 bond/angle constraint를 더 잘 만족하도록 돕는 역할입니다. AbDiffuser가 “full-atom generation”을 강조하는 이유가 여기에 있습니다. Backbone만 만드는 것이 아니라 sidechain과 residue identity까지 함께 다루려는 모델입니다.
Table 1에서는 pOAS-derived antibody distribution modeling metrics를 보여줍니다. Naturalness, closest-edit distance, stability, CDR hydrophobicity/charge, Rosetta ΔG, IgFold-predicted structure와의 RMSD 같은 지표에서 AbDiffuser가 baselines보다 대체로 좋은 결과를 보입니다. AbDiffuser(side chains)는 RMSD 0.4962를 보고합니다.
Table 2에서는 efficiency를 강조합니다. AbDiffuser는 169M parameters이고, training memory 12GB, generation memory 3GB, 10 examples generation 2.3 minutes를 보고합니다. 이 숫자는 model engineering 관점에서는 의미가 있지만, wet-lab success와는 분리해서 읽는 편이 안전합니다.

HER2/Trastuzumab-context validation

논문의 중심 evidence는 HER2 wet-lab validation입니다. Setting은 Trastuzumab-like HER2 antibody design입니다. 논문은 16 samples를 실험에 보냈고, 16/16이 actual antibody로 발현되었다고 보고합니다. 전체 16개 중 37.5%가 target binding을 보였고, 평균 pKD는 8.7입니다.
Raw/filtered subset을 나누면 해석이 더 선명해집니다. Raw subset binding rate는 22.2%이고, filtered subset binding rate는 57.1%입니다. 평균 pKD는 raw 8.53, filtered 8.78입니다. Best binder는 KD = 3.17e-10 M, pKD = 9.50입니다. Trastuzumab measured average pKD 9.21과 비교하면, best design은 reference와 비슷하거나 약간 더 강한 수준으로 해석됩니다.
이 결과는 AbDiffuser의 강점입니다. 단 16개 후보에서 expression과 binding affinity를 확인했고, filtered subset에서 hit enrichment를 보여줬습니다. Antibody-specific full-atom diffusion이 단순 in silico naturalness metric을 넘어 wet-lab binding으로 이어질 수 있음을 보여줍니다.
여기서 denominator를 지키는 편이 안전합니다. 전체 binding rate는 37.5%이고, filtered subset 57.1%는 in silico filtering 후의 subset입니다. Raw 22.2%, overall 37.5%, filtered 57.1%는 서로 다른 denominator의 숫자입니다. 하나의 headline hit rate로 합치면 결과가 과장됩니다.

Known-context redesign으로 읽기

AbDiffuser를 읽을 때 가장 먼저 잡을 guardrail은 task setting입니다. HER2/Trastuzumab context는 antibody design에서 매우 유리한 setting입니다. 이미 잘 알려진 target과 antibody interface가 있고, CDR-H3 redesign에 가까운 문제입니다. 논문도 mutagenesis data 기반 training과 known binder context를 사용합니다.
따라서 AbDiffuser를 “새 target에 대해 zero-prior full antibody를 만든 모델”로 읽으면 범위를 넘습니다. 더 안전한 표현은 HER2/Trastuzumab-context antibody CDR-H3 redesign입니다. 이 framing에서는 결과가 여전히 눈에 띄입니다. Known antibody context 안에서 family prior와 full-atom diffusion이 high-affinity binder를 낼 수 있음을 보여주기 때문입니다.
이 구분은 IgDesign과도 이어집니다. IgDesign은 native antibody-antigen complex backbone이 주어진 상태에서 CDR sequence를 redesign합니다. AbDiffuser는 antibody-specific diffusion으로 sequence/structure를 joint generation하지만, wet-lab validation은 HER2/Trastuzumab-context CDR-H3 redesign에 가깝습니다. 둘 다 de novo epitope discovery보다 CDR redesign / lead optimization 쪽에 놓는 편이 안전합니다.

Figure와 table로 읽기

Table 1은 in silico distribution modeling입니다. Antibody-specific priors와 sidechain modeling이 baselines 대비 어떤 metric에서 좋아지는지 보여줍니다. 여기서 읽을 것은 model이 antibody-like sequence/structure space를 더 잘 따라간다는 점이지, 곧바로 binding을 예측한다는 뜻은 아닙니다.
Table 2는 efficiency comparison입니다. Parameter count, memory, generation time을 비교하며 AbDiffuser의 실용적 장점을 제시합니다. 다만 이 table은 model throughput과 resource use를 보여주는 것이고, experimental validation layer는 아닙니다.
Figure 2는 HER2 in vitro validation입니다. Expression, binding affinity, raw vs filtered hit rate가 들어갑니다. AbDiffuser 논문에서 가장 중요한 wet-lab evidence가 여기에 있습니다.
Figure 3은 HER2/Trastuzumab interface와 generated binder CDR-H3 sequence/KD values를 보여줍니다. 이 figure는 결과를 CDR-H3 redesign context 안에 묶어 읽게 해줍니다.
Appendix N은 antigen-conditioned CDR redesign과 DiffAb/MEAN/RefineGNN comparison context를 제공합니다. AbDiffuser가 earlier antibody CDR generation models와 어떻게 연결되는지 볼 수 있는 부분입니다.

IgDesign, RFdiffusion-Antibody와의 위치

IgDesign, AbDiffuser, RFdiffusion-Antibody는 모두 antibody CDR design과 연결되지만, 서로 다른 질문에 답합니다.
IgDesign은 native-complex antibody inverse folding입니다. 구조가 주어진 상태에서 HCDR3 또는 HCDR123 sequence를 설계하고, 1,437 Fab variants를 SPR로 검증했습니다. 넓은 SPR denominator가 장점입니다.
AbDiffuser는 antibody-specific full-atom diffusion입니다. Sequence와 structure를 함께 생성하고, HER2/Trastuzumab-context CDR-H3 redesign에서 16개 후보를 실험해 strong binder를 얻었습니다. Denominator는 작지만 affinity 결과가 강합니다.
RFdiffusion-Antibody는 epitope-specific antibody/VHH pose와 CDR geometry generation으로 더 바깥쪽 discovery 문제를 겨냥합니다. 초기 hit rate는 낮지만 cryo-EM pose validation이 무게를 줍니다.
이 셋을 한 hit-rate leaderboard에 놓으면 비교가 흐려집니다. IgDesign은 broad SPR CDR sequence redesign, AbDiffuser는 narrow but strong HER2 CDR-H3 full-atom diffusion validation, RFdiffusion-Antibody는 epitope-specific generation과 pose validation입니다.

평가: 작지만 선명한 wet-lab anchor

내가 보기엔 AbDiffuser의 가치는 broad target success가 아니라, antibody-specific full-atom diffusion이 실제 binding antibody로 이어질 수 있음을 작은 wet-lab set에서 선명하게 보여준 데 있습니다. 16/16 expression, overall 37.5% binding, filtered subset 57.1%, best KD 3.17e-10 M는 HER2/Trastuzumab-context에서는 강한 결과입니다.
동시에 이 논문은 scope를 좁혀 읽는 편이 안전합니다. HER2/Trastuzumab CDR-H3 redesign은 known-context problem이고, broad specificity, off-target binding, developability beyond expression, immunogenicity, functional activity, pose structure는 중심 evidence로 제공되지 않습니다. 그래서 therapeutic antibody discovery proof라기보다, antibody-specific prior + full-atom diffusion + small wet-lab validation이 맞물린 early milestone으로 보는 편이 안전합니다.
안전한 결론은 이 정도입니다. AbDiffuser는 de novo antibody discovery를 완성한 논문이 아니라, antibody family prior를 diffusion에 넣었을 때 known HER2 antibody context에서 high-affinity binder redesign까지 갈 수 있음을 보여준 논문입니다. 이 경계를 지키면, AbDiffuser는 IgDesign과 함께 CDR redesign layer를 채우는 중요한 초기 evidence로 읽힙니다.

참고

Martinkus et al., “AbDiffuser: Full-Atom Generation of in vitro Functioning Antibodies”, NeurIPS 2023.