항체 서열 생성을 위한 germline-absorbing discrete diffusion

UW와 AWS Life Sciences 연구진이 항체 서열 설계에서 germline 편향을 줄이는 germline-absorbing discrete diffusion 모델을 제시함. 마스크 토큰이 아니라 생식계열 서열을 확산 과정의 흡수 상태로 두어, 항체가 실제로 겪는 체세포 변이 경로를 더 직접적으로 학습하려는 접근임. 저자들은 비-germline 잔기 예측 정확도와 classifier-guided 조건부 생성에서 기존 pLM 샘플링 전략보다 나은 결과를 보고함.

요약

•

문제의식은 기존 항체 pLM이 germline 서열을 과도하게 기억하고, 결합력·소수성·개발가능성 같은 외부 classifier 조건을 유연하게 반영하기 어렵다는 점에 있음.

•

모델은 score entropy discrete diffusion 계열을 항체 서열에 맞춰 fine-tuning하고, forward noise의 종착점을 마스크가 아니라 해당 항체의 germline 서열로 설정함.

•

이 설계는 V(D)J 재조합 통계와 germline 자체 빈도보다, 관측 항체로 이동하는 somatic variation 패턴을 더 많이 학습하도록 유도함.

•

논문은 germline diffusion이 비-germline 잔기 예측 정확도를 26%에서 46%로 높였다고 보고하며, 이는 실제 생물학적 변이성으로 정해지는 이론적 상한에 가까운 수준이라고 해석함.

•

조건부 생성에서는 임의의 off-the-shelf classifier를 붙여 소수성 개선이나 예측 결합력 개선 방향으로 샘플링할 수 있음을 보임.

•

HGFR 항원에 대한 임상 항체 Emibetuzumab 최적화 실험에서 Boltz-2 예측 antibody-antigen complex score가 평균 48% 높아졌고, 비교군 중 최고 예측 binder도 생성했다고 보고함.

•

항체 설계에서 ‘자연 항체 분포 모사’와 ‘목표 물성 조건부 최적화’를 같은 diffusion 프레임 안에 넣으려는 시도로, 실제 습식 검증 전까지는 예측 점수 기반 결과라는 점을 함께 봐야 함.

원문

https://arxiv.org/abs/2605.06720