Search

항체 서열 생성을 위한 germline-absorbing discrete diffusion

UW와 AWS Life Sciences 연구진이 항체 서열 설계에서 germline 편향을 줄이는 germline-absorbing discrete diffusion 모델을 제시함. 마스크 토큰이 아니라 생식계열 서열을 확산 과정의 흡수 상태로 두어, 항체가 실제로 겪는 체세포 변이 경로를 더 직접적으로 학습하려는 접근임. 저자들은 비-germline 잔기 예측 정확도와 classifier-guided 조건부 생성에서 기존 pLM 샘플링 전략보다 나은 결과를 보고함.

요약

문제의식은 기존 항체 pLM이 germline 서열을 과도하게 기억하고, 결합력·소수성·개발가능성 같은 외부 classifier 조건을 유연하게 반영하기 어렵다는 점에 있음.
모델은 score entropy discrete diffusion 계열을 항체 서열에 맞춰 fine-tuning하고, forward noise의 종착점을 마스크가 아니라 해당 항체의 germline 서열로 설정함.
이 설계는 V(D)J 재조합 통계와 germline 자체 빈도보다, 관측 항체로 이동하는 somatic variation 패턴을 더 많이 학습하도록 유도함.
논문은 germline diffusion이 비-germline 잔기 예측 정확도를 26%에서 46%로 높였다고 보고하며, 이는 실제 생물학적 변이성으로 정해지는 이론적 상한에 가까운 수준이라고 해석함.
조건부 생성에서는 임의의 off-the-shelf classifier를 붙여 소수성 개선이나 예측 결합력 개선 방향으로 샘플링할 수 있음을 보임.
HGFR 항원에 대한 임상 항체 Emibetuzumab 최적화 실험에서 Boltz-2 예측 antibody-antigen complex score가 평균 48% 높아졌고, 비교군 중 최고 예측 binder도 생성했다고 보고함.
항체 설계에서 ‘자연 항체 분포 모사’와 ‘목표 물성 조건부 최적화’를 같은 diffusion 프레임 안에 넣으려는 시도로, 실제 습식 검증 전까지는 예측 점수 기반 결과라는 점을 함께 봐야 함.

원문