A-CODE, 원자 단위 단백질 공동 설계 모델

A-CODE는 단백질의 원자 종류와 3D 좌표를 하나의 멀티모달 diffusion 과정에서 함께 복원하는 원자 단위 공동 설계 모델임. 기존의 구조 생성 후 역접힘으로 서열을 붙이는 2단계 방식과 달리, 잔기 정체성을 원자 이름 예측에서 유도해 서열·구조 결합을 한 단계에서 다룸. 저자들은 비조건부 단백질 생성, binder 설계, non-canonical amino acid(ncAA) 모델링에서 강한 in silico 성능을 보고함.

요약

•

A-CODE는 atom type에는 mask diffusion, 원자 좌표에는 연속 diffusion을 적용해 각 샘플링 단계에서 이산 화학 정보와 연속 기하 정보를 동시에 denoise함.

•

주요 비교 대상은 PXDesign, RFDiffusion-3, BoltzGen, La-Proteina, PLAID, MultiFlow, Protpardelle 등 구조·서열 공동 설계 계열 모델이며, 논문은 A-CODE를 완전한 one-stage all-atom co-design으로 위치시킴.

•

잔기 라벨을 직접 예측하지 않고 side-chain atom name 집합에서 잔기 정체성을 추론하므로, residue-level hard constraint를 줄이고 atom-centric 표현을 유지함.

•

저자들에 따르면 비조건부 단백질 생성에서 두 번째로 강한 La-Proteina 대비 designability와 co-designability가 6~9% 높고, 추론 시간은 2.5~12배 빠름.

•

Binder 설계에서는 기존 2단계 모델과 경쟁하거나 일부에서 더 나은 결과를 냈고, hard task에서 기존 one-stage co-design 모델 대비 성공률 10배 개선을 보고함.

•

Side-chain denoising lag, 보수적 discrete remasking 같은 샘플링 전략을 사용해 초기에 side-chain conformation을 너무 빨리 고정하면서 생기는 steric clash 문제를 줄이려 함.

•

ncAA를 별도 리간드처럼 우회하지 않고 원자 타입 예측 문제로 다룰 수 있어, 향후 비정규 아미노산·복합 생체분자 설계 모델로 확장될 여지가 있음.

•

결과는 계산 평가 중심의 preprint이므로 실제 결합·기능 검증은 별도 필요하지만, protein/binder generation에서 all-atom one-stage 모델이 2단계 pipeline의 대안이 될 수 있음을 제시함.

원문

https://arxiv.org/abs/2605.03360