ICML 2026 논문으로 등록된 arXiv preprint가 Proteo-R1을 제안함. 핵심은 단백질 설계를 바로 좌표 샘플링으로 밀어 넣지 않고, MLLM이 먼저 결합과 특이성에 중요한 residue-level anchor를 고른 뒤 diffusion 생성 모델이 그 제약을 따라 CDR sequence·structure를 co-design하게 하는 구조임. LLM을 텍스트 조건자가 아니라 분자 설계 전략가로 쓰는 방식을 명시적으로 실험한 사례임.
요약
•
기존 de novo protein design 모델은 연속적인 diffusion/flow matching 과정 안에서 좌표와 서열을 직접 생성해, 어떤 잔기가 기능적으로 중요한지 해석하거나 수정하기 어렵다는 문제의식에서 출발함.
•
Proteo-R1은 molecular understanding expert와 geometric generation expert를 분리한 dual-expert 구조임. 전자는 sequence, structure, text context를 읽고 key functional residues를 고르며, 후자는 AF3-style diffusion 기반으로 조건부 생성 수행함.
•
이 논문에서 다루는 주된 태스크는 antibody CDR co-design임. 항원과 antibody framework, docking pose는 고정하고 CDR 서열과 구조를 설계 변수로 둠.
•
understanding expert는 ESM-2 기반 sequence feature와 CDR-masked refolding에서 얻은 구조 feature를 결합해 residue-level representation을 만들고, key CDR position과 선호 amino-acid identity를 예측함.
•
예측된 anchor residue는 symbolic sequence constraint와 representation-level embedding injection으로 생성 모델에 전달되어, diffusion trajectory 중 해당 결합 anchor가 유지되도록 설계됨.
•
저자들은 3단계 학습 과정을 제시함. PDB 기반 multimodal alignment, spatial meta-task를 통한 structural reasoning mid-training, SAbDab antibody-antigen complex 기반 joint reasoning-guided design 순서임.
•
실험 결과는 저자 보고 기준으로 순수 생성 baseline 대비 structural realism, binding rationality, controllability가 개선됨. 다만 arXiv preprint 단계이며 wet-lab validation이 본문 핵심 증거는 아니므로 실제 결합 성능 판단에는 추가 검증 필요함.
•
AI-bio 관점에서는 protein design agent가 단순 프롬프트-조건 생성에서 벗어나, 사람이 지정하던 hotspot·salt bridge·hydrophobic anchor 같은 설계 의사결정을 명시적 중간 산물로 남기는 방향을 보여줌.
메모
Preprint 기반 요약임. 저자들이 코드·데이터·데모 공개를 명시했지만, 실제 치료용 binder 성능은 별도 실험 검증과 재현 평가가 필요함.