Search

MP2D, 단백질 서열 설계의 다목적 최적화를 MCTS-확산으로 결합

MP2D는 조건부 discrete diffusion과 constrained Monte Carlo Tree Search를 결합해 단백질 서열의 여러 목적 함수를 동시에 최적화하는 프레임워크임. 항균 펩타이드와 protein binder 설계처럼 활성, 안정성, 독성, 특이성이 서로 충돌하는 상황에서 Pareto 기반 보상으로 denoising 경로를 탐색하는 접근을 제시함.

요약

저자들은 diffusion denoising을 순차 의사결정 문제로 보고, 각 단계에서 Pareto reward를 이용해 다양한 denoising trajectory를 MCTS로 탐색함.
global iterative refinement는 생성된 후보를 반복적으로 remasking·re-optimization해 단일 생성 결과에 고정되지 않도록 설계됨.
dynamic Pareto constraint는 비지배 후보 집합이 과도하게 커지는 것을 막고, 여러 목적 함수 간 균형이 무너지는 property collapse를 줄이는 역할임.
실험은 antimicrobial peptide와 protein binder 최적화 두 과제에서 수행됐고, 각 과제는 4~5개의 상충 속성을 동시에 다루는 설정임.
조건부 diffusion backbone인 CMDLM은 UniProt peptide 260만 개, AMP 19.5만 개, protein binder 1.55만 개 데이터로 평가됐으며 ProteinGAN, ProtGPT2, EvoDiff 등과 비교됨.
논문은 MP2D가 기존 multi-objective baseline보다 여러 목적에서 균형 잡힌 개선을 보였다고 보고하지만, 공개 초록·HTML 기준 wet-lab 검증보다는 계산 benchmark 성격이 강함.
단백질 설계 관점에서는 새 모델을 매번 재학습하지 않고 기존 생성 모델 위에 탐색·제약 계층을 얹어 다목적 최적화를 수행한다는 점이 실무적으로 유용함.

원문