Search

CodeFP, 기능 조건 단백질을 서열·구조 함께 생성

CodeFP는 원하는 GO 기능 조건에서 단백질 서열과 구조 토큰을 함께 생성하는 co-generative protein language model임. 기존의 기능→서열 직접 생성이나 구조-서열 분리 생성이 기능성과 접힘 가능성을 동시에 만족하기 어려웠다는 문제를 겨냥함. 논문은 기능별 local structure motif를 조건 정보로 넣고 auxiliary functional supervision을 더해 기능성과 foldability를 동시에 끌어올리는 설계를 제시함.

요약

모델은 단백질을 amino-acid sequence와 discrete structure token의 결합 표현으로 두고, 두 modality를 interleaved 방식으로 복원하는 discrete diffusion/co-generation 구조를 사용함.
기능 조건은 GO molecular function term으로 주어지며, 단순 one-hot이나 텍스트 임베딩 대신 해당 기능과 연결된 local backbone motif 표현을 retrieval해 cross-attention 조건으로 주입함.
Local structure motif는 InterProScan 기반 domain term과 DPLM-2 encoder/tokenizer를 활용해 구성되며, 기능의 계층성과 구조적 구현을 함께 반영하려는 설계임.
저자들은 structure discretization의 one-to-many ambiguity를 줄이기 위해 생성된 local structural motif hidden state에 functional prediction head를 붙여 auxiliary supervision을 적용함.
초록 기준으로 CodeFP는 가장 강한 baseline 대비 functional consistency 평균 6.1%, foldability 평균 3.2% 개선을 보였다고 보고함.
본문에서는 GO-conditioned protein design에서 F1-Macro 7.6% 향상, pLDDT >70 기준 foldability success rate 5.2% 향상, OOD 기능 조합에서 F1-Macro 9.1% 향상을 제시함.
단백질 기능 설계 관점에서는 자연 서열 prior에 기대는 sequence-only 생성과 backbone-first pipeline 사이에서, 기능 조건·구조 조건·서열 제약을 한 생성 루프에 묶는 방향의 사례임.
결과는 주로 classifier와 구조 예측 지표 기반 평가이므로 실제 효소 활성·결합 특이성 같은 wet-lab 기능 검증과는 구분해 해석 필요.

원문