CodeFP는 원하는 GO 기능 조건에서 단백질 서열과 구조 토큰을 함께 생성하는 co-generative protein language model임. 기존의 기능→서열 직접 생성이나 구조-서열 분리 생성이 기능성과 접힘 가능성을 동시에 만족하기 어려웠다는 문제를 겨냥함. 논문은 기능별 local structure motif를 조건 정보로 넣고 auxiliary functional supervision을 더해 기능성과 foldability를 동시에 끌어올리는 설계를 제시함.
요약
•
모델은 단백질을 amino-acid sequence와 discrete structure token의 결합 표현으로 두고, 두 modality를 interleaved 방식으로 복원하는 discrete diffusion/co-generation 구조를 사용함.
•
기능 조건은 GO molecular function term으로 주어지며, 단순 one-hot이나 텍스트 임베딩 대신 해당 기능과 연결된 local backbone motif 표현을 retrieval해 cross-attention 조건으로 주입함.
•
Local structure motif는 InterProScan 기반 domain term과 DPLM-2 encoder/tokenizer를 활용해 구성되며, 기능의 계층성과 구조적 구현을 함께 반영하려는 설계임.
•
저자들은 structure discretization의 one-to-many ambiguity를 줄이기 위해 생성된 local structural motif hidden state에 functional prediction head를 붙여 auxiliary supervision을 적용함.
•
초록 기준으로 CodeFP는 가장 강한 baseline 대비 functional consistency 평균 6.1%, foldability 평균 3.2% 개선을 보였다고 보고함.
•
본문에서는 GO-conditioned protein design에서 F1-Macro 7.6% 향상, pLDDT >70 기준 foldability success rate 5.2% 향상, OOD 기능 조합에서 F1-Macro 9.1% 향상을 제시함.
•
단백질 기능 설계 관점에서는 자연 서열 prior에 기대는 sequence-only 생성과 backbone-first pipeline 사이에서, 기능 조건·구조 조건·서열 제약을 한 생성 루프에 묶는 방향의 사례임.
•
결과는 주로 classifier와 구조 예측 지표 기반 평가이므로 실제 효소 활성·결합 특이성 같은 wet-lab 기능 검증과는 구분해 해석 필요.