Proteina-Atomistica 논문 리뷰

Proteína-Atomística 논문 리뷰

들어가며

AFDB를 그대로 쓰면 생기는 mismatch

CDDB: structure diversity와 recoverable sequence의 교집합

Proteína-Atomística: explicit multimodal flow

Sidechain initialization이 병목이 되는 이유

CDDB가 성능을 바꾸는 방식

Fully atomistic generation benchmark

Co-designability는 무엇을 말하고 무엇을 말하지 않는가

Sidechain geometry와 MolProbity

La-Proteína와의 관계

Figure별로 보기

읽을 때의 균형점

평가: data consistency가 all-atom generation을 좌우한다

참고

Proteína-Atomística 논문 리뷰

들어가며

All-atom protein generator를 만들 때 가장 먼저 떠올리는 병목은 model architecture입니다. Sequence는 discrete이고, backbone과 sidechain coordinates는 continuous이며, residue마다 atom 수가 다릅니다. 그래서 어떤 representation을 쓰고, 어떤 diffusion/flow objective를 쓰고, sidechain을 어떻게 다룰지가 자연스럽게 중심 질문이 됩니다.

Proteína-Atomística는 조금 다른 지점에서 시작합니다. 이 논문은 “좋은 all-atom generator를 만들려면 좋은 structure를 많이 보면 되는가?”라고 묻고, 답을 낮춰 잡습니다. Structure만 많은 것으로는 부족하고, sequence와 structure가 서로 recoverable한 training pair가 필요하다는 주장입니다.

논문의 제목은 “Consistent Synthetic Sequences Unlock Structural Diversity in Fully Atomistic De Novo Protein Design”입니다. NVIDIA Proteína / La-Proteína line의 후속 논문이고, CDDB라는 consistency-distilled synthetic dataset과 explicit multimodal flow model인 Proteína-Atomística를 함께 제시합니다. 이 글에서는 이 논문을 all-atom monomer generation과 data-quality argument관점에서 살펴보겠습니다. 실험 검증 논문은 아니지만, all-atom generator에서 sequence-structure consistency가 왜 병목이 되는지를 잘 보여줍니다.

AFDB를 그대로 쓰면 생기는 mismatch

AFDB는 거대한 synthetic structure source입니다. 하지만 all-atom sequence-structure co-generation에는 바로 쓰기 애매할 수 있습니다. AFDB structure는 AlphaFold 계열 model이 예측한 구조이고, 함께 붙어 있는 natural sequence가 다른 folding model에서도 같은 structure로 recover되는지 보장되지 않습니다.

논문은 Foldseek-clustered AFDB representative dataset을 ESMFold로 다시 접어 봅니다. 그 결과 Cα 기준 designable sample은 26.6%, all-atom 기준 designable sample은 19.1%뿐이라고 보고합니다. ColabFold+MSA를 써도 random subset에서 최고 약 65% 수준입니다.

이 숫자는 all-atom generator 관점에서 중요합니다. Backbone-only generator라면 backbone을 만들고 나중에 ProteinMPNN으로 sequence를 붙이면 됩니다. 하지만 all-atom generator는 sequence, residue type, sidechain geometry를 함께 배웁니다. Training pair 자체가 “이 sequence가 이 structure로 돌아온다”는 proxy를 만족하지 않으면, model은 불일치한 sequence-structure distribution을 배우게 됩니다.

CDDB: structure diversity와 recoverable sequence의 교집합

이 논문의 data-side contribution은 Consistency Distilled Synthetic Protein Database, 즉 CDDB입니다. 저자들은 AFDB-derived structure를 그대로 쓰지 않고, 각 structure에 대해 ProteinMPNN sequence 4개를 생성합니다. 그 sequence들을 ESMFold로 다시 접고, 원래 AFDB structure와 Cα RMSD가 가장 낮은 sequence-structure pair를 고릅니다. 이후 ESMFold average pLDDT ≥ 0.8 기준으로 filtering합니다.

결과적으로 약 455,473개 high-quality synthetic sequence-structure pair가 만들어집니다. 이 dataset은 AFDB의 structural diversity와 ProteinMPNN/ESMFold가 서로 동의하는 recoverable sequence의 교집합입니다.

여기서는 평가 기준의 성격만 구분하면 됩니다. CDDB는 ProteinMPNN inverse folding과 ESMFold forward folding이 서로 동의하는 consistency-distilled dataset입니다. 실험 validated dataset은 아니지만, all-atom generator training에는 중요한 차이를 만듭니다. 이 논문에서 가장 오래 남을 contribution은 model 자체보다 CDDB와 sequence-structure consistency framing일 수 있습니다.

Proteína-Atomística: explicit multimodal flow

Model-side contribution은 Proteína-Atomística입니다. La-Proteína는 sequence와 non-Cα atomistic detail을 per-residue latent variable로 압축합니다. Proteína-Atomística는 latent 없이 explicit observable modalities를 직접 생성합니다.

세 modality가 있습니다. Cα coordinates, amino acid sequence, non-Cα atom coordinates입니다. Cα와 non-Cα coordinates는 continuous flow matching으로 denoise하고, amino acid sequence는 masked-token discrete flow / discrete diffusion style로 unmask합니다. 즉 coordinate와 sequence를 서로 다른 corruption/denoising process로 다루는 multimodal flow model입니다.

Sidechain atom 수는 residue type마다 다릅니다. 그래서 Proteína-Atomística는 Atom37 representation과 atom sequence expansion을 사용합니다. Masked residue의 non-Cα atom을 그대로 노출하면 residue identity가 leak될 수 있으므로, training과 generation에서 masked residue의 non-Cα atoms는 제거합니다. Residue가 unmask되는 순간에는 model이 sidechain initialization을 예측하고, 이후 denoising으로 full-atom geometry를 refinement합니다.

Sidechain initialization이 병목이 되는 이유

Proteína-Atomística에서 흥미로운 ablation은 sidechain initialization입니다. Residue가 mask 상태에서 unmask될 때, sidechain atom을 어디에서 시작할지가 성능을 크게 바꿉니다.

Table 11 기준으로 Gaussian initialization은 56.8% CODES-AA, zero initialization은 60.8% CODES-AA입니다. Learned clean data objective는 38.2%로 더 나쁩니다. Default인 learned vector field objective는 81.4% CODES-AA와 DIV-AA 262를 보입니다.

이 결과는 explicit sequence + sidechain co-generation의 어려움을 잘 보여줍니다. Latent representation을 쓰면 residue identity와 sidechain detail을 하나의 continuous latent로 묶어 처리할 수 있지만, explicit model은 residue type이 드러나는 순간 sidechain atom geometry를 새로 배치해야 하는 문제가 생깁니다. 그 초기값이 나쁘면 이후 denoising도 흔들립니다.

CDDB가 성능을 바꾸는 방식

CDDB는 Proteína-Atomística뿐 아니라 La-Proteína에도 영향을 줍니다. 논문은 CDDB를 쓰면 La-Proteína와 Proteína-Atomística가 모두 좋아진다고 보고합니다. Abstract에서는 La-Proteína가 structural diversity +54%, co-designability +27% improvement를 보이고, Proteína-Atomística는 structural diversity +73%, co-designability +5% improvement를 보인다고 요약합니다.

Table 2를 보면 length 50–250에서 Proteína-Atomística `D_AFDB-clstr`는 CODES-AA 76.8%, DIV-AA 154입니다. `D_SYN-ours`, 즉 CDDB를 쓰면 CODES-AA 81.2%, DIV-AA 267로 올라갑니다. La-Proteína도 `D_AFDB-clstr` CODES-AA 81.0%, DIV-AA 213에서 CDDB CODES-AA 92.2%, DIV-AA 283으로 개선됩니다.

Length 100–500 comparison에서도 비슷합니다. Table 10 기준 La-Proteína `D_AFDB-clstr`는 CODES-AA 68.4%, DIV-AA 206이고, CDDB에서는 CODES-AA 86.8%, DIV-AA 318입니다. 이 결과는 architecture-independent data effect로 이해할 수 있습니다. All-atom generator 성능은 model 구조만이 아니라 training pair의 sequence-structure consistency에 크게 좌우됩니다.

Fully atomistic generation benchmark

Table 1 / Table 9는 Proteína-Atomística를 prior all-atom baselines와 비교합니다. ProteinGenerator는 CODES-AA 10.0%, Protpardelle은 13.6%, PLAID는 22.3%, Pallatom은 51.6%입니다. Proteína-Atomística codes는 87.8%, opt는 83.1%, div는 71.6% CODES-AA를 보입니다.

Diversity도 함께 봐야 합니다. Proteína-Atomística opt는 DIV-AA 321, div는 333입니다. Triangle update를 추가한 Proteína-Atomística-tri opt는 CODES-AA 87.6%, DIV-AA 396으로 Pareto frontier를 더 개선합니다.

다만 CDDB로 재학습한 La-Proteína가 여전히 강합니다. La-Proteína codes는 CODES-AA 90.6%, DIV-AA 460이고, div는 CODES-AA 87.9%, DIV-AA 475입니다. 즉 explicit Proteína-Atomística는 prior baselines를 크게 넘지만, partially latent La-Proteína가 더 좋은 frontier를 보입니다. 논문도 latent approach가 explicit discrete/continuous modality alignment를 우회하기 때문에 더 잘 배우는 면이 있다고 해석합니다.

Co-designability는 무엇을 말하고 무엇을 말하지 않는가

이 논문에서 자주 나오는 metric은 CODES-AA입니다. Model이 직접 생성한 sequence가 generated all-atom structure와 self-consistent하게 refold되는지 보는 all-atom co-designability metric입니다. DES-M1/M8은 generated backbone에 ProteinMPNN sequence를 붙이고 ESMFold로 refold하는 designability proxy입니다.

이 metric들은 중요합니다. All-atom generator가 sequence와 structure를 함께 만들었다고 주장하려면, 그 sequence가 다시 같은 structure로 돌아오는지 봐야 합니다. 특히 all-atom sidechain geometry까지 포함한 scRMSD 기준은 backbone-only designability보다 더 까다롭습니다.

Co-designability는 ProteinMPNN/ESMFold/self-consistency pipeline이 sequence와 structure의 정합성을 높게 본다는 뜻입니다. 실제 expression, solubility, stability, function과는 구분해야 하지만, Proteína-Atomística의 높은 CODES-AA는 all-atom designability signal로는 강하게 읽을 수 있습니다.

Sidechain geometry와 MolProbity

논문은 MolProbity, clash score, bond length outlier, angle outlier로 sidechain physical correctness도 평가합니다. Length-averaged MolProbity score는 Proteína-Atomística 2.097, P(all-atom) 4.307, ProteinGenerator 2.940으로 제시됩니다. 낮을수록 좋습니다.

이 section은 all-atom generator에서 중요합니다. Backbone이 refold된다고 해도 sidechain clash나 bond geometry가 나쁘면 atomistic model의 의미가 줄어듭니다. Proteína-Atomística는 co-designability뿐 아니라 stereochemical plausibility도 개선했다고 주장합니다.

그래도 MolProbity는 structural plausibility metric입니다. Solution-state stability, folding pathway, expression, functional site chemistry와는 다른 층위입니다. All-atom geometry가 더 그럴듯하다는 것과 실제 protein이 잘 만들어진다는 것은 구분해서 읽어야 합니다.

La-Proteína와의 관계

Proteína-Atomística는 La-Proteína의 단순 후속 모델이라기보다, La-Proteína와 대비되는 explicit model입니다. La-Proteína는 Cα backbone은 explicit하게 두고 sequence와 sidechain detail을 per-residue latent로 압축합니다. Proteína-Atomística는 sequence와 non-Cα coordinates를 직접 생성합니다.

결과만 보면 La-Proteína가 더 강한 frontier를 보이는 구간이 많습니다. 하지만 Proteína-Atomística는 explicit modality를 다루기 때문에 sequence, backbone, sidechain이 어떻게 서로 맞물리는지 더 직접적으로 분석할 수 있습니다. 특히 sidechain initialization, Atom37 expansion, discrete sequence flow 같은 design choice가 all-atom generation에서 어떤 병목을 만드는지 보여줍니다.

따라서 이 논문은 “La-Proteína를 대체했다”기보다, NVIDIA Proteína line에서 data consistency와 explicit co-generation의 어려움을 정리한 paper라는 관점에서 이해하는 편이 자연스럽습니다.

Figure별로 보기

Figure 2는 AFDB sequence-structure mismatch를 보여주는 핵심 figure입니다. AFDB representative structures가 ESMFold 기준으로 얼마나 recoverable한지 보여주며, 이 논문의 문제의식을 세웁니다.

Table 2와 Table 10은 CDDB effect를 보여줍니다. 같은 또는 유사한 architecture에서 training data를 바꿨을 때 CODES-AA와 DIV-AA가 어떻게 움직이는지 보는 것이 좋습니다.

Table 1과 Table 9는 all-atom generation benchmark입니다. 여기서는 Proteína-Atomística가 prior baselines를 넘지만, CDDB-trained La-Proteína가 더 강한 Pareto frontier를 보인다는 점을 같이 봐야 합니다.

Table 11은 sidechain initialization ablation입니다. Explicit model에서 residue unmasking과 sidechain coordinate initialization이 성능을 크게 좌우한다는 점을 보여줍니다.

Figure 11 / Appendix G.2는 MolProbity와 sidechain geometry입니다. All-atom model이 단순히 coordinates를 채우는 것을 넘어 stereochemical plausibility를 얼마나 유지하는지 보는 section입니다.

읽을 때의 균형점

첫째, CDDB는 ProteinMPNN/ESMFold agreement를 기준으로 만든 consistency-distilled dataset입니다. 둘째, CODES-AA와 DES-M1/M8은 sequence-structure self-consistency를 보는 computational metric입니다. 이 두 점을 구분하면, 논문이 실험 성공률이 아니라 all-atom generation training substrate를 다루고 있다는 위치가 명확해집니다.

셋째, AFDB mismatch는 prediction-model disagreement입니다. AFDB structure가 실험적으로 틀렸다는 뜻이 아니라, all-atom co-generation training pair로 쓸 때 sequence recoverability가 낮을 수 있다는 뜻입니다.

넷째, Proteína-Atomística는 explicit all-atom co-generation을 보여주지만, CDDB-trained La-Proteína가 더 좋은 frontier를 보이는 부분이 많습니다. 이 논문을 explicit model의 승리로만 읽으면 흐름을 놓칩니다.

다섯째, conditional motif scaffolding이나 binder design은 future direction입니다. 이 논문의 중심 evidence는 unconditional de novo all-atom monomer generation입니다.

평가: data consistency가 all-atom generation을 좌우한다

Proteína-Atomística의 가장 중요한 메시지는 model architecture보다 data argument에 있습니다. All-atom generator는 structure만 많이 보면 되는 것이 아니라, sequence와 structure가 서로 돌아오는 pair를 배워야 합니다. AFDB 같은 거대한 structure source도 그대로 쓰면 sequence-structure mismatch가 생길 수 있고, ProteinMPNN/ESMFold agreement로 distill한 CDDB가 이 문제를 줄입니다.

Model 자체도 흥미롭습니다. Sequence discrete flow, Cα/non-Cα continuous flow, Atom37 expansion, sidechain initialization을 한 framework 안에서 다룹니다. Explicit observable-space generation의 어려움과 장점을 모두 보여줍니다.

이 논문은 binder design 성공 사례라기보다 all-atom monomer generation을 위한 data+architecture milestone입니다. Proteína-Atomística를 가장 자연스럽게 읽는 문장은 이렇습니다. Sequence-structure aligned synthetic data가 fully atomistic protein generation의 성능과 다양성을 크게 바꿀 수 있음을 보여준 NVIDIA의 in silico all-atom generation paper다.

참고

- Paper: “Consistent Synthetic Sequences Unlock Structural Diversity in Fully Atomistic De Novo Protein Design” - Authors: Danny Reidenbach, Zhonglin Cao, Zuobai Zhang, Kieran Didi, Tomas Geffner, Guoqing Zhou, Jian Tang, Christian Dallago, Arash Vahdat, Emine Kucukbenli, Karsten Kreis - DOI: https://doi.org/10.48550/arXiv.2512.01976 - Dataset: NVIDIA NGC `proteina-atomistica` / Consistency Distilled Synthetic Protein Database - Raw source: `raw/papers/Proteina-Atomistica/`