La-Proteina 논문 리뷰

Protein generator는 오랫동안 backbone을 먼저 만들고, sequence와 sidechain은 나중에 붙이는 방식으로 발전해 왔습니다. RFdiffusion이나 여러 backbone diffusion model은 global fold를 잘 만들고, ProteinMPNN 같은 inverse folding model이 그 backbone에 맞는 sequence를 붙입니다. 이 구조는 실용적입니다. 하지만 functional site, metal coordination, enzyme active site, binder interface처럼 sidechain chemistry가 중요한 문제에서는 한계가 생깁니다.

La-Proteína는 이 한계를 all-atom generation으로 밀고 들어간 NVIDIA의 2025년 arXiv preprint입니다. 논문 제목은 “La-Proteina: Atomistic Protein Generation via Partially Latent Flow Matching”입니다. 핵심은 fully atomistic protein을 만들되, 모든 것을 explicit atom coordinate로 직접 생성하지 않는다는 점입니다.

La-Proteína는 Cα backbone은 explicit하게 두고, sequence와 non-Cα heavy atoms는 per-residue latent variable로 압축합니다. 이 타협 덕분에 backbone generator의 scalability를 유지하면서 sequence와 sidechain detail을 generation 단계 안으로 가져옵니다. 이 글에서는 La-Proteína를 “backbone-only generation에서 atomistic generation으로 넘어가는 중간 형태”관점에서 살펴보겠습니다.

La-Proteína를 Proteína-Atomística보다 먼저 읽는 이유도 여기에 있습니다. Proteína-Atomística는 “sequence와 structure가 서로 recoverable한 data가 중요하다”는 후속 data-centric paper에 가깝습니다. La-Proteína는 그 전에, all-atom generator 자체를 어떻게 scalable하게 만들 것인가를 다룹니다. 즉 하나는 representation/architecture 쪽의 답이고, 다른 하나는 training data consistency 쪽의 답입니다.

Backbone-first pipeline에서 빠지는 것

Backbone-first protein design pipeline은 단순하고 강력합니다. 먼저 foldable-looking backbone을 만들고, ProteinMPNN으로 sequence를 디자인하고, ESMFold나 AlphaFold 계열 model로 다시 접히는지 봅니다. 하지만 이 방식에서는 sidechain interaction이 뒤늦게 들어옵니다.

단순 monomer fold generation에서는 큰 문제가 아닐 수 있습니다. Protein의 global shape가 먼저 잡히고, sidechain은 그 shape에 맞춰 packing되면 됩니다. 그러나 catalytic motif나 ligand-binding pocket, antibody paratope, protein-protein interface에서는 sidechain atom의 위치가 functional geometry 자체입니다. Backbone만 맞고 sidechain network가 틀리면 원하는 기능으로 이어지기 어렵습니다.

La-Proteína는 이 문제를 model representation에서 다룹니다. Sequence와 sidechain을 post-processing으로 붙이는 대신, generation 과정에서 backbone과 함께 생성합니다. 다만 sequence discreteness와 residue별 sidechain atom 수 문제를 직접 explicit flow로 풀기보다, latent representation으로 우회합니다.

이 우회가 단순한 편법은 아닙니다. Protein에서 sidechain은 residue type과 강하게 묶여 있습니다. Leucine과 isoleucine처럼 atom 수와 branching이 비슷한 residue도 있고, glycine처럼 sidechain이 거의 없는 residue도 있습니다. Discrete residue identity와 continuous sidechain geometry를 동시에 직접 diffusion하려면 representation이 지저분해집니다. La-Proteína는 이 문제를 per-residue latent로 압축해, flow model이 `(Cα coordinates, latent code)`라는 훨씬 단순한 object를 생성하게 합니다.

Partially latent representation

La-Proteína의 핵심은 partially latent representation입니다. Cα coordinates는 explicit하게 모델링합니다. 반면 Cα를 제외한 heavy atom coordinates와 amino acid sequence는 residue마다 8-dimensional latent variable `z ∈ R^{L×8}`로 인코딩합니다.

먼저 VAE encoder/decoder를 학습합니다. Encoder는 `(x_Cα, x_not-Cα, sequence)`를 `(x_Cα, z)`로 압축하고, decoder는 `(x_Cα, z)`에서 sequence와 full-atom structure를 복원합니다. 이후 flow-matching denoiser가 `(x_Cα, z)`의 joint distribution을 생성합니다. Sampling이 끝나면 decoder가 Cα backbone과 latent variables를 sequence plus full heavy-atom structure로 바꿉니다.

이 설계의 장점은 분명합니다. Sequence는 discrete이고 sidechain atom 수는 residue마다 다르지만, flow model은 그 복잡한 object를 직접 다루지 않아도 됩니다. Per-residue latent가 sequence와 sidechain detail을 담고, Cα backbone은 explicit coordinate로 남아 global structure generation을 담당합니다.

반대로 이 설계에는 trade-off도 있습니다. Latent code가 sequence와 sidechain을 잘 복원한다고 해서, model이 그 내부에서 어떤 chemical rule을 배웠는지 직접 읽기는 어렵습니다. Explicit model인 Proteína-Atomística는 sequence token과 non-Cα atom coordinates를 직접 다루기 때문에 해석할 지점이 많지만, alignment 문제가 더 어렵습니다. La-Proteína는 scalability와 performance를 얻는 대신, sequence/sidechain generation의 일부를 decoder에 맡기는 구조입니다.

Cα backbone은 왜 숨기지 않는가

La-Proteína에서 Cα backbone을 explicit하게 둔 것은 단순한 구현 선택이 아닙니다. Appendix ablation에서 Cα까지 latent로 넣는 fully latent variant는 성능이 크게 떨어집니다. Table 5 기준, transformer encoder/decoder와 KL weight `10^-4`를 쓰는 partially latent variant는 83.8% all-atom co-designability를 보이지만, Cα까지 latent로 넣은 variant는 21.2%에 그칩니다.

이 결과는 backbone geometry가 protein generation에서 여전히 중심이라는 점을 보여줍니다. Sequence와 sidechain detail은 latent로 압축할 수 있지만, global fold를 이루는 Cα trace는 explicit coordinate로 다루는 편이 훨씬 안정적입니다. La-Proteína의 “partial”이라는 단어가 중요한 이유입니다.

이 구조는 Proteína line과도 연결됩니다. Proteína는 scaled Cα backbone generator입니다. La-Proteína는 그 explicit Cα recipe를 유지하면서 sequence와 sidechain을 latent로 붙입니다. 이후 Proteína-Atomística는 이 latent 우회 대신 explicit sequence/backbone/sidechain co-generation으로 다시 들어가고, CDDB라는 sequence-structure consistency dataset을 핵심으로 삼습니다.

VAE가 정말 atomistic detail을 담는가

VAE reconstruction 성능은 강하게 제시됩니다. Held-out test set에서 average all-atom RMSD 약 0.12 Å, sequence recovery 1.0으로 보고됩니다. 즉 `(x_Cα, z)`에서 원래 sequence와 sidechain geometry를 거의 완벽하게 복원할 수 있다는 뜻입니다.

Latent space 분석도 흥미롭습니다. t-SNE에서는 residue type별 cluster가 보이고, GLN/GLU, ASN/ASP, aromatic residues처럼 화학적으로 비슷한 residue들이 가까이 놓입니다. Perturbation analysis에서는 single-residue latent perturbation이 주로 해당 residue에 국소적으로 영향을 준다고 보고합니다.

이 결과는 per-residue latent가 단순한 black box noise가 아니라 residue identity와 sidechain geometry를 담는 local code처럼 작동한다는 evidence입니다. 다만 이것은 reconstruction과 representation analysis입니다. Latent가 실제 functional interaction network를 얼마나 잘 표현하는지는 motif scaffolding과 future binder/enzyme tasks에서 따로 봐야 합니다.

Perturbation locality도 독해 포인트입니다. Single-residue latent perturbation이 주로 해당 residue 주변에 국소적으로 영향을 준다는 것은, latent가 global fold 전체를 불안정하게 흔드는 code라기보다 local sidechain/sequence detail을 조절하는 code로 작동한다는 뜻입니다. 이 성질은 motif scaffolding에는 유리할 수 있습니다. 특정 functional atom 주변을 바꾸되 전체 scaffold를 유지하는 방향으로 sampling할 여지가 있기 때문입니다. 다만 interface처럼 여러 residue가 협동적으로 작동하는 문제에서는 local latent만으로 충분한지 아직 알기 어렵습니다.

Sampling schedule: backbone과 latent detail의 속도 차이

La-Proteína는 flow model sampling에서 Cα coordinates와 latent variable `z`에 서로 다른 schedule을 적용합니다. 논문은 Cα coordinates를 latent variables보다 effectively faster rate로 생성하는 schedule이 성능에 중요하다고 보고합니다.

이 해석은 직관적입니다. Global scaffold를 먼저 안정적으로 잡고, sequence와 sidechain latent detail이 그 scaffold를 따라오게 하는 편이 더 잘 작동합니다. 반대로 backbone과 sidechain detail을 같은 속도로 동시에 밀면, global fold가 안정되기 전 local chemistry가 흔들릴 수 있습니다.

이 부분은 EDM diffusion의 schedule/preconditioning lesson과도 연결됩니다. Generative model에서는 architecture뿐 아니라 trajectory parameterization과 sampling schedule이 성능의 일부입니다. La-Proteína는 modality마다 다른 sampling dynamics가 필요하다는 점을 보여줍니다.

Sampling schedule을 논문 흐름에서 가볍게 넘기기 쉬운 부분이지만, 중요한 지점입니다. La-Proteína의 latent variable은 residue identity와 sidechain detail을 담고, Cα coordinates는 global topology를 담습니다. 두 modality가 같은 속도로 denoise될 필요는 없습니다. 먼저 backbone-level scaffold가 정리되고, 그 위에 sequence/sidechain detail이 맞춰지는 쪽이 protein design 직관과도 잘 맞습니다. 이 점은 later Proteína-Atomística에서 sidechain initialization이 큰 병목으로 드러나는 것과도 연결됩니다.

Unconditional all-atom generation

Table 1은 length 100–500 residues에서 all-atom generation baselines와 비교합니다. P(all-atom)은 36.7% all-atom co-designability, Protpardelle은 8.8%, La-Proteína `(η_x, η_z)=(0.1,0.1)`은 68.4%를 보입니다. La-Proteína tri variant는 75.0%까지 올라갑니다.

Diversity와 designability도 같이 봐야 합니다. La-Proteína non-tri model은 sequence+structure diversity 301 clusters, ProteinMPNN-8 designability 93.8%를 보입니다. Triangle update를 넣은 tri variant는 co-designability를 더 올리지만 diversity와 speed/scalability trade-off가 생깁니다.

Triangle update는 AlphaFold 계열에서 pair representation을 풍부하게 만드는 강한 inductive bias입니다. La-Proteína에서도 tri variant가 co-designability를 올리는 것은 자연스럽습니다. 하지만 all-atom long-chain generation에서는 memory와 throughput이 중요합니다. 논문이 triangle-free model을 main scalable variant로 두는 이유는 단순히 성능이 낮아도 빠르기 때문이 아니라, long protein generation이라는 target task에서는 Pareto frontier 전체를 봐야 하기 때문입니다.

이 결과는 La-Proteína가 prior all-atom baselines보다 훨씬 높은 all-atom co-designability를 보인다는 주장입니다. 하지만 co-designability는 ProteinMPNN/ESMFold/self-consistency 기반 computational proxy입니다. 실제 expression, solubility, folding assay는 아닙니다.

Long protein generation up to 800 residues

Figure 4는 300–800 residue 구간의 long-chain generation을 다룹니다. 논문은 all-atom baselines가 500 residues 이상에서 co-designable sample을 거의 만들지 못하거나 OOM에 걸리는 반면, La-Proteína는 800 residues까지 co-designability와 diversity를 유지한다고 주장합니다.

이 result는 scalability 측면에서 중요합니다. Fully atomistic generation은 atom 수가 늘어나면서 memory와 compute가 빠르게 커집니다. La-Proteína가 sequence/sidechain detail을 per-residue latent로 압축하기 때문에 long-chain sampling에서 장점이 생깁니다.

여기서 Protpardelle이나 P(all-atom) 같은 baseline과의 차이도 생깁니다. Fully atomistic representation을 직접 다루는 model은 residue가 길어질수록 atom-level sequence가 길어지고, attention/memory cost가 커집니다. La-Proteína는 atomistic detail을 decoder 쪽으로 밀어 넣어 denoising stage의 object를 줄입니다. 그래서 800-residue sample을 다룰 수 있다는 주장은 architecture choice와 직접 연결됩니다.

여기서 800-residue co-designable sample은 generated sequence가 generated all-atom structure와 self-consistent하게 refold된다는 뜻입니다. 실제 800-residue protein이 발현되고 안정적으로 접히고 기능한다는 evidence는 아닙니다.

Sidechain geometry와 rotamer distribution

La-Proteína는 MolProbity metrics로 structural validity를 평가합니다. Figure 5에서 MolProbity score, clash score, Ramachandran outlier, bond outlier가 all-atom baselines보다 좋아졌다고 보고합니다. Figure 6에서는 TRP χ1 angle distribution 같은 sidechain rotamer distribution을 분석해 PDB/AFDB reference population을 더 잘 재현한다고 주장합니다.

All-atom generator라면 이 section은 중요합니다. Backbone이 refold되는지뿐 아니라 sidechain clash, bond geometry, rotamer plausibility가 맞아야 atomistic model이라고 부를 수 있습니다. La-Proteína는 co-designability와 sidechain geometry를 함께 본다는 점에서 backbone-only generator와 다릅니다.

특히 rotamer distribution은 단순 aesthetic metric이 아닙니다. Sidechain χ angle distribution이 reference protein distribution과 너무 다르면, 생성된 protein은 backbone self-consistency가 좋아도 local chemistry가 비현실적일 수 있습니다. La-Proteína가 TRP χ1 같은 rotamer distribution을 따로 보는 이유는, all-atom generator의 성능을 scRMSD 하나로 평가하기 어렵기 때문입니다.

그래도 MolProbity와 rotamer distribution은 structural plausibility metric입니다. Solution-state stability, expression, functional site chemistry를 직접 보여주지는 않습니다. Sidechain이 그럴듯하다는 것과 protein이 실제로 잘 작동한다는 것은 다른 evidence layer입니다.

Atomistic motif scaffolding

La-Proteína의 가장 흥미로운 application은 atomistic motif scaffolding입니다. 논문은 26개 motif scaffolding tasks를 사용하고, motif input detail level을 두 가지로 나눕니다. 하나는 motif residue의 complete atomistic structure를 조건으로 주는 all-atom motif scaffolding입니다. 다른 하나는 sidechain final rotatable bond 이후의 functionally critical atoms만 제공하는 tip-atom scaffolding입니다.

각 task는 indexed와 unindexed setup으로 나뉩니다. Indexed는 motif residue sequence index를 알려줍니다. Unindexed는 model이 motif placement까지 찾아야 합니다. Success criteria는 motif sequence 100% recovery, motif Cα RMSD < 1 Å, motif all-atom RMSD < 2 Å, generated protein all-atom co-designability입니다.

결과는 강한 편입니다. Protpardelle indexed baseline은 all-atom/tip-atom 모두 4/26 tasks만 solve합니다. La-Proteína all-atom indexed는 25/26 tasks, all-atom unindexed는 21/26 tasks를 solve합니다. Tip-atom indexed는 25/26, tip-atom unindexed도 25/26 tasks를 solve하고, unique successes는 799로 가장 많습니다.

Tip-atom result가 특히 재미있습니다. Complete motif를 주면 model은 이미 정해진 residue/backbone geometry를 보존하는 쪽에 가깝습니다. Tip-atom scaffolding은 functional atom 일부만 주고, 나머지 residue identity, sidechain rotamer, backbone placement를 model이 찾아야 합니다. 이 setting은 실제 enzyme/binder design에서 더 현실적인 문제에 가깝습니다. 우리는 보통 전체 active-site residue conformation을 아는 것이 아니라, 유지하고 싶은 donor/acceptor atom, metal-coordination atom, catalytic atom의 상대 위치를 아는 경우가 많기 때문입니다.

이 result는 La-Proteína의 핵심 structural proxy입니다. 특히 tip-atom/unindexed setting은 functional atom placement만 주고 backbone과 rotamer placement를 model이 찾는 문제에 가깝습니다. Enzyme active site나 binder interface로 이어질 가능성을 보여줍니다. 다만 catalytic activity, metal binding, ligand binding을 실험한 것은 아닙니다.

Motif scaffolding을 function으로 착각하지 않기

Appendix examples에는 KSI active site, carbonic anhydrase-like metal coordination/hydrophobic channel, retro-aldolase catalytic tetrad 같은 enzyme active-site motif examples가 나옵니다. 그림만 보면 매우 functional design처럼 보입니다. 하지만 이 결과는 atomistic motif recapitulation과 co-designability입니다.

Catalysis는 motif geometry만으로 결정되지 않습니다. Pocket shape, substrate access, transition-state stabilization, dynamics, solvation, electrostatics, expression/stability가 함께 필요합니다. La-Proteína의 motif result는 functional design으로 가는 강한 structural proxy이지만, enzyme activity나 binder function을 직접 보여주지는 않습니다.

그래도 이 proxy의 가치는 작지 않습니다. Backbone-only motif scaffolding에서는 sidechain atom이 나중에 붙기 때문에, functionally critical atom이 정말 원하는 곳에 있을지 불확실합니다. La-Proteína는 motif atom 자체를 condition으로 넣고 scaffold를 생성할 수 있으므로, “functional atom geometry를 generation objective 안에 넣는 길”을 보여줍니다. 실험 검증은 없지만, methodologically는 enzyme design과 ligand-binding pocket design으로 이어지는 중요한 bridge입니다.

이 구분은 Proteína-Atomística, RFAA/RFdiffusionAA, RFdiffusion2를 읽을 때도 중요합니다. Atomistic motif를 맞추는 것과 wet-lab function을 얻는 것은 연결될 수 있지만, 같은 말은 아닙니다.

Figure별로 보기

Figure 1은 VAE encoder/decoder와 partially latent flow model overview입니다. 여기서는 Cα는 explicit, sequence/sidechain은 latent라는 구조를 잡으면 됩니다.

Figure 2와 Figure 9는 unconditional fully atomistic samples를 보여줍니다. Figure 4는 long-chain generation benchmark입니다. 800 residues까지 co-designability를 유지한다는 주장이 여기서 나옵니다.

Figure 3과 Figure 7, Appendix F는 atomistic motif scaffolding입니다. All-atom motif, tip-atom, indexed/unindexed setup을 구분해서 봐야 합니다. Table 3–4는 이 benchmark의 detailed results입니다.

Figure 5는 MolProbity structural validity metrics이고, Figure 6은 TRP χ1 rotamer distribution입니다. Figure 8은 latent-space t-SNE와 perturbation locality입니다. Table 5–6은 VAE와 sampling ablation, Table 7–8은 speed와 memory를 보여줍니다.

Proteína-Atomística와의 관계

Proteína-Atomística는 La-Proteína 이후 같은 NVIDIA line에서 나온 후속 data-centric 논문입니다. Proteína-Atomística는 CDDB, 즉 ProteinMPNN sequence design plus ESMFold refolding/filtering으로 만든 consistency-distilled synthetic dataset을 사용해 La-Proteína 성능도 크게 올립니다.

Proteína-Atomística 논문 기준으로 La-Proteína는 length 100–500 comparison에서 CODES-AA 68.4%에서 86.8%로, DIV-AA 206에서 318로 개선됩니다. 이 결과는 La-Proteína architecture가 data quality에 강하게 반응한다는 뜻입니다.

이 대목은 La-Proteína 리뷰의 결론에도 영향을 줍니다. La-Proteína의 partially latent architecture는 이미 강하지만, 후속 paper가 보여주듯 architecture만으로 끝나는 문제는 아닙니다. AFDB-derived training pair가 sequence-structure mismatch를 갖고 있으면, 아무리 좋은 generator라도 잘못 정렬된 distribution을 배울 수 있습니다. CDDB는 그 mismatch를 ProteinMPNN/ESMFold agreement로 줄인 dataset입니다. 따라서 La-Proteína는 “좋은 representation”의 사례이고, Proteína-Atomística/CDDB는 “좋은 training pair”의 필요성을 보여주는 사례입니다.

그래서 두 논문은 함께 읽는 편이 좋습니다. La-Proteína는 partially latent all-atom architecture의 장점을 보여줍니다. Proteína-Atomística는 all-atom generator에서 sequence-structure aligned synthetic data가 얼마나 중요한지 보여줍니다.

Evidence layer를 한 번 정리하기

La-Proteína의 evidence는 세 층으로 나눠 읽는 편이 좋습니다. 첫 번째는 representation evidence입니다. VAE reconstruction, latent-space clustering, perturbation locality가 여기에 들어갑니다. 이 층은 per-residue latent가 sequence와 sidechain detail을 충분히 담을 수 있는지 보여줍니다.

두 번째는 generation proxy입니다. All-atom co-designability, ProteinMPNN-8 designability, diversity, long-chain generation, MolProbity, rotamer distribution이 여기에 들어갑니다. 이 층은 generated sequence/structure가 computationally plausible한지를 봅니다.

세 번째는 conditional structural proxy입니다. All-atom motif scaffolding과 tip-atom scaffolding입니다. 이 층은 functionally relevant atom geometry를 조건으로 줄 때 model이 scaffold를 만들 수 있는지 보여줍니다. 하지만 세 층 모두 wet-lab evidence는 아닙니다. Expression, binding, enzyme activity, structural validation은 이 논문에서 직접 다루지 않습니다.

읽을 때의 균형점

La-Proteína는 monomeric protein design에서 backbone-only generation과 full explicit all-atom generation 사이를 잇는 method paper입니다. Co-designability, ProteinMPNN-8 designability, MolProbity, rotamer distribution, motif RMSD는 generated sequence/structure와 local chemistry가 computationally plausible한지를 보는 데 유용합니다.

이 지표들이 곧바로 expression, binding, enzyme activity, structural validation을 뜻하지는 않습니다. 그래도 La-Proteína의 contribution은 단순한 benchmark score보다 큽니다. Cα backbone은 explicit하게 유지하고 sequence/sidechain detail은 per-residue latent로 압축하는 선택이 long-chain generation과 atomistic motif scaffolding을 동시에 가능하게 만들기 때문입니다.

Tip-atom / unindexed motif scaffolding은 특히 눈여겨볼 지점입니다. Functional atom만 조건으로 주고 scaffold와 rotamer placement를 model이 찾는 setting은 enzyme design과 binder design으로 이어질 수 있는 방향을 보여줍니다. VAE latent의 locality, 공개 code/model card/NGC release, training/evaluation pipeline dependency는 reproducibility와 확장성을 볼 때 함께 남겨둘 포인트입니다.

평가: partially latent all-atom generation의 위치

La-Proteína의 가치는 backbone-only generation과 full explicit all-atom generation 사이의 실용적인 중간 지점에 있습니다. Cα backbone은 explicit하게 두고, sequence와 sidechain detail은 per-residue latent로 압축합니다. 이 타협 덕분에 long protein generation과 atomistic motif scaffolding에서 강한 in silico result를 보입니다.

특히 tip-atom / unindexed motif scaffolding은 중요합니다. Functional atom만 조건으로 주고 scaffold와 rotamer placement를 model이 찾는 setting은 enzyme design과 binder design으로 이어질 수 있는 방향을 보여줍니다.

La-Proteína를 한 문장으로 정리하면, backbone generator의 scalability를 유지하면서 sequence와 sidechain chemistry를 generation 단계 안으로 가져온 partially latent all-atom generator입니다. All-atom co-designability와 motif scaffolding 결과는 강한 method signal이고, functional design validation은 이 방향이 다음 단계에서 만날 질문입니다.

참고

- Paper: “La-Proteina: Atomistic Protein Generation via Partially Latent Flow Matching” - Authors: Tomas Geffner, Kieran Didi, Zhonglin Cao, Danny Reidenbach, Zuobai Zhang, Christian Dallago, Emine Kucukbenli, Karsten Kreis, Arash Vahdat - arXiv: https://arxiv.org/abs/2507.09466 - Project page: https://research.nvidia.com/labs/genair/la-proteina/ - GitHub: https://github.com/NVIDIA-Digital-Bio/la-proteina/ - Raw source: `raw/papers/la-Proteina/laproteina.pdf` - Extracted source: `raw/papers/la-Proteina/extracted/laproteina.txt`