ESM3 논문 리뷰

들어가며

Protein language model이 sequence-only를 벗어나는 순간

Sequence, structure, function을 token track으로 묶기

Scale과 data: 1.4B, 7B, 98B

Prompt following과 controllable generation

Biological alignment와 scale effect

esmGFP generation campaign

esmGFP의 wet-lab evidence

제목 “500 million years”의 의미

ESM3-open과 flagship capability 구분

ESM3 논문 리뷰

들어가며

ESM3 논문의 제목은 “Simulating 500 million years of evolution with a language model” 이라는 강한 제목입니다. 다만 이 논문이 보여주는 것은 모델이 실제 진화 과정을 물리적으로 재현했다는 뜻이 아니라, 자연에서 알려진 fluorescent protein과 매우 멀리 떨어진 sequence space에서 실제로 빛나는 protein을 찾았다는 뜻에 가깝습니다.

ESM3는 EvolutionaryScale PBC, Arc Institute, UC Berkeley 연구진이 발표한 Science 논문입니다. 기존 protein language model이 주로 amino acid sequence를 학습했다면, ESM3는 sequence, structure, function을 모두 discrete token track으로 바꾸고 하나의 transformer 안에서 함께 다룹니다. Sequence token, structure token, secondary structure, SASA, function keyword, residue annotation이 같은 model input/output 공간에 들어갑니다.

이 글에서는 ESM3를 binder generator로 다루지 않습니다. ESM3의 중심은 target-conditioned binder design이 아니라, protein sequence-structure-function space를 하나의 language model로 다루고 promptable generation을 가능하게 한 foundation model입니다. 가장 강한 experimental anchor는 esmGFP입니다. GFP active-site/local-structure prompt에서 시작해, known GFP와 멀리 떨어져 있지만 실제 fluorescence를 보이는 protein을 합성하고 검증했습니다.

Protein language model이 sequence-only를 벗어나는 순간

Protein language model은 처음에는 자연 protein sequence의 통계 구조를 학습하는 모델로 이해되었습니다. ESM-1b, ESM2 같은 모델은 sequence만 보고도 mutation effect, structure signal, function-related representation을 어느 정도 학습한다는 점을 보여줬습니다. 하지만 design 관점에서는 sequence-only model만으로 부족한 순간이 빨리 옵니다.

실제 protein design에서는 sequence만 생성하면 끝나지 않습니다. 원하는 local motif가 있어야 하고, active-site residue가 특정 3D arrangement를 가져야 하며, secondary structure나 solvent exposure도 맞아야 합니다. 어떤 경우에는 function keyword나 residue-level annotation도 조건이 됩니다. RFdiffusion류는 이 문제를 coordinate나 residue frame의 diffusion으로 풀었습니다. ProteinGenerator는 sequence-space diffusion으로 sequence-side condition을 다뤘습니다. PLAID는 ESMFold latent를 생성 대상으로 삼았습니다.

ESM3는 다른 route입니다. 3D coordinate를 직접 diffusion하지 않고, structure를 discrete token으로 압축합니다. Function도 keyword token으로 넣습니다. 그러면 protein design 문제는 “어떤 track을 prompt로 주고, 나머지 token을 채울 것인가”라는 masked language modeling 문제로 바뀝니다.

이 관점에서 ESM3는 sequence-only protein language model의 확장이 아니라, multimodal protein language model입니다. Protein을 문장처럼 다룬다는 비유가 여기서는 조금 더 구체적이 됩니다. 문장의 token이 amino acid만이 아니라 structure, function, annotation까지 포함하기 때문입니다.

Sequence, structure, function을 token track으로 묶기

Figure 1은 ESM3의 핵심 구조를 보여줍니다. ESM3는 여러 track을 입력과 출력으로 가집니다. Sequence는 20 canonical amino acids와 special tokens로 표현됩니다. Structure는 VQ-VAE style tokenizer가 만든 4096-code structure tokens로 표현됩니다. 여기에 SS8 secondary structure, binned SASA, function keyword tokens, residue-level InterPro annotations가 추가됩니다.

Training objective는 generative masked language modeling입니다. BERT처럼 항상 15% token만 mask하는 것이 아닙니다. Masking rate를 넓은 범위에서 샘플링해, 어떤 modality 조합이 주어져도 나머지 token을 복원할 수 있게 학습합니다. Inference에서는 fully masked 또는 partially masked context에서 token을 순차적으로 또는 병렬적으로 채웁니다.

Structure를 다루는 방식도 중요합니다. ESM3는 structure token을 생성하고, 별도 decoder가 sequence token과 structure token을 받아 all-atom coordinates, pTM, pLDDT를 복원합니다. Supplement에 따르면 structure tokenizer는 CAMEO/CASP test에서 매우 낮은 reconstruction RMSD와 높은 LDDT-CA를 보입니다. 동시에 backbone coordinate를 직접 prompt로 넣을 수 있도록 첫 transformer block에 geometric attention도 들어갑니다.

즉 ESM3는 “3D를 모른 척하는 language model”이 아닙니다. 3D를 discrete token과 geometric attention으로 language model 안에 넣은 모델입니다. 이 선택 덕분에 ESM3는 transformer scaling의 장점을 가져오면서도 structure/function prompt를 다룰 수 있습니다.

Scale과 data: 1.4B, 7B, 98B

ESM3는 1.4B, 7B, 98B scale로 학습되었습니다. Supplement 기준 largest model은 216 transformer blocks, d_model 6144, context length 2048, 약 1.8T training tokens와 1.07×10^24 FLOPs setting입니다. Training data는 UniRef, MGnify, JGI, OAS sequence data와 PDB, AFDB, ESMAtlas structure data, InterPro/GO-derived function labels를 포함합니다.

논문은 전체 data를 3.15B protein sequences, 236M protein structures, 539M proteins with function annotations, 총 771B unique tokens로 요약합니다. 자연 sequence, predicted structure, function annotation을 모두 tokenized training corpus로 엮은 셈입니다.

여기서 openness는 조심해서 구분해야 합니다. Supplement는 ESM3-open 1.4B release를 설명합니다. ESM3-open은 OAS antibody sequences를 제외하고, viral/select-agent 관련 sequence와 keyword prompt capability를 줄이는 mitigation을 적용했다고 설명됩니다. 따라서 paper에서 보고한 7B/98B capability나 esmGFP generation을 ESM3-open 1.4B의 capability로 그대로 말하면 안 됩니다.

이 구분은 중요합니다. ESM3 논문은 frontier model scale과 open small model을 함께 다룹니다. 하지만 사용자가 실제로 접근 가능한 모델과 논문에서 flagship demonstration에 사용한 모델은 같은 것이 아닐 수 있습니다.

Prompt following과 controllable generation

Figure 2는 ESM3가 prompt를 얼마나 잘 따르는지 보여줍니다. Prompt track은 sequence, backbone coordinate, SS8, SASA, function keyword로 나뉩니다. ESM3는 각 track이 부분적으로 주어졌을 때 나머지를 생성하고, ESMFold prediction과 prompt consistency metric으로 평가됩니다.

7B model은 여러 track에서 pTM > 0.8인 confident structure를 생성할 수 있었습니다. OOD SS8/SASA prompt에서는 평균 pTM 0.85 ± 0.03, nearest training-set sequence identity <20%, mean TM-score 0.48 ± 0.09로 보고됩니다. Artificial symmetric protein prompt에서도 pTM/pLDDT > 0.8과 low training-set similarity가 나옵니다.

Motif composition도 흥미롭습니다. ESM3는 ligand-binding이나 catalytic motif처럼 individual atom coordination이 필요한 prompt와 secondary structure 또는 function keyword prompt를 조합합니다. 성공 기준은 all-atom RMSD < 1.5 Å, fold keyword TM > 0.6, SS3 accuracy > 80%, generated structure pTM/pLDDT > 0.8 같은 computational criteria입니다.

이 결과는 ESM3가 여러 abstraction level의 condition을 하나의 token-generation problem으로 다룰 수 있음을 보여줍니다. 다만 Figure 2 대부분은 in silico evidence입니다. Prompt consistency, pTM, pLDDT, InterProScan keyword recovery, ESMFold self-consistency는 useful proxy이지만, 실제 function이나 binding을 직접 확인한 것은 아닙니다. 특히 keyword prompting에서는 confident structure가 나와도 keyword recovery가 실패하는 mode switching도 관찰됩니다.

Biological alignment와 scale effect

Figure 3은 alignment가 ESM3의 prompt following을 얼마나 개선하는지 다룹니다. Base model은 pretraining만으로도 motif scaffolding-like task를 어느 정도 수행하지만, 원하는 prompt를 더 충실히 따르도록 preference tuning을 적용하면 성능이 크게 올라갑니다.

Setup은 structure-coordinate prompt에 대한 preference dataset을 만드는 방식입니다. 같은 prompt에 대해 여러 protein을 생성하고, prompt consistency와 structure confidence가 높은 sample과 낮은 sample을 pair로 묶습니다. 이후 preference optimization loss를 사용해 high-quality sample likelihood를 높입니다.

46 ligand-binding motif tertiary coordination benchmark에서 Pass@128은 base model 기준 1.4B 9.5%, 7B 19.0%, 98B 26.8%입니다. Alignment 후에는 각각 18.8%, 37.4%, 65.5%로 올라갑니다. Supplement table에서는 RFDiffusion active-site scaffolding baseline도 같은 generation budget에서 47.6%로 비교됩니다.

이 결과는 두 가지를 말합니다. 첫째, ESM3는 promptable generation에서 scale benefit을 보입니다. 둘째, larger model은 alignment에 더 크게 반응합니다. 다만 이 benchmark도 ESMFold pTM과 cRMSD 기반입니다. Ligand-binding motif coordination을 잘 맞춘 structure를 만들었다는 의미이지, 실제 ligand binding이나 catalytic activity가 확인된 것은 아닙니다.

esmGFP generation campaign

ESM3 논문의 중심은 Figure 4입니다. 논문은 base ESM3 7B를 사용해 green fluorescent protein을 생성합니다. Fine-tuning 없이, GFP active-site residue와 local structure prompt를 주고 먼 sequence space에서 functional fluorescent protein을 찾는 것이 목표입니다.

Prompt는 229-residue GFP length에서 Met1, Thr62, Thr65, Tyr66, Gly67, Arg96, Glu222 sequence tokens와, 1QY3-derived 16 residues의 structure tokens/backbone coordinates였습니다. 1QY3의 A96는 chromophore maturation을 늦추는 mutation이므로, 1GFL superposition으로 Arg96를 복원해 prompt를 구성했습니다.

Generation pipeline은 꽤 복잡합니다. 먼저 structure tokens를 생성해 backbone을 만들고, active-site atomic coordination이 충분하고 1QY3 backbone과 차별화된 후보를 다음 단계로 넘깁니다. 그다음 generated structure를 prompt에 추가해 sequence를 만들고, sequence와 structure를 번갈아 최적화합니다. Active site coordination을 잃는 chain은 버립니다.

Experiment 1에서는 38k structures를 생성하고, Template Chromophore Site RMSD < 1 Å로 24k를 남겼습니다. 구조당 약 4개 sequence를 생성해 총 92k sequences를 만들었습니다. 이후 Template Chromophore Site RMSD < 1.5 Å, Template Helix RMSD < 1.5 Å, N-gram score threshold, pseudo-perplexity, round-trip perplexity, ESM3 pTM, ESMFold pTM/pLDDT, PSSM score 등을 사용해 88 designs를 첫 96-well plate로 보냈습니다.

첫 plate에서 B8 design이 fluorescence signal을 보였습니다. B8은 1QY3 대비 36% sequence identity, nearest existing fluorescent protein tagRFP 대비 57% identity였습니다. Natural GFP보다 약 50× 어둡고 chromophore maturation도 일주일 정도로 느렸지만, 알려진 fluorescent protein과 먼 sequence space에서 기능 signal이 나온 점이 중요합니다.

B8를 seed로 Experiment 2가 이어집니다. 6.3k candidate designs를 생성하고, 두 set에서 45+45 designs를 골라 두 번째 96-well plate로 테스트했습니다. 최종적으로 C10 design이 가장 좋은 결과를 보였고, 논문은 이를 esmGFP라고 부릅니다.

esmGFP의 wet-lab evidence

esmGFP는 E. coli Mach1에서 expression되고, lysate plate-reader fluorescence assay로 평가되었습니다. Excitation/emission은 485 nm excitation / 515 nm emission 조건에서 측정되었고, absorbance normalization도 포함됩니다. 논문은 flow cytometry, excitation/emission spectra, chromophore knockout controls까지 제시합니다.

esmGFP는 natural GFP distribution 수준의 brightness에 도달했지만 maturation은 더 느렸습니다. Excitation peak는 496 nm, emission peak는 512 nm로 EGFP와 유사했습니다. Thr65/Tyr66를 glycine으로 바꾸면 fluorescence가 background 수준으로 떨어졌습니다. 이는 fluorescence가 intended chromophore-mediated activity라는 점을 뒷받침합니다.

이 evidence는 ESM3 논문의 가장 강한 부분입니다. 단순히 pTM이 높거나 motif RMSD가 낮은 protein을 만든 것이 아니라, 합성·발현·형광 측정·스펙트럼·chromophore knockout까지 이어졌습니다. Protein language model이 functional protein design space에 들어갈 수 있음을 보여주는 milestone으로 볼 만합니다.

동시에 이 결과는 GFP에 집중되어 있습니다. GFP는 fluorescence라는 측정 가능한 function이 있고, active-site residue와 local structure prompt를 비교적 명확하게 줄 수 있습니다. 이 성공이 binder design, enzyme design, therapeutic protein design 전반으로 바로 일반화된다고 말할 수는 없습니다. High-resolution experimental structure of esmGFP도 이 source에서는 확인되지 않습니다.

제목 “500 million years”의 의미

논문의 가장 유명한 문구는 500 million years입니다. esmGFP의 nearest BLAST/MMseqs hit는 tagRFP이고, sequence identity는 58%, 차이는 96 mutations입니다. Closest wildtype sequence는 eqFP578로 53% identity, 107 mutations 차이입니다. FPBase-derived 648 fluorescent proteins와 비교하면 esmGFP는 Anthozoa GFPs에 가장 가깝고 평균 sequence identity는 51.4%입니다.

논문은 6개 Anthozoan GFP/species pair의 time-calibrated phylogeny와 sequence identity를 이용해, esmGFP가 closest known natural protein에서 500 million years 이상에 해당한다고 추정합니다. 이 표현은 sequence-distance와 phylogenetic calibration으로 본 equivalent evolutionary distance입니다.

따라서 “ESM3가 실제 진화 경로를 5억 년 동안 시뮬레이션했다”고 표현하면 논문이 보여준 범위를 넘어섭니다. 더 정확하게는 “known fluorescent protein과 수억 년 규모의 진화적 거리로 환산될 만큼 떨어진 sequence에서 기능하는 fluorescent protein을 생성했다”입니다. 모델은 evolution의 물리적 trajectory를 재현한 것이 아니라, evolution data로부터 학습한 protein space에서 기능 가능한 먼 지점을 탐색한 것입니다.

이 nuance가 ESM3 리뷰의 핵심입니다. 논문의 framing은 강하지만, 실제 evidence는 sequence-distance, calibration, functional assay의 조합입니다. 그 조합 자체로도 충분히 인상적입니다. 굳이 literal evolution simulator로 과장할 필요가 없습니다.

ESM3-open과 flagship capability 구분

ESM3를 이야기할 때 openness도 분리해야 합니다. Supplement에는 ESM3-open 1.4B release와 mitigation이 설명됩니다. ESM3-open은 OAS antibody sequences를 제외하고, viral/select-agent 관련 sequence 및 keyword prompt capability를 줄이는 조치를 포함합니다.

반면 논문에서 scale effect와 GFP campaign의 중심이 되는 것은 7B와 98B scale입니다. esmGFP generation에는 base ESM3 7B가 사용되었습니다. Alignment benchmark에서는 98B aligned model이 가장 강한 Pass@128을 보입니다.

따라서 “ESM3가 공개되었다”와 “논문에서 보인 frontier capability를 누구나 재현할 수 있다”는 같은 말이 아닙니다. 공개된 모델, paper-scale model, API/weights availability, safety mitigation은 따로 확인해야 합니다. 독자-facing 리뷰에서는 이 구분을 남겨두는 편이 좋습니다.

Evidence가 말해주는 범위

ESM3의 evidence는 크게 세 층으로 나눌 수 있습니다.

첫 번째는 representation and scaling evidence입니다. Sequence, structure, function token track을 하나의 transformer로 학습했고, 1.4B에서 98B로 scale이 커질수록 여러 loss와 generation capability가 개선됩니다. Structure tokenization과 decoder는 all-atom coordinate reconstruction을 가능하게 합니다.

두 번째는 prompt following evidence입니다. SS8, SASA, backbone coordinate, function keyword, motif prompt를 조합해 confident structure를 만들 수 있습니다. Alignment는 tertiary motif coordination benchmark에서 Pass@128을 크게 끌어올립니다. 이 층은 대부분 computational proxy입니다.

세 번째는 wet-lab evidence입니다. esmGFP는 실제 synthesis, E. coli expression, fluorescence assay, spectral characterization, chromophore knockout control을 거쳤습니다. 이 결과는 functional protein generation evidence로 강합니다. 다만 GFP family에 대한 focused campaign이며, broad binder/function platform claim으로 확대하려면 별도 결과가 있어야 안정적으로 말할 수 있습니다.

이 세 층을 구분하면 ESM3를 과소평가하지도, 과장하지도 않을 수 있습니다. ESM3는 단순한 sequence generator가 아닙니다. 하지만 모든 protein design 문제를 해결한 모델도 아닙니다.

한계점

ESM3의 wet-lab validation은 GFP generation에 집중되어 있습니다. GFP는 강력한 demonstration이지만, binder design이나 therapeutic protein design generalization을 직접 보여주지는 않습니다. Target binding, specificity, developability, cellular function, high-resolution experimental structure of designed protein은 별도 문제입니다.

GFP campaign은 대규모 candidate generation과 multi-stage filtering/ranking을 포함합니다. 38k structures, 92k sequences, 여러 computational filters, 두 차례 96-well assay, B8 seed refinement가 이어집니다. 따라서 raw model generation success와 full campaign success를 분리해야 합니다.

Prompt following benchmark는 대부분 in silico proxy입니다. 특히 generated sequence에서는 pLDDT가 overconfident할 수 있다는 supplement caveat가 있습니다. pLDDT나 pTM이 높다고 실제 function이 보장되는 것은 아닙니다.

마지막으로 openness와 capability를 구분해야 합니다. ESM3-open 1.4B release는 중요하지만, 논문에서 보고한 7B/98B 또는 esmGFP campaign capability를 그대로 open model capability로 말하면 곤란합니다.

평가

ESM3의 가장 큰 의미는 protein language model의 범위를 바꿨다는 점입니다. Sequence만 학습하는 model에서, sequence-structure-function을 함께 token화하고 promptable generation을 수행하는 multimodal foundation model로 넘어갑니다. 이 방향은 RFdiffusion류의 coordinate diffusion과 다른 축입니다.

esmGFP는 이 논문의 상징적 성과입니다. Known fluorescent protein과 멀리 떨어진 sequence space에서 실제로 빛나는 protein을 만든 것은 가볍게 볼 결과가 아닙니다. 특히 chromophore knockout과 spectra가 붙어 있어, 단순한 computational plausibility를 넘어 functional validation으로 볼 수 있습니다.

다만 ESM3를 binder generator처럼 소개하면 논문의 중심을 놓칩니다. ESM3는 protein design의 upstream foundation-model axis에 가깝습니다. Function keyword, local structure, active-site residue, structural abstraction을 하나의 model prompt로 다루고, 그중 GFP라는 어려운 family에서 실제 기능을 보여준 사례입니다.

그래서 이 논문은 “AI가 진화를 재현했다”보다 “language model route가 functional protein design으로 들어왔다”는 문장으로 정리하는 편이 더 정확합니다. 과장하지 않아도 충분히 큰 논문입니다.

참고

- Hayes et al., “Simulating 500 million years of evolution with a language model,” Science 387, 850, DOI: 10.1126/science.ads0018. - 비교 맥락: Protein Language Model, Sequence Design, Conditional Protein Generation, ProteinGenerator, PLAID, RFdiffusion.