ProteinGenerator 논문 리뷰

들어가며

Backbone-first pipeline이 놓치는 것

Figure 1: sequence space에서 diffusion하기

Unconditional generation: 작은 de novo protein의 foldability

Figure 2: sequence composition을 generation 중에 조절하기

Figure 3: repeat protein과 구조 검증

Figure 4: bioactive peptide를 cage 안에 넣기

Intrinsic peptide barcode: library engineering으로 이어지기

Figure 5: 같은 sequence가 parent와 child에서 다르게 접히기

Figure 1d: experimental data guidance는 retrospective simulation

ProteinGenerator 논문 리뷰

들어가며

RFdiffusion 이후 protein generator를 떠올리면 보통 backbone을 먼저 생각합니다. 구조를 만들고, ProteinMPNN으로 sequence를 붙이고, AF2나 ESMFold로 다시 접히는지 확인하는 흐름입니다. 이 방식은 매우 강력합니다. Binder design, motif scaffolding, symmetric assembly처럼 geometry가 중심인 문제에서는 특히 그렇습니다.

ProteinGenerator는 출발점이 다릅니다. 논문 제목은 “Multistate and functional protein design using RoseTTAFold sequence space diffusion”입니다. Baker lab / Institute for Protein Design 계열에서 나온 Nature Biotechnology 논문이고, RoseTTAFold를 sequence-space diffusion model로 fine-tune해 protein sequence와 structure를 함께 생성합니다. 핵심은 구조 좌표가 아니라 amino-acid sequence representation을 noising하고 denoising한다는 점입니다.

이 글에서는 ProteinGenerator를 “RFdiffusion보다 좋은 generator인가”라는 단순 비교로 다루지 않습니다. 오히려 질문을 바꿔보는 편이 자연스럽습니다. Backbone을 먼저 만들고 sequence를 나중에 붙이는 방식이 아니라, sequence space에서 diffusion을 돌리면 어떤 design task가 쉬워질까요? 이 논문의 답은 amino-acid composition control, fixed peptide sequence scaffolding, repeat symmetry, multistate parent-child design, 그리고 sequence-activity data를 이용한 guidance입니다.

Backbone-first pipeline이 놓치는 것

Backbone-first pipeline은 protein design에서 실용적인 표준에 가깝습니다. RFdiffusion이나 Chroma 같은 모델이 backbone이나 complex geometry를 만들고, ProteinMPNN이 sequence를 설계한 뒤, structure predictor가 self-consistency를 확인합니다. 이 흐름은 target interface나 motif geometry가 명확할 때 잘 맞습니다.

하지만 모든 design problem이 geometry-first는 아닙니다. 어떤 경우에는 sequence 자체가 조건입니다. 특정 amino acid를 많이 넣고 싶을 수 있습니다. Disulfide를 만들기 위해 cysteine-rich protein을 설계하거나, tryptophan-rich protein을 만들거나, charge와 hydrophobicity를 직접 조절하고 싶을 수 있습니다. 또는 이미 정해진 bioactive peptide sequence를 folded scaffold 안에 숨겨야 할 수도 있습니다. 더 어려운 경우, 같은 sequence가 parent state와 child state에서 서로 다른 fold를 가져야 할 수도 있습니다.

이런 문제에서는 sequence가 post-processing 대상이 아니라 generation의 중심입니다. ProteinGenerator는 이 지점에서 backbone diffusion과 다른 장점을 보여줍니다. Sequence representation이 diffusion trajectory 자체이기 때문에, sequence composition이나 fixed peptide motif, sequence-activity surrogate 같은 조건을 generation 중에 직접 넣을 수 있습니다.

Figure 1: sequence space에서 diffusion하기

Figure 1은 ProteinGenerator의 위치를 잘 보여줍니다. RFdiffusion은 structure space에서 noised residue frame을 denoise합니다. ProteinGenerator는 sequence space에서 시작합니다. Protein sequence를 L×20 scaled one-hot tensor로 표현하고, 여기에 Gaussian noise를 더합니다. Native amino acid channel은 1, 나머지는 -1로 둔 뒤 continuous tensor처럼 다루는 방식입니다.

Base network는 RoseTTAFold입니다. 모델은 noised sequence `x_t`, timestep, optional structural/sequence conditioning을 입력받아 unnoised sequence `x_0`와 structure를 함께 예측합니다. Training loss는 predicted sequence에 대한 categorical cross-entropy와 structure에 대한 FAPE-style loss를 결합합니다. 논문은 diffusion denoising뿐 아니라 structure prediction(seq2str)과 fixed-backbone sequence design task도 training에 섞어 sequence-structure coupling을 유지했다고 설명합니다.

Inference에서는 pure Gaussian noise에 가까운 L×20 sequence tensor에서 시작합니다. 각 timestep마다 모델이 `x_0`를 예측하고, 여기에 원하는 sequence bias나 structural condition을 결합한 뒤 다시 `x_{t-1}`로 noising합니다. 이 과정을 반복하면서 sequence와 structure pair가 수렴합니다. Self-conditioning도 사용되어 이전 step의 예측이 다음 step에 들어갑니다.

이 구조 덕분에 PG는 sequence-based guidance를 diffusion update에 직접 넣을 수 있습니다. 특정 amino acid composition, hydrophobicity, charge, pI, fixed peptide sequence, secondary-structure string, repeat symmetry, multistate logit averaging, experimental classifier gradient 같은 조건이 모두 이 framework 안에 들어갑니다.

Unconditional generation: 작은 de novo protein의 foldability

먼저 unconditional generation입니다. 논문은 PG가 generated sequence-structure pair를 만들고, AF2와 ESMFold prediction이 design model과 얼마나 가까운지 평가합니다. 전체 generated designs 중 6%가 AF2 pLDDT > 90과 RMSD < 2 Å를 만족했다고 보고합니다.

그다음 70–80 residue protein을 실험적으로 확인합니다. 총 42개 protein을 테스트했고, 32개가 SEC에서 soluble and monomeric으로 나타났습니다. CD spectrum은 설계된 secondary structure와 일치했고, thermal melt에서는 95°C까지 안정한 사례들이 보고됩니다.

이 결과는 PG가 단순히 prediction self-consistency만 보여준 것이 아니라, 작은 de novo monomer에 대해 실제 foldability와 biophysical behavior를 확인했다는 점에서 의미가 있습니다. 다만 여기서의 강점은 broad functional design이 아니라 foldable small protein generation입니다. 이후 section들이 PG의 진짜 차별점을 보여줍니다.

Figure 2: sequence composition을 generation 중에 조절하기

Figure 2는 sequence-space diffusion의 장점이 가장 직접적으로 드러나는 부분입니다. PG는 tryptophan, cysteine, valine, histidine, methionine을 각각 20% 수준으로 높인 protein을 설계합니다. 각 denoising step에서 해당 amino acid가 들어갈 위치를 ranking하고, 원하는 개수만큼 bias를 더해 `x_{t-1}` update를 조절합니다.

이 접근은 post hoc filtering과 다릅니다. 먼저 아무 protein이나 만든 뒤 원하는 composition을 가진 후보만 고르는 것이 아니라, generation trajectory 자체를 원하는 sequence property 쪽으로 밀어줍니다. 논문은 이렇게 만든 designs가 native protein sequence space와 구분되는 영역을 차지한다고 보여줍니다.

실험도 꽤 구체적입니다. AF2 pLDDT > 90, RMSD < 2 Å, SAP score 조건으로 filtering한 뒤 96개 design을 선택했습니다. E. coli에서 68개가 soluble했고, SEC 기준 monomeric fraction은 cysteine-upweighted 4/5, tryptophan-upweighted 8/19, valine-upweighted 19/22, histidine-upweighted 10/12, methionine-upweighted 10/10으로 보고됩니다. CD는 테스트한 monomeric designs가 설계된 secondary structure와 대체로 일치하고 thermostable함을 보였습니다.

Cysteine-biased designs에서는 mass spectrometry로 protein당 3–4개 disulfide bond 형성이 확인되었습니다. Tryptophan-rich designs는 280 nm absorbance가 높았고, valine-rich designs는 beta-sheet content가 증가했습니다. 이 결과는 PG가 sequence composition을 단순히 숫자로 맞추는 것이 아니라, 그 composition이 structure와 biophysical property 안에서 구현될 수 있는 방향으로 design한다는 점을 뒷받침합니다.

Figure 3: repeat protein과 구조 검증

Repeat protein design도 sequence-space diffusion과 잘 맞는 문제입니다. Repeat protein은 sequence와 structure unit이 반복되는 형태이기 때문에, noised sequence distribution에 repeat symmetry를 적용하는 방식이 자연스럽습니다. PG는 repeat unit length와 repeat number를 지정하고, 각 timestep에서 repeat symmetry를 sequence tensor에 적용합니다.

Unconditional repeat generation은 주로 beta-solenoid 쪽으로 쏠렸고, 논문은 더 넓은 탐색을 위해 secondary-structure conditioning을 추가합니다. DSSP-like per-residue label을 1D track에 넣어 all-alpha, all-beta, mixed alpha/beta repeat designs를 유도합니다. 일부 design에는 helical cap을 붙여 stability와 aggregation 문제를 줄이려 했습니다.

실험에서는 helical cap이 있는 repeat protein 74개와 cap이 없는 repeat protein 86개를 characterization했습니다. SEC 기준 soluble and monomeric은 capped repeats 27개, uncapped repeats 10개였습니다. CD로 평가한 8개 중 7개는 기대한 secondary structure를 보였습니다.

가장 강한 evidence는 crystal structure입니다. Five-repeat unit design 하나의 3.70 Å crystal structure를 풀었고, design model 대비 Cα RMSD는 전체 구조 1.38 Å, asymmetric unit 0.47 Å였습니다. 이는 AF2 recapitulation을 넘어 실제 구조가 설계와 잘 맞았다는 evidence입니다. PG가 repeat protein을 단순히 예측상 plausible하게 만든 것이 아니라, 적어도 한 사례에서는 atomic-level structural validation까지 도달한 셈입니다.

Figure 4: bioactive peptide를 cage 안에 넣기

Figure 4는 ProteinGenerator 리뷰에서 가장 흥미로운 section입니다. PG는 fixed bioactive peptide sequence를 protein scaffold 안에 통합합니다. 여기서 peptide sequence는 diffused되지 않는 fixed region으로 두고, 나머지 sequence를 생성합니다. Scaffold 구조나 peptide가 취할 구조를 미리 지정하지 않아도 된다는 점이 기존 LOCKR류와 다른 포인트입니다.

대표 예시는 melittin caging입니다. Melittin은 membrane lysis를 유도하는 pore-forming peptide입니다. 논문은 melittin sequence와 인접한 furin cleavage site를 고정하고, 나머지 scaffold를 PG로 생성했습니다. Secondary structure conditioning을 이용해 melittin이 helical bundle 안에 들어가고 cleavage site가 loop에 놓이도록 유도했습니다.

실험적으로 13개 melittin-cage design을 characterization했고, 5개가 SEC에서 soluble and monodisperse였으며 CD에서 helical secondary structure와 thermostability를 보였습니다. Furin protease를 처리하면 SDS-PAGE에서 band shift가 나타났고, mass spectrometry는 intact melittin peptide release를 확인했습니다.

기능 assay도 포함됩니다. D12 design을 RBC와 함께 처리했을 때, furin protease가 있는 조건에서 hemolysis가 증가했습니다. Figure 4는 furin-treated D12가 no-design 또는 no-furin control보다 유의하게 높은 lysis를 보였고, 해당 assay 조건에서는 Triton X-100과 melittin positive control과 통계적으로 비슷한 수준이라고 보고합니다.

이 결과는 PG의 가장 강한 functional validation 중 하나입니다. 다만 해석 범위는 분명히 해야 합니다. 새 function을 de novo로 발명했다기보다, 이미 알려진 lytic peptide를 folded scaffold 안에 숨기고 protease cleavage로 release하는 conditional activity를 구현한 사례입니다. Therapeutic delivery platform으로 일반화하려면 biodistribution, specificity, cell context, toxicity 같은 별도 evidence가 있어야 안정적으로 말할 수 있습니다.

Intrinsic peptide barcode: library engineering으로 이어지기

같은 Figure 4 안에는 peptide barcode scaffolding도 들어 있습니다. Peptide barcode는 pooled library에서 protein identity를 mass spectrometry로 확인하기 위한 tag입니다. 기존 방식은 N- 또는 C-terminal flexible fusion을 붙이는 경우가 많지만, 이런 extrinsic barcode는 expression이나 solubility에 영향을 줄 수 있습니다.

PG는 7–14 residue barcode-like sequence를 folded protein 안에 통합하는 방식으로 이 문제를 다룹니다. 84개 pooled designs를 만들고, 각 design을 개별적으로도 expression/purification해 SEC profile을 확인했습니다. 84개 중 64개가 발현되었고, 발현된 64개 중 48개가 expected elution volume에서 monodisperse peak를 보였습니다.

SEC-MS barcode trace와 individual SEC elution profile을 비교한 set에서는 58개 중 41개가 peak elution volume에서 잘 맞았습니다. 이 결과는 binder나 enzyme function validation이라기보다 library engineering evidence에 가깝습니다. 그래도 fixed short sequence를 folded protein 안에 넣는 문제가 PG와 잘 맞는다는 점을 보여줍니다.

Figure 5: 같은 sequence가 parent와 child에서 다르게 접히기

ProteinGenerator의 가장 독특한 결과는 multistate parent-child design입니다. 목표는 하나의 amino acid sequence가 intact parent state에서는 alpha/beta fold를 갖고, protease cleavage나 split 후 child A와 child B에서는 각각 all-alpha fold를 갖도록 설계하는 것입니다. 같은 sequence가 condition에 따라 다른 structural state를 가져야 하므로, 단순한 fixed-backbone sequence design으로는 다루기 어렵습니다.

PG는 여기서 multistate DSSP conditioning과 logit averaging을 사용합니다. 같은 underlying sequence에 대해 parent, child A, child B trajectory를 동시에 모델링하고, 각 state가 서로 다른 secondary-structure constraint를 갖도록 합니다. 각 step에서 RoseTTAFold가 parent와 children의 logits를 내고, 이를 linear combination으로 섞어 다음 sequence update에 사용합니다.

논문은 AF2가 parent와 child state를 high-confidence로 예측한 72개 parent-child triples를 실험적으로 characterization했고, 그중 soluble and monodisperse한 4개 family(MS1–MS4)를 CD와 NMR로 자세히 봤습니다. HSQC spectra는 MS1–MS4 parent와 children이 folded and globular protein임을 뒷받침했습니다. CD와 chemical shift analysis는 parent가 더 높은 beta-character를 갖고, children은 alpha-helical reference region에 가까운 값을 갖는다는 점을 보여줬습니다.

더 강한 evidence는 solution NMR structure입니다. MS2 parent는 design model 대비 Cα RMSD 1.06 Å, MS3 parent는 1.61 Å였습니다. Child states에 대해서는 high-resolution structure가 모두 제시된 것은 아니지만, HSQC, CD, ACS analysis가 parent와 다른 alpha-helical fold를 지지합니다.

이 section은 PG가 왜 sequence-space diffusion인지 가장 잘 설명합니다. Multistate design에서는 하나의 sequence가 여러 structural constraint를 동시에 만족해야 합니다. Structure-space diffusion에서 서로 다른 state의 구조를 직접 평균하는 것은 자연스럽지 않습니다. 반면 sequence logits를 여러 trajectory에서 평균하는 방식은 같은 sequence를 공유하면서 다른 fold 조건을 동시에 걸 수 있게 해줍니다.

Figure 1d: experimental data guidance는 retrospective simulation

논문은 PG가 experimental sequence-activity data를 guidance로 사용할 수 있다는 점도 보여줍니다. Figure 1c와 1d는 GB1 fitness landscape를 이용한 iterative guidance simulation입니다. 각 round에서 이전 designs의 activity data로 small MLP classifier를 학습하고, 그 gradient를 이용해 PG sampling을 active sequence space 쪽으로 bias합니다.

Setup은 round 0에서 96개 design을 unguided로 만들고, 이후 3 rounds 동안 round마다 96개 design을 생성하는 방식입니다. 비교 대상으로는 Bayesian optimization baseline 중 성능이 좋은 qUCB 계열을 사용했습니다. 논문은 PG-guided sampling이 평균 및 최대 fitness를 더 잘 끌어올렸다고 보고합니다.

이 결과는 future direction으로는 흥미롭습니다. PG가 RoseTTAFold 기반 sequence-structure prior를 갖고 있기 때문에, small experimental dataset만 보는 optimizer보다 foldable/function-compatible sequence 쪽으로 더 잘 움직일 수 있다는 그림입니다. 하지만 이것은 prospective wet-lab active-learning campaign이 아닙니다. Complete GB1 landscape가 이미 있는 retrospective in silico benchmark입니다. 따라서 “PG가 실험 데이터를 넣어 실제 directed evolution을 성공시켰다”가 아니라, 그런 loop에 들어갈 수 있는 modeling interface를 보여준 결과입니다.

RFdiffusion과의 관계

ProteinGenerator와 RFdiffusion은 경쟁 관계로만 보면 오해가 생깁니다. 둘 다 RoseTTAFold architecture를 바탕으로 하지만, diffusion target이 다릅니다. RFdiffusion은 structure space에서 residue frame을 denoise합니다. PG는 sequence space에서 amino-acid representation을 denoise합니다.

논문 discussion도 이 차이를 비교적 솔직하게 정리합니다. Hard constraints, 예를 들어 특정 amino acid identity나 3D motif가 있는 경우 두 방법 모두 관련 정보를 입력에 넣을 수 있습니다. 하지만 softer sequence constraints, 예를 들어 특정 amino acid 개수나 sequence property bias는 PG가 더 직접적으로 다루기 쉽습니다. 반대로 global structural property, 특히 symmetry나 target interface geometry는 structure-based diffusion이 더 자연스럽습니다.

실제로 논문은 RFdiffusion + ProteinMPNN이 motif scaffolding과 larger protein unconditional generation에서는 더 잘한다고 언급합니다. 이 지점이 중요합니다. PG는 RFdiffusion을 대체하는 범용 상위 모델이라기보다, sequence-side condition이 중심인 문제에서 강점을 갖는 side branch입니다.

Binder design 관점에서도 PG를 주역으로 두기는 어렵습니다. 이 논문의 wet-lab evidence는 foldability, sequence-property control, repeat structure, peptide caging, barcode scaffolding, multistate folding에 집중되어 있습니다. Target-specific binding affinity, specificity, developability campaign을 보여주는 논문은 아닙니다.

Evidence가 말해주는 범위

ProteinGenerator의 evidence는 꽤 풍부합니다. Unconditional small protein은 SEC/CD로 foldability를 확인했고, amino-acid composition guidance는 solubility, monomericity, CD, mass spectrometry로 뒷받침됩니다. Repeat protein은 crystal structure까지 포함합니다. Peptide caging은 cleavage, mass spectrometry, RBC hemolysis assay를 포함하고, multistate design은 CD/HSQC/NMR structure로 상당히 깊게 검증됩니다.

다만 대부분의 성공은 filtered-candidate success입니다. AF2 pLDDT, RMSD to design, SAP score 같은 computational filtering을 거친 뒤 실험에 들어갑니다. 이 점은 나쁜 것이 아닙니다. 실제 protein design은 원래 generator, sequence guidance, filtering, validation이 함께 작동합니다. 다만 raw generator hit rate와 pipeline-selected candidate success를 섞어 말하면 안 됩니다.

또 하나의 기준은 task specificity입니다. PG는 sequence-side constraint를 잘 다루는 model이라는 evidence가 강합니다. 하지만 target binder generation이나 enzyme activity creation처럼 geometry와 chemistry가 강하게 결합된 task까지 일반화하려면 별도 결과가 있어야 안정적으로 말할 수 있습니다. 특히 melittin cage는 conditional activity validation이지만, known peptide release를 구현한 사례입니다.

한계점

ProteinGenerator는 sequence-space diffusion의 장점을 잘 보여주지만, 모든 design task에 같은 강도를 갖는 모델은 아닙니다. RFdiffusion + ProteinMPNN이 motif scaffolding과 larger protein generation에서 더 강한 결과를 보인다는 점은 논문 안에서도 언급됩니다. 구조 중심 조건이 핵심인 문제에서는 structure-space diffusion이 더 자연스러울 수 있습니다.

Experimental validation은 풍부하지만 task가 특정되어 있습니다. Foldability와 biophysical validation, sequence composition control, repeat structure, peptide caging, barcode integration, parent-child multistate design이 중심입니다. Target-specific binder hit rate, proteome-wide specificity, therapeutic developability 같은 evidence는 이 논문의 claim 범위 밖입니다.

GB1 activity guidance는 prospective experiment가 아닙니다. Complete fitness landscape를 이용한 retrospective simulation이므로, 실제 실험 loop에서 얼마나 적은 round로 function을 개선할 수 있는지는 별도로 확인되어야 합니다.

마지막으로 code는 공개되어 있지만 Nature article 기준 training scripts는 제외되어 있습니다. 따라서 inference나 일부 usage는 확인 가능하더라도, full training reproducibility는 제한될 수 있습니다.

평가

ProteinGenerator의 가장 좋은 독해법은 “sequence를 diffusion target으로 삼으면 무엇이 쉬워지는가”입니다. 이 질문으로 보면 논문의 contribution이 선명해집니다. Amino-acid composition을 generation 중에 밀어주고, fixed peptide sequence를 folded scaffold 안에 넣고, repeat symmetry를 sequence tensor에 적용하고, 같은 sequence가 여러 state를 만족하도록 logits를 평균합니다.

이런 task들은 backbone-first generator가 못 한다기보다, sequence가 조건의 중심이기 때문에 sequence-space diffusion에서 더 자연스럽습니다. PG는 그 장점을 실험까지 끌고 간 논문입니다. 특히 repeat protein crystal structure와 multistate parent-child NMR validation은 단순한 in silico demonstration을 넘어섭니다.

반대로 binder generator로 과장하면 글이 흐려집니다. PG는 RFdiffusion류와 다른 축입니다. Geometry-first target binder design의 주역이라기보다, sequence-side conditional generation의 강한 anchor입니다. Protein design 지도를 그릴 때 RFdiffusion이 backbone/interface geometry의 대표라면, ProteinGenerator는 sequence condition과 multistate sequence design의 대표로 놓는 것이 가장 안정적입니다.

참고

- Lisanza et al., “Multistate and functional protein design using RoseTTAFold sequence space diffusion,” Nature Biotechnology 43, 1288–1298, DOI: 10.1038/s41587-024-02395-w. - Code: https://github.com/RosettaCommons/protein_generator. - 비교 맥락: RFdiffusion, ProteinMPNN, Sequence Design, Conditional Protein Generation, Candidate Filtering, Wet-lab Validation.