Genie2 논문 리뷰

Genie3를 읽고 나면, 그 바로 앞 단계인 Genie2가 궁금해집니다. Genie3는 sidechain-aware partial atomization과 binder conditioning으로 넘어간 논문이지만, 그 기반에는 Genie2의 motif-conditioned backbone diffusion이 있습니다. Genie2는 binder paper라기보다, “motif를 어떻게 조건으로 줄 것인가”를 바꾼 structural design paper입니다.

논문 제목은 “Out of Many, One: Designing and Scaffolding Proteins at the Scale of the Structural Universe with Genie 2”입니다. Columbia/Rutgers 쪽 academic work이고, code와 weights가 공개된 것으로 기록됩니다. 핵심은 AFDB-scale training, SE(3)-equivariant denoising, 그리고 single/multi-motif scaffolding입니다.

이 글에서는 Genie2를 Genie → Genie2 → Genie3 흐름의 중간 고리관점에서 살펴보겠습니다. Genie가 asymmetric backbone diffusion의 출발점이라면, Genie2는 motif conditioning과 AFDB-scale structural universe를 다룹니다. Genie3는 그 위에 sidechain/interface atomistic detail을 붙여 binder design으로 들어갑니다.

Genie2를 이 위치에 놓으면 논문이 더 잘 읽힙니다. Genie2 자체는 wet-lab design milestone이 아니라, conditional backbone generation에서 “조건을 어떻게 표현할 것인가”를 다룬 논문입니다. 특히 여러 motif를 동시에 조건으로 줄 때, motif들 사이의 상대 위치까지 사람이 정해야 하는지, 아니면 model이 scaffoldable arrangement를 찾아도 되는지가 갈림길입니다.

Motif scaffolding의 병목

Protein design에서 motif scaffolding은 단순 backbone generation보다 더 어렵습니다. 그냥 foldable protein을 만드는 것이 아니라, catalytic residue, epitope, metal-binding site, receptor-binding motif처럼 기능에 중요한 local geometry를 보존하면서 주변 scaffold를 만들어야 합니다.

Single motif도 어렵지만, multi-motif는 더 까다롭습니다. 여러 motif가 있을 때, 각 motif 내부 geometry는 알고 있지만 motif들 사이의 상대 위치와 방향을 모르는 경우가 있습니다. 기존 방식은 motif coordinates를 fixed global frame에 놓고 scaffold를 만들기 쉬웠습니다. 하지만 motif 사이의 배치까지 사람이 미리 정해야 한다면 search space가 크게 제한됩니다.

Genie2가 잡는 문제는 여기입니다. Motif 내부 geometry는 보존하되, motif들 사이의 상대 배치는 model이 self-consistent하게 찾아낼 수 있는가? 이 질문이 Genie2의 가장 중요한 contribution으로 이어집니다.

이 문제는 실제 design campaign에서 자주 나옵니다. 예를 들어 epitope를 여러 개 제시하는 immunogen design, metal-binding residue arrangement, active-site residue cluster, 또는 receptor contact motif를 생각해 볼 수 있습니다. 우리가 알고 있는 것은 각 motif 내부 geometry일 때가 많고, 전체 scaffold 위에서 motif들이 어디에 놓여야 하는지는 열려 있습니다. Genie2의 formulation은 이 열린 부분을 model의 search space로 남겨둡니다.

Genie의 asymmetric representation 유지

Genie2는 Genie의 asymmetric diffusion representation을 유지합니다. Forward process에서는 Cα coordinate point cloud에 isotropic Gaussian noise를 넣습니다. Reverse process에서는 Frenet-Serret frame construction으로 얻은 oriented residue frame 위에서 SE(3)-equivariant denoiser가 noise를 예측합니다.

이 구조는 backbone-only model입니다. Sidechain atoms나 full atomistic interface를 직접 다루지는 않습니다. 그러나 Cα backbone을 만들 때 rotation/translation equivariance를 유지하면서 denoising한다는 점이 Genie lineage의 정체성입니다.

Genie2는 Genie보다 model을 키웁니다. Single representation dimension, diffusion timestep embedding, IPA decoder layers 등을 늘려 약 15.7M parameters가 됩니다. 숫자 자체보다 중요한 것은, architecture scaling과 AFDB-scale data가 함께 들어가면서 structural universe를 더 넓게 탐색하려 한다는 점입니다.

여기서 asymmetric이라는 표현도 짚고 넘어갈 만합니다. Forward process는 Cα point cloud에 noise를 넣는 단순한 coordinate diffusion입니다. Reverse process는 각 residue의 local frame을 만들어 그 위에서 denoising합니다. 즉 noise를 넣는 쪽과 denoise하는 쪽의 representation이 대칭적이지 않습니다. Genie lineage는 이 비대칭성이 Cα backbone generation에서 효율적인 inductive bias가 된다고 봅니다.

Motif를 pairwise distance로 넣기

Genie2의 핵심은 motif representation입니다. Motif residue sequence는 one-hot condition으로 single residue features에 붙이고, motif structure는 Cα pairwise distance matrix로 encoding합니다. Pairwise distance는 SE(3)-invariant이므로 motif의 absolute placement를 강제하지 않습니다.

이 설계가 multi-motif에서 중요합니다. Single motif에서는 motif segment들 사이의 geometry를 지정할 수 있습니다. Multi-motif setting에서는 motif 내부 distance만 지정하고, 서로 다른 motif들 사이의 distance/orientation은 비워둘 수 있습니다. 그러면 model은 motif들을 fixed global coordinate에 억지로 맞추는 것이 아니라, scaffold 전체가 말이 되는 방향으로 motif 사이 배치를 찾습니다.

이 점이 Genie2를 RFdiffusion-style motif conditioning과 구분합니다. Genie2는 motif를 global pose로 박아 넣는 대신, invariant distance constraint로 다룹니다. 그래서 여러 motif의 상대 배치가 under-specified된 문제를 자연스럽게 표현할 수 있습니다.

물론 pairwise distance representation에도 한계는 있습니다. Distance matrix는 chirality나 orientation detail을 직접적으로 모두 담지는 않습니다. Backbone Cα level에서는 충분히 강한 constraint가 될 수 있지만, sidechain rotamer나 atomistic contact까지 보장하지는 않습니다. 그래서 Genie2의 motif conditioning은 backbone-level structural constraint로 이해해야 하고, atomistic function geometry는 Genie3나 La-Proteína 같은 후속 all-atom 계열에서 다시 봐야 합니다.

Training: conditional motif task와 AFDB scale

Genie2는 순수 conditional motif-scaffolding task로 학습합니다. 각 training structure에서 1–4개 segment를 고르고, 전체 residue의 5–50%에 해당하는 motif residues를 샘플링합니다. 나머지는 scaffold로 두고 model이 전체 structure를 복원하도록 학습합니다.

흥미로운 점은 multi-motif task로 직접 학습한 것은 아니라는 점입니다. Training은 motif-conditioned reconstruction이지만, 논문이 보여주는 multi-motif capability는 input representation이 허용하는 out-of-distribution generalization으로 제시됩니다.

Data scale도 바뀝니다. Genie2는 Foldseek-clustered AFDB에서 pLDDT > 80, length ≤ 256 조건으로 588,570 structures를 골라 학습합니다. 논문은 Genie2를 AFDB로 학습한 첫 protein diffusion model이라고 주장합니다. 다만 AFDB는 predicted structure source이므로, PDB와 같은 experimental structure distribution은 아닙니다.

AFDB training과 low-temperature sampling

AFDB-scale training은 structural diversity를 넓혀줍니다. 하지만 AFDB structures는 ProteinMPNN/ESMFold self-consistency 기준에서 local designability가 낮게 나올 수 있습니다. 논문은 이 문제를 인식하고, low-temperature sampling이 designability를 끌어올리는 데 중요하다고 해석합니다.

이 지점은 나중의 Proteína-Atomística/CDDB 논문과도 연결됩니다. AFDB는 구조적으로 넓은 dataset이지만, sequence-structure recoverability가 항상 좋은 것은 아닙니다. Genie2는 backbone-level generator라 이 문제가 덜 치명적이지만, all-atom sequence-structure generator에서는 더 큰 병목이 됩니다.

따라서 Genie2의 AFDB training은 “더 많은 구조를 보면 무조건 좋아진다”가 아니라, structural diversity와 designability calibration 사이의 trade-off라는 관점에서 이해하면 충분합니다.

Figure 2의 AFDB/PDB self-consistency 분석은 이 trade-off를 이해하는 데 도움이 됩니다. AFDB는 PDB보다 훨씬 큰 structural universe를 제공하지만, predicted structure의 sequence-structure consistency는 균일하지 않습니다. Low-temperature sampling은 더 conservative한 region을 샘플링해 designability를 올리는 장치로 볼 수 있습니다. 대신 너무 낮은 temperature는 diversity를 줄일 수 있습니다. Genie2의 benchmark는 이 균형을 찾는 시도입니다.

Unconditional generation: designability와 diversity

In-distribution length 50–256 setting에서 Genie2는 Chroma, RFdiffusion과 비교됩니다. Table 1 기준 Genie2는 designability 0.96으로 RFdiffusion과 같지만, diversity 0.91, F1 0.93, PDB novelty 0.41, AFDB novelty 0.21로 RFdiffusion보다 높다고 보고합니다.

이 result는 Genie2가 foldable-looking structure space를 더 넓게 탐색한다는 주장으로 이어집니다. 다만 diversity와 novelty도 downstream experimental success로 바로 이어지지는 않습니다. Length-based analysis에서는 50–500 residues에 대해 100 structures씩 생성했고, training maximum length 256을 넘는 500-residue structures에서도 경쟁 model과 comparable하거나 better performance를 보였다고 설명합니다.

하지만 이 evidence는 ProteinMPNN inverse folding, ESMFold prediction, scRMSD/pLDDT self-consistency 기반입니다. 실제 expression/folding experiment가 아닙니다. Genie2의 unconditional result는 backbone designability/diversity proxy로 이해해야 합니다.

여기서 denominator도 놓치면 안 됩니다. Length별로 100 structures를 생성하고, 그 안에서 designability와 diversity를 평가합니다. 즉 이 수치는 “모델이 낸 후보 중 computational filter를 통과한 비율과 다양성”입니다. 이후 실제 design campaign에서는 후보 생성 수, filtering depth, sequence design 반복 수, experimental screening 규모가 모두 별도 denominator가 됩니다.

Single-motif scaffolding

Single-motif scaffolding에서는 RFdiffusion motif scaffolding benchmark 25 tasks 중 multi-chain motif를 요구해 지원하지 않는 6VW1을 제외한 24 tasks를 평가합니다. Success criterion은 RFdiffusion 기준을 따릅니다. Generated structure가 scRMSD ≤ 2 Å, pLDDT ≥ 70, pAE ≤ 5를 만족하고, motif backbone RMSD ≤ 1 Å이면 constraint-satisfying으로 봅니다.

논문은 단순 success rate 대신 TM-score 0.6 clustering 후 unique successes를 보고합니다. 이 점은 중요합니다. 같은 motif를 만족하는 구조가 많이 나와도 서로 비슷한 fold라면 design diversity가 낮을 수 있기 때문입니다.

Genie2는 24개 task 중 22개에서 RFdiffusion과 비슷하거나 더 많은 unique designs를 만들었다고 보고합니다. 5WN9 RSV G-protein 2D10 site task는 Genie2가 solve하지만 RFdiffusion은 solve하지 못한다고 되어 있습니다. 실패 사례로는 4JHW RSV F-protein site-0 task가 제시되며, Genie2는 designable structures를 만들지만 motif constraint를 만족하지 못했다고 설명합니다.

이 실패 사례가 오히려 유용합니다. Designable structure를 만들었다는 것과 motif constraint를 만족했다는 것은 다른 기준입니다. Backbone이 잘 접힐 것처럼 보여도 motif geometry가 무너지면 motif scaffolding task는 실패입니다. Genie2가 unique success를 강조하는 이유도 여기 있습니다. “많이 만들었다”보다 “서로 다른 fold에서 motif constraint와 designability를 동시에 만족했다”가 더 중요한 metric입니다.

Multi-motif scaffolding

Genie2의 가장 독특한 result는 multi-motif scaffolding입니다. 논문은 curated 6개 multi-motif tasks를 평가합니다. Examples include two epitopes, four EF-hand Ca²⁺ binding sites, two PD-1 binding motifs, Cl⁻/Ni²⁺ binding sites, IL-2 receptor-related dual binding-site tasks입니다.

Genie2는 6개 중 4개를 solve했다고 보고합니다. 추가로 concurrent RSV fusion protein 3-epitope immunogen task도 1,000 samples로 solve했다고 제시합니다. 이 result는 motif들 사이의 상대 placement를 사람이 완전히 지정하지 않아도, model이 구조적으로 plausible한 배치를 찾을 수 있다는 주장으로 이어집니다.

다만 multi-motif result도 wet-lab function evidence가 아닙니다. Multi-epitope immunogen, multi-site enzyme, dual-binding protein처럼 보이는 candidates를 만들 수 있다는 structural proxy입니다. 실제 antigenicity, binding, catalysis, stability는 별도 검증 영역입니다.

그래도 multi-motif result는 Genie2의 identity를 가장 잘 보여줍니다. 여러 motif가 있을 때 모든 inter-motif distance를 지정하지 않으면, model은 motif들을 rigid하게 고정하지 않고 새로운 arrangement를 찾을 수 있습니다. 논문이 말하는 “Out of Many, One”은 이 지점과 맞닿아 있습니다. 여러 local constraints에서 하나의 scaffoldable global structure를 찾는 문제입니다.

Figure별로 보기

Figure 1은 Genie2 architecture와 single-/multi-motif input formulation입니다. 여기서 motif structure가 pairwise distance matrix로 들어가고, inter-motif geometry를 비워둘 수 있다는 점을 잡아야 합니다.

Table 1은 Chroma/RFdiffusion/Genie2 unconditional generation comparison입니다. Designability, diversity, novelty가 함께 나오므로 하나의 metric만 보면 안 됩니다.

Table 2와 Table 3도 같이 보면 좋습니다. Table 2는 Genie에서 Genie2로 넘어가며 model size와 hyperparameter가 어떻게 바뀌었는지 보여줍니다. Table 3은 conditional-task ratio ablation으로, motif-conditioned training 비율이 성능에 어떤 영향을 주는지 확인하는 역할을 합니다. Genie2는 단순히 data만 늘린 model이 아니라, conditional generation setting을 명시적으로 훈련한 model입니다.

Figure 2는 secondary-structure distribution과 AFDB/PDB self-consistency analysis입니다. AFDB training의 장점과 calibration 문제를 같이 보여줍니다. Figure 3은 length-dependent generation performance입니다.

Figure 4는 single-motif scaffolding comparison, Figure 5는 multi-motif scaffolding examples입니다. Table 4는 multi-motif benchmark definitions를 담고 있어, 각 task가 실제로 어떤 motif constraints를 요구하는지 확인하는 데 중요합니다.

Genie3와의 연결

Genie3는 Genie2가 남긴 문제를 이어받습니다. Genie2는 motif-conditioned backbone generator입니다. Motif를 어떻게 조건으로 줄지, AFDB-scale structural universe를 어떻게 탐색할지, multi-motif under-specification을 어떻게 다룰지 보여줍니다.

하지만 binder design으로 가려면 sidechain atom과 target interface가 필요합니다. Genie3는 여기서 branched polymer, partial atomization, multimer training, hotspot conditioning을 붙입니다. 즉 Genie2의 motif conditioning은 Genie3의 interface conditioning으로 이어지는 중간 단계입니다.

이 연결을 염두에 두면 Genie2를 단순히 “Genie의 성능 개선판”으로 이해하지 않게 됩니다. Genie2는 Genie3의 atomistic/binder step 이전에, condition representation을 정리한 논문입니다.

RFdiffusion과의 비교

Genie2는 RFdiffusion과 자주 비교됩니다. RFdiffusion은 motif scaffolding과 binder design에서 실용적 영향력이 큰 model이고, wet-lab binder design까지 이어진 강한 lineage입니다. Genie2는 RFdiffusion과 비슷하거나 더 높은 in silico unique success를 보이는 task들이 있지만, evidence layer는 다릅니다.

RFdiffusion은 downstream wet-lab design ecosystem과 결합되어 실제 binder/function design 사례가 많습니다. Genie2 논문 자체는 wet-lab validation이 없습니다. 따라서 Genie2를 “RFdiffusion보다 낫다”로 요약하면 부정확합니다. 더 정확히는, Genie2가 motif scaffolding benchmark에서 invariant motif representation과 AFDB-scale training을 통해 높은 structural diversity/designability proxy를 보였다고 말할 수 있습니다.

또 하나의 차이는 sampling budget입니다. Genie2는 1,000 denoising iterations를 사용합니다. RFdiffusion의 50 iterations, FrameFlow의 100 iterations, Chroma의 500 iterations와 비교하면 느린 편입니다. Benchmark에서 좋은 structural proxy를 얻었다고 해도, 실제 high-throughput design workflow에서는 sampling cost가 중요한 실무 변수로 남습니다.

Evidence layer를 나눠 보기

Genie2의 evidence는 세 층으로 나눠 읽으면 깔끔합니다. 첫 번째는 unconditional backbone generation입니다. 여기서는 designability, diversity, novelty, secondary structure distribution을 봅니다. 이 층은 Genie2가 AFDB-scale structure space를 얼마나 잘 탐색하는지 보여줍니다.

두 번째는 single-motif scaffolding입니다. 여기서는 RFdiffusion benchmark와 비교하며 motif RMSD, scRMSD, pLDDT, pAE, TM-score clustering이 중요합니다. 이 층은 정해진 motif geometry를 유지하면서 diverse scaffold를 만들 수 있는지 봅니다.

세 번째는 multi-motif scaffolding입니다. Genie2의 가장 독특한 claim이 여기에 있습니다. Motif 내부 geometry만 주고 inter-motif arrangement를 비워둔 상태에서, model이 self-consistent global scaffold를 찾을 수 있는지 평가합니다. 세 층 모두 computational structural evidence입니다. Wet-lab assay나 functional readout은 포함되지 않습니다.

읽을 때의 균형점

Genie2는 wet-lab design milestone보다는 conditional backbone generation method paper로 이해할 때 contribution이 선명합니다. 성능 평가는 ProteinMPNN, ESMFold, scRMSD, pLDDT, pAE, motif RMSD, TM-score clustering 위에 놓여 있고, 이 지표들은 motif-conditioned backbone이 구조적으로 얼마나 그럴듯한지 보는 데 초점을 둡니다.

Multi-motif result도 같은 층위에서 읽으면 됩니다. Multi-function protein이나 multi-epitope immunogen이 실제로 작동한다는 뜻은 아니지만, motif 사이의 상대 배치를 사람이 미리 고정하지 않아도 model이 scaffoldable arrangement를 찾을 수 있음을 보여주는 좋은 structural evidence입니다.

AFDB training은 structural universe를 넓히는 대신 predicted-structure bias를 가져옵니다. Genie2가 backbone model이라는 점, sidechain atomistic interaction과 interface detail은 Genie3 이후의 문제라는 점, 1,000 denoising iterations로 sampling cost가 큰 편이라는 점을 함께 두면 과장 없이 읽을 수 있습니다.

평가: under-specified motif geometry의 의미

Genie2의 가치는 “Genie보다 더 큰 model”이라는 데 있지 않습니다. Motif를 pairwise distance matrix로 표현해 absolute placement를 강제하지 않고, multi-motif under-specification을 자연스럽게 다룬다는 점이 핵심입니다.

이 아이디어는 structural design에서 중요합니다. 여러 functional motif가 있을 때, 사람이 motif 사이 배치를 미리 정하지 않아도 model이 scaffoldable arrangement를 찾는다면 search space가 훨씬 넓어집니다. Genie2는 이 가능성을 in silico benchmark로 보여줍니다.

결론은 structural evidence의 층위를 지키면 충분합니다. Genie2는 foldable-looking motif-scaffold candidates를 다양하게 만들 수 있음을 보여주고, 특히 under-specified multi-motif conditioning을 자연스럽게 다룹니다. 실제 기능, binding, immunogenicity, developability는 후속 all-atom/interface model에서 다시 확인해야 할 영역입니다.

참고

- Paper: “Out of Many, One: Designing and Scaffolding Proteins at the Scale of the Structural Universe with Genie 2” - Authors: Yeqing Lin, Minji Lee, Zhao Zhang, Mohammed AlQuraishi - arXiv: https://arxiv.org/abs/2405.15489 - Code/weights: https://github.com/aqlaboratory/genie2 - Raw source: `raw/papers/Genie2/genie2.pdf` - Extracted source: `raw/papers/Genie2/extracted/genie2.txt`