Boltz-2 논문 리뷰

Boltz-1이 던진 질문은 “AF3-style biomolecular complex prediction을 open infrastructure로 만들 수 있는가”였습니다. Boltz-2는 그 다음 질문으로 넘어갑니다. 구조가 그럴듯한지 아는 것만으로 drug discovery 의사결정이 충분한가? 보통은 그렇지 않습니다. 실제 hit discovery와 lead optimization에서는 “어디에 결합할 것인가”만큼 “얼마나 세게 결합할 것인가”가 중요합니다.

Boltz-2의 제목은 “Boltz-2: Towards Accurate and Efficient Binding Affinity Prediction”입니다. MIT CSAIL/Jameel Clinic, Valence Labs/Recursion, ETH Zurich collaboration으로 기록되는 preprint/technical report입니다. 이 글에서는 Boltz-2를 Boltz-1의 후속 predictor라는 관점에서 보되, 구조 예측 성능이 아니라 binding affinity prediction layer에 초점을 맞추겠습니다.

핵심 framing은 단순합니다. Boltz-1 confidence는 structural accuracy proxy입니다. Boltz-2는 protein-ligand affinity라는 별도 target을 supervised signal로 학습해, docking score보다 더 강하고 FEP/ABFE보다 훨씬 빠른 computational triage layer를 만들려 합니다.

이 구분은 Boltz 계열 전체를 읽을 때 기준선이 됩니다. Boltz-1은 “pose가 그럴듯한가”를 보고, Boltz-2는 “그 pose와 interaction representation이 affinity readout을 설명하는가”를 봅니다. 하나는 structural plausibility이고, 다른 하나는 thermodynamic ranking입니다. 두 층이 이어져 있지만 같은 말은 아닙니다.

구조가 맞는 것과 세게 결합하는 것

AlphaFold3와 Boltz-1 계열은 complex pose를 예측합니다. Protein-ligand complex에서 ligand가 pocket 안에 plausible하게 놓이는지, protein-protein interface가 맞는지, local geometry가 reasonable한지를 봅니다. 하지만 pose가 plausible하다고 binding affinity가 높다는 뜻은 아닙니다.

Affinity는 thermodynamic quantity입니다. Pocket desolvation, conformational entropy, induced fit, protonation, water network, ligand strain, off-target conformational state 같은 요소가 함께 작동합니다. Structure predictor의 trunk representation이 interaction 정보를 담고 있을 수는 있지만, confidence score가 affinity score로 자동 변환되지는 않습니다.

그래서 Boltz-2의 성공 여부는 pose prediction benchmark만으로 판단할 수 없습니다. 같은 pocket 안에 비슷하게 놓인 ligand라도 substituent 하나가 water network를 깨거나 strain을 만들면 affinity가 크게 달라질 수 있습니다. 반대로 docking pose가 약간 달라도 assay readout에서는 같은 chemical series 안의 rank가 더 중요할 때도 있습니다.

Boltz-2는 이 사이를 메우려는 모델입니다. Structure prediction foundation model의 representation을 이용하되, millions of biochemical assay measurements를 standardized해서 affinity prediction signal로 학습합니다. 즉 구조 예측 모델 위에 drug discovery decision layer를 얹는 시도입니다.

Data curation이 모델의 일부가 되는 지점

Binding data는 많지만 지저분합니다. Assay modality가 다르고, IC50/Ki/Kd/EC50 같은 readout이 섞이며, target construct와 buffer, temperature, ligand protonation state도 다릅니다. Public dataset을 그대로 쓰면 noise와 batch effect가 model target으로 들어갑니다.

Boltz-2는 이 문제를 data standardization으로 다룹니다. 논문은 millions of biochemical assay measurements를 정리해 affinity model training에 사용했다고 설명합니다. 여기서 중요한 것은 architecture만이 아닙니다. Affinity prediction model에서는 어떤 assay를 어떤 scale로 통합했는지, leakage를 어떻게 막았는지, train/test split이 target family와 chemical series를 얼마나 분리하는지가 성능 해석의 일부입니다.

이 리뷰에서는 raw source에서 확인되는 수준까지만 다룹니다. Boltz-2의 affinity benchmark는 강한 claim을 담고 있지만, dataset curation과 split detail은 publication-facing 해석에서 특히 조심해서 봐야 합니다.

특히 affinity model은 leakage에 민감합니다. 같은 target family, 비슷한 scaffold, 같은 assay campaign이 train/test 양쪽에 걸쳐 있으면 성능이 부풀 수 있습니다. 반대로 너무 엄격한 split은 실제 lead optimization use case보다 어려울 수도 있습니다. 따라서 Boltz-2 숫자는 어떤 split에서 어떤 의사결정을 모사하는지와 함께 읽어야 합니다.

Boltz-1 위에 affinity head를 붙이다

Boltz-2는 Boltz-1의 biomolecular interaction modeling 기반을 이어받습니다. Protein-ligand complex를 예측하는 trunk/diffusion machinery가 있고, 그 representation을 affinity prediction에 활용합니다. 논문은 cofolding process를 구동하는 latent/trunk feature가 binding interaction signal을 담는다고 봅니다.

동시에 structure prediction 쪽 controllability도 확장됩니다. Experimental method conditioning, user-defined distance constraints, multi-chain template integration 같은 기능이 언급됩니다. Training data도 static structure를 넘어 experimental and molecular dynamics ensembles까지 확장했다고 설명합니다.

이 변화는 Boltz-2를 단순 scoring head로 보지 않게 합니다. Structure prediction이 upstream feature가 되고, affinity prediction이 downstream decision score가 되는 통합 model에 가깝습니다. 하지만 affinity prediction은 여전히 predicted structure와 representation에 의존합니다. Pocket이나 conformational state가 틀리면 affinity도 흔들립니다.

FEP와 docking 사이의 목표 지점

Drug discovery에서 docking은 빠르지만 noisy하고, FEP/ABFE는 더 정확할 수 있지만 비용이 큽니다. Boltz-2는 이 둘 사이를 노립니다. FEP에 접근하는 accuracy/speed trade-off를 갖고, FEP보다 최소 1000배 computationally efficient하다는 claim을 제시합니다.

이 framing은 매우 매력적입니다. 수십만 개 ligand를 docking으로 거칠게 거르고, 소수만 FEP로 계산하던 workflow에서 Boltz-2가 중간 ranking layer가 될 수 있기 때문입니다. 하지만 이 claim은 benchmark와 retrospective comparison 안에서 읽어야 합니다.

Boltz-2가 wet-lab assay를 대체했다기보다, expensive physics-based calculation과 noisy docking score 사이에 들어가는 learned triage model로 보는 것이 자연스럽습니다.

Hit-to-lead와 lead optimization benchmark

Boltz-2는 FEP+ benchmark와 protein-ligand benchmark subset에서 deep-learning baselines보다 높고 FEP-based methods에 접근하는 성능을 주장합니다. Figure 1은 CDK2, TYK2, JNK1, P38 같은 target subset에서 accuracy/speed trade-off를 보여주는 main figure로 보입니다.

여기서 봐야 할 것은 absolute rank만이 아닙니다. Lead optimization에서는 같은 target 안에서 congeneric series의 relative affinity를 잘 맞히는 것이 중요합니다. Hit discovery에서는 binders와 decoys를 구분하는 enrichment가 중요합니다. 같은 “affinity prediction”이라도 task가 다르면 useful metric이 달라집니다.

Boltz-2가 FEP-like layer로 작동하려면 단순 global correlation보다 chemical series 안에서의 ranking, scaffold hop 상황에서의 robustness, target-family split에서의 generalization이 중요합니다. 논문은 여러 benchmark로 이를 주장하지만, 독자는 benchmark type별 evidence를 분리해서 봐야 합니다.

Lead optimization에서는 절대 Kd 하나보다 ΔΔG ranking이 더 실용적일 수 있습니다. Hit discovery에서는 active enrichment가 더 중요합니다. Generative chemistry에서는 synthesizability와 novelty까지 같이 봅니다. Boltz-2가 하나의 affinity model이라고 해도, 각 use case가 요구하는 metric은 다릅니다.

CASP16 affinity track

Boltz-2는 CASP16 affinity track retrospective evaluation에서도 좋은 성능을 보였다고 주장합니다. Submitted competition entries보다 out-of-the-box 성능이 좋다는 framing입니다.

이 result는 흥미롭지만, prospective wet-lab validation과는 다릅니다. CASP16 affinity track은 assay-derived benchmark에 대한 retrospective evaluation입니다. Model이 이미 공개된 구조/sequence/assay distribution에서 어떤 ranking을 내는지 보는 것이지, 새로운 molecule을 만들고 실험으로 확인한 것은 아닙니다.

그래도 이 benchmark는 의미가 있습니다. Affinity prediction은 docking pose prediction보다 assay readout에 더 가까운 task이므로, community benchmark에서 경쟁력이 있다는 것은 Boltz-2가 structural confidence를 넘어선 signal을 학습했을 가능성을 보여줍니다.

MF-PCBA: hit discovery setting

Boltz-2는 MF-PCBA high-throughput screening benchmark에서도 binders와 decoys를 구분하고 enrichment gain을 낸다고 설명합니다. 이 setting은 lead optimization과 다릅니다. 여기서는 같은 chemical series 안의 작은 affinity difference보다, large library에서 active compound를 위로 끌어올리는 ranking이 중요합니다.

MF-PCBA result는 Boltz-2가 screening prioritization에 쓰일 수 있다는 근거입니다. 하지만 이 역시 retrospective discrimination입니다. Assay-derived benchmark에서 active/decoy separation을 잘했다는 뜻이지, prospective campaign에서 hit를 새로 발견했다는 뜻은 아닙니다.

따라서 MF-PCBA는 “wet-lab data 기반 benchmark”이지만 “prospective wet-lab success”는 아닙니다. 이 구분이 Boltz-2 리뷰의 핵심 해석 기준입니다.

이 표현은 조금 까다롭지만 중요합니다. Retrospective benchmark는 과거 실험 데이터를 test set으로 쓰기 때문에 experimental readout에 기반합니다. 그러나 model이 새 후보를 제안하고, 그 후보를 실제로 합성·측정해 성공한 prospective campaign과는 evidence level이 다릅니다.

TYK2 generation workflow

Boltz-2는 de novo generation workflow도 보여줍니다. Small-molecule generative model과 결합해 TYK2 target에 대해 diverse, synthesizable, high-affinity binders를 찾는 pipeline입니다.

여기서 endpoint를 조심해서 읽어야 합니다. 논문은 generated molecules downstream score가 ABFE ∆G와 |R| = 0.74로 correlate된다고 제시합니다. 즉 generated molecules를 wet-lab binding assay로 검증한 것이 아니라, ABFE/FEP simulation estimate와 비교한 computational validation입니다.

이 result는 Boltz-2가 generative chemistry workflow의 fast prioritization layer가 될 수 있음을 보여줍니다. 하지만 “TYK2 binder를 실험적으로 발견했다”는 claim으로 이해하면 안 됩니다. Evidence layer는 computational prioritization + ABFE comparison입니다.

여기서도 denominator를 분리해두면 충분합니다. Generative model이 몇 개 molecule을 냈는지, Boltz-2가 몇 개를 우선순위로 올렸는지, ABFE/FEP estimate로 몇 개가 살아남았는지는 computational funnel입니다. 실제 hit rate는 synthesis와 biochemical assay를 통과한 뒤에야 말할 수 있습니다.

Boltz-1, Boltz-2, BoltzGen의 차이

Boltz-1은 structure prediction infrastructure입니다. Complex pose와 structural confidence를 봅니다. Boltz-2는 그 위에 affinity prediction을 붙입니다. Binding strength를 더 직접적으로 예측하려 합니다. BoltzGen은 다시 generative design으로 넘어가, binder sequence/structure를 만드는 방향입니다.

이 세 모델은 같은 lineage에 있지만 같은 종류의 evidence를 갖지 않습니다. Boltz-1은 benchmark structure accuracy와 openness가 중심입니다. Boltz-2는 retrospective affinity benchmark와 computational prioritization이 중심입니다. BoltzGen은 wet-lab binder campaigns까지 포함합니다.

이 구분을 해두면 후속 리뷰가 깔끔해집니다. Boltz-2는 BoltzGen의 wet-lab binder result를 미리 보여주는 논문이 아니라, affinity-aware filtering/decision layer를 구축하는 논문입니다.

Figure별로 보기

Figure 1은 Boltz-2의 affinity accuracy/speed trade-off를 보여주는 overview입니다. FEP, docking, deep-learning baseline과 비교하는 맥락으로 이해하면 됩니다.

Figure 6은 full protein-ligand benchmark result로 연결되는 main affinity benchmark figure로 보입니다. 여기서는 target split, metric, baseline availability를 같이 확인하면 해석이 안정적입니다.

TYK2 generation section은 generative model + Boltz-2 prioritization + ABFE estimate workflow입니다. Wet-lab endpoint가 아니라 computational endpoint라는 점을 놓치지 않는 것이 중요합니다.

Limitations section도 꼭 같이 읽어야 합니다. 논문은 affinity module이 predicted structure/trunk feature에 의존하기 때문에 pocket/conformational state가 틀리면 downstream affinity도 신뢰하기 어렵다고 직접 언급합니다.

Evidence layer를 분리해서 읽기

Boltz-2의 evidence는 세 층으로 나눌 수 있습니다. 첫 번째는 affinity benchmark입니다. FEP+ benchmark, protein-ligand benchmark, CASP16 affinity track, MF-PCBA가 여기에 들어갑니다. 이 층은 retrospective assay-derived or benchmark-derived evaluation입니다.

두 번째는 speed/accuracy trade-off입니다. FEP보다 훨씬 빠르면서 FEP-like accuracy에 접근한다는 claim입니다. 이 층은 practical screening workflow에서 의미가 큽니다.

세 번째는 de novo generation workflow입니다. TYK2 example이 여기에 들어갑니다. Endpoint는 ABFE simulation estimate와의 correlation입니다. 즉 prospective assay가 아니라 computational prioritization layer입니다.

읽을 때의 균형점

Boltz-2는 binding affinity prediction model입니다. Boltz-1의 structure confidence와 Boltz-2의 affinity score를 구분하면 lineage가 선명해집니다. 하나는 pose plausibility를, 다른 하나는 thermodynamic ranking을 겨냥합니다.

MF-PCBA나 CASP16 affinity track은 assay-derived benchmark입니다. 새로운 실험 campaign 성공은 아니지만, retrospective benchmark 안에서 active/decoy separation과 affinity ranking을 평가하는 데는 충분히 의미가 있습니다. TYK2 generation workflow도 wet-lab binder discovery라기보다 ABFE/FEP simulation estimate와 연결된 computational funnel로 이해하면 됩니다.

Affinity prediction은 predicted pocket, pose, conformational state에 영향을 받습니다. Dataset curation과 split도 성능 해석의 일부입니다. Binding assay data는 noisy하고 leakage에 민감하므로, benchmark number는 assay standardization 맥락 안에서 보는 편이 좋습니다.

Protein design 쪽에서 얻는 교훈

Boltz-2는 small-molecule affinity prediction 논문에 가깝지만, protein binder design에도 중요한 교훈을 줍니다. Structure plausibility만으로 후보를 고르면 false positive가 많이 생깁니다. Interface가 그럴듯하고 confidence가 높아도, 실제 binding energy, specificity, expression, aggregation behavior는 다른 문제입니다.

Protein binder 쪽에서도 결국 비슷한 layer가 필요합니다. AF3/Boltz-style predictor는 complex pose를 평가하고, 별도의 affinity/specificity/developability model이나 assay cascade가 그 다음에 붙습니다. Boltz-2는 이 separation을 small-molecule protein-ligand setting에서 명확히 보여주는 사례입니다.

평가: FEP와 assay 사이의 빠른 triage layer

Boltz-2의 가치는 Boltz-1의 구조 예측을 drug discovery decision variable 쪽으로 한 단계 옮긴 데 있습니다. Structure plausibility만으로는 후보를 고르기 어렵습니다. Affinity-aware ranking layer가 있어야 library screening, lead optimization, generative chemistry prioritization이 더 실용적이 됩니다.

Boltz-2는 docking과 FEP 사이에 놓이는 fast learned prioritization layer에 가깝습니다. 이 layer가 좋으면 후보 수를 줄이고, expensive simulation이나 assay로 보낼 molecule을 더 잘 고를 수 있습니다.

Protein binder design 관점에서도 교훈이 있습니다. 구조가 맞는 것과 결합이 강한 것은 다릅니다. Boltz-2는 그 간극을 small-molecule affinity prediction에서 직접 다루는 사례입니다. 후속 BoltzGen을 읽을 때도 이 distinction이 중요합니다.

참고

- Paper: “Boltz-2: Towards Accurate and Efficient Binding Affinity Prediction” - Authors: Saro Passaro, Gabriele Corso, Jeremy Wohlwend, Mateo Reveiz, Stephan Thaler, Vignesh Ram Somnath, Noah Getz, Tally Portnoi, Julien Roy, Hannes Stark, David Kwabi-Addo, Dominique Beaini, Tommi Jaakkola, Regina Barzilay - Raw source: `raw/papers/Boltz-2/boltz-2.pdf` - Extracted source: `raw/papers/Boltz-2/extracted/boltz-2.txt`