CA-DEL, DNA-encoded library screen을 위한 multi-target benchmark

CA-DEL은 DNA-encoded library(DEL) screen의 noisy enrichment signal을 실제 binding affinity 평가로 연결하기 위한 open benchmark preprint임. 세 가지 carbonic anhydrase isoform(CAII, CAIX, CAXII)을 대상으로 DEL enrichment training set과 ChEMBL Ki validation/test set을 함께 제공해, noisy screen에서 biophysical affinity로 넘어가는 Sim-to-Real 평가를 구성함. 데이터 구성, 3D pose generation, zero-shot generalization 실험, Zenodo 공개 정보까지 함께 제시됨.

요약

•

대상은 homologous carbonic anhydrase isoforms인 CAII, CAIX, CAXII이며, CAII는 ubiquitous anti-target, CAIX/CAXII는 cancer-specific target으로 설정해 isoform selectivity 문제를 벤치마크화함.

•

Training set은 DEL selection에서 온 enrichment data로 구성됨: CAII 127,500 compounds, CAIX 108,528 compounds, CAXII 127,500 compounds.

•

Test set은 ChEMBL에서 가져온 experimentally determined binding affinity, 즉 Ki data로 구성됨: CAII 6,396 compounds, CAIX 3,323 compounds, CAXII 2,689 compounds.

•

저자들은 DEL read count가 true binding affinity가 아니라 non-specific binding, synthesis impurity, PCR amplification bias가 섞인 noisy proxy라는 점을 전제로 삼음.

•

Benchmark는 2D molecular topology뿐 아니라 RDKit/MMFF94 기반 초기 conformation과 SMINA docking을 이용한 protein-ligand pose ensemble을 포함해, 3D-aware model 평가를 염두에 둠.

•

DEL training set과 ChEMBL validation/test set은 chemical space가 뚜렷하게 분리되어 있어, hit-to-lead 과정에서 생기는 distribution shift를 의도적으로 포함한 benchmark로 설계됨.

•

3D conformational ensemble을 활용하는 모델은 전통적 2D baseline보다 true binding affinity correlation과 Top-N hit retrieval에서 유리한 경향을 보임.

•

동시에 zero-shot generalization에서는 unseen protein state나 homologous target으로 넘어갈 때 성능 저하가 확인되어, 현재 모델들이 여전히 dataset-specific artifact에 의존할 수 있음을 한계로 제시함.

•

데이터는 Zenodo record 17656024에 CC BY 4.0 license로 공개되어 재사용 가능한 benchmark 형태를 갖춤.

•

AI drug discovery 관점에서는 DEL screen을 ML benchmark로 쓰되, 단순 enrichment prediction이 아니라 selectivity와 Sim-to-Real generalization을 함께 묻는 데이터셋이라는 점이 유용함.

원문

https://arxiv.org/abs/2605.07439