Search

CA-DEL, DNA-encoded library screen을 위한 multi-target benchmark

CA-DEL은 DNA-encoded library(DEL) screen의 noisy enrichment signal을 실제 binding affinity 평가로 연결하기 위한 open benchmark preprint임. 세 가지 carbonic anhydrase isoform(CAII, CAIX, CAXII)을 대상으로 DEL enrichment training set과 ChEMBL Ki validation/test set을 함께 제공해, noisy screen에서 biophysical affinity로 넘어가는 Sim-to-Real 평가를 구성함. 데이터 구성, 3D pose generation, zero-shot generalization 실험, Zenodo 공개 정보까지 함께 제시됨.

요약

대상은 homologous carbonic anhydrase isoforms인 CAII, CAIX, CAXII이며, CAII는 ubiquitous anti-target, CAIX/CAXII는 cancer-specific target으로 설정해 isoform selectivity 문제를 벤치마크화함.
Training set은 DEL selection에서 온 enrichment data로 구성됨: CAII 127,500 compounds, CAIX 108,528 compounds, CAXII 127,500 compounds.
Test set은 ChEMBL에서 가져온 experimentally determined binding affinity, 즉 Ki data로 구성됨: CAII 6,396 compounds, CAIX 3,323 compounds, CAXII 2,689 compounds.
저자들은 DEL read count가 true binding affinity가 아니라 non-specific binding, synthesis impurity, PCR amplification bias가 섞인 noisy proxy라는 점을 전제로 삼음.
Benchmark는 2D molecular topology뿐 아니라 RDKit/MMFF94 기반 초기 conformation과 SMINA docking을 이용한 protein-ligand pose ensemble을 포함해, 3D-aware model 평가를 염두에 둠.
DEL training set과 ChEMBL validation/test set은 chemical space가 뚜렷하게 분리되어 있어, hit-to-lead 과정에서 생기는 distribution shift를 의도적으로 포함한 benchmark로 설계됨.
3D conformational ensemble을 활용하는 모델은 전통적 2D baseline보다 true binding affinity correlation과 Top-N hit retrieval에서 유리한 경향을 보임.
동시에 zero-shot generalization에서는 unseen protein state나 homologous target으로 넘어갈 때 성능 저하가 확인되어, 현재 모델들이 여전히 dataset-specific artifact에 의존할 수 있음을 한계로 제시함.
데이터는 Zenodo record 17656024에 CC BY 4.0 license로 공개되어 재사용 가능한 benchmark 형태를 갖춤.
AI drug discovery 관점에서는 DEL screen을 ML benchmark로 쓰되, 단순 enrichment prediction이 아니라 selectivity와 Sim-to-Real generalization을 함께 묻는 데이터셋이라는 점이 유용함.

원문