OpenBind가 구조 기반 AI를 위한 첫 공개 데이터셋을 내놓음. EV-A71 2A protease를 대상으로 925개 결정학적 결합 이벤트, 699개 화합물, 601개 화합물의 친화도 측정값을 연결한 구조-친화도 데이터셋이며, 기존 도킹·ML 도킹·cofolding·친화도 예측 벤치마크도 함께 제공됨.
요약
•
OpenBind는 단순한 구조 수집이 아니라 단백질-리간드 결합 구조와 결합 측정값을 조밀하게 묶어 모델 학습, fine-tuning, 벤치마킹, 오류 분석에 쓰기 쉬운 공개 데이터를 만드는 것을 목표로 함.
•
첫 릴리스의 표적은 Enterovirus A71의 2A protease로, 바이러스 polyprotein 처리와 host factor 절단에 관여하는 cysteine protease임.
•
데이터는 925개 crystallographic binding event, 699개 compound, 601개 compound의 affinity measurement로 구성되며 Zenodo, Fragalysis, GitHub benchmark, protocols.io 실험 프로토콜을 통해 접근 가능함.
•
벤치마크는 conventional docking, machine-learning docking, cofolding, affinity prediction 방법을 포함해 구조 기반 AI 모델이 같은 표적·화합물 계열에서 어디서 실패하는지 비교할 수 있게 설계됨.
•
OpenBind는 Diamond Light Source의 high-throughput crystallography와 자동화된 화학·결합 측정 워크플로를 결합해, 향후 여러 표적에 대해 같은 방식의 AI-ready 데이터를 반복 생산하려는 인프라 성격이 강함.
•
ASAP Discovery Consortium과 협력해 선정한 EV-A71 2A protease 데이터는 팬데믹 대비 항바이러스 표적의 지역적 SAR, pose confidence, receptor choice 평가에 쓸 수 있는 테스트베드 역할을 함.
•
AI drug discovery 관점에서는 새 모델 아키텍처보다 공개 실험 데이터 병목을 직접 겨냥한 사례로, docking·cofolding·affinity prediction 모델의 실제 개선을 검증할 공통 기준을 늘리는 신호임.