Search

약물 발견 예측에서 큰 모델이 항상 이기지 않는다는 벤치마크

이 프리프린트는 AI drug discovery에서 모델 크기와 범용성이 예측 성능 우위를 보장한다는 가정을 22개 molecular property/activity endpoint로 점검함. ADMET, Tox21, anti-TB, antimalaria 데이터에 대해 structure-similarity-separated five-fold cross-validation을 적용했고, classical ML·GNN·pretrained molecular sequence model·SAR reasoning baseline을 비교함. 결과는 endpoint와 데이터 조건에 따라 유리한 inductive bias가 달라지며, compact specialized model이 여전히 강하다는 쪽에 가까움.

요약

평가 규모는 총 167,056 held-out task-molecule evaluation이며, ADMET 37,756건, Tox21 77,946건, anti-TB 49,266건, antimalaria 2,088건으로 구성됨.
검증은 구조 유사도 분리 5-fold 방식으로 수행되어, 단순한 근접 analog memorization보다 scaffold-level 일반화에 더 엄격한 설정을 의도함.
primary metric 기준으로 RF(ECFP4), ExtraTrees(RDKit descriptors) 같은 classical ML이 10개 task에서 가장 좋았고, GIN·Ligandformer 같은 GNN이 9개, MoLFormer·ChemBERTa2 같은 pretrained sequence model이 3개 task를 이겼다고 보고함.
GPT5.5-SAR와 Opus4.7-SAR로 표기된 rule-based SAR reasoning baseline은 prespecified primary metric에서 승리하지 못했지만, train-fold-derived SAR knowledge가 해석과 reasoning에는 불균일한 개선을 줬다고 보고함.
논문은 큰 foundation model이 zero-shot reasoning, SAR interpretation, hypothesis generation에 가치를 줄 수 있어도, 구조 기반 예측 성능은 표현·inductive bias·데이터 regime·endpoint biology·validation protocol의 정합성에 좌우된다고 정리함.
분자 예측에서는 모델 크기보다 검증 설계와 endpoint별 inductive bias가 더 실무적인 변수라는 메시지로 읽히며, AI drug discovery benchmark를 볼 때 리더보드 평균보다 task 분해가 필요함.
단일 프리프린트의 benchmark이므로 데이터셋 선정과 내부 anti-infective task의 재현 가능성은 후속 검토가 필요함.

원문