Search

올리고 신약에서 AI보다 먼저 필요한 실험 데이터 기반

GEN의 기고 글은 올리고뉴클레오타이드 신약 발견에서 AI 모델 자체보다 학습 가능한 실험 데이터의 품질과 설계가 병목이라고 정리함. 공개 문헌·특허 기반 모델만으로는 조건 불일치, sequence/chemistry 다양성 부족, negative data 결핍, 독성·off-target 정보 부족 때문에 예측력의 상한이 낮아질 수 있음을 지적함.

요약

올리고 therapeutics의 AI 워크플로는 보통 서열별 실험 결과를 모으고 feature를 붙인 뒤 activity·safety 패턴을 학습하는 방식으로 설명됨.
ASOptimizer, OligoAI, eSkip-Finder처럼 공개 데이터를 활용한 모델이 등장했지만, 기사에서는 예측값과 실험값의 상관이 대체로 0.4~0.7 수준에 머무는 한계를 언급함.
문제의 핵심은 데이터셋 간 실험 조건 불일치, 제한된 sequence·chemistry 범위, negative data 부족, 독성·off-target effect 정보의 불충분한 커버리지임.
기고자는 넓은 chemical space와 안전성 feature를 의도적으로 탐색하는 대규모 스크리닝 캠페인이 AI-ready 데이터의 기반이라고 봄.
RNA-seq 비용과 속도 개선으로 oligo screening에 high-throughput transcriptomics를 결합해 off-target effect를 더 체계적으로 측정할 수 있다는 점도 제시됨.
데이터 인프라 측면에서는 FAIR repository, protocol·batch·reagent metadata, 자동 QC/분석, HELM 같은 일관된 oligo 표기와 ontology가 필요하다고 정리됨.
AI-bio 실무 관점에서는 모델 아키텍처 경쟁보다 prospective screening 설계와 데이터 거버넌스가 올리고 discovery의 재현성과 전이성을 좌우할 가능성이 큼.

원문