GEN의 기고 글은 올리고뉴클레오타이드 신약 발견에서 AI 모델 자체보다 학습 가능한 실험 데이터의 품질과 설계가 병목이라고 정리함. 공개 문헌·특허 기반 모델만으로는 조건 불일치, sequence/chemistry 다양성 부족, negative data 결핍, 독성·off-target 정보 부족 때문에 예측력의 상한이 낮아질 수 있음을 지적함.
요약
•
올리고 therapeutics의 AI 워크플로는 보통 서열별 실험 결과를 모으고 feature를 붙인 뒤 activity·safety 패턴을 학습하는 방식으로 설명됨.
•
ASOptimizer, OligoAI, eSkip-Finder처럼 공개 데이터를 활용한 모델이 등장했지만, 기사에서는 예측값과 실험값의 상관이 대체로 0.4~0.7 수준에 머무는 한계를 언급함.
•
문제의 핵심은 데이터셋 간 실험 조건 불일치, 제한된 sequence·chemistry 범위, negative data 부족, 독성·off-target effect 정보의 불충분한 커버리지임.
•
기고자는 넓은 chemical space와 안전성 feature를 의도적으로 탐색하는 대규모 스크리닝 캠페인이 AI-ready 데이터의 기반이라고 봄.
•
RNA-seq 비용과 속도 개선으로 oligo screening에 high-throughput transcriptomics를 결합해 off-target effect를 더 체계적으로 측정할 수 있다는 점도 제시됨.
•
데이터 인프라 측면에서는 FAIR repository, protocol·batch·reagent metadata, 자동 QC/분석, HELM 같은 일관된 oligo 표기와 ontology가 필요하다고 정리됨.
•
AI-bio 실무 관점에서는 모델 아키텍처 경쟁보다 prospective screening 설계와 데이터 거버넌스가 올리고 discovery의 재현성과 전이성을 좌우할 가능성이 큼.