AssayBench: LLM 가상세포를 위한 어세이 수준 벤치마크

AssayBench는 세포 섭동을 실제 약물발견 워크플로에 가까운 표현형 스크리닝 문제로 평가하려는 arXiv 프리프린트임. 1,920개 공개 CRISPR 스크린과 5개 표현형 범주를 사용해 각 스크린별 유전자 순위 예측 문제를 구성하고, 서로 다른 어세이를 비교하기 위한 adjusted nDCG를 제안함. 저자들의 평가에서는 기존 방법들이 경험적으로 추정한 성능 상한과 아직 큰 격차를 보였고, zero-shot 범용 LLM이 생물학 특화 LLM과 학습형 baseline을 앞선 결과가 보고됨.

요약

•

가상세포 모델의 핵심 활용처 중 하나인 in silico 표현형 스크리닝을 직접 겨냥한 벤치마크로, 단일 분자 readout보다 약물발견 현장의 endpoint에 가까운 설정을 택함.

•

입력은 이질적인 텍스트 정보와 표현형 출력이 결합된 형태이며, 각 CRISPR 스크린에서 유전자 순위를 예측하는 task로 정식화됨.

•

데이터셋은 공개 CRISPR 스크린 1,920개로 구성되고, 5개 넓은 세포 표현형 범주를 포괄함.

•

adjusted nDCG를 도입해 어세이마다 다른 난이도와 출력 구조를 연속적인 지표로 비교하려는 설계가 제시됨.

•

저자들은 fine-tuning, ensembling, prompt optimization이 LLM 성능을 추가로 개선할 수 있다고 보고함.

•

AI-bio 관점에서는 virtual cell 주장의 실질적 진전을 phenotypic screen 예측 성능으로 재는 공개 testbed가 생긴 점이 큼.

•

단, 프리프린트 단계의 벤치마크이며 실제 실험 설계·hit discovery 성과를 직접 검증한 결과는 아니므로 downstream 의사결정에는 별도 검증 필요.

원문

https://arxiv.org/abs/2605.10876