Search

AssayBench: LLM 가상세포를 위한 어세이 수준 벤치마크

AssayBench는 세포 섭동을 실제 약물발견 워크플로에 가까운 표현형 스크리닝 문제로 평가하려는 arXiv 프리프린트임. 1,920개 공개 CRISPR 스크린과 5개 표현형 범주를 사용해 각 스크린별 유전자 순위 예측 문제를 구성하고, 서로 다른 어세이를 비교하기 위한 adjusted nDCG를 제안함. 저자들의 평가에서는 기존 방법들이 경험적으로 추정한 성능 상한과 아직 큰 격차를 보였고, zero-shot 범용 LLM이 생물학 특화 LLM과 학습형 baseline을 앞선 결과가 보고됨.

요약

가상세포 모델의 핵심 활용처 중 하나인 in silico 표현형 스크리닝을 직접 겨냥한 벤치마크로, 단일 분자 readout보다 약물발견 현장의 endpoint에 가까운 설정을 택함.
입력은 이질적인 텍스트 정보와 표현형 출력이 결합된 형태이며, 각 CRISPR 스크린에서 유전자 순위를 예측하는 task로 정식화됨.
데이터셋은 공개 CRISPR 스크린 1,920개로 구성되고, 5개 넓은 세포 표현형 범주를 포괄함.
adjusted nDCG를 도입해 어세이마다 다른 난이도와 출력 구조를 연속적인 지표로 비교하려는 설계가 제시됨.
저자들은 fine-tuning, ensembling, prompt optimization이 LLM 성능을 추가로 개선할 수 있다고 보고함.
AI-bio 관점에서는 virtual cell 주장의 실질적 진전을 phenotypic screen 예측 성능으로 재는 공개 testbed가 생긴 점이 큼.
단, 프리프린트 단계의 벤치마크이며 실제 실험 설계·hit discovery 성과를 직접 검증한 결과는 아니므로 downstream 의사결정에는 별도 검증 필요.

원문