Search

Bolek, 분자 지문을 주입한 소형 멀티모달 언어모델로 분자 추론 개선

Bolek은 Morgan fingerprint embedding을 instruction-tuned text decoder에 주입해 분자 구조와 자연어 추론을 연결한 소형 멀티모달 모델임. 15개 TDC binary classification 과제에서 Qwen3-4B-Instruct와 TxGemma-9B-Chat을 비교 대상으로 삼아, 검증 가능한 분자 descriptor에 근거한 설명을 늘리는 방향을 제시함.

요약

문제의식은 drug-discovery 의사결정에 쓰이는 분자 property 모델이 점수만 내거나, LLM이 입력 분자와 약하게 연결된 그럴듯한 설명을 생성할 수 있다는 점임.
Bolek은 Morgan fingerprint embedding을 텍스트 decoder에 결합하고, molecule description, RDKit descriptor prediction, substructure detection 같은 molecular alignment 과제로 파인튜닝됨.
다운스트림 학습에는 15개 TDC binary classification task와, 구체적 분자 feature에 묶인 synthetic chain-of-thought가 사용됨.
yes/no 모드에서는 모든 endpoint에서 Qwen3-4B-Instruct base를 앞섰고, chain-of-thought 모드에서는 15개 중 13개 endpoint에서 앞섰다고 보고함.
평균 ROC/PR AUC는 0.55에서 0.76으로 상승했으며, Bolek은 크기가 절반 미만임에도 TxGemma-9B-Chat보다 15개 binary classification 중 13개에서 우세했다고 제시됨.
설명 품질 측면에서는 TPSA, MolLogP, MolWt 같은 RDKit descriptor를 10~100배 더 자주 인용했고, 인용값은 RDKit 계산값과 Spearman ρ 0.87~0.91 수준으로 일치함.
AI drug discovery 관점에서는 대형 범용 모델보다 작고 auditable한 구조-언어 결합 모델이 SAR 해석과 property prediction 보조에 더 적합할 수 있음을 보여주는 사례임.

원문