Bolek, 분자 지문을 주입한 소형 멀티모달 언어모델로 분자 추론 개선

Bolek은 Morgan fingerprint embedding을 instruction-tuned text decoder에 주입해 분자 구조와 자연어 추론을 연결한 소형 멀티모달 모델임. 15개 TDC binary classification 과제에서 Qwen3-4B-Instruct와 TxGemma-9B-Chat을 비교 대상으로 삼아, 검증 가능한 분자 descriptor에 근거한 설명을 늘리는 방향을 제시함.

요약

•

문제의식은 drug-discovery 의사결정에 쓰이는 분자 property 모델이 점수만 내거나, LLM이 입력 분자와 약하게 연결된 그럴듯한 설명을 생성할 수 있다는 점임.

•

Bolek은 Morgan fingerprint embedding을 텍스트 decoder에 결합하고, molecule description, RDKit descriptor prediction, substructure detection 같은 molecular alignment 과제로 파인튜닝됨.

•

다운스트림 학습에는 15개 TDC binary classification task와, 구체적 분자 feature에 묶인 synthetic chain-of-thought가 사용됨.

•

yes/no 모드에서는 모든 endpoint에서 Qwen3-4B-Instruct base를 앞섰고, chain-of-thought 모드에서는 15개 중 13개 endpoint에서 앞섰다고 보고함.

•

평균 ROC/PR AUC는 0.55에서 0.76으로 상승했으며, Bolek은 크기가 절반 미만임에도 TxGemma-9B-Chat보다 15개 binary classification 중 13개에서 우세했다고 제시됨.

•

설명 품질 측면에서는 TPSA, MolLogP, MolWt 같은 RDKit descriptor를 10~100배 더 자주 인용했고, 인용값은 RDKit 계산값과 Spearman ρ 0.87~0.91 수준으로 일치함.

•

AI drug discovery 관점에서는 대형 범용 모델보다 작고 auditable한 구조-언어 결합 모델이 SAR 해석과 property prediction 보조에 더 적합할 수 있음을 보여주는 사례임.

원문

https://arxiv.org/abs/2605.02745