Bolek은 Morgan fingerprint embedding을 instruction-tuned text decoder에 주입해 분자 구조와 자연어 추론을 연결한 소형 멀티모달 모델임. 15개 TDC binary classification 과제에서 Qwen3-4B-Instruct와 TxGemma-9B-Chat을 비교 대상으로 삼아, 검증 가능한 분자 descriptor에 근거한 설명을 늘리는 방향을 제시함.
요약
•
문제의식은 drug-discovery 의사결정에 쓰이는 분자 property 모델이 점수만 내거나, LLM이 입력 분자와 약하게 연결된 그럴듯한 설명을 생성할 수 있다는 점임.
•
Bolek은 Morgan fingerprint embedding을 텍스트 decoder에 결합하고, molecule description, RDKit descriptor prediction, substructure detection 같은 molecular alignment 과제로 파인튜닝됨.
•
다운스트림 학습에는 15개 TDC binary classification task와, 구체적 분자 feature에 묶인 synthetic chain-of-thought가 사용됨.
•
yes/no 모드에서는 모든 endpoint에서 Qwen3-4B-Instruct base를 앞섰고, chain-of-thought 모드에서는 15개 중 13개 endpoint에서 앞섰다고 보고함.
•
평균 ROC/PR AUC는 0.55에서 0.76으로 상승했으며, Bolek은 크기가 절반 미만임에도 TxGemma-9B-Chat보다 15개 binary classification 중 13개에서 우세했다고 제시됨.
•
설명 품질 측면에서는 TPSA, MolLogP, MolWt 같은 RDKit descriptor를 10~100배 더 자주 인용했고, 인용값은 RDKit 계산값과 Spearman ρ 0.87~0.91 수준으로 일치함.
•
AI drug discovery 관점에서는 대형 범용 모델보다 작고 auditable한 구조-언어 결합 모델이 SAR 해석과 property prediction 보조에 더 적합할 수 있음을 보여주는 사례임.