PrimeKG-CL: 변화하는 biomedical KG를 위한 continual learning 벤치마크

PrimeKG-CL은 biomedical knowledge graph가 실제로는 주기적으로 추가·삭제·폐기되는 지식이라는 점을 반영한 continual graph learning 벤치마크 프리프린트임. 9개 권위 있는 biomedical DB에서 129K+ 노드와 8.1M+ 엣지를 구성하고, 2021년 6월과 2023년 7월 두 시점의 실제 snapshot을 사용해 persistent/added/removed 지식을 나눠 평가함. 결과적으로 정적 KG random split만으로는 drug repurposing·clinical decision support용 모델의 지식 갱신 문제를 충분히 재현하기 어려움을 보여줌.

요약

•

PrimeKG-CL은 biomedical KG의 ontology update가 수백만 엣지 추가와 대규모 deprecated edge를 만든다는 현실에서 출발함.

•

데이터셋은 129K+ 노드, 8.1M+ 엣지, 10개 node type, 30개 relation type으로 구성되고, 두 실제 temporal snapshot을 포함함.

•

snapshot 사이에는 5.83M added edge, 889K removed edge, 7.21M persistent edge가 존재해 knowledge retention과 forgetting을 분리해 볼 수 있음.

•

10개 entity-type-grouped task와 multimodal node feature를 제공하며, test split도 persistent/added/removed stratification을 갖도록 설계됨.

•

평가는 biomedical relationship prediction, entity classification, KGQA 세 task에서 6개 continual learning 전략, 4개 KGE decoder, LKGE, LLM-RAG agent, CMKL을 비교함.

•

decoder와 continual learning 전략의 상호작용이 강해 단일 최선 전략이 없었고, 잘못 조합하면 성능 저하가 커질 수 있음.

•

DistMult만 persistent 지식과 deprecated 지식 사이의 뚜렷한 분리를 보였으며, 표준 metric이 여전히 유효한 사실의 보존과 오래된 사실의 망각 실패를 섞어 볼 수 있음을 시사함.

•

AI drug discovery 관점에서는 KG 기반 repurposing/RAG 시스템을 최신 biomedical 지식에 맞게 갱신하는 평가 체계를 제공한다는 점이 실용적임.

원문

https://arxiv.org/abs/2605.10529