medRxiv preprint Score 70

知识图谱整合:标识符匹配远远不够

一项新研究揭示,仅靠标识符匹配整合生物医学知识图谱会导致严重的语义退化,需谨慎处理。

生物医学知识图谱(如PrimeKG、Hetionet)在药物发现和电子健康记录分析中至关重要。然而,一项发表在medRxiv的预印本研究指出,当前整合这些图谱的主流方法——标识符匹配——存在严重缺陷。

研究人员发现,实际节点重叠率仅1-23%,大量概念无法直接对齐。更糟的是,当使用替代方法时,80%的替换会导致语义不匹配,包括同形异义词、子类误配等。

该研究呼吁开发更鲁棒的整合策略,并警告社区在未验证语义对齐的情况下,下游应用可能产生误导性结果。

knowledge graphbiomedical informaticsdata integration