1.背景

2012年5月,Google首次提出了“知识图谱”的概念。虽然至今行业尚未形成统一、标准的定义,但Google知识图谱的宣传语“things not strings”揭示了知识图谱的核心。知识图谱指的是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。知识图谱由节点和边组成,节点表示实体(entity)、概念(concept)或属性值(value);边表示实体的属性(property)或实体间的关系(relation)。

  • 实体:又称为对象(object)或实例(instance),指客观世界中具有可区别性且独立存在的某种事物,如2型糖尿病、二甲双胍。实体是知识图谱最基本的元素,每个实体可以用一个唯一的ID进行标识。
  • 概念:又称为类别(type)、类(category或class),指反映一组实体的种类或对象类型,如疾病、药品。
  • 关系:指连接不同实体的“边”,用以描述实体之间的关联,如二甲双胍和2型糖尿病之间有适应证关系。
  • 属性:指某个实体可能具有的特征以及参数,如二甲双胍有医保支付类别属性。
  • 属性值:指实体特定属性的值,如二甲双胍的医保支付类别为甲类。

知识图谱在逻辑上分为模式层和数据层。模式层一般指Schema,是知识图谱的概念模型和逻辑基础,是数据层的规范约束。数据层主要由一系列的事实组成,主要基于模式层定义的模型构建数据,以三元组形式存储。三元组G=(head,relation/property,tail)是知识图谱数据层的一种通用表示形式,其中head是三元组的头节点,tail是三元组的尾节点,relation/property={r1,r2,r3,…,rM,p1,p2,p3,…,pN}是知识图谱关系和属性的集合,共包含M 条关系和N条属性。三元组的基本形式主要包括(实体1,关系,实体2)和(实体,属性,属性值)。

以二甲双胍为例,其部分知识图谱示例如图 。

二甲双胍部分知识图谱示例

二甲双胍部分知识图谱示例


2.“汇知”医学知识图谱介绍

“汇知”医学知识图谱(Wisdomed Medical Knowledge Graph)简称为汇知”图谱,表示汇聚知识, 旨在通过建立医学实体之间的关联关系,将文本中的知识系统地组织起来,让知识更加容易被机器理解和处理,并为数据搜索、挖掘、分析等提供便利,为人工智能的实现提供知识库基础。

“汇知”医学知识图谱以OMAHA Schema做为概念层的模型,选取临床指南、临床路径、诊疗规范、医学教材、药品说明书和中国药典等作为知识源,抽取基础医学知识形成知识图谱,以填补基础医学知识图谱的缺失,满足行业内对数字化医学知识的底层共性需求。



3.“汇知”医学知识图谱应用

目前,医学知识图谱是应用最广的领域知识图谱之一,也是国内外人工智能领域研究的热点。医学知识图谱主要应用于医学领域的语义搜索、知识问答和临床决策支持等场景,随着研究的深入以及行业的发展,医学知识图谱也开始应用于药物研发、公共卫生事件应对等新领域。

3.1语义搜索

传统的搜索主要为关键词搜索,当用户向搜索引擎提交关键词查询请求时,搜索引擎通过关键词匹配的方式,在数据库中检索满足用户查询请求的内容,然后将结果反馈给用户。这种搜索引擎对查询的处理局限于词的表面形式,缺乏知识处理能力和理解能力。语义搜索则不拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕捉到用户所输入语句后面的真正搜索意图,从而更准确地返回最符合用户需求的搜索结果。将知识图谱应用于搜索是当前实现语义搜索的有效解决方案。知识图谱描述了事物的分类、属性和关系,具有丰富的语义信息,可以为语义搜索提供极大的底层支持。基于医学知识图谱的语义搜索目前被用于医学百科知识、临床指南/文献、医学健康资讯、医疗保健信息等内容的推荐。

3.2知识问答

基 于 知 识 库 的 问 答(Knowledge-BasedQuestion Answering,KBQA)也称知识问答,主要依托于大型的知识库,将用户的自然语言问题转化成结构化查询语句,直接从知识库中导出用户所需的答案 。知识问答与搜索的最主要区别在于:首先,搜索是将结果以文档承载答案的方式,而知识问答则直接将答案交付给用户;其次,搜索的用户以关键词组合的形式表达自身的需求,需掌握一定的搜索技巧,而知识问答则允许直接以自然语言的方式表达问题。知识问答强调以自然语言问答为交互形式从智能体获取知识,不但要求智能体能够理解问题的语义,还要求基于自身掌握的知识和推理计算能力形成直接的答案。由于答案是以关联图的形式组织的,所以不仅能提供精准答案,还能通过答案关联进行扩展、推理等查询,使知识展示更丰富。KBQA 已经成为各种智能问答系统的标准组件配置。知识图谱由于具有知识丰富、结构化程度高和易于推理等特点,是 KBQA 的知识库中最重要组成部分之一。

3.3临床决策支持

临床决策支持(Clinical Decision Support,CDS)是指运用相关的、系统的临床知识和患者基本信息及病情信息,向临床医务工作者提供加强医疗相关的决策和行动的信息,提高医疗质量和医疗服务水平。具有临床决策支持功能的系统,称为临床决策支持系统(Clinical Decision Support System,CDSS),一般由知识库、推理机和人机交互接口三个部分组成,其中知识库是核心。医学知识图谱中包含丰富的医学基础知识,可以作为 CDSS 知识库中的重要组成部分,它为 CDSS 的推荐结果提供了可解释的依据,能够协助系统从辅助诊断、治疗方案推荐、合理用药检测等方面为临床医务人员提供决策支持。

3.4药物研发

近年来,人工智能辅助药物研发逐渐成为研究的热点。知识图谱可应用于药物研发的知识的聚类分析,帮助提出新的可以被验证的假说,从而加速药物研发的过程,降低研发成本。

3.5公共卫生事件应对

新冠疫情突然席卷全球,引发了全世界对突发公共卫生事件的关注,如何建立事件预警和快速响应机制成为大家研究的重点。在公共卫生事件的一些场景中,如流行病学调查和疫情发生事件的分析和预警等,知识图谱采用图存储数据的理念可以起到非常大的帮助。例如,利用知识图谱的形式可以直观地表示流行病调查中的人员分布、人员活动轨迹、发病时间等信息,基于图展示出的信息可以更方便的用于病例之间相关性的分析,更快地分析和梳理出感染源头。另外,对疫情发生事件的脉络进行分析,通过找到多个事件存在的因果关系,构建疫情相关事件知识图谱。事件知识图谱可以帮助发现潜在的公共威胁,从源头上预防和降低舆情风险,也可以实现对网络舆情的有效预测,有效防范舆情事件发生及蔓延,为疫情防控营造有利的舆论场。


更多医学知识图谱应用内容可通过imit白皮书《医学知识图谱:医学人工智能的基石》进行了解,imit白皮书下载地址:http://www.imit.org.cn/index.php?g=&m=article&a=index&id=380&cid=11



  • No labels