发布文件介绍
文件命名
“汇知”医学知识图谱发布文件的名称由三个部分组成,每个部分通过下划线“_”分开。文件名称命名如:汇知医学知识图谱_“资源名称”_“发布日期”,文件名称之后为文件扩展名。
资源名称
文件名的“资源名称”描述了该文件所包含的内容信息。若该名称相同但发布时间不同,则说明文件中所涉及内容范围相同,且最近时间的为最新版本。
发布日期
文件名的“发布日期”描述了该文件发布日期,用于对“汇知”医学知识图谱资源的版本控制,标准格式为“YYYYMMDD”。
文件格式
“汇知”医学知识图谱发布文件分为两种:
- 文件包统一使用的压缩格式“.zip”;
- 单个数据文件统一使用UTF-8编码的文本文件“.txt”。
实体标识符
在“汇知”医学知识图谱中,每个概念或实例都为一个实体,每次发布时每个实体都有唯一的数字标识符表示,为19位的随机数值,不具备任何意义。
数据类型
- Long integer:长整型,64位无符号整数;
- String:字符型,指定长度的UTF-8文本;
- Number :数值型,以‘0’到‘9’数字形式表示相应的值。
字段命名规范
第一行为标题行,文件中每列的字段名称,字段名称使用“小骆驼拼写法”(如entityTag)。
文件内容规范
数据表字段说明
“汇知”医学知识图谱数据表包括了所有知识图谱实体及关系的内容,表单的具体字段介绍如下:
表 1:数据表字段说明
字段名 | 字段含义 | 数据类型 | 说明 |
---|
entityId | 实体ID | Longinteger | 用于表示同一实体的标识符,19位的数值 |
entity | 实体 | String | 用于表示该实体的名称 |
entityTag | 实体语义类型 | String | 表示实体对应的OMAHA Schema中语义类型的名称 |
property | 属性名称 | String | OMAHA Schema中属性关系的名称 |
valueId | 值ID | Longinteger | 用于表示值所对应实体的标识符,19位的数值 |
value | 值 | String | 用于表示关系所对应的值 |
valueTag | 值语义类型 | String | 表示值对应的OAMAH Schema中语义类型的名称 |
group | 关系组 | Number | 非零整数,相同时则关系为一组;若为0,则不成组 |
source | 来源 | String | 表示本条三元组的来源 |
- 实体与实体ID:标识本条三元组中的主语,并且为所有实体的唯一ID。
- 实体语义类型:标识本条三元组中作为主语实体的语义类型,具体对应OMAHA Schema中语义类型。
- 属性名称:标识本条三元组中的属性,具体对应OMAHA Schema中属性关系的名称。
- 值与值ID:标识本条三元组中的属性值。若本条三元组中的属性为数据属性时,值为具体的数据内容,值ID为空;若本条三元组中的属性为对象属性时,值为实体名,值ID为所对应的实体ID。
- 值语义类型:标识本条三元组中的属性值的语义类型。若本条三元组中的属性为对象属性时,值语义类型代表作为属性值的实体具体对应OMAHA Schema中属性关系的名称;若本条三元组中的属性为数据属性时,值语义类型则为空。
- 关系组:标识本条三元组所在的关系组,是一个非负整数。当group为0时,则代表本条三元组与其他三元组均不成组,当group不为0时,则表示本条三元组与其他相同group的三元组成组存在。
- 来源:表示本条三元组的来源和出处,可为空。
数据文件示例
数据文件示例如表2,每行表示一条关系,以三元组的方式,将实体与值通过指定的属性关系进行连接。
表2:知识图谱数据文件示例
entityId | entity | entityTag | property | valueId | value | valueTag | group | source |
---|
1567677492256854752 | 氯达香豆素 | 药品 | 用药目的 | 1567676794582572635 | 治疗用药 | 用药目的 | 1 |
|
1567677492256854752 | 氯达香豆素 | 药品 | 适应证 | 1567677480308565885 | 心绞痛 | 疾病 | 1 |
|
1567677492256854752 | 氯达香豆素 | 药品 | 用药目的 | 1567676794582572635 | 治疗用药 | 用药目的 | 2 |
|
1567677492256854752 | 氯达香豆素 | 药品 | 适应证 | 1567677480303201803 | 心衰 | 疾病 | 2 |
|
1567677492256854752 | 氯达香豆素 | 药品 | 适用人群 | 1567676794560080675 | 老年人 | 人群 | 3 |
|
1567677492256854752 | 氯达香豆素 | 药品 | 用药目的 | 1567676794582572635 | 治疗用药 | 用药目的 | 3 |
|
1567677492256854752 | 氯达香豆素 | 药品 | 适应证 | 1567677479222158265 | 冠心病 | 疾病 | 3 |
|
1567677492256854752 | 氯达香豆素 | 药品 | 名称 |
| 氯达香豆素 |
| 0 |
|
1567677492256854752 | 氯达香豆素 | 药品 | 子类 | 1567677479709304743 | 治疗心脏病用血管舒张药 | 药品 | 0 |
|
1567677492256854752 | 氯达香豆素 | 药品 | 有效成分 | 1567677492336827877 | 氯达香豆素 | 物质 | 0 |
|
1567677492256854752 | 氯达香豆素 | 药品 | OMAHA概念ID |
| 11784193 |
| 0 |
|
***特殊属性解释***
*OMAHA概念ID
指该实体所对应的“OMAHA七巧板医学术语集”中的概念ID标识符。本条属性的建立是为了方便机构用户能够更好地将“汇知医学知识图谱”与“OMAHA七巧板医学术语集”结合起来应用。若实体无该属性,则代表该实体暂时无法映射到“OMAHA七巧板医学术语集”。
*等同于
为了方便企业更好地理解和使用“汇知”医学知识图谱,2022年2月,OMAHA对实体ID体系进行了更新,在新的实体ID体系中,每个实体名称+语义标签拥有唯一的实体ID,实体融合后用“等同于”关系来表示同义关系。
例如,在原来的实体ID体系中,“HIV感染”和“艾滋病”分别为实体ID“1567677480226606765”的名称和别称,表示二者的同义关系,三元组的组织方式如下:
entityId | entity | entityTag | property | valueId | value | valueTag | group | source |
---|
1567677480226606765 | HIV感染 | 疾病 | 名称 |
| HIV感染 |
| 0 |
|
1567677480226606765 | HIV感染 | 疾病 | 别称 |
| 艾滋病 |
| 0 |
|
而在新的实体ID体系中“1567677480226606765”表示“HIV感染”,“1638862616359641908”表示“艾滋病”,二者的同义关系则简化表示为:
entityId | entity | entityTag | property | valueId | value | valueTag | group | source |
---|
1567677480226606765 | HIV感染 | 疾病 | 等同于 | 1638862616359641908 | 艾滋病 | 疾病 | 0 |
|