- Created by 徐美兰, last modified by 品牌与产品中心 on Sep 13, 2023
1.发布文件介绍
1.1文件命名
文件的名称由三个部分组成,每个部分通过下划线“_”分开。文件名称命名如:汇知医学知识图谱_“资源名称”_“发布日期”,文件名称之后为文件扩展名。
1.2资源名称
文件名的“资源名称”描述了该文件所包含的内容信息。若该名称相同但发布时间不同,则说明文件中所涉及内容范围相同,且最近时间的为最新版本。
1.3发布日期
文件名的“发布日期”描述了该文件发布日期,用于对资源的版本控制,标准格式为“YYYYMMDD”。
1.4文件格式
发布文件分为两种:
- 文件包统一使用的压缩格式“.zip”;
- 单个数据文件统一使用UTF-8编码的文本文件“.txt”。
1.5实体标识符
每次发布时每个实体都有唯一的数字标识符表示,为19位的随机数值,不具备任何意义。
1.6数据类型
- Long integer:长整型,64位无符号整数;
- String:字符型,指定长度的UTF-8文本;
- Number :数值型,以‘0’到‘9’数字形式表示相应的值。
1.7字段命名规范
第一行为标题行,文件中每列的字段名称,字段名称使用“小骆驼拼写法”(如entityType)。
2.文件内容规范
2.1数据表字段说明
表 1:数据表字段说明
字段名 | 字段含义 | 数据类型 | 说明 |
---|---|---|---|
relationId | 关系ID | Longinteger | 用于表示每条三元组的唯一标识符,19位的数值 |
entityId | 实体ID | Longinteger | 用于表示同一实体的标识符,19位的数值 |
entity | 实体 | String | 用于表示该实体的名称 |
entityType | 实体语义类型 | String | 表示实体对应的OMAHA Schema中语义类型的名称 |
property | 属性名称 | String | OMAHA Schema中属性关系的名称 |
valueId | 值ID | Longinteger | 用于表示值所对应实体的标识符,19位的数值 |
value | 值 | String | 用于表示关系所对应的值 |
valueType | 值语义类型 | String | 表示值对应的OAMAH Schema中语义类型的名称 |
group | 关系组 | Number | 非零整数,相同时则关系为一组;若为0,则不成组 |
source | 来源 | String | 表示本条三元组的来源 |
- 关系ID:标识本条三元组的唯一ID,三元组不变则ID不变,可在版本更新时作为比对字段。
- 实体与实体ID:标识本条三元组中的主语,并且为所有实体的唯一ID。
- 实体语义类型:标识本条三元组中作为主语实体的语义类型,具体对应OMAHA Schema中语义类型。
- 属性名称:标识本条三元组中的属性,具体对应OMAHA Schema中属性关系的名称。
- 值与值ID:标识本条三元组中的属性值。若本条三元组中的属性为数据属性时,值为具体的数据内容,值ID为空;若本条三元组中的属性为对象属性时,值为实体名,值ID为所对应的实体ID。
- 值语义类型:标识本条三元组中的属性值的语义类型。若本条三元组中的属性为对象属性时,值语义类型代表作为属性值的实体具体对应OMAHA Schema中属性关系的名称;若本条三元组中的属性为数据属性时,值语义类型则为空。
- 关系组:标识本条三元组所在的关系组,是一个非负整数。当group为0时,则代表本条三元组与其他三元组均不成组,当group不为0时,则表示本条三元组与其他相同group的三元组成组存在。
- 来源:表示本条三元组的来源和出处,可为空。
2.2数据文件示例
数据文件示例如表2,每行表示一条关系,以三元组的方式,将实体与值通过指定的属性关系进行连接。
表2:知识图谱数据文件示例
relationId | entityId | entity | entityTag | property | valueId | value | valueTag | group | source |
---|---|---|---|---|---|---|---|---|---|
1667894708877407689 | 1567677492256854752 | 氯达香豆素 | 药品 | 用药目的 | 1567676794582572635 | 治疗用药 | 用药目的 | 1 | OMAHA数字医学知识专家 |
1667894711813435997 | 1567677492256854752 | 氯达香豆素 | 药品 | 适应证 | 1567677480308565885 | 心绞痛 | 疾病 | 1 | OMAHA数字医学知识专家 |
1667894791358558300 | 1567677492256854752 | 氯达香豆素 | 药品 | 用药目的 | 1567676794582572635 | 治疗用药 | 用药目的 | 2 | OMAHA数字医学知识专家 |
1667894317427712231 | 1567677492256854752 | 氯达香豆素 | 药品 | 适应证 | 1567677480303201803 | 心衰 | 疾病 | 2 | OMAHA数字医学知识专家 |
1667894821187465619 | 1567677492256854752 | 氯达香豆素 | 药品 | 适用人群 | 1567676794560080675 | 老年人 | 人群 | 3 | OMAHA数字医学知识专家 |
1667894664530925793 | 1567677492256854752 | 氯达香豆素 | 药品 | 用药目的 | 1567676794582572635 | 治疗用药 | 用药目的 | 3 | OMAHA数字医学知识专家 |
1667894735375799497 | 1567677492256854752 | 氯达香豆素 | 药品 | 适应证 | 1567677479222158265 | 冠心病 | 疾病 | 3 | OMAHA数字医学知识专家 |
1667897706632376048 | 1567677492256854752 | 氯达香豆素 | 药品 | 七巧板医学术语集概念ID | 11784193 | 0 | OMAHA“七巧板”医学术语集 |
3.特殊属性解释
3.1七巧板医学术语集概念ID
指该实体所对应的“OMAHA七巧板医学术语集”中的概念ID标识符。本条属性的建立是为了方便机构用户能够更好地将“汇知医学知识图谱”与“OMAHA七巧板医学术语集”结合起来应用。若实体无该属性,则代表该实体暂时无法映射到“OMAHA七巧板医学术语集”。
3.2等同于
为了方便企业更好地理解和使用“汇知”医学知识图谱,2022年2月,OMAHA对实体ID体系进行了更新,在新的实体ID体系中,每个实体名称+语义标签拥有唯一的实体ID,实体融合后用“等同于”关系来表示同义关系。
例如,在原来的实体ID体系中,“HIV感染”和“艾滋病”分别为实体ID“1567677480226606765”的名称和别称,表示二者的同义关系,三元组的组织方式如下:
entityId | entity | entityTag | property | valueId | value | valueTag | group | source |
---|---|---|---|---|---|---|---|---|
1567677480226606765 | HIV感染 | 疾病 | 名称 | HIV感染 | 0 | |||
1567677480226606765 | HIV感染 | 疾病 | 别称 | 艾滋病 | 0 |
而在新的实体ID体系中“1567677480226606765”表示“HIV感染”,“1638862616359641908”表示“艾滋病”,二者的同义关系则简化表示为:
entityId | entity | entityTag | property | valueId | value | valueTag | group | source |
---|---|---|---|---|---|---|---|---|
1567677480226606765 | HIV感染 | 疾病 | 等同于 | 1638862616359641908 | 艾滋病 | 疾病 | 0 |
- No labels