




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、从中医药学语言系统到简单知识组织系统本体的建设策略知识组织系统(knowledge organization system, KOS)包括各种用于对知识资源进行有效组织并促进知识管理的方案。KOS决定了知识组织的机制,因此它是所有图书馆、博物馆和档案库的核心。在中医药领域已出现了一系列实用的KOS。例如,中国中医科学院中医药信息研究所采用本体技术研制的中医药学语言系统(Traditional Chinese Medicine Language System,TCMLS);,它以概念;为核心对中医药学的名词术语进行了系统梳理,建立了中医药概念的层次结构,并描述了概念之间复杂的语义关系。TCMLS
2、已收录约12万个概念、30万个术语及127万条语义关系,在文献检索和文本挖掘等方面取得了实际应用。此外,中医药临床术语集(TCMCT);【3】、传统针灸知识体系语义网络;【4】、中医古籍语言系统;【5】等KOS也已初具规模并得到了成功应用。但这些系统皆自成体系、相对封闭、互不兼容,导致各系统间难以关联、协调与融合。简单知识组织系统(SKOS);是万维网联盟(World Wide Web Consortium,W3C)于2005年提出的一项推荐标准,它是语义网(Semantic Web)技术体系的一个重要组成部分。SKOS为各种KOS的规范化表达提供了统一的本体模型,支持KOS在万维网上的发布与
3、共享,对于万维网环境中的知识组织与管理具有重要意义。在中医药领域推广使用SKOS技术,将中医药KOS转换为SKOS本体,可促进这些系统在万维网之上的发布、共享与融合,以及它们与相关领域(如生物医学)KOS的关联与协调,从而进一步优化中医药学知识的组织与管理。鉴于此,本文以TCMLS这一典型的KOS为例,阐述将TCMLS转换为SKOS本体的技术方案和初步结果,以期为SKOS在中医药领域的推广应用提供参考。1 简单知识组织系统技术概述各种KOS在内容和应用领域上各异,但大都具有相似的结构。SKOS将各种KOS的共性提炼出来并给予明确规定,以支持KOS系统的规范化表达及其在系统之间的共享。SKOS提
4、供了一种基于资源描述框架(Resource Description Framework,RDF)的KOS规范化表达方法,将KOS表达为机器可理解且能在万维网上发表和交换的领域本体,即SKOS本体。SKOS本体可被形象地表示成一张图RDF图,是由一系列RDF陈述;构成的,示意图见图1。图1中给出肾虚证;这一概念的英文标签和定义,并描述它与其他概念之间的关系。图中出现的skos:Concept(概念)、skos:prefLabel(正名)、skos:related(相关)、skos:broader(上位概念)及skos:definition(定义)是SKOS的核心词汇,用来描述概念的语义信息和相互
5、关系。图中的ex:肾虚证;是http:/www.example. com/肾虚证;的简写(ex:;代表http:/www. /;),后者是肾虚证;的统一资源标识符(unified resource identifier,URI);ex:虚证;、ex:肾;也是对应概念的URI。图中ex:肾虚证;和 ex:肾;两点间有一条标为skos:related;的弧,它对应于RDF陈述ex:肾虚证 skos:related ex:肾,表示肾虚证;与肾;相关的意思。ex:肾虚证;和kidney deficiency patternen;之间的弧对应于RDF陈述ex:肾虚证skos:pre
6、fLabelkidney deficiency pattern;en ,它为肾虚证;添加了英文标签。可见,SKOS本体用一种基于图的知识模型,来表示领域概念的标签、定义、注释、上下位关系和相关关系等信息,从而构建领域的概念体系,它适用于表达主题词表、分类法、语义网络等多种类型的KOS。2 中医药学语言系统的内容TCMLS主要包括语义网络(Semantic Network, SN)和基础词库两部分。SN构成了TCMLS的顶层框架,它包括语义类型、语义关系两部分。语义类型(Semantic Type):TCMLS列举了中医药领域中最基本的96种语义类型,并对它们进行了定义和限定。该语义类型体系为T
7、CMLS提供了一个分类架构,可对TCMLS中的每个概念赋予明确的语义类型。语义关系(Semantic Relation):TCMLS定义了58种基本的语义关系,用于将中医药领域概念关联起来,构成一张大型的复杂语义网络,对中医药领域的概念体系进行全面刻画。在SN中,语义类型对应网络节点,语义关系对应节点之间的弧。SN通过语义关系将语义类型连接起来,为建立具体概念之间的语义关系提供参考和约束。TCMLS在SN的框架下,构建了一个面向中医药领域的基础词库。它以概念为单位对中医药术语资源进行系统化表达,并建立概念间的语义关系。下面以心肾阴虚证;为例,介绍TCMLS基础词库的主要内容。心肾阴虚证;的含义
8、是:名为心肾阴虚证;的概念,属于一个证候,它的异名包括肾虚热证;等,它的治疗方法包括滋补心肾;等,其上位概念包括脏腑兼证;,它被定义为心与肾的阴液亏虚,以心悸心烦,失眠耳鸣,腰膝酸软,舌红少苔,脉细数无力等为常见症的证候;。为实现此类文字的形式化表达,TCMLS为每个领域概念赋予了唯一的ID。例如,上面这段文字中出现的心肾阴虚证;、脏腑兼证;和滋补心肾;3个概念,在TCMLS中的ID分别为53460;、53211;和72448;。TCMLS以概念为单位将中医药词汇组合为同义词集合,并在其中选定概念的正名和异名。例如,TCMLS 认定心肾阴虚证;和心肾虚热证;是同义词,并将心肾阴虚证;指定为概念
9、的正名。TCMLS还将Heart-kidney Yin Deficiency Syndrome;定为心肾阴虚证;在英语中的正名,由此实现了跨语言的中医药术语一体化表达。TCMLS给出了概念的定义、注释、来源出处等信息,为每个概念赋予明确的语义类型(如将概念53460;的语义类型设为证候;),并表达概念之间的语义关系(如脏腑兼证;与心肾阴虚证;之间的上下位关系,以及滋补心肾;与心肾阴虚证;之间的治疗;关系)。3 从中医药学语言系统到简单知识组织系统本体的转换传统上,TCMLS系统被存储于一个关系型数据库中。在本研究中,基于Apache Jena,通过Java语言实现了从TCMLS到SKOS本体的
10、转换方案。转换程序通过SQL语言和Java的JDBC,从关系型数据库中将数据读出,将其转换为对应的RDF陈述,这些RDF陈述最终构成了如图2所示的SKOS本体。下面介绍这一转换的具体过程。第一步,为TCMLS系统的各种元素分配URI。为TCMLS指定一个域名(如http:// tcmls/;),在该域名下为TCMLS中的概念、语义类型和语义关系都赋予一个URI。TCMLS已为每个概念分配了唯一ID,可用这一概念ID来生成概念的URI。例如,心肾阴虚证;这一概念的URI为http:/www. /tcmls/c53460;。其中,http:/ww
11、w. /tcmls/;为概念的名称空间,c;代表Concept;,53460;为心肾阴虚证;在TCMLS系统中的ID。对于语义类型和语义关系,直接基于名称生成URI。如证候;这一语义类型的URI为http://tcmls/证候;;又如被治疗;这一语义关系的URI为http:/www.example. com/tcmls/被治疗;。由于URI较为冗长,在RDF文档中可通过前缀代表名称空间。例如,可用前缀tcmls;代表TCMLS的域名,从而将心肾阴虚证;的URI简写为tcmls:c53460。第二步,声明TCMLS中各种元素的文字标签。例如,R
12、DF陈述tcmls:c53460 rdfs:label 心肾阴虚证;zh-cn表示tcmls:c53460这一概念的文字标签为心肾阴虚证;。其中,rdfs:label;是RDF中用于声明文字标签的谓词,zh-cn;表示该文字标签所使用的文字为中文。又如,RDF陈述tcmls:c53460 rdfs:label Heart-kidney Yin Deficiency Syndrome;en表示同一概念的英文标签为Heart-kidney Yin Deficiency Syndrome;。SKOS将rdfs:label进一步细化为skos:prefLabel(正名)和skos:altLabel(异
13、名)等标签。可以通过SKOS的标签机制将一个概念和它对应的多个词汇关联在一起。如tcmls:c53460 skos:prefLabel心肾阴虚证;zh-cn;skos:altLabel心肾虚热证;zh-cn表示tcmls:c53460这一概念的正名为心肾阴虚证;,异名为心肾虚热证;。第三步,表达TCMLS中概念的定义和注释。在SKOS本体中,分别采用skos:definition、skos:note、skos:example表达概念的定义、注释和示例。例如,tcmls:c53460 skos:definition心与肾的阴液亏虚,以心悸心烦,失眠耳鸣,腰膝酸软,舌红少苔,脉细数无力等为常见症的
14、证候。;表示心肾阴虚证;的定义。又如,tcmls:c21013 skos:note太平惠民和剂局方卷3:荣卫气虚,脏腑怯弱。心腹胀满,全不思食,肠鸣泄泻,呕哕吐逆,大宜服之。;表示太平惠民和剂局方中对四君子汤(tcmls:c21013);的说明。第四步,表达概念的语义类型。将TCMLS中的语义类型定义为RDFS Class,通过rdfs:subClassOf定义父子类关系。例如,中药疗法是一种特殊的疗法;可被表示为tcmls:中药疗法 rdfs:subClassOf tcmls:疗法。然后,采用rdf:type声明概念的语义类型。在RDF技术规范中,rdf:type表示是一个;、的类型是;或属
15、于;的意思,在N3语法中可被简写为a;。如心肾阴虚证(tcmls:c53460)属于证候;可被表达为tcmls:c53460 a tcm:证候;又如滋补心肾(tcmls:c72448)属治法;可被表达为tcmls:c72448 a tcmls:治法。第五步,表达概念之间的上下位关系。在SKOS中,定义了skos:broader和skos:narrower这样一对属性,用来表示概念之间的上下位关系。例如,心肾阴虚证(URI为tcmls:c53460)的上位概念为脏腑兼证(URI为tcmls:c53211);可被表示为tcmls:c53460 skos:broader tcmls:c53211;反
16、之,脏腑兼证的下位概念为心肾阴虚证;可被表示为tcmls:c53211 skos:narrower tcmls:c53460。SKOS本体通过这两个属性建立领域概念的层次结构。第六步,表达概念之间对等的相关关系。例如,心肾阴虚证(tcmls:c53460)与滋补心肾(tcmls:c72448)相关;可被表示为tcmls:c53460 skos:related tcmls:c72448。可将TCMLS中的语义关系定义为skos:related的子属性,从而对skos:related进行进一步的细化。例如,tcmls:被治疗 rdfs:subPropertyOf skos:related将TCML
17、S中的被治疗;定义为skos:related的子属性,表示被治疗是一种特殊的相关关系;。继而,可将心肾阴虚证(tcmls:c53460)的治疗方法是滋补心肾(tcmls:c72448);表示为tcmls:c53460 tcmls:被治疗 tcmls:c72448。SKOS本体通过rdfs:subPropertyOf定义父子属性关系。例如,tcmls:治疗 rdfs:subPropertyOf tcmls:影响表示治疗是一种特殊的影响关系;。SKOS本体还通过owl:inverseOf定义属性之间的互逆关系。例如,tcmls:被治疗 owl:inverseOf tcmls:治疗表示治疗和被治疗为
18、互逆关系;。经过上述过程,即可将TCMLS转换为一个SKOS本体。可将其存入Apache Jena TDB、OpenLink Virtuoso等RDF数据库,并通过SPARQL对其进行查询。SPARQL是一种面向RDF数据模型的查询语言,它的作用相当于关系型数据库领域中的SQL技术【6】。通过SPARQL查询,可读取SKOS本体中关于某个概念(如四物汤)的正名、异名、定义、注释、上位概念、下位概念、相关概念等信息,及其相关文献的元数据(如题目、作者、描述等)。基于该本体和SPARQL查询,可实现TCMLS的Web服务接口,面向语义维基、语义搜索等各种Web应用程序提供概念、术语和知识服务。4
19、讨论传统的KOS包括主题词表、叙词表、分类法等。这些系统普遍结构简单、表达能力有限,在复杂知识表达和组织方面具有显著的局限性。在网络时代,随着各领域知识资源的急剧增长,传统的KOS愈来愈难以满足知识组织的需要,本体(Ontology)作为一种新型的KOS技术应运而生。本体为构建大型、复杂的KOS提供了强大的知识表达和推理能力,成为近年来KOS领域的主流技术和研究热点。在医学领域中,本体以其强大的知识表达和推理能力而得到了广泛应用【7】。例如,统一医学语言系统(Unified Medical Language System,UMLS);是由美国国立医学图书馆开发的一套医学语言系统,它实现了一系列
20、KOS的整合与传播,覆盖范围相当广泛。中医药领域也出现了TCMLS;、TCMCT;、传统针灸知识体系语义网络;、中医古籍语言系统;等基于本体技术构建的KOS,它们能够准确定义中医药领域概念,系统表达它们之间复杂的语义关系。然而,如何实现这些系统的共享、兼容与融合,仍是影响KOS应用效果的一大技术难题。SKOS是语义网领域中的一项新兴技术,可用于遗留KOS的转换、移植和重新发布,也可用于新的KOS的表达和发布。LCSH等许多遗留的KOS已被转换为SKOS本体,在万维网上发布。目前,SKOS已经有了中文的版本,并被用于中文KOS的表达。SKOS可用于中医药KOS的规范化表达和统一访问,为实现术语融合和术语服务提供了潜在的解决方案。本文以TCM
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 入职担保协议合同书范本
- 合同如何规范化签订协议
- 房屋买卖合同8份协议书
- 房屋正规的定金合同范本
- 文玩店转让出租合同范本
- 2025短视频项目短视频营销解决方案合同范本
- 2025年度牛只养殖基地与饲料销售企业合同范本
- 2025年仓储物流服务与仓储设备维修合同
- 2025年度建筑工地混凝土浇筑安全责任合同
- 2025版城市供水设备安装与水质安全保障合同范本
- 租房托管班合同(标准版)
- 2025-2026学年苏教版(2024)小学数学二年级上册(全册)教学设计(附目录P226)
- 2025年甘南事业单位笔试试题(含答案)
- 2025年浪浪山小妖怪开学第一课
- 2025年安顺西秀区招聘城市社区工作者考试笔试试题(含答案)
- 2025-2026秋学生国旗下演讲稿:第1周让我们接过历史的接力棒-抗战胜利纪念日
- 2025-2026秋“1530”安全教育记录表
- 催乳相关培训知识课件
- 2025年公平竞争审查知识竞赛考试练习题库(正式版)含答案
- 全力以赴战高考乘风破浪正当时(课件)-2025-2026学年高三上学期开学第一课主题班会
- 登革热与基孔肯雅热防控指南
评论
0/150
提交评论