浅论一种医疗本体语义相似度算法的设计.doc_第1页
浅论一种医疗本体语义相似度算法的设计.doc_第2页
浅论一种医疗本体语义相似度算法的设计.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浅论一种医疗本体语义相似度算法的设计摘要:由于目前检索技术效率低下,所以需要一种基于本体的检索技术来提高效率。语义相似度计算是基于本体的检索技术的一个关键问题。本文对已有语义相似度计算方法进行总结并改进,最后对其进行分析。 关键词:本体;本体检索;语义相似度计算 1 引言 随着Internet的日益发展和普及,本体在信息采集、信息检索及本体集成等方面的应用越来越广泛。2002年12月18日Berners-Lee在国际XML2000的会议提出Semantic Web(语义网)的构想1。在Semantic Web中,语义相似度算法是实现基于本体的检索、采集等的关键问题。因此语义相似度算法的好坏成为信息检索效率高低的重点,于是改良语义相似度算法是一个迫切的问题。 关于语义的相关性,国内外专家已经做了大量的工作:Resnik根据两个词的公共祖先节点的最大信息量来衡量两个词的语义相似度。Agirre等在利用WordNet计算词语的语义相似度时,除了结点间的路径长度外,还考虑到概念层次树的深度、概念层次树的区域密度。鲁松研究了如何利用词语的相关性来计算词语的相似度。Li Sujian等提出了一种词语语义相似度的计算方法,计算过程综合利用了知网和同义词词林。朱礼军等引入了计算语言学中的语义距离思想来计算领域本体中概念间的相似度。 本文总结前人的经验,并将概念的数据类型考虑其中,这样概念的语义相似度就更加精确。 2 本体与领域本体 本体(Ontology)作为一种能在语义和知识层次上描述信息的概念模型,自被提出以来就引起了国外众多科研人员的关注,并在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和Web上异构信息的处理、语义Web等。 2.1 本体的概念 目前对本体的定义有很多,专家们认为由Studer等人在1998年提出的“本体是共享概念模型的明确的形式化规范说明。3”最为精确。它包含4层含义:概念化(conceptualization)、明确(explicit)、形式化(formal)和共享(share)。 (1)概念化:指通过抽象得出客观世界中一些现象(Phenomenon)的概念模型。 (2)明确:指所使用的概念及使用这些概念的约束都有明确的定义。 (3)形式化:指本体是计算机可读的(即能被计算机处理)。 (4)共享:本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体。 2.2 本体的分类 Guarino5在1997年对本体依照领域依赖程度,分为顶级(top-level)、领域(domain)、任务(task)和应用(application) Ontologies共4类。其中: (1)顶级Ontologies描述的是最普通的概念及概念之间的关系,与具体的应用无关,其他种类的Ontologies都是该类Ontologies的特例。 (2)领域Ontologies描述的是特定领域中的概念及概念之间的关系。 (3)任务Ontologies描述的是特定任务或行为中的概念及概念之间的关系。 (4)应用Ontologies描述的是依赖于特定领域和任务概念及概念之间的关系。 本文主要就是基于领域Ontology来设计与研究语义相似度计算方法。 3 语义相似度计算 语义相似度是判断几个概念之间的语义的相似程度。在信息检索中,它反映的是用户查询关键词的意义上的符合程度。 3.1 语义相似度计算原则 语义相似度的计算原则是为了本体内部概念间相似度计算更加准确而提出的2,其内容如下: (1)量化原则:相似度是一个数值,取值范围应该在0,1之间3,如果两个概念完全相同,那么他们的相似度为1,完全不同,相似度为0。 (2)简单性原则:计算相似度的同时应该考虑计算复杂度4,复杂度应该尽量降低。 (3)充分利用本体的特性。 (4)可调节性:可调节性是指相似度的计算结果可通过某些参数来调节,词语相似度是一个主观性比较强的概念,可调节性可以满足不同的需求,适应不同的情况2。 (5)类型性:在计算概念相似度的时候,也应该将概念的数据类型考虑其中,这样能提高概念相似度的精度。 (6)对称性:Sim(C1,C2)= Sim(C2,C1),对称性有利于概念相似度之间的对比与换算。 3.2 相似度计算方法 本文建立了一个简单的医疗系统的本体,如图1所示。class:表示的是类,subClassOf:表示的是本体中最主要的关系,即概念之间子类的关系,也就是继承关系。例如:C0是C1,C2的父类,而C1与C2则是C0的子类。 利于OWL语言构建此本体的代码片段,如下: (1)语义距离:是两个概念在本体树中的最短距离,记作Distant(A,B)。语义距离越大,其语义相似度越低。反之越大。两个概念的父节点是同一个,那么Distance=1/n(n表示与该节点有共同父节点的子节点的个数)同一概念的语义距离为0。例如:图1中所示的Distance(C5,C5)=0,Distance(C7,C8)=0.5。 (2)DataType(数据类型属性)的相似度:是两个概念的数据类型的比较得出来的一个参数值,记作SimDT(A,B)。如果两个概念的数据类型相同,则SimDT(A,B)=1。如果不同,则SimDT(A,B)=0。 中国 WWW.(3)ObjectProperty(对象类型属性)的相似度5:是类与类之间的关系,记做Simobject(A,B)。和分别表示概念和的对象类型属性的个数。 的对象类型属性所对应的概念为,的对象类型属性所对应的概念为,则概念的对象属性的语义相似度为: (4)本体概念的深度:是概念在本体树中的层数,记作Depth(A)。 (5)调节因子:是为了满足系统的特定需要而设定的特定参数。由于词语相似度是一个主观性比较强的概念,所以必须使用调节因数来具体情况具体分析。它通过对本体树的广度与深度的控制来调节特定的语义的相似度。本文用k来表示调节因数。 综合得出语义相似度算法的公式: 式中Sim(C1,C2)表示概念C1、C2的语义相似度,Distance(C1,C2)表示概念C1、C2的语义距离,SimDT(C1,C2)表示概念C1、C2的数据类型的相似度,Simobject(C1,C2)表示概念C1、C2的对象类型的相似度,k表示调节因子,Depth(C1)表示C1的的深度(即本体树中的层数),分别是数据类型属性和对象类型属性在属性相似度中的权值,且。 3.3实验结果 根据本文得出的语义相似度算法,即上述公式计算出表1所示的本体树的语义相似度。 3.4 基于本体语义相似度的应用 Begin; Input:查询表达式 Q=W1,W 2,Wn and 语义相似度的临界值K; result = null,i=0; while(Qi的语义相似度>=K) resulti=Qi+相关概念集; i+; Return result; End; 4 结束语 人与机器之间的有语义的交流近年来成为了人们研究的焦点与瓶颈。本体由于其共享性和明确性以人与机器的语义交流的基础进入了人们的视野。本文通过建立本体树,利用其层次之间的关系来设计概

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论