




已阅读5页,还剩74页未读, 继续免费阅读
(计算机软件与理论专业论文)本体排序技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 中文摘要 自因特网之父麻省理工学院万维网协会主席蒂姆- 伯纳斯李在x m l 2 0 0 0 大会 上提出了新一代的万维网( 语义网) 以来,语义网已取得了巨大的发展。本体已 经被证明对描述领域知识很有价值并且迅速的成为语义网的支柱。但构造本体是 一个相当大的挑战。在构建本体时需要消耗大量的时间和精力,并且必须对所描 述的领域有很深刻的理解。如果说本体工程师并不了解这个领域那他将面临很大 的挑战。 现有的本体搜索引擎s w o o g l e 采用类似p a g e r a n k 的算法对返回结果进行排 序,但是由于本体与网页相比具有一些独特语义特征,因此使得本体的排序结果 并不能准确的反映用户的查询意图。本文通过关键词查询的方式来查找本体中的 类,并且通过考虑本体中相关类的一系列因素,提出了新的本体排序的方法。这 种查询结果的排序更能精确地反映作者对于概念的查询,准确描述概念周围的信 息,从而体现用户的需求。 合适的本体排序方法能节省用户大量的时间和精力。它将减少用户对于每个 本体细节上的检查,并且对每个返回的本体找出满足知识工程师需求的部分。它 对满足用户的需求具有很大的作用,对于促进网络信息的发布和接受,促进本体 自身的发展,对于自动本体的构建过程将具有积极的促进作用。 关键词:语义网:本体排序;本体构建 黑龙江大学硕士学位论文 a bs t r a c t s i n c et h ef a t h e ro ft h ei n t e m e t ,t h ep r e s i d e n to fw o r l dw i d ew e b c o n s o r t i u m , t i mb e m e r sl e ew h oi sw o r k i n gi nm a s s a c h u s e t t si n s t i t u t ei nx m l 2 0 0 0 p r o p o s e dt h e n e x tg e n e r a t i o nw o r l dw i d ew e b ( s e m a n t i cw e b ) ,t h es e m a n t i cw e bh a sm a d e f f l l o r l 1 0 u sd e v e l o p m e n t o n t o l o g yh a sb e e np r o v e dt ob ev e r yv a l u a b l ei nd e s c r i p t i o no f d o m a i nk n o w l e d g ea n dr a p i d l yt u m e di n t oab a c k b o n eo ft h es e m a n t i cw e b h o w e v e r , o n t o l o g yc o n s t r u c t i o ni t s e l fi sac o n s i d e r a b l ec h a l l e n g e i tt a k e sa c o n s i d e r a b l ea m o u n t o ft i m et oc o n s t r u c to n t o l o g y ,a n di tn e c e s s i t a t e sas o p h i s t i c a t e du n d e r s t a n d i n go ft h e s u b j e e td o m a i n t h u si t i sa l le v e ng r e a t e rc h a l l e n g ei ft h eo n t o l o g ye n g i n e e ri sn o t e x i s t i n go n t o l o g ys e a r c he n g i n es w o o g l eu s e das i m i l a rp a g e r a n ka l g o r i t h mi n s o r t i n gt h er e s u l t so ft h eo n t o l o g y ,b u ts h o u l dn o ta c c u r a t e l yr e f l e c tt h eu s e r sq u e r y i n t e n t i nt h i sp a p e r ,s t a r t 她f r o mt h eq u e r y i n gk e y w o r d si tm a k et h eq u e r y i n g k e y w o r d sm a t c ht h ec o n c e p to fo n t o l o g y i td e p i c t sa n e wa p p r o a c ho fo n t o l o g yr a n k i n g t h es o r t e dr e s u l t so fs u c hi n q u i r i e sm o r ea c c u r a t e l yr e f l e c tt h ei n q u i r i e so ft h ea u t h o r f o rc o n c e p t , a c c u r a t e l yd e s c r i b ei n f o r m a t i o na r o u n dt h ec o n c e p t ,w h i c hr e f l e c t e dt h e n e e d so fu s e r s as u i t a b l eo n t o l o g yr a n k i n gm e t h o dc a ns a v es u b s t a n t i a lt i m ea n de f f o r tf o ru s e r s i t w i l lr e d u c et h i si n s p e c t i o no fd e t a i l sf o re a c ho n t o l o g y ,a n df o re a c ho fo n t o l o g yi tw i l l f i n do u th o wt om e e tt h en e e d so fk n o w l e d g ee n g i n e e r s ,i ns a t i s f y i n gt h en e e d so fi t s u s e r si tw i l lp l a yav e r yi m p o r t a n tr o l ei np r o m o t i n gt h er e l e a s ea n da c c e p t a n c eo f n e t w o r ki n f o r m a t i o na n dp r o m o t i n gt h ed e v e l o p m e n to f o n t o l o g yi t s e l f i nt h ea u t o m a t i c o n t o l o g yb u i l d i n gp r o c e s si tw i l lh a v eap o s i t i v er o l ei np r o m o t i n g k e y w o r d s :t h es e m a n t i cw e b ;o n t o l o g yr a n k i n g ;o n t o l o g yc o n s t r u c t i o n l l 独创性声明 i i 宣高i i ;暑昌昌;暑皇i 墨置薯暑暑窖;宣_ i 一一_ 一i - l m 薯 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含他人 已经发表或撰写过的研究成果,也不包含为获得墨蕉江态堂或其他教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所作的任何贡献均已 在论文中作了明确地说明并表示谢意。 学位论文作者签名: 狮勇 签字日期:压7 年钐月7 日 学位论文版权使用授权书 本学位论文作者完全了解墨垄适太堂有关保留、使用学位论文的规定,有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权墨垄婆盔堂可以将学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 黧翥篇7 毛纺菊 签字日期:沙,仵6 月 日 导师签名:袭贬、强 签字日期彩产歹月7 日 学位论文作者毕业后去向: 工作单位:;可互c 齑焉7 7 7 币配至属并烨翱电话:钐孑膨f 通讯地址:珂j c 备考j 1 7 扦雨丽2 j 筮反 邮编:眈z 易 第1 章绪论 第1 章绪论 1 1 本体的研究背景与意义 1 1 1 语义网的背景知识 上个世纪8 0 年代,t i mb e m e r s l e e t l 】将超文本技术应用于计算机网络,促成 t - 0 _ 联n ( w w w ) 网的诞生。而今,面mb e m e r s l e e 及他所领导的w 3 c ( w o r l dw i d e w e bc o n s o r t i u m ) 正致力于开发语义网能理解人类语言的智能网络。 今天的互联网( w w w , w o r l dw i d ew - e b ) ,业已成为人们获得信息、取得服务 的重要渠道之一。但是,目前大多数页面的设计对象是人类,不便于机器自动处 理现在网页信息的表现方式,多为自然语言、图片、声音等方式,这适合于 人们的阅读( 收听) 需求。但是,这些媒介固有的不确定性引起数据格式的多样 性,而无法被计算机理解。例如,我们需要制定一个旅行计划,这个计划中可能 涉及到天气、航班、旅馆和旅游景点等信息。对于现有的网络来讲各个方面的信 息的获取只能通过人工搜索的方式,应用的时间较多,并且它们之间的逻辑关系 还需要人为的进行判断。这在网络信息量剧增、人们迫切需要计算机分担知识整 理这一压力的今天,现在的互联网表现形式成为信息检索的一个难题。 语义网【3 】嗍( s e m a n t i c w e b ) 的出现,力图改变上述现状。它的目标就是定义、 互联一个在功能方面不仅仅显示内容( 给人看) 的网络,还要尽量使得机器可以 通过各种各样的程序自动操作、集成以及重复使用整个网络上的信息。语义网, 是一个数据网,某种意义上可以说是全球数据库,是对现有数据库的表示形式的 扩展,是一种智能化的新型网络,是对万维网的根本性变革。 语义网力图将“理解信息的含义是人类的专利”这一局面成为历史,使得计算机 在一定程度上也同样可以做到,从而有助于信息共享和再利用,并使网络能够提 供动态的、个性化的、主动的服务。在t i mb e m e r s l e e 看来,语义网是对w w w 本质的变革。在语义网中信息和服务的语义被定义,这使得机器不但能够理解人 类的语言,而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。 黑龙江大学硕士学位论文 i i i i i i i - 一 1ii ih ii i i i i i i i l 1 2 本体排序的提出和意义 为了让语义网自动识别和处理网上的信息,我们需要将信息进行标记,这就 需要所谓的“标记语言”。在不同的应用领域中这些标记符和规则是不一样的。比 如说在医疗系统使用的标记符就有“病人序列号”、“药品名”、“药物反应”、“就诊 时间”等等。因此“标记语言”必须是灵活的、可扩展的,以便给使用者提供自定义 功能,叫“可扩展的标记语言”,即x m l 【5 l 。可以这样说,x m l 是语义网的基石。 除了标记外我们还需要一种框架来表示数据,这就是“资源描述框架”r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 【6 】,它是指存放元数据的通用格式或语法结构。 r d f 数据模型是个三元组: ( 1 ) 资源( 或题目) ,指被描述的人、事物或网页等; ( 2 ) 性质( 或谓语) ,它确定用来描述资源的特征、属性或关系; ( 3 ) 值( 或对象) ,指命名的性质与资源相关联的一个值。 它们就像句子中的主语、谓词和宾语。我们举一个例子,r d f 的一个“三元组” 可以表述如下: “主语”是h t t p :n e w s x i n h u a n e t c o m n e w s c e n t e r 2 0 0 3 - 0 3 1 2 c o n t e n t _ 7 7 3 6 3 5 h t m ( 注:刊登跟着,j 、鹰”号去海湾一文的网页的u r l ) ; “谓语”是作者; “宾语”是陈晓明。 可以把一个语义网文件中的每一个r d f 三元组看作是一个庞大数据库中的一 排,主语是关键字,谓语是列,宾语是数值,构成了相关事物的网上信息。 本体就是在x m l 和r d f 的基础上提出来的。本体( o n t o l o g y ) t r l 8 1 赋予w 如上 的信息以语义含义,因此本体作为语义载体在语义w e b 中起着核心的作用,是语 义w e b 中基于语义的互操作得以实现的关键因素。基于领域本体,可以对领域内 的资源在语义层次上进行表述,使得领域内的资源从内容级别上升到语义级别, 使得资源的管理和利用更加的有效和智能化。由此,本体的构建也就成为语义w e b 第1 章绪论 i i 实现的重要步骤。随着语义网的发展,人们对于本体的需求越来越大,本体迅速 成为语义网的支柱。但是建造本体本身就是一个相当大的挑战。在构建本体时需 要消耗大量的时间和精力,并且必须对所描述的领域有很深的理解。如果说本体 工程师并不了解这个领域那他将面临很大的挑战。本体的一个主要优点就是可以 作为知识进行“重用”。从知识重用的角度来考虑,当前获取本体的方法主要有两种: 第一,本体库;第二,本体搜索引擎。第一种方法,由于受到本体库的大小等限 制,从本体库中获得的本体是有限度的,并且这种库中的基于短语的搜索不能将 本体中的类的信息和属性的信息区分开来,因此搜索的结果拥有一定的限制性和 非准确性。由于目前人们已经建立了大量的本体,因此可以从网络中获取本体, 其中一个核心的问题就是本体的排序。由于其现在语义网的发展程度而言对本体 的排序考虑的因素很多,现存的排序方法,无论是使用阶段的或者是研究阶段的 都存在一定的局限性和弊端。因此本课题将开展这方面的研究,正确理解用户的 需求,并且更好的满足用户需求。 合适的本体排序方法能节省用户大量的时间和精力。它将减少这种对于每个 本体的细节上的检查,并且对每个返回的本体找出满足知识工程师的需求部分。 这对满足用户的需求具有很大的作用,对于促进网络信息的发布和接受,促进本 体自身的发展,对于自动化本体的构建过程将具有积极的促进作用。 1 2 本体排序研究现状 自语义网的概念提出到现在,语义网的发展已经历了9 年的时间。作为未来 一种理想化的w e b 3 o 【9 】,人们对于它的关注是越来越多,并且它的发展是逐渐的 走向成熟。从最初的x m l 提出,到后来的r d f 的提出,无一不凝聚了人类的智 慧和进取的精神。为了更加准确的描述我们所需要的数据,人们提出了本体的概 念,这种用来描述特定领域的概念和概念之间的关系的本体,更好的体现了人类 对于语义网的需求,并且逐渐的意识到了本体在语义网中的重要性。本体逐渐的 演变为语义网对于知识描述的支柱。但是语义网本身的构建过程相当的复杂和耗 黑龙江大学硕士学位论文 费时间,人们对于现有本体的重用变得更加迫切了。通过重用人们可以用较少的 时间对现有的本体进行改变、修改或扩展原有本体从而来构建所需要的本体。为 此,人们提出了构建本体库( 如o n t o l i n g u a 1 0 1 ,t h e d a m l l i b r a r y 1 1 1 ,廿l e p r o t 6 9 6o w l l i b r a r y 1 2 】) 的想法。但由于本体库的局限性,人们想通过本体搜索引擎( 如 s w o o g l e 1 3 1 ,o n t o k h o j 1 4 ,o n t o s e a r c h 1 5 】) 来查找所需要的相关本体。现有的本体 搜索引擎都是基于g o o g l e 的引用链接分析算法p a g e r a n k 1 6 】思想来实现对本体的 排序。但引用链接关系只能体现本体全局的重要性,而没有体现本体中所描述概 念的重要程度,因此具有片面性。 英国的南安普顿大学电子与计算机科学学院的h a r i t h a l a n i 教授提出了一种基 于概念结构分析的方法。这种查询主要是针对本体中类的信息进行查询的,通过 对匹配类的周围信息的描述和匹配类之间的语义相似性程度,以及查询相关类在 本体中的位置来综合考察查询与本体的相关度来实现本体排序。并且通过评估得 出了最终的排序结果比s w o o g l e 排序好很多。 h a r i t ha l a n i 教授通过分析p r o t 6 9 6 邮件列表中的关键词发现大部分查询关键词 都是关于相关领域的本体搜索( 例如:历史,经济等信息) ,因此他提出了关于基 于内容的本体排序方法。它是通过g o o g l e 和w o r d n e t 来获取相关的关键词,然后 在g o o g l e 上进行搜索,取前1 0 0 个网页的内容根据t f i d f 1 刀算法得出重要的5 0 个关键词作为对领域概念的描述。然后将这些概念与本体进行概念的匹配和本体 中文本信息的匹配,最终获取一个得分值。各本体得分值进行比较得出一个排序 的顺序。 爱尔兰国立大学一研究小组提出了通过改变原有的内部链接,扩展原有的链 接方式来更精确地描述他们之间的关系,然后采用p a g e r a n k 算法计算他们之间的 重要性。虽然它只是对r d f 文档和资源的排序,不是确切的本体的排序方法,但 是这种改变内部结构的关系,从而根据改变的内部结构关系得出重要性的分值来 进行排序的方法值得我们去借鉴。 清华的c a r r a n k 算法主要是关于单个本体中概念的重要性的排序的算法,它 第1 章绪论 是为可视化本体1 1 8 】提供基础。由于我们电脑屏幕的局限性,对于大的本体在可视 化中不可能将每个概念的信息都表示出来。如果我们将本体中的重要的概念表示 出来,而不重要的或者重要性小的则不用表示出来,那么对于我们判断本体的合 适性、是否满足需要将有很重要的作用。但是这种研究也可以扩展到本体排序中 来。这是一种通过引用链接的方式,集中性的刻画来描述本体中概念的重要性, 并且能对本体中关系的重要性进行计算。 1 3 本文的主要研究内容 排序直是信息检索的核心,尤其由于网络的巨大性和多样性,在信息获取 中排序就变得更加重要了。g o o s e 使用的p a g e r a n k 算法来排序网络中的资源获 得了很大的成功。因此一些本体搜索引擎( 如s w o o g l e 1 9 】和o n t o s e a r c h l 2 0 1 2 1 】) 也 采纳了类似p a g e r a n k 的算法通过分析本体间的链接和引用来排序本体,其目的也 是希望计算本体的流行度。但是本体之间的链接具有一定的局限性,他们之间并 没有非常完善的链接关系,大约本体中的一半并没有被其他的本体所链接或引用。 这种不好的链接的性能必然导致了最后的不好的排序效果。另外,一个流行度很 高的本体并不一定对其表示的所有的概念都有很好的描述。这种流行度就不一定 与很好的或合适的知识描述相联系起来。例如,假定一个工程师正在搜寻关于学 生的本体,可能有一个学术领域的本体在本体网中得到很好的链接或引用,因而 其流行度很好。如果这个本体中恰巧含有“学生”这个概念,这个本体将在最终的 候选列表中排在前面。但是在这个本体中“学生”这个概念并没有得到很好的详细 的描述。这个本体由于出版社和研究主题的关系而排在前面,而不是由于“学生” 的相关概念的集中性而排在前面。 针对这种情况提出了本文的排序算法,这种排序算法即利用了对于特定概念 的结构的分析,也采用了引用链接的分析方法,更能客观的反应特定概念在所描 述的本体中的重要程度。这种排序方法结合了一些排序算法的优点,算法的主要 创新点就是将对象属性的关系加到本体图中,并且将对象属性的关系和子类属性 黑龙江大学硕士学位论文 的关系分别赋予不同的权值,通过不断地循环迭代,最终也计算出图中子类关系, 对象关系的重要性。这对于本体可视化也具有很重要的作用。 10 4 本文的组织结构 本章介绍本体排序的一些背景知识:语义网,x m l ,i m f 以及在。,r d f 的基础上提出来的本体。并且对本体排序的重要性和必要性有所描述,对现有的 国内外的排序方法进行了总结。第二章将重点介绍现有几种主要的本体排序方法。 第三章将介绍本文提出的本体排序算法的背景、意义,实验方案( 所采用的数据, 评估方法等) 以及最终的评估结果。第四章将介绍原型系统的设计和实现,包括 数据集的获取,本体的解析,并且对用到的工具和软件包都有所描述。第五章对 本文进行了总结,并对今后的工作进行了展望。 第2 章现阶段的本体排序的研究技术 第2 章现阶段本体排序的研究技术 2 1 本体排序算法的介绍 g o o g l e 的p a g e r a n k 算法使得其搜索结果的质量大大提高,使得人们能够更快 的获取到想要的信息。而在本体搜索方面同样的事情也可能在不久的将来会出现。 随着本体搜索引擎能够发现的本体数目的增加,这种基于查询相关性对返回本体 进行排序的需求越来越大。一个合适的本体排序方法能节省用户大量的时间和精 力。它将减少这种对于每个本体的细节上的检查,并且对每个返回的本体找出如 何满足知识工程师的需求。 现有的本体排序方法可以分为三类:基于链接分析的方法,基于概念结构分 析的方法和基于内容的排序方法。其中基于链接分析的方法包括基于p a g e r a n k 算 法的改进得到的o n t o r a n k 算法,从可视化角度来考虑的c a r r a n k t 2 2 j ,以及将资 源和上下文信息结合起来的r e c o r a n k l 2 3 】排序的方法。他们各自都具有自己的特 征,以下将详细的介绍每个具体的算法。 2 2 基于链接分析的本体排序方法 2 2 1 改变的p a g e r a n k 的排序算法( o n t o r a n k ) 基于p a g e r a n k 思想的o n t o r a n k 算法是本体搜索引擎s w o o g l e 中使用的本体 排序算法。p a g e r a n k 的算法是根据网页的流行度来计算的,其根源就是论文的引 用关系:大家都引用这篇论文表明这篇论文的权威性很高,而一篇权威性高的论 文引用另一片论文,表明这一篇被引用的论文的权威性也很高。在g o o g l e 的 p a g e r a n k 算法中网页和网页之间的引用只有超链接这一种关系,而本体中含有的 关系类型很多,本体和本体之间的引用关系有很多的类型,因此对他们进行总结 是必要的。表2 1 给出了o n t o l o g y 当中的引用类型,以及本体和本体间的引用关 系类型【1 9 1 。 黑龙江大学硕士学位论文 i i i ii e i ii ii ii i i i i i i i i i i i i i i i i i 宣i i i i i i 肓i i i i i i i i i i 表2 - 1 本体中的引用类型 t a b l e 2 - 1r e f e r r i n gt y p ei no n t o l o g y t y p e c l a s s e sa n d p r o p e r t i e s i m o w l :i m p o r t s ,d a m l :i m p o r t s e x r d f s :s u b c l a s s o f , r d f s :s u b p r o p e r t y o f , o w l :d i s j o i n t w i t h , o w l :e q u i v a l e m c l a s s ,o w l :e q u i v a l e n t p r o p e r t y , o w l :c o m p l e m e n t o f , o w l :i n v e r s e o f , o w l :i n t e r s e c t i o n o f , o w l :u n i o n o f , d a m l :s a m e c l a s s a s ,d a m l :s a m e p r o p e r t y a s ,d a m l :i n v e r s e o f , d a m l :d i s j o i n w i t h ,d a m l :c o m p l e m e n t o f , d a m l :t m i o n o f , d a m l :d i s j o i n t u n i o n o f , d a m l :i n t e r s e c t i o n o f p v o w l :p r i o r v e r s i o n c p v o w l :d e p r e c a t e d p r o p e r t y , o w l :d e p r e c a t e d c l a s s , o w l :b a c k w a r d c o m o p a t i b l e w i t h i p v o w l :i m c o m p a t i b l e w i t h i m :显示一个本体引用了另外一个本体。被引用的本体的u r l 以三元组的形 式表示与引用对象的关系,三元组中的谓词是o w l :i m p o r t s 或者是d a m l :i m p o r t s 。 e x :显示一个本体扩展于另一个本体。这种关系是由上表中表示的属性产生。 例如,如果一个本体a 定义了类a c ,它与在本体b 中定义的类b c 有 r d f s :s u b c l a s s o f 的关系,s w o o g l e 将记录这种从a 到b 的e x 关系。 p v :显示一个本体是另一个本体的前一版本。 c p v :显示一个本体是另一个本体的前一版本,并且与这个本体是相兼容的。 i p v :显示一个本体是另一本体的前一版本,但与它是不兼容的。 给定一个语义网文档仅,s w o o g l e 用以下的公式计算它的原始排序: r a w p r ( 口) - ( 卜m d r a w p r ( x e l ( a ) x ) 筹 ( 2 - 1 ) ,一 , 第2 章现阶段的本体排序的研究技术 f ( x ,口) = w e i g h t ( 1 ) 厂( 石) = f ( x ,口) a e t ( x ) ( 2 2 ) ( 2 3 ) 公式( 2 1 ) 中的l ( 叻是链接到q 的语义文档的集合,公式( 2 3 ) 中的t ( x ) 是x 链接到的文档的集合。 s w o o g l e 用以下的公式计算语义网数据库和语义网本体的排序: p r s 啪( 口) = r a w p r ( x ) x e t c ( a ) ( 2 - 5 ) t c ( a ) 是引用a 作为传递闭包【2 4 】的语义网本体的集合。 但是这种算法也存在一定的缺陷:一个流行度很高的本体并不能对所覆盖的 所有概念都具有很好的描述。这种流行度不一定是关于领域知识的好的或合适的 描述。例如:假如一个工程师搜索“学生”这个关键词时,可能关于学术领域的一个 流行度高的本体被很好的链接,且这个本体中含有这个概念“学生”,它将在排序中 显示在前面的位置上。可是这个本体关于“学生”这个概念的描述就不是很详细。而 这个本体由于其发布和研究的集中性变的流行了,而不是因为关于学生这个概念 而变的流行了。 2 2 2 基于可视化的本体排序方法( c a r r a n 该方法通过对本体中概念的集中性进行描述来刻画概念的重要性( c a r 汛a n k 算法主要用来本体可视化【2 5 】) ,并且也计算出了本体中关系的重要性。具体的方法如 下面描述: 通过r d f s 中内容来排序其内部的概念和关系。c a r r a n k 是一种非本体的排 序方法,但对概念和关系的排序可以扩展到对本体的排序。 c a r r a n k 2 6 】排序的原理( 被链接分析的算法所激励) : ( 1 ) 如果一个概念与其他概念有更多的关系,则这个概念就是重要的。 ( 2 ) 如果一个概念与个更加重要的概念有联系,则这个概念是更加重要的。 ( 3 ) 如果一个概念拥有一个权重较高的关系,则这个概念是更加重要的。 ( 4 ) 如果一个关系将一重要的概念链接到其他的概念,则这个关系有较高的 权重。 给定一个本体图g e ) ,在k ( k - 0 ,1 2 ) 次重复之后,概念s e v 的重要性 和从s 到任意一个概念t e v 关系的权重分别被写做r k + l 和w k + l ,采用下面的公式递 归的计算: 哪力= 端 p 。 啪) = 崭棚丕删w 川仅 其中只= ulj ( v ,甜) e ,扰v a n d b v = ulj ( 扰,v ) e ,u 矿) 缺点:这种将概念和关系相结合起来进行计算的方法,是通过对其集中性的 描述来刻画的,它是根据本体的构建过程自顶向下的构造过程,来分析概念和关 系的。这种方法具有一定的新意,并且通过实验分析的结果来看其良好的性能超 过了a k t i v e r a n k ( 仅考虑了密度和中间状态值的测量) ,逆转的p a g e r a n k 算法1 2 7 1 , 概念层次的方法【2 8 l 等算法。但其本身存在一个不足之处就是对于大本体( 构建过 程是采用多种设计模式【2 9 】,如自上而下,自底向上,由外及里【3 0 】,中间向外扩展 1 3 1 1 ) 的计算其优越性能体现不出来,最根本的原因就是构建过程是采用多种设计 模式,而不都是从一个概念逐渐的向下扩展的。 2 2 3 扩展链接排序方法( r e c o n r a n k ) 该算法【3 2 1 以p a g e r a n k 算法为基础的,结合资源的上下文信息对r i f 文件中 的资源进行排序的,从而提升排序的质量,是子图范围内的排序,它受参考文献 3 3 】 的影响。本算法也可以扩展到对本体的排序上来。r e c o r a n k 算法最重要的一点就 第2 章现阶段的本体排序的研究技术 是对资源之间的关系进行扩展,以更好的体现资源和资源之间的关系。 如图2 1 是三个相互重叠资源的图( 包括资源中含有的内容) : ( 1 ) h t t p :s w d e f i o r g a h a r t h f o a f r d f ( 2 ) h t t p :h s w d e f i o r g - a i d a n h f o a f f f o a f r d f ( 3 ) h t t p :s w d e r i o r g 2 0 0 5 0 7 n 3 r a n k d o a p r d f 如图2 1 中上下文( 3 ) 是上下文( 2 ) 中的一个资源。这中关系表明可将资源和资 源所处的文档建立一种链接。 厂。、哺帆囊岫吗毯髓彻脚蛾h 唯心 。_ 一一 图2 1 相互重叠的三个r d f 文档的图 f i g 2 - 1t h r e er d f d o c u m e n tg r a p ht h a ti so v e r l a p 图2 - 2 是从图2 1 提取出来的只有资源所在的上下文的信息( 即具体的资源所 处的文档) ,可以知道图所体现的结构( 资源和其内部内容) 并没有很好的链接。 黑龙江大学硕士学位论文 厂脚:l l 榭,d e r i o r g l 2 0 0 5 铲i 兮广一 f o a p c u ,r r e n t p r o j e c tf o a f :c u r r e 。n t p r o j e c t t ( 三卜触胁删( 垂至 _ 躐岫哨逗三三三至) 图2 2 无上下文信息图的链接结构 f i g 2 - 2l i n k 咖c n 】r eo f g r a p hw i t h o u ti n v o l v i n gc o n t e x t s 图2 3 是从图2 1 提取出来的只有资源的图,所体现的结构( 资源和其内部内 容) 并没有很好的链接。 冬 - a h 讲a r t h l f o a f , 旧r d f t 卜一协瓣磊驴 、一。、一一一 。一, ,:- 一一一。 晾s s 爿、- ,;函j s w d e no r 、,脚t 铷僻“p 嘲e d _ 。a i d a n m o a f l o a f 耐f , 描述的资源。p a g e r a n k 算法应该从上下文( h t t p :s w d e r i o r g 一a i d a n h f o a f f o a f r d f ) 第2 章现阶段的本体排序的研究技术 通过以上的隐含的信息链接我们最终得到的链接信息如图2 4 表示: - - _ 一 图2 - 4 通过隐含关系链接起来的资源和资源内容的图 f i g 2 4g r a p ho fr e s o u r c ea n dc o n t e n ti nr e s o u r c ea f t e ri m p l i e dl i n k e da r ea d d e d 通过观察,我们发现以上节点的链接信息是很丰富的,更能准确体现资源和 其中内容的关系,资源和资源,及上下文之间的联系。从而可以采用链接分析的 方法如p a g e r a n k 进行分析。 缺点:本身是对网络上的资源信息进行排序,作者对最终结果的评估只是采 用了自己评论的方式而没有采用一个合适的评价标准,因此最终结果的评估不太 精确。但是其采用的扩大链接分析的观点很值得我们去学习。 2 3基于概念和结构的排序方法( a k t i r a n k ) 这是一种基于概念结构的分析方法,将本体看作是一个图。通过关键词匹配 其中的概念,然后分析图中关键词相匹配概念的程度,多关键词的语义相似性等 因素,最终决定所有含有相关关键词概念的本体排序。 具体的算法【3 4 j 【3 习【3 6 1 1 3 7 j 是通过测量四个因素去执行的:概念匹配度、中间状态值、 密度状态值和语义相似性。 2 3 1 概念匹配度的测量( c m s l 概念匹配度的测量是用来评估与给定的搜索关键词匹配的概念在本体中的重 黑龙江大学硕士学位论文 要性。这种度量方法是度量本体中的类和搜索的关键词进行匹配得到完全匹配( 类 名与搜索关键词一致) 的和部分匹配( 类名中还有搜索的关键词) 的程度。 一个含有搜索关键词的本体其得分值必然会高于其它不含有搜索关键词的 本体,并且完全的匹配比部分匹配也好。例如如果搜索“s t u d e n t 和 u n i v e r s i t y ,那 么一个本体中确实含有这两个概念的本体在这中测量方法中得分值肯定比其他的 含有部分匹配的类( 如u n i v e r s i t y b u i l d i n g 和p h d s t u d e n t ) 的本体要高。 设c 【o 】是本体0 中的类的集合,并且t 是搜索词的集合。 e o ,叨和p o ,t 是本体0 中类的集合,其分别是本体与关键词集合t 完全和部 分匹配的类的集合。其具体的计算方法如下所示: i 研d ,丁】| _ ,f ) ( 2 - 8 ) c c ( o ) f r 讹= 嬲嚣 p 9 , l p 【d ,丁】f - j ( c ,f ) ( 2 - 1 0 ) c e c o f 丁 力三:嬲= 胁三二, c m m o 】= 口le o ,t 】+ lp o ,t 】i l ( 2 1 2 ) c m m o ,t 】是本体中的关于搜索词集合t 的类匹配测量,a 和p 分别是完全匹 配和部分匹配的权值因子。如果驴p ,则确切匹配优于部分匹配。在本论文的实验 中采用a = o 6 ,1 3 = o 4 。 2 3 2中间状态值的测量( b e m ) 算法改进之前的这个因素是中心状态的测量【3 8 1 ,这种中心状态的测量目的是 来表述一个具体类是否处于本体的中间位置。因为一般来讲,越处于本体的中间 位置,其描述的信息就越详细。当建造本体的时候,建造本体的方法如自顶向下, 第2 章现阶段的本体排序的研究技术 自底向上,有外及里或中间扩展等方法【3 9 】【4 川已经被提出来构建本体中的类信息。 即使这些所有的构建方法都是有效的,但证据表明越是中间层的概念比位于较高 较低层次上的类描述的越加详细1 4 1 】。因而假定了在类层次中如一个概念越位于中 心,其类信息描述的就越详细,因而也会被更好的分析和全面的进行表述。中心 状态的测量就是用来刻画这种状态的。但是从实验结果的评估中可以看出它与密 度测量的方法得分值基本上是一样的,因丽得到重复的计算。作者在2 0 0 6 年改进 的a k t i v e r a n k 排序算法中变更了这个测量方法,将其变为中间状态值的测量。 中间状态值的测量本来是图论中的一种计算特定的节点在本体中处于中心状态的 一种度量方法。具体的描述如下面所示: 2 0 0 5 年和2 0 0 6 年的两个不同的版本的更改的地方。 2 0 0 5 年版本:h ( c 户m a x p e p r o o t c 啼b o t t o m , : 它表示从含有类c 的分支中 根节点到它的底端节点的最长距离。d ( c ) = m a x p e p r o o t e 三 表示类c 的等级 层次或从它分支的根节点向下到这个节点的路径长度,其中e e e ( o ,t ) ,p o ,i 】,并 且n = l e o ,t i + i p ( o ,1 ) i 。 d ( c ) 一掣 c e m c 】= 1 一i 矿l ( 2 。1 2 ) c e m 小i i , 善t l 溯纠 ( 2 1 3 ) 2 0 0 6 年版本:c i ,e je c l a s s o ,c i 和c j 是本体0 中的任意的两个类,c 【o 】是本 体0 中的类的集合,b e m ( c ) 是类c 的中间状态的测量值。 比嘶) - 一e 础。,警 ( 2 - 1 4 ) c j 巧c c 【d 】u 耐 盯c ,勺是从c i 到c j 的最短的路径的数目,吒勺( c ) 是从c i 到c j 通过c 的最短路 黑龙江大学硕士学位论文 b e m ( d ) 吉善b e m ( q ) ( 2 - 1 5 ) n 是在本体o 中相匹配类的数目,并且b e m ( o ) 是本体o 的平均中间状态的值。 2 3 3密度状态值的测量( d e m ) 当搜索一个特定概念的描述时,我们希望找到关于这个概念的细节信息描 述。这可能包括概念如何更好的定义( 子类的数目,父类的数目,及兄弟节点的 个数等) 。所有的这些因素被考虑进去就是密度测量值的计算。2 0 0 5 年和2 0 0 6 年 有两个不同的版本。新的版本是在通过实验和综合考虑之后将某些因素进行合并 和删除了实例的因素而得出的。具体的描述如下所示: 2 0 0 5 年的版本的信息: s = s l ,s 2 一,s i ,s 6 = d i r e e t r e l a i t o n s c ,i n d i r e c t r e l a t i o n s c ,i n s t a n c e s e l ,s u p e r c l a s s e s e l ,s u b c l a s s e s c ,s i b l i n g c _ ,d i r e e t r e l a i t o n s c 包含了指向e 和从c 出来的关系。 w i 是权值因子。n = l e o , t i + i p o , t i ,它是在本体0 中的相匹配的类的数目。 d e m c = 嵋 ( 2 1 6 ) d e m 小吉善a e m c 】( 2 - 1 7 ) 2 0 0 6 年的版本的信息: 密度信息的测量限制在关系、子类、超类和兄弟节点的数目。放弃了实例的 数目,因为实例数目的计算可能将对没有给出具体实例分值较高的纯本体给忽略 掉。 s = s l ,s 2 ,s 3 ,s 4 = r e l a t i o n s e ,s u p e r c l a s s e s e ,s u b c l a s s e s e ,s i b l i n g c a e m ( c ) = w ijs fj( 2 1 8 ) 第2 章现阶段的本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 双预控安全培训内容课件
- 双重预防机制培训课件
- 语文教师招聘考试复习资料与模拟试题
- 叉车培训安全标语课件
- 酒店营销策划方案及执行手册
- 2025银行编制面试题目大全及答案
- 双目显微镜课件
- 初中数学中考圆专题复习题库解析
- 合成氨工艺安全作业培训课件
- 中考必背古诗词赏析及解读
- 贵阳市2026届高三年级摸底考试物理试卷(含答案)
- 美发编发基础知识培训课件
- 同期线损培训课件
- 反诈知识竞赛试题及答案
- 钢筋加工棚租赁合同范本
- 2025年电梯检验员资格考试历年真题及答案试题试卷(含解析)
- 眼整形课件教学课件
- 公司法务知识培训会课件
- 2025年药企QA人员岗位职责培训考核试题及答案
- 浙教版2025-2026学年八年级上科学第1章 对环境的察觉 单元测试卷
- 纤维素基包装生物力学性能-洞察及研究
评论
0/150
提交评论