(计算机软件与理论专业论文)一个本体检索系统的设计与实现.pdf_第1页
(计算机软件与理论专业论文)一个本体检索系统的设计与实现.pdf_第2页
(计算机软件与理论专业论文)一个本体检索系统的设计与实现.pdf_第3页
(计算机软件与理论专业论文)一个本体检索系统的设计与实现.pdf_第4页
(计算机软件与理论专业论文)一个本体检索系统的设计与实现.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着语义w e b 的发展,基于本体的应用越来越多。由于本体开发与存储具有分布式的特 点,在信息量庞大的万维网上方便快捷地定位合适的本体是非常困难的。 f a l e o n - f 正是为克服这种困难而设计的一个集本体采集,分类,索引、检索功能于一体 的综合系统。本文阐述了它的一个子系统一f a l c - f 本体检索系统一的设计与实现。f a l c o n f 本体检索系统能够1 ) 根据用户输入的关键字检索本体并基于内容分析对本体进行排序,2 ) 对检索到的本体给出相应的检索证据,3 ) 对检索到的本体给出相应的本体摘要。 研究和设计f a l c o n f 本体检索系统的方法论是基于对本体模型以及相关算法的研究。 我们在此基础上,通过对l u c e n e 开源系统的二次开发,实现了f a l c o n - f 本体检索系统。并 且使用一些经典的方法评估f a l e o n - f 本体检索系统的性能,评估结果显示该系统具有较大 的实用价值,虽然它还有改进的空间。 关键词:语义w e b 、本体、本体检索、r d fs e n t e n c e 东南大学硕上学位论文 a b s t r a c t m o r ea n dm o r ea p p l i c a t i o n sb a s e do no n t o l o g i e se m e r g ew i t ht h ep r e v a l e n c eo f t h es e m a n t i c w e b s i n c et h ep r o c e s so f d e v e l o p i n ga n dp u b l i c a t i o no f o n t o l o g i e si sd i s l r i b u t e di nn a t u r e , i ti s d i m c u l tf o rt h eu $ e rt of i n da n dm i e x i s t i n go n t o l o g i e si nt h er a n g eo f w u r dw i d ew c b f a l c o n fi s o n t o l o g ys e a r c he n g i n ed e s i g n e dt os i m p l i f yt h i sp r o c e s s w h i c hi sc o m p o s e d o f ac r a w l i n gs u b s y s t e m , i n d e x i n gs u b s y s t e ma n dar e t r i e v a ls u b s y s t e n li nt h i sp a p e r t h e d e s i g n a n d d e v e l o p m e n t o f f a l c o n - fr e t r i e v a ls u b s y s t e ma m p r o p o s e d f a l c o n - f r e t r i e v a l s u b s y s t e mi sd e s i g nt o1 ) r e w i e v eo n t o l o g i e sa c c o r d i n gt ou s e r - i n p o t t e dk e y w o r d sa n dr a n kt h e r e s u l t s ;2 ) f o re a c hr e t r i e v e do n t o l o g y , p r o v i d et h ee v i d e n c ef o rt h er e t r i e v a l ;3 ) f o re a c hr e t r i e v e d o n t o l o g y , p r e s e n ti t sm m m 蝌 1 1 ”m e t h o d o l o g yo f r e s e a r c ha n dd e s i g ni sb a s e d o i lo n t o l o g ym o d e l i n gm e t h o da n d c o r r e s p o n d i n ga l g o r i t h m w eh a v ed e s i g n e da n di m p l e m e n t e dt h ef a l c o n - fr e t r i e v a ls u b s y s t e mo n t h e r e - d e v e l o p m e n t o f l u c c n e , w h i c h i s a n o p e ns o u r c e s y s t e m w e a p p l ys o n i c c l a s s i c a l e v a l u a t i o n m e t r i c s t o i n v e s t i g a t e t h e p e r f o r m a n c e o f t h e r e 舡i e v a ls u b s y s t e m t h er e s u l t ss h o w t h a t i tw i l lh a v eg r e a tu t i l i t ya l t h o u g ht h e r ei sp o t e n t i a lf o ri m p r o v e m e n t k e yw o r d s :s e m a n t i cw e b , o n t o l o g y , o n t o l o g yr e t r i e v a l ,r d fs e n t e n c e i l 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:奎亟兰垦 日期: 1 出 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊 登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:套! 坚墼导师签名: 日期: 第一章绪论 1 1 研究背景 第一章绪论 语义w e b ( s e m a n t i c w e b q ) 是下一代w e b 的发展方向。w 3 c 于2 0 0 1 年2 月启动了 s e m a n t i cw e ba c t i v i t y ,从此,语义w e b 的研究和应用得到了广泛的关注,并取得了很大 的进展。2 0 0 4 年2 月1 0 日,与r d f s ( 砒) f 和r d fs c h e m a ) 和o w l 语言有关的1 2 份技 术规范正式发布,这标志着语义w e b 的本体语言及理论基础已经基本奠定。 按照g r u b e r 在1 9 9 3 年的定义【2 】,本体是一个概念化的显式规约。作为一个规约,本体 需要通过某种语言来表达,而面向语义w e b 环境下的本体一般是指使用p d f s 3 或o w l 4 等语言开发的本体。 随着语义w e b 的发展,本体的开发及基于本体的应用越来越多。由于本体开发本身具 有分布式的特点,故需要一个集中式的自动本体采集、分类、索引以及检索系统为语义w e b 的研究人员和开发人员提供服务。 1 2 研究现状 人们对于文本检索和w e b 页面检索已经进行了许多研究。虽然文本、w e b 页面跟本体 有着很大的区别。但是文本检索和w e b 页面检索中的一些思想对本体检索有着很大的借鉴 意义。关于本体检索的研究目前已有了一些工作,下面我们将介绍几个主要的本体检索系统, 这些系统可能包含多个功能,我们只关注本体检索方面的功能。 1 2 1 s w o o g l e s w o o g l e l 是一个集本体收集,索引,检索为一体的综合系统,提供本体检索,语义w e b 文档( s e m a n 6 c w e b d o c u m e n t ) 检索、t e r m ( 指本体中的u r ir e f e r e n c e ) 检索等功能。图1 i 是s w o o g l e 本体检索结果的第一项,输入的查询关键字为 m u s i c 和 b e e r 。图1 - i 中第一行 是本体的u r l ;第二行给出了检索证据,s w o o g l e 将本体中出现的关键字按照字母顺序排列, 然后用给定长度的窗口截取包含查询中关键字的那段序列作为检索证据【5 】;第三行是本体 的一些描述信息。对于本体的排序问题,s w o o g l e 借鉴了著名的p a g e r a n k 6 算法,分析本 体之间的链接关系进行排序。 h t t p j i m o r p h e u s c s u m b c e d u l a k s l l o n t o s e m o w l 田e | 1 - f r a m e ,b e d - h 锄b e d - p a r t , b e d - s h e e t , b e d b u & b e d r o o m , b e e ,b e e 出b c e b e e r , b e e t , b e e t s m 硼i w e b d o 哦r d f x i 诅l , 2 0 0 5 0 8 - 2 5 3 mo m o r a t i o ( 10 0 ) 墅垫4 丝c a c h e d 图l 1s w o o g l e 检索结果中的一项 东南大学硕士学位论文 1 2 2a k t i v e r a n k a k t i v e r a n k 是由h a r i t h a l “等人在s w o o g l e 的基础上提出的一个查询相关的本体排序 方法,由于到目前为止还没有发现该系统的在线服务,我们只能通过它的系统架构来分析它 的功能和特点。如图1 - 2 。a k t i v e r a n k 系统根据用户的输入,调用s w o o g t e 提供的检索接口, 得到一组本体的u r l ,根据这些u r l 抓取本体后,采取基于内容分析的排序算法对本体排序。 【7 】中实验指出这样的排序结果l = 匕s w o o g l e 的摔序结果更接近人工捧序的结果,但同时指出该 捧序方法的时间复杂度很高。 1 2 3s c h e m a 、e b s c h d w d ,2 系统提供用r d f s 、o w l 和d a + o 几【8 】语言描述的本体的目录,同时 提供本体测览,本体检索服务。图l - 3 是检索结果的第一项,输入的查询关键字为 m u s i c 第一行显示本体的标题,第二行是本体的人工摘要 s u g g e s t e d u p p e r h e q e 8 0 n t o l o g y ( s u m o ) 仳o n t o l o g yi sb e i n gc r e a t e da so 矾o f t h ei e e es t a n d a r du p p e ro n t o l o g yw o r k 哪g r o u p t h eg o a io f l h i sw 0 f i c i n gg r o u pi s t od e v e l o p o n t o l o g y t h a t w i l lp r o m o t ed a t a i n t e r o p e r a b i | i i y j i n f o r m a t i o ns e a r c ha n dr e u i e v a l ,a u 缸m a t e d i n f e r e n d n g i 。 图i 3 $ c h e m a w e b 检索结果中的一项 根据上面的介绍我们发现在本体检索系统中有如下几点值得关注: 1 存在两类本体捧序算法:基于链接分析的排序算法、基于内容分析的排序算法。前 者以s w o o g l e 9 1 0 为代表,挖掘本体之间的关系,采用链接分析的方法进行排序,查询关 键字对捧序结果没有任何影响,放也称查询无关的捧序算法。后者以a k t i v e r a n k 为代表, 挖掘本体内部的结构信息,再根据关键字所对应的本体词汇之间的关系进行捧序,查询直接 决定着本体的排序结果,故也称查询相关的捧序算法。从目前仅有的参考文献看,在捧序性 能方面后者要优于前者,但是在时间复杂度方面前者有着绝对的优势 2 第一章绪论 2 目前仅有s w o o g l e 提供了简单的检索证据,即将本体中出现的关键字按照字母顺序 排列,然后用给定长度的窗口截取包含查询中关键字的那段序列作为检索证据 3 目前仅有s c h e n m w e b 提供了本体的摘要信息 总而言之,s w o o g l e 是目前数据量最大,提供服务最全面,影响最大的本体检索系统。 在本体检索系统的总体设计方面有借鉴意义。a k t i v e r a n k 系统虽然没有提供在线的服务, 但是其基于内容的排序算法思想对本体捧序有借鉴意义同时。s c h e m a w e b 给出的本体摘 要信息也给人启发。 1 3 研究内容 f a l c o n - f 系统是本实验目前正在研究与开发的一个包括本体采集、分类、索引以及检索 功能的综合系统。本体采集系统的主要功能是选取合适的种子、分析并抓取潜在的本体,同 时记录有关信息。本体分类系统的主要功能是按照某种分类目录将本体分类,以便用户按目 录浏览。本体索引系统是为本体建立简洁高效的索引,为本体检索系统服务。本体检索系统 是整个系统与用户之闻的接口为用户提供检索本体的功能。本人的主要工作是参与本体检 索系统的设计,包括对本体的建模和相关算法的研究,以及完成本体检索系统的实现。 本体检索系统的研究与开发包含非常丰富的内容和大量的技术元素,是一个长期的研究 与开发过程。通过对现有本体检索系统的分析与研究,确定本人的重点研究内容如下: 1 基于内容分析的本体排序算法的设计与实现。【7 】中指出,在目前本体之间链接关系 不够充分的情况下,基于链接分析的本体排序算法并不理想,应该充分利用本体的内部信息, 考虑本体与查询之间的相关度。但是【7 1 中的本体捧序算法较高的时间复杂度使得它不能够 被应用到一个切实可行的本体检索系统中。我们设计并实现了一种基于内容分析的本体摊序 方法,并且具有较低的时间复杂度。 2 在检索结果中提供合适的检索证据。文本检索领域的检索证据一般是包含查询关键 字的文档片断,它实际上给出了关键字的上下文环境,以便用户直观的判断该文档是否与查 询关键字相关。据此,s w o o g l e 系统的检索证据可以看作关键字的一个弱上下文,通过该证 据用户很难直观的做出判断。我们基于本体领域词汇的排序算法( 详见第二章) 提出并设计 实现了一种新的本体检索证据。 3 在检索结果中提供本体摘要。检索系统的主要目标是使得用户能够方便快捷的找到 所需的信息。对于某个检索结果,用户在根据检索证据直观的做出判断后,便需要进一步的 了解更详细的信息。s c h e m a w e b 提供的手工本体摘要正是为满足用户的这一需求,但对于大 量的本体或大规模的本体而言,实现手工摘要的难度很大,我们需要一种自动的本体摘要方 法。 4 重用l u c e n e 3 开源系统,结合f a l c o n - f 系统中的本体采集系统、本体索引系统,设计 本体检索系统的总体架构,实现各个子模块的功能,开发出一个切实、可运行的在线系统。 并通过实验对系统性能做初步的分析,为该系统进一步开发积累经验。 总而言之,本人的主要研究内容是设计并实现了f a l c o n - f 本体检索系统,其中基于内 容分析的本体排序算法设计与实现,本体摘要算法的实现,检索证据的提取是研究的侧重点。 3 h t t p :l u c c a p a c h e o q 东南大学硕士学位论文 1 4 论文组织结构 本文阐述了一个本体检索系统的设计与实现,全文共分五章。 第一章首先介绍了论文的研究背景;接着分析目前的本体检索系统,总结他们各自的特 点;最后根据目前这些系统优点和不足,总结提出f a l c o n - f 本体检索系统中的一些研究重 点,并指明了全文的研究内容与目标。 第二章介绍本体检索系统的设计。首先阐述了本体检索系统的设计原则,指出设计过程 中的几点注意事项;接着介绍了本体检索系统的体系架构,该体系架构包含多个功能模块,; 最后我们介绍这些功能模块的设计,以及在设计过程中所采用的一系列本体建模方法和相关 的算法。 第三章介绍本体检索系统的实现。首先介绍了f a l c o n - f 本体检索系统使用到的兰个工 具i k e 、j c m 、g - t a p h v i z ;接着阐述了本体的预处理,包括本体领域词汇的抽取、本 体r d fs e n t e n c e 的构建等;最后分别详细介绍了各模块的实现以及大规模本体的处理方法, 第四章对本体检索系统的性能进行了分析。首先通过实验分析了系统的时间性能,然后 以人工的本体排序结果为基准,对f a l c o n - f 捧序模块和摘要模块的性能进行分析。 第五章总结了本文的主要内容,展望了f a l c o n - f 本体检索系统未来的研究工作 4 第二章f a l c o n - f 本体检索系统的设计 第二章f a l c o n f 本体检索系统的设计 本章首先介绍了f a l c o n - f 本体检索系统的设计原则;接着通过系统架构图介绍了 f a l c o n f 本体检索系统的三个功能模块一查询模块、排序模块、摘要模块,以及各模块的 功能;然后分别介绍了各模块的设计。在查询模块中重点介绍检索证据的生成;在排序模块 中提出了新的本体模型v d g 并介绍了相应的排序算法d o u b l e f o c u s e d p a g e r a n k :在摘要模 块中阐述了另一种本体模型r d f s e a t e n c e g r a p h 并介绍了相应的算法w e i g h t e d p a g e r a n k 。 2 1 设计原则 系统观原则 f a l c o n - f 本体检索系统作为f a l c o n f 的一个子系统,是f a l c o n - f 系统与用户的交互接 口,设计时必须综合考虑f a l c o n - f 其它子系统的设计思路。同时。设计f a l c o n - f 其它子系 统也必须充分考虑并满足f a l c o n - f 本体检索系统的需求。例如:设计f a l c o n - f 本体检索系 统时必须遵循f a l c o n - f 本体索引系统定义的索引格式;同时f a l c o n - f 本体索引系统在定义 索引格式时也必须考虑到f a l c o n - f 本体检索系统的时间性能。 用户体验原则 f a l c o n - f 本体检索系统是一个实时在线系统,为了获得较好的用户体验,在设计f a l c o n - f 本体检索系统时,必须充分考虑系统的时间性能和使用的简便性。一般认为,在线系统的响 应时间低于2 秒才能够保证较好的用户体验。使用的简便性指在检索结果中提供一些帮助信 息以便用户迅速判断本体是否相关。 代码重用原则 f a l c o u - f 本体检索系统的实现是在l u c e n e 开源系统基础上的二次开发,故在设计时, 必须首先充分调查研究l u c 自a e 系统的检索方式以及索引的文件格式。但是,代码重用的前 提是不影响系统功能的实现 2 2 系统架构 本节主要介绍f a l c o n - f 本体检索系统的系统架构,包括查询模块、捧序模块、摘要模 块。同时阐述了模块之间的交互。模块与f a l c o n - f 本体索引系统、f a l c o n - f 本体采集系统、 存储管理器之间的交互。图2 - 1 是f a l c o n - f 本体检索系统架构图。 5 东南大学硕士学位论文 图2 if a l c o n - f 本体检索系统架构 f a l c o n - f 本体检索系统主要包括三个模块:查询模块、捧序模块、摘要模块。这些模块 同都与f a l c o n - f 系统的其它予系统存在交互,我们通过f a l c o n - f 系统的两个综合用例来分 析各模块的功能以及各模块之间的交互。 雨魏i t 建立本钵索劭 本体采集系统采集到新本体,调用存储管理器存储本体文档; 存储管理器给出触发信号,触发摘要模块和f a l c o n - f 本体索引系统: 摘要模块对新本体建立摘要,并调用存储管理器存储本体摘要: 捧序模块对本体领域词汇( d o m a i nv o c a b u l a r y ) 捧序,并将排序结果返回给存储 管理器。 甩甥2 :检索本体 查询模块根据查询关键字,访问索引文件,返回相关本体的信息,并将本体信息提 交给捧序模块; 捧序模块对本体进行基于内容分析的本体排序,根据本体领域词汇的挥序给出相应 检索证据,并将结果返回给查询模块; 查询模块根据本体序列和检索证据构造检索结果页面; 如果用户想进一步了解本体信息,可以调用摘要模块,浏览本体的摘要根 6 第二章f a l c o n - f 本体检索系统的设计 据上述检索流程,可以归纳出各模块的功能如表2 i 表2 1 各模块的功能 查询模块 根据用户输入的关键字,访问索引文件。返回相关本体的信 的功能息给捧序模块 根据排序模块返回的排序结果和检索证据显示检索结果 排序模块 对本体领域词汇排序。 的功能 进行基于内容分析的本体捧序 摘要模块 对f a l c o n - f 本体采集系统收集的新本体构建摘要 的功能 根据用户选择的本体,返回本体摘要 下面三节将分别介绍各模块的设计,着重阐述在设计过程中使用的本体建模方法和相关 分析算法。 2 3 查询模块的设计 设计思想 在上一节分析查询模块功能时指出查询模块能够“根据用户输入的关键字,访问索引文 件返回相关本体的信息给排序模块”。这里。相关”是指本体的自然语言信息包含用户输 入的关键字。所以,。根据用户输入的关键字,访问索引文件,返回相关本体的信息给排序 模块”就是根据用户输入的关键字,返回自然语言包含关键字的那些本体的信息。 本体。的自然语言信息“o ) 由本体领域词汇v 的自然语言信息u 、,) 组成,形式化定义 如下: 工( d ) = u 工( n = l o c a l n a m e ( v ) u t a 6 e t ( 功u c o m m e n t ( v ) 其中l o c a l n a m e ( v ) ,t a b e t 0 9 c o m m e n t ( v ) 分别表示本体词汇v 的l o c a l n a m e r d f i :缸b e l , ,域丘? m m f 中的关键字的集合。根据上述定义我们给出关键字k 的检索结果r o ( k ) 的形式 化定义: r o ( k ) = d i k 三( d ) ) 对于任意的关键字七如果检索到本体d ,则在d 中至少存在一个本体领域词汇y 使得 k l ( v ) ,这类v ( 符合i 上( 矿) ) 的序列构成关键字k 检索到本体0 的检索证据,记为 e v i d e n c e ( k ,d ) ,形式化定义如下; e v i d e n c e ( k ,0 ) = 嵋,吒,圪 对于任意的i , j ( 1 = f v 的重要性,领域词汇的重要性在下一节将有详细的介绍。 界面设计 从f m 咖- f 本体检索系统架构可以看出,查询模块是用户与系统交互的接口,主要处 理用户的输入和系统的输出。在设计时借鉴了c k x ) g l e 简洁明了的风格。 图2 2f a k - f 检索结果截图 如图2 2 所示,检索结果每一项的第一行是本体f 1 0 e 和指向本体摘要的超链接;第二行 给出本体的u m ;第三行是本体的检索证据,领域词汇按照在对应本体中的重要性排序,同 时指出领域词汇是c l 档或是p r o p e r t y g 第二章f a l c o n f 本体检索系统的设计 图2 - 3 本体摘要图 如图2 - 3 所示,我们以图的方式显示本体的摘要。 2 4 排序模块的设计 信息检索f l1 1 的一个核心问题是要对检索结果进行排序,这往往依赖于一个捧序算法。 传统信息检索模型的排序算法基于文档的内容计算查询与文档的相关度,主要是利用文档中 自然语言信息即单词是否在文档中出现或者在文档中出现的频率来计算相关度。少 数算法会利用一些结构化的信息主要是单词在文档中的位置和文档的段落安捧- 来 计算相关度。 随着万维网的兴起,w e b 文档( 主要是h t m l 文档) 的检索对传统的信息检索模型提出 挑战。仅仅根据相关度对w e b 文档排序满足不了用户的需求。人们更关注w e b 文档的权威 程度( a u t h o r i t y ) 。p a g e r a n k 算法在g d o g l e 4 系统中的成功应用很好的说明了这个问题。这类 捧序算法思想是:分析h t m l 文档之间的超链接关系,构建一个有向图,图中节点表示h t m l 文档,边的权重代表h t m l 文档之间链接强度;迭代计算h t m l 文档的重要性,直至收敛。 本体作为概念框架表示概念以及概念之问的关系对本体的排序也可分为两种:基于内 容分析的本体捧序和基于链接分析的本体排序基于链接分析的捧序方法是指分析本体之间 的链接关系。构建本体之间的关系模型,选择合适的算法对本体捧序。与p a g e r a n k 的思想 9 东南大学硕士学位论文 类似,本质是计算本体的权威程度。基于本体内容分析的排序方法是根据用户所提交的查询, 分析本体内部的信息进行排序,本质是计算查询与本体之间的相关度。 基于链接分析的本体捧序方法在 9 1 0 1 2 e 0 有了详细的研究,并且在s w o o g l e 系统中 得到了应用,基于内容分析的本体摊序算法在闭中也有了研究,【7 】中指出由于目前本体间 链接不够充分,基于内容分析的本体排序方法要优于基于链接分析的本体j | 序方法。但是该 算法的时间复杂度较高,使得它不能应用于实际的检索系统中。故我们需要一种新的算法计 算本体和查询的相关度,同时该算法的时间复杂度能够满足在线系统的时间复杂度要求。 在传统的信息检索中,查询与文档的相关度依赖于查询中的关键字在文档中出现的频率 受此启发,对于本体检索系统而言,查询与文档的相关度依赖于本体领域词汇在本体文档中 的重要性。( 前文已经指出:这种重要性不仅能够应用于本体的摊序,还能够应用于检索证 据的生成。) 我们首先介绍本体领域词汇排序的设计思想以及相关算法,然后介绍本体排序算法。 2 4 1 领域词汇的排序 我们曾在【1 4 】中对本体领域词汇的排序做了详细的分析,提出了一种新的本体模型 v o c a b u l a r y d e p e n d e n c y g r a p h ( v d g ) ,在该模型的基础上比较了d o u b l e f o c u s e d p a g e r a n k , h i t s 算法在本体领域词汇排序中的应用。实验结果显示d o u b l ef o c u s e dp a g e p m | k 在v i x 3 模 型上的排序效果最佳。 下文首先引入一些必要的定义,并通过一个简单的本体片段直观的说明这些定义;然后 引入v d g 模型,并针对该模型介绍d o u b l ef o c u s e dp a g e r a n k 算法;由于在d o u b l ef o c u s e d p a g e r a n k 算法中需要计算领域词汇与本体主题的相关度,我们借鉴v d o c 思想,计算领域 词汇与本体主题的相关度;最后给出了本体领域词汇捧序算法的流程图。 v d g 模型 在r d fc n a p h 1 5 中,r d fs t a t e m e n t 是由u r ir e f e r e n c e s 、l i t e r a l s 和b l a n kn o d e 组成, 而我们可以将r d f g r a p h 映射成r d fs t a t e m e n t 的一个集合。根据r d f 语义 1 5 1 ,b l a c k n o d e 是一种有关存在的量化资源。它的意义仅在所出现的r d fg r a p h 中有效。在一个r d fg r a p h 里面共享同一个b l a c kn o d e 的r d fs t a t e m e n t 就形成一种特殊的结构,该结构为b l a c kn o d e 提供了一个联合的上下文。这些r d fs t a t e m e n t 被分散在多个r d fg r a p h 中将会打破这种上 下文。如果我们试图在r d fc , r a p h 上抽取出一个有意义的子图,该子图不应该打破这种联 合的上下文,故对这种“结构”的分析是非常重要的。然而,r d f 语义并没有提供一种内在 的机制去标识这种结构,我们将它定义为r d fs e n t e n c e b - c o n n e c t e d 关系:如果两个r d fs t a t e m e n t 包含相同的b l a c kn o d e ,则成它们之间是 b - c o n n e c t e d 关系。此外,b - c o n n e c t e d 关系是传递的,例如,如果两个r d fs t a t e m e n t 同时 与一个r d fs t a t e m e n t 存在b - o m m e c t e d 关系,则这连个r d fs t a t e m e n t 之间也存在b - c o n n e c t e d 关系。在分析本体的过程中,为了使得所有存在b - c o n n e c t e d 关系的句子总是被组织在一起, 我们引入r d fs e n t e n c e 。形式化的定义如下: 定义t ( r d fs e n t e n c e )对于一个给定的r d fg r a p ht ,r d fs e n t e n c es 是满足下列 条件的r d fs t a t e m e n t 的集合: s t 第二章f a l c o n - f 本体检索系统的设计 v i ,j s ,i , j a r eb - c o n n e c t e d v i s ,j 正s , i ,j a r en o tb c o n n e c t e d 在r d f $ e n t e n c e 中,如果一个r d fs t a t e m e n t 的s u b j e c t 不是b l a c kn o d e ,则称该r d f s t a t e m e n t 是主r d fs t a t e m e n t 。一般的,一个r d fs e n t e n c e 由一个主r d fs t a t e m e n t 和其它 与之b - c o n a e c t e t 的虹 fs 忸t e m e n t 组成。有时,一个r d fs e n t e n c e 可能没有或者包含两个 ( 含) 以上主r d fs e n t e n c e ,我们将这类r d fs e n t e n c z 称为特殊r d fs e n t e n c e 。 o w ld l 本体都能够被映射到一个相应的r d fg r a p h ,进而可映射到r d fs e n t e n c e 的 一个集合。对o w l 抽象语法而言,a t o m i cc l a s s ( p r l 叩呐0 的事实( f a c t ) 或公理( a x i o m ) - - 般被映 射成一个“普通 r d fs e n t e n c e 。某些o w ld l 公理被映射到“特殊 r d fs e n t e n c e ,例如定义 两个类等价关系的公理。在下文中如果没有明确说明,r d fs e n t e n c e 就是指“普通 r d f s e n t e n c e 。同时,我们假定用户只关心概念层的r d fs e n t e n c e ,也就是关于c l a s s 和p r o p e r t y 的句子。其它r d fs e n t e n c e 不在本文考虑范畴,例如关于本体h e a d e r 和关于实例的r d f s e n t e n c e 。为了方便进一步的讨论,我们定义r d fs e n t e n c e 的s u b j e c t p r e d i c a t e o b j e c t 如下。 定义2 ( r d fs e n t e n c e 的s u b j c c f f p r e d i c a t e o b j e c t ) r d fs e n t e n c e 的s u b j e c t 和p r e d i c a t e 分别是主r d fs t a t e m e n t 的s u b j e c t 和p r e d i c a t e 了;r d fs e n t e n c e 的o b j e c t 是除了r d f s e n t e n c e 的s u b j e c t 和p r e d i c a t e 之外出现的领域词汇( d o m a i nv o c a b u l a r y ) 。这里的领域词 汇指用户定义的u r i r e f e r e n c e ,而不是本体语言自身固有的词汇。 图2 _ 4 是a n i m a l 5 本体中的一个片断( 见表2 1 ) 所对应的r d f g r a p h ,根据上述定义, 该图包含4 个领域词汇a n i m a l 、p e r s o n 、m a n 、h a s f a t h c r , ,以及3 个r d f s c n t g n c e :墨,足,墨 墨表示a n i m a l 和p e r s o n 之间的上下位关系;表示p e r s o n 和m a n 之间的上下位关系;马 表示p e r s o n 在h a s f a t h e r 上的限制。 表2 1a n i m a l 本体片断 5 h t t l r j a v w w l t l e a t e g n a l h n c o c o m p r o j e c t s o n t o l o g y o n t o l o g i e s a n i m a l s a n i m a l s b o w l l l 东南大学硕士学位论文 图2 - 4a n i n l a l 本体r d fc , r a p h 片段 根据r d fs e n t e n c e 的相关定义,r d fs e n t e n c e 是保持本体语义完整的最小单位。这跟 文本文档有相似之处;文本文档保持语义完整的最小单位也是句子。但是文本检索系统中的 最小单位却不是句子而是关键字,受此启发,本体检索系统的最小单位应该是本体领域词汇 文本检索系统一般是根据关键词在文本中的词频来计算文本与查询的相关度,如果将关键字 的词频看作其在文本中的重要程度,类似的,我们需要计算领域词汇在本体中重要程度,以 计算本体与查询的相关度。 这就要求在领域词汇的粒度上建立本体的新模型( 区别于r d fg r a p h 和本体二部图 1 6 1 ) ,并选择适合该模型的算法计算本体领域词汇的重要程度。 定义3 ( v o c a b u l a r yd e p e n d e n c yc n a p h ( 简称v i m ) v d g 是一个有向图 其中 点的集合v 表示r d f 图中领域词汇的集合,两个节点之间有边当且这两个节点表示的 词汇至少在一个r d f s e n t e n c e 中出现。w :一 r + ,w ( i ,j ) 表示领域词汇i 和j 之间 依赖程度,计算公式如下: 氓f ,j ) _ - e s i z e ( s ) 一l i 、_ ,出现在句子s 中,并且i 是主语 + 口 s i z e o f ( s ) 。1 | f ,出现在句子s 中,并且j 是主语) 其中s i z e o f ( s ) 表示句子的大小,口是方向因子,在( o 1 ) 区间。v d g 是一个有向图, 因子口的引入是为了调整依赖方向对本体领域词汇间依赖程度的影响。如果领域词汇f 是 r d fs e n t e n c e $ 的主语,领域词汇,t g e s 中,那么在o ,j ) 和u ,d 之间都存在依赖关系, 但是u ,f ) 之间的依赖关系显然低于( f - f ) 之间的依赖关系。图2 5 是图2 - 4 中r d f g r a p h 对 应的v i x i 1 2 第二章f a l c o n - f 本体检索系统的设计 图2 - 5 :a n i m a l 本体的部分v d g d o u b l ef o c u s e dp a g e r a n k 链接分析在w e b 信息检索中被广泛使用目前, m i c h e l a n g e l o 1 7 1 提出了一种对 w p s s ( w e bp a g es c o r i n gs y s t e m s 例如p a g e r a n k 和h i t s ) 建模的统一概率框架。能够用一个 或多个s i r f c l 的漫步者马尔科夫链 2 5 1 对不同的w p s s 建模。f 1 7 】同时介绍了d o u b l e f o c u s e dp a g e r a n k 算法。 在d o u b l ef o c u s e dp a g e r a n k 算法中,处于有向图g 中某个页面q 的h 疵f 有两个原 子动作可以选择:沿着q 中的一个超链接进入下一个页面,或者跳转到另外一个页面。实 际上,这种跳转动作或者选择q 中超链接的动作并不是随机的。考虑到页面中文本信息的 1 内容,日耐打往往跳转或者在q 中选择某个自己感兴趣的页面。在该算法中,一个文本分 类器为每一个页面打分,该分数表示它跟某一个主题的相关度,定义s c o r e ( p ) 是页面p 的分数。 假设x ( p l q ,- ,) ,缸p l 叮,) 分别是从页面g 跳转到p 的概率和从q 中一个链接进入页面 p 的概率,x ( pig ,) 的值非空当且仅当日有一个链接直接指向p 。考虑到每个页面的分 数,我们得到下面的公式: 姒( 讹,) 2 瓦s c o 面r e c h , ( q ) ) 其中以( 口) 是页面q 中的链接i 指向的页面,h q 是g 所链接的页面数量,表示s u f 衙在 页面q 沿着链接i 测览页面c 如( q ) 则“c 趣( q ) i g ,d 表示q l r 6 x 在页面q 沿着链接f 浏览 东南大学硕士学位论文 页面吨( 碍) 的概率。 在页面q 中沿着链接向前浏览的概率或者跳转到其它页面的概率分别为: j ( 柏) = d 面i s c o r 而e ( q ) i 幻i g ) :1 一d 竺塑里l m a x s c o r e ( p ) 其中分母m 戤。s c o r e ( p ) 表示 g 中打分最高的页面,即此页面与主题最相关,分子 s c o r e ( q ) 是页薤q 与主题的相关度。上述两公式的直观含义是:s u 舾所在的页面与主题越 相关,越可能沿着该页面中的链接向下浏览;反之,娜向更有可能跳转到其它页面。d 是 调整因子,【3 0 】对该因子作了详细讨论 而从任意的页面q 跳转到页面p 的概率为: 却m ) 2 s 两c o r e ( p ) 上式显示从任意页面跳转到p 的概率只跟p 与主题的相关度有关,跟页面q 无关。对于每一 个q 都应该满足如下的概率限制: 。 x ( p l q ,) - - 1 x ( p l q ,) = l x f f i g ) + 坩i g ) = 1 在t 时刻所有页面的概率分布可以用向量婶) = h ( 晚,( f ) 】来表示,其中每一个 维度( f ) 在f 时刻m i r 6 w 在页面p 的概率,月是页面数量,p 口( p ) 是直接连接到p 的页面 的集合 x e ( t + 1 ) = x ( p l q ,j ) x ( j i q ) 。( f ) + x ( p i q ,) x ( t ,叮) 。( f ) ( 1 ) 4 e g q e p a ( p ) 其中x ( p l g ,) 缸,l q ) x x o ( t ) 表示f 时刻s u f f e r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论