(计算机软件与理论专业论文)基于本体的语义信息检索研究.pdf_第1页
(计算机软件与理论专业论文)基于本体的语义信息检索研究.pdf_第2页
(计算机软件与理论专业论文)基于本体的语义信息检索研究.pdf_第3页
(计算机软件与理论专业论文)基于本体的语义信息检索研究.pdf_第4页
(计算机软件与理论专业论文)基于本体的语义信息检索研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机软件与理论专业论文)基于本体的语义信息检索研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕+ 学位论文 摘要 随着信息化的不断发展,人类的信息生产能力高速增长。如何在浩如烟海的 信息中找到对于用户有价值的信息己经成为一个非常重要的问题。不断发展的信 息检索技术使这一问题的解决成为了可能。 近来,基于本体的信息检索技术成为了研究的热点。本体论从本质上讲是就 是对客观存在的概念和概念之间关系的描述,所以基于本体的信息检索是基于知 识的、语义上的检索。它弥补了传统的基于关键字信息检索技术的缺陷,从而在 查准率和查全率上有更好的保证。 本文首先分析信息检索系统的现状,提出目前基于本体的信息检索系统研究 存在的主要问题。然后在阐述本体与信息检索相关理论的基础上提出一种基于本 体的信息检索系统框架,并详细阐述了系统的功能和检索流程。该模型能够利用 本体得到具有语义的索引项,并生成较好的文档逻辑视图和用户需求逻辑视图, 从而可以使检索性能大大提高。 最后深入研究基于本体的信息检索系统的关键技术,包括本体的建设方法、 基于本体的查询预处理和语义处理三个方面。对现有领域本体建设方法进行了分 析与比较,提出了一种较完整的本体构建方法,利用本体构建工具构建了一个本 体实例;针对智能查询问题对基于本体的概念相似度和相关度的算法进行了研 究,然后对系统进行了简单的实验验证和结果分析。 关键词:本体;语义w e b ;信息检索;语义检索 硕 :学位论文 a b s t r a c t w i m l ed e v e l o p m e n to fi n f o m a t i o ns o c i e 哆,t l l ei n f o 姗a t i o np r o d u c t i v i t y g r o w m sa tt l i 曲s p e e d h o wt o6 n dv a l u a b l ei n f 0 肌a t i o nf o rp e o p l ei n l et r e m e n d o l l s 锄o u n to fi i l f o n n a t i o nh a sb e c o m ea ne x t r 锄e l yi m p o r t a n tp r o b l e m t h ed e v e l o p i n g i n f o 肌a t i o nr e t r i e v a lt e d m o l o g yp r 0 v i d e sas o l u t i o nt ot l l ep r o b l e m n ei i l f o 锄a t i o n 僦e v a lt e c l l i l o l o g ) ,b a s e do no n t 0 1 0 9 ) ri st 1 1 e 锄p h a s i so fm e p r e s e n tr e s e a r c h h le s s e n t i a l l y ,o n t o l o g y i sm ed e s c r i p t i o no f t h er e l a t i o n sb e t w e e n o b j e c t i v ee x i s t i n gc o n c 印t s ,s om ei n f o r m a t i o nr e t r i e v a lt e c l l l l o l o g yb a s e do no n t o l o g y p r o v i d e ss 锄舭t i cm a t 出n gw h i c hm a l 【e su pf o rt l l e1 f l a wo fm e 仃a d i t i o 砌 i i l f o m a t i o nr e 缸i e v a lt e c :h n o l o g yb a s e do nk e y w o r d s i ti sb 甜e ra tr c c a l la n dp r e c i s i o n o f 1 eq u e r yr e s u l t f i r s t l y ,t h ep a p e r 百v e ss o m ea i l a l y s i st oa c t l l a l i t ) ro f i n f o 肌a t i o nr e t r i e v a l ,p u t s f 0 刑a r dm ep r i m a r yi s s u eo fs t u d yo no n t o l o g y b a s e di n f o n n a t i o nr 鲥e v a ls y s t e m 1 1 1 e i lb a s e do ne x p o u n d i n gt h em e o d ro fo n t o l o g ) ra n di n f o m a t i o nr e t r i e v a l ,觚 o n t o l o g y 山a s e ds ) r s t e m 行锄e w o r ko fi n f o m a t i o nr e 缸e v a la r ep r o p o s e d a r l dt 1 1 e 如1 1 c t i o n 姐dr e l 缸e v a lp r o c e s sa r ee x p o u n d e di nd e t a i l hm em o d e l ,s e r l l a n t i ci n d e x t e n n sc 锄b ea c q u i r e db yo n t 0 1 0 9 ) r t h el o 西c a lv i e w so fd o c u m e n t sa 1 1 dl l s e r s i i l f o 肌a t i o nn e e d s ,g e n e r a t e di nt 锄so fm e s es e m 锄t i ci n d e xt e n n s , c 锄r 印r e s e n t d o c u m e n t sa n du s e r si n f o m l a t i o ni l e e d sw e l l s om ep e r f 0 加:l 姐c eo fi n f o m a t i o n r e t r i e v a lc a nb ei 叫 r o v e de 毹c t i v e l y f i n a l l y ,t l l ep 印e rm a l 【e sad e 印l yr e s e a r c ho nm ek e yt e c l l i l o l o 舀e so fs y s t e m , i i l c l u d i f 培o m o l o g yc o n s t l l j c t i n gm e t l l o d ,o n t d l o g y b a s e dq u e r ) rp r e t r e a 衄e n t t e c l l l l o l o g y 觚ds 锄a i l t i cp r o c c s s i n gt e c l l l l o l o g y t h ep a p e rc o m p a r e sa n d 趾a l y z e st h e p r e s e n to n t o l o g yc 0 n s 仇l c t i i l gm e m o d o l o g y ,p u t sf o 刑a r dai n t e 伊a t e dm e t h o do f o n t 0 1 0 9 yc o n s t l l l c t i n g c 0 n s 协j c t sa ne x 锄p l eb yo n t o l o g yc o n s t n j c t i n gi m p l e m e n t ; i t s t u m e s 廿1 ea l g o r i t l l mo fs i m i l 撕t ya i l dr e l e v a n c eo fc o n c e p t i o n sf o rt h ep r o b l 锄lo f i n t e l l i g e n tq u e r y 1 1 1 饥t l l es y s t e mi ss i m p l yv 耐f i c da n da l l a l y s e db ym ee x p e r i i n e n t k e y w o r d s :o n t o l o 斟;s e m a n t i cw e b ;i n f o r m a t i o nr e t r i e v a l ;s e m a n t i cr e t r i e v a l i i 硕卜学位论文 附图索引 图3 1w 3 c 本体语言栈1 5 图3 2r d f 模型1 7 图4 1 基于本体的语义检索系统流程示例2 8 图4 2 基于本体的语义信息检索系统框架3 3 图5 1 问题处理流程4 2 图5 2 两个概念图的交集4 5 图5 3 关系相似度的计算4 5 图5 4 概念相关度计算流程图4 9 图5 5 计算机学科概念体系:5 1 图5 6 领域资源属性描述5 2 图5 7 不同阈值下的查准率比较5 4 图5 8 阈值为o 5 5 时的查全率和查准率5 4 i i i 兰州理工大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名: 杏弓 日期砩年6 月7 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即: 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借阅。本人授权兰州理工大学可以将本学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存和汇编本学位论文。同时授权中国科学技术信息研究所将本学位论文 收录到中国学位论文全文数据库,并通过网络向社会公众提供信息服 务。 作者签名: 导师签名: 李龟 丁从 日期:溯年6 月7 日 日期:略年6 月7 日 硕十学位论文 第l 章绪论 1 1 研究工作的背景和意义 1 1 1 研究背景 随着i n t e r n e t 技术的不断发展和完善,万维网已成为人们获取信息的一个 重要渠道。截止2 0 0 2 年底,万维网上约有9 0 4 万个网站,2 5 亿个网页,1 9 0 亿 字节以上的网页数据,同时网页数量正以每天7 5 0 万的速度净增长n 1 。截至2 0 0 5 年6 月3 0 日心1 ,我国网站总数已超过6 7 万,c n 下注册的域名数约6 2 万。相对 于万维网庞大的信息量,人的注意力和信息处理能力非常有限,以搜索引擎为代 表的信息检索技术已代替手工浏览,成为人们从万维网获取信息的最主要的手 段。 与此同时,网络数据的表达方式也发生了巨大变化。早期的h t m l 语言,仅 仅用以表示数据显示的布局,h t m l 所表达的页面信息和组织方式,主要面向用 户直接阅读,没有将信息的表现形式、内在结构和表达内容相分离,因而非常不 利于计算机直接阅读和处理。到了9 0 年代中期,尤其是x m l 的出现,将数据的 内容和布局区分开来,为语义更丰富、更自然的网上内容表达打开了新的局面。 但是,w e b 是如此巨大和未知,并且先天缺乏良好定义的基础数学模型,虽 然现在有很多的w e b 搜索引擎,然而在这种无边际的w e b 中,如何找到有用的信 息? 如何真正找到用户感兴趣的信息,而不是把有价值的信息淹没在一大堆应答 文档中? 如何把信息检索与浏览和数据库查询结合起来,为w e b 信息环境提供一 种综合的信息存取手段? 等等。这些问题成为信息检索的新热点,因此信息检索 及其技术成为现在信息技术的核心之一【3 1 。 针对目前因特网在信息表达、检索等方面存在的缺陷,w w w 的缔造者t i m b e r n e r s l e e 于2 0 0 0 年1 2 月在) ( m l 2 0 0 0 会议上,提出了下一代互联网的概念一 一语义网( s e m a n t i cw e b ) ,为人们勾勒出一幅未来语义网的美好前景。语义网概 念的提出,为有效解决上述瓶颈问题提供了新的技术思路,同时也为语义信息检 索的研究开辟了新的方向咖。 1 1 2 研究的意义 硕上学位论文 从理论意义上讲,语义检索技术的研究促进了当前互联网技术的发展。当前 互联网技术存在缺陷,主要在于其设计目的是面向用户的直接阅读和处理,而没 有提供机器可读的语义信息,因而限制了计算机自动分析处理以及进一步的智能 化处理的能力;语义互联网力求使计算机和网页之间能够从语义层次上互相理解 和沟通,被认为是下一代的互联网。语义检索的思想和语义互联网一脉相承,语 义检索技术可以看作是语义网技术的一部分,对语义检索领域的研究可以直接推 动语义网技术的发展。 从应用意义上讲,语义检索能够弥补传统信息检索的不足。传统信息检索技 术,其特点是将用户的检索请求和全文中的每一个词进行比较,采用关键词匹配 的形式,不考虑检索请求具体的含义,这种检索形式己越来越不能适应人们日益 提高的信息需求。语义检索将用户查询需求通过语义理解和计算转换成语义概 念,从而检索出与此概念相关的、用户真正想要信息,克服了传统信息检索技术 的局限性。 1 2 国内外研究现状 目前国外本体应用在信息检索中的著名项目包括( o n t o ) 2 a g e n t 1 、 o n t o b r o k e r 嗍和s k c 7 1 。这3 个项目也分别代表了3 个方向。( o n t o ) 2 a g e n t 的目 的是为了帮助用户检索到所需要的w w w 上已有的本体,主要采用参照本体。参照 本体是以w w w 上己有的本体为对象建立起来的本体,它保存了各类本体的元数 据。o n t o b r o k e r 面向的是w w w 上的网页资源,目的是为用户检索到所需要的网 页,这些网页含有用户所关心的内容。s k c 是一个正在进行的项目,其目标是解 决信息系统语义异构的问题,实现异构的自治系统之间的互操作。该项目系统通 过在本体上建立一个代数系统,用这个代数系统来实现各本体之间的互操作,从 而实现异构系统之间的互操作。 国内对本体的研究起步比较晚,主要研究内容包括产品信息建模、虚拟企业 建模阳1 、常识知识库一1 等。如中科院计算所的大规模知识系统研究n 引、中科院数 学所常识知识库的研究n 、浙江大学人工智能研究所基于本体的产品信息集成研 究1 2 1 等。 其中比较有影响的有中科院数学所陆汝钤院士领导的常识知识的实用性研 究。主要目的是建立一个大规模的常识知识库p a n g u ,并探讨利用常识知识来解 2 硕十学位论文 决一些实际问题( 如机器翻译和自然语言理解等) 。p a n g u 知识库采用a g e n t 和本 体来表达知识,其中a g e n t 强调包装和继承,重视事物之间的纵向联系,而本体 主要进行常识知识的横向联想,因此本体论方法是面向a g e n t 方法的一个很好的 补充。在p a n g u 中,一个本体描述分成3 部分:静态本体元的集合( s t a t i c e x t e n s i o n ) 、动态本体元的集合( d y n a m i ce x t e n s i o n ) 、本体网( o n t o n e t ) ,后者 也是一个语义网络,由从属于该本体的所有a g e n t 构成。每个本体表述( o n t o l o g y ) 从属于某个a g e n t 的b e l i e f 部分,本体网的全体形成了该知识库的本体结构。 有关常识本体的详细描述可参照文献n 羽。 1 3 本文研究的主要内容及组织结构 本文主要研究了本体理论在信息检索领域的一些应用。详细介绍了信息检索 技术及本体的基本理论和概念,在综合分析当前信息检索系统存在问题以及本体 技术的基础上,给出了一种基于本体的语义信息检索模型和系统框架,并详细阐 述系统各个功能模块的功能和工作流程。在系统关键技术的研究中,着重从领域 本体建设方法、查询预处理及语义处理三方面研究基于本体的信息检索技术。研 究了领域本体构建方法和工具,建立了一个简单的本体实例;阐述基于本体的查 询预处理技术及本体概念相似度、相关度计算方法。 本文的具体组织结构如下: 第一章主要介绍了研究的背景和意义,国内外的研究现状,最后介绍了本文 的主要内容和组织结构。 第二章主要介绍了信息检索技术的发展概述和相关技术。阐述了信息检索模 型的原理和特点以及检索效果的评价指标。 第三章介绍了本体的基本概念和理论。分别介绍了本体的定义,分类,建模 元语和本体的描述语言。 第四章介绍了语义信息检索的相关概念和几个主要的研究方向。根据语义信 息检索系统的设计目标,给出一种基于本体的语义信息检索系统框架,并详细阐 述系统的功能和工作流程。 第五章对系统的关键技术进行了研究。分析领域本体的构建准则和方法,对 本体的构建工具作了介绍,并利用工具构建了一个小型的本体实例,分析了基于 硕十学位论文 本体的查询预处理过程,最后从相似性和相关性两个角度详细阐述基于本体的语 义处理技术。 4 硕卜学位论文 第2 章信息检索技术 2 1 信息检索概述 信息检索是指将信息按照一定的方式组织和存储起来,并针对用户的需求找 出所需信息的过程,又称为“信息存储与检索 n 钔。从这个定义可以看出,信 息检索实际分为信息存储和信息查找两个阶段。信息的存储就是将通过各种手段 搜集到的信息,进行特征分析处理,并按一定形式存储的过程;信息的查找是针 对经过信息存储阶段整理的信息进行的,是存储的逆过程。 在信息的存储过程中,信息标引人员或自动标引程序对各种信息进行主题分 析,将信息所包含的内容分析出来,形成多个能代表信息主题的概念,并用信息 检索语言的词语把这些概念表达出来,归入检索工具;而在信息检索过程中,首 先对信息需求进行主题分析,形成能代表检索需求的概念,并将这些概念转换成 信息检索语言的词语,然后在检索工具中进行匹配运算,从而找到所需的信息。 因此,信息检索的实质是一个匹配过程,是以用户需求的检索表达式与信息的存 储之间的相符性为基础的,如果两者不能匹配,那么信息检索就失去了基础。检 索不到所需的信息,存储也就失去了意义。 目前,依据不同的划分标准,可将信息检索划分为几大类,例如,依据检索 对象划分可分为文本检索和多媒体检索;依据检索范围划分可分为全文检索和字 段检索;依据匹配方式划分可分为模糊匹配和精确匹配两种;依据截词方式划分 可分为左截词、右截词和中间截词三种方式;此外,还有布尔逻辑检索、限制检 索、嵌套检索、二次检索、相似检索和邻接检索等n 5 1 。 如果从检索思想的本质入手分析上述各种检索方式,可以看出他们基本上是 基于串匹配手段,即都是属于“关键词检索 的范畴。关键词检索的弊端显而易 见,可以假设这样一个极端的情况:一篇以“计算机为主题的文档通篇没有出 现“电脑”这个词,根据关键词基于字面匹配的方法,当用户输入“电脑”这个 检索词时,该文档是无法命中的,虽然大家都知道“计算机 和“电脑”在很多 情况下表达相同的意思。由此可见,在查全率和查准率这两项指标上,基于“串 匹配 的关键词检索,其检索质量己经很难再有质的飞跃。 5 硕卜学位论文 既然如此如何能够解决上述的问题,让计算机能够理解用户的查询意图,并 从文档中找到合适的目标? 如果计算机能够知道“电脑就是“计算机”,即“电 脑”和“计算机 是同义词,那么就不会出现上面的问题。如果计算机的这种“知 识是全面的,那么构建于此基础上的检索方法和工具就有了质的飞跃。 2 2 信息检索模型 信息检索的基本原理和机制是系统对信息集合与需求集合的匹配与选择。要 更准确、更严密地表述、论证这一原理,要有效地实现这一机制,就要依靠数学 工具,即需要建立信息检索的数学模型,运用数学的语言和工具,对信息检索系 统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式。它被演绎、推 理、解释和实际检验,反过来指导信息检索实践。最常见的信息检索模型是布 尔逻辑模型、向量空间模型和概率模型n 6 钉。 2 2 1 布尔检索模型 布尔检索模型是基于集合论和布尔代数的一种简单检索模型,运用布尔代数 的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑比较来检 索文献。布尔模型中,每个文献用一组标引词来表示,例如,对于某一特定文献 i ,可表示为: d ,2 ( 互,互,正,乙) 每个提问则表示为标引词的布尔组配。例如,对于特定提问j 可表示为: q ,= ( 互a n d 互) 0 r ( 五a n d ( n o t l ) ) 系统对提问的响应是输出一个包含有该提问式的组配元且符合组配条件的 文献集合。例如,对上述提问q ,来说,系统的响应必须是这样一组文献:它们 都含有互和正,或者包含有标引词正,但不含有标引词l 。 布尔检索模型提供了一个信息检索系统用户容易掌握的框架,具有简单、易 理解且能处理结构化提问等优点,所以在信息检索系统中得到了广泛的实际应 用。目前多数检索系统都支持这一检索形式。但由于布尔检索模型采取过于僵硬 的检索策略,没考虑那些大体能满足提问需要的文献,所以常使检索结果不能令 人满意。 6 硕f j 学何论文 2 2 2 向量模型 检索系统的向量模型又称代数模型,是检索系统所有数学模型中最有创造 性,最能揭示文献之间的关系,使用最复杂,要求条件最高的模型。2 0 世纪7 0 年代中期,杰拉尔德索顿提出了检索系统的代数模型,定义了文献向量、提问 向量、文献提问相关系数以及属性一文献相关矩阵、属性相关矩阵、文献相关矩 阵等概念。 假设系统有n 个记录的文献集合d = ( d 。,d :,d ,d 。) ,用来描述文献 集合的m 个属性形成集合a - ( 口l ,口2 ,口3 ,4 。) 定义。 用属性向量把一篇特定的文献向量幺表示为盔= ( 口f l ,口,口蛔) ,其中 口打表示文献4 中有集合a 中属性的程度,这种程度用数值形式表现出来,就是 常说的加权。若反具有属性巳,则口 2 1 否则口驴2 0 。用属性向量表示特定提问式, q = ( g l ,9 2 ,9 3 ,g 。) ,其中g ,( j = 1 ,2 ,m ) 表示提问中含有集合a 中 属性的程度,规定q 包含属性口,则g ,2 l ;否则g j 2 0 。在检索系统中,每篇文献 和每个提问均采用了等长的向量表示。 文献向量和提问向量的最后形式都变成了属性向量形式,它们在向量空间中 就产生了相对距离,把这个距离称之为文献提问相关系数,用c 表示。一般来说, c 越大,d 与q 的匹配性就越强,d 就越能作为q 的命中文献而输出。 索顿最初模型中,c 的计算公式为: c ( 盔,q ) = 口 f g , ( 2 1 ) ,= i 这种方法的实质就是计算文献与提问式之间所共有的标引词数量。较常用的 方法是用余弦函数,表示如下: c ( 盔,q ) = 埘 口 g , ,= l 7 ( 2 2 ) 硕十学位论文 这种方法的实质是计算m 维空间中文献向量与提问向量之间的夹角余弦。当 两个向量完全一致时,则夹角为0 ,表示在该空间中它们相互重叠,相关系数最 大。当全部文献向量与某个提问向量相关系数全部计算完毕后,系统就把相关系 数超过某一规定阈值的文献按相关系数大小降序排列输出。 2 2 3 概率模型 概率检索模型基于概率排序原理,即文献应该根据自身与提问的相关概率来 排序输出。概率检索理论认为给定检索文献与给定提问之间存在某种相关概率。 概率检索模型就是利用概率论的原理,通过赋予标引词概率值来表示这些词在相 关文献集合或无关文献集合中的出现概率,然后计算某一给定文献与某给定提问 相关的概率,最后系统据此作出检索决策。这种模型基本上是一种基于贝叶斯决 策理论的自适应模型,与前两种模型相比,其提问式是由系统通过相关反馈来构 造一个决策函数来表示信息提问。概率标引理论的基础是对标引词加权并利用权 值来计算文献的相关值,即满足给定提问的概率值。 概率模型的一般表达形式为:给定提问q ,则文献d 的相关概率为p ( 旭,| d ) 。 根据贝叶斯定理,可用下式求值: p ( 陀,| d ) :! ! 里! ! 璺! ! ! 兰! ! ( 2 3 ) p ( d ) 其中,p ( d ) = p ( d l 增,) 尸( 坨,) + p ( d k 陀,) p ( 刀彤,) ,表示文献d 作为相关文献 或无关文献出现的概率;p ( r e l ) 和p ( n r e l ) 分别代表某一给定文献相关或不相关 的先验概率;尸( d l 陀,) 和p ( d k 彤,) 则表示文献d 属于相关文献集合或无关文献 集合的概率。 近年来,人们提出概率推理网络检索模型,由文本网络和查询网络两部分构 成。文本网络由文本节点、文本表达节点和文档概念节点组成,分别对应于抽象 文本、某一实体文本、文本特征表示。查询网络由查询节点和查询概念节点组成, 查询节点表示某一用户查询,是对查询概念节点的相关性描述,而查询概念节点 包含了查询概念对查询概念节点概率相关性描述。检索过程是给定文本节点的先 验概率和中间节点的条件概率,以此计算出查询结点的后验概率。概率推理网络 硕l j 学位论文 在概率论相关理论的基础上进行推理,具有较坚实的理论基础,但是文本节点的 先验概率较难以确定。 2 3 检索效果评价 评价信息检索效果最直接的标准,是用户对检索结果的满意程度,但这一评 价标准是因人、因时、因环境而变化的,是己有知识及时间的函数,很难准确的 量化。目前通常用检索的实际效果来评价信息检索的质量,最基本和常用的评价 指标包括:检索精度( 又称为查准率,p r e c i s i o n ,p ) ,召回率( 又称为查全率, r e c a l l ,r ) ,前n 项精度( t o pnp r e c i s i o n ) ,1 1 点平均精度( 1 1 一p o i n ta v e r a g e p r e c i s i o n ) ,f 度量值( f m e a s u r e ) 以及p p 等。 ( 1 ) 检索精度和召回率n 踟n 9 3 对于信息检索要求i ,如果用r 表示相关文档的集合,a 表示检索结果组成 的文档集合,并用尺人彳表示r 和a 的交集,即检索到的相关文档集合,i 卅表示 集合x 的元素个数,则: p r e c i s i o n - 晔 ( 2 4 ) h r e c a l l :堕型( 2 5 ) r 其中p r e c i s i o n 被称作为检索精度,表示检索到的相关文档占检索结果文档 的比例;r e c a l l 被称作为召回率,表示检索到的相关文档占实际相关文档的比 例。 ( 2 ) 前n 项精度啪1 在检索返回的结果中,用户往往对排在前面的结果最感兴趣,而一般不会浏 览后面的结果。因此,排在前面的结果的质量也直接影响用户对检索的满意程度, 于是前n 项精度也是在信息检索中一个有用且常用的指标。这里n 通常取为5 、 1 0 、2 0 或者1 0 0 。 ( 3 ) 1 1 点平均精度 假设用户可以一次检查检索结果集合a 里的所有文档,那么用上面定义的 p r e c i s i o n 和r e c a l l 就足够了。但是实际情况却是a 中的文档首先根据相似程 度被排序,然后用户从前向后依次查看文档。在这种情况下,p r e c i s i o n 和r e c a l l 9 硕 :学位论文 会随着用户查看的进度而变化。于是就有了用p r e c i s i o n 和r e c a l l 的曲线图来 评价检索系统性能的方法一1 l 点平均精度。 把r e c a l l 分为0 9 6 、1 0 、2 0 、1 0 0 这1 1 个等级,分别计算它们对应 的p r e c i s i o n ,无法直接计算的点则可以用插值法等方法来确定。这样绘制出来 的曲线可以直观的反映对一个查询的检索效果。当我们需要衡量检索算法在检索 多个不同的查询时总的检索性能时,则可以对所有查询在同一个r e c a l l 等级上 对各个p r e c is i o n 值取平均。而n 点平均精度就是对1 1 个r e c a l l 等级上对应的 p r e c i s i o n 值取平均。这也是目前最常用的标准评价方法之一。 ( 4 ) f m e a s u r e 2 1 3 检索精度和召回率是两个相互关联的评价标准。通常一个系统的检索精度提 高了,其召回率往往会下降,因此只用任何一个进行评价都可能失之偏颇 f m e a s u r e 是对检索精度和召回率综合考察的指标,它的定义为: , 刑) 2 而赢而丽 6 其中j 是指在有序的结果列中的前j 个文档,p ( j ) 和r ( j ) 分别为前j 篇文 档的精度和召回率。 ( 5 ) p 尸 对于一些较精确的查询,系统返回的结果比较少( 例如几十个左右) ,用1 l 点平均精度来衡量时,大多数r e c a l l 点上的值都无法直接得到,使得这种评价 方法失去了意义。另外,对于不同的用户查询,检索的质量可能有很大的差别。 对于某个查询,检索结果列表中没有用户需要的信息的情况很有可能发生,即精 度和召回率均为0 。对于这种情况,f m e a s u r e 就无法进行度量了。因而人们提 出了用p p 作为一种补充指标来评价检索的综合性能。 l o 硕卜学位论文 第3 章本体相关理论与技术 3 1 本体的定义 o n t 0 1 0 9 y 最早是一个哲学的范畴,是对世界任何领域内的真实存在所做出 的客观描述,它可以追溯到公元前古希腊哲学家亚里士多德。o n t 0 1 0 9 y 在哲学 中的定义为“对世界上客观存在物的系统地描述,即存在论 ,关心的是客观现 实的抽象本质。 2 0 世纪9 0 年代以来,人们将本体的概念引入计算机领域,o n t o l o g y 被给予 了新的定义。1 9 9 3 年,g r u b e r 给出了本体的一个最为流行的定义,即“a no n t 0 1 0 9 y i sa ne x p l i c i ts p e c i f i c a t i o no fac o n c e p t u a l i z a t i o n ( 本体是概念模型的明 确的规范说明) 乜羽。 g r u b e r 认为:概念化是从特定目的出发对所表达的世界所进行的一种抽象 的、简化的观察。每一个知识库、基于知识库的信息系统以及基于知识共享的智 能a g e n t 都内含一个概念化的世界,或是显式的或是隐式的。本体论是对某一概 念化所做的一种显式的解释说明。本体中的对象以及它们之间的关系是通过知识 表达语言的词汇来描述的。因此,可以通过定义一套知识表达的专门术语来定义 一个本体,以人可以理解的术语描述领域世界的实体、对象、关系以及过程等, 并通过形式化的公理来限制和规范这些术语的解释和使用。 b o r s t 对此进行了修改,认为“a no n t o l o g yi saf o r m a ls p e c i f i c a t i o no f as h a r e dc o n c e p t u a l i z a t i o n ( 本体是共享概念模型的形式化规范的说明) 1 。 s t u d e r 等对上述两个定义进行了深入研究,认为“a no n t o l o g yi saf o 姗a 1 , e x p l i c i ts p e c i f i c a t i o no fas h a r e dc o n c e p t u a l i z a t i o n ( 本体是共享概念模 型的明确的形式化的规范说明) 乜劬 。 所谓概念化,是指通过抽象出客观世界中的一些现象的相关概念而得到概述 模型,即概念系统所蕴含的语义结构,是对某一事实结构的一组非正式的约束规 则,可以理解和表达为一组概念( 包括实体、属性和过程) 、定义和关系; 所谓“明确 ,是指所使用的概念及使用这些概念的约束都有明确的定义; 所谓“形式化,是指本体是计算机可读的; 硕卜学位论文 所谓“共享”,是指本体中体现的是共同认可的知识,反映的是相关领域中 公认的概念集,即本体针对的是社会范畴而非个体之间的共识 3 2 本体的建模元语 p e r e z 等人用分类法组织了本体,归纳出5 个基本的建模元语( m o d e l i n g p r i m i t i v e s ) 渊: ( 1 ) 类( c l a s s e s ) 或概念( c o n c e p t s ) 指任何事务,如工作描述、功能、行为、策略和推理过程从语义上讲,它 表示的是对象的集合,其定义一般采用框架( f r a m e ) 结构,包括概念的名称, 与其他概念之间的关系的集合,以及用自然语言对概念的描述。 ( 2 ) 关系( r e l a t i o n s ) 在领域中概念之间的交互作用,形式上定义为n 维笛卡儿积的子集:r : c 1 g q 。如子类关系( s u b c l a s s o f ) 。在语义上关系对应于对象元组的 集合。 ( 3 ) 函数( f u n c t i o n s ) 一类特殊的关系。该关系的前n 一1 个元素可以唯一决定第n 个元素。形式 化的定义为f :c i c 2 q l q 。如m o t h e r o f 就是一个函数,m o t h e r o f ( x ,y ) 表示y 是x 的母亲。 ( 4 ) 公理( a x i o m s ) 代表永真断言,如概念乙属于概念甲的范围。 ( 5 ) 实例( i n s t a n c e s ) 代表元素。从语义上讲实例表示的就是对象。 另外,从语义上讲,基本的关系共有4 种: 1 2 硕i :学位论文 表3 1 本体基本关系 关系名关系描述 p a r t o f 表达概念之间部分与整体的关系。 k i n d o f表达概念之间的继承关系,类似于面向对象中的父类 与子类之间的关系。 in s t a n c e o f表达概念的实例与概念之间的关系,类似于面向对象 中的对象和类之间的关系。 a t t r i b u t e o f 表达某个概念是另一个概念的属性。如“价格是桌 子的一个属性。 在实际建模过程中,概念之间的关系不限于上面列出的4 种基本关系,可以 根据领域的具体情况定义相应的关系。 3 3 本体的分类 通常情况下,可以按照本体的开发目的、研究主体、形式化程度对本体进行 分类啪1 。 ( 1 ) 根据本体的研究主题,可以分为知识表示本体、通用或者常识本体、 领域本体、语言学本体、任务本体等。其中知识表示本体的研究重点是语言对知 识的表达能力,典型的有s t a n f o r d 大学知识系统实验室提出的一种称为知识交 换格式k i f ( k n o w l e d g ei n t e r c h a n g ef o 眦a t ) ;通用或者常识本体关注于常识知 识的使用,例如著名的c y c 工程等;领域本体则在一个特定的领域可以重用,他 们提供特定的概念定义和概念之间的关系,提供该领域中所发生的活动以及该领 域的主要理论和基本原理等,对特定领域的本体研究和开发目前己经涉及到许多 领域,包括企业本体、医学概念本体、酶催化生物学本体等;语言学本体是指关 于语言、词汇等的本体,典型的实例有g u m ( g e n e r a l i z e du p p e rm o d e l ) 和 p r i n c e t o n 大学研制的w o r d n e t 等;任务本体主要是指可以共享的问题求解方法, 这里的推理方法与领域无关,任务本体主要涉及动态知识,而不是静态知识。任 务本体的研究以c h a n d r a s k a r a n 等人的关于任务和问题求解方法本体的研究为 代表。具体的研究主题包括:通用任务、与任务相关的体系结构、任务方法结构、 推理结构和任务结构等。 硕 j 学位论文 ( 2 ) 根据本体形式化程度分类,可以分为完全非形式化本体、结构非形式 化本体、半形式化本体、以及形式化本体。其中,完全非形式化本体采用自然语 言来描述本体,例如爱丁堡大学企业项目中的e n t e r p r i s eo n t o l o g y 自然语言版; 结构非形式化采用受限的或结构化的自然语言表示,以减少二义性,例如 e n t e r p r i s eo n t 0 1 0 9 y 的文本版本和w o r k f l o wm a n a g e m e n tc o a l i t i o n 推出的工 作流术语汇编;半形式化则用人工定义的形式化语言来表示,许多采用 o n t o l i n g u a 描述的本体都属于这一类:形式化本体一般具有形式化语义,并且 能够在某种程度上证明“一致性 和“完整性”等属性,例如多伦多大学虚拟企 业项目的企业本体。 ( 3 ) 根据本体的研究层次,可以分为顶层本体、领域本体、任务本体和应 用本体等。其中,顶层本体主要研究非常通用的概念,如空间、时间、事物、对 象、事件、行为等,他们完全独立于特定的问题或者领域,因而可以在很大的范 围内共享;领域本体主要研究与一个特定领域相关的术语或者词汇,如医学、企 业模拟等;任务本体主要用于定义通用任务或者推理活动,如诊断等,它们可以 应用顶层本体中定义的词汇来描述自己的词汇;应用本体主要用于描述特定的应 用,它既可以引用特定的领域本体中的概念,又可以引用任务本体中的概念。 3 4 本体的描述语言 在具体的应用中,本体的表示方式可以多种多样,主要可分为四大类陋7 1 :非 形式化、半非形式化、半形式化、形式化语言。可以用自然语言来描述本体,也 可以用框架、语义网络或逻辑语言等来描述本体。 比奇霍弗( s b e c h h o f e r ) 等人在分析了本体设计目标和应用实例的基础上, 提出本体语言应具备:明确本体的外延;必须为每一个本体提供元数据;本体语 言应包含类定义原语;本体语言应包含属性定义原语;说明类与性质之间的等价 关系;对特殊的等价关系的说明;特定领域的公理与假设;必须给出类实例;集 的势约束;支持字符模型等2 0 个方面的条件乜引。 概括说来,从本体的特点与本体应用的需求出发,本体语言必须满足以下几 个基本条件:首先,本体语言应该基于某种形式的逻辑,这样才能进行推理。目 前的大部分本体语言都是基于一阶谓词逻辑和描述逻辑的;其次,由于本体是共 享概念模型的明确的形式化规范说明,因此,本体语言必须是机器可读的;第三, 1 4 硕士学位论文 本体语言还必须具备编码语言的表达性,编码的精确性和语言的语义性;第四, 为实现本体间的交流和共享,本体语言还必须支持语法和语义的互操作性;第 五,从构成上来看,本体语言作为一种知识表示语言,应至少提供以下语言工具: ( 1 ) 本体语言的版本、名称域、本体描述性元数据等的定义语句和语法形 式; ( 2 ) 类的定义语句和语法形式; ( 3 ) 类属性的定义语句和语法形式; ( 4 ) 本体顶层类及其属性; ( 5 ) 本体文件的封装方式等等。 只有具备了这些基本组成部分,才可以用计算机来识别和处理本体m 3 。 大量的研究工作者活跃在该领域,因此诞生了许多种本体描述语一言,例如: r d f 和r d f s 、o i l 、d a m l 、d a m l + 0 i l 、0 w l 、k i f 、s h o e 、x o l 、o c m l 、0 n t o l i n g u a 、 c y c l 、l o o m 等。他们当中有基于4 阶逻辑的,也有基于描述逻辑的;有基于h t m l 的,也有基于) ( m l 的:有与具体系统相关的,也有与w e b 相关的。对于w e b 上的 应用程序而言,需要一个通用的功能强大的标准语言来表示o n t o l o g y ,以避免 在不同规格的描述语一言之间的转换。在w 3 c 的本体语言栈( 图3 1 ) 中,o w l 位 于最上层,它是从欧美一些研究机构的一种结合性的描述语言d a m l + 0 i l 发展起 来的,是w 3 c 推荐的语义互联网中本体描述语言的标准。 丁h eo n l o i o g yl a n g u a g es l a c k 图3 1w 3 c 本体语言栈 硕 学位论文 3 4 1i m f r d f 是w 3 c 提出的描述w e b 资源的框架,它的基础是用来表现命名的属性和 值的模型( r d fm o d e l ) r d f 属性可以看作是资源的特性,这类似于一般意义上 的属性值对,r d f 属性也表示资源之间的关系,因此r d f 模型就像一个表示实体 之间关系的图。事实上,可以把作为r d f 数据模型的实例的r d f 大纲( r d fs c h e i i l a ) 看作是数据库基本理论中的“实体一关系图 ( e n t i t y r e l a t i o nd i a g r 锄:e r 图) 。 从面向对象理论的角度理解,我们也可以把r d f 的资源看作是对象 r d f 基本的数据模型包括3 种对象类型( 如图3 2 所示) : 1 ) 资源( r e s o u r c e ) r d f 表达式中描述

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论