已阅读5页,还剩46页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的个性化元搜索技术的研究和实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着互联网信息的飞速增长,越来越多的人将搜索引擎作为网络信息获取的 主要手段。但是,在浩如烟海的互联网信息世界中,通过现有的搜索引擎,人们 寻找有用信息还是存在着很大的困难。其中的主要原因有两个:一是用户教育背 景的不同和知识领域的局限性同传统的基于关键词的查询服务之间的矛盾:二是 用户信息的个性化需求与现有搜索引擎的“一般化”服务之l 日j 存在矛盾。为了更 快、更准的获取特定的网络信息,成为搜索引擎研究的重点。元搜索引擎正好符 合这一发展需求,因此近些年来得到了飞速的发展。 元搜索引擎通过调用多个搜索引擎来实现搜索,并对搜索结果进行综合处 理,能较好解决现有的搜索引擎所存在的缺陷。 论文在元搜索引擎上引入基于本体的关键词扩展服务和个性化服务的结构 模型,并结合通用本体库上基于语义相似度的搜索策略,提高信息检索的查全率 和查准率。 论文在本体的基础上提出了一个基于语义相似度的本体库搜索策略,对关键 词的扩展服务有明显的改善,改进了单纯依靠语义相似度闽值来抑制关键词扩展 的速率,减少了无用词的产生。 论文在个性化搜索的研究中,提出了一种基于个性化本体的用户兴趣模型。 论文在个性化本体的基础上提出了一种间隔排列合成法和加权位置排列法两者 的结合的成员调度算法,它是根据扩展关键词集合和个性化本体库中的用户兴趣 信息做出的成员搜索引擎选择,有计算简单快捷和查全率高的优点。同时,基于 个性化本体的用户兴趣模型具有根据用户反馈信息更新用户兴趣信息的能力。 最后论文简述了关于检索结果的合并策略,包括无效链接检查和去重复网页 的步骤。 关键词:元搜索;本体;语义相似度;个性化 a b s t r a c t m o r ea n dm o r ep e o p l ew i l lh a v e b e e nu s i n gas e a r c he n g i n ea st h em a i nm e a n s o fa c c e s st oi n f o r m a t i o no ft h ew e bs i t e sw i t ht h er a p i dg r o w t ho fi n t e r n e t h o w e v e r , t h e r ea r es om a n yd i f f i c u l t i e sw h e np e o p l ef m ds o m eu s e f u l i n f o r m a t i o ni nt h eh u g e w o r l do fi n t e r n e ti n f o r m a t i o nb yt h es e a r c he n g i n e sw h i c hw ea l r e a d yh a v en o w t h e r ew e r et w or e a s o n sf o rt h i sp r o b l e m f i r s t u s e r sw i t hd i f f e r e n te d u c a t i o n a l b a c k g r o u n da n dk n o w l e d g eo ft h el i m i t a t i o n sc a nn o tb es a t i s f i e db yt r a d i t i o n a l k e y w o r d - b a s e dq u e r ys e r v i c e ;s e c o n d ,t h eu s e rn e e d so fp e r s o n a l i z e di n f o r m a t i o n h a v ec o n f l i c tw i t ht h ee x i s t i n g ”g e n e r a l i z e d ”s e r v i c e so fs e a r c he n g i n e i no r d e rt og e t s p e c i f i cn e t w o r ki n f o r m a t i o nf a s t e ra n dm o r ea c c u r a t e s e a r c he n g i n e sb e c o m et h e f o c u so ft h ei n f o r m a t i o nr e t r i e v a l m e t as e a r c he n g i n ei sa c c o r d i n gw i t ht h ed e m a n d a n dh a sb e e nr a p i d l yd e v e l o p e db yn o w 1 1 1 ee x i s t i n gd e f i c i e n c i e so ft h et r a d i t i o n a ls e a r c he n g i n ec a nb es o l v e db ym e t a s e a r c he n g i n ew h i c hc a l l san u m b e ro fs e a r c he n g i n e sa n dd e a l sw i t ht h er e s u l t s am o d e lo fe x p a n d i n gs e r v i c e sw i t ho n t o l o g y b a s e dk e y w o r d sa n dp e r s o n a l i z e d s e r v i c e sw a sp r e s e n t e di nt h i sp a p e r , w h i c hi sb a s e do nt h em e t as e a r c he n g i n es y s t e m a n dc o m b i n ew i t ht h eg e n e t i co n t o l o g yw h i c hb a s e ds e m a n t i c s i m i l a r i t ys e a r c h s t r a t e g ya n dw h i c hw i l li m p r o v ei n f o r m a t i o nr e t r i e v a lr e c a l la n dp r e c i s i o nr a t e s t h ep a p e ri n t r o d u c e sa no n t o l o g y b a s e ds e a r c hs t r a t e g yw i t hs e m a n t i cs i m i l a r i t y b a s e do nt h eg e n e t i co n t o l o g yw h i c hh a sas i g n i f i c a n ti m p r o v e m e n t w h i c he n h a n c e t h ea b i l i t yt od e c r e a s et h en u m b e ro ft h eu s e l e s sk e y w o r d i nt h es t u d yo fp e r s o n a l i z e ds e a r c hs e r v i c e s ,t h i sp a p e ri n t r o d u c e sau s e ri n t e r e s t m o d e lb a s e do nap e r s o n a l i z e do n t o l o g y n ep a p e r p r o p o s e sas c h e d u l i n ga l g o r i t h m o fm e m b e r sm e t as e a r c he n g i n e s w h i c hi sac o m b i n a t i o no ft h ei n t e r v a ls y n t h e s i s m e t h o da n dt h ew e i g h t e dp o s i t i o nm e t h o d t h ea l g o r i t h mc h o o s e st h em e m b e r so ft h e m e t as e a r c he n g i n e st h r o u g ht h ee x p a n s i o no fc o l l e c t i o n sa n dt h eu s e ri n t e r e s t i n f o r m a t i o ni nt h ep e r s o n a l i z e dk e y w o r d so n t o l o g yl i b r a r y i th a ss i m p l ea n dq u i c k c a l c u l a t i o n a tt h es a m et i m e t h em o d e lb a s e do nu s e r sp e r s o n a l i z e do n t o l o g yh a st h e a b i l i t yt ou p d a t et h eu s e ri n t e r e s ti n f o r m a t i o ni n t e r e s t e db yt h ei n f o r m a t i o nr e f l e c t e d b yt h eu s e r s f i n a l l y , ab r i e fp a p e ro nt h er e s u l t so ft h es t r a t e g yo fc o m b i n e dr e s u l t si s p r o p o s e d ,w h i c hi n c l u d e st h es t e p so ft h ec h e c k i n gi n v a l i dl i n k sa n dr e p e a t e dp a g e s k e y w o r d s :m e t as e a r c h ;o n t o l o g y ;s e m a n t i c s i m i l a r i t y ;p e r s o n a l i z e d 2 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表 示谢意。 学位论文作者签名:签字日期:年月 日 学位论文版权使用授权书 本学位论文作者完全了解江西师范大学研究生院有关保留、使用 学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许论文被查阅和借阅。本人授权江西师范大学研究生院 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 签字日期:年 月 日 导师签名: 签字日期:年月 日 基丁本体的个性化元搜索技术的研究和实现 1绪论 1 1 研究背景 i n t e r a c t 的出现,是二十世纪末人类科技史上对人类发展影响最大的事件之 一。它不仅渗透到人们的同常生活中,而且对社会的政治、经济、文化教育、商 业以及国防安全都起到了决定性的作用。基于i n t e r n e t 的信息检索和信息处理对 国家的发展有举足轻重的作用。对信息的拥有量和对信息的掌握和利用程度已经 成为决定和制约一个国家的国力强大和发展的关键因素。 随着万维网的迅猛发展,i n t e r a c t 的信息容量呈爆炸性趋势增长。根据中国 互联网信息中心在2 0 0 8 年7 月发布的第2 2 次调查报告,中国网民规模继续呈现 持续高速发展的趋势。截止2 0 0 8 年6 月底,与去年同期相比,中国网民人数增 加了9 1 0 0 万人,是历年来网民增长最多的一年,同比增长达到5 6 2 ,中国网 站数量持续增长,共有1 9 1 9 万个,年增长率为4 6 3 。同时,网民结构与人口 结构丌始趋近,互联网主流媒体地位凸显,互联网已经成为新闻传播领域中影响 巨大的、最具发展潜力的主流媒体,互联网深层次应用规模提速,如网上购物, 网上支付和网上银行等。 在互联网的众多应用中,人们从网上获取信息一直高居用户上网目的之首。 人们上网获取信息的一种普遍方式是通过浏览器浏览,通过网页的超链接来追随 浏览网页的内容。浏览方式局限于所链接的对象,能否找到结果不是必然的。由 于i n t e m e t 上的信息过于庞杂,而且具有不稳定和变动快的特点,再加上没有一 个权威机构对这些信息进行全面的整理和归类,这往往让用户面对众多种类繁多 的各种信息而无所适从,不知道如何去获取自己需要的信息,陷入了“信息爆炸” 和“资源迷向”的困境。因此,对于上网查找信息的用户来说,功能更先进效率 更高的信息检索工具显得尤为重要。 搜索引擎( s e a r c he n g i n e ) 技术正是为解决这个问题而产生的,它的出现为 i n t e r n e t 用户快速找到所需信息提供了方法。搜索引擎是一种在互联网上采取一 定的策略搜集、发现信息,并对信息进行理解、提取、组织和处理,为用户提供 检索服务的搜索工具。到目前为止,研究者己经做了大量的工作,力图丌发出高 效的信息检索工具怛儿引,以方便用户获取信息。大约在1 9 9 4 年前后,w e b 上出现 了搜索引擎,w o r l dw i d ew e bw o r m ( w w w w ) h 3 就是其中的一个。搜索引擎的出 现大大增强了人们定位和收集信息的能力,搜索引擎通过收集众多的网络站点来 提供全局性网络资源控制与检索机制,从而帮助用户方便地在网络中寻找自己所 需的信息。现在搜索引擎是上网用户最经常使用的网络服务之一,仅次于电子邮 件服务。根据i r e s e a r c h 瞄1 ( 艾瑞市场咨询一中国网络经济研究中心) 的研究预测, 而到2 0 1 0 年底,每天使用搜索引擎的用户数将近2 亿人,用户同均使用搜索引 擎次数将达1 2 1 次。到目前,在i n t e r a c t 上出现了许多方便和帮助用户查找所需 信息的搜索引擎,如g o o g l e ,y a h o o ,s o h u ,a l t a v i s t a ,e x c i t e ,l y c o s 、百度等。 随着w e b 内容的飞速发展,信息膨胀的速度远远超过了搜索引擎检索范围 的扩展速度,搜索引擎对w e b 建立索引的能力受到越来越严峻的考验。事实上, 以今天i n t e r a c t 的规模和发展速度,没有一个搜索引擎能够全面覆盖w e b 的文档。 硕i :学位论文 根据1 9 9 7 年的统计数据表明,当时索引数据库规模最大的a i t a v i s t a 搜索引擎只 能对整个w 曲文本数据的8 - 4 0 建立索引1 中文搜索引擎对中文网页样本覆盖 率最高的百度只有3 2 5 3 的网络资源覆盖率。同时,不同的搜索引擎的检索结 果的重复率仅仅在l o 到3 0 之间。因而一个搜索引擎通常不能找到用户需要 的所有信息,用户在进行检索时需要在多个搜索引擎之间进行切换,在多个检索 结果列表之中挑选对自己有用的信息。同时,对于一个普通的查询,搜索引擎往 往返回成千上万项的查询结果,其中相关信息和无关信息混杂在一起,根据统计, 用户不需要的信息所占的比例高达7 5 以上,用户不得不逐个浏览各项搜索结 果,找到自己真证需要的信息仍然如同大海捞针一样困难。 出于以上所述原因,一个能集成多个搜索引擎检索结果并能对此做整合处理 的检索工具元搜索引擎出现了1 。元搜索引擎就是为解决解决独立搜索引擎信息 覆盖率不足和查准率不高的不足而于上世纪9 0 年代中期产生,并得到了迅速的 发展。国内先后有北京大学、清华大学、国家智能研究中心等高校和研究单位对 这种搜索引擎技术开展研究,并研制出“网络指南针”、“天网”、“力维搜索”等 搜索引擎。全国搜索引擎和网上信息挖掘学术研讨会( s e w m ) 从2 0 0 3 年开始每 年召开年会开展对搜索引擎相关的理论和技术研讨和交流,逐渐成为该领域的学 术交流平台,推动了中文搜索引擎以及互联网技术的的发展。 1 2 传统搜索引擎的缺陷 搜索引擎是i n t e r n e t 发展过程中的产物。它是为解决同益扩大的网络上的海 量信息资源不断呈爆炸式增长与用户找到自己真正所需信息之问的矛盾而产生 的。但是,随着i n t e r a c t 的继续发展,这些现有搜索引擎的不足之处也同益暴露 出来: 1 现有搜索引擎检索覆盖率低 据资料显示,从1 9 9 7 年以来,搜索引擎的覆盖面相对于网络上公开的可检 索内容实际上是减少了,没有哪一个单独的搜索引擎能涵盖多于网上全部可检索 页面的1 6 。这表明搜索引擎查全率技术的发展与i n t e r n e t 的爆发式增长不相匹 配。 2 现有搜索引擎的检索结果冗余度大 现有的搜索引擎一般是基于关键词查询的,它们大多追求高度的查全率,却 没有很好的相匹配的检索结果综合处理机制,导致查准率较低。几乎每个搜索引 擎返回的结果中都含有大量的重复和无效的内容,这使得用户在二次筛选自己所 需信息中浪费很多时间。 3 现有搜索引擎无法为用户提供个性化服务 现有的大多数搜索引擎,基本上都采用“一个搜索适用所有用户 的搜索模 式,不具有识别用户兴趣、爱好的能力,以致于不管什么兴趣层次的用户,只要 在同一个搜索引擎上进行查询而且查询关键词一致,所得到的查询结果都是一样 的,显然不能满足各种用户的需求。 4 现有搜索引擎难以满足用户语义检索的需求 现有的搜索引擎大多采用传统的基于关键词的方法来查询,这使得一方面含 有这些关键词的返回结果泛滥成灾,另一方面却可能导致与用户的实际需求南辕 北辙的现象发生。 2 基丁本体的个性化元搜索技术的研究和实现 1 3 研究目的和意义 针对以上的问题,可以通过引进元搜索引擎技术,在一定程度上弥补传统搜 索引擎的不足。 元搜索引擎将现有的多个独立搜索引擎看成是一个整体,为用户提供一个统 一的查询界面;用户的查询请求由元搜索引擎根据其引擎信息库中的信息转换成 多个成员搜索引擎能识别的格式:然后按照成员搜索引擎的调度算法,把转换后 的查询分送到成员搜索引擎,由成员搜索引擎完成实际的查询;最后元搜索引擎 在收集到各个成员搜索引擎返回的查询结果后,进行比较分析,再以统一的格式 返回给用户。 利用元搜索引擎完成i n t e m e t 上信息资源的搜索,对于搜索引擎的设计人员 来讲,不需要建立和维护庞大的索引数据库,也不需要使用复杂的检索机制,可 以把精力集中在对成员搜索引擎的搜集、挑选上,将性能最优秀的通用性搜索引 擎和各领域最专业的搜索引擎挑选加入到成员搜索引擎库中,同时设计出合理的 成员搜索引擎的调度机制,对用户的查询能自动去调用最合适的成员搜索引擎, 还有对查询结果进行优化合成处理;对用户来讲,元搜索引擎提供了一种能够同 时查询多个搜索引擎的集成机制,将各个搜索引擎的网址、接口和查询语法格式 等细节屏蔽起来,简化和减轻了用户的操作负担,提高了查询效率,同时还提高 了查询的查全率和查准率。 同时,为消除“一个搜索适用所有用户的搜索模式的缺陷,要在元搜索引 擎的基础上引入个性化服务,通过建立个性化本体库,识别用户兴趣,对用户的 查询进行优化,更进一步提高用户查询的查准率。 再者,随着语义网络的研究和发展,传统的基于关键词的搜索方法已经无法 满足现代信息检索的需求,在元搜索引擎中引入本体,对关键词进行语义扩充, 提高信息检索服务的效率。 总之,在元搜索引擎具有的优势之上,通过建立用户个性化本体模型来表示 用户的兴趣特征和对搜索反馈信息的学习,结合实现通用本体库对用户查询语义 的扩充和个性化本体库对用户兴趣的描述,提高用户搜索的效率,具有较好的理 论意义和应用价值。 1 4 论文的主要研究内容 本文围绕元搜索引擎和本体进行了研究,对元搜索引擎相关的关键技术和本 体知识和应用展开研究,主要完成如下工作和创造性成果: 1 提出了一种基于本体论的个性化搜索的元搜索引擎的系统结构模型,并 讨论了它的结构、功能划分和设计实现中的关键技术;阐述了通用本体库和个性 化本体库互相结合以提高搜索精度的思路和方法。 2 着藿研究了关键词扩展模型,提出了一种新的基于本体的关键词扩展模 型。这种模型是在本体的基础上建立的语义层次上的关键词扩展模型形式;它的 内容包括通用本体库、通用本体库中概念之间相似度的计算方式以及基于通用本 体库的概念扩展算法。本文阐述了一种简单而有效的相似度计算方式,并应用于 通用本体库中概念的扩展,同时在上述基础上提出一种能更有效的控制关键词扩 展范围的算法,它通过相似度阈值和分散函数来减少扩展过程中产生的无用词, 在语义的层次上来提高用户的检索效率。 3 顾l j 学位论义 3 在对用户个性化服务中,提出了个性化本体的模型。这种模型是在本体 的基础上进行扩展而得到的个性化本体库。在本文中,个性化本体库参与了元搜 索引擎中成员搜索引擎的选择和搜索结果的排序等方面。个性化本体库通过混合 式学习和用户的反馈信息得到更新。 1 5 论文结构 第1 章阐明了本文的研究背景、目的和意义,说明了研究的主要内容,最后 介绍了论文各章节的内容安排。 第2 章对本体的概念、构建和本体描述语言做了简单的概述,并分析了本体 在信息检索服务中的优点。 第3 章分别介绍了搜索引擎与元搜索引擎的结构、原理、分类以及发展趋势, 对两者做了概要比较,阐述了元搜索引擎的优点。 第4 章介绍了个性化本体模型。在本体定义的基础上对其进行扩展,定义一 个新的个性化本体库,并对个性化本体库的建立个更新做了简要说明,以实现个 性化搜索服务。本章还详细介绍了基于本体的关键词扩展模型,并提出了基于通 用本体库的关键词扩展算法,做了简单的实验和比较。 第5 章对元搜索引擎的关键技术做了简述,提出一个基于个性化本体的成员 搜索引擎调度策略,并对检索结果的合并方法做了简要介绍。 第6 章在结合了前面几章对本体和元搜索引擎的关键技术研究的基础上,提 出了一个基于本体的元搜索引擎原型系统,对该系统的框架结构、模块功能和实 现的主要技术做了简述,并在该系统上进行了实验,通过对实验数据的分析验证 和评价了本文提出的设计思想和算法。 第7 章对论文工作进行了总结,就进一步需要研究的问题进行了讨论和展 望。 4 基丁本体的个性化元搜索技术的研究和实现 2 本体论概述 本体( o n t o l o g y ) 是近年来计算机及相关领域普遍关注的一个研究热点,作为 种能在语义和知识层次上描述信息系统的概念模型建模工具,已被广泛应用于 知识工程、系统建模、信息处理、数字图书馆、自然语言理解、语义w e b 等领 域之中。将本体引入信息检索系统后,系统对领域内的概念、概念之间的联系及 领域内的基本公理知识有一个统一的认识,进一步提高了系统的联想能力和精确 性,为用户提供有价值的信息和一个全面的共同视图。 2 1 本体的概念及应用 本体( o n t o l o g y ) 是一个哲学上的概念,是指哲学中研究世界的本原或本性的 部分。哲学上把本体定义为“对世界上客观事物所进行的系统描述”。在一段时 间罩,本体论在人工智能、数据库管理系统、软件工程等研究领域的发展是相互 独立的,造成了人工智能和信息系统领域中对“本体论”术语含义的误解,使其 更倾向于逻辑理论,而与世界的“存在”离得更远。信息系统正是因为缺乏对系 统外真实世界的理解和描述才造成了许多问题。 因此在信息科学领域,迫切需要对本体论的定义做进一步的辨析和规范,既 要借鉴哲学本体论思想的内涵,又要考虑本体论在人工智能和信息系统领域应用 的具体特点。 最近几十年以来,各种研究机构和知识工程研究者提出了多种面向a i 、具 有细微差别的本体定义。1 9 9 3 年,t o mg r u b e r 以传统人工智能教材l o g i c a l f o u n d a t i o n so fa r t i f i c i a li n t e l l i g e n c e 旧1 中所提的c o n c e p t u a l i z a t i o n 这一重要定义为 基础给出了第1 个在信息科学领域广泛接受的o n t o l o g y 正式定义们u : “a n o n t o l o g yi sa ne x p l i c i ts p e c i f i c a t i o n o fac o n c e p t u a l i z a t i o n ”。g r u b e r 的定义强调 了本体是知识表示的元级描述。此定义被引用最多,也是我们认为迄今为止最准 确的本体的定义。1 9 9 8 年,g u a r i n o 列试图明确说明本体论和概念化两者之间的差 别,并以此为基础对g r u b e r 的定义做提炼和修订:本体论是一个逻辑理论,用来 说明一个j 下规( f o r m a l ) 词汇表的预定含义。w i e l i n g a 和s c h r e i b e r 的定义朝强调了 本体在知识缴的形式化,表示应用于可知识化的a g e n t 中的知识。s t u d e r 等进行 了深入的研究,总结认为:“本体是共享概念模型的明确的形式化的规范说明。” 这个定义体现了本体的四层含义: 概念模型( c o n c e p t u a l i z a t i o n ) :通过抽象出客观世界中一些现象 ( p h e n o m e n o n ) 的相关概念而得到的模型,其所表现的含义独立于具体的环境状 态; 明确( e x p l i c i t ) :指所使用的概念及使用这些概念的约束都有明确的定义; 形式化( f o r m a l ) :指本体是计算机可读的,即能被计算机处理: 共享( s h a r e ) :指本体中体现的是共同认可的知识,反映的是相关领域中公 认的概念集,即本体针对的是团体而非个体的共识。 从根本上说,本体的作用是为了构建领域模型,例如,在知识工程过程中, 个本体提供了关于术语概念和关系的词汇集,通过该词汇集可以对一个领域进 硕i j 学位论文 行建模。虽然不同的本体之间存在一些差异,但它们之间存在普遍的一致性。针 对应用领域中一些特殊的任务,知识表达可能还需要一种在很高的普遍性层次上 的本体抽象概念。 领域本体是实现领域知识共享和重用的基础,领域本体为需要实现共享领域 知识的研究者们提供了一组公共的可共享的领域概念。本体的作用可以归纳为以 下几点: 1 本体可以作为通信的媒介,以辅助获取、表达和操作知识。这种辅助是 通过提供一个基本概念和语言结构的一致的核心来实现的。帮助建立和组织知识 库,解释知识处理工具模块的输入、输出。一般认为,领域的核心概念是不能经 常修改的,这个核心概念集是实现知识共享和互操作的基础。 2 本体是实现互操作和共享的基础,可以作为一个领域内部的交换格式。 对领域内的一个系统,如果需要集成,则需要转换器来转换领域本体与领域系统 的语义差别。 3 知识的标准化。本体为人们描述目标世界提供了一组通用词汇,而这种 通用的词汇正是实现知识系统化的基础。通用词汇和知识的系统化有利于实现知 识的标准化。 本体除了提供上述几种作用以外,还可以在知识重用,知识分离,知识系统 化等方面发挥作用。 2 2 本体的构建 构建本体,可以解决在用户间或软件代理间达成对于信息组织结构的共同理 解和认识,消除有不同知识背景的用户在知识概念上的表达差异,可以复用专业 领域知识,使专业领域内的概念知识变得更加明确,将专业领域的概念之间的关 系表达出来,更有效的挖掘出概念之间的隐藏信息。 2 2 1 本体构建的规则 目前已有的本体很多,出于对各自问题域和具体工程的考虑,构造本体的过 程也是各不相同的。在实践中,有不少研究人员提出了不少有益于构造本体的标 准,其中最有影响的是g r u b e r 于1 9 9 5 年提出的5 条规则利: 1 清晰性和客观性( c l a r i t y ) 本体必须有效地说明所定义术语的意思。定义应该是客观的,与背景独立的。 当定义可以用逻辑公理表达时,它应该是形式化的。定义应该尽可能的完整,所 定义的术语应该用自然语言加以说明。 2 一致性( c o h e r e n c e ) 本体应该是一致的,也就是说,它应该支持与其它定义相一致的推理;它所 定义的公理以及用自然语言进行说明的文档都应该具有一致性。 3 最大单调可扩展性( e x t e n d i b i l i t y ) 本体应该为可预料到的任务提供概念基础:它应该可以支持在已有的概念基 础上定义新的术语,以满足特殊的需求,而无须修改已有的概念定义。 4 编码偏好程度最小( m i n i m a le n c o d i n gb i a s ) 概念的描述不应该依赖于某一种特殊的符号层的表示方法,因为实际的系统 可能采用不同的知识表示方法。 5 本体约定最小( m i n i m a lo n t o l o g yc o m m i t m e n t ) 6 基丁本体的个性化元搜索技术的研究和实现 本体约定应该最小,只要能够满足特定的知识共享需求即可,这可以通过定 义约束最弱的公理以及只定义通讯所需的词汇来保证。 2 2 2 本体的建模原语 p e r e z 等人按分类法组织了本体,归纳出5 个基本建模原语( 1 ) 类( c l a s s ) 或概 念( c o n c e p t ) ; ( 2 ) 关系( r e l a t i o n s ) ;( 3 ) 函数( f u n c t i o n s ) ;( 4 ) 公理( a x i o m s ) ;( 5 ) 实例( i n s t a n c e s ) 。 概念的含义很广泛,可以指任何事物,如工作描述、功能、行为、策略和推 理过程等等。关系代表了在领域中概念之间的交互作用,形式上定义为n 维笛卡 尔乘积的子集:c 。f ,c 。,如子类关系( s u b c l a s s o f ) 。函数是一类特殊的关 系,在这种关系中前n 一1 个元素可以惟一决定第n 个元素。例如:f a t h e r - o f 关系 就是一个函数,其中f a t h e r - o f ( x ,y ) 表示y 是x 的父亲,显然x 可以惟一确定他 的父亲y 。公理代表永真断言,比如概念乙属于概念甲的范围。实例代表元素, 从语义上分析,实例表示的就是对象,而概念表示的则是对象的集合,关系对应 于对象元组的集合。概念的定义一般采用框架结构,包括概念的名称,与其它概 念之间关系的集合,以及用自然语言对该概念的描述。基本的关系有四种:p a r t o f , 虹n d o f , i n s t a n c e o f 和a t t r i b u t e o f p 硼o f 表示概念之间的部分与整体的关系; k i n d o f 表示概念之间的继承关系,类似于面向对象中的类与子类之i 日j 的关系; i n s t a n c e o f 表示概念的实例与概念之间的关系,类似于面向对象中的对象与类之 i 日j 的关系;a t t r i b u t e 。o f 表达某个概念是另外个概念的属性。例如概念速度可以 作为概念航空器的一个属性。在实际应用中,本体的构造也不一定要严格地按照 上述5 类元语。同时概念之间的关系也不一定仅限于上述的四种关系,可以根据 特定领域的具体情况定义相应的关系。 2 2 3 本体构建的主要方法 目前,建立本体大多采用手工方式,远远没有成为一种工程性的活动。在建 立各自的本体时,都有自己的原则、标准和定义,缺乏公认的建模方法,影响了 本体的重用、共享和互操作。目前知识工程界比较成型的建模方法介绍如下: 1 m i k au s c h o l d d e d e & k i n g 的“骨架 法 这个本体建立模式是爱丁堡大学从开发e n t e r p r i s eo n t o l o g y 的经验中产生 的。它提出了建立本体的4 个主要步骤“5 | : ( 1 ) 确定本体应用的目的和范围; ( 2 ) 建立本体,包括本体获取( 指标识关键概念和概念关联,产生无二义性的 自然语言定义,指定标识这些概念和关联的术语等) 、本体编码( 指用形式化的语 言表示上述概念和关联) 和本体集成( 指集成己经获得的概念和关联的定义,使之 成为整体) ; ( 3 ) 对所建立的本体进行评价; ( 4 ) 形成文档。该方法主要用于描述相关商业企业术语和定义的集合,只提 供开发企业本体的指导方针。 2 g n m i n g e r & f o x 的本体建立模式 该方法也是从具体的本体构造过程中总结出来的根据多伦多大学的t o v e 项目,由g r u n i n g e r 和f o x 等人提出的。t o v e 本体包括企业设计本体、工程本 体、计划本体和服务本体。其本体建立过程概述如下: 顾f :学位论文 ( 1 ) 收集应用情景阶段。因为建立本体的动机就是为了实际应用,一旦存在 由现有本体不能回答的问题,就需要丌发新的本体,应用情景可能会提供新问题 的解决方案,这些方案就成为所要定义的概念和关联的内在语义; ( 2 ) 非形式化本体能力问题的形成阶段。以应用情景为基础,用问题形式提 出本体构造需求,即要构造的本体必须能用它自己的术语、定义或公理等表示问 题,并产生问题的答案。因此,问题就成为构造本体的约束和评价标准; ( 3 ) 术语的抽取和定义。首先从上述问题中抽取所涉及的词汇,然后进行形 式化定义; ( 4 ) 问题的形式化。用所定义的词汇表示上述本体能力问题; ( 5 ) 关于本体词汇公理的定义。这些公理用来定义本体词汇的语义和约束, 在t o v e 中所有公理都是用一阶谓词表示的,若这些公理足以回答本体能力问 题,则相对于这些问题的本体是完全的,否则需要新的术语和公理。 3 1 认c t u s 工程方法 k a c t u s 是欧洲e s p r i t 项目。该方法中每一个应用都有相应的表示该应用 所需要本体。这些本体可以重用其他本体,也能被继承,用于电子网络的开发。 开发过程是: 1 应用的说明。提供应用的上下文和应用模型的组件; 2 初步设计。搜索己存在的本体,进行提炼和扩充; 3 本体构造。使用最小关联原则来保证模型的相互依赖与一致,得到最大的 同构。 4 。m e t h o n t o l o g y 方法 该模式是由西班牙马德罩理工大学人工智能实验室提出的。该方法分为三个 阶段: 第一阶段是管理阶段,包括任务的进展情况、需要的资源和如何保证质量等。 第二阶段是开发阶段,进行的步骤是规范说明、概念化、形式化、执行和维 护。 第三阶段是维护阶段,包括知识的获取、系统集成、评价、文档说明和配置 管理等。m e t h o n t o l o g y 方法把本体开发过程和本体生命周期两个方面区别丌来, 并使用不同的技术支持。它还根据进化原型法的思想,提出生命周期的概念来管 理整个本体的开发过程,使本体开发过程更接近软件工程开发方法。使用该方法 开发的有基于本体的w w w 代理、基于本体的w w w 化学教育代理,它允许学 生学习化学、自测该领域的技巧等。 一般地,把建立本体模型的过程分为两个阶段:第一阶段是用自然语言和图 表来描述领域模型,形成本体原型;第二阶段是使用知识表示语言把本体模型进 行编码,形成便于人们交流、无歧义的可被软件解释的本体。有多种本体描述语 言可以用来对本体建模。 2 3 本体描述语言 本体描述语言起源于历史上人工智能领域对知识表示的研究。近年来,w e b 技术为全球信息共享提供了便捷手段,以共享为特征的本体论与w e b 技术结合 是必然趋势。同时,随着x m l 成为w e b 上数据交换的标准语言,基于x m l 的 o n t o l o g y 语言也同趋成熟,如s h o e ( s i m p l eh t m lo n t o l o g ye x t e n s i o n ) 1 6 j x o l ( x m l b a s e do n t o l o g y e x c h a n g el a n g u a g e ) 1 、d a m l + o i l 。等。 8 基丁本体的个性化元搜索技术的研究和实现 在标准方面,由w 3 c 主持制定的r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) u 圳和 r d f s c h e m a 心们是建立在x m l 语法上,以语义网( s e m a n t i cn e t w o r k s ) 为理论基础, 对信息资源进行语义描述的语言规范。r d f 采用“资源( r e s o u r c e s ) 、“属性 ( p r o p e r t i e s ) 以及“声明”( s t a t e m e n t s ) 等三元组来描述事物。2 0 0 2 年7 月,w 3 c 在提交的d a m + o i l 基础上发展了o w l 语言,以使其成为国际通用的标准本体 描述语言。o w l 建立在x m l r d f 等已有标准基础上,通过添加大量的基于描 述逻辑的语义原语来描述和构建各种本体。o w l 根抓表示和推理能力分为三个 子语言) o w ll i t e 、o w ld l 、o w lf u l l 。相应功能简介如下: ( 1 ) o w ll i t e - 用于提供给那些只需要一个分类层次和简单的属性约束的用 户。 ( 2 ) o w ld l :支持那些需要在推理系统上进行最大程度表达的用户,这旱的 推理系统能够保证计算完全性和可决定性。它包括了o w l 语言的所有约束,但 是可以被仅仅置于特定的约束下。 ( 3 ) o w lf u l l :支持那些需要在没有计算保证的语法自由的r d f 上进行最大 程度表达的用户。它允许一个本体在预定义的( r d f 、o w l ) 词汇表上增加词汇, 从而任何推理软件均不能支持o w lf u l l 的所有f e a t u r e 。 用户在选择使用哪种语言时的主要考虑是: ( 1 ) 选择o w ll i t e 还是o w ld l 主要取决于用户需要整个语言在多大程度 上给出了约束的可表达性; ( 2 ) 选择o w ld l 还o w lf u l l 主要取决于用户在多大程度; 上需要r d f 的元模型机制( 如定义类型的类型以及为类型赋予属性) ; ( 3 ) 在使用o w lf u l l 而不是o w ld l 时,推理的支持不可预测,因为目前 还没有完全的o w lf u l l 的实现。 这三种子语言与r d f 的关系是: ( 1 ) o w l f u l l 可以看成是r d f 的扩展; ( 2 ) o w ll i t e 和o w lf u l l 可以看成是一个约束化的r d f 的扩展; ( 3 ) 所有的o w l 文档( l i t e ,d l ,f u l l ) 都是一个r d f 文档; ( 4 ) 所有的r d f 文档都是一个o w lf u l l 文档; ( 5 ) 只有一些r d f 文档是一个合法的o w ll i t e 和o w ld l 文档。 2 4 本体在信息检索中的应用及优点 目前的信息检索方法主要是基于关键词或分类目录,其查询结果往往容易产 生大量无用信息,同时又可能丢失重要信息,也就是造成信息的重检和漏检。本 体论刻画了事物之间的内在联系,借助于本体论,可以使检索的信息更能满足用 户的需求。 对于用户给出的查询关键词,在本体论知识的协助下,可以有效地判断其所 属的可能领域,然后分别将该领域及其所属的相关概念与定义罗列给用户,用户 据此进行相应的选择相关判断。一方面,通过选择和判断过程帮助用户明确其信 息需求,把未意识到的或者未明确清晰表达的客观信息需求进一步显性化;另一 方面,让系统了解用户所关心的领域,为检索过程提供更为精确的信息,有利于 在客观上使相关性的判断向语用相关靠近和转移,借以快速有效地达成信息用户 的检索请求和满足用户的信息需求,从而提高系统的检索质量。 9 坝i j 学位论文 3 搜索引擎与元搜索引擎概述 随着互联网的不断发展壮大,w e b 信息的数量已经呈指数增长,用户要在信 息海洋罩找到有用的信息,就如大海捞针一般。因此,搜索引擎成为人们进行网 络信息查询的有力助手,也因此得到了前所未有的发展。目前,搜索引擎技术正 成为计算机工业界和学术界争相研究和开发的对象。本章对目前的搜索引擎技术 作一个简单全面的概述。 3 1 搜索引擎 3 1 1 搜索引擎发展概述 1 9 9 4 年7 月,m i e h a e l m a u l d i n 将j o h n l e a v i t t 的蜘蛛程序接入到其索引程序 中,创建了l y c o s ,被认为是第一代搜索引擎的代表。然而它的检索速度很慢, 且极少刷新索引。 1 9 9 6 年4 月由美籍华人杨致远和d a v i df i l o 共同创办了超级目录索引y a h o o , 并成功地使搜索引擎深入人心。这就是第二代搜索引擎,这一代搜索引擎的主要 特点是采用了分类目录索引和分布式方案。 第三代搜索引擎是1 9 9 8 年以后的搜索引擎,此时的搜索引擎进入了高速发 展阶段,而且发展到了数百家,检索的信息量剧增,系统响应时间也大大缩短, 并且支持多语言查询,用户界面等。种种新技术的应用使搜
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年驻马店辅警招聘考试题库及答案详解一套
- 2023年福州辅警招聘考试真题带答案详解(完整版)
- 2024年咸阳辅警协警招聘考试真题附答案详解(研优卷)
- 2024年大同辅警招聘考试真题及完整答案详解1套
- 2023年福建辅警协警招聘考试备考题库及答案详解(各地真题)
- 2024年内江辅警招聘考试题库附答案详解(能力提升)
- 2023年石家庄辅警协警招聘考试备考题库参考答案详解
- 2024年宜宾辅警协警招聘考试真题及完整答案详解
- 2025年江西省名校学术联盟高二化学第一学期期末综合测试试题含解析
- 北京语言大学《经济法1》2024-2025学年第一学期期末试卷
- 热力公司安全检查表
- 2025宁都县源盛公用事业投资发展有限公司招聘员工9人笔试考试备考题库及答案解析
- 中远海运集团介绍
- 阳城消防比武活动方案
- 基于stm32的老人健康监测系统设计
- 2025年山东钢铁集团有限公司社会招聘(4人)考试参考试题及答案解析
- 静物摄影基础知识培训课件
- 美味的石榴课件
- GB/T 14999.1-2025高温合金检验方法第1部分:低倍组织
- TGGW102-2019普速铁路线路修理规则
- 微电网电力市场交易方案
评论
0/150
提交评论