




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)利用概念检索实现专业搜索引擎的智能化.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 利用概念检索实现搜索引擎的智能化 摘要 搜索引擎技术以一定的策略在互联网中搜集、发现信息,对信息进行 理解、提取、组织和处理,并为用户提供检索服务。目前的搜索引擎大多 采用关键字匹配的方式,只要发现含有这个关键字,就将该文档或网页作 为查询结果返回给用户。由于参与匹配的是字符的外形,而不是它们所表 达的概念,因而经常出现检索不全,答非所问的情况。 于是,需要采取一定的策略提高搜索引擎的知识处理能力和理解能 力,这已经成为搜索技术未来发展的趋势。概念检索就是其中一种实现方 式。概念检索是把信息检索从当前基于关键词检索的层面提高到基于知识 ( 概念) 检索的层面,从词所表达的内在涵义的层面上来认识和处理用户 的检索请求。 本文研究了实现概念检索的关键技术一知识库技术,并研究知识库的 建立、表示和利用这三个方面的问题,选取了本体技术作为解决问题的方 法。本文将本体技术、j e n a 推理工具和l u c 讥全文搜索技术相结合,并 对化工专业词汇特点进行深入研究,确定词汇的层次关系结构,定义其中 的类和类的属性,以及类与类之间的关系,采用本体开发工具p r o t 6 9 6 对 化工专业词汇的语义信息进行表示,使用o w l 作为本体的描述语言,使 用l 踟at 且针对所律寺的太蚀白幸义椎王里拥刚对太佑讲行锯新和椎理 北京化工人学颂:l 学位论文 现了概念检索主要的两个功能:同义检索和相关扩展检索。 本文利用实验室搜索引擎系统s p i d e r 模块,从化工专业网站上抓取 网页,并利用网页转换的文本文件进行实验。通过实验数据证实,基于概 念的搜索引擎提高了查全率,使搜索引擎智能化。 关键词:概念检索,本体,化工词汇,搜索引擎 i i 摘要 i m p l e m e n t a t i o no fi n t e l l i g e n ts e a r c he n g i n e b yu s i n gc o n c e p tr e t l u e v a l a b s t r a c t s e a r c he n g i n et e c h n o l o g yt oac e r t a i n s t i a t e g y c o l l e c t sa n df i n d s i n f o 珊a t i o ni ni n t e m e t i tu n d e r s t a n d s ,e x t r a c t s ,a n dp r o c e s s e sm ei n f o n n a t i o n , a n dp r o v i d e sr e t r i e v a ls e r v i c e sf o rm eu s e r s m o s to fm ec u r r e n ts e a r c h e n g i n e su s ek e y w o r dm a t c h i n g i fi sf o u n dt oc o n t a i nt h ek e y w o r d s ,t h ef i l eo r t l l ew e b s i t ea sal i t e r a t u r es e a r c hr e s u l tb a c kt om eu s e r b e c a u s em a t c h i n gt h e s h a p ec h a r a c t e r , a 1 1 dn o tb yt h e i r e x p r e s s i o no ft h ec o n c 印t ,o r e ng e t i n c o m p l e t ea n d f i a u l tr e t r i e v a lr e s u l t s s o ,i tn e e d st oa d o p ts o m es t r a t e g i e st 0i m p r o v et h es e a r c he n g i n e k n o w l e d g ep r o c e s s i n gc 印a b i l i t i e sa l l da b m t yt ou n d e r s t a n d i th a sb e c o m et h e 如t u r ed e v e l o p m e n tg o a l sa n d 仃e n d so ft h es e a r c ht e c h n o l o g y c o n c 印t - b a s c d r c 肺e v a li sat e c h l l o l o g ya v a i l a b l e c o n c 印tr e t r i e v a li sb a s e do nk e y w o r d s f 如mt h ec u r r e n tl e v e lt oal e v e lb a s e do nk n o w l e d g e f r o mt h ew o r d s e x p r e s s e db y t h ec o n c e p tu n d e r s t a n d i n ga 1 1 dd e a l i n gw i t hu s e r ss e a r c hr e q u e s t t h i sp a p e rs m d i e st h ek e yt e c h n o l o g yo f 哟l i z a t i o nt l l ec o n c 印tr e t r i e v a l i i l 北京化工人学硕士学位论文 - k n o w l e d g eb a s et e c h n o l o g y ,a n dt h ee s t a b l i s h m e n t ,u s e ,a n dr 印r e s e n t a t i o n o fk n o w l e d g eb a s e c h o o s eo n t o l o g yt e c h n o l o g ya saw a yt os o l v ep r o b l e m s t l l i sp a p e rw i l lp u to n t o l o g yt e c l l l l o l o g y ,j e n ar e a s o n i n ga i l dl u c e n e 如l l - t e x t s e a r c ht o o l st o g e t h e r t h i sp a p e rd i dd 印t hs t u d i e st oc h e m i c a lp r o f e s s i o n a l v o c a b u l a 巧t od e t e m l i n et h er e l a t i o n s h i pb e 时e e nt h el e v e lo fv o c a b u l a 眄 s t r u c t u r e ,w h i c hd e f i n e st h ec a t e g o 巧a n dc l a s sa t t r i b u t e s ,a sw e l la sc a t e g o 搿 a n dt h er e l a t i o n s l l i pb e t w e e nt h ec a t e g o r i e s t 1 1 i sp a p e rc r e a t e do n t o l o g yi n c h e m i c a lf i e l db yu s i n gp i o t 6 9 6t o o l sa n dc h o s eo 、la so n t o l o g yl a n g u a g e j e n at o o l sf o ru s et oe s t a b l i s h1 1 l l e so fr e a s o n i n gt oa n a l y s i sa n dr e a s o n i n g o m o l o g yf o re n q u i d e s s p e c i f i ci n d e xs e a r c hi su s e da sas e a r c he n g i n ec o r e “1 c e n e b a s i c a l l yr e a l i z e st h ec o n c 印tr d r i e v a lo ft h et w om a i n 如n c t i o n s : s y i l o n y ms e a r c h i n ga n dr e t r i e v a lr e l a t e dt oe x p a i l s i o n t h i sp a p e ru s e st h et e x tf i l ef o re x p e r i m e n t s ,w h i c hi sc o n v e r t e db yt l l e w e b s i t es n a t c h e d 舶mt h ec h e m i c a lp r o f e s s i o n a lb yt h es p i d e rm o d u l eo f s e a r c he n g i n es y s t e mi no u r l a b o r a t o 巧b yt h ee x p e r i m e n t a ld a t a ,i tc a nb e s e e nt h a tc o n c e p t _ b a s e ds e a r c he n g i n eh a sh i g hr e c a l lr a t ea n dm a k e i m e l l i g e n t k e y w o l m s :c o n c 印tr e t r i e v a l ,o n t o l o 烈c h 锄i c a ld o m a i n ,s e a r c he n g i n e i v 北京化工大学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本 论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 作者签名: 猃荔 日期:刁塑星:墨:! 关于论文使用授权的说明 学位论文作者完全了解北京化工大学有关保留和使用学位论 文的规定,即:研究生在校攻读学位期间论文工作的知识产权单 位属北京化工大学。学校有权保留并向国家有关部门或机构送交 论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公 布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。 保密论文注释:本学位论文属于保密范围,在上年解密后适用 本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授 权书。 作者签名: 导师签名: 日期: 日期: 硼、5 | 犹广夺- 纱、 二 第一章绪论 1 1 课题来源 第一章绪论 当今世界,随着信息社会的发展,“知识爆炸”为信息的加工处理和交流传递的 计算机化和网络化带来了强大的压力和动力,与之相伴的是信息技术的广泛应用和信 息产业的飞速发展,为人类文明的进步作出了巨大的贡献。并且,处于飞速发展的 i n t e n l e t 以其大容量、异构性、分布性和动态性给信息的有序管理和检索带来了挑战, 快速获取所需信息是用户面临的重大问题。搜索引擎技术就是在这种条件下应运而生 的,它以一定的策略在互联网中搜集并发现信息,对信息进行理解、提取、组织和处 理,并为用户提供检索服务,从而起到信息导航的作用。 搜索引擎的研究是我校网络数据库研究室的项目,目前已经初步实现了化工专业 的搜索引擎。在前人研究的基础上实现概念检索,为用户提供相关扩展检索,是本课 题的研究方向。 1 2 课题的目的和意义 搜索引擎的性能可以用衡量传统信息检索系统性能的两个参数一查全率和查准 率来衡量。查全率是检索出的相关文档数与文档库中所有的相关文档数的比率;查准 率是检索出的相关文档数与检索出的文档总数的比率。 建立各专业领城的中文概念检索系统是搜索引擎的重要研究方向之一,是搜索引 擎研究领域两个发展方向专业化和智能化的结合。我们知道,同一个概念在不同的领 域会有不同的含义,导致了综合搜索引擎返回的信息中有用信息含量低即信息查准率 低。如把该概念的检索限制在某一学科内,再进一步限定在某一专业、甚至专业的一 个小类,例如“花”,在植物学领城是无歧义的,这样将可以大大提高查准率。 目前的大多数搜索引擎都采用字符串匹配的检索方法,这种方法使用的是机械的 关键词匹配技术,采取全文检索的方法即检索全文中是否存在关键字符,只要发现含 有这个关键字符,就将该文献或网页作为查询结果返回给用户。由于参与匹配的是字 符的外形、外在的表现形式,而不是它们所表达的全部概念,因而经常出现检索不全, 答非所问的结果,在很大程度上影响了搜索引擎的查准率和查全率。在很多情况下, 用户很难简单用关键词或关键词串来真实地表达真正需要检索的内容。另外,对同一 概念的检索,不同的用户可能使用不同的关键词来查询。这两方面原因造成的直接结 果就是返回大量的无关信息。因此,增强搜索引擎的知识处理能力和理解能力,已成 为搜索技术未来的发展目标与趋势。 北京化t 人学硕1 :学位论文 概念检索就是一种常用的实现技术。概念检索是从词所表达的含义来认识和处理 检索请求。概念是在客观事物的基础上概括而成的,是客观事物在头脑中的反映,要 通过字、词、词组等概念描述元素才能表达出来。同一概念可用多个描述元素来表达, 在此概念约束下就成为同义关系。结合人工智能技术的智能搜索引擎把信息检索从目 前基于关键词检索的层面提高到基于知识( 概念) 检索的层面,从概念意义层次上来 认识和处理检索用户的请求。另外,概念并不是孤立存在的,一个概念总是与其它概 念之间存在着各种各样的关系,根据概念之问的相互联系,在词的概念含义层次上建 立联系,为检索用户提供相关的结果分析,基于概念的检索就是利用了词条在概念上 的相关性,检索出那些并不明显的包含用户指定的词条,却包含其同义词或下位词的 文档。例如,用户搜索关键词“试管”,可以检索出包含关键词“滴管”、“支架” 等的结果。 本研究室开发的化工专业搜索引擎是对搜索引擎专业化的研究与实现,已经初步 实现了专业搜索引擎具备的功能。本化工专业搜索引擎采用的是字符串匹配的检索方 法,因此,在有些情况下检索的结果与用户的真正想要得到的结果存在偏差是在所难 免的。这就需要进一步对智能检索进行研究,尤其是对现在普遍采用的解决方法概念 检索的研究,以使此问题得到改善。 1 3 课题的主要研究内容 本课题的主要研究内容就是在本研究室开发的化工专业搜索引擎系统的基础上, 研究基于概念的搜索引擎系统,利用概念检索实现搜索引擎的智能化。根据智能搜索 引擎的设计思想以及要达到的目标,给出一个新的智能搜索引擎框架结构,围绕智能 化系统,增加领域知识库,结合使用人工智能的相关技术研究建立知识库的方法。关 键是采用恰当的知识表示的方法,创建化工领域一些分支的检索知识库,并将此检索 知识库与搜索引擎的检索器和索引器相连接,最终通过知识库的支持初步实现概念检 索的基本功能,根据知识库中概念的同等关系将带有与用户键入关键词同义的词一并 返回给用户,并根据知识库中概念的从属及扩展返回给用户相关检索的导向。 2 第二章搜索引擎的概述 2 1 搜索引擎的发展 第二章搜索引擎的概述 搜索引擎是一种用于帮助互联网用户查询信息的搜索工具,它以一定的策略在互 联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服 务,从而起到信息导航的目的。它的主要任务是在1 1 1 t e m e t 上主动搜索w 曲服务器信 息并将其自动索引,其索引内容存储于可供查询的大型数据库中,当用户输入关键字 查询时,搜索引擎会告诉用户包含该关键字信息的所有网址,并提供通向该网站的链 接【1 翻。 1 9 9 0 年加拿大蒙特利尔大学艾伦咿米杰等三个学生在查询文件的时候感到非常 不便,当时需要到散布在各个分散的f t p 主机中去搜索,于是他们三个萌发了用文件 名称查找文件系统的设想,经过精心设计,终于开发出了觚h i e 程序。觚h i e 是第一 个自动搜索互联网上匿名f t p 网站文件的程序。1 9 9 3 年美国内华达州系统计算机服 务大学开发了地鼠搜索工具v c n i c 。1 9 9 3 年l o 月,英国n e x 0 r 公司的马丁科斯特 创建了a l l w e b ,它是加c h i e 的h t i p 版本。1 9 9 4 年1 月,美国德克萨斯大学推出了 第一个可供检索的网络分类目录,即除了网站搜索外,还支持g o p h e r 和t e l n e t 搜索。 1 9 9 5 年7 月美国华盛顿大学学生e r i cs e l b e r y 和教师o r e i le t z i o n i 研究并开发出 m e t a 饼a w l e r ,这是国际互联网上出现的第一个元搜索引擎。1 9 9 5 年1 2 月d e c 公司推 出了a l t a s t a ,它是第一个支持自然语言搜索的搜索引擎,又是第一个实现高级搜索 语法的搜索引擎。1 9 9 7 年8 月n o m l 锄l i 出公司正式推出能够进行自动分类的搜索引 擎。 1 9 9 7 年1 0 月2 9 同北大天网j 下式在c e r n e t 上提供服务。1 9 9 8 年1 月台湾中正 大学吴升创立了p e l l 6 n d 中文搜索引擎。1 9 9 8 年9 月7 日g o o 西e 诞生,它是目前最流 行的搜索引擎之一。1 9 9 9 年5 月f 懿t 公司发布了自己的搜索引擎a 1 n e w 曲,不但提 供多媒体搜索,还拥有强大的高级搜索功能。1 9 9 5 年9 月雅虎中国正式开通。2 0 0 0 年9 月1 4 日中国最大的开放式搜索引擎由网易公司推出。2 0 0 1 年8 月李彦宏和徐勇 发布了b a i d u 搜索引擎b e t a 版,2 0 0 1 年l o 月2 2 同正式公布了b a i d u 搜索引擎,该 搜索引擎支持多媒体信息和网页信息的搜索,是目前全球最大的中文搜索引擎【3 4 j 。 2 2 搜索引擎的分类 按照不同的信息搜集方法和服务提供方式,大致可以将目前的搜索引擎分成目录 式搜索引擎、机器人搜索引擎和元搜索引擎三类【5 1 。 北京化t 人学颀i :学位论文 ( 1 ) 目录式搜索引擎 以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要, 并将信息置于事先确定的框架中。信息大多面向网站,提供目录浏览服务和直接检索 服务。由于加入了人的智能,该类搜索引擎所得的信息准确、导航质量高,缺点是需 要人工介人、维护量大、信息量少、信息更新不及时。 ( 2 ) 机器人搜索引擎 由一个称为蜘蛛( s p i d e r ) 的机器人程序以某种策略自动地在互联网中搜索和发 现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引 库,并将查询结果返回给用户,服务方式是面向网页的全文检索服务。该类搜索引擎 的优点是信息量大、更新及时、不需要人工干预,缺点是返回信息过多,有很多无关 信息,用户必须从结果中进行筛选。 ( 3 ) 元搜索引擎 这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递 交,在将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。 服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更 全,缺点是不能充分使用搜索引擎的功能,用户需要做更多的筛选【6 1 。 2 3 搜索引擎的工作原理 目前有许多种类的搜索引擎,但是它们的原理是基本相同的,由以下三个部分组 成: ( 1 ) s p i d e r s p i d e r 是网页搜索程序,它在网上访问各网址的网页以搜寻信息,记录下来形成 一个详尽的网络目录并将它们反馈给搜索引擎。 ( 2 ) 索引器 索引器将信息进行整理分类形成索引数据库。在此过程中,不同的系统在反馈检 索结果的数量和质量上会有所不同。有的将对每个站点的每一页的所有内容进行记 录,有的则在分析数据库中的地址后,选择记录最热门站点的信息。被记录的信息主 要包括h t m l 标题、整个站点所有文本内容以及经过特定算法处理后的摘要。 ( 3 ) 检索器 通过w e b 服务器端软件,为用户提供浏览器界面下的信息查询。每个搜索引擎 4 第二章搜索引擎的概述 都为用户提供了一个良好的人机对话的界面,并具有帮助功能。只要在查询输入框中 输入想要查找的关键词或短语,检索器就会根据用户的输入提问,在索引中查找对应 的词语,在进行必要的逻辑计算后给出命中结果。用户只需通过搜索引擎提供的超文 本链接就可以访问到相关信剧7 。9 1 。 2 4 衡量搜索引擎效率的标准 一般而言,评价一个搜索引擎性能的优劣包括以下几个标准: 2 4 1 用户界面的友好性 大多数搜索引擎的用户界面都是在其网页上提供一个文本输入框,在旁边提供几 个检索范围的选项。虽然搜索引擎的界面大同小异,但由于检索风格各不相同,有的 搜索引擎还具有其独特的检索功能,因而用户检索时所采用的检索指令也具有差异 性。例如,对空格、引号、逗号等特殊符号的含义的理解和处理不同。总的来说要看 其用户界面是否友好,是否使用户的检索操作更方便,更简单易行。 2 4 2 搜索引擎信息资源的评价 互联网上的信息内容良莠不齐,信息污染严重。因此,只有对网络信息进行评价, 才能去粗取精、去伪存真。对于分类目录搜索引擎来讲,其资源都是由一些领域专家 精心筛选而成,质量一般都比较高,而对于由网络蜘蛛( s p i d e r ) 自动搜索的搜索引 擎来说,搜索过程依靠网络蜘蛛( s p i d e r ) 识别,其搜索算法和搜索规则决定了它对 网络信息资源的取舍。于是,我们可以通过对搜索引擎信息资源的鉴别来评价一个搜 索引擎的质量。目前,比较全面的评价网页信息资源的标准是:信息来源的权威性、 信息的准确性、提供信息的广度与深度、信息的独特性和信息的时效性。 2 4 3 数据库性能评价 评价搜索引擎数据库的性能主要是从以下几个方面: ( 1 ) 数据库的规模和覆盖范围 搜索引擎数据库的容量一般以g b 作为数量级,它收录的页面一般以千万或亿 作为收录页面的数量级,由此可知搜索引擎所搜集的页面在整个互联网页面内容中所 占的比重。 5 北京化- t 人学颂:l :学位论文 ( 2 ) 数据库的质量 数据库是由人工索引还是自动索引,提取的索引词是否能揭示该网页的内容,是 否符合人们的检索习惯等,这些问题在很大程度上影响到数据库的性能。 ( 3 ) 数据库的更新周期 互联网的信息是动态的,随时有变化的可能,这就要求搜索引擎的数据库不断进 行更新,不然会影响搜索引擎的使用。例如,有的网页已经删除,而数据库仍旧保留 了对该网页的链接,这就形成了所谓的无效链接,无效链接的多少严重影响了数据库 的质量。搜索引擎数据库的更新周期一般为三个月。 ( 4 ) 数据库的响应速度 数据库的响应速度也是衡量数据库性能的一个重要指标。响应速度的快慢在一定 程度上反映了数据库信息组织的合理性。用户是不希望长久等待搜索引擎给出结果 的。影响数据库响应速度的因素有很多,如数据库记录的结构、索引的生成方法以及 数据库的容量等。 2 4 4 检索能力的评价 查全率和查准率是评价检索能力的重要指标。查全率是检索出的相关文档数与文 档库中所有的相关文档数的比率;查准率是检索出的相关文档数与检索出的文档总数 的比率,衡量的是搜索引擎系统的精度。一般的搜索引擎都能返回大量的结果以供用 户选择,但是在这些检索结果中,符合用户需要的却非常少,严重影响用户使用搜索 引擎的情绪。另外,单一检索功能的搜索引擎不具有长久的生命力,搜索引擎应不断 地改进检索技术,完善高级检索功能,如提供布尔逻辑检索、位置检索、精确检索、 相关检索等。 2 4 5 检索结果的输出形式 大多数搜索引擎的输出结果是根据与输入的检索词的相关程度进行排序的。不同 的搜索引擎对相关程度的判定标准不同,有的根据检索词出现的频率,有的根据检索 词出现的先后位置,也有部分搜索引擎是根据网页内容的重要性来进行排列的。检索 结果的排序在很大程度上决定了用户最终的情报行为。换句话说,不管前面所实现的 检索功能如何有效,用户是否利用检索结果在相当程度上受制于检索结果的输出形 式。无序的输出会使用户忽视重要信息,最好的解决办法是提供多种输出形式以供用 户选择,避免单一输出形式带来的集中与分散的矛盾【i l 】。 6 第二章搜索引擎的概述 2 5 搜索引擎的未来发展方向 根据搜索引擎技术现在的发展情况以及存在的问题,未来搜索引擎技术将朝“三 化”的方向发展,即专业化、个性化、智能化【1 2 1 。 2 5 1 搜索引擎的专业化 专业化的搜索引擎的特点就是专而精,不会出现不相干的结果。过去是一个大型 搜索引擎面对互联网上的全部信息,现在逐渐把网页、新闻以及行业信息根据专业的 需求而分开并且细分,专业化的智能搜索的趋势已经越来越清晰。根据使用者对网上 信息的专业化需求,发挥专业化的行业信息服务特长,使搜索质量更精确,追求本专 业、本学科最全,服务于专业人员、学生等研究人员。 2 5 2 搜索引擎的个性化 目前的状况是,在搜索引擎面前,各类用户别无选择。对个人用户而言,搜索引 擎服务提供显示什么样的信息内容,排列什么样的搜索结果,个人无权选择。一些用 户不能有效获得业务需求的个性化信息,不能在繁杂的信息中找出优质、定向、可追 踪的产品。而对于网站,也无法控制搜索引擎,使其提供适合网站特点的信息源,只 能选择千人一面、千篇一律的搜索结果。搜索引擎技术的发展目标就是让用户精、准、 全、快地检索到结果。个性化搜索将成为搜索技术的新战场,用全新的搜索理念,让 搜索无所不在,更加具有个性化【1 3 】。 2 5 3 搜索引擎的智能化 搜索“智能化,是在自动分类、自动聚类的基础上具有智能导航、概念搜索的 功能。搜索引擎能充分领会用户的搜索意图,才能进人到一个真j 下智能化的时代。从 目前的状况来看,现有的搜索引擎技术很难实质性地改善搜索引擎的结果,满足用户 更深层次的需求。因此,必须将人类的知识和智慧加入到检索过程中,才能使搜索引 擎的质量产生一个质的飞跃。智能化是搜索引擎发展的一个主要方向1 4 】。 2 6 智能搜索引擎的特征 智能检索系统是搜索引擎的发展方向。它是利用人工智能技术对用户的查询计 划、意图、兴趣方向进行推理,用自动获得的知识进行信息搜集过滤,自动地将用户 7 北京化f t 人学颀:l :学位论文 感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户 兴趣动态变化的能力,从而提供个性化的服务。智能搜索引擎所要追求的目标是:根 据用户的请求,从可以获得的网络资源中检索出对用户最有价值的信息,即要返回用 户最需要的信息。一般而言,智能搜索引擎有三个主要的特征【1 5 ,16 1 。 2 6 1 网络蜘蛛( s p i d e r ) 的智能化 网络蜘蛛( s p i d 神通过启发式学习采取最有效的搜索策略,选择最佳时机获取从 i n t e n l e t 上自动收集、整理的信息。为了提高搜索速度,智能搜索引擎可以同时启动 多个引擎并行工作,将各个引擎的搜索结果加以整合,作为一个整体存放到数据库中。 此外,智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力。例如,既能处 理h t m l 文档,又能处理s g m l 、x m l 文档以及其他类型的文档,如w o r d ,p d f 等。 同时,智能搜索引擎应该可以支持多语言搜索,允许用户用中文输入查询英文或其他 语言的信息。 2 6 2 检索精准度更高 目前网络上的搜索引擎主要基于关键词匹配技术,这种技术的搜索范围很大,但 由于关键词很难表达用户信息需求中的丰富语义导致查准率很低。结合人工智能技术 的智能搜索引擎,把信息检索从目前基于关键词检索的层面提高到基于知识检索的层 面,这将成为搜索引擎的发展趋势。当前基于关键词匹配的搜索引擎不能处理语义信 息,功能比较强的也只是提供一些基本的条件组合查询功能和简单的语义查询功能。 智能搜索引擎利用神经网络、决策树、关联规则、范例推理、模糊聚类、粗糙集、隐 马尔科夫模型等技术实现分布式并行检索,以数据挖掘和知识发现为主要手段,加上 自然语言理解技术,对检索结果进行进一步的分析,滤掉与用户需求不相关或弱相关 的信息,从而提高检索的精度与效果。 2 6 3 为特定用户提供相关信息 智能搜索引擎为特定用户提供“个性化的搜索 ,也就是将搜索建立在个性化的 搜索环境之下,“个性化”将使搜索更符合每个用户的需求,而不仅仅是准确。智能 搜索引擎能通过观察用户的行为,了解用户的兴趣爱好,还能通过不断地训练学习增 长智能。每次用户对引擎返回的信息进行评价,智能搜索引擎根据用户的评价调整其 行为。智能搜索引擎具有主动性,可以在特定的时候( 如用户最关心的信息发生了某 种变化的时候) 用各种方法与用户取得联系,这些方法包括电子邮件、移动电话等。 第二章搜索引擎的概述 智能搜索引擎还可以根据用户特定时刻的位置信息,选择恰当的方法与用户通信。 2 6 4 搜索引擎人机接口的智能化 智能搜索引擎具有很强的交互能力,可以通过自然语言与用户交互。它采取诸如 语义网络等智能技术,通过汉语分词、句法分析等方法有效地理解用户的请求,甚至 能体会出用户的弦外之音,最大程度地了解用户的需求1 7 ,1 8 1 。 2 7 智能搜索引擎的技术 智能搜索引擎的开发涉及人工智能、计算机网络、分布式处理、并行计算、数据 挖掘、知识发现、自然语言处理等多项技术综合应用,使搜索引擎智能化。下面是一 些常用的技术。 2 7 1 自然语言理解技术 对自然语言的理解是中文智能搜索引擎的关键技术。理解的困难主要来自意义和 功能两个方面,实际上就是歧义的问题。汉语的语音、语调、轻重音及停顿等,一经 书面表达就可能产生歧义;中文词与词之间没有界定,在进行分词时很容易产生歧义: 汉语虚词多,组词灵活,字在词中的位置的变化也可能产生歧义。同时,由于搜索引 擎所面对的网络信息不仅数量巨大而且是动态的,给知识表达、组织、存取和更新都 带来了困难。 自然语言理解对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、 概念搜索、短语识别以及机器翻译技术等。其技术包括机器翻译技术、语义网络技术、 汉语分词技术、短语识别技术、同义词处理技术等【l9 】。 ( 1 ) 汉语分词技术 关键词查询的前提是将查询条件分解成若干关键词,同时以一些关键词表示文 档。对英文而言,一个单词就是一个词,但是中文就没有这么简单。主要问题是中文 中词与词之间没有界定符,需要人为切分。此外,汉语中存在大量的歧义现象,对几 个字分词可能有好多种理解。因此,可以根据语料库进行总结,获得每个词的出现概 率以及词与词的关联信息,再使用正向和逆向最大匹配法进行细切分,排除歧义,提 高分词的准确性。 9 北京化_ t 人学硕:l :学位论文 ( 2 ) 短语识别技术 关键词查询要将查询条件分解成若干关键词,但这些关键词并不是孤立的,它们 联合起来作为一个短语可以共同表述一个完整的含义。短语识别技术就是利用词与词 之间的特定搭配和汉语的语法规则,有效地兼顾关键词与关键词之间的关系,从而合 理地分词,更加准确地表述查询请求和文档信息。用短语描述查询请求的情况很常见, 例如查询条件“化工专业的报刊”,“化工专业”和“报刊”存在一定的关系,但如果 不将“化工专业”和“报刊”联合起来作为一个短语查询,则除了选出关于“化工专 业的报刊”的文档之外,还将查出有关“化工专业”和“报刊”的文档。短语识别也 是智能化搜索引擎所关注的一项技术。 ( 3 ) 处理同义词技术 人类的语言是十分丰富的,表达同一个意思一般都有多个词汇。例如,查询“非 典”关键词,还应该用“s a r s ”、“非典型性肺炎”等关键词进行检索。因此,就需 要同义词处理技术来解决这样的问题。处理同义词的一种方法是人工构造同义词表, 利用人工构造同义词库、蕴含词库等辅助词库。另一种方法是从语料库中自动取得同 义词关系,给出一个查询的关键词,搜索引擎能主动“联想”到与其同义或意义相近 的词,提高信息匹配的准确度。对于专用领域的搜索引擎,这种方法是非常有效的。 2 7 2 语义理解技术 语义理解技术就是根据关键词的内容,从现有的资料库中查询,找到相关内容所 在的位置,得到结果。实现语义理解的主要技术是知识库技术【2 0 1 。 所谓知识库,就是人的认识库,其丰富程度与质量对检索程度与质量起着决定性 的作用。知识库是实现智能检索的基础和核心。知识库可以对信息进行接受、判断、 提取、分析和概括之后形成自己的知识,然后保存,这些知识成为下一次分析概括的 依据。因此,知识库处于一种增长自循环的状态。知识库的知识可以粗略的分为三个 层面:语言层面、本体论层面和常识层面。语言层面反映语言表面现象的知识,如一 个词语的多种形式,同义词、反义词和一些习惯用语和词语的层次关系等。本体论层 面是对概念的本体论的定义与解释,概念之间复杂的语义关系。常识层面是一些事物 之间存在的常识上的关联,例如“烧瓶”与“铁架台”。 在计算机处理时,一般使用语义网络来表示这些知识,在这个系统中处理的核心 是语言,用户和系统的查询结果也都表现为语言。要建立一种理论上完备的知识库是 不可能实现的,可以通过降低求解目标、针对具体的搜索引擎的需求,建立相应的知 识库,这是对理论上完整知识库的一种近似,一种局部实现,针对某一领域或是某一 网站所有网页反应的知识来构造一个局部的知识库是相对容易实现的。这种知识库中 l o 第二章搜索引擎的概述 的知识在数量和质量上虽然不能与理想的知识库相比,但是对具体的搜索任务却是非 常实用的。更重要的是,知识库里的知识可以在使用中不断改进,使其数量有所增加, 质量有所提高。这是一个对知识进行训练的过程,可以通过人工来完成,也可以使用 机器学习等方法来实现。 2 7 3 人机交互界面技术 目前,搜索引擎涉及到的人机交互界面技术主要有4 类:搜索请求提交技术、搜 索结果表现技术、搜索向导技术、搜索行为分析技术。搜索请求提交技术中包括多语 言查询技术、编码转换技术、模糊语义查询和精确语义查询。搜索结果表现技术包括 搜索结果的准确度及相关度评价等。搜索向导技术是网站设计上的界面技术,它通过 具有亲和力、易用的界面,即时的帮助用户搜索。搜索向导技术的核心是跟踪、分析 用户的搜索行为,充分地利用这些信息来提高搜索效率。搜索行为分析技术主要是通 过群体行为分析和个性化分搜索来实现的。 2 7 4 信息智能代理技术 代理是一个具有学习能力的面向目标的程序,它可动态地适应个人用户,然后依 靠其自身能力,采用各种可能的方法和技术,完成用户所委托的较为复杂的任务。当 遇到复杂问题时,可以把多个代理组成一个代理群,交互、协调工作服务一群用户。 信息智能代理具有一定的知识和推理能力,利用存储在知识库里的信息执行任务,使 用自动获得的领域模型( 如w 曲知识、信息处理、与用户兴趣相关的信息资源、领 域组织结构) 、用户模型( 如用户背景、兴趣、行为、风格) 知识进行信息搜集、索 引、过滤( 包括兴趣过滤和不良信息过滤) ,并自动地将用户感兴趣的和对用户有用 的信息提交给用户。 第三章概念检索 3 1 概念检索简介 第三章概念检索 目前的搜索引擎大多采用机器人检索的方式,提供面向网页的全文检索服务。全 文检索是检索全文中是否存在关键字符,其核心是关键字符的匹配,只要发现含有这 个关键字符,就将该文献或网页作为查询结果返回给用户。由于参与匹配的是字符的 外形,而不是它们所表达的概念,因而经常出现检索不全,答非所问的情况。 而概念检索是把信息检索从目前基于关键词检索的层面提高到基于知识检索的层 面,从概念意义层次上来认识和处理检索用户的请求。从词所表达的内在含义层次上 来认识和处理用户的检索请求。传统的关键词检索只是为用户提供那些可能的相关文 献,而这些文献是否真正相关,则需用户阅读以后才能确定。概念检索立足于语义层 次上的分析和理解来处理文献原文与用户提问之问的相关性信息,将相关的信息从不 同的文献原文中滤出并归纳成对用户提问的直接回答。传统检索提供的是知识文献内 容的标识,而概念检索提供的则是文献内容的意义。概念是在客观事物的基础上概括 而成的,是客观事物在头脑中的反映,要通过字、词、词组等概念描述元素才能表达 出来。同一概念可用多个描述元素来表达,在此概念约束下就成为同义关系。例如, 要查询有关计算机的信息,将“计算机”作为关键词,所得到的结果中一定都含有“计 算机”。但计算机实际上是人们头脑中形成的一个概念,“电脑”又是其另外一种表 述方式。采用关键词匹配的检索方式不可能查询到含有“电脑 的结果,这是概念检 索必须解决的问题。采用同义扩展,是概念检索的一个基础。概念是抽象的、是相关 的,存在语义的关系网。比如,化学专家会将“试管”与一种仪器联系起来,这些都 是它所带有的语义。从检索得到的不仅是文献,还希望能帮助产生新的想法,建议新 的组合。因此,概念检索还应该实现语义蕴涵扩展,语义外延扩展,语义相关扩展。 归纳起来,概念检索的主要内容包括两个方面:同义扩展检索和相关概念联想。 3 2 概念检索的特点 概念检索与传统的信息检索相比有其自己的特点,包括以下几点【2 1 。2 3 】: ( 1 ) 具有分析和理解自然语言的能力。对用自然语言形式输入系统的关键词和提 问,运用语言处理方法和技术进行语义层次上的分析和理解,表达关键词内容的主题 和提问的意义,从中取得概念信息和范畴知识。 ( 2 ) 具有记忆能力。通过记忆机制,将输入的关键词根据其概念来进行组织安排, 1 3 北京化t 人学硕上学位论文 经过自然语言处理所取得的概念信息和范畴知识存储到知识库中,并能自动补充与更 新,记忆机制能进行必要的逻辑推理。 ( 3 ) 具有专家系统( 或称知识库) 。文献内容和用户提问都能以概念和范畴等知 识呈现形式存储在知识库中,通过语义分析机制和记忆机制获取关于检索和推理的知 识,用于匹配查找已有的信息来回答用户的提问,并且推理出新的信息满足用户的要 求。 ( 4 ) 打破了关键词障碍。由于传统的信息检索只是通过关键词的出现与否来检索, 所以查全率和查准率都很低。而概念检索打破了这种关键词的障碍,检索具有分析和 理解文献内容和意义的能力,能够鉴别查询信息的相关性,避免漏检和误检,因而提 高了查全率和查准率。 3 3 概念检索的实现技术 概念检索能提供比传统的信息检索更智能化的服务,其根本的基础和关键在于有 相应的知识支持,拥有比传统的信息检索更为丰富的知识。概念检索通过对文献中的 原文信息进行语义上的自然语言处理来析取各种概念信息,并由此形成一个知识库。 然后根据对用户提问的理解来检索知识库中相关的信息以提供直接的问答。概念检索 与人工智能领域中的自然语言处理在语义层次上的分析和理解有着密切的关系。采用 人工智能专家系统的构造技术,通过创建专家知识库,可以初步实现概念检索。那么, 建立知识库是概念检索的关键技术,对其要求是: 知识要足够丰富、达到一定规模,只有这样才能实现真正的概念检索。 知识准确度高,能够f 确反映客观规律,避免误导。 知识表示要简洁、清晰、无歧义,便于计算机识别和运用。 知识库整体结构要完善,既要知识定位快,又要存储空间小,尽量找到矛盾的最 佳统一点。 增量化管理。由于信息产生速度快,扩展迅速,知识库必须实现增量化管理。 知识库系统的实现主要涉及知识的表示、利用和获取这三方面问题,利用一定的 策略以实现知识的检索,满足用户的需求【2 4 。2 6 】。 3 3 1 知识库的建立 建立知识库的方法大致有三种: ( 1 ) 概念分类。概念分类是一种概念描述的分层组织结构。在概念分类中每一个 1 4 第三章概念检索 概念都有到其父概念和子概念的链接。通常概念分类的构建是人工完成的,主要工作 是决定每一个概念应该属于哪一个子类。每一个概念分类也可以由特殊的概念索引技 术来自动完成。 ( 2 ) 建立词典。词典中的词条有这样几种关系:同义、反义和包含关系。借助词典 可以为信息检索系统提供自动语义扩展。词典的构建需要人工完成,存储概念层次及 词条之间的交叉联系,该工作通常由领域专家参与完成。 ( 3 ) 使用语法分析、统计等技术从文档集合中自动学习。例如,在矢量空间索引 模型中,每个文档d 被表示为词条f ;所构成的矢量空间中的一个范化矢量。从另一个角 度来看,每个词条t 也可以表示为文档d ;构成的矢量空间中的一个范化矢量 矿( f ) = p ,w ( f ) ;t ,( ,) d 。,( f ) ) 。词条之间的相似度也可以由矢量之间的夹角 余弦来计算:跏( f ,f ,) = ( y ( f y ( f ) ) ( i y ( f ) i 眇( f ) 1 ) 。在此基础上,可以进一步对词 条进行聚类、分类等处理,从而获得概念、词条关系。 3 3 2 知识库的知识表示 ( 1 ) 谓词逻辑表示 在各种知识表达方法中,谓词逻辑方法是用得比较广泛的一种,尤其是一阶谓词 逻辑表示。其知识库可看成是一组逻辑公式的集合,知识库的修改是增加和删除逻辑 公式。形式逻辑根据为真的事实进行推理演算,从而得到新的事实。用逻辑方法求一 个问题的全过程是:用谓词演算将问题形式化;在这种逻辑表示的形式上建立控制系 统;证明从初始状态可以到达终点状态。 ( 2 ) 语义网络表示 语义网络由于其自然性而被广泛使用。采用语义网络表示的知识库的特征是利用 带标记的有向图描述可能世界。结点表示客体的性质、概念、状况或动作,带标记的 边描述客体间的关系。知识库的修改是通过插入和删除客体极其相关的关系实现的。 采用语义网络表示法比较合适的领域大多是根据非常复杂的分类进行推理的领域以 及需要表示事件
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑拆除项目的节能环保技术应用方案
- 小升初语文-文言文专项复习训练三(含答案)
- 建筑工地噪音控制措施
- 隋唐时期陶瓷作品欣赏一02课件
- 建筑项目工程项目完工前检查方案
- 混凝土施工过程中温控管理方案
- 水电安全知识培训资料课件
- 2025版水电项目施工承包合同书
- 水电厂运维管理课件
- 2025版毛坯房出租租赁期限合同范本
- 公务车驾驶员安全课件
- 地铁安检培训课件
- 2025年豪华别墅室内外装饰设计及施工一体化服务合同
- 废铅酸蓄电池回收处置项目可行性研究报告
- 2025年重庆对外建设有限公司招聘考试笔试试题
- 2025年阿克苏社区专职工作人员招聘真题
- 药学教学课件下载
- 急性下壁心肌梗死患者PCI术后护理个案
- 出生缺陷防治知识课件
- 口腔门诊护理人员管理
- 通山城区污水处理厂运营维护方案
评论
0/150
提交评论