(计算机应用技术专业论文)基于多agent的智能搜索引擎系统研究.pdf_第1页
(计算机应用技术专业论文)基于多agent的智能搜索引擎系统研究.pdf_第2页
(计算机应用技术专业论文)基于多agent的智能搜索引擎系统研究.pdf_第3页
(计算机应用技术专业论文)基于多agent的智能搜索引擎系统研究.pdf_第4页
(计算机应用技术专业论文)基于多agent的智能搜索引擎系统研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机应用技术专业论文)基于多agent的智能搜索引擎系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 摘要 i n t e r n e t己经成为当今和未来人们获取信息资源和进行信息交流的主要 场所,然而要想在信息量浩如烟海的 i n t e rne t 上找到需要的信息,是一项极 富挑战性的-i _ 作。目前,传统的信息搜索工具虽然在一定程度上解决了信息 资源的定位问题,但还是无法满足人们日益增长的对信息服务个性化、智能 化的需求。 针对 i n t e r n e t 信息资源的固有特性和现有信息检索系统的实际状况,本 文在分析研究了国内外搜索引擎技术的发展现状和未来趋势后,结合人工智 能 领域的 最新研究成果 a g e n t 技术, 提出了 一个采用智能a g e n t 技术的 网 络信息检索 解决方案 基于多a g e n t 的 智能 搜索引 擎系统 ( m u l t i - a g e n t i n t e l l i g e n t s e a r c h e n g i n e s y s t e m ,以 下简称m a i s e s ) o 该系统突出用户个性化特色,采用主动搜索和元搜索相互补充的方法来 提高系统的查全率和查准率,利用作者设计的 “ 用户个性剖像”塑造方法形 成用户个性的软件模型以提高系统检索结果与用户兴趣的贴近程度。并且在 多a g e n t 系统的系统设计以 及系统内多a g e n t 间的 协同 交互等方面取得了 丰 富的实际经验,在 i n t e rn e t 信息检索个性化主动服务方面做出了具有实用价 值的创新。为了提高系统的个性化和智能化程度,作者从实用易行的角度设 计了基于用户个性的成员搜索引擎调度和元搜索结果归并等智能算法。 关键词; 搜索引擎; 个性化服务;a g e n t :元搜索;用户模型 哈尔滨工程大学硕士学位论文 ab s t r a c t i n t e r n e t h a s a l r e a d y b e c o m e t h e m a i n p l a c e t o g a i n a n d e x c h a n g e i n f o r m a t i o n a t p r e s e n t a n d i n t h e f u t u r e . h o w e v e r , i t i s a n e x t r e m e ly c h a l l e n g i n g w o r k t o f i n d t h e s a t i s fi e d i n f o r m a t io n i n a g r e a t d e a l o f i n f o r m a t io n i n i n t e r n e t . n o w a d a y s t r a d i t io n a l i n f o r m a t i o n r e t r i e v a l t o o l s c a n s o l v e t h e p r o b l e m o f i n f o r m a t i o n r e s o u r c e s o r i e n t a t i o n t o s o m e e x t e n t , b u t t h e y a r e s t i l l u n a b l e t o m e e t t h e p e o p l e s i n c r e a s i n g p e r s o n a l i z e d a n d i n t e l l i g e n t d e m a n d o f i n f o r m a t io n s e r v i c e . c o n f r o n t e d wi t h t h e i n h e r e n t c h a r a c t e r i s t i c s o f i n t e rne t i n f o r ma t i o n r e s o u r c e s a n d t h e c u r r e n t s i t u a t io n o f e x i s t i n g i n f o r m a t i o n r e t r i e v a l s y s t e m s , t h is t h e s i s h a s a n a l y z e d a n d s t u d i e d t h e d o m e s t i c a n d f o r e i g n r e s e a r c h t r e n d s o f s e a r c h e n g i n e t e c h n o l o g y . c o m b i n e d w i t h t h e n e w e s t a c h i e v e m e n t i n t h e fi e l d o f a rt i f i c i a l i n t e l l i g e n c e -a g e n t t e c h n o l o g y , a n i n t e rn e t i n f o r m a t i o n r e t r i e v a l a p p r o a c h m u l t i - a g e n t i n t e l l i g e n t s e a r c h e n g i n e s y s t e m ( m a i s e s ) i s p r o p o s e d a n d r e a l i z e d i n t h i s t h e s i s . t h i s s y s t e m s t r e s s e s i n p e r s o n a li z e d s e r v i c e , a n d u t i l i z e s u s e r i n d iv i d u a l m o d e l m o u l d m e t h o d d e s i g n e d b y a u t h o r w h i c h f o r m s t h e u s e r i n d i v i d u a l s o f t w a r e m o d e l t o e n h a n c e p e r s o n a l i z e d d e g r e e . mo r e o v e r t h i s s y s t e m a d o p t s i n i t i a t i v e s e a r c h a n d m e t a s e a r c h t o i m p r o v e t h e s y s t e m e ff i c i e n c y . a u t h o r h a s o b t a i n e d a b u n d a n t p r a c t i c a l e x p e r i e n c e i n b o t h m u l t i - a g e n t s y s t e m d e s i g n a n d a s s o c i a t i o n r e s e a r c h o f m u lt i - a g e n t i n o n e s y s t e m . s o m e p r a c t i c a l i n n o v a t i o n i n t h e p e r s o n a l i z e d s e r v i c e r e s e a r c h h a s b e e n a c h i e v e d . i n o r d e r t o e n h a n c e t h e p e r s o n a l i z e d a n d i n t e l l i g e n t d e g r e e o f t h e s y s t e m , t h e c o m p o n e n t s e a r c h e n g i n e s e l e c t i o n a l g o r i t h m a n d t h e r e s u l t m e r g in g a l g o r i t h m w h i c h c a n h e l p m e t a s e a r c h e n g i n e t o e x e c u t e i n f o r m a t i o n s e a r c h a r e d e s i g n e d i n t h i s t h e s i s k e y w o r d s : s e a r c h e n g i n e ; p e r s o n a l i z e d s e r v i c e ; a g e n t ; me t a s e a r c h ; u s e r s mo d e l : 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作, 是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用己在文中指出, 并与参考文献相对应。除文中已 注明引用的内容外, 本论文不包含任何其他个人或集体已 经公开发表的作品成果。 对本文的研究做出重要贡献的个 人和集体, 均已在文中以明确方式标明。 本声明的法律结果由本人承担。 作者 ( 签字) : 本人完全意识到 李益 日 期 : n 斗 年么月 s日 哈尔滨工程大学硕士学位论文 第1 章 绪论 1 . 1课题研究的背景 随着 i n t e r n e t以及相关技术的发展与成熟,人们已经进入信息量极其 丰富的时代。自 从 1 9 9 1 年 工 n t e r n e t诞生以来, 它己 经发展成为拥有约上亿 用户和几千万个站点、十几亿个网页的巨大分布式信息空间,而且这数字仍 以每4 至6 个月翻一番的速度迅猛增加。随着网络信息的爆炸式增长,人们 越来越关心怎样高效、准确的检索出自己想要的信息资源。由 于 i n t e r n e t 所固有的开放性,动态性、异构性、资源分布的分散性,使得人们很难快捷 准确的检索出自己想要的信息,于是出现了专门帮助人们检索网上信息资源 的检索工具搜索引擎( s e a r c h e n g i n e ) 。 搜索引擎是指对www站点资源 和其它网络资源进行标引和检索的一类信息检索系统,它们可看成是网络信 息检索工具的典型代表。自1 9 匆年4月,第一个搜索引 擎 w e b c r a w l e r 诞生以 来, 陆续出 现了 许多功能多 样的搜索引擎c , l ,比 较著名的 有: y a h o o ! , a l t a v i s t a , i n f o s e e k , g o o g l e 和 搜狐 ( s o h u ) 等。 搜索引擎的使用越来越受到网络用户的欢迎,但目前的搜索引擎还不能 满足用户的需求。 网络用户对搜索引擎不满意的地方主要集中在搜索速度慢, 无效链接太多,重复或不相关信息较多,搜索结果不具有个性化不能因人而 异等问题上。除了改进网络计算机等硬件设备外,致力于搜索引擎研究的科 研人员从搜索引擎技术方面也作了大量的努力。目 前,搜索引擎己向智能化 方向发展,这方面国外的一些网站起步较早,也取得了一些成果。但中文不 同于英文或其它字母文字,它有自 身的语言 特点,中文搜索引擎也有其自身 的特殊技术,因此在智能化道路上就不能照搬传统的英文搜索引擎的模式, 必须设计出符合中文语言特点适合中国人使用的个性化智能搜索引擎。本课 题正是在这一实际需求背景下提出的。 哈尔滨工程大学硕士学位论文 1 . 2智能信息检索系统国内外现状 搜索引擎 ( s e a r c h e n g i n e )己经成为i n t e r n e t 信息检索方式的主流, 一些著名的商业搜索引擎也形成了相当成熟的技术及运行模式。 据 c n n i c 于 2 0 0 0 年7月2 7日 发布的统计资料2 , 搜索引擎的使用己 经占 到网络应用的 5 5 . 9 1 % ,成为中国当前第二大互联网应用, 仅次于收发e - m a i l 。 但是由于现 有搜索引擎在运行原理、检索机制、系统组织结构等方面固有的特点,使得 它虽然在一定程度上缓解了人们搜索信息的难题,但还存在着一些缺点和不 足。 搜索引擎经历了从人工搜索引擎到自 动搜索引擎的发展过程,并逐步向 智能化、个性化方向发展。基于人工智能 a 工 )的网络信息检索是近年来出 现的一种新型检索方式,它融合了专家系统、自 然语言理解、用户模型、模 式识别、数据库管理系统以及信息检索等领域的知识和先进技术。对于 工 n t e r n e t 这样一个分布式的信息空间, 采用人工智能方法是实现人机交互学 习的一种较好的方法,它可以 代替人类完成繁杂的信息收集、过滤、聚类以 及融合等任务, 可以在 工 n t e r n e t 中导引用户, 在用户进行搜索、 浏览时给予 直接的支持 目前,国外一些科研部门、高等院校、商业公司都在对智能化网络信息 检索进行研究, 并且己经开发出了一系列成功的产品1 。 如;a r t h u r a n d e r s e n 的内嵌特定领域知识和使用推断 ( 证明式 自然语言理解技术)的 f s a和 e l o i s e 系统;i b m 的基于规则和知识, 使用启发式的策略和简单自 然语言的 g l o b e n e t 系统;芝加哥大学开发的基于“ 问题库”的具有问答功能的智能搜 索引擎f a q f i n d e r ; 基于机器学习的智能系统w e b w a t c h e r ( 卡耐基 梅隆 大学) 、 s h o p b o t 15 3 ( w a s h i n g t o n 大学) 和 f a b 系统七 ( s t a n f o r d 大学) ; 基 于用户查询行为和兴趣的寻找特定信息的专用智能软件w e b d o g g i e ( c m u ) 和 i n f o s p i d e r ( s a n d i e g o 大学) 、 f i r e l y , n e w s f i n d e r 等。 国内对智能化的网络信息检索也进行了相关的研究,如南京大学研制的 w e b a c c e s s系统,它应用了机器学习、自 然语言处理、超文本等技术;清华 大学研制的 p i n s 系统和 b o o k m a r k 系统, 它们能自 动收集和记录用户的习惯 和兴趣,跟踪用户的 信息需求(a 7 : 采用 “ 以网对网” 技术的首信智能搜索引 哈尔滨工程大学硕士学位论文 擎; 基于汉语的语法、 词的_匕 下文和语义等中文信息处理技术的“ 网典” . a i s s 系统;基于用户个性要求的平方智能搜索引擎等。但国内的智能网络信息搜 索系统大多只是支持简单的自 然语言理解和概念检索,对机器学习、智能 a g e n t 、信息挖掘等技术研究的较少。 1 . 3课题研究的目的及意义 本文所研究的课题来源于黑龙江省青年基金项目。该课题的总体目 标是 在i n t e r n e t 传统信息检索技术的基础上, 采用人工智能的理诊和方法, 提出 一个能快速、准确地从浩瀚的网络信息资源中挖掘出有价值的信息并主动送 达用户的智能化、 个性化工 n t e r n e t 信息服务体系结构模型, 并解决这一模型 中 所 涉及 到的 数 据 采集与 处 理了 信 息 挖掘 及 个性 化 主 动 服务 等关 键 技 术问 题, 最终建立以电子商务、涉密信息检查等为应用背景的试验模型。 面向 工 n t e r n e t的信息获取与处理技术是当前计算机科学与技术领域急 需研究的课题。搜索引擎的市场不仅限于门户网站,专业网站同样需要快速 有效的搜索。此外,各个企业、机构自己的网站也是一个极其广阔的市场领 域。 目 前,国内不少企业花了很多钱建立了内容丰富的网站,但没有建立一 条有效的信息提供途径,绝大多数网站都是仅仅通过浏览方式提供内容,即 使是经过精心编排, 组织非常合理的网站也会有7 0 % 到8 0 % 的网页不能被有效 查阅。网络用户对信息的需求越来越大,同时却越来越没有耐心。一方面访 问者找不到想看的内容,另一方面网站精心准备的大量信息资源都没有被用 户肴到,形成了巨大的浪费。如果不能很好的解决搜索问题,企业在收集信 息、充实内容方面花费的人力物力越大,其浪费就越大。 这不仅对企业的发 展极为不利, 还在宏观上成为制约我国信息化建设健康良性发展的一大障碍。 智能搜索引擎技术是基于目前i n t e r n e t 上信息的无组织、 异构、 分布和 动态的特点以及现有搜索的不足而提出的,用于解决现有信息检索系统所面 临的 “ 信息过载” 、“ 资源迷向”和搜索结果个性化需求等实际问题.实现 工 n t e r n e t 信息个性化主动服务。 该技术是一种集人工智能、 计算机网络、 数 据库及数据挖掘等技术于一体的高新技术,是计算机科学与 技术和信息科学 哈尔滨工程大学硕士学位论文 相结合的前沿课题,具有前瞻性和创新性,既有重要的学术价值,又有很强 的实际应用背景和社会经济效益。 搜索引擎不是一个单纯的技术问题。在互联网时代,哪一个公司掌握了 包括搜索引擎、信息传递和个性化主动服务在内的基础软件,它就能在竞争 中傲视群雄;哪一 个国家掌握和普及了这些技术,她就能在运用互联网的商 业竞争中占尽先机。 1 . 4作者的主要工作和论文的组织 作者主要承担并完成了以下工作:在广泛了解当前国内外网络信息检索 的技术状况和发展趋势后,设计并实现了一个基于多a g e n t 的智能搜索引擎 系统;解决了多 a g e n t系统中的 a g e n t自 治、协同、通讯等技术难题; 将 工 n t e r n e t 主动搜索与元搜索进行了有机的结合, 提高了系统的覆盖率和查准 率;进一步完善了元搜索的检索接口和结果排序机制;提出了一种改进的用 户兴趣学习以及计算机表示的方案用户个性剖像;在个性化主动服务方 面做出了具有实用价值的改进。 本文是根据作者所做的工作进行组织安排的,具体组织方式如下: 第1 章 说明了 课题研究的背景、目的及意义,介绍了当前i n t e r n e t 信 息检索系统国内外的发展现状以及作者的工作内容和论文的组织。 第2 章 对传统搜索引擎和元搜索引擎进行了概述, 介绍了搜索引擎的工 作原理、 研究现状以及所面临的问题。 最后还简单介绍了a g e n t 技术的由来, a g e n t 的 特点及其在搜索引擎方面的应用研究。 第 3 章 在分析了现有搜索引擎存在的问题后, 引出了作者设计开发的基 于多a g e n t 技术的智能搜索引擎系统 ( m a 工 s e s ) 。 详细讲解了该系统的体系结 构、系统工作流程以 及系统中各a g e n t 的功能定义,并着重在多a g e n t 系统 的协作与交互问题上阐述了本系统的具体解决方法。 第4 章 主要介绍了m a 工 s e s 系统中 所用到的由作者设计并实现的一种用 户兴趣学习以及计算机表示的方案一一用户个性剖像, 详细讲解了这一方案 的设计思想和技术实现细节。 第5 章 主要介绍了m a 工 s e s 系统中所运用的文档相关性计算方法、成员 哈尔滨工程大学硕士学位论文 搜索引擎调度策略和元搜索结果归并策略。 最后,本文作者对所做的研究工作加以总结,并提出了一些有待进一步 探讨的问题。 哈尔滨工程大学硕士学位论文 第2 章 i n t e r n e t 信息检索系统概述 2 . 1引言 搜索引擎是指能够自 动对 i n t e r n e t上的信息资源进行分析处理,并通 过查询为用户返回匹配资源的典型的网络信息检索系统9 。它一般是 工 。 t e r n e : 上的一个网站, 它的主要任务是在互联网上主动搜索w e b 服务信息 并将其自动索引,索引内容存储于可供查询的大型数据库中。当用户输入关 键字查询时, 搜索引擎会依据此关键字在索引数据库中查找相关信息,若索 引数据库中有这方面的信息,则将信息反馈给用户;若没有则调用搜索子系 统对工 n t e r n e t 进行搜索, 并在一定时间内向用户反馈信息。 按照是否拥有自 己 独立的信息索引大型数据库,可将搜索引擎简单分为独立搜索引擎和元搜 索引擎,木章将先分别介绍独立搜索引擎和元搜索引擎的技术细节、发展现 状以及所面临的实际问题,如无特指,本文中所提到的搜索引擎均指独立搜 索引擎。 2 . 2搜索引擎概述 2 . 2 . 1 搜索引擎 真正意义上的搜索引擎是创建于1 9 9 4 年春天的l y c o s 当时m i c h a e l m a u l d i n 将j o h n l e a v i t t 的 “ 网 络蜘蛛”( s p i d e r ) 程序接入到其搜索引擎程 序中。 在随后的几年里, 随着互联网和w e b 技术的进一步发展, 网上的信息越 来越多。到1 9 9 9 年年底,己经至少有1 6 0 0 万台主机联入i n t e r n e t ,网上的网 页数量已 经达到1 0 亿多,而且正在以每月近千万的数量增长。 搜索引擎的工作包括如下三个过程;一是在互联网中发现、搜集网页信 息;二是对所搜集的信息进行提取和组织,并建立索引库;三是由检索程序 根据用户输入的查询关键词,在索引库中快速检出相关文档,进行文档与查 询内容的相关度比较,对检出的结果进行排序。并将查询结果返回给用户。 哈尔滨工程大学硕士学位论文 虽然各个搜索引 擎的具体实 现不尽相同,但一般包含5 个基本部分: r o b o t , 分析器、索引器、检索器和用户接口 i n 7 。如图2 . 1 所示: 图2 . 1搜索引擎内部结构图 ( 1 ) r o b o t ( 也称为s p i d e r ) ,日 夜不停地在互联网中漫游,搜集信息。它 要尽可能多、尽可能快地搜集各种类型的新信息,还要定期更新已经搜集过 的旧信息,以避免无效链接。目 前有两种搜集信息的策略; 从一个起始u r l 集合开始, 顺着这些u r l 中的超链接, 以宽度优先、 深 度优先或启发式方式循环地在互联网中发现信息。这些起始u r l 可以 是任意的u r l ,但常常是一些非常流行、包含很多链接的站点 ( 如 y a h o o ! )。 7 哈尔滨工程大学硕士学位论文 . . . . . . . . . . . 将w e b 空间按照域名、工 p 地址或国家域名划分,每个搜索器负责一个 子空间的穷尽搜索。 ( 2 ) 分析器,对r o b o t 下载的文档进行分析以用于索弓 卜 文档分析技术一 般包括分词、过滤和转换等,这些技术往往与具体的语言以及系统的索引模 型密切相关。 ( 3 ) 索引器,理解r o b o t 所搜索的信息,从中抽取出索引项,将文档表示 为一种便于检索的方式,生成文档库的索引表并存储在索引数据库中。 ( 4 ) 检索器, 从索引中找出与用户查询请求相关的文档。 首先采用与分析、 索引文档相似的方法来处理用户查询请求。然后按照某种方法来计算用户查 询 与 索引数据库中每个文档之间的相关度。最后,将相关度大于闽值的所有 文档按照相关度递减的顺序排列,返回给用户。 ( 5 ) 用户接口,为用户提供可视化的查询输入和结果输出界面。在查询输 入界面中,用户按照搜索引擎的查询语法指定待检索词条及各种简单或高级 的检索条件。在输出界面中,搜索引擎将检索结果展现为一个线性的文档列 表,其中包含了文档的标题、摘要和链接等信息。由于检索结果中相关文档 和不相关文档相互混杂,用户需要逐个浏览以找出所需文档。 w e b 信息是动态变化的,旧的页面不断被更新和删除,新的又不断出现。 因此r o b o t 、分析器和索引器模块每隔一段时间要重复运行来更新索引数据 库。搜索引擎的索引更新周期通常约为几个月,索引数据库越大更新也越困 难。 2 . 2 . 2 元搜索引擎 元搜索引擎 i2 1 是一种基于搜索引擎的搜索引擎,通过自己 定制的检索界 面,接收并处理用户的查询提问,在进行实际的查询时调用一个或者多个独 立搜索引擎,搜索结果是来自 独立搜索引擎的检索结果或者是这些结果集合 的综合,结果呈现既可以是引用原始的独立搜索引擎的页面,也可以是由元 搜索引擎重新定制后的形式。 元搜索引擎一般会采用品牌知名、检索效果较好的主流搜索引擎的搜索 结果,一次提问同时检索多个搜索引擎,提高了检索的效率,同时也起到了 对检索工具的推荐和指南的作用。另一方面,元搜索引擎的检索模式还为各 哈尔滨工程大学硕士学位论文 个搜索引擎的集成检索提供了可能,具有一定的先进性和实用价值。元搜索 引擎区别于独立搜索引擎,主要有这样一些特征: ( 1 ) 一次提问提交多个搜索引擎。 元搜索引擎定制了调用多个独立搜索引 擎的统一界面,将用户递交的检索请求传递给其它多个搜索引擎。因此,用 户的一次查询可以同时检索多个搜索引擎o w 。这期间,元搜索引擎针对不同 的独立搜索引擎将用户的提问做不同转换,以适应相应索引数据库的调用。 ( z ) 基于独立搜索引擎结果的二次加工。 元搜索引擎的结果基于独立搜索 引擎的查询结果,少数简单的直接调用原始的结果页面,但都实现了对独立 搜索引擎查询结果的二次加工,如重复结果的删除、再度排序等。 ( 3 ) 标明结果记录的来源搜索引擎及其相关度。 在定制结果输出形式的元 搜索引擎中,检索结果一般都标明记录的来源搜索引擎及其相关度。 与独立搜索引擎相比,元搜索引擎不需要维护庞大的索引数据库,也不 需要网 络蜘蛛去采集网页。 具体说来,元搜索引擎主要由 三部分p a 构成: 请 求提交模块、检索接口模块、结果显示模块。 ( 1 ) 请求提交模块 负责实现用户的个性化检索设置的要求,包括调用哪些成员搜索引擎、 检索时间的限制、返回结果数量的限制等。一般的元搜索引擎设定了他所调 用的独立搜索引擎,有些元搜索引擎让用户自己选择喜欢的独立搜索引擎, 还有的通过分析用户的兴趣和网络的实际情况来选择搜索引擎。 2 ) 检索接口 模块 负责将用户个性化查询请求转化为可被成员搜索引擎识别的固定格式。 由于不同的搜索引擎所支持的查询方式不同,即便是同一种方式,也有不同 的 表达方法, 所以 必须将元搜索引擎中的查询请求映射到对应的搜索引擎中, 而且不能丢失语义信息。 ( 3 ) 结果显示模块 负责将调用的成员搜索引擎检索到的结果去重、 合并、 排序并按一定的 格式返回给用户, 这些搜索结果是多个独立搜索引擎的并集。元搜索引擎的 结果应该具有多种排序方式以满足不同用户的需要。 与独立搜索引擎相比较,元搜索引擎的技术中心在于查询前的处理和结 果的集成。元搜索引擎可以灵活的选择所要调用的独立搜索引擎,它一般都 9 一一-一一里塑竺连靶尝翠竺 是 选 择那 些比 较 经典的 、 性能 优 异的 独 立搜 索引 擎。 这 种强 强 联合的 结 果 保 证了 搜 索结 果的 权 威 性 和 可 靠 性。 它 还可以 充分 发 挥 各个 独 立 搜 索引 擎 在 某 个 搜 索 领 域的 特长, 弥 补 独 立 搜 索引 擎信 息 覆 盖 面的 局限 性 元 搜 索引 擎的 功 能 很 大 程 度受 所 调用 的 独 立 搜 索引 擎的 限 制, 因 此 不 可 避 免的 存 在 一 些 局 限性。 信息 检 索 领 域中的a g e n t 技 术 应用 提 供了 一 种 完 全 不同 的w e b 信息 检索 模 式, 近 年 来引 起了 人 们 的 巨 大 兴 趣 。 a g e n t 的 研 究 起 源 于 人 工 智 能 的 领 域, 被 看 作 是 在 某 一 环 境 中 , 模 拟 人 类 行 为 和 关 系 、 具 有 一 定 智 能 并 能 够自 主 运 行 和 提供 相 应服 务的 程 序, 具 有 解决问 题所 需的 知 识、 策略 和 相关 数 据, 并 具 有内 在 的自 我 控 制。 所 有 的a g e n t 都 具 有自 主 性 , 一 旦 把 任 务 交 给a g e n t , 它将自 己 控制如何完成任务而不需要用户 插手。 本文 是 尝 试 将a g e n t 这 一 热门 技 术引 入中 文 智 能 搜索引 擎, 运用 多a g e n t 系 统 的 一 些 技 术 思 想 提 高 中 文 智 能 搜 索 引 擎 的 整 体 效 率 , 设 计 出 一 个 集 主 动 搜 索 与 元 搜 索 为 一 体 的 以 用 户 个 性 化 为 着 眼 点 的 智 能 搜 索 引 擎 服 务 系 统 , 并 争取在理论上有所突破。 2 . 3 a g e n t 技术概述 2 . 3 . 1 a g e n t 的产生 a g e n t 起源于2 0 世纪7 0 年代的人工智能 ( a 工 )领域。8 0 年代中后期, 人t智能技术与分布式计算技术相结合, 出现了分布式人工智能( d a i ) 这个 研究方向。 作为分布式人工智能的构成因素的a g e n t 一词越来越多地被提到, 由于它突破了长期以来人工智能研究进展不大的局面, 因此受到人们的重视。 1 9 9 3 年首次召开了a g e n t 形式化模型的国际会议,同年y . s h o h a m 提出了面 向a g e n t 编程的a o p 的概念。1 9 9 4 年1 月,美国g e n e r a l m a g i c 公司演示了 他初次公开的a g e n t 软件。 1 9 9 4 面3 月, a a a i 春季年会的主要议题是s o f t w a r e a g e n t , 参加者包括了如下领域的研究者: 软件工程、 机器人、 知识表达、 知 识库系统、数据库、机器学习、认知科学、心理学、计算机图形学、人机交 互等,这意味着a g e n t 的 研究集成了来自 多种研究领域的重要成果。 从此,a g e n t融入了主流计算机的各个领域,产生了一系列新的思路、 哈尔滨工程大学硕士学位论文 方法和技术,各种类型的软件a g e n t 大量用于信息处理、办公自 动化、交通 管理、 私人助手等。网络技术, 尤其是 工 n t e r n e t 的飞速发展, 使网络的信息 量急剧增加。呈指数上涨的信息量与人类自己有限的驾驭能力形成了强烈的 反差。 人们迫切希望有一种工具, 能够代替人类来完成繁杂的信息处理工作。 这又为a g e n t 技术的充分发展带来了有利条件和有力挑战 2 . 3 . 2 a g e n t 的概念 目 前,尽管a g e n t 一词被广泛引用,但由于它内涵丰富,其概念阐述还 有争议。 w o o l d r i g e 给出了a g e n t 的 两种定义 吕 , : ( 1 ) 弱定义 a g e n t 一般用以说明一个具有以下特性的软硬件系统: d 自 主能力 ( a u t o n o m y ) , a g e n t 可以 在有或没有其它a g e n t 直接干预 的情况下动作,而且对自己的行为和内部状态有某种控制能力; 社交能力 ( s o c i a l a b i l i t y ) , a g e n t 和其它a g e n t 通过交流语言 进行交互; 反应能力 ( r e a c t i v i t y ) , a g e n t 观察其环境, 并在一定时间内 做出 反应,以改变环境; 预动能力 ( p r e a c t a b i l i t y ) , a g e n t 不仅简单地对其环境做出反应, 也能够通过接收某些启发信息,体现目标定向的行为。 ( ) 强定义 人工智能研究人员一般认为,a g e n t不仅应该具有以上定义的特性,同 时也应具有一些人类才具有的概念,如知识、信念、目 的、义务等。 s h o h a m 认为, a g e n t 就是一种卖体, 它可以 被看成由 许多心智状态 ( 如信念、 能力、 选择和承诺) 所组成, 一些人工智能研究人员进一步考虑了a g e n t 的情绪化。 另外, a g e n t 还具有一些其它特性, 如流动性( m o b i l i t y ) 、 真实性( v e r a c i t y ) , 仁慈性 ( b e n e v o l e n c e ) 、合理行 ( r a t i o n a l i t y )等。 实际上,对a g e n t 还可以 给出更多的特性,但至少目 前还没有给出一般 性准则。这种情况的出现,主要是由于a g e n t 处于多学科交叉的领域,它涉 及人一 e 智能、分布式计算、网络、数据库等多方面的知识。因而,可以从不 同的角度深入研究a g e n t 的特性。 哈尔滨工程大学硕士学位论文 从更一般的意义上来讲, 对a g e n t 进行定义应侧重在 “ 代理人” 上【20 3 即代理用户去处理各种各样的事物。因为再次引起a g e n t 热潮的原因是网络 技术的发展导致大量信息资源的涌现,这些巨大的可用信息量与用户对信息 资源的驾驭能力形成强烈的反差,用户盼望出现一些能够协助其寻找所需信 息资源的 “ 助手”来代理用户到网上寻找信息,以最小的代价获得最大的信 息量,这样,人们的目 光主要集中在代理工作上。因为人的灵活度也是十分 有限的,因此,将a g e n t 的作用集中在从用户得到的一定的权限委托后能动 地代理用户处理工作这一点上是比较实际的。同时,a g e n t作为存在于 “ 计 算机社会”的 “ 代理人”应不同于以往的被动式的、沉默的技术方式,应该 具有人格化的特点。因此,可以将a g e n t 定义为:一种具备人格化特征的代 理,能够接受主体委托,代为处理主体工作。 2 . 3 . 3 a g e n t 的特性 在计算机领域,a g e n t是指分布式系统或协作系统中能持续自 主发挥作 用的计算实体,它具有以下一些特性: ( 1 ) 交互性 这是a g e n t 作为代理应具备的首要特点,它包括与用户的交互和与其它 a g e n t 的交互两方面。 a g e n t 作为代理应具备与用户交互的能力, 从用户那里 接受指令,根据自己的 “ 经验”为用户提供建议;同时在进行资源查找时, 充分与其它a g e n t 进行交互, 利用已有情况进行判断, 以增加灵活性和效率。 这种 “ 交互”本身内 涵了一个含义,即a g e n t 必须具备主动性。 ( 2 ) 自 主性 这是a g e n t 具有人格化特征的第二个方面, 也是为了 适应巨 大、复杂的 分布式网络环境,作为用户的代理而应具有的一项基本能力。它的含义包括 a g e n t应该能够感知环境,对预知的和非预知的事件作出适时的反应,而且 这种反应应属于自身的计算资源和控制机制,由内部机制决定自身的行为。 ( 3 ) 适应性 因为网络资源在不断地发展、 变化, 所以a g e n t 应具有适应动态网络、 调整自身规程的能力。 ( 4 ) 目的性 哈尔滨工程大学硕士学位论文 具有强烈的行为目的性,即为达到某种目的,根据自 身的行为规则主动 采取一系列行动,直至达到目的。 ( 5 ) 连续性 为了 完成用户的委派, a g e n t能够连续执行,即使用户离开时也能正常 执行。 ( 6 ) 机动性 在网络计算环境下,一个a g e n t 可以在网络上灵活机动地访问各种资源 和服务,甚至使自己迁移到其它主机 上 去执行分布计算。 2 . 4 a g e n t 技术在搜索引擎方面的应用 目 前我们所使用的i n t e r n e t 存在着信息过载问题, 一方面信息资源的潜 力是巨大的,另一方面实际使用时很难有效利用。并且,目 前应用较广的搜 索引擎、 元搜索引擎等i n t e r n e t 信息检索系统一般是作为一种大型的服务器 程序运行,同时响应多个用户的请求,就不能够根据每个用户的兴趣需求来 定制检索结果。事实上,不同领域背景、知识结构的用户对文档相关性的判 断以及检索结果的要求是不一样的,即使同一个用户,在不同的时期也有所 侧重。此外,目 前通用的搜索引擎系统的检索工作是用户驱动的,即由用户 显式地提出检索请求,系统给出响应,这些系统缺乏对网络信息进行监控并 在出现用户感兴趣的新信息时主动地通知用户的能力。采用基于a g e n t 的信 息检索技术是解决以上问题的新途径。 a g e n t最初的用意是驻留在固定的计算机上的代理。 但随着网络技术的 发展,人们产生了让 a g e n t 在网络中移动并执行、完成某些功能的想法,这 就是移动a g e n t ( m a ) 的思想。因此, 移动a g e n t 可定义为: “ 具有跨平台持续 运行、自 我控制移动能力,模拟人类行为关系,并能够提供一定人工智能服 务的程序” 。 其突出特征就是a g e n t 实体的运行不是固定在一台机器上, 而是 可以在多台机器上。 移动a g e n t 的研究动机来源于影响工 n t e r n e t 发展的制约 因素。这些因素有: 低带宽,因特网数据流量正呈指数增长,带宽不足问题随之而来。 目 前大多数用户的带宽在 1 m b p s 以下。 哈尔滨工程大学硕士学位论文 越来越多的移动计算装置,i n t e r n e t 移动计算装置包括掌上电脑、 车载电脑、智能移动电话、寻呼机等。这些装置是大多是通过低可 靠性的、低带宽的、高延迟的铜线或无线方式接入网络的。 用户定制服务不同于单向的广播媒体,t n t e r n e t 尽可能允许每个用 户以自 定义访问方式访问。用户不满足单一的信息存取接口,而是 要求信息的个性化表达和定制服务。 移动a g e n t 改进了r p c 运行机制。 移动a g e n t 技术使一台计算机不仅可 以调用位于另一台计算机上的过程,而且能够提供可执行的过程,网络上传 递的信息是过程代码和表示其当前状态的数据。按照这种通讯模式设计的网 络,用户计算机若要求服务器完成某项工作,则将完成该项工作的过程代码 和过程的参数,通过网络传送到服务器_ 匕 然后过程根据其状态参数在服务 器上执行,完成预期的任务,最后过程代码连同其结果再通过网络传送到用 户计算机处。 过程和其状态的 封装体就是一个移动a g e n t . 移动a g e n t 能根据问 题求解的需要改变其物理 位置, 这种在数据源附近 执行的自己控制的程序将比客户一 服务器结构更灵活。 在这样的系统中, 管理 中心不需要查询每个节点以获得执行某个操作所需的信息,而只要放出一个 移动a g e n t 到网 络中, 移动a g e n t 要访问所有具有必需信息的节点并进行局 部处理。无论何时移动到不同的节点,都保持计算的状态,增加系统的灵活 性,减少管理中心附近的业务,分布处理负荷。 管理中心甚至可以给a g e n t 以更多自由, 但同时随着a g e n t 功能的增加, 其复杂性也随之增加,单就业务花费方面而言可能不合适,但网络的拓扑结 构和物理特征,特殊的管理任务,灵活性和重构性也都是要考虑的方面。当 管理中心与一个将由a g e n t 管理的节点没有网络级的连接时,它可能通过历 史 路由 信息把棺e n t 送到 第一个中间节点,其余由a g e n t 完成。 甚至a g e n t 还能用以发现和绕过环路。 a g e n t能够代表一些用户的兴趣、喜好和需求,自 主地采取行动对网上 的信息和资料进行收集、过滤和整理,既解决了一定的信息过载问题又解决 了用户个性化问题。虽然 a g e n t的定义仍然是一个悬而未决的问题,而且 a g e n t 技术在很多方面存在争议,但是在信息检索领域中,对a g e n t的 研究 却取得了十分丰富的成果。 有关这方面的应用研究项目 包括m a e s 等人研究的 哈尔滨工程大学硕士学位论文 电子邮件筛选 a g e n t -m a x i s m和 i n t e r n e t信息筛选 a g e n t -n e w t , m a x i s m 和n e w t都具有学习的功能。 d e c k e r , l e s s e r 等人研制的多a g e n t 协 同信息搜集系统m a c r o n ,该系统的a g e n t 是半自 主的社会a g e n t ,能够动态 响应环境变化,通过各类a g e n t 有组织的协同工作,从各种可能的异质信息 资源中收集信息,以响应一个复杂的询问。c a r n e g i e m e l l o n大学开发的 w e b w a t c h e r , w a s h i n g t o n 大学开发的s h o p b o t , s t a n f o r d 大学开发的f a b 等, 这些信息检索a g e n t 是一些智能化的程序,它们能够学习用户的需求,并利 用搜索引擎等系统提供的现有服务来检索用户所需信息。信息检索a g e n t 与 传统搜索引擎等系统的区别在于它具有以下特征: ( 1 ) 可适应性: 信息检索a g e n t 能够从用户日 常的 检索、 浏览等行为中学 习用户的兴趣,推理用户的需求,为每个用户建立个性化的文档记录。 ( 2 ) 主动性: 信息检索a g e n t 能够主动地根据用户的兴趣需求从w e b 上检 索相应信息,甚至能够监控信息源的变化,及

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论