(计算机软件与理论专业论文)基于多agent智能搜索引擎模型研究.pdf_第1页
(计算机软件与理论专业论文)基于多agent智能搜索引擎模型研究.pdf_第2页
(计算机软件与理论专业论文)基于多agent智能搜索引擎模型研究.pdf_第3页
(计算机软件与理论专业论文)基于多agent智能搜索引擎模型研究.pdf_第4页
(计算机软件与理论专业论文)基于多agent智能搜索引擎模型研究.pdf_第5页
已阅读5页,还剩97页未读 继续免费阅读

(计算机软件与理论专业论文)基于多agent智能搜索引擎模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理【人学硕十研究生学佗论文 r 7 8 8 3 嘎6 基于多a g e n t 智能搜索引擎模型研究 摘要 随着i n t e r n e t 的迅速发展,网上信息资源越来越丰富,网 络已经成为人们获得信息的必要途径和重要手段,但是这种网 上信息浩繁,具有分布、动态变化、结构复杂等特点,使得用 户根本无法完全了解庞大的、瞬息万变的信息资源。在这种情 况f ,传统的功能固定的搜索引擎已经不能满足用户需求,人 们期盼着新的、具备了智能性和用户可区分的新一代搜索引擎 的出现。 本文在分析研究了国内外的搜索引擎技术的发展和未来趋 势,结合人工智能技术的最新研究成果一a g e n t 技术,提出r 基于智能a g e n t 的搜索引擎系统研究,并以此为体系架构,在 r o b o t 和用户界面方面做了大量的优化和个性化工作。采用兴 趣模型,多用户协作等人工智能模型使得搜索引擎完全实现了 个性化服务的特点,并提出了对信息的“推一拉”操作融为一 体的新型搜索引擎模型。其主要工作和结果如下: ( 1 ) 分析和研究了传统搜索引擎的技术特点和主要的体系 架构,对搜索引擎的发展历程和未来的发展方向做了较详细的 探讨,从而明确指出了未来的搜索引擎发展趋势就是要引入 a g e n t 技术和个性化、专业化的发展道路。 ( 2 ) 分析和研究丫a g e n t 技术的主要类别和各自的特点,结 合搜索引擎的特点和实现因素的考虑,选择了m u l t i a g e n t 模型来实现搜索引擎系统。实验表明:m u l t i a g e n t 模型是容 太原理1 :火学硕士研究生学位论文 易实现并符合搜索引擎自身特点的目前技术最为实用的a g e n t 实现模型。 ( 3 ) 在a g e n t 模型和搜索引擎功能架构的基础上,引入并改 进了多个人工智能的算法和思想,结合h t m l 代码自身的特点, 大力提高了搜索引擎系统的智能性和用户个性,其主要技术包 括: a ) 在r o b o t 方面,结合h t m l 代码的特点,在强调关键词 和超链权重的基础上,提高了r o b o t 在网页搜索和下载过程中 的智能性,节省了r o b o t 方面的开支。 b ) 通过标记树以及分层标记符的划分,提高了系统对于文 档核心意义判定的麓力。 c ) 采用了用户兴趣度研究,多用户兴趣协作等人工智能模 型和思想,提高用户界面a g e n t 的智能性和个性,并将信息“推 一拉”理论引入到搜索引擎中,提出一个全薪的搜索引擎模型。 ( 4 ) 对予以上a g e n t 的算法和思想,考虑它们的具体实现情 况,给出了a g e n t 具体的实现算法和图示讲解,加深对于a g e n t 的了解和熟悉。 关键词:搜索引擎,a g e n t ,信息检索,个性化服务 太原理i :人学硕十研究生学位论文 r e s e a r c h0 nm o d e l0 fs e a r c h e n g l n eb a s e do nm u l t i a g e n t a b s t r a c t a l o n gw i t ht h er a p i dd e v e l o p m e n to fi n t e m e t ,t h ei n f o r m a t i o n r e s o u r c e si nt h ew e ba r eb e c o m i n gm o r ea n dm o r ea b u n d a n t ,a n d t h ei n t e r n e th a sa l r e a d yb e c o m eak i n do fn e c e s s a r ya n di m p o r t a n t a c c e s sf o r p e o p l e t o g a i n t h ei n f o r m a t i o n h o w e v e rw e b i n f o r m a t i o nh a ss o m ec h a r a c t e r i s t i c s ,s u c ha sv a s t n e s s ,d i s t r i b u t i o n , c o m p l e x i t y , w h i c hm a k eu s e r u n a b l et o c o m p l e t e l yu n d e r s t a n d h u g ea n dv o l a t i l ei n f o r m a t i o n 。i nt h i sc a s e ,t h et r a d i t i o n a ls e a r c h e n g i n e s ,w h o s ef u n c t i o n sa r ef i x e d ,d o n tc a s tf o rt h eu s e r sd e s i r e u s e r se x p e c tt ou s ean e wg e n e r a t i o n a ls e a r c he n g i n e ,w h i c hh a s i n t e l l i g e n c ea n di n d i v i d u a t i o n t h i sp a p e rh a sa n a l y s e dt h ed e v e l o p m e n ta n dt e n d e n c yi nt h e i i i 太原理 :大学硕十研究生学位论文 思想超前的各公司都有自己的网站。根据c 硪i c ( 中国互联网络信息中 心) 2 0 ( ) 4 年7 月在京发布的最新的中国互联网络发展状况统计报告, 截止到2 0 0 4 年6 月: o 同止,我国上网计算机数有约3 6 3 0 万台。我国上 网用户人数约8 7 0 0 万人,除计算机外同时使用其它设备( 移动终端、信 息家电等) 上网的用户人数为2 6 0 万。c n 下注册的域名总数为3 8 2 2 1 6 个, w w w 站点数( 包括c n 、c o m 、k e 丁、0 r g 下的网站) 约6 2 6 6 0 0 个,我圉 国际线路的总容量为5 3 9 4 l m 。关于网页的数目没有具体的统计数据,但 根据科学杂志上提供的集合估计法,通过中国几个主要搜索引擎获得 的搜索数据( 天网、c h i n a r e n 、新浪、搜狐、网易) ,我们可以估计到当 前中国拥有的网页数已经超过8 0 0 0 万。 但是掘我所知,它们却没有建立起一条有效的信息提供途径。绝大多 数的网站都是仅仅通过浏览的方式提供内容,即使是经过精心编排、组织 合理的网站,也会有7 0 到8 0 的网页内容不能被有效查阅。网民对信 息的需求越来越大,同时也越来越没有耐心。 搜索引擎的出现改变了人们获取信息的方式,利用搜索引擎可以快速 地找到需要的信息。目前,搜索引擎是仅次于门户的互联网第二大核心技 术,伴随互联网的普及和网上信息的爆炸式增长,它越来越引起人们的重 视。1 1 1 2 论文选题及其研究意义 搜索引擎的出现为我们在i n t e r n e t 上获取信息提供了一种有效的手 段但随着i n t e r n e t 的发展和网上信息量的激增,人们在使用中却发现 要准确、快速地查找自己所需的信息是越来越困难。 2 0 0 1 年,r o p e rs t a r c h 的调查指出,3 6 的互联网用户一个星期花了 超过2 个小时时间在网上搜索;7 1 的用户在使用搜索引擎的时候遇到过 麻烦;平均搜索1 2 分钟以后发现搜索受挫;搜索受挫中4 6 都是因为链 接错误;绝大部分( 8 6 ) 的互联网用户感到应当出现更有效的、准确的信 息搜索技术。 另一项出k e e n 所做的调查显示,人们平均每天有四个问题需要从外 界获取答案;其中3 1 的人使用搜索引擎寻找答案;平均每周花费8 7 5 2 太原理j :人学硕l :研究生学能论文 2 1 搜索引擎定义 第二章搜索引擎概述 随着i n t e r n e t 的迅速发展,网上的信息资源非常丰富。对于这种海 量的信息,用户单纯依靠自己手工查找所需的信息,如同大海捞针一样。 因此,需要一个w e b 信息发现服务系统,它能够在很短时间内自动发现新 的信息,将所发现的信息进行分类处理,并且在本地建立索引,这种信息 自动发现系统是搜索引擎的核心。所谓搜索引擎( s e a r c he n g i n e s ) 是一 个对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信 息搜集、信息整理和用户查询三部分。“1 一个好的搜索引擎系统还应能够 对用户提出的搜索请求进行处理,同时应能够将搜索的结果进行合理的组 织,提交给用户。 2 2 搜索引擎发展史 搜索引擎的基本概念出现于2 0 世纪7 0 年代,但它真正发展和应用却 是9 0 年代的事情,特别是在9 0 年代中期得到快速的发展。i n t e r n e t 或 i n t r a n e t 信息搜索引擎是指运行于i n t e r n e t 或i n t r a n e t 上,以i n t e r n e t 或i n t r a n e t 网络中的各种信息资源为对象,以信息检索的方式提供用户 所需信息的数据库服务系统,它主要提供了信息的自动收集、自动过滤、 自动索引和检索导航等服务,其最关键的组件是能够在海量中英文数据上 进行高效全文检索的信息管理系统。就搜索引擎技术应用的发展而占,它 大致上可分为以下几个方面: l 、第一代搜索引擎搜索结果的好坏往往用反馈结果的数量来衡量, 也就是浣,第一代搜索引擎“求全”。 i n f o s e e k ( w w w i n f o s e e k c o m ) : i n f o s e e k 是以检索的相关程度高而知名。1 9 9 9 年被d i s n e y 收购, 发展与定位都做了调整,d i s n e y 将其作为入门网站g o c o m 的搜索引 4 太原理工大学硕士研究生学位论文 和用户髫冀透辛矗若嚣竿牟:谢耐蓟劐葡卜舷廷乐刚。鱼圳裂巾1 强蔫幕 诛氓善秭! 鏊蒯聊眇铲紫曩肆: i j # 警引挚弱搿鞘塾辚型墼问邑k 雏嘛彰积 跑鞋弘祷b 霸糕觚翱螽窃朔霉霸蹙强擎嚣餮季癸援贰链上臻;烈圳娶 勒剽掣爱护;曼芒稳髫鬲菱e 蠹氡砭专;箪 再奄菩杰蘩囊i 萋;引薹蓥 薹囊蠢霪囊薹莲离描谨;要缝坛鼢理叼聃。弛啊甏移趟聪措搜索引擎已成为一个新的研究、开发领域。在我看来,因为它 要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖 掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性 和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所以引起 了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十 分活跃,并出现了很多值得注意的动向。“ 1 、十分注意提高信息查询结果的精度,提高检索的有效性 用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少, 而是看结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄 返回几十万、几百万篇文档,用户不得不在结果中筛选。解决查询结果过 多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语 句中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用 户模型:使用相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需 求相关( 及其相关的程度) ,哪些不相关,通过多次交互逐步求精。二是 用f 文分类( t e xtc a t e g o r i z a t i o n ) 技术将结果分类,使用可视化技术 显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类聚或 内容类聚,减少信息的总量。 2 、基于智能代理的信息过滤和个性化服务 信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的 领域模型( 如w e b知识、信息处理、与用户兴趣相关的信息资源、领域组 织结构) 、用户模型( 如用户背景、兴趣、行为、风格) 知识进行信息搜 集、索引、过滤( 包括兴趣过滤和不良信息过滤) ,并自动地将用户感兴 趣的、对用户有用的 x 太原理工大学硕士研究生学位论文 和用户兴趣动态变化的能力,从而提供个性化的服务。智能代理可以在用 户端进行,也可以在服务器端运行。 3 、采用分布式体系结构提高系统规模和性能 搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方 法各有千秋。但当系统规模到达一定程度( 如网页数达到亿级) 时,必然 要采用某种分布式方法,以提高系统性能。搜索引擎的各个组成部分,除 了用户接口之外,都可以进行分布:搜索器可以在多台机器上相互合作、 相互分工进行信息发现,以提高信息发现和更新速度;索引器可以将索引 分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机 器上进行文档的并行检索,以提高检索的速度和性能。 4 、重视交叉语言检索的研究和开发 交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的 数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果 再加上机器翻译,返回结果可以用母语显示。该技术目前还处于初步研究 阶段,主要的困难在于语言之间在表达方式和语义对应上的不确定性。但 对于经济全球化、互联网跨越国界的今天,无疑具有很重要的意义。 2 4 搜索引擎工作原理 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页 索引数据库。搜索引擎,也不能真正理解网页上的内容,它只能机械的匹 配网页上的文字。真正意义上的搜索引擎,通常指的是收集了互联网上几 千万到几十亿个网页并对网页中的每一个文字( 即关键词) 进行索引,建 立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页 面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂 的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排 列。现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的 文字,还分析索引所有指向该网页的链接的u r l 、a n c h o r t e x t 、甚至链接 周围的文字”1 。所以,有时候,即使某个网页a 中并没有某个词比如“计 算机网络”,但如果有别的网页b 用链接“计算机网络”指向这个网页a , 那么用户搜索“计算机网络”时也能找到网页a 。而且,如果有越多网页 7 太原理i :大学硕士研究生学位论文 ( c 、d 、e 、f ) 用名为“计算机网络”的链接指向这个网页a ,或者 给出这个链接的源网页( b 、c 、d 、e 、f ) 越优秀,那么网页a 在用 户搜索“计算机网络”时也会被认为更相关排序也会越靠前。 搜索引擎的原理,可以看作三步: l 、从互联网上抓取网页 利用能够从互联网上自动收集网页的s p i d e r 系统程序,自动访问互 联网,并沿着任何网页中的所有u r l 爬到其它网页,重复这过程,并把爬 过的所有网页收集回来。 2 、建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息 ( 包括网页所在0 r l 、编码类型、页面内容包含的所有关键词、关键词位 置、生成时间、大小、与其它网页的链接关系等) ,根据一定的相关度算 法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关 键词的相关度( 或重要性) ,然后用这些相关信息建立网页索引数据库。 3 、在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到 符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度 早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠 前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容 组织起来返回给用户。 搜索引擎的s p i d e r 一般要定期重新访问所有网页( 各搜索引擎的周 期不同,可能是几天、几周或几个月,也可能对不同重要性的网页有不同 的更新频率) ,更新网页索引数据库,以反映出网页文字的更新情况,增 加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排 序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。 2 5 搜索引擎的基本类型 现在i nc e r n e t 上已有数千个能提供检索服务的站点,这些站点的搜 索引擎在收录的范围、内容、检索方法上都各有不同t 但总的来看,根据 8 太原理工大学硕士研究生学位论文 它们所基于的技术原理,可以将其分成三大类型:基于r o b o t 的搜索引擎、 目录( d i r e c t o r y ,也叫做c a t a l o g ) 和元搜索弓! 擎。从目前的使用来看, 主要有以下几类: l 、基于r o b o t 的搜索引擎 基于r o b 。t 的搜索引擎不是靠人工发现和甄别信息,而是由一个被 称作r o b o t ”( 也称为“s p i d e r ”、“w e bc r a w l e r ”) 的计算机程序在网页 中爬行,依据一定的网络协议在i n t e r n e t 中发现、加工、整理信息,并 为用户提供检索服务“。基于r o b o t 的搜索引擎一般由四部分组成: w _ l v w 信息的采集 通常搜索引擎会生成多个r o b o t ,自动地根据初始搜索列表和一定的 搜索策略去w w w 站点搜集文档( 通常为h t m l 文档) 。 w w w 信息的分析 对由机器人搜集的文档,一般在搜索引擎本地进行分析,提取出表达 文档的关键词、摘要等信息及文档中的构成w w w 结构的超链( h y p e r l i n k ) 来建立索引。 w w w 信息的存储 把文档的索引按照一定结构存储在搜索引擎本地数据库服务器上, 同时建立适应查询的高效索引。 w w w 信息的检索 一般搜索引擎提供基于w w w 浏览器的查询请求输入界面,它根据用 户提交的查询请求,在本地数据库中检索出符合用户查询的记录,并通常 依命中相关程度的次序来排列结果,最后通过浏览器返回给用户。 我们把对用户可见的“脚w 信息的检索”这部分称之为“搜索引擎前 端”。它是这样工作的:浏览器与w e b 服务器相连,在搜索引擎的搜索界面 中输入要查询的关键字,然后提交查询请求,w e b 服务器就在一个大型索 引数据库中查找相匹配的条文,列出找到的站点,把结果传给浏览器。 对用户来说,其它部分是不可见的,我们把它们称之为“搜索引擎 后端”。搜索引擎后端是由r o b o t 快速扫描i n t e r n e t 上的w e b 页面,提取 其中的关键词并编制索引,定期更新数据库。 其中,r o b o t 作为一个程序,可以用c 、p e r l 、j a v a 等语言来编写, 9 太原理1 :大学硕士研究生学f 市论文 可以运行在u n i x 、s o l a r is 、w i n d o w s 、n 1 、0 s 2 和m a c 等平台上。r o b o l 设计是否合理将直接影响它访问w e b 的效率,影响搜索数据库的质量。另 外,在设计r o b o t 时还必须考虑它对网络和被访问站点的影响,因为r o b o l 一般都运行在速度快、带宽高的主机上如果它快速访问一个速度比较慢 的目标站点,就有可能会导致该站点出现阻塞甚至死机。r o b o t 还应遵守 一些协议,以便被访问站点的管理员能够确定哪些内容能被访问,哪些不 能。 不同的搜索引擎会采取不同方式来建立索引,有的对整个h t m l 文件 的所有单词都建立索引,有的只分析h t m l 文件的标题或前几段内容,还 有的能处理h t m l 文件中的m e t a 标记或其它不可见的特殊标记。 不同的搜索引擎在计算等级值时使用了不同的方法,但它们都以关键 词在网页中出现的位置和频率为基本依据,例如,关键词出现在标题中的 网页可能比只出现在其它地方的网页更符合要求,关键词出现在网页的前 面可能比只出现在网页的后面更符合要求,同一个关键词出现多次的网页 又可能比只出现一两次的网页更符合要求,把这些因素综合起来考虑便可 得出一个计算等级值的公式。不过,绝大多数搜索引擎都没有只按照上述 因素采确定计算公式,它们还加入了一些特殊考虑,例如,e x c i t e 能检查 是否有很多链接指向同一个网页,如果是的话,它就把这个网页的等级值 稍微提高一些,理由是这样的网页一般都具有更大的访问量。 2 、目录式搜索引擎 目录式搜索引擎与基于r o b o t 的搜索引擎所不同的是,目录的数据库 是依靠专职编辑或志愿人员建立起来的,这些编辑人员在访问了某个w e b 站点后撰写一段对该站点的描述,并根据站点的内容和性质将其归为一个 预先分好的类别,把站点的u r l 平 i 描述放在这个类别中,当用户查询某个 关键词时,搜索软件只在这些描述中进行搜索。很多目录也接受用户提交 的网站和描述,当目录的编辑人员认可该网站及描述后,就会将之添加到 合适的类别中。 目录的用户界面基本上都是分级结构,首页提供了最基本的几个大类 的入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别,另 外,用户也可以利用目录提供的搜索功能直接查找一个关键词,不过,由 1 0 太原理工大学硕士研究生学位论文 于目录只在保存的对站点的描述中进行搜索,因此站点本身的动态变化不 会反映到搜索结果中来,这也是目录与基于r o b o t 的搜索引擎之间的一大 区别。 由于目录是依靠人工来评价一个网站的内容,因此用户从目录搜索得 到的结果往往比从基于r o b o t 的搜索引擎得到的结果更具参考价值。 3 、元搜索引擎 元搜索引擎又叫做m u l t i p l es e a r c he n g i n e ,它的特点是本身并没有 存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求 转换成其它搜索引擎能够接受的命令格式,并行地访问数个搜索引擎采查 询这个关键词,并把这些搜索引擎返回的结果经过处理后再返回给用户。 与独立搜索引擎相比,元搜索引擎不需要维护庞大的索引数据库,也 不需要网络蜘蛛( s p i d e r ) 去采集网页。具体说来,元搜索引擎主要由三部 分组成,即:请求提交代理、检索接口代理、结果显示代理。“请求提交 代理”负责实现用户“个性化”的检索设置要求,包括调用哪些搜索引 擎、检索时间限制、结果数量限制等。“检索接口代理”负责将用户的检 索请求“翻译”成满足不同搜索引擎“本地化”要求的格式。“结果显示 代理”负责所有源搜索引擎检索结果的去重、合并、输出处理等。由此也 可看出,元搜索引擎是建立于独立搜索引擎之上的搜索引擎,其技术重心 就在于查询前的处理( 检索请求提交机制和检索接口代理) 和结果的集成。 元搜索引擎可以灵活地选择所要采用的独立搜索引擎,它一般都是选择那 些比较典型的、性能优异的独立搜索引擎。这种强强联合的结果保证了搜 索结果的权威性和可靠性。它还可以充分发挥各个独立搜索引擎在某个搜 索领域的功能与优势,弥补独立搜索引擎信息覆盖面上的局限性。 2 6 搜索引擎的基本结构及各部分的工作机理 搜索引擎虽然表现为各种不同的形式,但其最根本是由搜索器 ( s p i d e r ) 、索引器( i n d e x e r ) 、检索器( s e a r c h e r ) 和用户接口( u s e r i n t e r f a c e ) 四部分组成。当然,个完整的搜索引擎系统还需要有一个 检索结果的页面生成系统,也就是要把检索结果高效地组装成万维网页 面。其结构图如图2 一l 所示: 1 1 太原理【大学硕士研究生学位论文 藩墅:鬟翼雾硅r o b o t 焚c r a w l e r ;蕊霹嚣蠹露篷需匡羲薹薹薹萄型 薯囊篓季;皋引i 函一巍p 抑i 骄烈撵醐爨释笃高w 啦塑簪;躺妻蚕1 玉誊 营鲻蟛剖睽信恩霪j 拿尘粤盏驾气蠖暾撙潆弓哩q ,一罹缘is p i d e r 驰 堋琶h 鞋u r l 骤耻驵鲤,赫带u r l 即骢坚醵魏u r l 摁骆箨掘露竖孰酏联 铂望vu r l j 型扎莘影夏嚣蝌= 覆 盖率不 高,用户往往为了寻找目的数据和资源,而不断地在多个搜索引擎间切换, 这常常令用户事倍功半。 其次,现有传统搜索引擎对提供的检索信息没有进行综合处理,冗余 和噪声含量大,用户只能亲自从大量的反馈信息中提取自己的所需信息。 再者,现有的传统搜索引擎各自使用不同的索引技术、信息收集技术 和关键字查询语法技术,使得它们各自搜索的信息资源在很大程度上有相 当大的差异,同时给用户检索查询带来很大的不便。 最后,现有传统搜索引擎基本上都采用“一个搜索适用于所有用户” 的搜索模型( 不同的用户提交相同的关键字查询请求时,搜索引擎返回相 同的搜索幕疃煌挠没运1 6 x 太原理工大学硕士研究生学位论文 多s p i d e r :采用多s p i d e r 并行的策略能极大地提高效率。我们将 多个s p i d e r 同时运行,每个s p i d e r 从不同的u r l 列表出发开始搜索,搜 索结果返回到网页数据库中。多个s p i d e r 之间通过相互间的通信机制来 确定是否有重复的u r l 链接,以避免冗余的工作。 多线程:在具体实现时,由于对每个u r l 的连接都需要一定的时间, 即获得对方服务器端的响应需要等待时间,再加上网络传输和拥塞的耗 时,s p i d e r 的大量时间浪费在等待响应或信息这上面。为解决这个问题, 我们采用了j a v a 的多线程机制,一个线程对应一个u r l 连接,多个线程 同时运行,则充分利用了各个连接的等待时间去完成其它连接或信息传输 与处理的工作,其实际效率要比顺序执行要快几倍。但线程的数量的最佳 值与本地c p u 性能和网络带宽等因素有关,c p u 性能好,则线程个数可以 多一些,而若网络带宽较宽,则线程个数应当减少一些。 索引器负责索引库的建立。s p i d e r 收回的信息很多,直接用于查询, 其效率将非常低。为了提高检索的效率,需要按照一定的规则对网页建立 索引,并将其存放于索引数据库,以备搜索引擎软件查询。索引器的主要 工作是建立一个包含关键信息的索引库以备查询。索引器的功能是理解搜 索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的 索引表。索引器可以使用集中式索引算法或分布式索引算法。当数据量很 大时,必须实现即时索引,否则不能够跟上信息量急剧增加的速度。索引 算法对索引器的性能( 如大规模峰值查询时的响应速度) 有很大的影响。 一个搜索引擎的有效性在很大程度上取决于索引的质量。索引器的策略很 大程度上影响了搜索引擎的效率与准确性。目前,比较常用的方法是对网 页的标题( t i t l e ) 和评语( c o m m e n t ) 进行索引。 在一个文本中,不是所有的单词都能等同地表示该文本的语义,一些 词汇与其它词汇相比能够表达更多的意思。一般来说,名词是最能够表达 文本的内容的。因此,在建立文本索引以前有必要对文本进行预处理,以 决定对哪些词汇建立索引。文本预处理包括以下五个步骤:”1 文本的词法分析,它是将字符串( 文档中的文本) 转化为词条的过 程。它主要是处理文本中的数字、连接符、标点符号和字符的大小写。其 目的主要是识别文本中的词条。 1 3 太原理工大学硕士研究生学位论文 用户反馈信息的查询扩展方法、基于局部信息的查询扩展方法和基于全部 信息的查询扩展方法。 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反 馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索 引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理 论和方法,以充分适应人类的思维习惯。 2 7 评价搜索引擎技术指标 为了对现有的搜索引擎进行分析、对比与评价,我们必须首先了解有 哪些评价搜索引擎的技术指标。 1 、查全率 查全率是指相关文件与总的相关文件的比率。即用户通过搜索引擎所 获取的有用信息与整个i n t e r n e t 中相关信息的比率。 2 、查准率 查准率是指获取的相关文件与获取总文件的比率。即用户通过搜索引 擎所获取的信息中真正是用户需要的信息占总共获取信息的比率。 下面让我们用一个例子来说明,假设整个i n t e r n e t 是一个大的数据 库,其中有关“搜索引擎”为关键字在某个搜索引擎查询到的信息有5 0 条,但真正符合用户需要的只有3 0 个,那么: 查全率= 5 0 1 0 0 = 5 0 查准率= 3 0 5 0 = 6 0 3 、覆盖范围 覆盖范围指的是搜索引擎索引数据库索引的w e b 页面占整个 i n t e r n e t 中页面的比例。 4 、响应时间 响应时间指的是用户发出查询请求后到观看到查询结果的这段时间。 5 、用户方便性 用户方便性包括查询界面是否直观、易于使用,查询语法是否丰富, 显示结果是否易于查看等等。 1 5 太原理【大学硕士研究生学位论文 藩墅:鬟翼雾硅r o b o t 焚c r a w l e r ;蕊霹嚣蠹露篷需匡羲薹薹薹萄型 薯囊篓季;皋引i 函一巍p 抑i 骄烈撵醐爨释笃高w 啦塑簪;躺妻蚕1 玉誊 营鲻蟛剖睽信恩霪j 拿尘粤盏驾气蠖暾撙潆弓哩q ,一罹缘is p i d e r 驰 堋琶h 鞋u r l 骤耻驵鲤,赫带u r l 即骢坚醵魏u r l 摁骆箨掘露竖孰酏联 铂望vu r l j 型扎莘影夏嚣蝌= 覆 盖率不 高,用户往往为了寻找目的数据和资源,而不断地在多个搜索引擎间切换, 这常常令用户事倍功半。 其次,现有传统搜索引擎对提供的检索信息没有进行综合处理,冗余 和噪声含量大,用户只能亲自从大量的反馈信息中提取自己的所需信息。 再者,现有的传统搜索引擎各自使用不同的索引技术、信息收集技术 和关键字查询语法技术,使得它们各自搜索的信息资源在很大程度上有相 当大的差异,同时给用户检索查询带来很大的不便。 最后,现有传统搜索引擎基本上都采用“一个搜索适用于所有用户” 的搜索模型( 不同的用户提交相同的关键字查询请求时,搜索引擎返回相 同的搜索 幕疃煌挠没运1 6 太原理一l i 大学硕士研究生学位论文 无用词汇的删除,它主要是过滤掉那些对于信息获取过程来说区分 能力低的词汇。在信息库的文档中太频繁出现的单词不会成为具有良好区 分能力的词汇。实际上如果一个单词出现在信息库中8 0 的文档中。 陔单词对于信息获取过程来说根本没用。一般来说,冠词、介词、连词和 一些动词、副词、形容词等部可以算作无用词汇。 词干的提取,所谓词干,是指将词的词缀( 前缀和后缀) 删除后剩 下的部分。它的主要任务是去除词缀,这样可以允许所获取的文档包含一 些查询词条的变换形式。目前,词干提取技术可以分为以下几种:词缀删 除、表格查询、后续变形和n 一连字。所谓表格查询方法是指通过在表格 中查找某个词汇的词干来实现,表格中的信息依赖于整个语言中词汇的词 干。所谓后续变形词干提取法主要是通过结构化语言的知识来确定词素的 边界,这种方法比词缀删除法要来得复杂。所谓n 一连字词干提取法是基 于对单词中字母是否应该连在一起的识别,这一过程实际上是词条聚类的 过程。 索引词条词干的选择,自然语言中的句子一般由名词、代词、冠 词、动词、形容词、副词、介词和连词构成。在这些词中,主要由名词表 达句子语义的,因此,选择句子中的名词作为索引词条是一种可行的方法。 太原理1 i 大学硕士研究生学位论文 给用户,而且还能去伪存真,把貌似符合查询要求,实际离用户查询要求 相去甚远的信息过滤掉。进行文档相关性评价,并最终按与用户查询相关 程度来筛选出查询结果是搜索引擎的重要一环。搜索引擎作为w w w 上的一 个查询工具,其处理的文档已不再是静态和孤立的。w w w 本身可看作为随 时间变化其结构吐l 发生变化的动态对象。w w w 实际上可描述成时间和u r l 的表达式。文档中所台有的表征了文档在w w w 中的结构的超链在评价文档 相关性时也应作为一个评价标准。把文档放在w w w 上作为其中一部分考虑 时,其信息可表示成如下形式: i n f o r m a t l 0 n ( d o c ) = t e x t d j f o r m a t i o n ( d o c ) + h y p e r i n f o r m a t i o n ( d o c )( 式2 1 ) 当搜索引擎进行文档相关性评价时,对文档中超链的赋值完全可以依赖 1 e x t i n f ( ) r a t i o n 评价作出正确选择。 2 1 0 搜索引擎的未来发展展望 l 、让搜索引擎更了解你的需求意图 当前的信息检索服务大多是基于关键字查找,并运用布尔计算,由用 户给定需求信息中的关键词语,系统在数据库中查找包含关键词语的文 件,并给出相应的网络地址链接。这种方式将词语从语义背景中提出,以 孤立的关键字标引文档,割裂了原始文档中的逻辑语义。只用文档中的词 组不能完全表达文档的含义,更重要的是在自然语言中,有很多的方法可 以表达一个询问的概念,同时一个词可以用到多个领域,所以关键词方式 脱离了用户本身意图的领域背景,使得“误解”概率增大导致检索结果 与用户意图不符1 。因此,未来的搜索引擎应能更好的了解用户。 让用户更好地表达需求 现有的关键字接口不符合人们的日常习惯。自然语占接口的提供可以 让用户以自然语言和熟悉的方式使用搜索引擎,而且自然语言能更好地表 达用户的意图和需求使检索的结果更加准确。 主动让搜索引擎了解用户 搜索引擎的定制、个性化是未来商业服务的一个发展趋势。让用户成 为搜索引擎的注册用户,注册用户可以提交自己的个性化信息,甚至自己 】8 太原理,:火学硕士研究生学位论文 第三章a g e n t 技术研究 3 1 艇e n t 的产生与定义 a g e n t 理论与技术源于d a i ( d i s t r i b u t e da r t i f i c i a li n t e l l i g e n c e , 分布式人工智能) 。d a i 系统研究是以模拟人娄社会各种组织及其协作关 系为目标。自从2 0 世纪8 0 年代末开始,a g e nl 理论与技术研究从d a i 领 域中扩张开来,并与许多其他领域互相借鉴和融合,得到了比d a i 更为广 泛的应用。 a g e n t 是由m i n s k y 于1 9 8 6 年出版的思维的社会一书中提出的, 但到目前为止,没有一个被普遍接受的a g e n t 的定义,它只是一种抽象工 具。w 0 0 1 d r i d g e 和j e n n i n g s 给出的定义是”。:“a g e n t 是处在某个环境 中的计算机系统,该系统有能力在这个环境中自主行动以实现其设计目 标。”f r a n k li n 和g r a e s s e r 对a g e n t 给出这样的定义“”:“a g e n t 是一个 处于一个环境之中并且作为这个环境一部分的个系统,它随时可以感测 这个环境并且执行相应的动作,同时逐渐建立自己的活动规划以应付未来 可能感测到的环境变化。”而s h o h a m 认为。“:“a g e n t 就是一种实体,它 由许多心智状态( m e n t a ls t a t e ) ,如信念( b e l i e f ) 、能力( c a p a b i l i t y ) 、 选择( s e l e c t i o n ) 、和承诺( c o m m i t m e n t ) 等组成的。”对于a g e n t 应具 有的性质也只有一点达成了普遍的共识,即自治性。 a g e n t 的特征有: 自治性:船e n t 具有属于其自身的计算资源和局部于自身行为控制 的机制,能在无外界直接操纵的情况下,根据其内部状态和感知到的( 外 部) 环境信息,决定和控制自身的行为。 交互性:能与其它a g e n t 进行多种形式的交互,能有效地与其它 a g e n t 协同工作。 反应性;智能a g e n t 可以感知它们的环境,并可以对环境发生的变 化以及时的方式做出反应,以满足它们的设计目标。 2 0 x 太原理工大学硕士研究生学位论文 预动性:智能a g e n t 通过主动发起可以表现出目标引导的行为,以 满足它们的设计目标可以主动发起一个动作。 社会性:智能a g e n t 可以与其它a g e n t ( 也可能是j k ) 交互,以满 足它们的设计目标。 代理性:智能a g e n t 具有代表他人的能力,即它们都代表用户工 作。 智能性:智能a g e n t 具有一定程度的智能,包括推理到自学习等一 系列的智能行为。 3 2a g e n t 的主要技术 a g e n t 的智能性( i n t e l l i g e n c e ) 和代理性( a g e n c y ) 是定性描述a g e n t 的两个主要技术特征。智能性是指应用系统使用推理、学习和其他技术来 分析解释它己接触过的或刚提交给它的各种信息和知识能力。代理能力是 指一个a g e n t 代理用户执行某个任务的能力,即在没有外界直接操纵的情 况下,根据自身的内部状态以及感知到的外部环境信息,决定和控制自身 的行为。 、 a g e n t 的主要技术包括机器技术、内容技术、访问技术和安全技术, 这些技术都是紧紧围绕智能性和代理能力这两个a g e n t 的根本特征展开 的。 1 、机器技术 这里指的机器是各种在人工智能领域中开发的,支持各种程度智能的 软件,包括有:各种形式的推理机、学习机、用户创建修改规则和知识的 工具等,机器是事件驱动的,事件在这里是指代理环境的改变,即某个外 部事件的发生或者是有新的知识和内容产生。机器技术中的核心是推理机 和学习机,它们提供了a g e n t 所需的推理能力和学习能力。推理机依赖于 外部事件和数据,通过其外围逻辑接口输入而进行推理,从而使a g e n t 产生各种可能的行为,学习机制则提供了修改规则库和长期事实的能力, 包括增加新规则,修改过期规则,增加新的事实和修改无效的事实,修改 信任系数等等。因此,机器技术决定了a g e n t 智能性的高低程度,是a g e n t 技术的核心。 2 】 太原理 :大学硕十研究生学付论文 2 、内容技术 内容技术与机器技术是息息相关的,内容是指机器用于推理和学习的 数据,但它们不一定就是知识,主要包括属于结构化知识的规则和数据 大量非结构化的通用知识。规则主要是用户策略的表达,同时也是对现实 世界中知识的表示。这样,a g e n t 就可以在基于规则的基础上和用户进行 相互的通信和交流。内容技术的应用在于:将用户的参数设置标准化以后, 咀一种规则的形式提交给学习机;将非结构化信息标准化后,以结构化数 据提交给推理机。因此,内容技术是推理机、学习机等进行计算和推理的 基础,它同机器技术一样影响着a g e n t 的智能性的高低。 3 、访问技术 访问是指a g e n t 同周围环境( 包括用户或其他a g e n t 等) 进行交互。 一个a g e n t 必须能够感知其环境中发生的事件并能够采取相应的动作,在 大多数情况下,a g e n t 是为已有的环境和应用开发的。因此,访问技术与 a g e n t 的代理能力密切相关,不同程度、不同类别的访问技术将决定代理 能力不同,也将决定代理能力的高低。 4 、安全技术 a g e n t 的安全问题涉及的范围非常广泛。不但要考虑如何保护用户隐 私,包括用户个人资料、兴趣爱好等信息,而且在其他一些环境更加复杂 的网络代理事务中,如电子商务,就不得不考虑安全性和完整性这些更加 复杂的情况。因此,无论在代理交互性还是服务交互性方面,安全技术都 是影响a g e n t 代理能力的重要因素。 3 3 软件a g e n t l 、软件a g e n t 定义 a g e n t 一词直译为“代理”,也有人把它称为“智能代理”,广义上它 是指具有智能的任何实体,包括人类、智能硬件( 如机器人) 和智能软件。 a g e n t 思想的诞生可归功于j o h nm c c a r t h y 在2 0 世纪5 0 年代提出的 “t h ea d v i c et a k e r ”系统,该系统被设想为具有目标性,系统内实体间 用人类的术语进行交流,他们从用户的利益来考虑从事各项任务。到目前 为止,许多研究者提出了各自对a g e n t 的定义,但是至今没有一个被大多 2 2 太原理1 :人学硕十研究生学俄论文 户交互的方式( 如b r o w s e r 方式) ,融合用户的行为模式,以提高检索的 精度和广度。国内在如何利用a g e n t 实现智能化方面也进行了许多探讨并 做了火量的实践工作,在信息检索上,文档的自动聚类和理解也是该领域 的一个研究重点。另外由于中文和西文在编码和表达方式上有很大的不 同,因此国内在中文检索的处理上也投入了大量的精力。 3 4 基于枢e n t 的系统 合作船e n t 系统:是一种典型的、大规模和粗粒度的a g e n t 系统,强 调a g e n t 的自治性和a g e nl 问的相互操作性,在一个开放的多船e n t 环境 中完成a g e n t 的所有者的任务。a g e n t 之间可以达成一种可相互接受的一 致性。 界面a g e n t 系统:支持和提供一种主动性的协助,这种协助对于使用 复杂应用系统的用户特别有利。界面a g e n t 强调自治性和学习性,以完成 所有者的任务。界面a g e n t 最主要的性质是它是一个个人助理,它与同一 工作环境中的用户进行合作。一个a g e n t 与其他a g e n c 之间如果有操作的 话,这种互操作仅限于请求建议。 信息a g e n t 系统:是一个具有主动性、适应性和互操作性的w w w 信息 管理者,完成在多个分布的资源中管理、操纵、收集信息的功能。 移动a g e n t 系统:是一种软件程序,能在w w w 上漫游,代表其所有者 的利益完成任务,最后,履行完赋予它的职责并回到原先的位置。 3 5a g e n t 的体系结构 1 、单a g e n t 的体系结构 单a g e n t 系统由一个a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论