(计算机应用技术专业论文)基于agent的元搜索引擎检索结果优化研究.pdf_第1页
(计算机应用技术专业论文)基于agent的元搜索引擎检索结果优化研究.pdf_第2页
(计算机应用技术专业论文)基于agent的元搜索引擎检索结果优化研究.pdf_第3页
(计算机应用技术专业论文)基于agent的元搜索引擎检索结果优化研究.pdf_第4页
(计算机应用技术专业论文)基于agent的元搜索引擎检索结果优化研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)基于agent的元搜索引擎检索结果优化研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于a g e n t 的元搜索引擎检索结果优化研究 王红( 计算机l 应用技术) 指导教师:李村合( 教授) 摘要 目前所有的搜索引擎中,没有一个能够访问全部的w w w 资源,大多 数的搜索引擎都只能覆盖整个网络资源的- 4 , 部分。由于各类搜索引擎的 信息来源差异较大,因此集成多个搜索引擎而产生的元搜索引擎应运而 生,它具有比传统搜索引擎覆盖信息全面、检索效果更好以及可扩展性强 等优点。其中如何对各个成员搜索引擎返回的结果进行相关性排序是提高 元搜索引擎效率的关键技术。 搜索引擎返回的结果太多且不能根据用户的兴趣提供检索结果是当 前倍受关注的问题。通过对网页文本聚类技术的研究,以概念提取为目标, 提出了一种基于中频词的实时网页聚类策略。与传统的聚类方法不同,该 算法将文档聚类和主题描述统一起来,具有复杂度低、灵活性高的特点。 在分析目前已有的结果合成算法的基础上,提出了一种从用户浏览行为到 用户兴趣的映射算法,并结合用户兴趣对主题敏感页面等级算法进行改 进,实现了对检索结果的个性化排序,解决了搜索引擎的查询结果规模庞 大,用户又缺乏足够耐心去浏览所有结果的问题,大大提高了用户的查询 质量和效率。最后在对a g e n t 和多a g e n t 技术研究的基础上,设计开发了 一个基于a g e n t 的元搜索引擎原型系统,提出了基于j a d e 平台的元搜索 引擎多代理系统框架。它使用基于多a g e n t 的体系结构来实现信息收集过 程的并行、分布式处理,由系统代替用户对搜索引擎结果进行对比,并去 除冗余网页,将去重后的结果重新排序后提供给用户。相对于传统的面向 对象的元搜索引擎系统,该系统具有响应速度快,耦合性低的特点。 关键词:元搜索引擎,a g e n t ,结果优化,主题分类,用户兴趣 r e s u l to p t i m i z a t i o no fm e t as e a r c h e n g i n e b a s e do l la g e n t w a n gh o n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f e s s o rl ic u r t - h e a b s t r a c t a t p r e s e n t , a m o n ga l lt h es e a r c he n g i n e s , n oo n ec a p _ c o v e ra l lt h ew w w r e s o u r e e s m o s to f t h e mc a no n l yo d v e rav e r ys m a l lp a r to f t h ee n t i r er e s o u l v t h ed i f f e r e n c ea m o n gi n f o r m a t i o ns o u r c e so fa l lk i n d so fs e a r c he n g i n e si ss o l a r g et h a tm e t as e a r c he n g i n e ( m s e ) a p p e a r sw h i c hi n t e g r a t e s m a n y i n d e p e n d e n ts e a r c he n g i n e s m s eh a sl a r g 盯c o v e rf a c e , b e t t e rs e a r c h e f f i c i e n c ya n de x p a n s i b i l i t y r e s u l to p t i m i z a t i o ni sak e yt e c h n o l o g yi na s p e c t o f i m p r o v i n gm e m - s e n r e he 1 3 9 i n e se f f i c i e n c y i ti sar e m a r k a b l ep r o b l e mt h a tt h ea m o u n to fr e s u l t sr e t u m e db ys e a r c h e n g i n e si se n o r f f l o u sa n de n g i n e sc a nn o tp r o v i d et ou s e r sw i t hr e q u i r e dr e s d t s b a s e do nt h e i ri n t e r e s t s b yr e s e a r c h i n go nt h ec l u s t e r i n gt e c h n o l o g yo fw e b p a g e ,w i t hc o n c e p te x t r a c t i o na sg o a l ,ar e a l - t i m ec l u s t e r i n ga l g o r i t h mw a s b r o u g h tf o r w a r d d i f f e r e n tf r o mt h et r a d i t i o n a lc l u s t e r i n gs t r a t e g y , i tc a nn o t o n l yc l a s s i f yt h er e s u l td o c u m e n ts e t sb u ta l s og i v ei t s t o p i cd e s c r i p t i o n e f f e c t i v e l yw i t ht h ea d v a n t a g e so fl o w e rc o m p l e x i t ya n dh i g h e rf l e x i b i l i t y t h r o u g ha n a l y z i n gr e s e ti n t e g r a t i o na l g o d t h m s ,w ep r o p o s e dak i n do f m a p p i n ga l g o r i t h mf r o mu s e r sb r o w s i n gb e h a v i o rt ou s e r si n t e r e s t sa n d i m p r o v e dt o p i c - s e n s i t i v ep a g er a n ka l g o r i t h mc o m b i n i n gw i t hu s e r si n t e r e s t s i tr e a l i z e st h ep e r s o n a l c o m p o s i t o ro fs e a r c hr e s u l t sa n df i g u r e so u tt h e i 钉 p r o b l e mt h a tt h ea m o u n to f r e s u l t sr e t u r n e db y s e a r c he n g i n e si st o ol a r g ea n d u s u a l l yu s e r sd o n th a v ee n o u g hp a t i e n c et ol o o kt h r o u g ha l lt h er e s u l t s a sa r e s u l t , t h i sa l g o r i t h mi m p r o v e st h eq u e r yq u a l i t ya n de f f i c i e n c yo b v i o u s l y a t l a s t ,b a s e do nt h er e s e a r c ho fa g e n ta n dm u l t i - a g e n tt e c h n o l o g y , t h i sp a p e r d e s i g n e dat e s t i n gs y s t e mf o rm e t a - s e a r c he n g i n eb a s e do nm u l t i - a g e n ta n d p r o p o s e d a m u l t i a g e n ts y s t e m f r a m e w o r kb a s e do nj a d ew h i c h a c c o m p l i s h e dt h ep a r a l l d , d i s t r i b u t i o n a lp r o c e s s i n go fi n f o r m a t i o nc o l l e c t i o n p r o c e s s i ti st h es y s t e mn o tt h eu 5 e 1 苫t h a td r a w sc o m p a r i s o n sa m o n gt h e s e a r c hr e s u l t s 1 9 1 l o v e $ r e d u n d a a c yw e bp a g e sa n dr e t u r n st ou s o r sw i t hw e b p a g e si ng o o do r d e r c o n t r a s t e dt ot r a d i t i o n a lo b j e c t - e r i e n t e ds y s t e m ,i th a s q u i c k e rr e s p o n s es p e e da n dl o w e rc o u p l i n g k e y w o r d s :m e t as e a r c he n g i n e ,a g e n t , r e s u l to p t i m i z a t i o n ,s u b j e c t c l a s s i f i c a t i o n , u s e r si n t e r e s t 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中 国石油大学或其它教育机构的学位或证书而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示 了谢意。 。 签名:至焦 ) 。0 7 年弘月e l 关于论文使用授权的说明 本人完全了解中国石油大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件及电子版,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手 段保存论文。 ( 保密论文在解密后应遵守此规定) 学生签名: 导师签名: 王组 j 7 年乒月 日 伽7 年孕月f 日 中国石油大学( 华东) 硕士论文第1 章前言 第1 章前言 1 1 课题的研究背景及意义 随着i n t e m e t 的发展和普及,越来越多的用户利用搜索引擎来搜索网 上信息。然而在信息极大丰富的同时,用户也面临着信息过载和资源迷向 的问题【1 1 。如何在浩瀚如海的信息空间里,快速查找并获取所需的信息己 成为信息时代最根本的问题之一。 尽管搜索引擎的发展已较成熟,但人们在使用中却发现要准确、快速 地查找自己所需的信息是越来越困难。传统的独立搜索引擎存在着信息资 源覆盖率低、检索效率较低等问题【刎,人们经常无法在一个搜索引擎上 找到自己想要的信息,而需要不停地在多个搜索引擎之间切换,在多个检 索结果列表之间挑选对自己有用的内容。另外网络用户对搜索引擎不满意 的地方还集中在搜索速度慢、无效链接太多,重复或不相关信息较多,搜 索结果不具有个性化、不能因人而异等方面。出于以上原因,一种能集成 不同搜索引擎返回结果的检索工具元搜索引擎出现了【5 。6 1 。 元搜索引擎 7 1 ( m e t as e a r c he n g i n e ,简称m s e ) 是一种调用其它独 立搜索引擎的引擎,亦称“搜索引擎之母”。它在检索信息时通过调用其 它多个独立搜索引擎来完成检索功能,并能够将多个搜索引擎查询的结果 信息进行融合、再加工后向用户二次陈列,以强化检索效果、提高检索质 量。其最大的特点是不需要设立自己独立的索引数据库,可把更多资源投 入统一检索界面的建设【3 1 。元搜索引擎集中了许多独立搜索引擎的优势, 简化了用户访问多个搜索引擎的工作量,是一种新颖且具有开发前景的搜 索引擎。 现在已经出现了一大批元搜索引擎,其中英文元搜索引擎较多,发展 较好,而中文元搜索引擎发展缓慢。目前运营的元搜索引擎各具特色,功 能各有侧重,完全“理想”的尚不多见 9 1 。另外很多主流的搜索引擎提 供的服务没有考虑每个个体用户的需求,没有考虑用户的差异。同时,由 于不同的搜索引擎在搜集信息的数量、收集信息的范围、采用的索引方法、 使用的相似度评价等方面差异巨大,再加上元搜索引擎的设计者不能获取 中国石油大学( 华东) 硕士论文第1 章前言 这些搜索引擎的很多技术细节,故元搜索对不同搜索引擎返回的大量结果 不能很好地进行排序。本文旨在研究现有元搜索引擎存在的局限性的基础 上,设计出一个结构更合理,功能更优越,同时能够融合更多相关领域技 术,体现个性查询的元搜索引擎结构模型。 1 2 国内外研究现状 实际的元搜索引擎系统使用的结果合成方法是各种各样的,目前典型 算法有三种: ( 1 ) 如果只有文档的原始顺序是已知的,则可以采用间隔排列合成 法:首先把每个独立搜索引擎检索结果中的第1 项交叉列出,然后再把各 个检索结果中的第2 项交叉列出,依此类推。 ( 2 ) 如果可以得到文档的原始相关性分值,那么当这些分值可以直接 比较时,则可以采用原始分值合成法:直接依据每个文档的原始相关性分 值决定其合成排列次序;如果文档的原始分值不能直接比较,则可以采用 规范分值合成法:通过对其进行标准化来得到规范的相关性分值,并以此 为根据确定文档的合成排列次序。 ( 3 ) 加权分值法:首先计算出各个检索结果相应于检索条件的重要 性,再以此为权乘上文档的相关性分值作为决定其合成排列次序的根据。 可见,确定文档与检索条件之间的相关性是优化检索结果的关键所 在。对于元搜索引擎检索结果合成问题,目前已有不少研究者从不同角度 提出了各自的解决方法和优化方案。通过阅读大量文献,总结得出以下3 个主要方面: ( 1 ) 相似度排序算法 对搜索结果进行相关度评价,重新给出相关度,按新的相关性排列查 询后提交给用户,通过这样的二次处理来提高查准率。 ( 2 ) 对检索结果集进行分类或聚类分柝 主要思想是通过将搜索引擎返回的结果进行分类组织,用户只需根据 自己感兴趣的内容来选择不同类别,直接查看此类剔下的信息,以提高用 2 中国石油大学( 华东) 硕士论文第1 章前言 户查询的效率,增强搜索引擎与用户的交互。 许多研究者对此做了相当多的努力。z a m i r 和e t z i o n i 对如何将搜索 引擎返回的结果进行聚类做了研究【l 。】,此文提出了一种后缀树算法( s u f f i x t r e ea l g o r i t h m ) ,它充分利用了共享单词之间的先后顺序这一信息来进行 聚类,缺点在于没有体现出类别之间的层次结构。y w a n g 在文献【1 l 】中 提出了根据网页之间的链接关系进行聚类的方法。此方法不仅更适合w e b 搜索结果的聚类,而且克服了标准k m e a n s 算法易被噪音干扰的缺点, 不足在于需要下载并分析实际的网页,在速度上无法满足在线的使用。文 献 1 2 d p ,h a n g c 和o s m a r 提出了一种基于语义类别进行分类的方法, 此方法不需要事先训练数据这一步骤,而是使用一个在线数据库作为类别 库来确定建立具有层次的类别,缺点在于预先定义好的类别很难做到实时 更新。 聚类方法的主要缺点在于所花的时间较多,影响其满足搜索引擎实时 性的要求;而分类方法的问题在于预定义的类别相对固定,很难做到实时 更新,导致最新信息的缺失和疏漏,影响其满足搜索引擎信息覆盖率的要 求。 ( 3 ) 个性化的排序方法 目前大多数的搜索引擎都没有考虑用户的偏好,不具备个性化服务功 能。随着互联网上信息的急剧增加,个性化搜索的研究和实现得到了人们 的广泛重视。个性化搜索的主要思想就是根据用户输入的检索词,再结合 用户兴趣来进行信息推荐,而不只是简单的基于检索词进行信息推荐,具 有更高的查准率。建立反映用户兴趣的用户特征文件是实现个性化推荐的 基础。 目前,已有多种建立用户特征文件的方法。文献 1 3 】提出的方法是: 根据用户检索历史建立一个用户特征文件,再根据开放目录建立一个通用 特征文件,然后基于这两个文件推理用户查询所属的适当分类,并且在这 个分类中加入用户输入的检索词,以此来提高检索效率。该方法只考虑了 分类,没有考虑到同一层分类之间可能具有的某种逻辑关系,比如同时隶 属于一个上层分类。文献 1 4 】的用户特征文件采用了一个词与词的关系 中国石油大学( 华东) 硕士论文第1 章前言 表,该表记录了词与词之间的同义率和同现率,并且对用户输入的检索词 做了扩展,即用“( 检索词v 同义词) 八一同出现的词”来进行检索。这 种方法的缺点:一是词汇量大,可行性不高:二是由于“逻辑与”运算, 使得检索范围缩小,用户有可能检索不到想要的信息。文献 1 5 】采用的方 法是给出用户输入检索词的近义词、同义词,供用户选择,以此来提高查 全率;在返回结果的时候,通过用户个性化信息表,过滤掉用户不感兴趣 的内容,从而提高检索精度。这种方法虽然提高了查准率,但没有从根本 上解决个性化推荐的问题。 许多关于信息过滤【1 6 _ 19 】和智能代理【2 0 】的文章也提到了建立显式或隐 式的用户特征文件,然后利用用户特征文件过滤检索结果。但这些文章没 有考虑到信息概念在逻辑上的层次关系。 综上所述,目前已有的国内外元搜索引擎采用的结果合成方法都还不 够完善,不能令人满意,需要增强对检索结果的后处理,如可以综合考虑 多种因素对结果进行排序;剔除死链接、重复网页和不相关网页,给用户 提供更高质量的检索结果;将检索结果自动聚类,方便用户浏览等。个性 化也是元搜索引擎发展的趋势。因此对元搜索引擎检索结果优化技术的研 究有一定的价值和意义。 1 3 课题研究的主要内容 主要研究内容如下: ( 1 ) 元搜索引擎技术:明确元搜索引擎的基本概念,了解元搜索引擎 的性能指标评价体系,讨论元搜索引擎的发展趋势。 ( 2 ) a g e n t 技术研究和w e b 挖掘技术:研究a g e n t 的组成、功能和基 本结构等,并在a g e n t 基础上对多a g e n t 协作系统的特点、分类和交互进 行研究。深入分析w e b 挖掘技术,明确其涵义,包括w e b 内容挖掘、w e b 结构挖掘和w e b 使用挖掘。 ( 3 ) 网页文本聚类技术研究:分析文档的表示方法,学习聚类知识, 在此基础上,提出了一种基于中频词的网页聚类算法,以此对检索结果集 进行分类。 4 中国石油大学( 华东) 硕士论文 第1 章前言 ( 4 ) 查询结果合成算法研究:在分析现有的元搜索引擎检索结果合成 算法的基础上,针对其不能满足用户的个性化检索方面的不足,解析用户 浏览行为与兴趣间的关系,提出了一种基于用户兴趣的检索结果排序算 法,以提高检索效率为最终目标。 ( 5 ) 基于a g e n t 的元搜索引擎系统模型的设计与实现:设计并实现一 个基于a g e n t 的个性化元搜索引擎系统模型,并对检索性能进行测试,给 出效果评价。 1 4 论文的组织结构 论文共分6 个章节,主要内容组织如下: 第1 章分析了元搜索引擎检索结果优化技术的问题缘由,包括该课题 的研究背景及意义、国内外研究现状以及研究的主要内容。 第2 章对元搜索引擎相关技术进行了阐述,首先介绍了元搜索引擎的 相关概念,然后对a g e n t 技术和w e b 挖掘技术做了简单系统地论述。 第3 章对网页文本分类技术进行了研究,将网页分类与主题描述结合 起来,提出了一种基于中频词的网页聚类策略。 第4 章对元搜索引擎检索结果合成的关键技术进行了阐述。在对现有 的查询结果排列算法进行研究的基础上,通过深入分析用户浏览行为与兴 趣之间的关系,提出了一种从用户行为到用户兴趣的映射算法,并结合用 户兴趣对t s p r 算法进行改进,最终实现对元搜索引擎检索结果的优化捧 序。 第5 章给出了基于a g e n t 的元搜索引擎系统模型的设计方案,结合实 际情况实现了一个原型系统,并对实验结果进行测试和评价。 第6 章是对本文工作的总结和展望。 中国石油大学( 华东) 硕士论文第2 章元搜索引擎相关技术 第2 章元搜索引擎相关技术 2 1 元搜索引擎概述 2 1 1 元搜索引擎的基本概念 元搜索引擎【2 1 l 将现有的多个搜索引擎看成一个整体,为用户提供一 个统一的查询界面,用户的查询请求由元搜索引擎根据知识库中的信息, 转换为多个搜索引擎所能识别的格式,然后分别发送给调用的各独立搜索 引擎,由这些搜索引擎完成实际的信息检索,最后元搜索引擎再把各搜索 引擎返回的结果收集起来,进行比较分析,剔除冗余信息,以一定的格式 返回给用户。元搜索引擎调用的各独立搜索引擎被称为“目标搜索引擎”、 “成员搜索引擎”或“源搜索引擎”,它们各自保持其原来的局部数据模 式和检索指令。元搜索引擎给出一个全局外部模式,用以接受用户检索输 入和结果输出。 元搜索引擎有多种分类方式【2 2 】,按功能划分包括集成搜索引擎和多 线索式搜索引擎;按运行方式的差异可分为桌面型元搜索引擎和基于w e b 的元搜索引擎;按照工作方式可分为并行处理式和串行处理式两类。 与独立搜索引擎相比,元搜索引擎不需要维护庞大的索引数据库,也 不需要网络蜘蛛去采集网页。具体说来,元搜索引擎主要由三部分组成 2 3 1 : 请求提交代理、检索接口代理和结果显示代理。如图2 1 所示。 图2 1 元搜索引擎的体系结构 中国石油大学( 华东) 硕士论文第2 章元搜索引擎相关技术 请求提交代理负责实现用户“个性化”的检索设置要求,包括调用哪 些搜索引擎、检索时间限制、结果数量限制等。检索接口代理负责将用户 的检索请求“翻译”成能满足不同搜索引擎“本地化”要求的格式。由于 不同的搜索引擎所支持的查询方式不同,即便是同一种方式。也有不同的 表达方法,所以必须将元搜索引擎中的查询请求映射到对应的搜索引擎 中,而且要保证语义信息不丢失。结果显示代理负责所有成员搜索引擎检 索结果的去重、合并、输出处理等。 2 1 2 元搜索引擎的评价指标 作为一种搜索引擎,元搜索引擎也具有搜索引擎的一些基本指标,如 查全率、查准率、召回率、响应速度、响应时间,用户负担等【2 4 1 但是 元搜索引擎之间个体差异很大,很难进行精确的评价1 2 5 。元搜索引擎的 评价主要依靠下面几个指标: ( 1 ) 独立搜索引擎的调度策略:有些元搜索引擎固定地调用几个独立 搜索引擎,用户不能修改。有些元搜索引擎在高级特性中让用户选择调用 哪些搜索引擎。这两种策略都有不足之处,前一种将跟不上搜索引擎的发 展潮流。后一种,对于不熟悉搜索引擎的用户来说可能选择不到适合自己 需要的搜索引擎。实现独立搜索引擎的自动调度必会大大提高系统的查准 率。 ( 2 ) 是否提供足够的检索选项:包括是否提供高级检索服务,是否可 以限定最长检索时间,是否可以设置每个搜索引擎返回的结果数量是否 可以设置每页显示的结果数目等。检索选项越多,用户使用的时候就越灵 活。这也是衡量元搜索引擎性能的一个标准。但是由于元搜索引擎的检索 特性向它所调用的独立搜索引擎检索特性的转换所具有的复杂性,许多元 搜索引擎不提供复杂的检索特性。 ( 3 ) 对搜索结果的处理能力:对独立搜索引擎返回结果的处理能力是 评价元搜索引擎性能的又一重要指标【2 6 】。它包括结果的处理和显示。 ( 4 ) 相关度评价:每个搜索引擎开发商为了将最满意的结果放到最前 面,不遗余力地创建出各种相关度指标体系,虽然没有一种方法是完美的, 但都有戗新和独到之处。 7 中国石油大学( 华东) 硕士论文第2 章元搜索引擎相关技术 2 1 3 国内外相关研究工作 利用o o o g l e 、百度和雅虎等搜索引擎搜索元搜索引擎,并通过一些著 名的引擎指南网站所提供的线索来确定有代表性的国内外元搜索引擎,然 后对检索出的元搜索引擎进行简单的测试,从中选出2 个中文元搜索引擎 和4 个英文元搜索引擎 2 7 - 3 2 1 ,如表2 1 所示: 表2 1 国内外元搜索引擎的性能比较 测试项万纬搜星 d o g p i l e m e t a c r a w l e rm a m m as e a r c h c o r n 主页设置较好一般好好好好 搜索范围 8 个 未显示 6 个7 个1 4 个5 个 可选不可选不可选可选可选 响应时间可选 不可选 不可选不可选可选不可选 分类搜索无有无无无有 高级检索有无有有有无 短语检索无无有有有有 布尔检索 a n d 、 空格 a n d 、a n d 、o r 、a n d 、a n d 、o r 、 o ro r 、n o tn o t 、a n do r 、 n o ,r n o tn o t 限制检索无无有有 无无 二次检索 无无无无无有 相关检索无无 无无有有 结果选择可选可选可选可选可选 可选 结果排序相关度无相关度相关度相关度相关度 方式 链接情况般一般一般一般一般一般 检索结果 有 有无无无有 有无重复 由此看来,目前运营的元搜索引擎各具特色,功能各有侧重,完全“理 想”的尚不多见。在出现的一大批元搜索引擎中,以英文元搜索引擎较多, 发展较好,而中文元搜索引擎的发展还比较缓慢,目前较著名的有万纬搜 8 中国石油大学( 华东) 硕士论文第2 章元搜索引擎相关技术 索引擎1 2 q 。 搜索前的预处理和对搜索返回结果的集成是元搜索引擎的核心。个性 化、智能化和专业化将是未来元搜索引擎的发展方向圆。在未来的互联网 信息检索领域,元搜索引擎会有更广阔的应用前景,尤其是大多数中文元 搜索引擎还处于起步阶段,发展余地很大。相信在不久的将来会有更多、 更强的中文元搜索引擎出现。 2 2a g e n t 技术 2 2 1a g e n t 的基本概念 ( 1 ) a g e n t 的概念 a g e n t 技术是近年来研究的一个热点,它是从人工智能的一个分支 d a i ( d i s t r i b u t e da r t i f i c i a li n t e l l i g e n c e ) 发展起来的,从2 0 世纪8 0 年代 才开始研究,直到2 0 世纪9 0 年代中才得到广泛的认同目前对a g e n t 和多a g e n t 系统的研究主要集中在以下方面【3 3 】;a g e n t 和多a g e n t 理论、 a g e n t 的体系结构和组织、a g e n t 语言、a g e n t 之间的协作和协调、通信 和交互技术、移动a g e n t 、多a g e n t 学习以及多a g e n t 系统应用等。 a g e n t 一词一直被翻译成。代理”,也有人把它翻译为“智能代理”, 广义上它是指具有智能的任何实体,包括人类、智能硬件( 如机器人) 和 智能软件。f i p a ( f o u n d a t i o nf o ri n t e l l i g e n tp h y s i c a la g e n t ) 是致力于a g e n t 标准化的组织,a g e n t 被该组织定义为 3 4 1 :“驻留于环境中的实体,它可 以解释从环境中获得,反映环境中所发生事件的数据,并且执行对环境产 生影响的行为”。a g e n t 也能为用户执行特定的任务、具有一定程度的智 能,以允许自主执行部分任务。 a g e n t 与对象既有相同之处,又有很大的不同。a g e n t 和对象一样具 有标志、状态、行为和接口。但a g e n t 和对象相比主要有以下差异: a g e n t 具有智能,通常拥有自己的知识库和推理机,而对象则一 般不具备智能性。 a g e n t 能够自主地决定是否对来自其它a g e n t 的信息做出响应, 而对象却必须按照外界的要求行动。也就是说a g e n t 系统能封装行为,而 9 中国石油大学( 华东) 硕士论文第2 章元搜索引擎相关技术 对象只能封装状态,不能封装行为,对象的行为取决于外部的方法调用。 a g e n t 之间的通信通常采用支持知识传递的通信语言。 a g e n t 可以被看作是一类特殊的对象,即具有心智状态和智能的对 象。a g e n t 本身可以通过对象技术构造,而且目前大多数a g e n t 都采用了 对象技术。 图2 - 2 给出了a g e n t 与环境交互的典型行为图【3 5 】。a g e n t 为了影响环 境而产生动作输出。a g e n t 接收从环境中感知的输入,并产生输出动作作 用于环境。这种交互通常是一个连续不断的过程。在复杂适度的环境中, a g e n t 不能完全控制自己的环境,最多只能部分地控制,即对环境产生影 响。 图2 - 2 a g e n t 行为图 ( 2 ) a g e n t 的特性 尽管目前人们对a g e n t 还没有非常确切的概念定义,但是业界普遍认 为,a g e n t 一般应具备以下属性: a ) 自治性:a g e n t 能在没有人类或其它a g e n t 直接干涉和指导的情况 下独立运行,并能独立地根据其内部状态和感知的环境信息决定和控制内 部状态和自身的行为。 b ) 反应性:a g e n t 能够通过各种接1 :3 和通信机制感知外部环境的变化 并及时产生复杂和适当的反应。 c ) 社会性:a g e n t 拥有其它实体( a g e n t 、人、对象以及它们构成的 l o 中国石油大学( 华东) 硕士论文第2 章元搜索引擎相关技术 环境) 的信息和知识,并能够通过某种通信语言与这些实体进行交互和协 作。 d ) 主动性:a g e n t 能够根据承诺采取主动行为,表现出目标驱动的特 性。 e ) 适应性:a g e n t 是具有学习功能的智能体。 f ) 理性:a g e n t 没有冲突的目标,其动作和行为总是基于内部已有的 目标,而且行为有助于目标的实现,而不会故意阻止其目标的实现。 g ) 友好性:a g e n t 总是能尽可能地完成其它a g e n t 的要求。 h ) 交互性:a g e n t 能够和环境以及其它a g e n t 进行通信。通过交互可 以报告自己的状态和感知环境的变化。交互是a g e n t 最重要的属性之一。 i ) 移动性:a g e n t 能够将自己从一个环境移动到另一个环境,并在新 环境下正常运行。 j ) 智能性:a g e n t 的状态由信念、目标、规划和意图等心智状态构成, 并通过符号语言与其它a g e n t 进行交互。 k ) 代理性:a g e n t 可以代表某人或某实体为其获得利益或代其行使职 权。 d 不可预测性:a g e n t 的行为具有某种不确定性。即使知道a g e n t 的 内部状态也不能完全预测a g e n t 的行为方式。 m 1 协作性:a g e m 可以为达到相同目标而协同工作。 n ) 可信性:a g e n t 遵从a g e n t 社会的法则,从这个角度上看a g e n t 是 可信赖的, o ) 协调性:一个a g e n t 可以在与其它a g e n t 共享的环境下工作,其 行为可以通过规划、工作流和其它管理机制进行协调。 p ) 健壮性:a g e n t 能够处理一些错误和不完整数据。 q ) 持续性:a g e n t 是一个持续运行的实体,它可以有持续性的目标, 也可以不断产生新的目标。 对于一个具体的a g e n t 系统而言,并不一定具有上述所有特点。研究 人员通常将只具有属性州) 的a g e n t 视为弱a g e n t 。而人工智能领域的研 究人员对强a g e n t 概念更感兴趣。他们认为强a g e n t 应具有更多的人类特 中国石油大学( 华东) 硕士论文第2 章元搜索引擎相关技术 征,如知识、信念、期望和意图等心智状态特征,甚至具有感情特征1 3 6 j 。 ( 3 ) a g e n t 的结构 一般认为一个可以在软件环境中进行智能活动的a g m ,由四大要素 组成,即行为( b e h a v i 0 0 、资源( r e s o u r c e ) 、意念( i n t e n t i o n ) 和愿望( d e s i r e ) , 分别描述了a g e n t 的活动特性、信息特性、决策特性和动机特性。一个 a g e n t 的行为包括感知行为、效应行为、通讯行为和认知( 推理) 行为;资 源包括信念( 即a g e n t 关于自身、环境和其它a g e n t 的模型) 和知识( 专业知 识、专业规划、通讯协议知识等) ;意念是a g e n t 受到外部条件触发或内 部愿望的驱使所进行规划动作的执行过程;愿望是a g e n t 所承担角色的目 标和职责,集中反映了a g e n t 的行为动机。根据以上描述可以给出a g e n t 的基本结构图如2 - 3 所示。 图2 3 代理的基本结构 2 2 2 _ u i t i - a g e n t 系统 ( 1 ) m a s 的概念 多a g e n t 协作系统( m u l t i - a g e n ts y s t e m ,简称m a s ) 是由多个a g e n t 组成的系统,其形成一个计算机网络环境下完成特定任务的a g e n t 群,其 中每个a g e n t 通过通讯接口与其它a g e n t 进行交互。系统内的各个a g e n t 不一定都运行在同一个计算机上,可能是异构计算机环境。m a s 具有以 下优势: 中国石油大学( 华东) 硕士论文第2 章元搜索引擎相关技术 通过a g e n t 之间的交互通讯,可以开发新的任务问题求解方法来 解决不完全的、不确定的知识。 通过a g e n t 之间的相互合作,m a s 系统不仅改善了每个a g e n t 的基本能力,而且可以从a g e n t 之间的交互中进一步理解社会活动。 可以用模块化风格来组织系统。根据a g e n t 描述可知,a g e n t 具 有类似于人的特征,因此采用模拟人类社会的组织结构来构造多a g e n t 系统的体系结构将会带来诸多好处。首先人类在社会生产活动中存在着许 多有效的组织形式,把这些组织形式映射到m a s 的设计上可获得多种不 同特点的m a s ;其次人们对人类社会的组织形式有一种很强的理解力, 因此采用这种方式构造的m a s 更易为软件开发设计人员理解和接受;另 外人类社会活动中存在着许多智能活动,把这些智能活动引入到m a s 中 可明显提高m a s 系统的问题处理能力。 ( 2 ) m a s 的结构 m u l t i - a g e n t 系统为了更好的进行合作,必须具有良好的体系结构。 m u l t i a g e n t 系统的基本结构可分为以下三种口7 ) : 上下级结构 上下级结构的多a g e n t 系统是根据标准的任务分层而构建的,下级从 上级那里得到命令、要求和数据,经过计算处理后,再将计算结果反馈回 上级。这种结构的特点是任务分层清晰,a g e n t 之间信息流动的控制较为 容易,缺点是大大加重了高层节点的工作量,同时造成系统对高层节点的 失误很敏感。结构如图2 - 4 所示: 对等结构 图2 4m u l t i a g e n t 的上下级结构图 中国石油大学( 华东) 硕士论文 第2 章元搜索引擎相关技术 在多a g e n t 系统中,各个a g e n t 之间需要较多的直接交互,不需要管 理者时,对等结构就表现出了它的优越性。如图2 5 所示,与上下级结构 不同的是各个a g e n t 在整个系统中的地位是相等的,不依赖于某个上级下 达指令,并建立了与相关a g e n t 的直接联系。这样以来,就大大加快了信 息流动的效率。同时,由于消除了高层节点间的依赖,从而提高了系统的 健壮性。这种系统带来的问题是信息的流动显著增加,信息控制变得更为 复杂。 图2 - 5m u l t i - a g e n t 的对等结构图 分层结构 分层结构综合了上述两种结构的特点,既包含了上下级间的控制关 系,又可以建立相关a g e n t 之间的直接联系,提高了信息交流的灵活性。 结构如图2 - 6 所示: 图2 - 6m u l t i - a g e n t 的分层结构图 ( 3 ) 多a g e n t 的交互 从a g e n t 的定义中可以看出,a g e n t 对外界( 包括软件环境和其它环 境) 消息的获取可分为两种方式:一种是通过感知器去感知外界的变化; 另一种是通过通讯器的相互交流来获取外界消息。多a g e n t 的交互就是基 1 4 中国石油大学( 华东) 硕士论文第2 章元搜索引擎相关技术 于这两种方式的交互。 基于前一种方式的交互被称为黑板式交互。这里的黑板可以是共享的 数据库、数据文件、内存数据结构、w 曲页面等,黑板从内容上可以划 分成几个分区,每个分区存放不同的内容信息;从存取方式上可分为专写 专读( 一个a g e n t 往上写,另一个a g e n t 读) 、专写多读( 一个a g e n t 往上写, 多个a g e n t 读) 、多写专读( 多个a g e n t 往上写,一个a g e n t 读) 和多写多读 ( 多个a g e n t 往上写,多个a g e n t 读) 方式,还可以对多个a g e n t 进行某种 限制,如某一类型的a g e n t 可以读或某一类型的a g e n t 可以写。黑板式交 互是一种异步的交互方式。 基于后一种方式的交互被称为通讯原语式交互。通讯原语式交互是一 种同步交互方式,通过信道进行直接传输。其传输可以是一对一和一对多 方式,与黑板式交互一样,在一对多的传输方式中,多个a g e n t 可以根据 具体需要进行分类。 多a g e n t 之间的交互是构造m a s 系统的前提。几个a g e n t 在一起永 远是几个独立的个体a g e n t ,只有依靠交互手段实现a g e n t 间的协调合作 才能构成一个完整的系统。本课题采用人工智能中的a g e n t 技术,在m a s 的基础上,设计开发了一个基于多a g e n t 协作的个性化元搜索引擎原型系 统。 2 2 3a g e r r t 技术的应用 智能a g e n t 具有的自治、学习及合作性等特点,为实现w e b 信息检 索智能化提供了有力支持 3 s 】。可以在w e b 上建立各种代替人类完成相应 服务的智能a g e n t ,由它们相互配合,协助用户完整、准确、有效地获取 信息。 a g e n t 技术,个性化搜索引擎和智能信息检索是当今国际、国内的研 究热点问题。如何从庞杂的因特网中抽取相关信息一直是摆在各国科学家 面前的一道难题,同时也是在计算机科学研究领域取得较快进展和广泛应 用的一个分支。在这个领域产生了各种研究方法和实现手段,将a g e n t 和个性化技术应用于搜索引擎是一种比较先进的方法 3 9 1 ,采用a g e n t 实 现自主的行为和个性化的载体,完成系统中各个相对独立的功能模块。对 中国石油大学( 华东) 硕士论文 第2 章元搜索引擎相关技术 于信息检索,较流行的是采用b a go f w o r d s ,即在不考虑词序的情况下进 行非语法的分析,运用与人工智能相结合的统计学和机器学习的方法对文 本信息进行结构化处理,使其能够接受标准化查询。实现时大量采用向量 空问模型( v e c t o rs p a c em o d e l ) 处理大规模的文档,使用a g e n t 技术代理用 户检索请求,采用跨平台的语言( 如j a v a ) 和便于与用户交互的方式( 如 b r o w s e r 方式) ,融合用户的行为模式,以提高检索的精度和广度。国内在 如何利用a g e n t 实现智能化方面也进行了许多探讨并做了大量的实践工 作。在信息检索领域,文档的自动聚类和理解也是一个研究重点。另外由 于中文和西文在编码和表达方式上有很大不同,因此国内在中文检索的处 理上也投入了大量精力。 2 3w e b 挖掘技术 ( 1 ) w e b 挖掘的概念 当前搜索引擎所使用的两种技术都难以解决找信息难的问题,造成这 种困难的实质在于搜索引擎缺乏知识处理能力和理解能力,对要检索的信 息仅仅采用机械的关键词匹配来实现。把信息检索从目前的基于关键词层 面提高到基于知识( 或概念) 层面,是解决问题的根本和关键。为了解决 w e b 信息检索中存在的各种问题,e t z i o n i 提出了w e b 挖掘( w e bm i n i n g ) 的概念【钟】:“在已知数据样本的基础上,通过归纳学习、机器学习、统计 分析等方法得到数据对象间的内在特性,据此采用信息过滤技术在网络中 提取用户感兴趣的信息或者更高层次的知识和规律,简单的说,就是利用 数据挖掘技术从w e b 文档和w e b 活动中发现、抽取人们感兴趣的、潜在 的有用模式和隐藏的信息。”w e b 挖掘的研究对象是以半结构化和无结构 文档为中心的w e b ,这些数据没有统一的模式,数据的内容和表示相互 交织,数据内容基本上没有语义信息描述,仅仅依靠h t m l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论