




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)基于移动agent的个性化信息检索技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 基于移动a g e n t 的个性化 信息检索技术研究 学科名称:让簋扭座旦拄水 研究生姓名:塑重羞 导师姓名:奎量逦 职称: 夔堡 摘要 答辩日期: 签名: 签名: 论文首先介绍了移动a g e n t 和信息捡索的概念、相关技术以及国内外发展现状与 趋势,并描述了利用移动a g e n t 和用户反馈信息进行信息检索的m a b i r s 系统。 本文阐述了系统的体系结构,说明了索引数据库、用户兴趣树、用户兴趣库、用 户兴趣模型、分类器、m a 管理器、各种移动a g e m 等组件的基本功能。并且详细介 绍了该系统的实现原理、系统构桨以及用户兴趣库、索引数据库、用户兴趣模型、 用户兴趣树等功能模块的联系。并结合模块的功能实现流程图,阐述了整个系统 的设计过程。 在本文中,设计了基于巡查模式的三层安全模型、三阶段网页分类评价原则及基 于用户兴趣的相关度调整算法,利用与用户反馈相关的各种参数对用户兴趣模型中 的相关度进行调整,并对网页与类别的相关度进行评价。通过相关的实验,证明了 方法的有效性,为建立高效的个性仡信息检索系统打下了基础。 关键词:信息检索,反馈,移动a g e n t ,用户兴趣,个性化 a b s t r a c t r e s e a r c ho nm o b i l ea g e n tb a s e dp e r s o n a l i z e d i n f 0 鼬i a t l 0 np e t r i e v a l t u t o r : a u t h o r : l i c h a n g h e h e x u e f a n g a b s t r a c t s i g n a t u r e s i g n a t u r e t h et h e s i sr e c o m m e n d st h ec o n c e p t s 、r e l e v a n tt e c h n o l o g yo fm o b i l ea g e n t a n di n f o r m a t i o nr e t r i e v a l ,a n dt r e n d sb o t ha th o m ea n da b r o a da tf i r s t , d e s c r i b e st h em a b i r si n f o r m a t i o nr e t r i e v a ls y s t e mt h a tu s et h em o b i l ea g e n t a n df e e d b a c kt e c h n i q u e t h ep a p e re x p a t i a t et h er e t r i e v a lf r a m e w o r k ,e x p l a i nt h eb a s i cf u n c t i o n o fi n d e xd a t a b a s e 、u s e ri n t e r e s tt r e e 、u s e ri n t e r e s td a t e b a s e 、u s e ri n t e r e s t m o d u l e 、c l a s s i f i c a t i o n 、m o b i l ea g e n tm a n a g e ra n de v e r yk i n d so f m o b i l ea g e n t a n di n t r o d u c et h es y s t e m sr e a l i z et h e o r y 、s y s t e mf r a m e w o r ka n dt h er e l a t i o n o fu s e ri n t e r e s td a t e b a s e 、i n d e xd a t a b a s e 、u s e ri n t e r e s tm o d u l ea n du s e r i n t e r e s tt r e e ,a n dc o m b i n ew i t ht h em o d u l e sf u n c t i o nf l o wc h a r ts t a t et h e s y s t e m sd e s i g np r o c e s s i nt h ep a p e r ,w ed e s i g nat h r e el a y e r ss e c u r i t ym o d u l eb a s e do n i n s p e c t i o nm o d u l e 、t h r e en e tc l a s s i f i c a t i o np r i n c i p l ea n dc o r r e l a t i o n a d j u s ta r i t h m e t i cb a s e do nu s e r si n t e r e s t w ea d j u s tc o r r e l a t i o ni nt h e u s e r si n t e r e s tm o d u l eu s ea 1 1k i n d so fp a r a m e t e rc o r r e l a t i v ew i t hu s e r s f e e d b a c k a n da p p r a i s ec o r r e l a t i o nb e t w e e nn e ta n ds o r t v i ac o r r e l a t i v e e x p e r i m e n t ,p r o v et h em e t h o di sv a li d i t y ,a n de s t a b l i s ht h eb a s ef o rs e t u pe f f e c t i v ep e r s o n a l i z e di n f o r m a t i o nr e t r i e v a ls y s t e m k e yw o r d s :i n f o r m a t i o nr e t r i e v a l ,f e e d b a c k ,m o b i l ea g e n t ,u s e r si n t e r e s t , p e r s o n a l i z a t i o n i i 独创性申明 秉承祖国优良道德传统和学校的严谨学风郑重申明:本人所呈交的学 位论文是我个人在导师指导下进行的研究工作及取得的成果。尽我所知, 除特别加以标注和致谢的地方外,论文中不包含其他人的研究成果。与我 一同工作的同志对本文所论述的工作的任何贡献均已在论文中作了明确的 说明并已致谢。 本论文及其相关资料若有不实之处,由本人承担一切相关责任 论文作者签名:辱咝矽好 石月劢日 保护知识产权申明 本人完全了解西安理工大学有关保护知识产权的规定,即:研究生在 校攻读学位期问所取得的所有研究成果的知识产权属西安理工大学所有。 本人保证:发表或使用与本论文相关的成果时署名单位仍然为西安理工大 学,无论何时何地,未经学校许可,决不转移或扩散与之相关的任何技术 或成果。学校有权保留本人所提交论文的原件或复印件,允许论文被查阅 或借阅;学校可以公布本论文的全部或部分内容,可以采用影印、缩印或 其他手段复制保存本论文。 ( 加密学位论文解密之前后,以上申明同样适用) 论文作者签名:砸导师签名: 矽舞月易日 前言 1 前言 1 1 课题背景 近年来,随着i n t e r n e t 的飞速发展,呈现出了一种信息“过载” 的现象,现有的搜索引擎技术对于人们从大量的信息中找出自己感兴 趣的知识的要求显得力不从心。主要缺陷是信息引导能力差,一般不 具备学习功能,不能准确的把握用户的兴趣,信息检索的精确度不高, 对结果不能进行动态的调整,人们迫切需要一种工具以提高信息检索 的精度,增强信息检索的效果。 基于用户兴趣的个性化信息服务成为现阶段一个热点研究的问 题。个性化信息检索系统的研究主要包括网页的精确分类、用户兴趣 的准确定位等,由于种种原因,到目前为止,这些问题还没有得到很 好的解决。 随着研究的深入,目前也出现了一些新的技术和方法,如a n d r e w a r n t 、s h l o m oz i l b e r s t e i n 、j a m e sa l l a n 和a d d e l i 1 1 l a hg o u a d d i b 。 将检索过程定义为不同的层次,在每一个层次上又定义了不同的操作, 在同一层次上,根据实际情况,机动的选择不同的动作,来增强检索 的效果。 智能信息检索作为人工智能( a i ) 的一个独立分支得到迅速发展” “,面向i n t e r n e t 的信息获取与精化技术已成为当代计算机科学与技 术领域中迫切需要研究的课题。同时,伴随着计算机智能化研究的不 断发展,具有适应性和学习特征的智能代理技术也正从试验阶段过渡 到实际应用阶段。目前,搜索引擎( s e a r c he n g i n e ) 与智能代理 ( i n t e l l i g e n ta g e n t ) 已经成为网络信息搜索的关键技术与核心思想。 本文系统的阐述了信息检索领域的研究现状、最新发展和信息检 索的基本原理,对信息检索的分类、发展方向及相关技术做了系统的 研究,并在此基础上设计了一个基于m a 的个性化信息检索模型m a b i r s 。 西安理i 大学硕士学位论文 1 2 课题研究的内容 m a b i r s 系统的目标是弥补当前搜索引擎的不足,针对用户兴趣把握 的不准确性,网页分类的不精确性,固态搜索结果的不适应性,利_ i ; j 移动a g e n t 技术的特点,及用户反馈信息在表达用户喜好的功能,对 不同的用户产生相应的移动a g e n t ,做为用户的代表,负责用户的搜索 过程,在用户的搜索过程中不断调整用户的兴趣趋向,并根据调整的 用户兴趣状况调整搜索结果,在网页分类的过程中,根据用户对类别 的兴趣度及对类别所属网页的兴趣度来调整网页和类别的连接权值, 并且系统内设置了系统a g e n t ,他通过对系统内公共模块的监测发现新 的和过时的知识,并对其进行更新,保持系统信息的高效性。 本课题要进行以下研究: 系统整体架构及各移动a g e n t 的功能设计及部分功能实现 通过对信息检索系统及移动a g e n t 系统的了解和学习,结合本 文所要达到的功能及摹本的实现机制,对系统整体架构进行分析和 设计,并对各功能模块及模块间的交互进行详细的设计和功能实 现。 基于用户评价的网页分类方法的研究 通过利用用户的反馈信息对网页分类进行调整,此1 作的目的 是找出适合对网页分类进行调整的方法。 网页和类别相关度调整方法的研究 在本系统中,拟要通过用户的反馈信息对网页和类别的相关度 进行调整,并找出适合调整的算法。 移动a g e n t 系统安全性的研究 移动a g e n t 系统安全性是移动a g e n t 系统应用的一个重要障 碍,恶意的a g e n t 可能会对用户的系统进行破坏,本文的目标之一 就是建立一种安全的移动a g e n t 模型。 就是建立一种安全的移动a g e n t 模型。 信息检索技术 2 信息检索技术 2 1 基本概念 信息检索【3 3 是指信息用户为处理解决各种问题而查找、识别、获取相 关的事实、数据、文献的活动及过程。通常指文本信息检索,包括信息 的存储、组织、表现、查询、获取等各个方面,其核心为文本信息的索 引和检索。 信息检索是用户寻找、定位感兴趣信息的主要途径i n t e r a c t 信息检 索服务的质量决定了用户使用i n t e r a c t 信息的效率。现有的i n t e r a c t 信息 检索系统一般包含5 个基本部分4 】:自动信息采集器r o b o t 、分析器、索 引器、检索器和用户接口。如图2 - 1 r o b o t 图2 - 1 信息检索系统结构 个性化信息检索的基本结构如图2 - 2 所示: 用户摸塑 图2 2 个性化信息检索基本结构 从图中可以看出,与传统信息检索系统相比,个性化信息检索系统增 加了学习更新用户模型、优化查询和优化结果三个模块。由于在检索的 同时考虑了用户的差异,个性化信息检索可以提供更高的检索质量。 西安理工失学硕士学位论丈 智能信息检索系统是一种智能化的计算机信息检索系统,它模拟人 类关于信息处理的思维过程和智能活动,实现信息知识的存储,检索和 推理,并向用户提供智能辅助。 2 2 信息检索相关技术 l 、搜索引擎技术“” 搜索引擎是通过采集、标引众多网络站点来提供全局性网络资源控 制与检索机制,将全球w w w 网络中所有的信息资源做- 完整的集合、整 理和分类,方便用户查找所需信息的网络检索软件。1 。 i n t e r n e t 搜索引擎包括三个部分:收集网页的机器人、分类和索引及 检索引擎,全文检索技术是搜索引擎的核心支撑技术。目前搜索引擎使 用的信息检索技术主要有:r o b o t 技术、索引技术、翻译技术、转换技术、 过滤技术、数据库技术、结果处理技术等。 搜索引擎比传统的信息检索更为复杂,表现在:信息是分布在w e b 空间的,要求系统对平台、网络等各种复杂环境的适应能力强:信息不 稳定,动态性强,因此要求系统的动态索引技术具有超级性能;信息是 海量的,要求检索引擎具有先进的查询算法,并且对相关排序要求很高: 由于搜索引擎的用户是普通用户,因此使用知识词典进行启发式检索就 显得特别重要:相关排序( r e l e v a n c er a n k i n g ) 和相关反馈( r e l e v a n c e f e e d b a c k ) 技术对i n t e m e t 搜索特别重要。相关反馈能够根据用户对检索引 擎的命中结果的判别执行更加符合用户意图的查询。 2 、信息抽取技术1 9 】 信息抽取系统的主要功能是从文本中抽取出特定的事实信息。它与 信息检索存在着差异: 功能不同。前者是从文本中直接获得用户感兴趣的事实信息。后者是 从大量的文档集合中找到与用户需求相关的文档列表。 处理技术不同。前者要借助自然语言处理技术,通过对文本中的句子 4 信息捡索技术 及篇章进行分析处理后才能完成,后者通常利用统计及关键词匹配等技 未。 适用领域不同。前者是领域相关的,后者是领域无关的。二者又互相 补充:前者以后者的输出为输入,后者又可以用来提高前者豹性能。 得益于消息理解系列会议( m u c ) 的召开,从2 0 世纪8 0 年代末开 始,信息抽取技术蓬勃发展。信息抽取中的关键技术包括:命名实体识 别、句法分析、篇章分析与推理,知识获取。目前,影响信息抽取技术 广泛应用的两个主要的因素是系统性能和系统可移植能力。目前,在研 究方面主要侧重于:利用机器学习技术增强系统的可移植能力、探索深 层理解技术、篇章分析技术、多语言文本处理能力、w e b 信息抽取以及 对时间信息的处理等。 3 、数据挖掘技术i ” 数据挖掘技术与检索技术的结合。数据挖掘技术也称数据库知识发 现技术,被广泛的应用于数据仓库、并行分布式数据库中,以发现数据 中隐含的规律和趋势,用来分析经验、解释原因、制定决策、指导改进 和预测趋势,使数据库具有知识库的属性。数据挖掘技术涉及许多学科 的技术,包括数据库技术、统计学、机器学习、模式识别技术以及信息 检索技术。 现在有一种新技术称为w e b 挖掘技术,它实现对w e b 存取模式、w e b 结构和规则,以及动态的w e b 内容的查找。假设要搜索某_ 给定话题的 w e b 页面,我们希望得到与之相关的w e b 页面外,还希望所检索到的页面 具有高质量,或是针对该话题具有权威性的页面。而权威性隐藏在w e b 页面链接中。超链接包含了大量人类潜在的注释,大量的w e b 链接信息 提供了丰富的关于w e b 内容相关性、质量和结构方面的信息,有助于自 动推断出权威性概念。w e b 挖掘技术最大的特点就是从大量数据中发现有 趣模式,因此发展面向互联网的知识挖掘技术,并将其与灵活使用的信 息检索技术无缝的结合起来,将会向人们提供一个全新的、方便的、内 西安理工大学硕士学位论文 容空前丰富的学习知识和问题的求解途径。 4 、p u s h p u l l 技术【5 ( 1 ) 下拉( p u l l ) 是由用户( 信息的使用者) 来控制信息的检索与获取,这 通常是通过某种浏览器来实现的。而推j 羞( p u s h ) 则考虑由其它方,如信息 的产生者或信息系统部门来控制信息的流通。 p u s h 技术的缺点: 不能确保发送。p u s h 技术采用的是广播机制,要求客户端的连通。 没有状态跟踪。p u s h 技术采用开环控制模式,没有客户反馈信息。 没有群组管理功能。p u s h 通过“广播”将信息毫无选择地送给用户。 ( 2 ) 超级推播( b e y o n dp u s h ) 技术: 它的最大特点是在于保证传送。超级推播技术的特征有: 智能代理和发送保证。如果信息不能及时传送到接收端,则采用存储 和转交的方式,将发送信息暂存在队列中,当收件人上朗时,再进行选 送直到传递成功。 发给特定的组和有计划地分发。这些群组可以是订阅者的频道,也可 以是由使用者不同的特性随机组合而成的群组。超级推播技术支持动态 和静态群组的设定。 状态跟踪。超级推播技术对信息传送过程每一个阶段状态都有记录。 ( 3 ) 信息推拉技术的新发展: 目前的推拉结合技术基本上解决了如何从因特网上快速准确地获取 信息的问题,其进一步发展则是朝向智能化( 这是网上信息获取技术当 前的主要发展方向) 。 利用知识发现技术,可以从推拉技术所获取的信息中进一步提取出更 为有意义、有价值的知识。发现隐藏在大量信息与数据中的内在规律。 5 、自然语言处理技术【6 】 自然语言处理长期以来一直是人工智能的一个核心研究领域。比 较基础的技术有自动分词、人名和枫构名的自动识别技术、自动标引技 信息捡索技术 术等,其它像信息抽取、自动文摘、文档自动分类、中文概念词的自动 发现以及概念词之间的语义关系的确定等复杂技术也都必不可少。应用 了这些技术的搜索引擎我们称之为智能搜索引擎。实现智能搜索的过程 主要分三部分:语义理解、知识管理和知识检索。对自然语言的理解是实 现搜索的准确描述、保证搜索相关性和相似性的最终的、根本的解决途 径,同时也是建立基于互联网的知识库的关键技术之一。 2 3 存在的不足之处 当前的网络信息检索系统存在的不足主要包括圈: 检索表达式问题。关键词检索不能完全满足用户的要求,不能对检索 表达式智能处理; 历史信息易丢失,记忆机制不全; 缺乏优秀的人机交互功能和系统的自适应能力; 数据库存储信息有限: 数据库中数据更新速度远远跟不上万维网中信息的更新速度; 搜索弓l 擎缺乏对网络上繁多的数据类型的综合处理能力; 检索算法缺乏智能性。 对以上闯题,许多科研人员都从不同角度,不同层次进行理论研究 和实际开发,他们的成果构筑了丰富的理论大厦,促进了网络信息检索 系统研究的不断优化。 2 4 信息检索研究现状和最新发展 对搜索引擎技术相关领域的学术研究得到了大学和科研机构的重 视。如s t a n f o r d 大学在其数字图书馆项目中开发了g o o g l e 搜索引擎, 著名的信息检索会议t r e c 也从1 9 9 8 年开始增加了w e bt r a c k 课题,以 考察w e b 文档与其它类型文档在检索性质上的不同之处,并将测试在大 规模的w e b 库上进行信息检索的算法性能。由美国i n f o r n o t i c s 公司主 7 西安理工大学硕士学位论文 办的搜索引擎国际会议对搜索引擎技术进行总结、讨论和展望,对搜索 引擎技术起到了很好的推动作用。国内先后有北京大学、清华大学、国 家智能研究中心等高校和研究单位对搜索引擎技术开展研究,并开发出 了几个较好的系统。如由北京大学计算机系网络研究室开发的“天网” 中英文搜索引擎“。 信息检索的研究主要包括【3 】:检索模型的研究;信息处理技术的研 究,如:自动分类、自动摘要、查询的扩展和精化以及检索相关性分析 等几个阶段;技术应用研究,热点之一是研究网络环境下z 3 9 5 0 这种开 放网络信息检索的标准协议在检索信息方面的应用。 一些研究者把改善检索效果的着重点从网络信息检索工具转向某种 “中间件“或“智能代理“,这种智能代理能帮助用户制定选择检索工 具、检索策略、进行检索操作、搜集并整理检索结果,充当用户和网络 信息检索工具的中介。 目前,检索功能已经从基本的布尔检索、截词检索、邻近检索、短语 检索、字段检索发展为高级的加权检索、自然语言检索、相关信息反馈 检索、模糊检索和概念检索。全文检索( f u l l t e x t r e t r i e v a l ) 在技术上日趋 成熟。但是要在整体上提高中文全文检索系统的水平和可用性,必须得 有所突破。个性化信息检索目前尚处于研究阶段,还没有成熟的系统问 世。 网络信息检索的发展主要以信息技术为前提。未来信息检索系统具 有以下的基本特征 ”1 : 网络信息存储的动态化 宽带数据获取技术的出现,使网上不同类型的数据之间的差别逐 步缩小并极易获取;各种网络设备特征、功能的综合将使原本意义上 的专门检索趋向大众化;网络信息存储由“静态”的网页封面转向“动 态”的数据库管理;网络检索服务功能正在融入更多的应用软件和操 作系统。 信息检索技术 人工智能与检索技术的高度融合 焦玉英、索传军、黄如花、张颖、贺亚锋、金芳等归纳了检索智 能化软件未来的功能:跟踪和监测个人用户乃至用户群需求特征和评 价;基于智能推、拉技术的网络主动检索与服务;能对网页上文献的 相关性集所含链接的质量作出判断的更出色的具有推理功能的爬虫 软件;基于专业虚拟图书馆、专题导航库功能的垂直结构式检索服务 方式;能识别与判断用户检索真实意图的多元化、多功能的搜索引擎; 对网上权威网页进行选择机制等。 检索结果相关度的可视化 在可视化环境中,允许信息空间移动:允许用户即时修改数据的 显示方式;可对相关信息进行聚类;可进行结果反馈等。检索结果的 可视化,可以模仿网络环境生成拓扑图,在图中将所有相关、相似文 献信息归为同类,以等高线来表达与其他信息内容在概念上的距离。 基于内容的检索技术的应用 基于内容的检索是根据媒体和媒体对象的内容及上下关系的检 索。其中,主要依据于图像处理与压缩技术模拟识别技术,计算机视 角、图像理解技术等的支撑。目前,计算机识别技术、高效的算法仍 是这一领域的难点。今后的发展目标是,研究能自动适应网络环境的、 拥有互动快速操作能力的多媒体信息处理技术。 个人化的检索工具和专业化的检索工具 通用的检索工具具有永远无法弥补的缺陷,因此,一些研究者 提出把改善检索效果的着重点从网络信息检索工具转向“智能代 理”。“智能代理”体现了用户个人的信息需求,实现网络信息的 定向化检索。专业化的信息检索工具可以为用户提供特定领域的信 息查询,有利于提高系统的查准率。 9 a g e n t 技术 3a g e n t 技术 3 1 a g e n t 技术简介。 智能软件a g e n t 是能为用户执行特定的任务1 1 1 、具有一定程度的智 能以允许自主执行部分任务并以一种合适的方式与环境交互的软件程 序。软件a g e n t 技术是为解决复杂、动态、分布式智能应用而提供的一种 新的计算手段。 智能软件a g e n t 的属性如图3 1 所示: 图3 1 智能a g e n t 属性图 a g e n t 具有以下特点1 2 1 : 自主性( a u t o n o m y ) 响应性( r e a c t i v i t y ) 主动性面向目标( p r o a c t i v i t y g o a lo r i e n t e d ) 推理学习自适应能力( 1 e a f i n g a d a p t a t i o n ) 可移动性( m o b i l i t y ) 角色( c h a r a c t e r ) 通信合作协调( c o m m u n i c a t i o n c o o p e r a t i o n c o o r d i n a t i o n ) 2 0 世纪9 0 年代由g e n e r a lm a g i c 公司在推出商业系统t e l e s c r i p t 时提出 了移动a g e n t 的概念,简单的说,a g e n t 是一个能在异构网络环境中自主地 从一台主机迁移到另一台主机,并可与其它a g e n t 或资源交互的软件实体。 移动a g e n t 除了具有一般智能a g e n t 的特性外,还具有移动性 1 2 1 。 由于移动a g e n t 可以在异构的软、硬件网络环境中自由移动,因此这 种新的计算模式能有效地降低分布式计算中的网络负载、提高通信效率、 动态适应变化的网络环境,并具有很好的安全性和容错能力【1 11 2 】。 西安理工大学硕士学位论文 移动a g e m 技术有着许多传统分布式计算模型无法比拟的优势1 11 2 】: 第一,移动a g e n t 能减轻网络上的数据流量。通过将服务请求a g e n t 移动 到目标主机,使得移动a g e n t 可以直接访问该主机上的资源。 第二,移动a g e n t 能以异步的方式自主运行。可以将要完成的任务封装到 移动a g e n t 中,并通过网络将其派遣出去,然后就可以断开源主机 与目标主机之间的连接。此后,移动a g e n t 就独立于生成它的进程, 并可异步自主操作了。 第三,移动a g e n t 具有较强的应变能力。移动a g e n t 能够感知其运行环境, 并对环境交化作出适当的反应,它可以根据服务器和网络的负载动 态决定移动目标,有利于负载均衡。 第四,移动a g e n t 有利于并行处理。移动a g e n t 在进行任务处理时可以动 态创建多个a g e n t 并行工作,提高效率并降低作业的响应时间。 第五,移动a g e n t 具有天然的异构性。移动a g e n t 通常独立于特定的软硬 件环境,仅仅依赖于其运行环境。 第六,移动a g e n t 具有很强的健壮性和容错能力。移动a g e n t 具有对非预 期状态和事件的应变能力。 移动a g e n t 系统由移动a g e n t 和移动a g e n t 服务设施( a g e n t 服务器) 两部分组成。移动a g e n t 服务设旌基于a g e n t 传输协议实现a g e n t 在主机 间的转移,并为其分配环境和服务接口。a g e n t 在服务设施中执行,通过 a g e n t 通信语言a c l 相互通信并访问服务设施提供的服务【l ”。移动a g e n t 的体系结构如图3 2 所示: a g e n t 技术 外部环境( 服务设施或其他a g e n t ) 图3 2 移动a g e n t 体系结构图 体系结构的最外层为安全代理,它是a g e n t 与外界环境通信的中介,执行 a g e n t 的安全策略。a g e n t 通过环境交互模块感知外部环境并作用于外部 环境。a g e n t 的任务求解模块包括a g e n t 的运行模块及a g e n t 任务相关的 推理方法和规则,知识库是a g e n t 所感知的世界和自身模型,并保存在移 动过程中获取的知识和任务求解结构。内部状态集是a g e n t 执行过程中的 当前状态,它影响a g e n t 的任务求解过程,同时a g e n t 的任务求解又作用 于内部状态。约束条件是a g e n t 创建者为保证a g e n t 的行为和性能而作出 的约束,如返回时间、站点停留时间及任务完成程度等,一般只有创建 者拥有对约束条件的修改权限。路由策略决定a g e n t 的移动路径,路由策 略可能是静态的服务设施列表,或者是基于规则的动态路由以满足复杂 和非确定性任务的求解。服务设施提供生命周期服务、事件服务、目录 服务、安全服务、应用服务1 2 1 。 3 2a g e n t 的应用开发及存在的问题 目前移动a g e n t 的应用主要有以下几个方面【1 2 1 3 1 4 】: 电子商务 个人助理 安全代理: 分布式信息检索; 西安理工大学硕士学位论文 电信网络服务; 工作流系统; 应用于智能信息检索的a g e n t 具有以下特性: 综合性( i n t e g r a t e d ) :a g e n t 必须支持一个易懂、相容的界面。 表达性( e x p r e s s i v e ) :a g e n t 必须理解接受不同形式的查询a 意图性( g o a l o r i e n t e d ) :必须知道什么时候如何来完成一个目标任务。 合作性( c o o p e r a t i v e ) :a g e n t 必须同用户进行合作。 用户化的( c u s t o m i z e d ) :a g e n t 能够适应不同的用户。正是由于智能 a g e n t s 的这些特性,许多组织和研究采用它来提高网上信息检索的能力。 移动a g e n t 已从理论探索阶段进入到实用阶段 “1 ,出现了一些移动a g e n t 系统的开发平台或执行环境,大致可以分为三类:一类是基于传统解释 性语言的,如g e n e r a lm a g i c 公司开发的t e l e s c r i p t ;一类是基于j a v a 语 言的,如i b m 公司的a g l e t ;另一类则基于c o r b a 平台的,如i k v + + 的 g r a s s h o p p e r 。 m a 的历史从2 0 世纪9 0 年代初才开始。m a 的应用中存在n f o q n t l l1 3 】: ( 1 ) 复杂性问题。m a 在本性上并不具备任何智能。他们所有的智能必 须由一个程序员来实现。这将产生高昂的开发成本和一些复杂的编程任务。 ( 2 ) 基础设施问题。能满足要求的基础设施只存在在一些特殊的场合。 ( 3 ) 安全性问题。 3 3a g e n t 的通信语言及开发平台 a c l ( a g e n tc o m m u n i c a t i o nl a n g u a g e ) 主要有两种1 2 1 :一种是标准的 通信语言k q m l ( k n o w l e d g eq u e r ya n dm a n i p u l a t i o nl a n g u a g e ) ,另一种是 基于语言行为理论( s p e e c ha c t b a s e ) 的特别通信语言,如i c l ( i n t e r - a g e n t c o m m u n i c a t i o nl a n g u a g e ) 。k q m l 语言可分为三层:通信层、信息层、内 容层。内容层是信息的主要内容,但k q m l 对此没有任何限制。一条 i 用户端:包括用户接口、用户行为监测m a 、用户反馈m a 、用户请求 m a 。 服务器端:包括过滤器、分类器、规则库、索引数据库、m a 管理器、 系统信息维护m a 、用户兴趣m a 、用户兴趣库、词库、用户关键词树。 代理端:包括用户兴趣模型。 系统主要功能图描述如图4 一l 所示 4 2m a b lr s 系统工作流程 作为一个系统,各个模块之间是相互联系,相互依赖,协同工作的。 具体系统实现流程如图4 2 所示。 用户首先与服务器建立连接,服务器端建立服务于用户的各种m a , 用户通过用户输入界面输入自己的查询要求,系统按一定的搜索规则进 行用户兴趣的猜测,并根据生成的用户兴趣从索引库中提取相关的记录, 提交给用户,并根据用户对结果中各个网页的反应情况不断调整用户的 兴趣,逐步提高用户的满意度,并根据最后的结果,调整网页分类情况 及各相关节点的值。 m a b i r s 系统设计 4 3m a b ir s 系统结构 图4 - 2 系统流程图 从结构角度出发,m a b i r s 系统模型主要有网页采集、网页分类、索 引库、用户关键词树、用户兴趣模型、用户兴趣库、用户界面及m a 系统 西安理工大学硕士学位论文 等8 大部分组成。 1 、信息获取 采集部分主要包括信息采集m a 、过滤器、规则库、分类器。利用信 息采集m a 到网络的各个服务器上主动的搜索各类网页,并带回本地,进 行净化、合并、分类等操作,然后进行存储。 m a 管理器产生信息采集m a ,他以系统提供的初始网页为出发点,跟 随网页中的链接进行信息的搜索,并生成网页的索引信息。同一网页上 的链接往往在领域概念上有一定的相似性,有利用网页的精确分类。各 信息采集m a 自主的完成各自的任务,并且各m a 之间互相通信、相互协 调,共同完成信息的采集任务。 采集的网页,首先经过过滤器进行去重和合并操作,去掉相同或相似 的网页。分类器以规则库为分类基础,分析网页的可能类别,存入索引 库中,并将其分布到用户兴趣模型中相应的节点上,根据用户的反馈进 行分类的调整。 搜索引擎对信息的组织,是利用数据库管理系统( d b m s ) 对所采集 标引的网页信息进行组织,从中抽取索引项,形成索引数据库,使用索 引库技术提高系统的整体实现效率。 2 、用户关键词树 用户关键词树存储的是用户提交的关键字请求,并按词义的相似性 进行节点的构造,此模块的实现有赖于实现最小规模近义词的分析。 用户提交关键词请求后,用户请求m a 对关键词进行正确性检测和语 义扩展,并参照用户关键词树进行匹配,根据匹配的结果,在用户兴趣 库中查找兴趣记录,如果没有匹配的项目,将建立新的节点。 3 、用户兴趣模型 用户兴趣模型依据用户兴趣词树和用户兴趣库建立,他代表了所有 的领域概念、领域概念的流行度及各子领域、领域相关的网页映射信息, 用户兴趣m a 以此为依据,进行用户兴趣领域概念匹配,并记录与其相关 m a b 珏峪系统设计 的网页的映射信息。 用户兴趣m a 以用户兴趣模型为基础,进行匹配,用户兴趣模型类似 于分类目录,采用分层的结构,不同的层次代表不同的领域明细,最底 层是网页在索引库中的映射信息。 4 、用户兴趣库 用户兴趣库存储的是用户关键词树中节点对应的用户组兴趣信息,并 以此为基础,猜测用户的兴趣,形成初始值,供有相同关键词请求的用 户共享。用户请求m a 从用户兴趣库中检索到相关的记录,并按兴趣的流 行度进行排序,作为用户的初始兴趣。 5 、用户界面 用户通过用户接口提交查询请求,并查看搜索的结果,对系统提交 的结果做出实时的反应。一般要求界面自然、简洁、友好,有一定的自 然语言处理能力。 不同的用户往往有自己不同的使用习惯,用户界面要满足用户的要 求,提供不同的提交方式和不同的显示风格,供用户定制。 6 、m a 系统 m a 系统是整个系统的血脉,用户的各项任务及系统的日常维护都是 由各种不同的姒来完成的,m a 系统包括姒的管理部分和各个单独的m a , m a 系统的实现就是要采用一个移动a g e n t 开发平台,利用开发平台提供 的各项服务,建立自己的m a 体系。 7 、用户反馈模块的构造。 用户反馈模块主要监测用户对搜索结果的反应,形成反馈信息,并 将反馈情况传递到服务器端,指导用户兴趣的调整、网页分类的调整及 用户兴趣模型、用户兴趣库等模块数据的更新。此模块主要是用户反馈 的收集和用户反馈信息的形成。 系统功能模块如图4 3 所示: 9 西安理工大学硕士学位论文 用户兴趣树用户兴趣模型用户兴趣库 图4 3 系统功能模块图 系统功能模块设计 5 系统功能模块设计 5 1 开发环境 5 1 1a g l e t 系统介绍4 1 1 a g l e t 是由i b m 日本公司用纯j a v a 开发的移动a g e n t 技术1 ,并提 供了实用的平台- - a g l e tw o r k b e n c h ,让人们开发或执行移动a g e n t 系统。 到目前为止,a g l e t 是最为成功和全面的系统:它提供了一个简单而全面 的移动a g e n t 编程模型;为a g e n t 闯提供了动态和有效的通信机制;还提 供了一套详细且易用的安全机制。a g l e t 系统框架如图5 - 1 所示: 申请求l1甲请求 a g l e tr u n t i m e 层 宜全,缓存持久管理嚣等 a g l e tr u n t i m e 层 安全,缓存持久管理器等 字节教缓f :i 字节敷组 a t c i , ;( a t p ,c o r b a ,r w i 等) ii f a t c i 层( a t p c o r b a ,r m i 等) + a g e n t 系统,l 生 t c p i p ha g e n ti d ,内容ht c p i p d is p a t c h ( 分派) r e t r a c t ( 召回) 壁! ! b ! 握塑2 n e s s a g e ( 消息) r e s p o n s e ( 响应) 图5 一l 移动a g e n t 系统框架图图5 2a t p 示意图 a g l e t 的执行分为以下若干阶段:首先当一个正在执行的a g l e t 想要 将自己送到远端时,会对a g l e tr u n t i m e 层发出请求;接着a g l e tr u n t i m e 层把a g l e t 的状态信息与代码转成序列化的字节数组;如果请求成功,系 统会将字节数组传送a t c i ( a g e n tt r a n s p o r ta n dc o m m u n i c a t i o ni n t e r f a c e ) 层处理;系统将字节数组附上相关的系统信息,如a g l e t 的i d 、系统名称 等,并以比特流方式通过网络传至远端机器,远端机器a t c t 层提供的 a t p 接口接受到传来的字节数组及系统信息,然后a g l e tr u n t i m e 层对字 节数组反序列化,得到a g l e t 的状态信息与代码,此时a g l e t 便可在远端 机器上执行。 a g l e t 系统首先提供一个上下文环境( c o n t e x t ) 来管理a g l e t 的基本 西安理工大学硕士擎住论文 行为:如创建( c r e a t e ) a g l e t 、复制( c l o n e ) a g l e t 、分派( d i s p a t c h ) a g l e t 到远端机器、召回( r e t r a c t ) 远端的a g l e t 、暂停( d e a c t i v e ) 、唤醒( a c t i v e ) a g l e t 以及清除( d i s p o s e ) a g l e t 等。 a g l e tw o r k b e n c h 是一可视化环境,它被用来建立使用移动a g e n t 的 网络应用。目前所提供的工具包括以下几个方面: 移动a g e n ta g l e t 框架:提供a g l e t 的基本系统框架。 a t p :提供a g e n t 传输协议( 图5 2 ) 。 t a z z a :可视化地开发应用所需的个性化的移动a g e n t 。 j d b c :用于访问d b 2 数据库。 j o d a x :用于访问单位的数据。 t a h i t i :可视化a g e n t 的管理界面,让使用者方便地监视和控制a g l e t 的执行。 f i j i :通过w e b 上的f i j ia p p l e t s 在客户w e b 浏览上执行a g l e tc o n t e x t , 以便实现产生、分派、召回a g l e t 的功能。 5 1 2a g l e t 、j k q m l 的安装、配置和运行 系统需求: 操作系统: m i c r o s o f tw i n d o w s2 0 0 0 ( 个人版或服务器版) 及相应 的j d k 。 安装和配置服务器属性: ( 1 ) 由i b m 网站下载相关类别和接口的套件: a g l e t s 一2 0 2 j a r :a g l e t s2 0 2 完整目录,包括相关类别和平台设 定档; a g l e t s 一2 0 2 j a r :相关类别和接口之j a v a 原始码; ( 2 ) 提供一预设a g l e t 服务器类别: t a m t ia g l e ts e r v e r ( 3 ) 安装步骤: 系统动能模块设计 下载j 2 s e 和a g l e t s 一2 0 2 j a r ;安装完j 2 s e 后,将其安装目录下的 b i n 文件夹加入环境变量p a t h 中;解压缩a g l e t s - 2 0 2 j a r ,并执行b i n 文件夹下的a n t b a t 安装程序:将所产生在a g l e t s - 2 0 2 的b i n 文件夹中 的k e y s t o r e 档案复制到操作系统的使用者目录中,如d :d o c u m e n t sa n d s e t t i n g s a d m i n i s t r a t o r 安装好的a g l e t 系统的目录结构包括: 夺b i n :含有启动t a h i t i 的相关启动档; 夺c n f :启动t a h i t i 时的相关设定档: 夺l i b :存放相关的a g l e t s 类别和接口,主要为a g l e t s 一2 0 2 j a r 套件封装档; 夺p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民法课件笔记
- 初源电子理论考试题及答案
- 表格考试题库及答案大全
- 民歌编花篮声部课件
- 新质生产力陕西行
- 金融业拥抱新质生产力
- 新质生产力:内涵与发展路径
- 广东:加快形成新质生产力路径
- 广东视角:新质生产力的实践与思考
- 端午节特色的活动策划方案
- 2023年威海桃威铁路有限公司招聘笔试参考题库附带答案详解
- 急性心梗诊疗(2025指南)解读课件
- 2025至2030年中国综合能源服务产业投资规划及前景预测报告
- 虾滑产品知识培训课件
- 2025-2030全球宠物电器行业发展趋势分析及投资前景预测研究报告
- 吸痰护理操作课件
- 2025年天津市专业人员继续教育试题及答案3
- 主要诊断及主要手术的选择原则
- 2024年急危重症患者鼻空肠营养管管理专家共识
- 医学教材 《中国高尿酸血症相关疾病诊疗多学科专家共识(2023年版)》解读课件
- 2024版债务处理咨询服务协议
评论
0/150
提交评论