(管理科学与工程专业论文)基于agent的个性化信息检索系统研究.pdf_第1页
(管理科学与工程专业论文)基于agent的个性化信息检索系统研究.pdf_第2页
(管理科学与工程专业论文)基于agent的个性化信息检索系统研究.pdf_第3页
(管理科学与工程专业论文)基于agent的个性化信息检索系统研究.pdf_第4页
(管理科学与工程专业论文)基于agent的个性化信息检索系统研究.pdf_第5页
已阅读5页,还剩80页未读 继续免费阅读

(管理科学与工程专业论文)基于agent的个性化信息检索系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要i n t e r n e t 的飞速发展,人们比以往能够更容易、更直接她通过网络获取各种形式的信息。然而网上的信息浩如烟海,增长和更新速度越来越快,而且i n t e r n e t 是个开放性、动态性和异构性的全球网络,资源分布很分散,且没有统管理和结构,这就出现了“信息迷向”和“信息过载”;有时也有可自毫根本搜索不到信息。现有的i n t e r n e t 搜索引擎如:g o o g l e ,y a h o o ,w e b c r a w l e r 等,可以帮助人们搜索i n t e r n e t 上各种信息。但由于语言的模糊性,词语具有多义性,利用现有搜索弓l 擎用户常常难以准确地表达用户兴趣,返回的地址集经常包含很多用户不需要的无关信息,用户常常花费很长的时间却没有找到对自己有用的信息;而且对于不同的用户,只要搜索关键字相同,得到的结构也相同,不能区分用户;他们也不能主动从网络e 发现和收集用户需要的信息,用户要查询同样的兴趣,只能再次搜索,己获得最新的网页内容,浪费了用户大量的时间。面对网络信息服务的这种现状,人们在寻求一种将信息用户感兴趣的信息主动推荐给用户的服务方式,这便是个性化的主动信息服务。在实现个性化的主动信息服务中,智能a g e n t 技术起到了至关重要的作用。本文针对目前信息检索系统存在的不足和当前用户的个f 生化需求,在系统地介绍信息检索研究i 见状的基础上,对基于a g e n t 的个性化信息检索系统的基本结构、方法及相关技术进行了研究,并在此基础上提出了一种基于m u l t i - a g e n t 的个性化信息检索系统模型。首先,对个性化信息检索的发展、工作原理和现状进行了简要综述,并对a g e n t 技术做了介绍。然后,从现有信。淞存在的问题入手,提出一种基于m u l t i - a g e n t 的个眭化信息检索系统模型。本系统由用户信息检索个性a g e n t 、信息搜索a g e n t 和信息过滤a g e n t 三个模块构成。其次,分别对三个模块中的关键技术进行研究。信息检索个性a g e n t研究是本文重点。用户信息检索个性a g e n t 通过学习用户的兴趣,使其具有一定的智能性。通过用户信息需求的表达和信息反馈,形成并训练用户信息检索个陛,漠型。在对用户个性化进行了深入研究时,提出了种改进的用户兴趣瞎型,并详细说明了其生成和更新实现算法。再次,信息搜索a g e n t 通过查询代理与i n t e r n e t 搜索引擎连接,既可实王贝元搔j 亲,又可以在返回的网址轫吵藏不满足用户的要求时,使用自身搜索工具在网络上自主搜索,而且搜索算法从查询代理返回的网址出发进行搜索,减少了搜索的范围,加快了搜索的速度。信息过滤a g e n t 根据用户已有的信息资源分析用户喜好,采用向量空间法进行信息过滤。接着本文对具体实现进行了介绍,实现了系统的部分功能。最后,对本文的研究以及进一步研究做了总结。关键词:搜索引擎;个l 生化:信息检索:信息过滤;用户模型a b s t r a c tw i t h t h e r a p i d 出v d o p m e n t o f 酗黜喊,p e o p l e c a n g e t t h e r e q u i r e d i n f o r m a t i o n m o r e e a s i l y a t 吐1 es a m et i m e 、m a n yp r o b l e m sh a dc o i l e 吼吐s ot h a tw ec a n tc a t c ht h ee x a c ti n f o r m a f i m aa b o u ts o m es u 巧e c th 撞删h a s a n o p e n 、d y n a m i c a n d d i f f e r e n c es m a e m r e m d t h e i r r e s o u r e e s a r e d i s t n b u l 矗a g i ne v e r yc o m e ri no u rw o r l d t h e yh a v n l tu n i t e dm 缸培即舱ls ow es o m e t i m e sg e tt o om u c hr e l a t e d i n f o r m a t i o n a n ds o m e t i m e s g e t l i l f l e w h e n w es e a r e h 也e m n o w d a y s , 、v eh a v em a n yh i 删s e a r c he n g i n e s , s u c ha sg 0 0 9 l e ,y a h o o ,w e b c m w l e r t h e s et o o l sc a nh e l pp e o p l et os e a m hi n t e m e tf o rf l a e i rr e q o i r e m c m tb u t 也e yh a v em a n yl a c k n e s s e s ,s u c h a s t h e y c a n t u n d e r s t a n d t h ee x a c t m e a n i n g f a c e do nt h ec l 删s i t u a t i o no fn e t w o r ki n f o m m f i o n 刚c e ,p e o p l ea r es e 绷池gf o rak i n do f s e r v i c em o d e lt h a tt h er e q u i r e di n f o r m a t i o nf o ru s e r si sr e c o m m e n d e dt ot h e ma d d v d y t h a ti sf i l ep e r s o n a l i z e da c t i v ei n f o r m a t i o ns v i e e t h ei n t e l l i g e n ta 笋nt e c h n o l o g yp l a y sa ni m p o r t a n tp a r ti nc a n 咖go nt h ep e r s o n a l i z e da c t i v ei n f o r m a t i o ns e r v i c e t h ep a p e rh a ss y s t e m a t i c a l l ys t u d i e dt h ek e yt e c h n o l o g yd e a l 魄w i t ht h ea g e n t - b a s e dp e r s o n a l i z e d a c t i v e i n f o m 血o ns g r v i e e a n d p u t s f o r w m f d 跖i n t e m e t i n f o n n a f i o n r e t r i e v a ls y s t e mm o d e l f o r t h e m u l t i - a g e n t t h e s y s t e m c o n s i s t s o f t h r e e p m t s ,w h i c h a r e u s e r a g e n t , i n f o n m a t i o ns e a r c h a g e n ta n di n f o m m t i o nf i l t e r i n g a g e n t f i r s t l y , t h eb a s i ca s p e c to f p e r s o n a l i z e di n f o m m f i o nr e t r i e v a l ( s m u si nq u o , w o d d n gt h e o r y )a n dt h er e l a t e dt e c h n o l o g ya r ed i s c u s s e d a f l e rt h ec h a m c t e r i s f i c so fp e r s o n a l i z e di n f o m m t i o nr e t r i e v a la i ed i s c u s s e d , af r a m e w o r ko f p e r s o n a l i 豳gi n f o r m a t i o nr e t r i e v a ls y s t e mi sp r e s e m t e d n e x t , w er e s e a r c ht h et h r e em o d e l ss e p a m 埘y t h eu s e ra g e n ti st h e 妍r e s e a r c hi nt h i sp a p e r s h o u l df o r ma n dw a h at h eu s e ra g e n t 妇硎幽t h ee x p r e s s i o no fi n f o r m m i o nr e q u i r e m e n ta n di n f o r m a t i o nf e e d b a c kb yt h eu s c f at h r e e - d i m e n s i o ni n t e r e s tm o d e lh a sb e e np u tf o r w a r d ac r e a t i n ga n dam o d i l 啦l ga l g o r i t h mo f u s e a i n t e r e s t sb a s e do nt h i sm o d e la n dam e u h o do fu s i n ga 洲n gt r e eo fu s e r si n t e r e s t st oa n a l y z er i s e r ss e a r c hq u e s t sa r ep r e s e n 僦s u b s e q u e n t l y ,n e x t , t h ei n f o r m a t i o n 氍础a g e n tt h r o u g hi t si n q u i r ya g e n tt o n i l e e r si n t c r n c ts e a r c he n g i n e s ,n o to n l yr e a l i z e sm e t a - s e a r c l l ,b u ta l s om a k e ss e l f - s e a r c ho nt h ew e b , w h e nt h er e c a l l sc o u l d n tm e e tt h en e e d s o f t h eu b e y , s e a r c ha i g o f i t h ms t a r t si t s 鼎r i 崦f r o m 妣r e c a l l so f协咖a g e r at or e d u c et h er a n g eo f s e a r c h i n ga n di n c r e a s et h es p e e do f s e a r c h i n g a c c o r d i n gt ot h eu s 口r e a d y - m a d ei n f o r m a t i o nr e s o l r c z s ,i n f o n n m k mf i l t e r k n ga g e n ta n a l y s e st h e 咄sf a v o r i t ea n d a d o p t s v e c t o r s p a c e m e t h o d t oc a r r y o u t t h e p e r s o r d i z e d i n f o r m a t i o n f i l t e r f i n a l l y , 洫c o n c l u s i o n , t h ep a p e rg i v e sa 研e fd i s c u s s i o nm a ds m l m a a t yo nt h ef u t u r er e s e a r c h w a y o f t h e p e r s o n a l i z i n g i n f o m a a t i o n r e w i e v a l k e y w o r d s :s e a r c he n g i b e :p e r s o n a ii z e d il n f o r m a t i o nr e t r i e v a l ;i n f o r m a t i o nf ii t e r :u s e ri n o d e l独创性说明作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他入已经发表或撰写的研究成果,也不包含为获得大连理工大学或其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。作者签名:帮列哗日期:趁竺堇生基于a g e n t 的个性化信息检索系统研究1 绪论1 1 论文研究背景及意义进入2 1 世纪,互联网技术的发展及其所催生的“新经济”在世界经济格局中所占的分量呈现大幅上升的趋势。互联网的发展和应用趋势也为越来越多的人所关注。近几年来搜索引擎与信息检索技术随着万维网这种方便应用的媒体的普及而得到了迅速的发展。搜索引擎已成为在互联网上仅次于电子邮件的第二大网络应用”,。尽管搜索引擎的发展己较成熟,但人们在使用中却发现要准确、快速地查找自己所需的信息是越来越困难。主要原因如下:i n t e r n e t 上可利用的信息是无组织的,多种结构形式的,并且分布在全世界的各个站点上。数据和服务的类型以及数量每天都在大量增加,因而信息可利用性和可靠性也在不断地变化。由于信息源的动态性以及潜在的有用信息的更新和保存问题,信息常常是模糊的,有时甚至是错误的。现有信息检索技术无法使用户间进行协调、交流和学习,数据获取的效率与利用率较低。目前的搜索引擎都是服务器端软件,用户需要严格按照各种引擎所要求的格式输入查询词,但种种限制使用户不知道如何贴切地表达自己的信息需求( 目前技术也没有提供合适的表达手段) ,也不知道如何更准确地寻找所需信息,即所谓的“迷航”m 。搜索的结果( 一系列u r l 地址) 可能有成千上万条,而在这过于庞大的信息群中,有用信息只是其中的小部分,并且常常发生收到或下载的信息难以消化的情况,即所谓的“认知过载”u ,。个性化服务( p e r s o n a l i z e ds e r v i c e ) u ,是解决这一问题的有效途径。个性化的实质是针对性,即对不同的用户采取不同的服务策略,提供不同的服务内容。而个性化服务的挑战存在于如何把人的因素( 如人的行为特性、智力因素和思维因素) 融合进计算机技术中去,因而产生了人机交互( h u m a nc o m p u t e ri n t e r a c t i o n ) 1 。传统的搜索引擎,女n :o o o g l e ,a l t av i s t a ,i n f o s e e k 和y a h o o 等都是服务器端软件,用户需严格按照各个引擎所要求的格式输入查询串。如果把搜索工具与查询数据库分离,把搜索工具安置在客户端,并且利用机器学习技术,使客户端基于a g e n t 的个性化信息检素系统研究查询数据库分离,把搜索工具安置在客户端,并且利用机器学习技术,使客户端搜索软件具备智能性,能够学习用户兴趣,就能弥补传统引擎的不足。这种搜索工具被称之为基于a g e n t 的i n t e r n e t 智能信息检索。用户只要提交自己感兴趣的w e b 文档给a g e n t ,它就能利用机器学习技术学习到用户的兴趣,自主地在i n t e r n e t 上漫游,收集用户感兴趣的信息。每个用户都能按照自己的习惯配置搜索工具,使之具有个人的独特风格和识别特定的语义模式的能力。这是提高搜索引擎的灵活性、准确性、自主性、智能性的较好方法“,。本文利用基于a g e n t 的个性化信息检索技术,设计了一个系统模型并实现了部分功能,该模型由三个a g e n t 模块共同协作,提供了一种基于a g e n t 的个性化主动服务;用户信息检索个性a g e n t 是根据用户兴趣的偏好和信息的反馈训练出来的,从而实现了个性化服务。用户信息检索个性a g e n t 通过学习用户的兴趣,使其具有一定的智能性。通过用户信息需求的表达和信息反馈,形成并训练用户信息检索个性模型。在对用户个性化进行了深入研究时,提出了一种改进的用户兴趣模型,并详细说明了其生成和更新实现算法;信息搜索a g e n t 自主运行,及时获取用户喜欢的最新信息,从而实现了主动信息服务;信息过 滤a g e n t 实现网上信息资源和用户个性化需求模式的匹配,体现了信息服务个性化的特点。本文来源子国家自然科学基金重点项目电子商务环境下管理理论与方法研究下子课题电子商务环境下的智能信息管理理论研究。面向i n t e r n e t 的信息获取与处理技术是当前计算机科学与技术领域急需研究的课题。基于a g e n t 的个性化信息检索技术( p e r s o n a l i z e di n f o r m a t i o nr e t r i e v a l ) 是基于目前i n t e r n e t 网上信息的无组织、异构分布和动态的特点提出的,用于解决信息检索中“信息过载”和“资源迷向”等问题,实现i n t e r n e t网上信息个性化主动服务。智能a g e n t 技术作为近年来a i 领域的研究热点,因其自主性、反应性、适应性和社会性等特点正得到广泛的应用”“。将智能a g e n t技术应用于信息检索中,可以十分灵活地提供多种智能化的信息处理手段,将有利于开拓i n t e r n e t 网络资源的信息服务”1 。1 2 国内外研究现状1 2 1 信息检索发展过程其实,早在四十年代人们就已经意识到大量信息的存储和查找所引发的各种问题,一门新的学科“i n f o r m a t i o nr e t r i e v a l ”随之应运而生”。这个名词翻译的时候译成了“情报检索”,而且一直沿用至今,不过现在看来,译成“信息2基于a g e n t 的个性化信息检索系统研究信息检索研究的对象是书面形式的文献材料。初期的信息检索系统是以存储和检索文献的标识为主,如标题、作者、出版物、索引号等著录事项。标识远比文献本身简单,处理操作仅限于按号归类和匹配查找。现代信息检索系统不但收录了文献的标识,而且还包括文摘甚至是文献的全文,信息检索发展成为对文本信息的检索,所以也称为“文本检索( t e x tr e t r i e v a l ) ”- 。文本检索的基本任务是根据使用者的检索要求,将系统中的文本按其相关性的高低依次排列。确定文本相关程度的最精确的办法是让检索系统的使用者阅读全部文本,然后根据其内容给每个文本打分。但是这样做是完全不现实的,检索系统的目的就是减轻使用者的阅读负担,不可能向使用者提出这样的要求。只有依靠检索系统对文本内容的自动分析来计算相关程度。目前自然语言处理的研究水平尚不能实现对篇章语义的完全理解,所以检索系统判断相关性的大小主要是根据文本中所用词语的统计特性,并没有涉及语言本身所反映的内容。纵观国外计算机信息检索系统的发展,可以将其发展过程划分为以下三个阶段:第一阶段:1 9 7 1 年以前,是第一个发展阶段。在此阶段,虽然计算机信息检索系统刚剐起步,却引起了人们的普遍关注。人们建立了许多信息检索系统并取得了一定的进展。1 9 5 4 年美国海军兵器中心( n o t s ) 图书馆首先在i b m t 0 1 型计算机上成功地建立了世界上第一个计算机文献检索系统。5 0 年代到6 0 年代,工业发达国家提出了采用批量处理的多种计算机情报检索系统,在这一阶段,计算机信息检索系统的处理能力在l 至2 年内成倍地增长,信息检索主要采用批处理方式。然而由于受计算机硬件发展的限制,数据的大容量存储及数据间的通讯是此阶段信息检索系统的主要问题。第二阶段:从 9 7 1 年开始,尤其是1 9 7 1 年到1 9 7 2 年这两年间,信息检索系统发生了很大的变化,产生并发展了联机情报检索系统。在经历了批量处理的计算机情报检索之后,许多系统都实现了在线检索。其中,美国国家医药图书馆中心发展了在线的计算机图书馆中心o c l c ( o h i oc o l l e g el i b r a r yc e n t e r ) ,s d c公司的s y s t e md e v e l o p m e n tc o m p a n y 及l o c k h e e dc o r p o r a t i o n 的d i a l o g 推出了在线商用数据库查询系统。这些系统的推出标志着信息检索系统第二个发展阶段的到来。此时,由于计算机硬件的发展,提供了高速处理器和廉价的大容量外部存储设备,使得信息检索系统的计算及存取能力成指数倍地增长,具有完备的数据库在线检索功能。但是,此时的计算机信息检索系统都采用集中式的管理方法,如何最好地实现系统中的数据通讯是此阶段的关键问题。基于a g e n t 的个性化信患检索系统研究法,如何最好地实现系统中的数据通讯是此阶段的关键问题。第三阶段:社会信息化、数据的分布处理,各种计算机资源的共享等多种应用要求推动着计算机技术朝着群体化方向发展,促使当代的计算机技术和通讯技术紧密结合。1 9 8 3 年至今,全球最大的网络系统i n t e r n e t 从一个小型的实验研究项目发展成世界上最大的计算机网络。i n t e r n e t 的出现,标志着计算机信息检索系统进入了一个新的阶段。此阶段,通讯及网络技术的迅速发展使得信息检索系统的三个基本要素之间达到了协同使用的最佳状态。此时,计算机信息检索系统大多采用分布式的网络化管理。其信息资源的主要特点是:数字形式表达,通过网络利用。多媒体,多载体,内容覆盖全社会领域,分布无序、无政府,难于规范和结构化,内容特征抽取复杂,用户界面要求更高等。这些特点导致在信息处理方面从传统模式向新型模式转变:体系结构从终端主机方式向客户机服务器结构方式转变,网络环境从局域网向i n t e r n e t 等开放网转移,应用接口从封闭界面向w w w 等转移,信息结构从结构化向非结构化转移,系统功能从单纯信息检索向综合信息管理和服务转移等。在此基础上,随着连续性语音识别技术的不断发展,预示着计算机信息检索系统将会跨入另外一个新的阶段。我国计算机信息检索起步于8 0 年代初期。在计算机编制主题词表、汉语自动分词和标引、数据库建造、情报检索和相关软件的研制、联机检索、机器翻译、图书馆业务管理、情报检索理论等主要领域取得了很大进步。科技信息领域建立了i 0 0 多个检索系统,全国创建了8 0 0 多个数据库,为图书情报的现代化作出了贡献。由于汉语语言的独特性,我国的计算机信息检索十几年来基本上仍以传统的顺序检索、顺序检索与倒排文档相结合的检索方法为主。限于以传统人工赋词标引方法为主的目录或摘要第二次文献,以及基于词检索的全文系统n ”。目前还与国外信息检索系统有一些差距。2 0 世纪8 0 年代,信息技术在文档内容表示、索引模型和匹配策略等方面取得了丰硕成果。2 0 世纪9 0 年代,w e b 的出现为信息检索技术提供了一个前所未有的实验和实用环境并提出了新的要求,在传统信息检索系统的基础上出现了许多w e b 信息检索系统。w e b 信息检索系统主要包括:搜索引擎、分类目录和元搜索引擎”。( 1 ) 搜索引擎是一种最常见的w e b 信息检索系统。如o o o g l e ,i n f o s e e k 和a l t a v i s t a ,它们使用r o b o t 或s p i d e r 来遍历w e b ,将w e b 上分布的信息下载到本地文档库中,然后系统自动对文档内容进行分析并建立索引数据库,用户以关基于a g e n t 的个性化信息检索系统研究键词的方式向搜索引擎提出查询请求,搜索引擎通过查询索引数据库找到相当的文档并以u r l 的方式将查询结果反馈给用户。在查询时,用户不需要知道搜索引擎中索引的具体组织形式,一般搜索引擎的结构见图1 1 。由图l _ l 可知,一般搜索引擎使用w e br o b o t ( 也叫c r a w l e r s 或s p i d e r s ) 对w e b 采用广度优先( 或深度优先) 的策略进行遍历并下载文档,文档存贮在本地并被查询,由关键词或短语通过一个c g i 界面来进行索引。系统中维护一个超链队歹0 ( 或堆栈) ,其中包含一些起始u r l 。r o b o t 从这些u r l 出发,下载相应的页面,并从中抽取出新的超链加入到队列中,上述过程不断重复直到队列为空。而各种搜索引擎的不同之处在于c r a w l e r 行为上不同,即搜索的深度和广度不同、索引的方法不同及搜索和查询所使用的语言不同等。图l l 搜索引擎结构f i g u r e1 1a r c h i t e c t u r eo fs e a r c he n g i n e( 2 ) 分类目录。如y a h o o ,与搜索引擎的工作原理稍有不同。分类目录并不使用r o b o t 或s p i d e r 下载w e b 文档,而是采用人工收集或者采用w e b 站点的作者主动提交的方式完成对文档的收集,目录一般也不对文档内容进行自动分析和建立索引,而是采用半人工处理的方式对w e b 站点和文档进行分类、评价并给出简要的描述,经过上述处理的w e b 信息按照主题分类并以树状结构加以组织,从树的根节点逐渐向下列出了从一般到特殊的分类和各级予类,而叶节点则包含指向w e b 信息资源的链接,用户通过浏览分类目录中的分类来查询w e b 或者以关键词的方式提交查询。当目录中包含太多的分类和链接时,目录本身也变得不便于浏览。如当y a h o o 包含有指向5 0 0 0 0 0 个站点的链接,分布在2 5 0 0 0 个分类中。需要指出的是,目录提供的是对分类以及w e b 信息描述的索引,这与搜索引擎提基于a g e n t 的个性化信息检索系统研究供对文档内容的全文检索不同。搜索引擎和分类目录这两种w e b 信息检索系统各有所长。通常,由于搜索引擎具有庞大的全文索引数据库,因此适用于检索难以查找的信息或者一些比较模糊的主题;而目录有助于逐步缩少主题范围或者查找某个主题的常见的、质量较高的信息。由于这两种系统彼此互补,因此一些将两者结合起来的混合系统也出现了,现有的一些著名的搜索引擎和分类目录也呈现出逐渐融合的趋势,如y a h o o 。在目录检索服务的基础上,已开始使用w e b 全文索引数据库提供与搜索引擎类似的w e b 信息全文检索服务。通常我们将两者统称为搜索引擎。( 3 ) 元搜索引擎。搜索引擎为了在竞争中取胜不断增加其索引的w e b 页面数目,但其无法跟上w e b 的发展速度。l a w r e n c e 等人于1 9 9 9 年在n a t u r e 杂志上发表的一份研究报告表明,任何一个搜索引擎对w e b 的覆盖度都不超过2 0 * ,。因此,用户经常需要检索多个系统以提高检索的召回率( r e c a l l ) 。但各个搜索引擎的用户接口是异构的,有其特定且复杂的界面和查询语法,从而给用户带来了不便。研究人员针对这种状况而开发了元搜索引擎,如m e t a c r a w l e r ,s a v v y s e a r c h 和i n q u i r u s 等。m e t a 搜索引擎弥补了简单搜索引擎的缺陷,m e 。c a搜索引擎将搜索请求提交给不同的搜索引擎并将来自各个搜索引擎所获得的结果综合成一个结果列表,由此提高信息检索的召回率、准确率以及方便用户同时访问多个搜索引擎”“。元搜索引擎的基本设计思想如下:对用户查询请求进行预处理,分别将其转换成若干各底层搜索引擎能处理的格式。向各个搜索引擎发送查询请求,并等待其返回检索结果。如m e t a c r a w l e r 同时检索y a h o o ,o o o g l e ,l o o k s m a r t 等多个搜索引擎并等待这些搜索引擎返回检索结果。对检索结果进行后处理,包括组合各个搜索引擎返回的检索结果,消除重复项,按照相关度对检索结果排序等操作。有时搜索引擎还需通过下载w e b 文档来实现一些搜索引擎不支持的查询,或对文档作进一步的分析以提高信息检索的精度。向用户返回经过组合和处理后的检索结果。上述思想虽然简单,但效果比较明显。对于设计人员而害,元搜索引擎不需要建立和维护庞大的索引数据库,也不需使用复杂的检索机制;对于用户而言,元搜索引擎提供了一个能同时查询多个搜索引擎的集成界面,将各个搜索引擎的6基于a g e n t 的个性化信惠检索系统研究于所使用的搜索引擎、查询转换、打包和综合方法。前面二种检索系统都很少采用智能技术来提高其精确性,第三种搜索系统较前二种有了较大改进,搜索的范围更广、搜索的速度也更为迅速,但它使用的仍然是现有的搜索引擎,搜索引擎固有的缺限仍然无法解决。随着i n t e r n e t 技术的不断发展及其应用的不断深入,网上可利用的信息里指数级增长。这些信息通常以无组织的形式分布于开放、异构的节点中,并且数据和服务的类型及数量每天都在大量增加,信息的可利用性和可靠性在不断地变化,节点的动态性及信息的更新和保存问题也常使信息变得模糊,甚至产生错误。这种情况下,为了从巨大的信息海洋中获得所需的信息,使用传统的搜索引擎技术显露出越来越多的弊端。因此人们将人工智能技术引入到信息检索系统中,从而出现了众多的智能检索系统。基于人工智能( a i ) 的网络信息检索是近年来出现的一种新型检索方式,它融合了专家系统、自然语言理解、用户模型、模式识别、数据库管理系统以及信息检索等领域的知识和先进技术。对于因特网这样一个分布式的信息空间,采用人工智能方法是实现人机交互学习的一种较好的方法,它可以代替人类完成繁杂信息的收集、过滤、聚类以及融台等任务,可以在因特网中引导用户,在用户进行搜索、浏览时给予直接的支持。目前,国外一些科研部门、高等院校、商业公司都在对智能化网络信息检索进行研究,并且已经开发出了一系列成功的产品。如:a r t h u ra n d e r s e n 的内嵌特定领域知识和使用推断( 证明式自然语言理解技术) 的f s a 和e l o i s e 系统;i b m的基于规则和知识,使用启发式的策略和简单自然语言的g l o b e n e t 系统;芝加哥大学开发的基于“问题库”的具有问答功能的智能搜索引擎f a q f i n d e r ;基于机器学习的智能系统w e b w a t c h e r ( 卡耐基梅隆大学) ,l e t i z i a ( m i t ) 和p u s h 系统( 瑞典s i c s 实验室) ;基于用户查询行为和兴趣的寻找特定信息的专用智能软件w e d o g g i e ( c m u ) 和n e w sw e e d e r ,f i r e l y ,n e w s f i n d e r 等”。国内对智能化的网络信息检索也进行了相关的研究,如南京大学研制的w e b a c c e s s 系统,它应用了机器学习、自然语言处理、超文本等技术;清华大学研制的p i n s 系统和b o o k m a r k 系统,它们能自动收集和记录用户的习惯和兴趣,跟踪用户的信息需求;采用“以网对网”技术的首信智能搜索引擎;基予汉语的语法、词的上下文和语义等中文信息处理技术的“网典”、a i s s 系统:基于用户个性要求的平方智能搜索引擎等。但国内的智能网络信息搜索系统大多只是支持简单的自然语言理解和概念检索,对机器学习、智能代理、信息挖掘等技术研究基于a g e n t 的个性化信息检索系统研究简单的自然语言理解和概念检索,对机器学习、智能代理、信息挖掘等技术研究的很少。网上智能信息检索是帮助人们快速获取信息的有效手段。然而,现有系统仍然存在一些缺陷或不足,如非个性化检索方式适应用户兴趣变化的能力较差、用户与检索系统的交互方式比较单调、缺少适应信息源信息变化的能力等。1 2 2 国内外个性化信息检索研究现状随着i n t e r n e t 和w e b 的广泛应用,在信息检索的萋础上,基于用户模型和w e b数据挖掘的信息过滤技术发展迅速,已经出现许多试验性或商业性的个性化信息服务系统。个性化服务通常作为这些信息检索系统的一个重要功能而嵌入到信息检索系统之中。其中典型的系统有:( 1 ) i f w e bi f w e b 是由u d i n e 大学的f a b i oa 等开发的,运行于客户端的基于用户模型的a g e n t 系统。它有两种工作模式:一种是导航模式,按照w e b 页面上的连接,系统自动搜索相关页面并分类,将结果以导航栏的方式提供给用户。一种是文档检索过滤模式,系统根据用户输入的关键字去检索文档,然后利用用户模型进行过滤,将符合要求的文档提交给用户。在i fw e b 中,用户的p r o f i l e 以加权语义网络( w e i g h t e ds e m a n t i cn e t w o r k s )的形式存储于客户端,利用语义网络来对概念( 语义) 和概念之间的各种关系进行描述。网络中的节点表示一个词义,两个节点间的连接弧表示在文档中这两个语义共同出现,弧上的权重表示了语义同时出现的重要性。节点之间的连线代表概念之间的关系。通过语义网络,表达出了用户想要获取哪种信息。i f w e b 由i n t e r f a c ea g e n c y ( 负责获取用户相关反馈) 、i f w e ba g e n c y ( 完成w w w 页面搜索) 、i f t o o la g e n c y ( 负责用户建模和信息过滤) 三大模块组成2 1 。i f w e b 支持用户的隐式反馈,可以搜集用户对当前浏览页面的操作信息,获取用户的兴趣所在,逐渐形成用户的个性化用户模型。i fw e b 中不仅记录了用户对哪些感兴趣,同时也记录了对哪些不感兴趣,因而也就更加全面的描述了用户的兴趣。而且i f w e b 中融入了一种“兴趣随时间衰减”的机制。给用户的兴趣加上了一个时间因子( 遗忘因子) ,随着时间的推移,用户原有的兴趣对当前兴趣的影响越来越小。信息的评价和过滤中采用了n d p m 的比较方式。( 2 ) s i t e s e e r基于a g e n t 的个性化信息检索系统研究用户p r o f i l e 的形成来自两个方面的信息:一是从用户的书签文件( b o o k m a r kf i l e s ) 中抽取关键字形成的。用户的书签文件,类似于i e 中的收藏夹,可以有多个目录结构,每个目录结构下有多个u r l ,u r l 指向用户感兴趣的文档。二是其他用户的p r o f i l e 。s i t e s e e r 中通过对用户p r o f i l e 中的u r l 所指向的文档进行比较,来判别两个用户的兴趣是否一致,从而获取用户可能的兴趣。s i t e s e e r 采用合作式过滤,系统需要存储大量用户的p r o f i l e ,s i t e s e e r 中所有p r o f i l e 是集中存储在一个服务器中的,其过滤算法也是在服务器端实现的。( 3 ) p r o f u s i o np e r s o n a la s s i s t a n t 和p r o f u s i o np r o f u s i o np e r s o n a la s s i s t a n t 也是一个信息过滤工具,用于和元搜索引擎( m e t as e a r c he n g i n e ) p r o f u s i o n 相配合。3 。用户首先需要登录p r o f u s i o n 网站,提交查询请求。系统自动分析用户提交的请求,识别主题,将用户的请求翻译解释后提交给多个搜索引擎,然后对这些引擎返回的u r l 进行重新检索和合并,去掉重复的,并创建一个按文档相关性排序的列表( r e l e v a n c e r a n k e dl i s t ) ,过滤后的u r l 按相关性大小呈现给用户。用户的p r o f i l e 被分为感兴趣的和厌烦的两类。对于已标记的每一个文档,均赋以两个分值描述该文档和这两个类的关系。对于待判定文档,按照向量空间模型电的余弦法则,比较它与相关集合和不相关集合的相似度来判定用户对这篇文章是感兴趣还是厌烦。p r o f u s i o np e r s o n a la s s i s t a n t 采用显式反馈( 喜欢厌烦) 获取用户判断,把文档加入到相应的类别中,然后更新这个类别的特征向量。p r o f u s i o n 采用合作式信息过滤,用户的p r o f i l e 。存储于服务器端。用户在检索开始时,可以选择一个已经存在的用户兴趣组,也可创建一个兴趣组。一个组可以有多个兴趣点,允许对好几个方面的内容感兴趣。国内的如清华大学电子工程系的张俐等u ,开发的“网络指南针”,针对中文字词的特点,在向量模型的基础上,认为每一个关键词都是一个最简单的分类器,每个词对分类的作用是不一样的,因此赋以不同的权重,分类的结果是对各个关键字的判断的综合。如曲建华“等采用增强学习和隐式反馈来调整用户p r o f i l e ,从而更新用户兴趣。程静n m 等采用a g e n t 对w e b 信息进行过滤,将w e bu s a g em i n i n g$ 1 】w e bc o n t e n tm i n i n g 集合起来,在服务器端对用户日志文件进行分析。构建用户模型,实现信息的有选择服务。再如傅忠廉“,等利用向量模型,根据用户提供的示例文本,用k o h o n e n $ 申经网络进行聚类分析。找到用户的兴趣中心,用k o h o n e n基于a g e n t 的个性化信息检素系统研究的示例文本,用k o h o n e n 神经网络进行聚类分析,找到用户的兴趣中心,用k o h o n e n聚类的结果训练b p 网络,再用b p 网络信息进行过滤。清华大学自动化系的卢增祥等。”在用户信息获取方面,通过扩展浏览器上的b o o k m a r k 功能,跟踪用户信息需求,并直接利用用户评价文章来表达用户需求在匹配算法方面,提出最大间距进行r a n k i n g 的算法和利用b o o k m a r k 服务进行网络信息过滤。中国科大汪晓岩m ,等采用分布式a g e n t 技术、相关反馈学习算法和基于多用户个性化模式的层次智能滤波算法,建立了面向i n t e r n e t 的个性化智能检索系统。1 3 本文研究内容及组织结构本文对基于a g e n t 的个性化信息检索技术进行了比较全面的研究,利用a g e n t 技术理论,设计了一个系统模型并实现了部分功能,该系统由三个模块构成:用户信息检索个性a g e n t ,信息检索a g e n t 和信息过滤a g e n t 。本文对这三个模块中所采用的关键技术,如用户个性模型学习算法、自主搜索算法、向量空间算法以及三个模块之间的关系等给予了重点讨论,重点对用户兴趣模型进行了研究提出了一种改进的用户模型并对生成和更新算法详细说明,最后对三个模块都进行了详细设计并实现了系统部分功能。论文的具体组织方式如下:第一章绪论,简要介绍了问题提出的背景、课题研究的意义、信息检索的发展以及国内外个性化信息检索的研究动态,最后介绍了本论文完成的主要工作和论文的组织。第二章介绍了有关a g e n t 与m u l t i a g e n t 技术方面基本理论,介绍了a g e n t的特性及分类,描述了a g e n t 与m u l t i a g e n t 的结构,a g e n t 技术在信息检索当中的应用以及a g e n t 的实现技术。第三章介绍了基于a g e n t 个性化信息检索的整体研究设计,给出了系统流程和系统模型的整体结构图,并详细阐述了整体效果。第四章介绍了用户信息检索个性a g e n t 模块:首先对个性化用户模型进行了研究分析,然后在现有用户模型的基础上提出了改进的用户模型,接着详细介绍了其中用户模型生成以及更新算法,以及用户信息检索个性a g e n t 的结构。第五章介绍了信息搜索a g e n t 和信息过滤a g e n t 。信息搜索a g e n t :该模块通过查询代理,与i n t e r n e t 搜索引擎连接实现元搜索,当搜索引擎查询回来的网址不够多或不能满足用户需求时,a g e n t 可以启动自身搜索工具,利用有限深度广度优先的算法实现自主搜索。最后给出了信息搜索a g e n t 的体系结构。基于a g e n t 的个性化倩息检索系统研究信息过滤算法的类型:其次介绍了信息过滤a g e n t 的算法实现,该模块采用向量空间法实现网上信息和用户个性化需求模式的匹配,体现了信息服务个性化的特点;最后介绍了信息过滤a g e n t 的体系结构。然后本文介绍了系统部分功能的实现。最后,对所做的工作加以总结,并提出了有待进一步研究的问题。基于a g e n t 的个性化信息检索系统研究2 a g e n t 技术概述2 1 a g e n t 概述2 1 i a g e n t 基本状况a g e n t 技术是目前计算机科学领域中一个非常重要的、活跃的研究方向之一,近年来引起计算机科学界的广泛关注。它不仅代表人们从认知的角度对计算机世界的认识上升到一个新的高度,而且也体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论