(计算机应用技术专业论文)个性搜索引擎中用户兴趣模型研究.pdf_第1页
(计算机应用技术专业论文)个性搜索引擎中用户兴趣模型研究.pdf_第2页
(计算机应用技术专业论文)个性搜索引擎中用户兴趣模型研究.pdf_第3页
(计算机应用技术专业论文)个性搜索引擎中用户兴趣模型研究.pdf_第4页
(计算机应用技术专业论文)个性搜索引擎中用户兴趣模型研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机应用技术专业论文)个性搜索引擎中用户兴趣模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

c l a s s i f i e di n d e x : u d c : ad i s s e r t a t i o nf o rt h ed e g r e eo f m e n g r e s e a r c ho nu s e ri n t e r e s tm o d e li n p e r s o n a l i z e ds e a r c h e n g i n e c a n d i d a t e :l i uj i n g y u m l s u p e r v i s o r :p r o f y i ng u i s h e n g a c a d e m i cd e g r e ea p p l i e df o r :m a s t e ro fe n g i n e e r i n g s p e c i a l i t y :c o m p u t e ra p p l i e dt e c h n o l o g y d a t eo fs u b m i s s i o n :d e c e m b e r ,2 0 0 9 d a t eo fo r a le x a m i n a t i o n :m a r c h ,2 010 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y t p c 1 一 中 一 、 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中己注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :音l 增援 日期:加加年弓月,r 日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文啦授予学位后即可口在授予学位1 2 个月后 口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :赢7 薅礁 日期:驯口年弓月u 日 导师c :恍 导师( 签字) :、7 翻v 乡b k 年乡月,r 目 f 中 一 哈尔滨工程大学硕士学位论文 摘要 随着网络资源数量的不断增长,信息更新的不断加快,信息冗余、主题 参杂等问题相继出现,人们想高效地搜索到自己想要的信息变得越发困难。 在解决这些问题的过程中,提供个性化服务的搜索引擎提高了检索效率,是 人们一直在研究的热点。将用户感兴趣的信息反馈给用户,对不同的用户 提供不同的服务模式,即个性化服务的信息方式。 本文对个性搜索中的建模技术进行研究,并将s p r i n t 分类算法和a g e n t 技术结合到一起应用到建模过程当中,提高建模的速度和准确度,使兴趣模 型更贴近用户的实际喜好。该模型对用户将要执行的操作行为进行分析,预 测其兴趣所在,优化用户的查询语句,最终达到提高人们检索信息的效率的 目的。 本文给出了兴趣模型的建立过程。首先设计数据结构,要想运用s p r i n t 算法构建用户的兴趣模型,必须对构建兴趣模型所需要的数据源信息进行分 析学习,根据s p r i n t 算法的执行需求,设计出了有特定结构的三张表,用来 存放建模不同阶段所需要的数据。然后,研究基于s p r i n t 算法的信息抽取过 程。算法如何协助兴趣模型的建立,以及每一步执行是如何对知识库中的数 据进行抽取学习,是本文研究的重点内容。最后,建立兴趣模型。对于兴趣 模型,本文提出了兴趣模型的建立方法和模型结构。将数据挖掘算法充分应 用于建模过程当中,通过用户的链接操作构造兴趣树,从中提取兴趣模型。 研究的最终目的是快速建立一个准确的、贴近用户需求的兴趣模型。这 种兴趣模型针对不同用户的兴趣取向,提供不同的个性化服务。当用户在面 对杂乱繁多的网络资源而不知所措时,帮助用户高效精准的找到自己想到的 信息。 关键词个性搜索引擎;兴趣模型;多智能体:分类算法 j i 哈尔滨t 程大学硕十学何论文 a b s t r a c t n e t w o r kc a p a c i t yg r o w i n ga n di n f o r m a t i o nu p d a t ea c c e l e r a t i n g ,r e d u n d a n t i n f o r m a t i o n ,m i x e dt h e m e so c c u ro n ea f t e ra n o t h e r , a n dp e o p l ef i n di td i f f i c u l tt o r e t r i e v et h ei n f o r m a t i o nt h e yw a n te f f i c i e n t l y i nt h ep r o c e s so fs o l v i n gt h e s e p r o b l e m s ,s e a r c he n g i n ep r o v i d i n gp e r s o n a l i z e ds e r v i c e sw h i c he n h a n c e s r e t r i e v a l e f f i c i e n c yc o m ei n t of o c u s t h es e a r c he n g i n ep r o v i d e si n f o r m a t i o nw h i c hu s e r s a r ei n t e r e s t e di ni n i t i a t i v e l y , a n do f f e r sd i f f e r e n ts e r v i c es t r a t e g i e sa n dc o g e n tf o r d i f f e r e n tu s e r s ,i e p e r s o n a l i z e ds e r v i c em o d eo fi n f o r m a t i o n i nt h i sp a p e r , n o to n l ym o d e l i n gt e c h n o l o g yo fp e r s o n a l i z e ds e a r c hh a sb e e n s t u d i e d , b u ta l s os p r i n ta l g o r i t h ma n da g e n tt e c h n o l o g yt o g e t h e rh a v eb e e na p p l i e d t ot h em o d e l i n gp r o c e s s ,w h i c hi m p r o v et h es p e e da n da c c u r a c yo fm o d e l i n g t h u s ,i n t e r e s tm o d e li sc l o s e rt ot h e 、u s e r sa c t u a lp r e f e r e n c e s t h em o d e la n a l y z e s t h eu s e r sp e r f o r m a n c e ,f o r e c a s t st h e i ri n t e r e s t ,a n do p t i m i z e st h e i rq u e r y s t a t e m e n t s ,s oi tf i n a l l yc a nr a i s et h ee f f i c i e n c yo fi n f o r m a t i o nr e t r i e v a l t h i sp a p e rp r o v i d et h ep r o c e s si n t e r e s tm o d e l f i r s t ,d a t as t r u c t u r ed e s i g n a c c o r d i n gt ot h ei m p l e m e n t a t i o nr e q u i r e m e n to fs p r i n t ,t h r e et a b l e so fs p e c i a l s t r u c t u r eh a v eb e e nd e s i g n e dw h i c hs t o r er e q u i r e dd a t ai nd i f f e r e n tm o d e l i n g s t a g e s t h e n ,s p r i n ta l g o r i t h ma p p l i c a t i o n t h ea l g o r i t h ma p p l i e di nd a t am o d e l i n g 广 i sa l li n n 。v a t i v ep o i n to ft h i sa r t i c l e t h ee s 诎l i s 胁e mo f1 m e r e s m 。d e l 弱w e u a st h ei m p l e m e n t a t i o no fd a t ae x t r a c t i o nl e a n i n gi ne a c hs t e pi st h em a i nf o c u so f *this p a p e r f i n a l l y , i n t e r e s tm o d e le s t a b l i s h m e n t f o rt h ei n t e r e s tm o d e l ,t h i sp a p e r p r o p o s e sau n i q u ee s t a b l i s h m e n tm e t h o da n dam o d e ls t r u c t u r e d a t am i n i n g a l g o r i t h mi sf u l l ya p p l i e di nt h em o d e l i n gp r o c e s s ,a n di n t e r e s tm o d e li se x t r a c t e d w h i l eb u i l d i n gi n t e r e s tt r e ew i t ht h eu s e r sl i n ko p e r a t i o n t h ee s s e n c eo ft h i st h e s i si st oe s t a b l i s ha ni n t e r e s tm o d e lw h i c hi sa c c u r a t e a n dc l o s et ot h eu s e r sr e q u i r e m e n t t h i si n t e r e s tm o d e lp r o v i d e sd i f f e r e n tu s e r s 一 _ ,l 一 哈尔滨t 程大学硕十学位论文 o r i e n t a t i o n sw i t hd i f f e r e n tp e r s o n a l i z e ds e r v i c e s r h e nu s e r sl o s ei nm e s s y n e t w o r kr e s o u r c e s ,t h em o d e lc a nh e l pt h e mf i n dw h a tt h e yw a n te f f e c t i v e l ya n d e f f i c i e n t l y k e y w o r d s :p e r s o n a l i z e d s e a r c h e n g i n e ; i n t e r e s t m o d e l ; m u l t i a g e n t ; c l a s s i f i c a t i o na l g o r i t h m 哈尔滨t 稗大学硕十学何论文 目录 第1 章绪论l 1 1 研究背景:1 1 2 搜索引擎的发展过程及趋势2 1 2 1 搜索引擎的发展过程2 1 2 2 搜索引擎的发展趋势4 1 3a g e n t 发展现状5 1 4 研究意义6 1 5 论文内容7 1 5 1 课题创新点7 1 5 2 主要研究内容7 第2 章个性搜索的相关知识”9 2 1 搜索引擎评价原则9 2 1 1 评价指标体系9 2 1 2 新产生的评价指标1 l 2 2 个性搜索引擎“12 2 3a g e n t 智能体1 2 2 3 1a g e n t 含义及特点1 3 2 3 2a g e n t 的组成模块”1 4 2 3 3 当前a g e n t 技术在搜索引擎方面的应用1 5 2 4 本章小结1 6 第3 章个性搜索引擎中的兴趣模型1 7 3 1 目前搜索引擎存在的准确度问题一1 7 3 2 基于兴趣a g e n t 的个性搜索引擎1 7 3 2 1 基于兴趣a g e n t 的个性搜索引擎体系结构1 8 3 2 2 个性搜索引擎中一级a g e n t 工作流程框架2 0 哈尔滨t 平早大学硕十学何论文 3 3 个性搜索引擎中的兴趣模型及提取思想2 1 3 3 1 个性搜索引擎中的兴趣模型2 l 3 3 2 兴趣模型提取的抽象形式2 l 3 3 3 兴趣模型的提取流程,2 2 3 4 模型提取算法s p d n t 算法研究2 4 3 4 1 决策树分类分析2 5 3 4 2 基尼指数的计算2 5 3 4 3s p r i n t 算法代码实现2 7 3 5 本章小结2 9 第4 章用户兴趣模型的建立方法3 0 4 1 建模思想的提出3 0 4 2 基于s p r i n t 算法的建模实现3 l 4 2 1 设计数据结构:3 1 4 2 - 2 基于s p r i n t 算法的用户兴趣预测3 3 4 2 3 兴趣模型的建立3 7 4 3 建模算法分析4 0 4 3 1 复杂度分析4 1 4 3 2 性能分析4 1 4 4 本章小结4 2 第5 章模型提取中s p r i n t 算法的适用性分析4 3 5 1 分析目的4 3 5 2 分析环境州k a 简介4 3 5 3 树模型生成实验”4 4 5 3 1 数据准备4 4 5 3 2 生成树模型4 5 5 4 算法性能比较”4 7 5 5 树模型应用评估4 7 , 哈尔滨t 程火学硕十学付论文 5 6 本章小结5 l 结论5 2 参考文献5 4 攻读硕士学位期间发表的论文和取得的科研成果5 8 致谢5 9 哈尔滨工程大学硕七学位论文 第1 章绪论 1 1 研究背景 i n t e m e t 的雏形是美国国防部远景研究规划局( a d v a n c e dr e s e a r c h p r o j e c t s a g e n c y ) 在1 9 6 9 年出于军事实验目的而组织的网络,名为a r p a n e t ; 8 0 年代初,a r i a 和美国国防部通信局共同开发出了t c p 口协议,它主要 应用于异构网络;1 9 8 6 年以美国国会科学基金会( n a t i o n a ls c i e n c e f o u n d a t i o n ) 为强大支撑后台,将分散在不同区域的超级计算机用高速通信线 路组织起来,以n s f n e t 代替a r p a n e t :后来又经过过年的研究改进,发 展为i n t e m e t 。它的适用领域由初期的国防、军事,蔓延至美国国内的各个学 术机构,而后快速被全球各个领域广发应用,使用性质也在慢慢向商业化转 变【9 】。 互联网的快速发展,网络资源的丰富完善,给人们的生产、生活都带来 了极大的便利,它正在深刻地影响着人们的生活方式。人们再也不必花费大 量时间和精力,东奔西跑的挑选商品、搜集资料了。轻松点击几下鼠标,通 过对网络资源的访问,所有信息尽收眼底;人们还可以与远在千里之外的朋 友相互发送邮件、共同完成一项工作或是共同娱乐【1 2 】。过去,电视机和收音 机作为媒体是我们足不出户了解世界的工具,如今互联网作为一个新媒体, 更是使我们坐在家里就可以感受到世界每时每刻发生的变化。 随着计算机和网络的发展,互联网信息资源的迅速膨胀,于是有了搜索 引擎的诞生。传统搜索引擎的优点是信息量大,更新及时,无需人工干涉。 但随着网络信息的指数级增长,网络搜集信息的能力同人们对信息摄取的要 求之间发生了极大的冲突,海量搜索技术的弊端日益明显。网络信息内容的 复杂性、数据格式的参差不齐、网络的深度等问题都给人们的检索过程带来 了诸多不便,降低了检索速度:另外返回信息过多,夹杂着大量重复或无关 的信息,人们必须从检索结果中自行进行二次或多次筛选,又无形中降低了 哈尔滨t 程大学硕十学何论文 搜索的准确性。因此,如何提高信息的准确性、从海量的信息中搜索到对自 己有用的资料,让人们获得的“第一手资料”更能符合搜索需求,提高资料的 利用率,才应该是网络作为信息传播媒介的一个正确发展趋势【l3 1 。 1 2 搜索引擎的发展过程及趋势 搜索引擎( s e a r c he n g i n e ) 是指根据一定的模式、应用特定的程序搜集互 联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户, 是为用户提供检索服务的系统。 1 2 1 搜索引擎的发展过程 搜索引擎自从诞生就创造了一个个发展奇迹。搜索引擎虽然只有2 0 年左 右的历史,但在w e b 上的地位和作用是不可替代的。在互联网形成初期,共 享的信息资源只是少数。随着h t m l 的出现,网络信息资源的数量迅速膨胀, 搜索引擎也体现了巨大的作用。据c n n i c 统计,搜索引擎已经成为与网络 新闻、电子邮件并列的3 大w e b 应用。搜索引擎的基本工作原理已经形成的 相对稳定,但在质量、性能和服务方式等方面依然具有很大的发展潜力,所 以整个行业的发展前景不可估量。 搜索引擎从出现到现在,经过了一个短暂的雏形阶段,已经研制出了了 两代成熟的产品,包括以人工目录搜索为特点的第一代搜索引擎,以超链分 析为基础、机器自动处理的第二代搜索引擎。虽然第二代搜索引擎还不能满 足人们日益复杂的各种搜索要求,很多该领域的专家学者已经开始构想第三 代搜索引擎的结构特征,并对它的应用前景充满信息。从目前市场上搜索引 擎的产品来看,虽然有些搜索引擎正在向个性化、智能化的方向发展,但是 还没有比第二代搜索引擎有明显改进的成熟的产品出现【1 】。搜索引擎的发展 阶段如图1 1 所示。 搜索引擎每个发展阶段都产生了一系列被人们广泛应用的标志性产品。 下面对每个阶段的技术特点和典型产品进行介绍。 2 哈尔滨- t 程大学硕十学位论文 搜索引擎雏形 简单的资源检索工具 第一代搜索引擎 依靠人工分工的分类目录搜索 第二代搜索引擎 超链接分析为基础的机器自动搜索 第三代搜索引擎 个性化? 分类化? 智能化? 图1 1 搜索引擎的发展阶段 1 搜索引擎雏形阶段 该阶段并没有成型的搜索引擎出现,只有简单的互联网信息搜索工具。 最早在1 9 0 0 年,出现了可以实现信息检索功能的a r c h i e 系统。该系统的搜 索结果虽然不是以网页的形式返回,但它的工作原理和现在的搜索引擎一致。 具备信息资源自动搜集、信息处理和索引、提供资源检索服务功能。a r c h i e 是公认的现代搜索引擎的雏形。 2 第一代搜索引擎 搜索引擎以a l t a v i s t a 、y a h o o 和i n f o s e e k 为代表,主要依靠人工目录分 类。由于人类的能力有限,难以处理海量的信息资源,所以第一代搜索引擎 的质量评价是以返回的结果页的数量为标准。 3 第二代搜索引擎 随着网络资源的迅速膨胀,第二代搜索引擎慢慢发展起来。第一代搜索 引擎由于人工分类技术的限制,很难覆盖到全部的互联网信息资源。第二代 搜索引擎引入了连接技术,使搜索结果的质量有了突破性的提高,而连接技 术也是第二代搜索的标志。第二代搜索引擎系统以信息自动抓取和自动排序 检索为特征。 4 第三代搜索引擎 “如果我们相信互联网会有百年,如果相信互联网会长存,我们就应该看见只 有1 0 年历史的搜索引擎就像一个幼稚的孩子,一定会发生巨大的令人震惊的 改变 【1 4 1 。 1 2 2 搜索引擎的发展趋势 搜索引擎的终极目标是由被动的检索转变为信息的推送。用户的基本要 求决定了未来搜索引擎的发展方向,下一代搜索引擎必然是社区化、智能化、 个性化的智能搜索。简单来说包括了以下几方面内容。 1 社区化搜索 社区化搜索是目前的研究和开发热点,很多搜索引擎致力于这方面的研 究。网页数据存储的都是固定信息,而人脑却能够不断创造新信息。由于计 算理论、人工智能、脑神经科学等学科的制约,搜索专家一致认为,纯粹依 靠机器技术短期内很难实现完全智能化的搜索引擎。受w e b 2 0 巨大成功的鼓 舞,结合维基和s n s 的巨大成功,研究者开始城市社区化的搜索,依靠用户 反馈或用户点击改善搜索结果。 2 个性化搜索 个性化搜索时另一个热点问题,搜索引擎厂商根据用户的历史搜索习惯 和需求,判断用户检索的目的。对于同一个关键词,给不同用户提供符合不 同需求的差异化结果,针对个人的需求和喜好提供个性化的服务。用户的而 个性化需要根据用户的历史访问记录来获取用户模型。本文就是重点研究的 个性化模型的建立,并根据模型,把检索结果提供给不同兴趣喜好的用户。 3 智能化搜索 智能化搜索时真正希望实现真正只能的搜索引擎,传统的搜索引擎会给 用户返回几千万条记录,而实际的用户大部分只看前3 条内容,很少查看后 4 哈尔滨下程大学硕士学位论文 面的内容。这就要求未来的搜索引擎必须要引入人工智能技术,更好地理解 用户的查询意图。同时对某一个方面的内容进行综合聚合后给出结果,而不 是仅仅给出一堆连接。目前搜索引擎智能化技术只是局限于拼音纠错、分类 导航和相关检索等辅助手段,并没有做到真正意义上的智能化。 1 3a g e n t 发展现状 智能体,最简单直观的定义就是具有智能的实体,英文名是a g e n t ,它 是人工智能技术中一个很关键的概念。任何独立的能够作出决策并可以同环 境交互的实体都可以抽象为智能体。 在2 0 世纪5 0 年代末,j o l l nm c c a r t h y 提出了“t h ea d v i c et a k e r 系统,该 系统被认为具有目标性,系统内的实体可以采用人类的自然语言进行交流, 根据不同用户的需求做出决策,从而完成不同的任务,a g e n t 的思想由此诞 生。a g e n t 的概念出现于2 0 世纪7 0 年代的人工智能( m ) 中,8 0 年代后期 才成长起来。由于多媒体技术、计算机网络技术和计算机各方面技术的不断 提高,特别是i n t e m e t 和w w w 技术的发展,a g e n t 不仅成为人工智能和计 算机领域最受关注的热点研讨内容之一,而且引起了科学界、教育界、工业 界甚至娱乐界的广泛关注。8 0 年代后期,人工智能技术和分布式计算技术相 结合,继而产生了分布式人工智能( d a i ) 。由于a g e n t 是分布式人工智能的 构成因素,这个单词越来越频繁的被人们使用。1 9 9 3 年首次召开了a g e n t 形 式化模型的国际会议,同年y s h o h a m 提出了面向a g e n t 编程的a o p 概念。 1 9 9 4 年1 月,美国g e n e r a lm a g i c 公司演示了他初次公开的a g e n t 软件。1 9 9 4 年3 月,丸认i 春季年会的主题是s o i t w a r ea g e n t 。f r a n k l i n 和g r a e s s e 对a g e n t 给出了这样一个定义: a g e n t 是一个处于一个环境之中并且作为这个环境一 部分的一个系统,它随时可以感测这个环境并且执行相应的动作,同时逐渐 建立自己的活动规划以应付未来可能感测到的环境变化。”【2 4 】 a g e n t 发展迅速,但目前它还没有完全发展成熟。当前的a g e n t 技术主 要有三个研究点:a g e n t 的行为理论、a g e n t 的体系结构和a g e n t 通信,并由 哈尔滨丁稃大学硕士学何论文 此极大地促进了旨在发挥个体能力的多类型a g e n t 和面向松散型协同工作的 多a g e n t 系统( m a s ,m u l t i - a g e n ts y s t e m ) 的研究和开发。现在a g e n t 的应 用并不广泛,它还没有给人们的生活带来很大的便利,关于a g e n t 应用方面 的问题正在越来越多的被解决。现阶段几乎所有基于a g e n t 系统的开发都是 通过以下方式实现的:编程语言大多使用c + + ,j a v a ,l i s p ;通信语言使用 f i p a 的a c l ( a g e n tc o m m u n i c a t i o nl a n g u a g e ) 或者k q m l t 内容语言使用 k 正。 1 4 研究意义 近几年,互联网技术突飞猛进的发展,促进了是信息共享技术的实现和 成熟,人们已经摆脱了地点和时间的限制,可以更自由更快速的获取自己想 要的信息。信息共享使得网络信息资源的数量以惊人的速度增长,各种领域 的知识铺天盖地。面对爆炸性增长的网络资源,再加上互联网本身具有的动 态更新性、复杂多样性和分布性等特点,使得人们在获取自己需要的信息时 变得不知所措。这即是所谓的“砌c hd a t ap o o ri n f o r m a t i o n ”的问题【15 1 。如何能 够更快速、更有效地找到贴近用户需求的信息,并滤掉内容与用户无关的冗 余信息,己成为互联网信息检索领域的当务之急。 基于智能代理的信息过滤和个性化服务,是近年来被用来解决这些问题 的研究对象。智能代理是另外一种利用互联网信息的机制,它使用自动获得 的模型,包括领域模型( 如w e b 知识、与用户兴趣相关的信息资源) 、用户 模型( 如用户背景、兴趣、行为、风格) 知识进行信息搜索、过滤( 包括兴 趣过滤和不良信息过滤) ,并能够自动地将用户感兴趣的、对用户有用的信息 提交给用户,实现了缩小检索范围、精确搜索结果的目的,并大大提高了搜 索引擎的工作效率。 6 哈尔滨工稃大学硕十学位论文 1 5 论文内容 1 5 1 课题创新点 数据分类是数据挖掘中的一种分析方法。数据分类的方法很多,包括决 策树方法、统计学方法( 如贝叶斯方法) 、神经网络方法等。其中决策树分类 以其特有的优点得到了最为广泛的应用:决策树分类的速度快;。决策树模型 简单,便于理解,能方便地转换为s q l 语句来实现;相对于其它方法而言, 决策树分类可以得到较高的精确度。 传统的分类方法在处理海量数据时会出现性能下降或精度降低的问题。 为此,m m 研究人员提出了一种高速的、可伸缩的、适合处理较大规模的决 策树分类算法s p r i n t 算法。该算法消除了所有的内存限制,易于并行化,性 能较好,已经被成功地应用到从学习医疗诊断到学习评估贷款申请的信用风 险等广阔领域,此外,它还在管理、农业、医学等各个领域发挥着越来越重 要的作用。 本文将s p r i n t 算法应用到建立用户个性模型中去,通过对用户的操作行 为、浏览过的网页等记录数据的分析,学习用户的个性喜好,预测用户下一 步的操作行为,建立用户的兴趣模型,通过兴趣模型帮助用户在海量的网络 数据中,快速的查找到自己想要的资料。将s p r i n t 算法应用到新领域,是本 文的创新点。 1 5 2 主要研究内容 个性化搜索中,兴趣模型的建立十分重要。本文的主要研究内容即如何 实现用户兴趣模型的建立。将s p r i n t 算法应用到兴趣模型的提取过程,从数据 结构的设计到兴趣模型的表现形式及提取,本文都给出了设计思想。 本文的研究内容安排如下: 第l 章绪论,介绍搜索引擎和a g e n t 的两大块技术的发展过程和趋势, 并简单总结出本文的主要内容结构以及可以创新点。 第4 章建立兴趣模型的具体操作步骤以及算法的优越性分析。 第5 章实验,对s p r i n t 算法在该领域的可行性以及该算法预测的准确 性进行实验分析。 总结对整篇论文的内容进行总结概括,并提出个性化服务的不足,展 望个性化服务的发展前景。 哈尔滨t 程大学硕+ 学位论文 第2 章个性搜索的相关知识 搜索引擎经过多年的研究发展,为人们提供了互联网导航和检索服务。 搜索引擎最终目的是要为用户提供信息检索服务。本文技术实现的平台就是 搜索引擎,在搜索引擎系统中,为人们提供人性化的检索服务。提供个性化 服务的搜索引擎是否使人们受益,需要搜索引擎的评价原则来判定。另外, 个性化服务的顺利完成,离不开a g e n t 协作、中文分词等技术的支持,下面 对搜索引擎的评价原则及这些技术进行逐一介绍。 2 1 搜索引擎评价原则 搜索引擎质量的优劣需要市场和用户长期的检测。搜索引擎开发者和相 关机构对搜索引擎进行整体评价,在引擎走向市场之前全面的预测搜索引擎 产品的性能和效果。搜索引擎的评价方法包括了人工使用测评和机器自动化 测评等。 2 1 1 评价指标体系 搜索引擎设计者的初衷是帮助人们检索网上的资源信息。由于基于不同 的搜索技术的搜索引擎系统,对于同一个用户的检索结果往往差异很大,由 此产生了比较搜索优劣的要求。以往完全基于用户使用感受的评价既不客观 也不可靠,因此必须提出一套客观的评测标准。这种评测不受人们主观感觉 的影响,并且所作出的评价在大多数情况下都成立。这种评测研究的方法需 要具有明确的评测方向任务、公开测试方法和公开的评价公式。 根据以往信息检索系统的评价经验,对搜索引擎好坏的衡量主要有5 项 指标。基本的搜索引擎评测指标体系如图2 1 所示。 9 哈尔滨工程大学硕+ 学位论文 搜索引擎评价指标 相关性数据量查全率响应速度更新速度 多项评价指标综合在一起,共同构成了一个搜索引擎性能的评价指标, 具体内容如下。 1 相关性 相关性是指搜索引擎返回结果页的内容和用户输入关键词的匹配程度。 搜索精度高的搜索引擎能查到与用户输入关键词更相关的信息。查询结果与 查询条件越相符,表示查询的准确率越高。查准率可以量化,比如对某个关 键词的搜索结果有1 0 0 条,其中正确的有5 0 条,那么搜索引擎的查准率只有 5 0 。 2 查全率 查全率是指搜索引擎检索能否返回足够多的网页资源。如果在某次信息 检索时,正文库中有1 0 0 条相关文档,但搜索引擎只返回了其中的6 0 个,那 么检索的查全率为6 0 。查全率对于传统的搜索系统意义非常重大,但对于 收录了几十亿网页的搜索引擎有新的要求。一次返回上亿个结果页的查全率 没有太大意义,需要考虑的是如何获取用户真正需要的信息。 3 收录的数据量 收录的数据量是指搜索引擎收录了多少有效的网页数据。目前来看任何 一家搜索引擎都无法收录全部的网页数据。但尽可能多地收录重要网页是每 个搜索引擎努力实现的目标。虽然有研究认为当数据量到达一定程度以后, 对提高整个搜索质量的贡献较少,但只有搜索引擎的数据库收录更多更全的 站点和网页,才能保证重要的数据不被丢失。 4 响应速度 响应速度是指搜索引擎从响应用户检索请求到返回结果花费的处理时 间。从某种角度上讲,响应速度指标比收录数据的多少、更新速度的快慢、 1 0 哈尔滨丁程大学硕士学何论文 i i i i i i 置置鼍萱i 宣置i i i i i i 宣萱i i i i i i i i i i i i i i i i i i i 鼍葺i i i i i i 一i i 相关性好坏等因素还要重要。响应速度受到服务器性能、网络宽带和搜索引 擎性能等多方面因素影响,需要综合考虑才能有效提高。 5 网页更新速度 网页更新速度是指搜索引擎收录网页信息的更新频率。更新速度可以保 证返回的是最新的结果页。优秀的搜索引擎内部有实现更新功能的数据库。 通过增量加载方式,保证用户得到是最新、最全面的信息。网页更新速度可 以通过统计是否收录了最新的网页数据和搜索结果的死链率来评价。 2 1 2 新产生的评价指标 随着搜索引擎技术的不断发展和社会生活水平的逐渐提高,人们对搜索 引擎提出了许多新的要求,按照这些要求方向,搜索引擎不断改进、不断完 善、不断提高,于是产生了一些关于搜索引擎的新的评价指标【1 3 】: 人性化:能满足用户的需要,与用户需求无关的不出现,最贴近用户 目标的必须出现。这由使用引擎的用户说了算。 专业化:现代社会,人类职业的精确分工让大量的专业用户需要适合 他们自己的内容提供商。精确的地区分类和行业分类选项及保存设置将是 他们的最爱。 商业化:一堆免费的实用项目,附加人人喜欢的商业化服务,谁都爱 不释手。例如:遇到收费的内容提供商,搜索引擎提供代理交易服务,或 许用户不再放弃想要的内容。 智能化:搜索引擎的智能化程度直接影响它的收入和用户数。右侧有 限的广告空间精确发放给对应的地区、职业、爱好、年龄、性别的用户, 让用户满意。 标准化:例如:能够提供专业安全的用户数据接口,让用户无需因使 用不同的商家网站重复注册,这将会产生更强大的有效用户群和合作商 群。 哈尔滨丁程大学硕士学位论文 凝聚力:一个智能化的搜索引擎必须知道谁需要什么、什么内容该给 谁。没有足够的用户和内容凝聚力,永远别想普及智能化效果。 安全性:当一个搜索引擎,搜出来的网站链接,排名第一页的竟然普 遍带毒时,维修的技术员们就会想方设法地让用户放弃这个搜索引擎。在 网络安全问题日益严重的情况下,带毒网站是不是该排到最后呢? 总结起来,如今一个好的搜索引擎要能够提供精确的搜索结果,即用户 能够找到最符合自己要求的内容;拥有最快的响应速度,即用户可以快速的 得到检索结果。本论文采用数据挖掘算法的思想,对这两项指标进行优化。 2 2 个性搜索引擎 个性化服务是一种有针对性的服务方式,根据用户的设定来实现,依据 各种渠道对资源进行收集、整理和分类,向用户提供和推荐相关信息,以满 足用户的需求。从整体上说,个性化服务打破了传统的以被动服务模式,能 够充分利用各种资源优势,主动开展以满足用户个性化需求为目的的全方位 服务【1 2 1 。 提供个性化服务的搜索引擎即个性化搜索引擎,它本质上就是一种以用 户需求为中心的搜索服务,主动开展以满足用户个性化需求为目的的全方位 服务。首先,不同的用户通过不同手段访问网络资源。其次,引擎通过固定 的学习规则,创建用户兴趣模型,以适应不同用户的个性化需求,最终能够 为用户提供个性化服务。从上面的分析可以看出,通过分析用户的各种信息 建立用户访问模型是建立个性化服务系统的关键。因为只有先客观地描述了 用户的需求,才能根据这些需求特点向用户提供个性化服务。本文通过s p r i n t 算法对用户的数据信息进行分析学习,为准确的建立兴趣模型提供的可靠的 前提。 2 3a g e n t 智能体 智能体a g e n t ( i n t e l l i g e n t a g e n t ) 技术的诞生和发展是人工智能发展的必 1 2 哈尔滨工程大学硕十学位论文 i i i 皇i i 置葺i i i i i i i i i i i 萱i 葺i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i l _ i i _ 然产物。智能a g e n t 技术尤其是多智能a g e n t 系统的出现为写作问题求解的 研究提供了新的方法。 2 3 1a g e n t 含义及特点 a g e n t 的典型定义剧3 9 】:a g e n t 是在一定环境下能独立自主地运行,具有 目标、知识和推理决策能力,作用于环境也受环境影响,且能不断地从环境 中获取知识以提高自己的能力,将推理与知识表示相结合,能够为用户完成 特定任务的能动实体。从广义上讲,在更多应用领域中,a g e n t 是指任何具 有智能行为和交互特征的分布式的实体,包括人类、机器人、智能硬件以及 智能软件。本文涉及到的a g e n t 属于软件a g e n t 。 m m i n s k y 在s o c i e t yo f m i n d 一书中认为,a g e n t 应具有社会交互性和智 能性。英国的a g e n t 理论专家w o o l d r i d g e 和j e n n i n g s 认为,a g e n t 应具有自 主性、社会交互性、反应能力和预测能力,应具有通信能力和协作能力。综 合专家学者和文献中提出的a g e ;j a t 特点,本文认为a g e n t 应具有如下特点: ( 1 ) 自主性。a g e n t 是一个有独立自主特性的实体,它的行为不需要人为 的或其他个体的参与;它自身具备控制能力,可以独自做出决定如何 解决给出的若干问题,并以一定的形式与周围的环境互动。 ( 2 ) 主动性。a g e n t 在接受某一任务之后,具有主动完成任务的能力,在 这个目标的指导下,它会根据已有的经验和知识,运动正确的方法, 对目标进行推理预测。 ( 3 ) 持续性。a g e n t 在完成某一任务时,求解过程是持续不间断进行的, 并且这种求解状态在整个过程中保持一致。 ( 4 ) 交互性。a g e n t 虽然具有独立自主的能力,但是单个个体不能单独存 在于某个环境之中,它需要与其他a g e n t 进行交互,协作完成某个任 务。 ( 5 ) 适应性。a g e n t 能够根据所处环境做出相应的反应动作。 哈尔滨丁程大学硕十学位论文 2 3 2a g e n t 的组成模块 不同类型的a g e n t ,其结构是不同的,功能简单的a g e n t 其结构也相对 简单。但无论a g e n t 的结构如何,它的组成模块大致相同,以下是几种常见 模块: 通信模块:该模块主要负责与环境中的其他a g e n t 进行可靠的数据交互, 交互方式有包括端对端和多播式两种。a g e n t 的通信语言a c l ( a g e n t c o m m u n i c a t i o nl a n g u a g e ) 主要有两种:一种是标准通信语言k q m l ( k n o w l e d g e q u e r ya n dm a n i p u l a t i o nl a n g u a g e ) ,另一种是基于语言行为( s p e e c ha c t - b a s e ) 理论的特别通信语言,如i c l ( i n t e r - a g e n tc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论