




已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)基于用户兴趣的web中文信息个性化过滤系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 针对目前信息检索系统的缺点,在研究w 曲信息过滤理论的基 础上,论文提出了一种基于用户兴趣的w e b 中文信息个性化信息过 滤系统p w c i f s ,该系统结合人工智能a g e n t 技术、机器学习技术、 中文分词技术与现有信息检索工具,克服了当前搜索引擎不面向单 个用户提供个性化服务的缺点。 论文首先给出了p w c i f s 的总体设计思想和系统体系结构,然 后对w e b 中文信息过滤算法和个性化的实现方法做了详细阐述。针 对中文信息处理的特殊性,给出了适合中文信息的过滤策略,信息 过滤前对采集到的w e b 信息进行预处理、分词等一系列处理,然后 对所得结果进行聚类分析,从而得到兴趣主题的予类;提出树型结 构的用户兴趣表示模型,采用智能a g e n t 对用户在结果呈现界面上 的浏览行为进行跟踪记录,同时利用b p 神经网络结合强化学习算法 来进行用户兴趣学习,根据所学到的知识对兴趣模型进行更新。 p w c i f s 系统“隐式”跟踪用户的浏览行为自动识别用户兴趣,自 动生成用户兴趣模型,并基于此兴趣模型对检索结果进行个性化过 滤。经过过滤处理后的文档,其精度显著提高,更加贴近用户的兴 趣。 关键词用户兴趣,信息过滤,中文分词,强化学习,b p 神经网络 a b s t r a c t t h e r ee x i s tm a n ys h o r t c o m i n g si nt h ec u r r e n tr e t r i e v a ls y s t e m s , w h e np e o p l eu s es e a r c he n g i n e s t h em a s s i v ei r r e l e v a n ti n f o r m a t i o ni s o f t e ne n c o u n t e r e d t oo v e r c o m ep r o b l e m se x i s t i n gi ne f f i c i e n c yo f s e a r c hp r e c i s i o n ,b a s e do nt h ew e bi n f o r m a t i o nf i l t e r i n gt h e o r y , t h i s p a p e rp r o p o s e dak i n d o fp e r s o n a l i z e di n f o r m a t i o nf i l t e r i n gs y s t e m s u i t a b l ef o r d i f f e r e n tu s e r s i n t e r e s t s t h i ss y s t e mi ss u c hak i n d o f s e r v i c es y s t e mt h a tc o l l e c t e dm u l t i p l et e c h n o l o g i e s ,s u c ha sa r t i f i c i a l i n t e l l i g e n c ea g e n tt e c h n o l o g y , t h em a c h i n el e a r n i n gt e c h n o l o g y , c h i n e s e p a r t i c i p l et e c h n o l o g ya n dt h ee x i s t i n gi n f o r m a t i o nr e t r i e v a l t o o l si na b o d y t h ep a p e rh a sf i r s tp r o d u c e dt h ed e s i g nt h o u g h ta n dt h es t r u c t u r eo f t h es y s t e m ,a n dt h e nm a d ead e t a i l e de l a b o r a t i o no ft h ei n f o r m a t i o n f i l t e r i n gs t r a t e g ya n dt h ep e r s o n a l i t yr e a l b ;a t i o nm e t h o d i nt h ea s p e c to f i n f o r m a t i o n f i l t e r i n g ,s p e c i a lf i l t e r i n gs t r a t e g y i s g i v e n ,t a k i n g i n t o a c c o u n tt h ep a r t i c u l a r i t yo fc h i n e s ew o r d s t h es t r a t e g yi sa sf o l l o w s : b e f o r ef i l t e r i n g ,c a r r yo nas e r i e so fp r o c e s s i n g ,w h i c hi sp r e t r e a t m e n t , c h i n e s ew o r ds e g m e n ta n ds oo n w h e nf i l t e r i n g ,f i r s tb a s e do nk e y w o r df i l t e r i n g ,a n dt h e nc a r r yo nt h ec l u s t e r i n ga l g o r i t h m ,t h u so b t a i n s t h es u b c l a s si n t e r e s tt o p i c i nt h ep e r s o n a l i z a t i o nr e a l i z a t i o na s p e c t ,t h e a u t h o rp r o p o s e dt r e es t r u c t u r et od e s c r i b eu s e ri n t e r e s tm o d e l ,a n dt h e i n t e l l i g e n ta g e n ti su s e dt ot r a c kt h eu s e r sb r o w s i n gb e h a v i o r s ,a tt h e s a m et i m e ,u s i n gt h eb pn e t w o r kc o m b i n e dw i t hr e i n f o r c e m e n tl e a r n i n g a l g o r i t h mt os t u d yu s e r si n t e r e s t sa c c o r d i n gt o t h ek n o w l e d g ew h i c h l e a r n st ot h ei n t e r e s tm o d e l t h ep w c i f ss y s t e mt h r o u g h ”h i d d e nt y p e ”m e t h o dt ot r a c ku s e r s b r o w s i n gb e h a v i o r s ,s ot h a td i a g n o s i su s e r si n t e r e s t sa n dp r o d u c e st h e u s e rp r o f i l ea u t o m a t i c a l l y , f i n a l l yf i l t e r st h er e t r i e v a lr e s u l t sa c c o r d i n gt o t h eu s e rp r o f i l e a f t e rt h e p e r s o n a l i z e df i l t e r i n gp r o c e s s ,t h e w e b i n f o r m a t i o nb e c o m e sc l o s e rt ot h eu s e r si n t e r e s t s k e yw o r d su s e ri n t e r e s t ,i n f o r m a t i o nf i l t e r i n g ,c h i n e s ew o r d s e g m e n t ,r e i n f o r c e m e n tl e a r n i n g ,b a c kp r o p a g a t i o nn e u r a ln e t w o r k i i 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均己在论文中作了明确的说明。 作者签名:碰监翌日期:年虫血 f 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 日期:边盘年亟五日 硕:l :学位论文笫一章绪论 1 1 研究背景 第一章绪论 随着因特网的迅猛发展,如何从数以亿计的网页中迅速准确地搜索到满足用 户需求的信息,已经成为人们迫切需要解决的问题之一。1 。搜索引擎的出现大大 提高了人们搜集信息的能力。作为当前w e b 信息检索的主要方式,搜索引擎为 用户提供了一个初步的信息检索平台,并成为仅次于e m a i l 服务的互联网上最 重要的服务之一。 虽然目前世界上已经很有多个著名的搜索引擎,但其检索性能和服务质量还 远不能满足用户的需求“。当前搜索引擎还存在以下几个亟待解决的问题: ( 1 ) 无法满足用户个性化的需求“” 现在的搜索引擎对所有用户都是一种模式,查询相同的关键词,将得到相同 的结果,不参与用户的背景知识、兴趣特征研究,不具有对单个用户的浏览模式 和浏览行为进行分析的功能,因而不具有提取用户兴趣的能力。一句话,只面向 公共用户,不能适应单个用户的查询需求。当前需要解决的问题是根据用户仅有 的几个输入词,来猜测用户要查找什么,即理解用户的需求和查询的兴趣。 ( 2 ) 返回的结果显示方式过于简单,查询精度不高。7 1 搜索引擎返回的检索结果中一般只简单地包含文档的u r l ,以及标题、摘 要等少量附加信息。用户要想在众多的检索结果中找到自己所需的信息,必须逐 个进行浏览,这是一项极其费时费力的工作,这就是所谓的“信息过载”。经调 查研究,用户在检索结果中查找信息的层次一般是3 5 个页面,而对于之后的返 回结果都很少进行浏览”1 。所以改善搜索引擎返回结果的显示,同时去除大量与 用户查询无关的返回结果,也是提高搜索引擎性能的重要技术之一”1 。 ( 3 ) 用户与系统的交互较为简单,没有考虑用户的反馈” 并不是所有的用户一开始都有一个较为明确的查询目标。一方面,由于缺乏 良好的查询接1 2 1 ,用户不能准确地表达自己的需求,而搜索引擎基本上都没有边 查询边修正查询关键词的功能,用户无法通过不断细化或精确化自己的查询关键 词来达到准确表达自己需求的目的。另一方面,系统只负责返回结果给用户,并 不关心用户对返回结果的选择或评价,没有充分利用用户的反馈来进一步提高系 统的性能。 ( 4 ) 查询覆盖面有限“1 据权威统计,目前搜索网页最多的搜索引擎a l t a v i s t a 也只能达到信息量的 硕士学位论文第一章绪论 4 0 左右“1 。因此用户经常采用多个搜索引擎进行查询,以提高检索的查全率。 ( 5 ) 对动态网页的处理能力弱 许多搜索引擎的查找结果仅为可访问的界面,有些用于生成动态页面内容的 后台数据库内容还不能访问,搜索引擎的搜索范围应扩大到动态页面“”。 除了以上的问题之外,由于中文信息的特殊性,中文搜索引擎在自动分词、 文本分类、文本聚类等方面存在更大困难。目前中文搜索引擎尚处于发展和完善 阶段,其检索精度有待提高“3 。因而,人们迫切需要开发出一种新型的更加简单 化、智能化的信息检索工具,以帮助人们从互联网中快捷准确地获取所需的信息, 尤其是对于中文信息的获取。提供个性化的信息服务,成为近年来的研究热点。 作为面向因特网的个性化服务的一个重要环节,信息过滤( i n f o r m a t i o n f i l t e r i n g :i f ) 技术近年来在信息处理体系中应用越来越广泛。i f 系统的作用与 传统的信息检索系统类似,用于帮助用户选择感兴趣的文档。然而要构造适用于 万维网上的中文信息过滤系统,传统的软件工具是难以胜任的,结合人工智能 a g e n t 技术、机器学习技术、中文分词技术与现有信息检索工具的个性化过滤系 统则可以帮助解决上述问题。 w e b 信息个性化过滤就是在上述背景下受到重视,它可以对用户的查询请求 进行个性化分析,并对返回结进行信息过滤,在与用户交互过程中不断为用户推 荐符合用户兴趣的w e b 信息,因而能提高查询精度、满足用户的实际需求。 1 _ 2 国内外研究现状 国内外关于个性化信息服务的研究很多,而且个性化服务的研究是和人工智 能、a g e n t 的研究以及数据挖掘的研究相结合的。目前存在着许多个性化服务系 统,它们提出了各种思想以实现个性化服务。 基于规则的系统如:i b m 的w e b s p h e r e ”,b r o a d v i s o n 。1 ,i l o g 。3 等,它 们允许系统管理员根据用户静态特征和动态属性来制定规则,一个规则本质上为 一个语句,规则决定了在不同的情况下如何提供不同的服务。基于规则的系统的 优点是简单、直接,缺点是规则质量很难保证,而且不能动态更新,此外,随着 规则的数量增多,系统变得越来越难以管理o “。 基于内容的过滤系统如:p e r s o n a lw e b w a t c h e r “1 ,l e t i z i a “3 1 “1 ,c i t e s e e r o “和s y s k i l l & w e b e r t “”和w e b p e r s o n a l i z e r 。1 等,它们利用资源与用户兴趣的相似 性来过滤信息,基于内容过滤的系统其优点是简单有效,缺点是难以区分资源内 容的品质和风格,而且不能为用户发现新的兴趣点,只能发现和用户已有兴趣相 似的资源。 协作过滤系统如:s i t e s e e r “”等,它们利用用户之间的相似性过滤信息。基 硕士学位论文第一章绪论 于协作过滤系统的优点是能为用户发现新的感兴趣的信息,缺点是存在两个很难 解决的问题:一个是稀疏性,亦即在系统使用初期,由于系统资源还未获得足够 多的评价,系统很难利用这些评价来发现相似的用户;另一个是可扩展性,亦即 随着系统用户和资源的增多,系统地性能会越来越低。 还有一些个性化服务系统如:w e b s i f t ,f a b ,a n t a g o n o m y 和d y n a m i c p r o f i l e r 等,同时采用了基于内容过滤和协作过滤这两种技术1 。结合这两种技 术可以克服各自的一些缺点,为了克服协作过滤的稀疏性问题,可以利用用户浏 览过的资源内容与其他用户对其他资源的评价,这样可以增加资源评价的密度, 利用这些评价再进行协作过滤,从而提高协作过滤的性能。 下面简要介绍几个具有代表性的个性化服务系统。 ( 1 ) s y s k i l l & w e b e r t s y s k i l l & w e b e r t 是c a l i f o r n i a 大学的p a z z a n i ,m 等人开发的一个辅助用户浏 览的w e b 导航工具。系统可以根据用户兴趣模型,向用户推荐他可能感兴趣的 超链。系统将为用户的每个兴趣主题建立相应的兴趣模型,用户刚开始使用系统 时,要直接将自己的兴趣主题提交给系统。包括:兴趣主题的名字,相关索引页 面的u r l ,与此兴趣主题相关的关键词,以及这些关键词的概率值( 表示关键 词出现在用户兴趣的网页中的概率) 。这样关于该兴趣主题的初始兴趣模型就建 立好了。在浏览的过程中,一旦用户发现了新的兴趣主题,只能以这种方式告诉 系统,系统不能检测用户新的兴趣主题的出现。 ( 2 ) w 曲w a t c h e r w e b w a t c h e r 是由c u m 大学的r o b e r t a r m s t r o n g 等人开发的基于服务器端的 个性化系统。它所导航的用户是登陆w e bw a t c h e r 服务器的所有用户,它所建立 的用户兴趣模型是当前大多数用户的普遍访问模式,这与s y s k i l l & w e b e a 系统存 在区别,s y s k i l l & w e b e r t 是针对单用户的系统。它使用了一个称为信息查找助理 的主体,帮助用户在网上导航,同时该系统通过对用户选择的链路或站点跟踪学 习,获得学习知识,如哪一个超链可能达到目标信息,并使用这些知识交互地帮 助用户定位所需信息,从而改善了导航质量。 ( 3 ) p e r s o n a lw e bw a t c h e r p e r s o n a lw e bw a t c h e r 也是c u m 大学开发的一个个性化系统,同样提供推荐 服务。它在用户浏览网页时提供帮助,将用户感兴趣的链接突出显示出来。与 w e b w a t c h e r 不同,p e r s o n a lw e b w a t c h e r 针对特定用户,通过学习用户以前的浏 览模式来得到用户兴趣模型。它无需用户参与,不需要用户给出网页的评价。在 学习阶段,对用户访问过的网页进行分析或更新用户兴趣模型。 ( 4 ) i ,e t i z i a 硕士学位论文第一章绪论 l e t i z i a 是由m i t 的h e n r yl i b e r m a n 开发的基于客户端的个性化系统。l e t i z i a 的工作方式如下:当用户启动浏览器后,l e t i z i a 就在后台观察跟踪用户的浏览行 为,比如:点击了哪些超链、访问了什么页面、输入搜索引擎的关键词有哪些、 各个行为的时间戳是多少。系统采用一个启发式规则集,对记录的浏览行为建模, 从而产生用户的p r o f i l e ,系统决不会要求用户进行显式的评价。这是l e t i z i a 和 s y s k i l l & w e b e r t 最大的区别。 l e t i z i a 的启发式规则主要用来说明用户的浏览行为和用户的兴趣之间的关 系。例如,如果用户在收藏夹中“添加”了某个页面,则说明了用户对此页面的 强烈兴趣。如果用户接下来很快就关闭了这个页面,则用户对此页面无兴趣:但 相反,用户在此页面上花费了比较长的浏览时间,则说明用户对页面有较强的兴 趣等等。l e t i z i a 的这种通过跟踪用户的浏览行为来分析用户兴趣度的思想,在本 论文中得到了借鉴。 国内也有一些相关研究,如:南京大学多媒体技术研究所推出的一种个性化 信息搜索引擎d o l t r i a g e n t “,该系统将a g e n t 技术应用于网络信息搜索,其 主要的特征是具有学习功能,能够在信息交互中获得用户的信息,包括用户的兴 趣、爱好和思维方式,在此前提下,系统可以主动、定期地位用户查找信息,并 根据用户搜索信息的变化调整“知识库”中的通用字和关键字,使之能够更有效 地适应专门领域的信息搜索。系统的本地信息库还可以对搜索到的信息进行分类 存储和管理,并具有与其他系统的写作功能。清华大学研制的p i n s 系统和 b o o k m a r k 系统“,它们能自动收集和记录用户的习惯和兴趣,跟踪用户的信息 需求。中国科技大学研制的个性化智能信息检索系统“,该系统采用分布式智能 体技术、相关反馈学习算法和基于多用户个性化模式的层次智能信息过滤算法, 并采用了多模块解决了现有系统在交互方式、自适应用户兴趣和信息源变化、高 效并行检索等方面的不足。 1 3 本文研究内容 现有的国外的个性化服务系统,虽然在服务的个性化、服务的智能性、适应 用户兴趣的变化等方面得到了比较满意的解决,但在个性化体现的程度与系统负 荷方面仍存在一些不足之处,而且目前并不处理中文信息。而国内虽然有部分个 性化服务系统处理中文,并针对特定的领域进行研究,但由于自然语言理解的特 殊性,使之在关键技术上仍然没有实质性进展。 本文在研究和借鉴国内外个性化服务系统的基础上设计了一个w e b 中文信 息个性化过滤系统p w c i f s ( p e r s o n a l i z e dw e bc h i n e s ei n f o r m a t i o nf i l t e r i n g s y s t e m ) 。p w c i f s 系统事实上是一个个性化推荐系统,它将所获取的w e b 网页 硕士学位论文 第一章绪论 中用户感兴趣的信息保存下来,以聚类簇的形式将兴趣主题的子主题推荐给用 户,并将与兴趣无关的信息滤除。 论文以构建p w c i f s 系统为目的,进行了以下几方面的研究。 ( 1 ) 系统整体架构及各模块功能设计及部分功能实现 ( 2 ) w e b 中文信息过滤算法的研究 ( 3 ) 用户兴趣模型的建立和更新方法研究 ( 4 ) 人机交互方法研究 ( 5 ) 用户兴趣挖掘方法研究 1 4 论文主要贡献及组织结构 1 论文主要贡献 ( 1 ) 提出了中文环境下的信息过滤算法 提出预测采集过滤策略,即根据用户兴趣模型中的兴趣项对用户感兴趣的信 息有目的地采集。同时,对传统分词算法进行改进,提出基于h a s h 结构的机械 统计分词算法。 ( 2 ) 与用户交互采用显式与隐式相结合的方式,减轻了用户负担 初始兴趣主题来源于用户显式提供,而对用户兴趣的学习主要依靠与用户的 “隐式”交互获得,不需要用户反复提供显式反馈。p w c i f s 系统利用智能a g e n t 对用户在结果呈现界面上的浏览行为进行跟踪记录,根据所获得的浏览行为信 息,采用b p 神经网络计算出用户对所浏览的网页的兴趣度,进而得出用户对整 个聚类簇的兴趣度,在与用户的“隐式”交互中学习到了用户兴趣。 ( 3 ) 将用户感兴趣信息进一步挖掘,细分为兴趣子类 传统的个性化过滤系统将返回结果分为两类:一类是用户感兴趣的信息,一 类是无关信息。p w c i f s 系统则将用户感兴趣的信息进行聚类,进一步细分为各 个兴趣子类,每个兴趣子类将以聚类簇的形式呈现给用户。 2 论文组织结构 全文共分为六章,各章的内容如下: 第一章绪论。介绍了个性化服务的研究背景、国内外研究现状、本文所研 究内容及本文工作。 第二章基于用户兴趣的w e b 中文信息个性化过滤系统建模。在对当前国内 外研究现状以及机器学习、智能a g e n t 技术、中文分词技术、信息过滤技术等相 关技术进行分析和研究的基础上,设计了一个基于用户兴趣的个性化过滤的解决 方案,其中包括设计思路、系统结构和系统流程。 第三章w e b 中文信息过滤核心理论和算法研究。针对中文信息处理的特殊 硕:t 学位论文 第一章绪论 性,给出了适合于中文信息的信息过滤策略,对信息过滤中涉及的关键技术进行 深入分析,设计了相关算法。 第四章p w c i f s 系统中个性化的实现。提供了兴趣模型的表示方法、用户 兴趣信息的获取方法、利用机器学习进行用户兴趣学习的方法。 第五章系统实现与实验分析。为了验证上述中文分词算法、文本聚类算法 以及用户兴趣建模算法的有效性,设计了相关实验。 第六章总结和展望。对本文所做的工作进行总结,指出了工作中的长处和 不足,并对下一步要做的工作进行探讨。 硕:| 二学位论文第二章基于用户兴趣的w e b 中文信息个性化过滤系统建模 第二章基于用户兴趣的w e b 中文信息个性化过滤系统建模 2 1 个性化过滤系统的相关研究 2 1 1 个性化过滤系统的一般模型 由于不同的系统目标不同,不同的个性化过滤系统会有不同的解决方案,以 适应该系统的特点,但无论个性化过滤系统具有怎样的不同,一般应包含以下几 个基本部分:数据分析器,过滤器,用户兴趣模型模块和学习模块“。如图2 1 所示。 、t h i si n f o r m a t i ” 、一一一一一一。 图2 - 1 个性化信息过滤系统的一般模型 ( 1 ) 数据分析模块。从信息提供者处获取或收集信息( 例如文档、消息) , 将信息进行分析并以适当的数据形式( 例如向量) 来表示。表示结果被输入到过 滤部件中。 ( 2 ) 过滤模块。将用户模型与信息进行匹配,从而决定一条信息与用户是 否相关。有时决定信息是否相关,有时决定信息相关度。获得过滤结果的用户是 信息相关性的最终决定者,用户的评估可进一步反馈给学习部件。 第二章基于用户兴趣鲍w e b 中文信息个性他过滤系绞建模 ( 3 ) 用户模型模块。熙式或隐式地收集用户的信息需求,并构建用户模型, 爝户模墅也被输入蠲过滤豁件中。 ( 4 ) 学习模块。由于建立和改变用户模型的困难,过滤系统必须包括一个 学习部件,发现弼户兴趣的变纯,并通_ 逯强纯、弱纯或取消现存爝户的知谈,来 更新用户模型。否则,不精确的用户模型将影响过滤结果。 2 1 2 个性化过滤系统的实现方式 基于w e b 静个经纯骚务体系结褥蟊弱户兴趣模懋分布靛位置裔缀大懿关系, 用户兴趣模型可以存放在服务器端,客户端,代理端“,如图2 2 所示。 图2 - 2 ( 1 ) 为服务器端个性仡过滤系统的实现结构。现有个性纯邋滤系统中, 大部分系统的用户模型都存放在服务器端,比如s y s k i l l & w e b e r t “”,l e t i z i a “1 , a n a t a g o n o m y ”等,它酶优点是可戳避免嗣户兴趣模型酌传输,除了支持基于内 容过滤,j i 琵支持协作过滤,缺点是用户兴趣模型不能在不同的w e b 之间共事。 缮2 - 2 ( 2 ) 为客户灞个蕊耽过滤系统筑实瑷结构。在客户端实瑷结梅中,幽予 用户的信息就在本地收集和处理,因而不但能够获取丰富准确的用户信息以构建 离矮量静麓户兴趣簇垄,焉虽可戳离效逮绦护蔫产掩隐私,键缺点怒不畿疆鏊萁 他用户信息以实现协作过滤,只能进行基于内容的过滤。 鹜2 - 2 ( 3 ) 为 弋瓒滚令毪纯过滤系统筋实疆结稳。在戴蠖滤实瑗络毒驽孛,囊予 用户的信息需要传给代理端以进行用户兴趣建模,因而其缺点是同时还需要传输 嗣户兴趣援型,瑟藏无法缣护震户豹隐取。其撬点楚不仅可以支持蘩予蠹容熬过 滤和协作过滤,还支持用户兴趣模型在不同w e b 应用之间的共享。 圈2 2 个眭纯过滤系统的实瑰方式 2 1 3 现鸯个性化过滤系统模型分毒嚣 通过对1 2 节所述的个性化过滤系统进行分析,可知现有的个性化过滤系统 硕:i :学位论文 第二章基于用户兴趣的w e b 中文信息个性化过滤系统建模 存在如下不足: ( 1 ) 个性化体现的程度 基于w e b 日志挖掘技术的个性化服务系统是通过分析w e b 日志,利用用户 之间的相似性来过滤信息,从而为兴趣相近的用户推荐相同的网页。此种类型系 统是针对兴趣相近用户群进行网页推荐的,而并非针对单个的用户,因而不足以 体现个性化服务的优点。 ( 2 ) 系统负荷 现有的大部分个性化服务系统的用户模型都是存放在服务器端的,由于大型 的网站一般都拥有大批量的用户,并且用户模型不能在不同的w e b 应用之间共 享,因而会造成服务器的负荷过重。 2 2p w c i f s 系统总体结构设计 2 2 1 设计原则与目标 个性化这个词现在许多领域都提到了,虽然针对不同时期、不同领域、不同 服务内容,它的内涵和思想可能不相同。但最终有一点是共同的,那就是以某一 个最终服务对象为中心来决定服务的内容、方式、策略等。论文所研究的p w c i f s 系统也如此,系统个性化的核心思想就是以用户为中心,以一定的信息、计算机、 网络技术为手段,提炼用户的真正兴趣与偏好,形成用户兴趣模型,以此为依据 对i n t e r n e t 中搜索出的w e b 文档进行个性化过滤,并且向用户主动地推荐感兴趣 的w e b 文档的一种思想。“3 。 从个性化服务的核心思想出发,可以概括个性化过滤系统的几大特征,同时 也是p w c i f s 系统所要达到的目标。 ( 1 ) 高度个性化 顾名思义,个性化就是针对每一个用户不同的喜好,在相同的输入之下,产 生符合当前用户需求的结果。因此,能否将用户感兴趣的内容提供给用户,并将 其他内容剔除,使返回给用户的结果集更加符合用户的实际需求,这是一个个性 化过滤系统成功的基础。 ( 2 ) 快速适应性 用户的兴趣、爱好是处在不断的变化中,所以系统必须能够快速的适应用户 的变化,并根据这些变化得到新的结论即用户现在感兴趣的内容是什么。然 后,采取相应的措施,使系统能跟上用户的需求,从而产生更加理想的结果。 ( 3 ) 智能扩展性 一个好的信息过滤系统,还要有预测能力。通过对用户使用以来系统所接收 硕士学位论文 第二章基于用户兴趣的w e b 中文信息个性化过滤系统建模 到的信息的分析和预测,探索未知领域,或者发现用户潜在的兴趣。 综合考虑上述情况,在借鉴国内外个性化服务系统的基础上,论文设计了中 文环境下的个性化信息过滤系统p w c i f s 。它是基于内容过滤的客户端个性化服 务系统。进行p w c i f s 系统设计时,将一般模型中的用户兴趣模块划分为两部分: 用户a g e n t 和用户兴趣模型。p w c i f s 系统首先根据用户兴趣模型中的兴趣项有 目的地去采集,对于采集到的w e b 网页,以往信息过滤系统是将其与用户兴趣 模型进行相似度计算,设定一个阈值,相关度高于该阈值的信息将作为用户感兴 趣的信息推荐给用户,其余信息将视为无关信息被滤除;p w c i f s 系统则将用户 感兴趣的信息进行聚类,进步细分为各个兴趣子类,每个兴趣子类以聚类簇的 形式呈现给用户。 p w c i f s 系统具有如下特点: ( 1 ) 个性化 个性化是指能够将用户感兴趣的内容提供给用户,并将其它与用户兴趣无关 的内容提出,使返回给用户的结果更加符合用户的实际需求。这是p w c i f s 系统 设计的出发点也是本系统的目的。即:不断地为特定的用户检索他所感兴趣的某 一类或者是几类信息,然后返回给用户。 ( 2 ) 自适应性 自适应性是p w c i f s 系统的“灵魂”所在,由于用户的兴趣、爱好总是在不 断的变化中,如果一个个性化系统不能较好地适应用户的兴趣变化,那么该系统 就很难适应用户的需求变化,因此,p w c i f s 系统中引入“兴趣度”来修正用户 的兴趣特征向量为用户实现更好的信息过滤。 ( 3 ) 易用性 p w c i f s 系统使用起来比较简单,过滤返回结果以聚类簇的形式展现给用 户,将用户感兴趣的信息细分为不同聚类簇,使得用户兴趣更加精确,同时也便 于用户浏览。 ( 4 ) 减轻用户负担 该系统进行检索过滤时,不需要用户反复地提供显式反馈,只需在初始查询 时给出感兴趣的主题类别,即可“隐式”学习到用户的兴趣。 ( 5 ) 保护用户的隐私 由于p w c i f s 系统是基于客户端的系统,用户的所有注册信息都保存在本 地,用户不必担心自己所注册的信息不安全。除此之外,由于用户兴趣模型存放 在客户端,使得用户兴趣模型能够在不同的w e b 应用之间共享,因而减轻了服 务器的负荷。 硕士学位论文第2 2 章基于用户兴趣的w e b 中文信息个性化过滤系统建模 2 2 2 系统结构 图2 3 是p w c i f s 系统结构,系统由四部分组成:用户a g e n t 、信息采集模 块、信息过滤模块和兴趣学习模块。用户通过用户a g e n t 与系统进行交互,系统 将信息过滤结果在用户a g e n t 中呈现给用户,同时由用户a g e n t 跟踪用户的浏览 行为。信息采集模块从用户兴趣模型中提取出查询关键词送往搜索引擎进行搜 索。信息过滤模块将搜索返回结果进行过滤,结果以聚类簇的形式展现给用户。 兴趣学习模块根据用户的浏览行为更新用户的兴趣模型。 图2 - 3p w c i f s 系统结构图 p w c i f s 中各模块之间彼此独立而又相互协作,实现了整个系统的功能。下 面对p w c i f s 系统的主要功能模块做一简单描述。 ( 1 ) 用户a g e n t 用户a g e n t 负责与用户交互,主要由输入、用户行为跟踪、结果显示三部分 组成。用户通过登录界面进入系统的查询界面,在查询界面中,用户可以选择兴 趣的类型,输入查询关键词进行查询。用户a g e n t 是通过j s p 、j a v a s c r i p t 、h t m l 来实现的。j s p 、h t m l 用来表示用户的登录界面、查询界面以及结果的输出界面。 j a v a s c r i p t 用来跟踪用户的浏览行为,把用户的隐式反馈传递给兴趣学习模块。 ( 2 ) 信息采集模块 信息采集模块负责信息的检索,并将检索的结果传送给信息过滤模块进行处 理。信息采集模块利用g o o g l e 的w e bs e r v i c e 来实现。g o o g l e 提供了基于s o a p 的w e bs e r v i c e ,因此用户可以向g o o g l e 服务器提交的查询请求,而后g o o g l e 服务器将处理这些请求,并返回s o a p 格式的查询结果。 ( 3 ) 信息过滤模块 信息过滤模块将搜索结果进行分词、特征提取、聚类等一系列处理,最终将 搜索结果聚类成簇( c l u s t e r ) ,每一个簇是用户所查询主题的子主题。聚类结果 包括有多少个簇,每个簇的公共属性,哪些文档属于哪些簇。由于中文信息处理 的特殊性,使得中文文本聚类的算法远远不同于西文,p w c i f s 采用了混合聚类 硕:i :学位论文 第二章基于用户兴趣的w e b 中文信息个性化过滤系统建模 算法。 ( 4 ) 兴趣学习模块 兴趣学习模块负责学习用户的兴趣, 根据用户的行为信息利用三层b p 神 经网络计算出用户的满意度u t i l i t y ,效果是一种把状态映射到实数的函数,用户 a g e n t 采取不同的动作a c t i o n 会产生不同的效果,然后依据相应的策略更新用户 兴趣模型。 2 2 3 系统流程 系统工作流程见图2 - 4 ,其中虚线框部分是本文重点研究内容。 个性化的实现 , 一 图2 - 4 基于用户兴趣的w e b 中文信息个性化过滤系统工作流程图 s t e p l 用户输入要查询的针对某一主题的查询关键词; s t e p 2 用户a g e n t 从用户那里获得该查询关键词,并将其保存到用户兴趣模型中 作为初始的兴趣模型; 硕:i :学位论文第二章摹于用户兴趣的w e b 中文信息个性化过滤系统建模 s t e p 3 信息采集模块从用户兴趣模型中提取查询关键词; s t e p 4 信息采集模块将该关键词送往搜索引擎; s t e p 5 搜索引擎将搜索结果送往信息采集模块; s t e p 6 信息采集模块将搜索引擎返回的结果送到w e b 中文信息过滤模块;信息过 滤模块对所得w e b 中文信息进行预处理、分词、基于关键词过滤、聚类 等一系列处理: s t e p 7 信息过滤模块将聚类结果送往用户a g e n t ; s t e p 8 用户a g e n t 将s t e p 6 得到的聚类结果呈现给用户,跟踪并记录下用户对这 些文档的反应,也即监视用户的行为: s t e p 9 用户a g e n t 将用户的行为信息送往兴趣学习模块; s t e p l 0 学习模块根据s t e p 9 得到的用户的行为信息计算出兴趣度,更新用户兴趣 模型: s t e p l l g o t os t e p3 。 2 3p w c i f s 所涉及的相关技术 个性化技术的研究不是孤立的,要想实现快速准确的w e b 中文信息个性化 过滤系统,必然涉及到数据挖掘、人工智能、中文信息处理等领域的知识。 1 中文分词 p w c i f s 系统中需要处理的对象是w e b 中文信息,无论是文本信息过滤还 是用户兴趣模型的建立,都毫无例外地需要对中文的“词”进行分析,这必然首 先涉及到中文的分词问题。分词是中文信息处理的基础性工程。如果分词不准 确,那么后面用户兴趣模型的建立,以及文本聚类等都回随之产生误差。因此, 中文分词算法是本文中关键的算法之一。 所谓分词就是将连续的字序列按照一定的规范重新组合成词序列的过程”。 近年来随着因特网上信息急剧膨胀,在这海量的信息中,各类信息混杂在一起, 靠人工来做这项工作显然是不可能的,而如果面对中文信息不再采用分词技术, 那么整理的结果就过于粗糙,而导致资源不可用,例如:“制造业和服装业是两 个不同的行业”和“我们出口日本和服比去年有所增长”中都有“和服”,而被 当作同一类来处理,结果是检索“和服”的相关信息,会将它们都检索到,在信 息量少的情况下,似乎还能忍受,如果是海量信息,这样的结果将难以接受。通 过引入分词技术,就可以使机器对海量信息的整理更准确更合理,在“制造业和 服装业是两个不同的行业”中“和服”不会被当作一个词来处理,那么检索“和 服”当然不会被它检索到,使得检索结果更准确,效率也会大幅度的提高。 在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句 硕士学位论文 第二章基于用户兴趣的w e b 中文信息个性化过滤系统建模 和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然 英文也同样存在短语的划分问题,但在词这一层上,中文比之英文要复杂得多、 困难得多。 2 文本聚类 作为w e b 中文信息过滤的一个辅助的方法,本文对聚类算法进行了研究。 聚类的基本思想是把相似的文档聚成一类。这样做的理由是,联系紧密的文档通 常跟相同的查询相关,把相似的文档聚类可以加速检索和过滤。p w c i f s 系统中, 在将过滤结果提交给用户之前,对相关文档进行聚类处理,这种分类提交相关文 档的界面,对用户来说,更加友好。用户只须阅读各类中的一篇文档,如果不感 兴趣,就可以大致断定不需要阅读该类中的其他文档。整个聚类分析以文本特征 表示的页面集为输入,经过聚类后输出表示用户不同兴趣类型的多个兴趣页面集 合,每一集合内的页面都与某一特定的主题类别相关。 文本分类是指按照预先定义的主题类别为文档集合中的每个文档确定一个 类别,它是一种监督学习,对一系列训练样本的分析来预测未知页面的类别归属 。”。与文本分类不同,文本聚类没有预先定义好主题类别,它是一种无监督学习 方法。聚类的目标是将文档集分成若干类,要求同一类内文档内容的相似度尽可 能大,而不同类间相似度尽可能小。 对于中文w e b 网页这样的数据,主要是通过衡量网页内容之间的相关性来 进行划分,其结果是要使同一个类内的网页之间相关度较大,而来自不同的类别 的网页的相关度较小。由于网络上的新资源新信息不断出现,即使是已有的资源 也可能隐含着一些有价值的信息,因此不能通过分类的方法对这些信息进行挖 掘,中文w e b 网页也存在此类问题。因此利用聚类的方法对网页中的潜在信息 进行挖掘,会给我们更有效地获取信息提供帮助。聚类的数学描述为: 给定数据集合v vl i = l 2 ,n ) ,其中v i 为数据对象,根据数据对象间的相似 程度将数据集合分成k 组,并满足: c i j = 1 , 2 ,k ) c v c ,n c j = 巾 u 二c 。= v 则该过程称为聚类,c ,( i - l ,2 ,n ) 称为簇“7 ”3 。 3 a g e n t a g e n t 的出现和发展为软件设计带来了新的方法,但关于a g e n t 的概念目 前还没有一种能为大家所共同接受和认可的定义,这里给出一个没有基于任何 硕士学位论文第二章基于用户兴趣的w e b 中文信息个性化过滤系统建模 特定的具体领域的更为一般的a g e n t 概念定义,以区分基于a g e n t 系统和其它 软件范型。 a g e n t 是指在一定环境下具有自主性、持续性、社会性、和代理性等特征 的计算实体,他有自己的知识库和推理机制,能主动对环境的作用做出反应”“。 它基本具有如下技术特性: 代理性。代理性主要体现在a g e n t 能代表用户完成某些工作或代理用户软件 与其他软件进行通信和联系。 驻留性。一个a g e n t 应该存在于一定的环境( 物理世界、互联网等等) 之中, 它能感知周围环境中事件的发生,并通过动作和行为来影响环境。 自主性。一个a g e n t 应该是一个独立自主的计算实体,它应能在无法事先建 模的动态的变化的信息环境中,独立解决实体问题,在用户不参与的情况下,独 立自主地为用户提供一些服务,如索取信息资源等。 反应性。反应性是指a g e n t 能感知所处的环境( 物理世界、信息环境或与它 进行交互和通讯的其它a g e n t 等) ,并能对相关事件作出适当的反应。 智能性。a g e n t 能感知周围的环境,具有推理和智能计算功能,能分析用户的需 求,不断积累经验,以提高自身处理问题的能力。 主动性。a g e n t 能遵循承诺采取主动行动,表现出面向目标的行为。例如一 个工作流程管理a g e n t 能够按照约定,将最新的工作进展情况主动通报有关的工 作站。 上述六种特性属
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论