(计算机应用技术专业论文)基于关联规则挖掘的个性化推荐的应用研究.pdf_第1页
(计算机应用技术专业论文)基于关联规则挖掘的个性化推荐的应用研究.pdf_第2页
(计算机应用技术专业论文)基于关联规则挖掘的个性化推荐的应用研究.pdf_第3页
(计算机应用技术专业论文)基于关联规则挖掘的个性化推荐的应用研究.pdf_第4页
(计算机应用技术专业论文)基于关联规则挖掘的个性化推荐的应用研究.pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于关联规则挖掘的个性化推荐的应用研究 摘要 网络和信息技术的发展带来“信息过载”和“信息迷失”的问题, 用户个性化信息需求日益突出。个性化主动信息服务作为一种崭新的 智能信息服务方式,可有效解决以上问题,成为网络信息服务的发展 趋势。在个性化主动信息服务中最重要的服务是个性化推荐。数据挖 掘是实现个性化推荐的有效途径,因此,基于数据挖掘的个性化推荐 成为信息服务领域的一个研究热点。 1 本文是全军电话网智能支撑平台( m t i s ) 的重要组成部分和 核心技术之一,且以m t i s 作为关联规则挖掘的环境,科学地提出一个 基于关联规则的个性化推荐模型一a r p r 。该模型主要解决用户事务 模式生成中的异构数据预处理和基于关联规则的个性化推荐。 2 个性化推举首先要生成用户事务模式,用户事务模式的准确 直接影响推荐的质量。本文引入x m l 作为异构数据的描述,解决异构 数据问的集成。在此基础上进行数据预处理,本文设计了将领域知识 应用_ 丁a r p r 数据预处理的模型和算法。然后利用基于最大向前访问 路径的用户事务模式识别算法形成准确率较高的用户事务模式。 3 由用户事务模式进行关联规则挖掘,实现个性化推荐是本文 研究重点。文中引入聚集树,利用优化的基于聚集树的关联规则算 法生成高效的关联规则,利用推荐度因子得到推荐集实现个性化推 荐。该方法已成功应用到m t i s 系统中,且效率高于普通的信息推荐。 最后,论文对相关实验的运行结果进行了对比分析,进一步证明 a r p r 模型的可行性和高效性,对a r p r 模型的优点进行了总结,并对 进一步可能的研究进行了展望。 【关键词】:个性化:个性化推荐;关联规则挖掘;数据预处理: x m i 北京交通人学硕士学位论文 w i t ht h e d e v e l o p m e n to fi n t e r a c ta n di n f o r m a t i o nt e c h n o l o g y ,t h e p r o b l e m so fi n f o r m a t i o no v e r l o a da n di n f o r m a t i o nw i l d e r i n ga r cc o m i n g a n dt h ep e r s o n a l i z e di n f o r m a t i o nd e m a n df r o mu s e ri sp o po u t a san e w m e t h o df o ri n t e l l i g e n ti n f o r m a t i o ns e r v i c e ,p e r s o n l i z e da c t i v ei n f o r m a t i o n s e r v i c ec a ns e t t l ev a s tq u e s t i o n se f f e c t i v e l yb m u g u ta b o v ea n db e c o m e s t h ed e v e l o p m e n tt r e n do fn i s h ap e r s o n a l i z e da c t i v ei n f o r m a t i o ns e r v i c e , t h em o s ti m p o r t a n ts e r v i c ei sp e r s o n a l i z e dr e c o m m e n d a t i o n d a t am i n i n g i sa ne f f e c t i v ea p p r o a c ht op e r s o n a l i z e dr e c o m m e n d a t i o n ,s ot h es t u d yo f p e r s o n a l i z e dr e c o m m e n d a t i o nb a s ed a t am i n i n gi sb e c o m i n gah o t s p o ti n t h ef i e l do fi n f o r m a t i o ns e r v i c e 1 t h ep a p e ri st h ei m p o r t a n tp a r ta n do n eo fk e yt e c h n o l o g i e so f m t i s i nt h ea s s o c i a t i o nr o l e m i n i n g e n v i r o n m e n tb a s e m t i s ,a p e r s o n a l i z e d r e c o m m e n d a t i o nm o d e l a r p ri s b r o u g u t f o r w a r d s c i e n t i f i c a l l y a r p rf o c u s e so nd a t ap r c t r e a t m e n tw i t hd i f f e r e n ts t r u c t u r e b e f o r eu s e ra f f a i rm o d ei sc r e a t e da n d p e r s o n a l i z e dr e c o m m e n d a t i o nb a s e a s s o c i a t i o nr u l em i n i n g 2 f i r s tp e r s o n a l i z e dr e c o m m e n d a t i o ns h o u l dc r e a t eu s e ra f f a i rm o d e l a n dt h e v e r a c i t y o fu s e ra f f a i rm o d e la f f e c t sr e c o m m e n d a t i o n q u a l i t y d i r e c t l y t h ep a p e r i n t r o d u c e sx m lt od e s c r i b ed a t aw i t hd i f f e r e n t s t r u c t u r ea n dt os e t t l ed a t ai n t e g r a t i o n d a t a p r e t r e a t m e n t i sp r o c e s s e db a s e i t i na r p r ,t h em o d e la n da r i t h m e t i cf o rd a t ap r e t r e a t m e n tu s i n gf i e l d 基于关联规则挖掘的个性化推荐的应用研究 k n o w l e d g e a r ed e s i g n e d a n du s e ra f f a i rm o d ew i t ha l t i t u d i n a lv e r a c i t yi s f o r m e du s i n gu s e ra f f a i rm o d er e c o g n i s i n ga r i t h m e t i cb a s em o s tf r o n t a d a c c e s s i n gp a t h 3 t h ee m p h a s e so ft h ep a p e ri sd a t am i n i n gb a s eu s e ra f f a i rm o d e a n d p e r s o n a l i z e dr e c o m m e n d a t i o n a g g r e g a t e - t r e e i si n t r o d u c e dt o o p t i m i z e d a s s o c i a t i o nr u l e b u i l d i n ga r i t h m e t i c ,t h e np e r s o n a l i z e d r e c o m m e n d a t i o ni sr e a l i z e d b yr e c o m m e n d a t i o n c o l l e c tr e c e i v e dv i a r e c o m m e n d a t i o n d e g r e e t h e m e t h o dh a s a p p l i e d t om t i s s y s t e m s u c c e s s f u l l ya n de f f i c i e n t l y f i n a l l y ,t h er u n n i n g r e s u l to fc o r r e l a t i v ee x p e r i m e n ti sc o n t r a s t e da n d a n a l y s e d ,t h ef e a s i b i l i t y a n d e f f i c i e n c y o fa r p rm o d e li s p r o v e d a g a i n t h e m e f i ta n di n n o v a t i o no fa r p ra l es u m m a r i z e da n ds o m e a d v i c ea b o u td e v e l o p i n gi sg i v i n gi nt h e p a p e r k e yw o r d s :p e r s o n a l i z a t i o n ;p e r s o n a l i z e dr e c o m m e n d a t i o n ; a s s o c i a t i o nr u l em i n i n g ;d a t ap r e p r o c e s s c s ;x m l 基于关联规则挖掘的个性化推荐的应用研究 图2 - 1 图3 1 图3 2 图3 3 图3 4 图4 1 图4 2 图5 - 1 图5 2 图6 1 图6 - 2 图6 3 图6 4 表2 1 表5 1 表5 - 2 表5 3 表5 - 4 表5 - 5 表6 1 表6 - 2 裹6 - 3 图表清单 m y y a h o o ! 个性化页面 m t i s 体系结构图2 7 m 1 1 s 平面结构图2 8 a l 心r 的三屡体系结构3 0 个性化推荐漉程。3 3 a r p r 系统的数据预处理模型3 7 一个概念屡次树示例4 0 表5 - 1 实倒生成的聚集树5 5 基于聚集树的关联规剐挖掘信息推荐6 0 用户事务模式选择界面6 7 聚集树生成关联靛则界面 信息推荐界面 算法性能对比( 最小置信度= o 4 ) 6 8 6 8 7 2 关联规剐中的元素系统价值表2 4 实例:满足最小支持度的最大向前访问路径集5 4 图5 - 1 的支持度、关联规列置信度和距离因子的计算结果5 8 c c 工脚鲫:e 瑚哺同狲o d e 类描述6 l c c l u s t e r t r e e 类描述6 l c 砌强朋o n l w u 类描述6 1 m t i s 系统中的关联规则示铡6 9 参数对比试验7 1 算法性能试验对比7 2 v i i p 7 4 1 3 3 6 独创性声明 r , 本人声明,所呈交的学位论文是我个人在导师指导 下进行的研究工作及取得的研究成果。尽本人所知,除 了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北 京交通大学或其他教学机构的学位或证书而使用过的材 料。与我一起工作的同志对本研究所做的任何贡献已在 论文中作了明确的说明并表示了谢意。 本人签名: 日期:年月日 关于论文使用授权的说明 本人完全了解北京交通大学有关保留、使用学位论 文的规定,即:学校有权保留送交论文的复印件,允许 论文被查阅和借阅;学校可以公布论文的全部或部分内 容,可以采用影印、缩印或其他复制手段保存论文。论 文中所有创新和成果归北京交通大学计算机与信息技术 学院所有。未经许可,任何单位和个人不得拷贝。版权 所有,违者必究。 本人签名: 日期:年一月一日 基于关联规则挖掘的个性化推荐的应用研究 第一章绪论 1 1 课题的来源和意义 网络和信息技术发展的同时,出现了“信息过载”和“信息迷 失”的问题,即信息极大丰富却无法选择个性化信息且信息服务缺 乏主动性。网络信息是动态变化的,用户时常关心的信息也是变化 的,则迫切需要个性化和主动化的信息服务。如何快速、准确地提 取个性化信息并使信息服务主动化己成为网络信息服务的关注热 点。个性化主动信息服务( p e r s o n a i z e da c t i v ei n f o r m a t i o n s e r v i c e :p m s ) 【1 1 1 2 l 作为种崭新的智能信息服务方式,有效地解 决了信息过载和信息迷失带来的种种问题,利用在线智能推荐服务 或信息推荐技术1 3 1 1 4 1 ,准确地将用户所需的信息传送到相应的用户。 个性化信息服务能够适应用户不断增长的信息需求,成为信息服务 的发展方向。 在个性化信息服务中,最重要的服务就是个性化推荐。作为人 工智能的研究热点之一,数据挖掘( d a t am i n i n g ) ,又称知识发现, 是在数据库或数据仓库中提取隐含的、先前未知的、潜在有用的知 识或信息模式的决策支持方法i s 】,其主要特点是系统的主动性。将 这一显著特点应用到个性化推荐中,为个性化推荐技术注入了新的 活力。利用数据挖掘,获取个性化推荐的相关信息,是实现个性化 信息服务的有效手段,可明显提高个性化程度。由于个性化推荐的 信息来源不同,故其结构不同,对不同结构的数据进行结构化处理, 必然提高个性化推荐的质量。x m l 作为互联网上标准的信息描述和 北京交通大学硕士学位论立 交换语言,已成为数据表示的一种开放标准。x m l 可看作一种半结 构化的数据模型,是一种自由形式的语言,支持了个性化的描述。 x m l 不仅描述了文档的内容,还包含了文档的结构信息。x m l 文档的 结构信息及其所固有的语义信息可用来实现更加准确和有针对性的 个性化推荐【6 l ,对个性化推荐起着很大的促进作用。 本文是学校立项项目“全军电话网智能支撑平台( m t i s ) ”的重 要组成部分和核心技术之一。该项目的目的是建成全军管理信息数 据库,实现对全军人工电话网各类运行信息、质量状况信息、通信 资源信息的可靠存储和综合查询、统计、分析,同时具有语音识别、 智能拨号、业务查询功能,且针对不同级别的用户提供不同的信息 服务,进一步提高平台的智能化水平。个性化服务的主要目的是通 过分析服务器的w e b l o g 数据源,进行数据的预处理工作,将所得结 果进行数据挖掘,得到高支持度和信任度的结果,从而发现用户的 访问模式,推测用户在未来可能要进行浏览的网页。动态及时的给 予推荐,完成个性化浏览的目的,该平台是一个一站式、个性化、 人性化、智能化的综合信息服务平台。在这种背景下,研究基于关 联规则挖掘的个性化推荐非常有必要。 1 2 国际国内研究状况和进展 1 2 1 个性化研究发展现状 个性化信息主动服务在网络信息服务领域已渐成研究热点,且 应用广泛,如电子商务、网上购物、个性化图书馆等1 7 1 1 8 | 1 们。因此, 个性化服务无论在理论上还是实践中都受到极大重视,并处于高速 基于关联规则挖掘的个性化推荐的麻用研究 发展阶段。 个性化服务是i n t e r n e t 信息增长的必然结果。1 9 9 5 年至1 9 9 7 年,美国人工智能协会春季会议( a a a i ) 、国际人工智能联合大会 ( u c a i ) ,a c m 智能用户接口会议( a c m i u d 和国际嗍大会等重要会 议发表了多篇个性化服务原型系统的论文,标志着个性化服务研究 的开始。1 9 9 7 年3 月,( c o m m u n i c a t i o n so ft h ea c m 组织了个性 化推荐系统的专题报道,个性化服务已经受到相当的重视。2 0 0 0 年 8 月,( c o m m u n i c a t i o n so f t h ea c m ) 再次组织了个性化服务的专刊, 个性化服务的研究己经进入快速发展阶段。此外,( i e e e i n t e l1i g e n t s y s t e m ) ,( i e e ec o m p u t e r ) ,( u s e rm o d e l i n ga n d u s e r a d a p t e di n t e r a c t i o n ) 也发表了有关个性化服务的重要成果。 2 0 0 0 年,美国n s f 基金开始支持有关个性化服务的研究【l o l 。同年4 月,以美国为主的多国个性化研究机构和网络公司成立了个性化协 会,旨在推动个性化服务的发展。目前,国外已推出了多个实现初 步个性化服务的原型系统,下面列几个有代表性的例子: 美国m i n n e s o t a 大学和d e p a u l 大学开发的w e b s i f t ( w e b s j t ei n f o r m a t i o nf i l t e r ) 系统致力于耳e b 使用挖掘的算法定义及 应用工具的研制。该系统包括对各种l o g 文件的数据预处理,应用 序列模式分析、网页及用户聚类分析以及关联规则挖掘等方法实现 的模式发现,应用信息过滤、o l a p 及可视化等技术实现的模式分析 等,并实现了一个集w e b 内容挖掘和w e b 使用挖掘结果于一体的个 性化推荐功能的系统i 儿1 。 德国柏林h u m b o l d t 大学研制的w u m 是一个序列挖掘器,其 北京交通人学硕十学位论文 目的是分析w e b 网站用户的访问行为,特别适合于任意类型的l o g 文件的序列模式发现。w u m 是一个集l o g 数据准备、查询及可视化 技术于一体的集成环境,特别是它的挖掘查询语言m i n t 支持模式描 述的标准规范,可视化机制在路径模式显示中具有突出的特点【1 2 1 。 雅虎公司推出的m yy a h o o ! ( m y y a h o o g o m ) 网站,允许用户 选择所希望查看的主题以及主题中特定的栏目,并且可指定展示顺 序,为自己构造出专用的嗣页,此后系统能够进彳亍内容自动更新维 护1 1 3 1 。 i 蹦t j w a t s o n 研究中心开发的智能推荐分析系统 ( i n t e l li g e n tr e c o m m e n d a t i o na n a l y z e r i r a ) 是集内容过滤和协 作过滤于一体的个性化电子商务推荐原型系统。它具有多个推荐引 擎,以进行不同产品推销。每个引擎使用不同方法处理不同产品需 求1 1 4 l 。 美国n e tp e r c e o t i o n 公司开发产品n e tp e r c e r p t i o n s 采用 了一个叫做“实时建议”的技术:让使用该产品的网站能根据用户以 往浏览行为,在其他用户中找出与他有相似测览行为的用户,根据 这些用户的浏览行为预测该用户以后的浏览行为,从而为用户提供 个性化的浏览建议。该技术利用了网站用户浏览行为的相似性,其 预测准确性较高。并且它是实时运行的,因此随着测览量的增加, 其预测的准确性将愈来愈高i ”1 。 近几年,我国学术界也开始了个性化服务的研究,已有相当一 批有实力的科研机构投入到这个领域的研究中来,也取得了丰富的 基于关联规则挖掘的个性化推荐的应用研究 研究成果截止2 0 0 2 年1 1 月,仅“中国期刊网”中收录的相关论文 就达1 0 0 篇以上。2 0 0 2 年后至今,相关论文数远远超过了前几年的 数量,标志着个性化信息服务已经受到了很大的重视,并发展迅速。 尤其在个性化图书馆、个性化网站、个性化电子商务和个性化检索 等取得了巨大的突破i 堋。我国的网站( 如新浪网,网易等) 也开始推 出个性化服务。还有很多已应用的原型系统,例如:四川大学与香 港城市大学联合开发的个性化远程教学原型系统e - t e a c h e r f l 7 】,广 东工业大学开发的水暖器材个性化定制原型系鲥1 8 l 等。 1 2 2 数据挖掘在个性化推荐巾的研究现状 数据挖掘技术的发展为个性化推荐的研究注入了新的活力,是 实现隐式数据收集的一种有效手段,是个性化信息服务中用户行为 建模和个性化推荐中的重要技术之【1 9 1 ,通过数据挖掘的具体方 法,可以获得应用于推荐的相关信息,我们能够在准确获得用户信 息的基础上,为用户提供个性化推荐服务。采用数据挖掘技术的推 荐系统目前研究现状可通过以下有代表性的例子进行说明: w e b w a c h e r 2 0 l - - 用户通过在浏览器中键入一个描述自己兴 趣的主题词来进入它的主页。它能帮动用户在网上导航,同时通过 为用户选择链路或站点跟踪学习,改善导航的质量。 s i t e h e l p e r 2 1 】一通过分析每个用户的网页访问情况,了解用 户的爱好,并从用户浏览时间较长的网页中抽取出相应关键字,汇 总后提交给用户,获得反馈后,再向用户推荐网站中其他类似或相 关网页。 a c c r u e i n s i g h t 矧一综合性的w e b 分析工具,通过分析顾客 北京交通人学硕十学位论文 的行为模式,帮助网站采取措施来提高顾客对网站的忠诚度,从而 建立长期顾客关系。利用多种w e b 数据收集,而不是象很多网站那 样仅仅分析l o g 文件。 e g i u e l 2 3 i - - 后台发现模式存于规则库,前台匹配部分采用动 态用户配置和缓冲机制进行规则搜索,减少在线开销。 国内的个性化推荐系统也发展迅速,例如:中科院的个性化智 能信息提取系统【2 4 ,该系统基于用户兴趣库生成推荐;上海交大 a i w s l 矧,该系统基于w e b 只志生成推荐。 练上所述,个性化推荐处于高速发展中,是现阶段网络信息服 务研究的主题之一,具有很强的理论和实践意义。 1 3 课恶的主要工作及论文的组织结构 本课题以作者参与的科研项目“全军电话网智能支撑平台 ( m t i s ) ”为基础,深入研究了以x m l 为数据描述语言,以关联规则挖 掘实现个性化推荐的几个关键技术,并科学地提出了一个基于关联规 则的个性化推荐模型a r p r ,分析 j a r p r 的体系结构和解决的问题。 然后着重论述了a r p r 中的两个关键技术;个性化推荐中用产访问模 式生成时的数据预处理和个性化推荐中的关联规则挖掘,并对技术中 应用到的具体算法进行详细阐述,对其可行性进行具体说明,对算法 的改进之处进行分析和对比,从而说明在该模式中是可行且高效的。 - 论文的组织结构如下: 第一章,绪论:从总体上论述了课题的来源和意义、国内外研 究动态、技术背景以及课题的主要工作。 6 基于关联规则挖掘的个性化推荐的应用研究 第二章,相关技术研究:分别介绍了个性化技术、个性化推荐 技术和关联规则挖掘的概念、方法、研究现状及发展趋势等。 第三章,基于关联规则挖掘的个性化推荐模型:首先介绍了本 课题的实践来源全军电话网智能支撑平台( m t i s ) 系统,然后 在关联规则挖掘技术的基础上提出了一个基于关联规则挖掘的个性 化推荐模型a 尉p r ,并详述了该模型的设计背景、现实意义、 体系结构和主要功能模块。 第四章,a r p r 个性化推荐中用户事务模式生成中的数据预处 理:讨论了如何将用户事务模式生成中的x m l 格式的半结构化数 i 据进行预处理,并设计了a r p r 模型的数据预处理模块的体系结构。 着重探讨了领域知识在该模型的数据预处理中的应用。 第五章,利用关联规则挖掘实现个性化推荐:研究了实现个性 化推荐的关键技术。本文采用在x m l 数据集上进行关联规则挖掘, 根据a r p r 模型的特点,首先利用用户事务模式生成聚集树,然后 根据聚集树生成关联规则进行信息推荐。本章给出详细的设计思路 和具体的实现方案。 第六章,仿真实验:以从m t i s 系统的业务数据库中抽取的样 本数据作为数据源,进行个性化推荐中的关联规则挖掘的仿真实验, 考察和分析a r p r 模型实现个性化推荐的可行性和运行效率。最后 对a r p r 模型的个性化推荐的运行性能进行了对比分析。 第七章:基于关联规则挖掘技术的个性化推荐的研究工作顺利 完成,论文在此对课题的成果和不足之处作了总结,并对进一步的 研究进行了展望。 北京交通大学硕士学位论文 第二章相关技术研究 2 1 个性化技术概述 个性化服务是网络信息增长的必然结果,个性化信息服务的出 现使得传统的“人找信息”的服务模式逐渐转变为“信息找人”的 服务模式。2 0 0 0 年4 月,以美国为主的多国个性化研究机构和网络 公司成立了个性化协会,旨在推动个性化服务的发展。国内在该领 域也处于高速发展阶段。 2 1 1 个性化技术的提出 近年来,i n t e r n e t 飞速发展,已经成为个全球的、分布的、动 态的信息仓库,它存储着大量的数字化信息。在今天,它己经成为大 众获得日常信息的重要来源。越来越多的用户在i n t e r n e t 上发布、查 找信息。然而,用户也随之发现在网上查找自己感兴趣的信息变得越 来越困难,效率越来越低。于是需要一种技术能够缩短用户与信息提 供源之自j 的距离,使得客户的需求能够被识别,从而有针对性的提供 信息服务。同时,用户在浏览网页时会留下大量有用的信息,如果有 一种技术能够对这些信息加以利用,跟踪客户在w e b 上的浏览行为并 进行模式分析,并提出一些推荐意见,这样将会做到针对性即个性化 的服务,提高信息服务的效率,改善信息服务质量并吸引更多的用户, 最终提高信息服务的人性化程度。这里将这种为用户提供定制w e b 内 容的技术称为w e b 个性化技术。这种个性化信息服务体现在众多领域 内。在电子商务领域,希望个性化可以达到从使站点更加易于使用到 增加销售的种种目标,最终,增加重复业务。1 9 9 9 年7 月,f o r r e s t e r 雉十关联规则挖掘的个性化推荐的应用研究 r e s e a r c h 发表了一篇报告“s m a r tp e r s o n a l i z a t i o n ”,描述了他们 关于公司为什么和如何实现个性化韵最新的研究。各个公司使用不同 的方法来个性化他们的电子商务亘占点。 显然,个性化信息服务技术不仅仅局限在电子商务应用中。随着 w e b 应用的不断增加,w e b 站点上所包含的各种各样的信息量也在飞速 增长。因此,w e b 用户需要有一种方法来方便地得到自己想要的信息。 但是浏览过程总是会出现一些自己毫不关心的话题,而且无关信息通 常是大量甚至全部信息都是无关的。这种状况严重影响了网站的服务 质量。如果个w e b 站点能够提供可定制特性或个性化内容以便能为 站点浏览者提供他们需要的信息,那么它将具有很强的竞争优势,并 能使客户信赖度缮到提高。面对“只有第一,没有第二”的网站游戏 规则,网站内容提供商也不得不考虑针对特定的用户给出特殊的服 务,也就是使网站服务具有个性化。 同时个性化信息服务在是图书馆信息服务、信息检索等领域的信 息服务的目标,因此,个性化信息服务逐步受到重视且发展迅速。 一般地说,使用个性化技术有以下好处: 1 网络信息与每个用户相关并更有用; 2 用户网上访问时间将更长: 3 用户重复访问个性化网站的频率将提高,这将最终提高信息服 务质量: 4 个性化网络服务将更易使用,使得对用户的服务得到提高; 5 个性化网络服务会变得更有趣,从而会吸引更多的用户。 9 北京窑通大学硕士学位论文 = = _ ! = | _ 日一1 日e | _ e _ _ ! j 日- e _ d t j _ 目_ 2 j 日_ 自自e j e = ! = 自| 毒 2 1 2 个性化服务的概念和意义 所谓个性化服务1 2 6 1 ,顾名思义就是根据不同用户的不同习惯, 包括生活习惯,饮食习惯,行为习惯,思维习惯等等方面,而有针 对性的,提供符合个人习惯的服务活动。狭义上,对于网络的个性 化服务,就是根据用户的不同浏览,访问习惯和要求,有针对性的, 主动提供相适应的网络服务。简单讲,信息服务个性化就是为特定 的用户指定特定的信息和应用,即网络开发人员基于特定条件为特 定的用户或用户组而裁剪信息或一个应用,尽可能使得每个用户在 接受网络信息服务时都有他就是该信息服务的唯一用户的感觉。尽 可能地迎合每个用户的浏览兴趣并且不断调整自己来适应用户浏览 兴趣的变化。 信息服务的个性化通过以下步骤来实现:首先收集和存储访问 者的信息,然后对该信息做分析,了解用户的兴趣和访问模式,根 据此信息将用户感兴趣的信息搜索出来,然后将这些信息中与用户 需求密切相关的内容抽取,在适当的时间将适当的内容提交给每个 访问者。要做到信息个性化,需要区分每个访问者,这主要有两个 基本原因,一是为了匹配内容( 信息) ,二是为了提交特定的信息 和应用程序给访问者并在能提供的服务的基础上相应改变应用的处 理流程。信息工具能够从成千上万信息网站中,将互联网用户所需 要的信息搜集在起推荐给用户,这也是实现互联网信息个性化服 务的一个标准过程。显然随着互联网应用的进一步发展,实现互联 网信息的个性化服务,必将( 甚至已经) 成为互联网应用一个极为重 要的发展方向。w e b 个性化信息服务的实现过程,实际上就是一个 1 0 基于关联规则挖掘的个性化推荐的应用研究 ! ! = e = j _ _ _ _ - _ - | | 0 = _ 自| e 目j _ _ _ _ _ ,_ 自= i i 一 i i = ! ! 皇 高度智能化的信息收集,加工,分析和处理的过程。 网络的个性化服务的意义在于它可以主动向用户推荐信息,使 用户免于在大量的信息中浏览,搜索,可以很快的定位相应的信息 内容,节省时问,提高效率。并且它也是未来网络发展的新方向, 新的信息时代的到来和信息革命对人类社会的冲击,是展现个性, 倡导创造力的一个崭新契机。使人们有可能在高水平的生产力的基 础上重新恢复和展现个性化的特点。为个性发展提供广阔的个性化 服务,这正是现代社会与近代社会相区分的重要标志之一。 其次,网络个性化服务是推动网络继续向前发展的强动力,是 满足用户需要的服务,是培养个性,表现个性的服务。只有这样的 服务才能基本上满足用户的需求,尤其是信息时代人的全面发展的 需要,因此,只有这样的服务才能在信息时代的大市场站稳脚跟, 才有可能使网络得到迅速的,有效地发展。 最后,从全局的信息化的发展来看,网络的个性化服务引导用 户的信息需求,吸引用户步入信息世界,成为信息的使用者和提供 者:它通过带动个人和家庭的信息化,从基础的层次上推动全社会的 信息化建设,加速信息社会的成长。这确实是一项从根本上推动社 会变革的,十分有意义的事业。 2 2 个性化推荐技术简介 个性化推荐的主要步骤是:收集访问者信息,分析处理信息, 生成推荐。收集访问者信息的目的是:形成用户访问模式,从而以 此了解访问者的兴趣、访问模式等重要的信息,为终于实现信息推 北京交通大学颈士学位论文 荐做准备工作。个性化推荐实现的方式有显式描述、隐式描述、过 滤技术和数据挖掘技术。按照收集访问者信息方式的不同,所使用 的分析和推荐方式也不同嘲。 2 2 1显式描述 显式描述是要求每一位访问者填写信息或者问卷。这种方法的特 点是让客户直接告诉站点他们想看到什么。典型的代表是m yy a h o o ! 和微软的m ym s n 。m yy a h o o ! 让访问者指定自己的描述信息,包括追 踪自己的股票投资组合、报道哪些新闻的类别、感兴趣地区的天气情 况甚至网页的颜色和布局【蕊1 。用户指定这些后,m yy a h o o ! 相应地动 态构建个性化的w e b 页面,如图2 一l 所示。 我鸯蓄i点爰戡整薹 ! 些l 鲤! i 墅删嫂! ; 嚣皇率心麟国曩姆蕾翼麓藤商i 嚣拥绑 9 皤m 捌蟪融啦酗:鼬臌 曩蝴固嬲园 9 岫鲢 鲢盘 l n l 箍2 2覆 i 两7 2 钾时 ! a p50地o1 2 0 1 辅札 t7 日。o辕棚一吼2 2 l 蚓啦酆蚋宝璺雌l l 麴蠢蛆】 挂囤鞑旧 甲搬b l i 鼬l 融薹蛰 国 用户可以定制网页的显式形式和股票信息、大气信息等内容 圈2 1i d y y a h o o ! 个性化页面 1 2 瞪矿黑撕鐾墨燃鏊砖麟睦鲻鎏鸳搬缝瓣鬓 俨辨藩 | 基于关联规则挖掘的个性化推荐的应用研究 除了按用户指定的颜色、布局和内容显示外,这种个性化技术 还可以根据用户的个人的描述信息进行一些推荐。例如,可以根据用 户的邮政编码推测出用户所在地区,然后进行推荐。如果邮政编码是 1 0 0 0 4 4 ,则可以给出北京地区近期比赛结果和赛程,而如果用户查看 了一部正在上映电影的信息,则在给用户提交的页面中,可以给出该 用户可以定制网页的显式形式和股票信息、天气预报等内容。 但是这种收集用户描述信息和个性化的方法显然也有它不足之 处。最明显的就是用户指定的自身描述信息是主观填写的而不是系统 客观得到的。这样,也就是提交的内容是其感兴趣的,但是并不能保 证那些用户自己未指出的内容他就一定不感兴趣。现在每个人都有很 多他感兴趣的方面,在填调查表时,一些潜在的兴趣也许用户自身没 有明确意识到,而未填出。如果长期不向用户提供这些信息,将影响 这些信息和网站的服务质量。其次,用户的兴趣往往在不同的时间会 集中在不同的方面,而且随着时代的发展,兴趣转变的过程越来越快。 网站必须想办法及时收集到用户当前的兴趣所在,显然,过一段时间 就让用户填一次调查表是件让人讨厌的事情。另外,根据m yy a h o o ! 的调查,即使申请了个性化服务的客户,绝大多数还是接受了那些缺 省的设置,丽从不自己定制页面。可见,虽然用户需要个性化的服务, 他们更希望这种服务由提供商完成,而不是自己为自己服务。虽然, 当前实现了的个性化服务多数还是采用用户显式提交自身描述的方 法,但是,由于这种方法自身存在很多不足的地方,服务质量并不是 很理想,不能很好的达到w e b 个性化服务的目标,采用这种技术的网 站也只有少数几个,而且使用的用户数量占互联网用户总量的百分比 较低。因此,学术界和产业界也在寻找更好的方法。 北京交通大学硕士学位论文 2 2 2 隐式描述 隐式描述记录并追踪访问者的行为,这种技术通常对访问者是 透明的浏览和购买模式是最经常被评估的行为浏览模式通常是通 过在一个所谓的c o o k i e 或会话( s e s s i o n ) 中保存特定的访问者身份 和行为信息追踪的,这个c o o k ie 或会话保存在浏览器中,并在每次 访问时被更新购买模式通常存放在客户购买数据库中例 如。a m a z o n c o m 记录每个客户的购买历史,然后根据这些历史推荐 特定的购买商品。 当用户的描述信息已经可以使用时,下一个步骤就是分析这些 描述信息,从而提出或推荐特定于访问者的推荐文档、购买商品或 行为了。作出这样的推荐是最具挑战性的步骤。很多提出内容和作 出推荐的技术已经在使用或还在开发中。过滤技术和数据挖掘技术 是最常用的。 2 2 3 过滤技术 过滤技术使用算法来分析元数据,并生成推荐意见。最普通的 三种过滤技术有:简单过滤、基于内容的过滤和协同过滤 ( c o l l a b o r a t i v ef i l t e r i n g ) 。 简单过滤 简单过滤是根据预先定义好的用户组或类,来决定其显示内容 或提供相应的服务。简单过滤的一个示例是对公司信息的访问进行 管理。例如,人力资源部门确认的员工可以使用个性化的w e b 站点, 1 4 基于关联规则挖掘的个性化推荐的应用研究 用来访问特定于他们工作的信息和应用程序。在线经纪公司经常根 据资产的名义价值或年龄组来对他们的帐户进行分类。他们的站点 可以使用简单过滤来向客户提供打折或优惠待遇( 基于这些客户的 帐户级别) 。而保险公司站点则可以根据客户的年龄组推荐保险的 险种。 基于内容的过滤 基于内容的过滤是通过分析对象的内容进行工作,来形成一个 对访问者兴趣的表达。通常,这种分析识别每个对象的一组关键字 属性,然后填写属性值。这种技术的一个示例是一个基于关键字分 析文档的文档过滤系统。推荐影视剧购买是基于内容的过滤的另外 一个示例。如果对象可以容易地用计算机分析,而且访问者关于对 象适宜性的决定不是主观的,基于内容的过滤是最合适的。 协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 协同过滤使用显式或隐式评价,收集一组对象访问者的意见, 来形成具有相似意向的同等组,然后研究同等组,从而预测特定的 访问者对于某项的兴趣。不同于基于内容的过滤寻找与访问者过去 喜欢的对象类似的信息,协同过滤寻找具有类似兴趣爱好的访问者 来生成推荐。协同过滤产生的推荐是基于同等组的响应,而不仅限 于简单的描述匹配。对于信息推荐,协同过滤最适合同类、简单的 信息,例如书籍、音像或影碟等。 2 2 4 数据挖掘 实现个性化的另一种技术是数据挖掘技术。数据挖掘是个性化 1 5 北京交通大学硕七学位论文 信息服务的技术基础,个性化服务采用的数据挖掘技术有聚类分析、 关联规则分析、序列模式挖掘等。数据挖掘是一个多步骤的处理过 程:数据准备、数据挖掘、结果解释和表达。数据挖掘也可以描述 为这三个阶段的反复过程。 在数据挖掘中最常用到的技术有: 人工神经网络:仿照生理神经网络结构的非线形预测模型,通 过学习进行模式识别。 决策树:代表着决策集的树形结构。 遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及 自然选择等设计方法的优化技术。 近邻算法:将数据集合中每一个记录进行分类的方法。 规则推导:从统计意义上对数据中的“如果一那么”规则进行 寻找和推导。 采用上述技术的某些专门的分析工具已经发展了大约十年的 历史,不过这些工具所面对的数据量通常较小,而现在这些技术已 经被直接集成到许多大型的工业标准的数据仓库和联机分析系统中 去了。 模式某种程度上可以看作是这里所说的知识,它给出了数据的 特性或数据之间的关系,是对数据包含的信息更抽象的描述。模式 分析是运用多种方法和算法从格式化后的事务数据中发现知识。这 些方法包括关联规则、序列模式、分类和预测、聚类分析和孤立点 分柝和演变分析等。这里介绍一下关联规则的聚类分析。 关联规则( a s s o c i a t i o na n a l y s i s ) 1 6 基于关联规则挖掘的个性化推荐的应用研究 关联规则可以发现大量数据中项目集之间有趣的关联或者相 关关系。如关联规则下的一种规则,“在购买订书机的顾客中,有 9 0 的人同时也买了订书钉”( 订书机= 订书钉) 。关联规则x = y 解释为“满足x 中的条件的数据库元组多半也满足y 中的条件”。 用于关联规则发现的主要对象是事务型数据库。 聚类分析( c l u s t e r i n g ) 聚类分析数据对象,而不考虑已知的类标记。一般情况下,训 练数据中不提供类标记,因为不知道从何开始。聚类,可以用于产 生这种标记,它将一组对象按照相识性归成若干类别。对象分句最 大化类内的相识性、最小化类的原则进行聚类或分组。即对象的簇 一 ( 聚类) 这样形成:使得在一个簇中的对象具有很高的相识性,而 与其它簇中的对象很不相似。所形成的每个簇可以看作一个对象类, 由它可以导出规则。聚类方法包括统计方法、机器学习方法、神经 网络方法等。 数据挖掘系统具有产生数以千计甚至更多模式或规则的潜在 能力。但实际上只有少数模式是用户可能会感兴趣的。一个模式是 有趣的,需满足以下条件:易于被人理解;在某种程度上,对于新 的或测试数据是有效的;是潜在有用的;是新颖的。有趣的模式才 是知识。 需要一些客观度量来衡量这些模式的有效性。这些度量基于所 发现模式的结构和关于它们的统计。对于形如x = yi 拘关联规则,一 种客观度量是规则的支持度( s u p p o r t ) 。规则的支持度表示满足规 则的样本百分比。支持度是条件概率p ( x u y ) 。关联规则的另一 北京交通大学硕士学位论文 个客观度量是置信度( c o n f i d e n c e ) 。置信度是条件概率p ( ylx ) 即包含x 的事务也包含y 的概率。形式的,支持度和置信度定义为: s u p p o r t ( x : y ) = p ( x u y ) c o n f i d e n c e ( x = y ) = p ( yfx ) 2 3 关联规则挖掘 2 3 1关联规刚的基本概念和问题描述 关联规则可以发现大量数据中项目集之间有趣的关联或者相 关关系。通过发现用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论