




已阅读5页,还剩73页未读, 继续免费阅读
(计算机科学与技术专业论文)基于agent的推荐技术的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要 随着信息科技的进步和互联网的日益普及,人们通过i n t e r n e t 足不出户就可以 享受网络服务带来的便利,同时人们也承担着“信息过载 的压力,如何快捷准 确地提供满足用户需要的信息,已成为学者广泛关注的问题。 推荐技术的出现为解决此问题提供了一个较好的解决方案,推荐技术通过推 荐算法预测用户的兴趣,推荐用户可能喜欢的资源,过滤掉用户可能不喜欢的资 源,使网站的商品、新闻、广告等能够最大程度的向特定的用户推广。推荐技术 改变了人们获取信息的方式,从主动检索到被动接受,用户也能通过网站的推荐 快速有效的找到自己喜欢的资源,最终提高用户对网站的满意度和忠诚度。 人们的兴趣随时间的推移而变化,人们的记忆随时间的推移而遗忘,传统的 推荐技术无法反映时间推移对用户兴趣变化影响和记忆遗忘的用户浏览行为的影 响。本文以传统的协同过滤技术和艾宾浩斯记忆遗忘理论为基础,提出采用时间 加权的方法对用户的时间访问序列进行分析,通过线性遗忘函数和正态遗忘函数 来反映用户兴趣的变化,预测用户兴趣,产生推荐结果。改进后的推荐算法不但 能够反映时间推移对用户兴趣的变化的影响,而且能够根据用户记忆的遗忘程度 向用户有计划地有规律地推荐信息,以达到加深用户记忆,满足用户需求的目的。 a g e n t 能够自动感知周围环境的变化,并自主做出反应,影响周围的环境。本 文将a g e n t 技术应用在信息推荐领域,辅助推荐系统实现数据智能收集、分析、 处理和推荐。在具有a g e n t 运行环境的网络节点上,移动a g e n t 能够携带运行所需 的程序代码和运行状态自由地迁徙,在网络中主动寻找空闲的主机,然后迁徙到 该主机上执行推荐计算,从而节省了网络带宽和提高了网络上主机的资源利用率。 最后,文章提出了基于a g e n t 的推荐系统的结构模型,论述a g e n t 在推荐系统 中的工作流程和通信机制,并实现了基于a g e n t 的推荐系统原型和对改进后的推 荐算法进行验证和分析。 关键词:a g e n t ;推荐系统;协同过滤技术;艾宾浩斯;正态遗忘函数 英文摘要 a b s t r a c t a st h ep r o c e s so fi n f o r m a t i o nt e c h n o l o g ya n dt h ei n c r e a s i n gp o p u l a r i t yo ft h e i n t e r n e t ,p e o p l ec a ne n j o yc o n v e n i e n c es e r v i c e st h r o u g ht h ei n t e m e tw i t h o u tl e a v i n g h o m e a tt h es a m et i m e ,p e o p l ea s s u m et h ep r e s s u r eo f “i n f o r m a t i o no v e r l o a d ”i t c a u s e sf o rw i d ea t t e n t i o nt h a th o wt op r o v i d er a p i d l ya n de x a c t l ys e r v i c e sf o re a c hu s e r t om e e tt h ea c t u a ln e e d so ft h ep e r s o n a li n f o r m a t i o n r e c o m m e n d e dt e c h n o l o g yp r o v i d e sab e t t e rs o l u t i o nt os o l v et h i sp r o b l e m ,i t f o r e c a s tu s e r si n t e r e s tt h r o u g hr e c o m m e n d a t i o na l g o r i t h m ,r e c o m m e n dt h er e s o u r c e s w h i c ht h eu s e r sl i k e ,f i l t e ro u tw h a tu s e r sd o n tl i k e i tc a ne n a b l et h ew e b sg o o d s ,n e w s , a d v e r t i s i n g ,e t ct ot h eg r e a t e s td e g r e eo fp r o m o t i o nt oas p e c i f i cu s e r r e c o m m e n d e d t e c h n o l o g yh a sc h a n g e dt h ew a yt h a tp e o p l ea c c e s st oi n f o r m a t i o n f r o ma c t i v et o p a s s i v ea c c e p t a n c eo fr e t r i e v a l ,t h eu s e rc a nq u i c k l ya n de f f i c i e n t l yf i n d f a v o r i t e r e s o u r c e st h r o u g hr e c o m m e n d a t i o no ft h ew e b s i t e ,a n du l t i m a t e l yi m p r o v et h eu s e r s s a t i s f a c t i o na n dl o y a l t y p e o p l e si n t e r e s tc h a n g e so v e rt i m e ,a n dp e o p l e sm e m o r yf o r g e t sg r a d u a l l yo v e r t i m e t r a d i t i o n a lr e c o m m e n d e dt e c h n o l o g yc a nn o tr e f l e c tt h a tt i m eh a v ea ni m p a c to f c h a n g e si nu s e r si n t e r e s ta n dt h ee f f e c to ff o r g e t t i n g o fm e m o r y t h i sp a p e ri sb a s e do n t h et r a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m sa n de b b i n g h a u sf o r g e t t i n gm e m o r y t h e o r y , a n a l y s et h eu s e r t sa c c e s ss e q u e n c ew i t ht h eh e l po ft i m e w e i g h t e dm e t h o d ,a n d r e c o m m e n dt h r o u g hl i n e a rf o r g e t t i n gf u n c t i o na n dn o r m a lf o r g e t t i n gf u n c t i o n i nt h i s p a p e r , t h ei m p r o v e dr e c o m m e n d a t i o na l g o r i t h mc a nn o to n l yr e f l e c tt h ea f f e c to ft i m et o c h a n g e so fu s e r si n t e r e s t ,b u ta l s or e c o m m e n dt h ei n f o r m a t i o nr e g u l a r l ya c c o r d i n gt o t h ed e g r e eo ff o r g e t t i n gm e m o r y ,i no r d e rt od e e p e nu s e r sm e m o r y a g e n tc a na u t o m a t i c a l l ys e n s i n gt h ec h a n g e si nt h es u r r o u n d i n ge n v i r o n m e n t , r e s p o n s ea u t o n o m ya n da f f e c tt h es u r r o u n d i n ge n v i r o n m e n t i nt h i sp a p e r , a g e n t t e c h n o l o g yw i l lb er e c o m m e n d e di nt h ei n f o r m a t i o nf i e l d ,r e a l i z ei n t e l l i g e n ta u t o m a t i o n o fd a t ac o l l e c t i o n ,a n a l y s i s ,p r o c e s s i n ga n dr e c o m m e n d a t i o n i nt h ee n v i r o n m e n to f n e t w o r kn o d e ,a g e n tc a n c a r r yt h en e c e s s a r yc o d et or u n ,f i n daf r e eh o s ta n dm o v et oi t f o rr e c o m m e n dc o m p u t i n g t h i sw i l le f f e c t i v e l ys a v en e t w o r kb a n d w i d t ha n dm a k ef u l l u s eo fn e t w o r kr e s o u r c e so ft h eh o s t f i n a l l y ,t h i sp a p e rp u t sf o r w a r dt h ea r c h i t e c t u r eb a s e do nt h er e c o m m e n d a t i o no f 英文摘要 a g e n ts y s t e m ,d e s i g np r i n c i p l e sa n dw o r kf l o w ,r e a l i z et h er e c o m m e n d a t i o ns y s t e ma n d t e s ti t k e yw o r d s :a g e n t ; r e c o m m e n d a t i o n s y s t e m ; c o l l a b o r a t i v e f i l t e r i n g ; e b b i n g h a u s ;n o r m a lf o r g e t t i n gf u n c t i o n 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成博士硕士学位论文:基王g 型的推茬堇盔砑究皇座用:。除论文中已 经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以 明确方式标明。本论文中不包含任何未加明确注明的其它个人或集体已经公开发 表或未公开发表的成果。本声明的法律责任由本人承担。 学位论文作者签名:鲴遂 学位论文版权使用授权书 本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学 位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论 文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫 描等复制手段保存和汇编学位论文。同意将本学位论文收录到中国优秀博硕士 学位论文全文数据库( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论 文全文数据库( 中国科学技术信息研究所) 等数据库中,并以电子出版物形式 出版发行和提供信息服务。保密的论文在解密后遵守此规定。 本学位论文属于:保密口 不保密西 在年解密后适用本授权书。 ( 请在以上方框内打“ 论文作者签名:韵超 导师签名: 醐柙年 匠臼 霭 基丁a g e n t 的推荐技术研究与应用 第1 章绪论 1 1 研究背景与意义 随着信息科技的进步和互联网的日益普及,i n t e r n e t 逐渐成为一个巨大的、分 布全球的信息服务中心,其所提供的信息已成为社会和经济发展的重要资源,并 正前所未有地改变着人们的生活,人们足不出户就可以享受电子商务、网络教学、 网络新闻、网上银行、网络通信等带来的便利;同时,如此庞杂的信息使得w e b 用户面临“信息过载( i n f o r m a t i o no v e r l o a d ) ”的问题,如何方便快捷地从中获取所需 要信息是众多w e b 用户关注的焦点,也成为信息技术领域的一个研究热点。w e b 信息如此快速地膨胀,导致传统的信息检索( i n f o r m a t i o nr e t r i e v a l ) 技术面临着巨大 的压力。传统的检索技术只能对结构化的关系型数据提供管理和查询手段,无法 有效地处理大量的非结构化信息。另外,人类获取信息的手段是主动的( 主动检索) , 所以传统检索技术很难适应这种需求。推荐技术的出现为解决此问题提供了一个 较好的解决方案。推荐系统通过推荐算法预测用户的兴趣、推荐用户可能喜欢的 资源、过滤掉用户可能不喜欢的资源,使网站的商品、新闻、广告等信息能够最 大程度地展现给特定用户,提高网站的服务质量并带来可观的经济效益。同时, 推荐技术也改变了人们获取信息的方式,变主动检索为轻松接受。用户通过网站 的推荐也能快速有效地找到自己喜欢的资源,最终提高用户对网站的满意度和忠 诚度。 推荐技术目前已被越来越多网站采用,得到越来越多用户的认可。但是,随 着网站数据量的不断增长和人们对推荐结果质量要求的提高,推荐系统在应用中 逐渐暴露出一些缺点,如协同过滤技术的“冷启动 问题和数据稀疏性问题。“冷 启动问题是指在一个新的项目首次出现的时候,由于没有用户对它作过评价, 因此单纯的协同过滤无法对其进行预测评分和推荐。数据稀疏性问题是指,一般 情况下,多数用户浏览的项总量占网站项的总量的l 左右,因此造成了用户评分 数据矩阵常常是非常稀疏的。在这种数据量大且评分数据矩阵为稀疏矩阵的情况 下,一方面难以找到最近邻居用户集,另一方面进行相似性计算的耗费也会很大。 用户浏览过的项目、用户对项目的评分和浏览次数等数据能够反映用户的兴趣, 第1 章绪论 这些数据收集的准确程度直接影响推荐的结果质量。在分布式的网络推荐系统中, 大量数据的传输会占用大量的网络带宽,容易造成网络的堵塞,用户或项目的相 似性计算也会占用大量的硬件资源和花费大量的时间,这造成了处理海量数据时 的系统瓶颈。 在推荐技术的研究中引入a g e n t 技术是当前推荐技术研究的一个热点,利用 a g e n t 技术的相关特点实现高效的推荐效果是研究人员所追求的目标。a g e n t 技术 在机器学习、智能信息检索、数据挖掘等方面已经得到了快速发展和广泛应用。 a g e n t 是一个独立运行的计算机程序,代表用户完成特定的任务,它能够自动感知 周围环境的变化,自主做响应并影响周围的环境。多a g e n t s 通过各个a g e n t 互相 协商,协作解决问题。移动a g e n t 可以携带运行所需的程序代码和运行状态自由 地在具有a g e n t 运行环境的主机上迁徙,可以充分利用其网络各节点主机上的资 源。将a g e n t 技术应用在信息推荐领域,辅助推荐系统实现自动化智能化的数据 收集、分析、处理以及信息的过滤和推荐,利用多a g e n t s 间协作机制进行任务的 分配和调度,可以有助于提高系统的工作效率和资源的利用率,增强用户体验。 本文所研究的内容是在对网络教学系统的研究中凝练出来的,在网络教学系 统中,通过分析学生的浏览记录,根据学生浏览过的内容计算推荐结果的过程与 电子商务、在线电影、在线新闻等网站的推荐过程和原理是一致的,所不同的仅 仅是应用对象有所改变而己,所以不同应用领域的研究结果可以互相应用。 1 2 国内外研究现状 1 9 9 2 年,g o l d b e r g 等人提出了协同过滤技术,并据此构建了一个新型邮件过滤 系统t a p e s t r y t l l 。协同过滤技术被学术界普遍认为是第一个真正意义上的推荐系统。 1 9 9 9 年之后,a c m 等学术组织开始了针对推荐系统的专题研讨。随着研究的深入, 推荐技术应用在a m a z o n 、c d n o w 、e b a y 、淘宝网等电子商务网站中得到广泛应用, 这些网站主要采用内容过滤、规则过滤和协同过滤技术为用户提供产品的推荐, 为用户提供个性化的服务。 a g e n t 具有智能化、自主性等优点,研究人员将a g e n t 技术应用到推荐系统中以 期解决一些实际应用f 1 题。s a r w a r 等人提出采用过滤a g e n t 对基于内容的协同过滤 基于a g e n t 的推荐技术研究与应用 技术进行文本分析,用来提高推荐系统的准确性,对a g e n t 在信息推荐领域的应用 开始探索【2 】on a t h a n i e lg o o d ,【3 1 等人提出采用多个用户a g e n t 进行协作提高协同过滤 过滤的推荐质量。h e n r yl i e b e r m a n 贝j j 提出利用a g e n t 协助w e b 浏览以提高用户和系 统的交互性等【4 1 。 f a b 和a m a l t h a e 是 # b a g e n t 在推荐系统中应用的成功案例: f a b 是斯坦福大学数字图书馆的项目的一部分,支持内容过滤、协作过滤和 用户分组,能够处理用户和文档数量增长带来的问题。m a r k ob a l a b a n o v i c 在f a b 中使用两种类型的a g e n t 【5 】。一类是信息收集a g e n t ,它负责查找与项目相关的内容; 另一类是信息选择a g e n t ,它负责查找用户感兴趣的内容。这两种a g e n t 采用p r o f i l e 管理w e b 页面中被评过分的关键字。 a m a l t h a e 6 】系统通过分析h o t l i s t 、浏览记录和用户的评分发现用户的兴趣,找 到用户可能感兴趣的内容。系统中采用了两种类型的a g e n t :一类是信息过滤a g e n t , 负责系统的个性化和跟踪用户兴趣;另一类是信息发现a g e n t ,负责从信息源中获 取用户感兴趣的信息。系统拥有多个这两种类型的a g e n t s ,通过一个模拟的市场环 境研究各个a g e n t 之间的竞争、协作和进化。 闰艳等人将多a g e n t s 和w e b 日志挖掘技术相结合,把推荐系统中的功能模块构 建为智能体,构建了一个基于妻;a g e n t s 的电子商务个性化荐系统模型【7 】。曾庆辉提 出了一个基于a g e n t 的智能信息推荐系统的体系结构模型,这个模型在逻辑上分为 三层,在每一层都有对应于用户的a g e n t ,分别承担着提供接口、进行信息过滤和 兴趣学习以及信息检索等工作【8 】。张亚伟提出了一个基于移动a g e n t 的分布式个性 化推荐系统架构,该系统允许多种推荐方法同时为用户生成推荐,并能协同它们 共同工作,从而能够弥补单一推荐方法的不足,满足了多种推荐需求【9 】。 有些学者采用遗忘函数反映用户兴趣随时间的变化关系。k o y c h e v 1 0 】在推荐系 统中引入了逐步遗忘的思想,并使用一个线性遗忘函数,通过对评分时间的加权 ( t i m e w e i g h t e d ) 来描述用户兴趣的这种变化。k u l a r 根据冠心病诊断的临床实验, 建议使用一个核函数( k e r n e lf u n c t i o n ) 来处理临床中的回顾性研究( 医师通过对以 前临床数据的分析可作出最后的诊断结果) 1 1 】。郑先荣等人提出了线性逐步遗忘 协同过滤算法,根据评价时间线性逐步减小每项评分的重要性【1 2 】。 第1 章绪论 综上所述,上述研究主要存在下不足: ( 1 ) a g e n t 在推荐系统大多担当信息收集和选择的任务,处理的任务比较简单, 无法最大发挥a g e n t 的的优势; ( 2 ) 在处理大规模数据的情况下,推荐服务器往往不堪重负,而推荐系统的数 据库服务器、w e b 服务器等可能空闲,造成了系统资源的浪费。 ( 3 ) 推荐算法无法反映用户兴趣的变化。用户的兴趣随着时间的变化而变化, 这种用户兴趣的这种变化直接到用户对推荐结果的认可程度。 1 3 研究内容 本文从提高用户信息共享和用户体验的角度出发,主要研究如何利用a g e n t 技 术实现用户信息的收集、跟踪用户浏览过程、协助完成推荐服务等功能。研究如 何利用过滤技术过滤用户不喜欢的信息,推荐用户可能喜欢的信息,并在现有推 荐算法的基础上进行改进,以便提高推荐质量。同时,利用网络s o c k e t 实现w e b 服 务程序和a g e n t 的通信功能等系统实现技术展丌研究。在此基础上,构建基于a g e n t 的网络推荐系统模型,并依据该模型实现一个原型系统,然后对系统运行结果作 出分析。具体而言,研究内容主要包括以下几个方面: ( 1 ) 论述推荐技术的特征及其相关技术,详细研究协同过滤技术的推荐过程, 并对其优缺点进行分析,为研究基于a g e n t 的推荐技术以及推荐算法的改进奠定基 础。 ( 2 ) 研究基于a g e n t f 拘推荐系统的体系结构。在理解a g e n t 、移动a g e n t 的基本 概念、特征、体系结构和关键技术的基础上,研究如何将a g e n t 应用到推荐系统中 以改善推荐系统的服务水平。 ( 3 ) 构建全新的基于a g e n t 的b s a 架构系统模型,研究a g e n t 在新模型中的工 作流程、通信原理、a g e n t 在推荐系统中的角色和优势,并采用a g l e t 平台实现新模 型的原型。 ( 4 ) 根据艾宾浩斯遗忘曲线的记忆遗忘规律,提出协同过滤算法的改进算法, 使推荐结果既能反映用户的记忆遗忘水平,又能反映用户兴趣变化与时间推移的 关系。 基丁a g e n t 的推荐技术研究与应用 ( 5 ) 采用m o v i e l e n s 部分数据集,验证改进后算法的正确性与合理性。 1 4 论文的组织结构 针对上述研究内容,本文将分成六章进行论述,各个章节的主要内容描述如 下: 第l 章绪论。本章主要阐述a g e n t 技术与推荐技术的研究背景、研究成果及其 研究意义,分析国内外在该领域的研究动态以及存在的相关问题,列出本文的研 究重点与主要研究思路。 第2 章推荐系统及其关键技术。本章在论述推荐技术的基础上,着重分析基 于用户的协同过滤技术、基于内容的协同过滤技术和s l o p eo n e 协同过滤技术的算 法步骤,通过分析对比,指出如何恰当地在推荐技术的研究中使用这三种技术。 第3 章a g e n t 技术及其在推荐系统中的应用。本章概述a g e n t 的概念、特征,详 细分析移动a g e n t 的概念特征与系统结构,详细介绍a g l e t 移动平台的理论模型、通 信语言、通信协议、安全机制,为系统的实现奠定基础。最后对a g e n t 在推荐系统 中的应有范围进行分析。 第4 章推荐系统的设计及其推荐算法的改进。在a g e n t 和推荐技术两者关系的 基础上,提出一个基于a g e n t 的推荐系统的架构,详细论述a g e n t 在推荐系统中的工 作原理和推荐过程。然后本文通过分析时间推移对用户兴趣变化的影响和艾宾浩 斯遗忘曲线,提出采用基于时间加权的线性遗忘函数和正态遗忘函数对传统的协 同过滤技术机型改进。 第5 章系统实现与实现结果分析。本章重点阐述a g e n t 在系统中推荐过程的实 现,介绍改进后算法的实现过程,在给定数据集上进行实验,通过与改进前算法 的推荐结果进行分析和比较,最后从理论和实践上验证改进后算法的优越性。 第6 章总结与展望。本章对论文期间所做的工作进行总结,给出研究结论并 展望a g e n t 和推荐技术的发展未来,提出有待于进一步研究的相关问题。 第2 章推荐系统及其关键技术 第2 章推荐系统及其关键技术 本章在论述推荐系统的基本原理、关键技术以及系统协同过滤算法的基础上, 通过分析对比,指出如何恰当地在推荐系统中选择相应的推荐算法,以及在推荐 系统开发过程中如何处理实时性、推荐质量、用户个性化服务等要求,为推荐系 统的设计与实现奠定理论基础。 2 1 推荐技术概述 2 1 1 推荐系统的概念 1 9 9 2 年,g o l d b c r g 等人提出了协同过滤技术,并据此构建了一个新型邮件过 滤系统t a p e s t r y 1 1 。这项开创性的研究成果被学术界普遍认为是第一个真正意义上 的推荐系统。协同过滤技术能够模拟日常生活中的推荐行为,共享人们的经验, 因此得到了广泛的应用,也为其它信息推荐技术的发展奠定了基础。 1 9 9 7 年,r e s n i c k 和v a r i a n 将推荐系统( r e c o m m e n d e rs y s t e m ) 描述为,“人们 通常要在没有个人经验的情况下做出选择【1 3 】。在同常生活中,人们往往依靠i z :l 头 推荐、推荐信、报纸上的影评和书评等方式接受他人的建议。推荐系统是这对这 一社会过程的模拟和补充。他们认为推荐系统应具有以下两个特点: ( 1 ) 推荐者之间的协作是隐式的,他们之间并不知道对方的存在; ( 2 ) 推荐系统强调的是对项目的推荐功能,同时暗含着对项目的过滤功能。 在推荐系统中,因为协同过滤技术、内容过滤技术等强调的是信息的推荐功 能,所以把它们统称为推荐技术。 在电子商务中,推荐系统的发展最为迅猛,如电子商务网站a m a z o n t o m 、 e b a y c o r n 等。在电子商务的推荐系统中,推荐技术是利用电子商务网站向客户提 供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完 成购买过程的一系列方法与技巧【1 4 , 1 5 】。推荐的对象包括电影、音乐、图书、新闻、 照片、网页、商品等。 2 1 2 推荐系统的相关技术研究 ( 1 ) 个性化服务技术 基于a g e n t 的推荐技术研究与应用 所谓个性化服务【1 6 】,就是根据每个用户的不同喜好为其提供不同的服务。例 如,根据用户喜爱的页面,可确定当前页面的下一级连接。系统根据对用户兴趣 的累积分析,不断地调整显示结果以适应用户兴趣的变化,使得每个用户都感觉 自己是该网站的唯一用户。推荐系统主动适应每一个用户需求,为每一个用户提 供完全不同的个性化浏览或购物体验 1 7 - 1 9 】。因此,这项技术属于w e b 站点个性化 服务的范畴。 ( 2 ) 数据挖掘技术 协同过滤技术是目前推荐系统中应用较成功的个性化推荐技术,但它需要用 户显式输入对推荐项的主观数值评分,因此,使用不很方便,而且当用户评分数 据较少时很难保证推荐系统的推荐质量。另外,协同过滤技术很难处理非注册用 户的情形。随着用户数目和产品数目的只益增加,可以收集到大量的用户交易数 据、用户注册数据、用户评分数据等。此外,服务器中也保存着用户访问系统的 日志信息、用户购物车、用户浏览某项商品的次数等数据。这些数据中蕴含着丰 富的用户及市场信息。面对这些海量数据,为了提高推荐系统的推荐质量和推荐 效率,有效地处理大量非注册用户的行为模型,数据挖掘技术( d a t am i n i n g ,d m ) 中得到了广泛的应用【2 0 2 2 】。 数据挖掘也称数据库知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,i c d d ) ,主要 包括关联规则挖掘、序列模式挖掘、聚类挖掘、分类挖掘等。在推荐系统其含义 是从大量数据中抽取出潜在的、不为人知的有用信息模式或趋势。基于d m 技术 的推荐系统可通过分析用户的浏览日志、购买记录等信息向用户推荐特定的信息, 而不需要用户提供主观的评分信息,因此用户使用起来比较方便,同时可信度比 较高。 ( 3 ) 关联规则 在知识发现( k d d ) 领域,d m 技术就是在顾客购买的不同产品之间发现关联规 贝, 1 ( a s s o c i a t i o nr u l e s ) ,产生推荐。i b m 公司a l m a d e n 研究中心的r a g r a w a l 首先 提出了关联规则模型用来挖掘顾客交易数据库中项集间的关联规则【2 3 1 。关联规则 挖掘的典型例子是购物车分析。该过程通过发现顾客购物车中不同产品之间的联 系,分析顾客的购买习惯。例如,买网球拍的顾客还会购买网球等。通过分析哪 第2 章推荐系统及其关键技术 些产品频繁地被顾客同时购买,发现这些产品之间的规则关系,从而帮助零售商 制定营销策略,达到促销的目的。关联规则的发现算法很多,如:a p f i o f i ,f p t r e e , h p ,a p r i o r i t i d 等。 基于关联规则的推荐算法就是根据关联规则算法以及用户当前购买行为向用 户产生推荐。在关联规则推荐技术中,关联规则的发现是最耗时的,因此一般应 离线进行。当规则数量累积到一定程度,即新的规则不再大量出现时,这个算法 就能比较准确且高效地产生推荐了。 基于规则的系统,如i b m 的w e b s p h e r e 、b r o a d v i s i o n 和i l o g 等,它们允许 系统管理员根据用户静态特征和动态属性来制定规则。一个规则本质上就是一个 i f - t h e n 语句,规则决定了在不同情况下如何提供不同的服务。基于规则的系统其优 点是简单、直接,缺点是规则质量很难保证,而且不能动态更新。此外,随着规 则数量的增多,规则将变得难以维护,系统将变得越来越难以管理。 ( 4 ) 内容过滤技术 内容过滤( c o n t e n tf i l t e r i n g ) 是信息过滤和推荐中最基本的一种方法。内容过滤 【2 4 1 方法中主要采用自然语言处理、人工智能、概率统计和机器学习等技术进行过 滤,把每个用户的信息需求表示成一个用户兴趣模型,即表示成向量空间中的一 个用户向量,并通过对文本集中的文本信息进行分词、标引、加权计算、词频统 计等过程,来生成一个文本向量,然后计算用户向量和文本向量之问的相似度, 将相似度高的文档发送给该用户模型的注册用户。 内容过滤的关键在于对文本信息的理解,其关键在于对文本结构进行分析, 只有充分掌握了文本的结构,才能充分理解文本表达的主题,从而抽取出代表文 本主题的特征词,或生成文本摘要等可视化表示。文本过滤的另一个关键是用户 模型的构造,即用户建模技术,只有准确地描述用户的信息需求,才能做到更好 的过滤服务。 内容过滤具有简单快速的优点,但是随着信息的剧增,效率和质量下降比较 明显;由于内容过滤依赖于项目的文本结构,对于非文本的信息媒体,如图片、 声音、视频等的推荐效果不是很理想;与协同过滤相比,内容过滤不能发现新的 感兴趣的信息。 基于a g e n t 的推荐技术研究与应用 ( 5 ) 聚类 聚类( c l u s t e r i n g ) 是将数据对象归类,分为多个簇( c l u s t e r ) ,在同一个簇中的对 象具有较高的相似度,而不同簇中的对象则差别较大。通过聚类,可以识别数据 对象密集还是稀疏的区域,因而可发现全局对象的分布模式以及数据属性之间的 相互关系。用聚类来处理大规模的数据时非常有效 2 5 - 2 7 1 。 为了便于寻找目标用户的相似用户,聚类模型首先将现有用户按照一定的方 法分为多个簇,具有相似爱好的用户分配到相同簇中。根据目标用户所属簇对某 产品的评价,得到目标用户对该产品的预测评价。 由于聚类模型只是将目标用户与一定数量的簇进行类比,而非整个用户集, 因此,在扩展性和实现性能上比传统的协同过滤技术略显优势。在协同过滤系统 中可应用聚类对数据进行预处理,因为聚类可以离线进行,所以可加快系统的响 应时间。但是,单独使用聚类算法时,推荐质量并不是很高。当某个用户处于聚 类的边缘时,对该用户的推荐精度就会比降低。为了更好地为目标用户进行推荐, 需要将用户分配到与其具有较高相似度的用户簇中,这样,将会增加簇的数量, 从而增减了系统开销。因此,在线进行目标用户归类的代价,与传统协同过滤技 术中寻找相似用户的代价是基本一致的。 另外,有的研究者还将贝叶斯网络( b a y e s i a nn e t w o r k ) 2 s , 2 9 、h o r t i n g 副3 0 1 、 l s i s v d 3 1 1 ( 对用户评分矩阵降维) 等研究成果应用到推荐系统中来,从不同的方向 推动着推荐技术的发展。 基于用户( u s e r - b a s e d ) 的协同过滤技术是最早出现的过滤技术,也是应用最成 功的技术之一。以此为基础,有人提出了基于项( i t e m b a s e d ) 的协同过滤技术和 s l o p e o n e 协同过滤技术。本文将对基于用户的协同过滤技术、基于项的协同过滤 技术、s l o p e o n e 协同过滤技术做详细的分析。 2 2 协同过滤技术 2 2 1 基于用户的协同过滤技术 1 9 9 2 年g o l d b e r g 等人提出的协同过滤技术是基于用户的协同过滤技术,与内 容过滤技术不同,基于用户的协同过滤技术通过分析用户浏览记录,在用户群中 第2 章推荐系统及其关键技术 找到与该用户兴趣相同或相似的用户,综合这些兴趣相同或相似用户对某种信息 的评价,形成该用户对这些信息喜好程度的一种预测。 基于用户的协同过滤技术的出发点在于任何人的兴趣不是孤立的,而是处于 某个群体中。在f 1 常生活中,人们接受的信息往往是周围人群推荐的结果,所以 可根据兴趣相同或相近的用户对某信息( 商品) 的评价,来预测用户对信息( 商品) 的 偏好,并以此形成推荐。由于协同过滤技术不依赖于内容,所以它不仅适用于文 本格式,也可以广泛应用于非文本形式的信息媒体。 基于用户的协同过滤技术基于这样的假设:如果某些用户对一些项目的评分 比较相似,则他们对其它项目的评分也比较相似;如果大部分用户对一些项的评 分比较相似,则当前用户对这些项的评分也比较相似。基于用户的协同过滤技术 使用统计方法搜索目标用户的若干最近邻,然后根据最近邻对项目的评分预测目 标用户对项目的评分,产生对应的推荐列表。 本文研究的协同过滤技术基于用户评分,用户对项的直接评分和项的浏览次 数等能够反映用户对项的喜好程度的数据都可以转化为用户对项的评分。基于用 户的协同过滤算法的核心是计算最近邻居的评分并以此产生最后的推荐结果。例 如,在表2 1 所示的用户评分数据中,基于用户的协同过滤算法要预测用户u s e r d 对i t e m 4 的评分【3 2 】。通过分析可以发现,u s e r a 和u s e r d 对电影的评分非常相似, 所以可以认为u s e r a 是u s e r d 的最佳邻居,因此u s e r d 对i t e m 4 的评分对预测值 的影响最大。相比而言,u s e r b 和u s e r c 不是u s e r d 的好邻居,因为他们对电影 的评分存在冲突,所以u s e r b 和u s e r c 对i t e m 4 的评分对预测值的影响相对要小 一些。在实际预测过程中,只要搜索与当前用户相似性最高的前若干个邻居,然 后根据相似性大小预测当前用户对未评分项的评分。 表2 1 用户评分数据 t a b 2 1u s e rs c o r ed a t a 基ta g e n t 的推荐技术研究与应用 由上面的例子可知,用户相似性度量、最近邻居查询和预测评分是整个基于 用户的协同过滤算法的主要工作。所以,基于用户的协同过滤算法可以分为如下 三个阶段: ( 1 ) 数据表示:对用户评过分的项建立数据模型,以便有效地度量用户之间的 相似性。 在基于用户的协同过滤中,必须根据不同用户对项的评分信息产生推荐结果。 用户评分数据可以用一个m x n 阶矩阵x ( m ,圳表示,m 行代表有m 个用户,n 列代 表有刀个项,第f 行第p 列的元素饰,代表用户f 对项p 的评分,矩阵翮l ,砂称 为用户评分矩阵。用户评分数据矩阵表2 2 可以形式化地表示成公式( 2 1 ) 。 表2 2 用户评分数据矩阵 t a b 2 2u s e rs c o r em a t r i x x = 1 12 r 2 1 r 2 2 l2 ( 2 1 ) ( 2 ) 最近邻居查询:搜索当前用户的最近邻居。 最近邻居查询是整个基于用户的协同过滤技术的核心,其效果和效率很大程 度上决定了基于用户的协同过滤算法的效果和效率。所谓最近邻居,就是购买行 为或评分行为与当前用户比较相似的一些用户。最近邻居查询实质上属于基于用 户的协同过滤算法的模型建立阶段。 度量用户f 和用户之问相似性的方法是:首先得到用户f 和用户,已经评分 过的所有项,然后通过相似性度量方法计算用户f 和用户_ ,之间的相似性,记为 s i m ( i , j ) 。目前主要有以下三种相似性函数来度量用户问相似性: ; 第2 章推荐系统及其关键技术 余弦相似性( c o s i n e ) :将用户评分看作为n 维项空间上的向量,如果用户 对某个项还没有进行评分,则将其设为0 。用户间的相似性通过向量间的余弦夹角 度量。设用户f 和用户j 在i 1 维项空间上的评分分别表示为向量 ,歹,则用户i 和 用户歹之间的相似性s i m ( i , j ) 可用公式( 2 2 ) 表示: 鲥似“) - c o s ( t 力2 楠 ( 2 2 ) 在公式( 3 2 ) 中,分子为两个用户评分向量的内积,分母为两个用户向量模的乘 积。 相关相似。 生( c o r r e l a t i o n ) :设用户i 和用户_ ,的已评分项集合用而表示,则 用户i 和用户j f 之间的相似性j f m 俐可通过皮尔逊( p e a r s o n ) 相关系数进行度量。 咖 舻高等赫 亿3 , 在公式( 2 3 ) ,r i , c 表示用户i 对项c 的评分,r i 和r j 分别表示用户i 和用户_ , 的平均评分,c ,。表示项c 属于用户i 和用户共同评过分的项的集合。 修正余弦相似。| 生( a d j u s t e dc o s i n e ) :在余弦相似性度量方法中,没有考虑不 同用户的评分尺度问题,修正的余弦相似性度量方法将通过减去用户对项的平均 评分改善上述缺陷。设用户i 和用户j 共同评分过的项集合用乃表示,五和6 分别 表示用户i 和用户j 的评分项集合,则用户i 和用户j 之间的相似性s i m ( i , j ) 可用公 式( 2 4 ) 表示: 砌g 护高兰一 亿4 , 矾州b 力2 压丽蔫司瑟丽 仨4 在公式( 3 4 ) 中,r i ,。表示用户i 对项c 的评分,r i 和b 分别表示用户i 年n p 4 p 的平均评分,c ,表示项c 用户i 评过分的项的集合。 最近邻查询的目标就是对每一个用户u ,在整个用户空间中查找用户集合 c = j ,c 2 剐,使得“正c ,并且c j 与“的相似性s i m ( u ,c 最高,c 2 与“的相似 性s i m ( u ,c z ) 次之,依此类推。 基于a g e n t 的推荐技术研究与应用 ( 3 ) 推荐产生:根据当前用户最近邻居对项的评分信息,采用预测函数预测当 前用户对未评分项的评分,产生t o p - n 推荐。 通过上面的相似性度量方法可得到目标用户的最近邻居,下一步需要产生相 应的推荐。设用户i 的最近邻居集合用n n i 表示,则用户i 对项t 的预测评分a , 可以通过用户f 对最近邻居集合n n 中项的评分得到,预测函数如( 2 5 ) 所示: 己西鼍一 亿5 , 在公式( 2 5 ) 中,s i m ( i , j ) 表示用户i 与用户之间的相似性,r 和尺,分别表示用户f 和用户,的平均评分。 通过上述方法预测用户对所有未评分项的评分,然后选择预测评分最高的前n 个项作为推荐结果反馈给当前用户,即t o p n 推荐。 上述方法是基于用户评分的推荐,当使用浏览或交易数据作为算法输入时, 基于用户的协同过滤算法无法预测用户对项的评分,这时,可采用如下两种方式 产生t o p n 推荐: 最频项推荐:分析当前用户每一个最近邻居的浏览或购买记录,对其浏览 或购买的项进行计数,选择出现频率最高且当前用户没有浏览或购买过的前n 项 作为推荐结果。 关联规则推荐:将当前用户最近邻居的交易数据作为一个虚拟的交易数据 库,进行关联规则挖掘。关联规则左部的项如果出现在当前用户的浏览项集合中, 则向当前用户推荐关联规则右部的项。 2 2 2 基于项的协同过虑技术 基于项的协同过滤技术根据用户对相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 梳理缝编非织造布制作工成本控制考核试卷及答案
- 漆器彩绘雕填工抗压考核试卷及答案
- 辐射废物处理技术风险评估与管理分析报告
- 重庆学校活动设备策划方案
- 碳排放交易员专项考核试卷及答案
- 义诊咨询工作方案
- 大型养路机械司机适应性考核试卷及答案
- 校园招聘效果追踪报告
- 学前儿童发展心理学考试真题
- 含氟烯烃生产工理念考核试卷及答案
- 2025年小学部分国防教育知识竞赛答案
- 2025秋部编版(2024)八年级上册语文上课课件 第三单元 阅读综合实践
- 借车给他人免责协议书
- 基于AI的智能运维解决方案
- 2022年甬统表全套
- 法理学原理与案例完整版教学课件全套ppt教程
- 智能IT运维监控平台解决方案
- 山东大学工程流体力学(杜广生)课件第5章 粘性流体的一维流动
- 橡胶沥青应力吸收层技术建议书
- 800 稳定大底
- 金属结构制造与安装-第七章平板钢闸门的安装ppt课件
评论
0/150
提交评论