(计算机应用技术专业论文)一种混合模式电子商务推荐技术的研究.pdf_第1页
(计算机应用技术专业论文)一种混合模式电子商务推荐技术的研究.pdf_第2页
(计算机应用技术专业论文)一种混合模式电子商务推荐技术的研究.pdf_第3页
(计算机应用技术专业论文)一种混合模式电子商务推荐技术的研究.pdf_第4页
(计算机应用技术专业论文)一种混合模式电子商务推荐技术的研究.pdf_第5页
已阅读5页,还剩86页未读 继续免费阅读

(计算机应用技术专业论文)一种混合模式电子商务推荐技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

苏州大学学位论文使用授权声明 l i l ll l ii i i l i ii i i i i ll ll y 17 3 2 0 0 7 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属 在年一月解密后适用本规定。 非涉密论文口 论文作者签名:查缒日期:翌生:查:! 笙 导师签名:期:b l 口6 i 乒 一种混合模式电子商务推荐技术的研究摘要 摘要 随着互联网的普及和发展,电子商务逐渐融入到人们的日常生活中,人们可以 足不出户的买到自己想要的产品。但是电子商务网站上存在大量的商品信息,客户 在纷繁的商品中寻找有用的信息非常困难。在这种情况下电子商务推荐系统应运而 生,逐渐成为电子商务技术的一项重要研究内容,相关技术越来越多地得到研究者 的关注。本文针对推荐系统中存在的一些问题,做了如下研究内容: 首先,电子商务推荐系统中涉及到一个重要的技术是挖掘频繁项集。在实际应 用中,随着日志不断更新,事务数据库处于变化之中,从而改变了挖掘出的原有模 式。本文通过引入次频繁项对应原事务标识符的索引来确定需要处理原数据库的 哪些事务,减少了这一过程所消耗的时间,并用基于压缩f p t r e e 和矩阵技术代替原 始f p g r o w t h 挖掘出频繁模式。 第二,协同过滤技术是电子商务推荐系统中应用得比较成功的技术之一。本文 通过把项目的类型相似度引入到项目相似度的计算中,从而更加准确地得到项目的 最近邻居和用户之间的相似度,最终更加有效地推荐出用户感兴趣的商品。 第三,本文根据由频繁模式作出的商品推荐和由协同过滤作出的商品推荐各自 的优点,将两种方法进行了有效的整合,发挥出各自的优点。实验表明,组合后的 算法比单独使用两种技术有着更好的推荐效果。 最后,本文采用m o v i e l e n s 站点提供的数据集作为测试数据,验证了混合模式推 荐技术的有效性。 综上所述,本文实现了由频繁模式挖掘和协同过滤技术组合而成的电子商务推 荐系统。有效解决了由事务数据库动态更新引起的频繁模式动态更新问题,通过引 入项目的类型相似度提高了推荐系统的推荐效果,并有效组合了两种推荐技术,实 验结果体现出本文算法的优越性,具有一定的现实意义。 关键词:增量挖掘;信息推荐;协同过滤 作者:李春喜 指导教师:赵雷 a b s t r a c t一种混合模式电子商务推荐技术的研究 a b s t r a c t w i t ht h ep o p u l a r i t ya n dd e v e l o p m e n to ft h ei n t e r n e t ,e c o m m e r c ei si n c r e a s i n g l yi n - t e g r a t e di n t op e o p l e sd a i l yl i v e s b u ti ti sd i f f i c u l tt of i n dt h ep r o d u c t sc o n s u m e r si n t e r e s t b e c a u s ei ti ss ot r e m e n d o u s i nt h i sc a s e ,e - c o m m e r c er e c o m m e n d a t i o ns y s t e mc o m ei n t o b e i n ga n db e c o m ei m p o r t a n tr e s e a r c hc o n t e n t so ft h ee c o m m e r c et e c h n o l o g y i no r d e rt o s o l v es o m ee x i s tp r o b l e m s ,s o m er e s e a r c h e sa sf o l l o w sa r ec a r r i e di nt h i sp a p e r f i r s t l y , d i s c o v e r yo ff r e q u e n tp a t t e r n si so n eo ft h ei m p o r t a n tp a r t so ft h ee - c o m m e r c e t e c h n o l o g y i nt h i sp a p e r , a ni n d e xt a b l eo fp r e l a r g ei t e m st ot h e i rc o r r e s p o n d i n go r i g i n a l t r a n s a c t i o n si sp r o p o s e dt of i n do u tt h et r a n s a c t i o n sn e e dt ob ep r o c e s s e d t h e nw ew o r k o u tt h ef r e q u e n tp a t t e r n sb yu s i n gc o m p a c tf p - t r e ea n dm a t r i xb a s e da l g o r i t h m t h ee x p e r - i m e n t a le v a l u a t i o ns h o w st h a tt h ep r o p o s e da l g o r i t h mo u t p e r f o r m st h ep r e r 詹pa l g o r i t h m s e c o n d l y , t h ec o l l a b o r a t i v ef i l t e r i n gt e c h n o l o g yi so n eo ft h es u c c e s s f u lt e c h n o l o g i e s i nt h i sp a p e r , t h es i m i l a r i t yo ft h ep r e d i c t e di t e m sw a si n t e g r a t e di n t oc o s i n es i m i l a r i t yo ft h e u s e r sr a t i n g s t h u si tc o u l dg e tm o r ea c c u r a t es i m i l a r i t yo ft w ou s e r sa n dn e a r e s tn e i g h b o r s o ft h et a r g e tu s e r s om o r ea c c u r a t ep r e d i c t e di t e m sc o u l db er e c o m m e n d e d a d d i t i o n a l l y , t w om e t h o d sw h i c ha l ep r o d u c t sr e c o m m e n d a t i o nb a s e do nf r e q u e n tp a t - t e r n sa n dc o l l a b o r a t i v ef i l t e r i n ga r ei n t e g r a t e di nt h i sp a p e r t h ee x p e r i m e n t a le v a l u a t i o n s h o w st h a tt h ei n t e g r a t i o nc o u l de x p r e s st h e i rr e s p e c t i v ea d v a n t a g e sa n do u t p e r f o r mt h er e - s u i t sb yu s i n gt w o s e p a r a t er e c o m m e n d e dm e t h o d s f i n a l l y ,t h er e a ld a t ap r o v i d e db ym o v i e l e n ss i t ei su s e dt os u p p o r tt h ee f f e c t i v e n e s so f t h ea l g o r i t h mp r o p o s e di nt h i sp a p e r a sm e n t i o n e da b o v e ,a ne c o m m e r c er e c o m m e n d a t i o ns y s t e mi n t e g r a t i n gf r e q u e n tp a t t e r n sa n dc o l l a b o r a t i v ef i l t e r i n gi sa c h i e v e di nt h i sp a p e r i th a si m p r o v e dt h ee f f e c t i v e n e s so f s o m ek e ys k i l l ss u c ha st h ea c h i e v e m e n to fn e wf r e q u e n tp a t t e r n s ,t h eb e t t e rr e c o m m e n d a t i o n r e s u l t sb yu s i n gs i m i l a r i t yo ft h ei t e m sa n di n t e g r a t i n gt w om e t h o d sm e n t i o n e da b o v e k e y w o r d s :i n c r e m e n t a lm i n i n g ,i n f o r m a t i o nr e c o m m e n d a t i o n ,c o l l a b o r a t i v ef i l t e r i n g w r i t t e nb yl ic h u n x i s u p e r v i s e db yz h a ol e i 目录 2 2电子商务个性化推荐系统 2 3 电子商务推荐系统的组成模块 2 4 电子商务个性化推荐技术 第三章 3 1 3 2 3 3 3 4 第四章 4 1 4 2 4 3 电子商务推荐系统的整体框架 推荐系统的整体框架图 基于频繁模式的信息推荐模块 基于协同过滤的信息推荐模块 系统框架的优越性 频繁模式挖掘与信息推荐 频繁模式形式化定义 频繁模式挖掘算法 4 2 1 a p r i o r i 算法及其改进 4 2 2 f p g r o w t h 算法 4 2 3 f p - g r o w t h 的改进算法 增量挖掘及有关算法 1 1 2 2 3 4 5 6 8 8 3 4 6 o 0 0 3 5 7 7 9 9 d l 7 1 2 2 3 4 5 6 8 8 b m 撕 加加加筋筋 ”凹凹如站卯 目录一种混合模式电子商务推荐技术的研究 4 3 1增量挖掘的概念3 7 4 3 2 基于a p r i o r i 的增量挖掘算法3 8 4 3 3 基于f p g r o w t l l 的增量挖掘算法4 0 4 4 一种改进的增量挖掘算法4 2 4 4 1一种改进的增量挖掘算法描述4 3 4 4 2 关于该改进算法的示例4 5 4 4 3实验结果分析4 7 4 5 基于频繁模式的信息推荐4 8 第五章协同过滤技术与信息推荐 5 1基于协同过滤的推荐系统 5 1 1基于协同过滤的推荐系统简介 5 1 2 协同过滤推荐系统的优缺点分析 5 1 3推荐结果的评价 5 2 未评分项评分预测技术 5 2 1基于项目评分预测的协同过滤技术 5 2 2 基于邻域最近邻的协同过滤技术 5 3 基于类型相似度评分预测的协同过滤算法 5 3 1算法的提出 5 3 2算法的描述 5 3 3项目类型相似度权重的确定 5 3 4 算法的总结 第六章实验及结果分析 6 1实验数据集介绍 6 2 基于类型相似度评分预测的推荐结果比较 6 3 基于协同过滤技术和频繁模式发现的推荐结果比较 第七章总结与展望 7 1 总结 7 2 展望 鲫 孔 弱 舛 舛 卯 趵 甜 :2 岱 卯 加 记 佗 乃 目录 4 o l 7 8 8 第一章绪论 绪论 会和网络经济时代,互联网和w e b 技术 的不断进步促进了电子商务的快速发展,电子商务的日益繁荣改变了传统的贸易行 为,它的逐步建立和完善使传统的商务运作摆脱了已有规则的束缚,对相关的商业 形态、交易形式、流通方式以及营销方式等都产生的巨大的影响。 对企业而言,电子商务为企业发展提供了新的商业入口,同时也提供了大量的 产品信息,创造了更多的商业机会。网络为企业提供了廉价、方便快捷、手段多样 的市场调研环境和营销手段,可以更有效地与用户接触交流。对用户而言,电子商 务为他们提供了前所未有的产品选择空间和购物便利,产品种类的极大丰富使得用 户的购买目的从单纯的满足对物质的需要更多地转变为体现个性特征和满足个性化 需求。但是,随着商业w e b 站点的快速增长,电子商务网站上的信息也在呈指数增 长,信息的过载为用户在选择他们最中意的产品时带来了沉重的处理负担。用户面 对不同站点产生的大量信息,不得不漫无边际地浏览网络以发现他们需要的信息, 虽然很多时候w e b 网页的内容和用户的期望是不相关的,但是用户还是不得不阅读 它们以把它们排出在真正想要的以外。 在这种情况下,用户迫切地希望电子商务系统能够提供一种类似购物助手的功 能,可以根据用户自身的兴趣爱好推荐他们可能感兴趣而且满意的产品。从企业的 角度来说,企业在日益激烈的竞争中越来越难以生存,提高用户的满意度和忠诚度 是其取得长期竞争优势的关键,获得用户信息,分析用户的购物偏好,为用户提供 可能感兴趣的商品,这是企业要尽力做好的重要工作。只有充分满足和迎合用户需 求的企业才能在电子商务的广阔市场中占据主导地位。因此,为满足用户和企业共 同的迫切需要,重视用户的个体需求,致力于满足不同用户不同偏好的电子商务个 性化推荐系统( p e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e mf o re c o m m e r c e ) 应运而生。 推荐系统推荐何种商品是根据电子商务网站整体商品的购买情况、客户的人数 统计或者对客户购买的历史记录上进行分析产生的。如何分析利用各种资源信息, 为用户提供更加便利、有效的推荐成为近几年来学术界所关注的一个重点。美国计 算机学会a c m 召开的电子商务研讨会中,有关电子商务推荐系统的研究文章占很大 第一章绪论一种混合模式电子商务推荐技术的研究 比重。此协会的数据挖掘特别兴趣组s i g k d d 小组设立了w e b k d d 研讨组,主题集 中在电子商务中的w e b 挖掘技术和推荐系统技术。而a c m 下面的信息检索特别兴趣 组s i g i r 在召开的第2 4 届研究和发展会议上,推荐技术成为一个研讨主题。 推荐系统发展到现在,相关技术取得了很大的发展,但在实际应用中仍然存在 不少问题。由于用户的持续访问,服务器的日志数据处于不断更新中,如何准确地、 更有效地获取用户新的访问模式仍是学者需要解决的问题。另外随着电子商务系统 规模的不断扩大,系统的用户和项目数据急剧增加,再加上用户仅对很少的项目进 行了评价,造成用户评分矩阵极端稀疏,从而导致推荐速度慢和推荐质量低等问题。 很多学者就此类问题进行了大量的研究,取得了不少成绩,同时也存在提升的空间。 如何更有效的提高推荐系统的推荐性能仍是信息推荐领域研究的热点。 1 2 课题研究现状 本文基于w e b 使用挖掘来实现电子商务的推荐系统,主要涉及到两方面的技术: 频繁模式挖掘和协同过滤技术,国内外对这两方面的技术有着不少的研究,取得了 不少的成果。 1 2 1 频繁模式挖掘的国内外研究现状 自关联规则的概念被提出以来,频繁模式挖掘就成为包括关联规则挖掘、相 关分析、时间序列挖掘、空间数据挖掘等许多数据挖掘任务的基础和关键步骤, a p f i o f i 算法和m g r o w t h 算法f 2 】是两大经典的频繁模式挖掘算法。长期以来,挖掘 频繁模式主要采用a p f i o f i 及其改进算法【“】。然而,a p f i o f i 及其改进算法需要产生大 量的候选项集,并需要多次扫描数据库,这严重影响了算法的效率,其改进算法没 有从本质上改进算法,仍需要产生大量的候选项集和多次扫描数据库。f p g r o w t l l 算 法采用f p t r e e 结构存储事务数据库的频繁项关联信息,打破t a p f i o f i 算法的框架, 不需要产生候选项集并只需两次扫描数据库,有效提高了频繁项集的挖掘效率。 在f p g r o w t l l 算法中,绝大部分时间主要消耗在f p t r e e 及条件f p t r e e 的构造与 遍历上,如果能提高这方面的效率,将对提高算法的效率有较大的帮助。在f p g r o w t h 算法发表后,相继出现了一些基于该算法的改进算法。文献【7 】采用数组结构 存储频繁项两两之间的计数,有效的减少了条件f p t r e e 的构造时间。另外,该算法 也通过减少树结点的指针域的个数,减少了内存消耗。文献【8 】提出了一种利用最 2 种混合模式电子商务推荐技术的研究第一章绪论 初f p t r e e 的约束子树进行挖掘的算法,避免了构造条件f p t r e e ,该算法由于不需要 递归地构造条件f p t r e e ,节省了大量的存储空间。该算法虽然避免了条件f p t r e e 的 形成,但在获得约束子树的频繁项计数时仍需扫描约束子树,文献 9 】把文献【7 】的 数组思想运用到约束子树的构造上,减少了一次约束子树的扫描,总体而言,该算 法在时间效率和空间效率较原始f p g r o w t h 有着明显的提高。 a p r i o r i 算法和f p g r o w t h 算法属于批处理式的挖掘算法,当事务数据库更新后, 两种算法必须重新扫描事务数据库以获得新的频繁模式。而在现实应用中,新的事 务需要频繁更新到原有事务数据库中,这样原来的频繁项集可能变得非频繁,原 来的非频繁项集可能变的频繁。重新扫描数据库构造新的f p t r e e 将消耗大量的计 算资源,增量挖掘的提出有效的解决了上述问题。快速更新算法【删( f a s tu p d a t e d a l g o r i t h m ,f u p ) 是典型的增量挖掘算法,属于a p f i o f i 1 i k e 系列,利用剪枝技术对候选 项集进行过滤删减,有效的减小了候选项的规模,提高了效率。当候选项集在新增 事务集是频繁的而在原数据库中是非频繁时,f u p 算法需要扫描原数据库。为了有效 的处理这部分候选项集,有学者提出了次频繁项集【1 1 ( p r e 1 a r g ei t e m s e t ) 的概念,当新 增事务相比较于原数据库规模较小时可以避免扫描原数据库。f p t r e e 是挖掘频繁模 式算法中有效的数据结构,为了动态地更新f p t r e e ,有学者提出了快速更新频繁模 式树1 1 2 l ( f a s tu p d a t e df r e q u e n tp a t t e mt r e e ,r 脚t r e e ) 的结构,即一t r e e 和f u f p t r e e 的结 构相似,但后者结构更有利于模式树的更新,提高了挖掘的效率。同样的,c l i n 、 t h o n g 和wl u 等学者把次频繁项的思想运用至u f u f p t r e e 上提出了p r e h 脚【1 3 】的算 法,该算法在一定程度上避免了扫描原数据库。 1 2 2 协同过滤的国内外研究现状 随着i n t e m e t 和电子商务的迅猛发展,电子商务推荐系统1 1 4 被电子商务网站用 做虚拟店员( v m u a ls a l e s p e o p l e ) 向客户提供商品信息和建议,帮助用户决定应该购 买何种商品,其作用主要表现在3 个方面:( 1 ) 将电子商务网站浏览者转变为购买者: ( 2 ) 提高电子商务网站交叉销售能力;( 3 ) 建立客户忠诚度。协同过滤| 1 5 ( c o l l a b o r a t i v e f i l t e r i n g ) 作为目前电子商务推荐系统中广泛使用的最成功的推荐算法,使用统计技 术寻找与目标用户有相同或相似兴趣偏好的邻居用户,根据邻居用户的评分来预测 目标用户对商品项的评分值,最后选择预测评分最高的前n 项商品作为推荐集反馈给 目标用户,其基本思想是用户会对邻居用户偏好的商品产生兴趣,即基于用户的协 同过滤。因此,用户评分数据收集越多协同过滤算法的推荐质量越高。 3 第一章绪论 一种混合模式电子商务推荐技术的研究 但是随着电子商务站点用户和商品项数量的不断增加,协同过滤面临严峻的用 户评分数据稀疏性和推荐实时性的挑战,导致推荐质量迅速下降。为了解决数据稀 疏性问题和推荐实时性的问题,研究人员陆续提出了些改进方法,例如基于项目 的协同过滤及其改进算法1 1 6 - 1 8 】、基于矩阵降维的协同过滤1 1 9 1 、基于神经网络的协同 过滤【2 0 】等等。文献【1 6 】通过用户评分项并集来计算用户相似性,以降低评分数据稀 疏性。文献【1 7 进一步将用户评分项并集中的非目标用户区分为无推荐能力和有推 荐能力两种类型,对于前一类用户不再计算其与目标用户的相似性以改善推荐实时 性,对于后一类用户则提出基于领域最近邻的协同过滤推荐算法,采用“领域最近 邻”对并集中的未评分项进行评分预测,使得最近邻搜寻更加准确。文献 1 8 首先 分析了在用户评分数据极端稀疏的情况下,基于项目评分预测的协同过滤推荐算法 存在的问题,即该方法在计算项目相似性时仍然采用传统方法使得计算结果不够精 确,继而采用了修正的条件概率方法计算项目之间相似性,使得数据稀疏性对计算 结果的负面影响变小。该文献在计算项目相似性时加入类别属性对计算结果的影响, 论文中建立了项目所属类别的矩阵,其元素的值以主对角线为轴对称分布。 1 3 课题研究内容 本课题的主要内容是设计并实现了电子商务的模拟推荐系统,该系统以电子商 务w e b 网站的日志数据为数据源,该日志数据包括用户的显示评分数据和用户的隐 式浏览数据,采用频繁模式挖掘和协同过滤技术组合的方法推荐出用户感兴趣的商 品。本课题以电影推荐系统为例,证明了算法的优越性。具体内容如下: 首先,深入研究 j f p g r o w t h 算法及其改进算法,着重研究了频繁模式的增量挖 掘算法。在现实生活中,随着用户每天不断的访问网站,w e b 访问日志不断地发生变 化,与之相应变化的是用户的事务数据库,用户的频繁模式也随之变化。a p r i o r i 算 法和f p g r o w t h 算法属于批处理式的挖掘算法,当事务数据库更新后,两种算法必 须重新扫描事务数据库以获得新的频繁模式。重新扫描事务数据库以挖掘新的频 繁模式将消耗大量的计算资源,增量挖掘和次频繁项的提出有效的解决了上述问 题。把次频繁项的思想运用到兀脚一t r e e 上并形成了p r e f i 脚的算法,该算法在一定 程度上避免了扫描原数据库,在增量挖掘中有着较好的效果。本文通过引入次频 繁项对应事务的索引表加快了f i 脚t r e e 的更新,并用基于压缩f p t r e e 和矩阵技术代 替f p g r o w t h 挖掘出频繁模式。 4 一种混合模式电子商务推荐技术的研究 第一章 绪论 第二,研究了协同过滤技术并对其进行了有效地改进。协同过滤推荐技术是目 前研究较多的个性化推荐技术,它一般采用的是最近邻技术。算法利用用户的历史 喜好信息计算用户之间的距离,然后利用目标用户的最近邻居用户对商品评价的加 权评价值来预测目标用户对特定商品的喜好程度,系统根据对商品的喜好程度来对 目标用户进行推荐。尽管协同过滤在电子商务推荐系统中的应用获得了较大的成功, 但随着站点结构、内容复杂度和用户人数的不断增加,基于协同过滤的推荐系统的 发展面临着可扩展性和推荐质量两大挑战。本文扩展了项目类别属性对项目相似性 的影响,把项目类型相似度引入到项目相似性的计算中,提高了被预测用户相似邻 居的获取质量,最终提高了商品的推荐质量。 第三,由协同过滤技术做出的商品推荐是根据用户的显示评分数据而获得的, 即充分利用了用户的显式评分数据。而基于频繁模式做出的商品推荐是根据用户的 隐式访问日志而得到的,即根据用户的访问习惯而得到的推荐结果。由于两种方法 得到的推荐结果具有一定的互补性,本文有效综合了两种推荐技术。实验表明,本 文算法较单独使用两种推荐技术有着更好的推荐质量。 最后,本文以电影推荐系统为例,验证算法的优越性。实验数据来自于美国明 尼苏达大学的g r o u p l e n s 项目组,该项目组公布的测试数据集是被使用最为广泛的实 验资料,并且已经成为评价推荐算法的基准数据集。 1 4 课题研究意义 电子商务推荐系统是电子商务迅速发展的产物。在理论研究方面,电子商务推 荐系统具有较高的学术价值;在实际应用方面,研究电子商务推荐系统对企业具有 很高的经济价值。顾客是利润的来源,谁能提供给顾客更好、更满意、更具个性化 的产品和服务,谁就能赢得市场。当前的各种推荐系统都根据不同的用户特性和产 品特性采用一些有针对性的推荐策略,推荐策略的恰当运用将对推荐系统起到事半 功倍的作用。 本课题主要研究了频繁模式挖掘和协同过滤技术,并改进了相关算法,同时把 这两种技术组合应用在电子商务的推荐系统中。尽管这些算法并不一定是最优算法, 还有待于进一步的研究与完善,但本课题所做的工作仍具有一定的现实意义,具体 体现在如下几个方面: ( 1 ) 本课题研究了频繁模式的增量挖掘算法,针对增量挖掘存在的不足之处进 5 第一章绪论 一种混合模式电子商务推荐技术的研究 行了改进,对频繁模式挖掘的理论研究有着一定的参考价值。本文通过引入次频 繁项对应事务的索引表加快t f u f p t r e e 的更新,并用基于压缩f p t r e e 和矩阵技术代 替f p g r o w t h 挖掘出频繁模式,这种改进加快了频繁模式的形成,在数据挖掘领域中 有一定的借鉴意义。 ( 2 ) 针对协同过滤中评分数据极度稀疏和推荐质量不高等问题,本文扩展了项目 类别属性对项目相似性的影响,把项目类型相似度引入到项目相似性的计算中,提 高了被预测用户相似邻居的获取质量,最终提高了商品的推荐质量。由于由频繁模 式和协同过滤得到的推荐结果具有一定的互补性,本文综合了两种推荐技术并提出 了新的组合方式,为推荐系统中技术的有效融合提供一定的参考。 ( 3 ) 本课题将w e b 使用挖掘和协同过滤的理论运用于实际,在实践中验证了算法 的正确性和实用性,并取得了较为满意的结果,对提高推荐系统的推荐性能有一定 的参考价值。 综上所述,课题研究和实现了基于w e b 使用挖掘的电子商务推荐系统,具有一 定的现实意义和参考价值。 1 5 文章组织结构 全文的组织结构如下: 第一章介绍课题提出的背景、研究现状、研究内容以及意义和文章组织结构。 第二章简要介绍与课题相关的技术。其中包括w e b 挖掘、关联规则等概念,另外 还介绍了协同过滤的相关概念和算法。 第三章介绍电子商务推荐系统的整体设计框架,简单介绍推荐系统中各种技术 的优缺点以及设计思想。 第四章具体介绍频繁模式挖掘和增量挖掘的有关概念和原理,重点介绍增量 挖掘常用算法,分析各自的优缺点,从而引入次频繁项对应事务的索引表加快 了只卿t r e e l 掏更新,并用基于压缩f p t r e e 和矩阵技术代替f p g r o w t h 挖掘出频繁模 式。 第五章具体介绍协同过滤的常用算法以及各自的优缺点,在此基础上扩展了项 目类别属性对项目相似性的影响,把项目类型相似度引入到项目相似性的计算中, 提高了被预测用户相似邻居的获取质量,最终提高了商品的推荐质量。 6 第一章绪论 7 实验的过程及其 第二章相关技术概述 一种混合模式电子商务推荐技术的研究 第二章相关技术概述 研究并设计电子商务的推荐系统,必须对w ,e b 使用挖掘技术、电子商务推荐系 统以及一些重要的推荐技术有定的了解,本章就电子商务推荐系统所涉及的基本 理论知识作一些介绍。 2 1 数据挖掘和频繁模式挖掘 从1 9 8 9 年到现在,数据挖掘( d a t am i l l i n g ) 的定义随着人们研究的不断深入也在不 断完善,一个目前比较公认的定义为数据挖掘【2 】就是从大量的、不完全的、有噪声 的、模糊的、随机的数据中,抽取隐含在其中的、人们事先不知道的、但又潜在有 用的信息和知识的过程。典型的数据挖掘系统具有以下几个部分,如图2 1 所示: 图2 1 典型数据挖掘系统的结构 8 第二章相关技术概述 这是一个或组数据库、数据仓 对这些数据进行数据清理和集成。 数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务 器负责提取相关数据。 知识库:这是知识领域,用于指导搜索或评估结果模式的兴趣度。这种知识包 括概念分层、用户信念知识以及兴趣度约束等。 数据挖掘引擎:这是数据挖掘系统的基本部分,理想情况下由一组功能模块组 成,用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析 和演变分析等等。 模式评估模块:该成分使用兴趣度度量并与数据挖掘模块交互,以便将搜索焦 点在有趣的模式上,可以使用兴趣度阈值过滤已发现的模式,也可以与挖掘模 块集成在一起。 用户界面:该模块在用户和数据挖掘系统之间通信,允许用户与系统交互,说 明数据挖掘查询或任务,提供信息以帮助搜索聚焦,根据数据挖掘的中间结果 进行探索式数据挖掘。 由于数据挖掘涉及到众多学科,因此可以产生各种类型的数据挖掘系统。数据 挖掘可以根据挖掘的数据库类型分类,即所处理数据的特定类型分类。从这方面可 以将数据挖掘分为【2 2 1 :空间数据挖掘、多媒体数据挖掘、文本挖掘和w e b 数据挖掘。 本文设计的电子商务的推荐系统是基于w e b 网站的,下面对w e b 数据挖掘作详细的介 绍。 随着互联网的快速发展,越来越多的机构、团体和个人在互联网上发布和查找 信息,互联网上的信息以几何级数的速度飞速增长。如何从如此多的信息中快速、 自动地找到所需信息,如何很好地利用这些信息,从中发掘出有用的模式变得异乎 重要,这时w e b 挖掘( w e bm i n i n g ) 应运而生。 早在1 9 9 6 年,就有m s c h e n 、h m a n n i l a 和t y a n 等学者提出了可以将数据挖掘方 法应用于w e b 研究领域的思想。所谓w e b 挖掘就是从与w e b 相关的资源和行为中抽取 9 第二章相关技术概述 种混合模式电子商务 感兴趣的、有用的模式和隐含信息。w e b 是一个非常成功的基于超文本的分布式信 息系统,w e b 目前涉及新闻、广告、消费信息、电子商务等许多信息服务,可以说是 目前最大的信息系统,其数据具有巨大性、动态性、异构性和数据结构半结核化等 几个特点。 根据对w e b 数据的感兴趣程度不同,r k o s l a 和h b l o c k e e l 将w e b 数据挖掘分 为三类1 2 3 :w 曲内容挖掘( w e bc o n t e n tm i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 使用挖掘( w e bu s a g em i n i n g ) ,具体分类如图2 2 所示。 文本 挖掘 w e b 挖掘 w e b l 勾容挖掘w e b 结构挖掘w e b 使用挖掘 多媒体lf 超链接ii 页面接构i l 用户访问l1 分析定制 挖掘挖掘 挖掘 l 模式分析l w e b 站点 图2 2w e b 挖掘的分类 w e b 使用挖掘且p w e b 日志挖掘t 2 4 1 ,其主要e l 标是从w e b 的访问记录中抽取用户所 感兴趣的信息或模式。运用w e b 使用挖掘技术能够从服务器、浏览器端的日志记录 和用户的个人信息中自动发现隐藏在数据中的模式信息,了解系统的访问模式以及 用户的行为模式,从而作出预测性分析。随着i n t e r n e t 的发展以及数据挖掘技术的不 断成熟,w e b 使用挖掘应用的范围不断扩大,w e b 使用挖掘的结果有着重要的商业运 用价值。 w e b 使用挖掘是一个新兴领域,仍然还存在许多问题,有待于进一步的研究和 深化1 2 5 ,2 6 1 。首先,数据预处理方面,开发更好的数据收集机制和技术是非常必要的; 其次,多种信息的集成技术也值得进一步研究。在挖掘方面,已有的挖掘算法可以 提高和改进。另外,由于用户兴趣是多方面的,动态变化的,如何跟踪、学习和表 达用户的兴趣也是一个基本但难以解决的问题。 模式发现是w e b 使用挖掘的第三个阶段,是从预处理之后的数据集中挖掘出用 1 0 一种混合模式电子商务推荐技术的研究第二章相关技术概述 户感兴趣的模式和规则的过程,也是w e b 使用挖掘中一个重要的阶段。经过数据预处 理之后,原来杂乱无章的用户访问日志转变为能够进行挖掘的用户会话或者用户事 务,此时,就可以用模式发现的相关方法和技术从中挖掘出潜在的规律和模式。模 式发现的主要方法有:统计分析、关联规则、序列模式、聚类和分类。 下面着重介绍一下关联规则的挖掘。 1 9 9 3 年,r a g r a w a l 等人首先提出了关联规则挖掘问题。关联规则是数据挖掘研 究的主要模式之一,侧重于确定数据中不同领域之间的关系,找出满足给定条件下 的多个域间的依赖关系。在w e b 使用挖掘中,关联规则主要用于发现用户之间、页面 之间以及用户浏览页面和网上行为之问存在的潜在关系。关联规则挖掘的一个典型 应用就是购物篮分析,因而在电子商务中有重要的应用价值。在用户的交易行为中, 挖掘出有强关联关系的商品,而后进行合理的布局,有利于提供商品的销售;此外, 挖掘用户访问网页之问的关联关系,可以为用户提供个性化服务,也可以为用户推 荐页面。 关联规则有两个度量参数,即规则的支持度和置信度,它们分别反映所发现规 则的有用性和确定性。以a l l e l e c t r o n i c s 商店【6 】为例,假设作为该商店的市场部经理, 想确定在相同的事务中哪些商品经常被一起购买。从a l l e l e c t r o n i c s 事务数据库中挖掘 出来的关联规则例子如式2 1 。 b u y ( x , ”c o m p u t e r ) = b u y ( x , ”s o f t w a r e ”) s u p p o r t = 1 ,c o n f i d e n c e = 5 0 】 ( 2 1 ) 其中,x 是变量,代表顾客。5 0 的置信度或可信度表示,如果x 顾客购买计 算机,则购买软件的可能性是5 0 ,1 的支持度表示所有事务中l 显示计算机与 软件一起购买。这个关联规则涉及单个重复的属性或谓词b u y ,包含单个谓词的关 联规则称作单维关联规贝1 j ( s i n g l e d i m e n s i o n a la s s o c i a t i o nr u l e ) 。与之对应,如果关联 规则是一个以上的属性或谓词之间的关联,则称为多维关联规贝, l j ( m u l t i d i m e n s i o n a l a s s o c i a t i o nr u l e ) 。去掉谓词符号,上述规则可以简单地表示为2 2 式。 c o m p u t e r = s o f t w a r e 1 ,5 0 】 ( 2 2 ) 关联规则的挖掘是找出组成事务数据库的记录中不同项之间的相关关系,具体 过程可分两步完成。第一步是找数据库中所有的频繁项集( f r e q u e n ti t e m s e t s ) :第二步 是用获得的频繁项集产生所有满足用户给定的最小置信度的关联规则。由于关联规 第二章相关技术概述 则挖掘的整体性能由第一步的性能所决定, 项集的挖掘上。 频繁项集1 2 7 1 是一种比较简单的模式,它 变量,为可能的决策提供支持。目前,对频 为以下几个方面:在遍历方向上着眼于自底 略上着眼于宽度优先和深度优先,在项集的 据库的布局上着眼于垂直和水平数据库布局 布局可以产生不同的方法,实践证明,没有 都优于其他算法,每种相对较优的算法都有 法的不同特性,可使研究者明确算法的改进点和研究方向。 频繁模式挖掘根据不同的挖掘策略有不同的挖掘方法,具体分类如下: 自底向上遍历:a p f i o r i 算法【l 】是典型的自底向上遍历搜索算法,也是最有影响 的挖掘频繁项集的算法之一。a p r i o r i 算法的核心是使用逐层搜索的迭代方法挖掘出 频繁项集,每个频繁项集集合的发现需要扫描一次数据库。在扫描数据库的过程 中,运用- j a p f i o r i 算法的性质:频繁项集的所有非空子集必须也是频繁项集,这一 性质提高了挖掘的效率。为了提高a p r i o f i 算法的效率,有学者把其他相关技术应用 到a p f i o f i 算法中,在一定程度上改善- a p r i o r i 算法的适应性和效率。如:把数据分 割技术( p a r t i t i o n ) 应用到关联规则挖掘中 2 8 1 ,可以改善关联规则挖掘在大容量数据集 中的适应性;基于散歹u ( h a s h ) 的方法【6 】,即运用散列的技术压缩候选k 一项集;基于事 务压缩1 2 9 1 ,通过删除不包含任何频繁k 项集的事务来减少在后面循环中所需扫描的 事务数。 自顶向下遍历:d e p t h p r o j e c t l 3 0 j 算法和m a x m i n e r l 3 1 j 算法是两种挖掘最大频繁 项集的自顶向下遍历算法。d e p t h p r o j e c t 算法采用一种可选择投影和水平位串来 表示投影事务子集,在事务项集平均长度比项数小很多的情况下,它的效率比 基于数组的表示方法还要低效,而这种情况在大而稀疏的数据库是很常见的。 m a x m i n e r 算法在搜索的全过程采用预测的方法,可以把频繁项集的所有子集剪去 不允考虑,同时采用启发式方法调整搜索策略尽可能早地识别频繁模式。m m s - c u m u l a t e l 3 2 和m m s s t r a t i f y f 3 3 j 两种算法是用于挖掘概化频繁项集,它们把挖掘的范 围从挖掘统一支持度的项延伸至挖掘多维支持度的项。 混合遍历:自底向上遍历方法对于最大频繁项集较短时性能较好,自顶向下遍 1 2 一种混合模式电子商务推荐技术的研究 第二章 相关技术概述 历方法对于最大频繁项集较长时性能较好,m a x e c l a t 算法、m a x c l i q u e 算法和p i n c e r - s e a r c h l 3 4 算法试图结合自底向上和自项向下两种遍历方法的优点,综合利用两者的 性质来剪枝候选项集。 其他频繁项集挖掘算法:a p f i o f i 及其改进算法需要产生大量的候选项集,并需 要多次扫描数据库,这严重影响了算法的效率。f p g r o w t h 算法【2 】采用f p t r e e 结构存 储事务数据库的频繁项关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论