(管理科学与工程专业论文)基于web挖掘的电子商务个性化推荐系统研究.pdf_第1页
(管理科学与工程专业论文)基于web挖掘的电子商务个性化推荐系统研究.pdf_第2页
(管理科学与工程专业论文)基于web挖掘的电子商务个性化推荐系统研究.pdf_第3页
(管理科学与工程专业论文)基于web挖掘的电子商务个性化推荐系统研究.pdf_第4页
(管理科学与工程专业论文)基于web挖掘的电子商务个性化推荐系统研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要: 随着互联网的普及和电子商务的发展,电子商务系统在为用户提供越来越多 选择的同时,其结构也变得更加复杂,用户经常会迷失在大量的商品信息空间中, 无法顺利找到自己需要的商品。在日趋激烈的竞争环境下,商品推荐系统能有效 留住客户、防止客户流失,提高电子商务企业的销售力及竞争力。 商品推荐系统在电子商务系统中具有良好的发展和应用前景,逐渐成为电子 商务i t 技术的一个重要研究内容,但是随着电子商务系统规模的进一步扩大,商 品推荐系统也面临一系列挑战。针对商品推荐系统所面临的主要挑战,本文在以 下三个方面对电子商务推荐系统进行了有益的探索和研究。 第一,详细分析了数据挖掘技术的特点和w e b 挖掘的优越性及其在电子商务 中的重要作用。然后对电子商务推荐系统进行了介绍和分析,并说明其工作流程。 第二,给出了电子商务推荐系统的体系结构框架。在介绍了电子商务推荐系 统的概念之后,从日志预处理、模式发现、模式分析和模式应用的各个阶段说明 了电子商务推荐系统的工作流程和关键技术。 第三,给出了适合w e b 日志挖掘的推荐算法。针对电子商务推荐系统面临的 实时性挑战,利用模糊聚类技术,对m a r k o v 模型进行了分析和改进,利用其对w e b 数据进行分析处理。文中在分析该算法特点之后给出了算法的描述,并说明了该 算法的优缺点和改进的方向。 但该模型中仍有许多不足之处有待改进:特别是准确性和效率问题。其中提 高算法的效率是当前聚类领域中研究的又一个重要问题。随着对w e b 日志数据的 分析和研究的不断深入,我们相信面向用户的电子商务个性化推荐服务将会更加 完善。 关键词:w e b 数据挖掘;日志挖掘:模糊聚类;推荐系统 分类号:t p 3 0 2 a bs t r a c t a j ,s r 量ka :r l : w i t ht h ep o p u l a r i t yo ft h ei n t e m e ta n de - c o i t i i n e r c ed e v e l o p m e n t ,e - c o m m e r c e s y s t e mp r o v i d e su s e r sw i t hm o r ec h o i c e s ,a tt h es a m et i m e ,i t ss t r u c t u r eh a sb e c o m e m o r ec o m p l e x ,u s e r sa r eo f t e nl o s ti nal a r g en u m b e ro fg o o d si nt h ei n f o r m a t i o ns p a c e , a n dc o u l dn o tf i n dt h e i ro w nn e e d s i nt h ei n c r e a s i n g l yf i e r c ec o m p e t i t i v ee n v i r o n m e n t , t h er e c o m m e n d a t i o ns y s t e mc a ne f f e c t i v e l yr e t a i nc u s t o m e r sa n dp r e v e n tt h el o s so f c u s t o m e r s ,a sw e l la si n c r e a s es a l e so fe c o m m e r c ee n t e r p r i s e sa n di t sc o m p e t i t i v e n e s s r e c o m m e n d a t i o ns y s t e mi ne - c o m m e r c eh a sg o o dp r o s p e c t sf o rt h ed e v e l o p m e n t a n da p p l i c a t i o n ,w h i c hh a sg r a d u a l l yb e c o m ea ni m p o r t a n tr e s e a r c hi ne - c o l n l n e r c e t e c h n o l o g y , b u tw i t ht h ef l l r t h e re x p a n dt ot h es c a l eo fg o o d sr e c o m m e n d a t i o ns y s t e m ,i t i sa l s o f a c i n g as e r i e so fc h a l l e n g e s a i m i n ga tt h em a j o rc h a l l e n g e sw h i c h r e c o m m e n d a t i o ns y s t e mf a c e s ,t h i sp a p e rd o e sau s e f u le x p l o r a t i o na n dr e s e a r c hi nt h e f o l l o w i n gt h r e ea r e a si ne - c o m m e r c er e c o m m e n d a t i o ns y s t e m f i r s t l y , t h ea r t i c l ea n a l y z e st h ec h a r a c t e r i s t i c so fd a t am i n i n gt e c h n o l o g ya n dt h e w e bm i n i n g ss u p e r i o r i t ya n di t si m p o r t a n tr o l ei ne - c o l n n l e r c e t h e ni n t r o d u c e sa n d a n a l y z et h er e c o m m e n d a t i o ns y s t e m si nt h ee - c o m l t l e r c ea n d i t sw o r kp r o c e s s s e c o n d ,t h i sp a p e rg i v e s t h ea r c h i t e c t u r ef r a m e w o r ko fe - c o m m e r c e r e c o m m e n d a t i o ns y s t e m a f t e rt h ec o n c e p to fe c o m m e r c er e c o m m e n d a t i o ns y s t e m ,t h i s p a p e rd o e ss o m er e s e a r c ho nt h ep r o c e s s e sa n dc r i t i c a lt e c h n o l o g i e sf r o mt h ev a r i o u s s t a g e so f e - c o m m e r c er e c o m m e n d a t i o ns y s t e mi n c l u d i n gt h el o gp r e p r o c e s s i n g , m o d e l p a t t e r n sd i s c o v e r i n g ,r e s e a r c h i n ga n d i t sa p p l i c a t i o n t h i r d l y , t h i sp a p e rg i v e sas u i t a b l ea l g o r i t h mf o r 恸l o gm i n i n g a i m i n ga tt h e r e a l t i m ec h a l l e n g ew h i c hr e c o m m e n d a t i o ns y s t e mf a c e s ,t h i sp a p e ru s e st h ef u z z y c l u s t e r i n gt e c h n o l o g yt oi m p r o v em a r k o vm o d e lw h i c hc a n b eu s e dt oa n a l y z ew e bd a t a f o l l o w i n gt h ed e s c r i p t i o na n dc h a r a c t e r i s t i c so ft h ea l g o r i t h m ,t h ea d v a n t a g e sa n d d i s a d v a n t a g e so f t h ea l g o r i t h ma n di m p r o v et h ed i r e c t i o na r eg i v e n h o w e v e r , t h em o d e ls t i l lh a sm a n yd e f i c i e n c i e si nt h er o o mf o ri m p r o v e m e n t :i n p a r t i c u l a r , a c c u r a c ya n de f f i c i e n c yi s s u e s i m p r o v i n gt h ee f f i c i e n c yo fa l g o r i t h mi sa n i m p o r t a n ti s s u ei nt h ea r e ao fc u r r e n tr e s e a r c h a st h ed e v e l o p i n gi nw e bl o gd a t a a n a l y s i s a n dr e s e a r c h ;w eb e l i e v et h a te - c o m m e r c ep e r s o n a l i z e dr e c o m m e n d a t i o n s e r v i c ew i l lb ep r a c t i c a l k e y w o r d s :w e bd a t a m i n i n g ;l o gm i n i n g ;f u z z yc l u s t e r i n g ;r e c o m m e n d a t i o n s y s t e m c l a s s n 0 :t p 3 0 2 v 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交 通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫 描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印 件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:痞桶晶 签字日期:列甜啤石月7 日 导师签 签字日期 匙 _ 一一一, 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除 了文中特另, j j j n 以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得北京交通大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的 同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名 签字日期:2 矽汐艿年舌月,日 致谢 本论文的工作是在我的导师张真继教授的悉心指导下完成的,张真继教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢二年来 张真继老师对我的关心和指导。 张真继教授悉心指导我完成了实验室的科研工作,在学习上和生活上都给予 了我很大的关心和帮助,在此向张真继老师表示衷心的谢意。在此也感谢张润彤 教授和常丹副教授在我论文写作过程中的悉心指导。 另外也感谢父母,他们的理解和支持使我能够在学校专心完成我的学业。 1 1 引言 1 绪论 随着科学技术的发展,尤其是2 0 世纪八九十年代信息技术和计算机的飞速发 展,人们积累了越来越多的数据,但是如何利用好这些数据,使其为企业、机构 产生效益,当时的技术束手无策,人们普遍感觉到自己处在“数据爆炸但知识贫 乏”的境地。面对这个问题,科学家们于1 9 8 9 年提出了k d d 及d m 。数据挖掘的核 心技术历经了十几年的发展,已经取得了很大的成就,其中包括数理统计、人工 智能、机器学习、神经网络、模式识别、数据库技术、知识获取和信息检索等。 现在,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让 数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。w e b 数据挖掘是数据挖 掘的一个重要分支,是随着数据库技术、人工智能技术和网络技术的发展而提出 的。尤其是随着电子商务的不断运作,信息总量不断增加,更迫切需要有效的信 息分析工具。 当今,电子商务正以其成本低廉、快捷、不受时空限制等优点而逐步全球流 行。在这种新型的商务模式下,客户关系管理( c u s t o m e rr e l a t i o n s h i p m a n a g e m e n t ) ,简称c r m ,显得更为重要。因为客户只需要简单的几个点击操作就 可能流失到竞争者那里。因此对商务站点上的企业来说,从c r m 的各个方面建立 起与客户的良好关系,提高客户的忠诚度,无疑会在各方面给企业带来巨大的益 处。但是在电子商务模式下运作c r m ,却遇到了网络信息量和基于w e b 的应用的一 些阻碍。一方面,i n t e r n e t 上的信息量大,使w e b 站点上的访问者不容易找到自 己需要和满意的物品信息,妨碍了对站点的访问;另一方面,站点企业通常以w e b 的形式展现商品信息以供访问者浏览,但是这是一种传统的“o n e s i z e - f i t s a l l 的方法,它提供给用户的信息是根本不考虑用户的需求、偏好、行为以及他们的 人口信息等,总是以同一种方式对待所有各自不同的用户,这样的运作产生两个 问题:第一,没有针对性地提供信息,访问者不能快捷地获得所需;第二,不能 快捷地在站点上寻找到感兴趣的商品,用户容易转向访问其他站点,造成客户流 失,这些对站点企业来说都是致命的。 基于上述原因,商务站点个性化孕育而生。而个性化所涵盖的内容中,针对 用户的推荐服务是最为重要的,因为它能够改变这种“o n e - s i z e f i t s - a l l ”的方 式,向用户提供i n d i v i d u a l 的信息。 推荐系统模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品, 从而顺利完成购买过程,因此可以有效保留用户,提高电子商务系统的销售;商 家也可以通过推荐系统保持与客户的联系,重建客户关系。电子商务推荐系统在 理论和实践中都得到了很大发展。但是随着电子商务系统的进一步发展,电子商 务推荐系统也面临一系列挑战。针对电子商务推荐系统面临的主要挑战,本文将 对电子商务推荐系统中的若干关键技术进行了有益的探索和研究。 1 2 国内外研究现状 随着互联网的普及和电子商务的发展,推荐系统逐渐成为电子商务i t 技术的 一个重要研究内容,得到越了来越多研究者的关注。a c m 从1 9 9 9 年开始每年召开 一次电子商务的研讨会,其中关于电子商务推荐系统的研究文章占据了很大比重; 从1 9 9 9 年开始s i g k d d 小组设立w e b k d d 研讨组,主题集中在电子商务中的w e b 挖 掘技术和推荐系统技术;而a c m 下面的信息检索特别兴趣组s i g i r 在召开的第2 4 届研究和发展会议上,开始专门把推荐系统作为一个研讨主题;第7 届国际人工 智能联合会议则把e - b u s i n e s s t h ei n t e l l i g e n tw e b 作为一个独立的研讨小组; 同时,第十五届人工智能会议、第一届知识管理应用会议p a k m 等也纷纷开始将电 子商务推荐系统作为研究主题。 目前,在国外已有部分电子商务系统应用了w e b 数据挖掘技术来提高企业的 收益。w e b 数据挖掘在电子商务的应用主要是在c r m 中,体现为客户分析、站点自 适应、交叉营销策略、客户的获取和保持、改善站点结构等几个方面。 推荐系统是w e b 数据挖掘在电子商务中运用的一个热点,它属于站点自适应 的范畴,国外较为突出的研究有以下几个: ( 1 ) n e c 公司的“v5 - 7 8 2 0 系统; ( 2 ) i b m 公司a b a l l m a n 等人研究的s p e e d t r a c e r 系统; ( 3 ) m i n n e s o t a 大学的j b e ns c h a f e r 等人运用协作过滤方法产生推荐; ( 4 ) s t a n f o r d 大学m e h m e th g o k e r 等人研究对话形式的推荐系统,主要帮助 用户过滤信息。 ( 5 ) s t a n f o r d 大学k w o n gh i uy u n g 等人的在线售书推荐系统,运用到了多种 数据挖掘技术。 ( 6 ) 意大利p a o l ob u o n 等人研究的推荐系统中,从显示和隐式两方面获得用 户模式及用户评价,以此作为推荐依据。 ( 7 ) i l l i n o i s 大学的b a m s h a dm o b a s h e r 、r c o o l e y 等人则在事务数据的处理、 2 用户模式的建立上做了相当的研究。并在w e bc o n t e n t 和u s a g e 结合上做了相应 的尝试。 国内在这一方面的探索刚刚起步,有北大、中科院等做过相应的讨论。目前 已有的系统在各个相关的领域取得了一定成果,但仍然存在一些问题,总的来说 有以下几点: ( 1 ) 实时性与推荐质量之间的平衡问题,推荐系统的推荐精度和实时性是一对 矛盾。大部分推荐技术在保证实时性要求的同时,是以牺牲推荐系统的推荐质量 为前提的。在提供实时推荐服务的同时,如何有效提高推荐系统的推荐质量,需 要做进一步深入的研究。 ( 2 ) 当前电子商务推荐系统体系结构不完善,大部分的电子商务推荐系统都只 是一个单一的工具,只能提供一种推荐模型。但由于电子商务系统本身的复杂性, 不同场合需要不同类型的推荐。需要研究新型电子商务推荐系统体系结构,收集 多种类型的数据,提供多种推荐模型,满足不同类型的推荐需求。 ( 3 ) 对推荐结果解释的缺乏,电子商务推荐系统为了说服用户,需要向用户解 释推荐产生的原因。目前的电子商务推荐系统只能通过简单的销售排行、向用户 提供其他用户对商品的评价评分信息等方式来达到上述目的需要进一步研究更加 有效的方法向用户解释产生推荐的原因,从而增加用户对推荐系统的信任程度, 说服用户听从推荐系统的推荐。 ( 4 ) 提供推荐服务的对象几乎都是注册购买商品的用户,而忽略了那些只访问 站点却不购买东西的访问者;而且缺乏对站点专家和分析员指导作用的考虑,仅 仅是简单的销售排行。 1 3 研究内容和意义 1 3 1 研究内容 针对电子商务推荐系统面临的主要挑战,本课题以w e b 挖掘技术为基础,结 合模糊聚类算法对电子商务推荐系统中w e b 使用挖掘,推荐算法设计等方面进行 探索和研究 第一,分析了数据挖掘技术的特点和w e b 挖掘的优越性及其在电子商务中的 重要作用。其后对电子商务推荐系统进行了介绍和分析,并说明其工作流程。 第二,给出了电子商务推荐系统的体系结构框架。其中着重从w e b 应用挖掘 方面进行了设计,从日志预处理、模式发现、模式分析和模式应用的各个阶段说 3 明w e b 使用挖掘的方法和关键技术。 第三,分析了m a r k o v 预测模型和模糊聚类算法,提出了利用模糊聚类算法改 进m a r k o v 模型,从而对推荐系统的算法有更好的效果。 1 3 2 研究意义 当前经济模式的变化,从传统的实体的商店到i n t e r n e t 上的电子交易,同时 也改变了销售商和客户的关系。现在,网上客户的流动性很大,他们关注的主要 因素是商品的价值,而不像以前注意品牌和地理因素。因此,对企业而言一个主 要的挑战是需要了解到客户尽可能多的爱好、价值取向,以保证在电子商务时代 的竞争力。 电子商务旨在通过网络完成核心业务,改善售后服务,缩短周转时间,从有 限的资源中获得更大的收益,以达到销售商品的目的。电子商务的运作具有相对 低廉的成本和超越时空限制的经营方式,利用网络方式将顾客、销售商、供应商 和雇员联系在一起,是下一代主流的商务形式。因此,利用w e b 挖掘技术,实现 自动推荐系统,提高电子商务网站的自适应能力,提高客户忠诚度是非常有研究 意义的。 1 4 论文的内容安排 本文的后续章节按照如下的方式组织: 第2 章在概述数据挖掘技术的基础上,着重介绍了数据挖掘的一个重要分支 一w e b 挖掘,重点介绍了w e b 挖掘技术以及其优越性; 第3 章在概述了电子商务推荐系统的基础上,介绍了推荐系统中采用的主要 方法,提出了一个电子商务推荐系统的框架,并对推荐体系的工作流程进行了详 细的分析,从日志挖掘预处理过程以及模式发现、模式分析和模式应用在体系中 的应用和其主要的方法等方面进行了分析; 第4 章分析了电子商务推荐算法在整个推荐系统中的重要地位,然后对m a r k o v 预测模型进行了深入介绍:并对其用模糊聚类算法进行了改进,提高推荐的准确 性; 第5 章总结了本文的工作,并提出进一步的研究内容和方向。 4 2 。1 数据挖掘概述 2 数据挖掘技术概述 数据挖掘( d a t em i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道但又是潜在有用的并 最终可理解的信息和知识的非平凡过程。数据挖掘与传统的数据分析( 如查询、报 表、联机分析处理) 不通在于数据挖掘是在没有明确假设的前提下去挖掘信息、发 现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。先前未 知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉 发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料, 就可能越有价值;而且它是一个非平凡的过程,也即挖掘过程不是线性的,有反 复和循环,所挖掘到的知识也不是通过简单的分析就能得到,这些只是可能是隐 含在表面现象的内部,需要经过大量的数据比较分析,应用一些专门处理大数据 量的数据挖掘工具才能取得。 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间的关系的 过程,使用这些模型和关系可以进行预测,它帮助决策者寻找数据间潜在的关联, 发现被忽略的因素,是解决当今时代所面临的数据爆炸而信息匮乏的问题的一种 有效方法。它是一种新的商业信息处理技术,其主要特点是对商业数据库中的大 量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的 关键性数据,是一种深层次的数据分析方法。鉴于数据、数据挖掘任务和数据挖 掘方法的多样性,给数据挖掘提出了许多挑战性的课题。数据挖掘语言的设计, 高效而有用的数据挖掘方法和系统的开发,交互和集成的数据挖掘环境的建立, 以及应用数据挖掘技术解决大型实际应用问题,都是目前数据挖掘研究人员、系 统和应用开发人员所面临的主要挑战。 2 2w e b 数据挖掘 随着i n t e r n e t i n t r a n e t 技术的发展,尤其是w e b 的全球普及,使得w e b 上 的信息量无比丰富,越来越多的机构和个人在网络上发布信息、查找信息。网络 已成为人们获得信息的必要途径和重要手段。但是,网络在给人们带来方便的同 时,也带来了许多问题。w e b 上得数据是海量的,同时,w e b 是无结构的、动态的, 5 w e b 页面极其复杂。这样就使得人们从成千上万的w e b 站点中找到有用的数据变得 比较困难。于是,人们就越来越关注如何开发和利用w e b 上的数据资源。 w e b 挖掘( w e bm i n i n g ) 是解决上述问题的一个途径。当数据挖掘技术应用于网 络环境下的w e b 中就成为w e b 挖掘。w e b 挖掘就是从w e b 文档和w e b 活动中抽取感 兴趣的潜在的有用模式和隐藏的信息。 2 2 1w e b 数据挖掘的定义 w e b 挖掘( w e bm i n i n g ) 是数据挖掘在w e b 上的应用,是一项综合技术,涉及 w e b 、数据挖掘、计算机语言学、信息学等多个领域,不同研究者从自身的领域出 发,对网络挖掘的含义有着不同的理解,项目开发也各有其侧重点。例如,国外 有人认为:w e b 挖掘就是利用数据挖掘技术,自动地从网络文档以及服务中发现和 抽取信息的过程。国内则众说纷纭,有学者将网络环境下的数据挖掘归入网络信 息检索与网络信息内容的开发;也有站在信息、服务的角度上提出“w e b 挖掘 , 指出其有别于传统的信息检索,能够在异构数据组成的信息库中,从概念及相关 因素的延伸比较上找出用户需要的深层次的信息,并提出w e b 挖掘将改革传统的 信息服务方式而形成一个全新的适应网络时代要求的信息服务组合。我们这里采 用一个更一般的定义: w e b 挖掘是指从大量w e b 文档的集合c 中发现隐含的模式p ,如果将c 看作输 入,将p 看作输出,那么,w e b 挖掘的过程就是从输入到输出的一个映射:c p 。 w e b 挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但 是,w e b 挖掘与传统的数据挖掘相比有许多独特之处。首先,w e b 挖掘的对象是大 量、异质、分布的w e b 文档。一般认为,以w e b 作为中间件对数据库进行挖掘, 以及对w e b 服务器上的同志、用户信息等数据所开展的挖掘工作,仍属于传统的 数据挖掘的范畴。其次,w e b 在逻辑上是由一个由文档节点和超链接构成的图,因 此w e b 挖掘所得到的模式可能是关于w e b 内容的,也可能是关于w e b 结构的。此 外,由于w e b 文档本身是半结构化或无结构的,缺乏机器可理解的语义,而数据 挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结构来发现知 识,因此有些数据挖掘技术并不适用于w e b 挖掘,即使可用也需要建立在对w e b 文档进行预处理的基础之上。这样,开发新的w e b 挖掘技术,以及对w e b 文档进 行预处理以得到关于文档的特征表示,便成为w e b 挖掘研究的重点。 2 2 2w e b 数据挖掘的分类 w e b 上信息的多样性决定了w e b 挖掘任务的多样性,根据挖掘对象的不同,可 6 以将w e b 挖掘分为网络内容挖掘( w e bc o n t e n tm i n i n g ) 、网络结构挖掘( w e b c o n s t r u c t e rm i n i n g ) 和网络应用挖掘( w e bu s a g em i n i n g ) 三大类,如图2 1 所示。 图2 1 数据挖掘分类 f i g u r e2 1c l a s so fd a t am i n i n g w e b 内容挖掘 w e b 内容挖掘是指对w e b 页面内容进行挖掘,从文本,图像,音频,视频等各 种形式的网络资源中发现所需的特定化信息。搜索引擎、智能代理和一些推荐引 擎都使用内容挖掘来帮助客户在浩瀚的网络空间中寻找所需的内容。 w e b 内容挖掘的重点是页面分类和聚类。w e b 页面的分类是根据页面的不同特 征,将其划归为事先建立起来的不同的类。w e b 页面的聚类指在没有给定主题类别 的情况下,将w e b 页面集合聚成若干个簇,并且同一簇的页面内容相似性尽可能 大,而簇间相似度尽可能小。w e b 内容挖掘可分为w e b 文本挖掘和w e b 多媒体挖掘, 针对的对象分别是w e b 文本信息和w e b 多媒体信息。 w e b 结构挖掘 w e b 结构挖掘就是挖掘w e b 潜在的链接结构模式,从w e b 组织结构和链接关系 中推导信息与知识的过程,这种思想源于引文分析,即通过分析一个网页链接和 被链接数量以及对象来建立w e b 自身的链接结构模式。该模式可用于网页分类, 并由此获得有关不同网页间相似度及关联度的信息。并有助于用户找到指向相关 主题的权威站点。w e b 结构挖掘可为超链接挖掘、内容结构挖掘和u r l 挖掘。 w e b 在逻辑上可以用有向图表示出来,页面对应图中的点,超级链接对应图中 的边。通过把w e b 表示为有向图,可以得到从一个站点的主页到它的任意一个顶 点的最短路径,r o b o t 沿最短路径浏览w e b 站点,就可以较小的代价发现较多的文 档。 w e b 应用挖掘 w e b 应用挖掘是用挖掘w e b 服务器日志获取的信息来预测用户浏览行为的技 术,指从用户的访问日志中挖掘用户的访问模式。w e b 内容挖掘,w e b 结构挖掘的 7 对象是网上的原始数据,而网络使用挖掘的数据来自于用户在使用网络的过程中, 即在用户和网络交互的过程中抽取出来的第二手数据,这些数据包括:w e b 服务器 的访问记录、代理服务器日志文件、浏览器日志记录、用户注册信息、用户对话 或交易信息等其它信息。现在研究较多的是对日志文件的挖掘。w e b 使用挖掘已应 用到个性化推荐、系统改进以及商业智能等方面。 结构挖掘和内容挖掘都不需要或提供有关客户行为的知识,结构挖掘揭示了 哪些页面通过当前页面可以两步内到达,但并不关心多少人会实际到这条通路。 内容挖掘揭示了网页主题,但不关心谁会真正阅读它。从实用角度而言,真正比 较有用的挖掘则是应用挖掘,它主要集中于客户的行为。 2 2 3w e b 数据挖掘特点 w e b 上有海量的数据信息,利用现有的w e b 查询技术并不能满足人们的应用需 求。相对于w e b 的数据而言,传统的数据库中的数据为完全结构化的数据,而w e b 上数据的最大特点是就是半结构化:数据没有严格的结构模式、含有不同格式的 数据( 文本、声音、图像等) 、面向显示的h t m l 文本无法区分数据类型等。显然, 面向w e b 的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。 ( 1 ) 异构数据库环境 从数据库研究的角度出发,w e b 网站上的信息也可以看作一个数据库,一个更 大、更复杂的数据库。w e b 上的每一个站点就是一个数据源,每个数据源都是异构 的,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据 库环境。如果想要利用这些数据进行数据挖掘,首先,必须要研究站点之间异构 数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视 图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决w e b 上的数 据查询问题,因为如果所需的数据不能很有效地得到,对这些数据进行分析、集 成、处理就无从谈起。 ( 2 ) 半结构化的数据结构 w e b 上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模 型,可以根据模型来具体描述特定的数据。而w e b 上的数据非常复杂,没有特定 的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态 可变性。因而,w e b 上的数据具有一定的结构性,但因自述层次的存在,从而是一 种非完全结构化的数据,这也被称之为半结构化数据。半结构化是w e b 上数据的 最大特点。 ( 3 ) 解决半结构化的数据源问题 w e b 数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询 8 与集成问题。解决w e b 上的异构数据的集成与查询问题,就必须要有一个模型来 清晰地描述w e b 上的数据。针对w e b 上的数据半结构化的特点,寻找一个半结构 化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外,还 需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技 术。面向w e b 的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前 提。 近来兴起的x m l 数据就是一种自描述的半结构化数据,它支持用户自定义文 档标记,用有序的、嵌套的元素组织有一定结构的数据,是面向数据的。以x b l l 为基础的新一代w w w 环境是直接面对w e b 数据的,不仅可以很好地兼容原有的w e b 应用,而且可以更好地实现w e b 中的信息共享与交换。) ( m l 可看作一种半结构化的 数据模型,可以很容易地将x m l 的文档描述与关系数据库中的属性一一对应起来, 实施精确地查询与模型抽取。它的出现推动了w w w 在电子商务、电子数据交换和 电子图书馆等多方面的应用,也很大程度上解决了w e b 挖掘中的数据结构问题。 2 3 电子商务中w e b 数据挖掘的应用 目前,通过w e b 进行商务活动带来的便利和它所产生的交易速度已成为电子 商务迅猛发展的关键推动力。另一方面,涉及客户端的电子商务活动也正在进行 着巨大的革新。如果能够跟踪客户在w e b 上的浏览行为并进行模式分析,这样将 会缩短销售商与客户之间的距离,让销售商更了解自己客户的需求,有针对性的 开展电子商务活动。 在i n t e r n e t 上的客户都意识到,只要他们连接到一个在线市场的服务器上, 就已经在这个服务器上留下了一个“脚印 ,这就是服务器的日志文件。我们就可 以对客户访问留下的这些日志文件进行w e b 的数据挖掘,提取关于客户的知识, 对客户的访问行为、频度、内容等的分析,可以得到关于群体客户行为和方式的 普遍知识,用以改进w e b 服务方的设计。通过w e b 数据挖掘,就可以根据客户的 访问兴趣、访问频度、访问时问动态地调整页面结构,改进服务,给客户个性化 的界面,开展有针对性的电子商务以更好的满足访问者的需求,因而w e b 数据挖 掘不可避免的和电子商务走到了一起。 2 3 1 电子商务中进行w e b 数据挖掘的数据源 数据挖掘是从大量数据中提取或“挖掘 知识,那么进行数据挖掘首先要考 虑从什么样的数据中挖掘知识,也就是说进行数据挖掘的数据源。总体上说,电 9 子商务中数据挖掘技术的数据来源包括以下几种: ( 1 ) 服务器数据 客户访问服务器就会在服务器上产生相应的服务器数据,这些数据可以分为 曰志文件和查询数据。其中日志文件又可以分为s e r v e rl o g s 、e r r o rl o g s 、c o o k i e l o g s 。 s e r v e rl o g s s e r v e rl o g s 有两种格式存储,一种是普通同志文件格式,另一种是扩展同志 文件格式。普通日志文件格式以“d a t e ,c 1i e n t i p ,u s e r - - n a m e ,b y t e s ,s e r v e r , r e q u e s t ,s t a t u s ,s e r v i c en a m e ,t i m e ,p r o t o c o lo f v e r s i o n ,u s e r a g e n t , c o o k i e ,r e f e r r e r 的格式存储关于客户连接的物理信息。经常性的,如果能够 从这个文件中存储的一些项进行语法上的分析,如d n s ,就可以知道客户来源的区 域。例如,域名w w w r a s t a a c j p 被分析后可以知道客户来自于日本。如果通过 数据挖掘和这样的语法分析,就知道了某一产品它的购买者有8 0 是来自于日本, 那么接下来就可以根据此信息调整电子商务中的在线市场策略,调整对日本客户 的商务活动。扩展日志文件格式主要是支持关于日志文件信息的指令,如版本号, 会话监控开始和结束的是日期,被记录的域等。 ( 室) e r r o rlo g s 存取请求失败的数据,例如:丢失连接,授权失败,超时。 c o o k i el o g s h t t p 协议本身是一种非事务型的,这一种特征对于事务型的电子商务来说是 不合适的,给电子商务带来了一些问题。这个问题通过使用c o o k i e s 得到了克服。 c o o k i e s 是一种软件构件,它能够在客户端存储客户访问服务器的信息。服务器软 件上存储关于c o o k i e 的这部分,就叫做c o o k i el o g s 。c o o k i el o g s 的一般格式 是:“n a m e ,e x p i r yd a t e ,p a t h ,d o m a i n ,s e c u r i t yl e v e l ”。 查询数据它是电子商务站点在服务器上产生的一种典型数据。例如在线客 户也许会搜索一些产品或某些广告信息,这些查询信息就通过c o o k i e 或是登记信 息连接到服务器的访问日志上,目前还没有一个标准的查询数据格式。 ( 2 ) 客户登记信息 客户登记信息是指客户通过w e b 页在屏幕上输入的、要提交给服务器的相关 信息。它在电子商务活动起着非常重要的作用,特别是在安全方面,或者在对客 户可访问信息的限制方面。在w e b 的数据挖掘中,客户登记信息必须和访问日志 集成,以提高数据挖掘的准确度,能更进一步的了解客户。 ( 3 ) 市场数据 这类数据主要是传统关系数据库中存储的有关电子商务站点信息、用户购买 1 0 信息、商品信息等数据。 ( 4 ) w e b 页面数据 这类数据主要是指h t m l 和x m l 页面的内容,包括文本、图片、语音、图像等。 由于h t m l 页面包含文本和多媒体信息( 图片、语音、图像) ,所以涉及到文本挖掘 和多媒体挖掘。对w e b 页面数据的挖掘还包括对w e b 页面之间的超链接关系的挖 掘。 2 3 2 电子商务中w e b 数据挖掘的过程 数据挖掘也称为数据中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s : k d d ) ,过程是指挖掘中的步骤。在w e b 挖掘中用户界面就是浏览器。数据挖掘过 程可粗略的理解为三部曲:数据准备、数据挖掘以及结果的解释评估,其过程见 图2 2 。 图2 2 数据挖据过程 f i g u r e 2 2p r o c e s so fd a t am i n i n g ( 1 ) 问题定义:数据挖掘是为了在大量数据中发现有用的令人感兴趣的信息, 因此发现何种知识就成为整个过程中第一个也是最重要的一个阶段。在问题定义 的过程中,数据挖掘人员必须和领域专家以及最终用户紧密协作,一方面明确实 际工作对数据挖掘的要求;另一方面通过对各种学习算法的对比进而确定可用的 学习算法。后续的学习算法选择和数据准备都是在此基础上进行的。 ( 2 ) 数据收集和数据预处理:数据准备又可分为三个子步骤:数据选取、数 据预处理和数据变换。数据选取的目的是确定发现任务的操作对象,即目标数据, 是根据用户的需要从原始数据库中抽取的一组数据。数据预处理一般包括消除噪 声、推导计算机缺值数据、消除重复记录、完成数据类型的转换( 如把连续数值数 据转换为离散型的数据,以便于符号归纳,或是把离散型的转换为连续值型的, 以便于神经网络) 等。当数据挖掘的对象是数据仓库时,一般来说,数据预处理已 经在生成数据仓库时完成了。数据变换的主要目的是消减数据维数,即从初始特 征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。 ( 3 ) 数据挖掘:数据挖掘阶段首先根据对问题的定义明确挖掘的任务或目的 是什么,如分类、聚类、关联规则发现顺序或序列模式发现等。确定了挖掘任务 后,就要决定使用什么样的挖掘算法。选择实现算法有两个考虑因素:一是不同 的数据有不同的特点,因此需要用与之相关的算法来挖掘;二是用户或实际运行 系统的要求,有的用户可能希望获取描述性的、容易理解的知识,而有的用户只 是希望获取预测准确度尽可能高的预测型知识,并不在意获取的知识是否易于理 解。 ( 4 ) 结果解释和评估:数据挖掘阶段发现出来的模式,经过评估,可能存在 冗余或无关的模式,这时需要将其剔除;也有可能模式不满足用户要求,这时则 需要整个发现过程退回到前续阶段,如重新选取数据、采用新的数据变换方法、 设定新的参数值,甚至换一种算法等。另外,k d d 由于最终是面向用户的,因此可 能要对发现的模式进行可视化,或者把结果转换为用户易懂的表现形式。值得注 意的一是影响数据挖掘质量的好坏有两个因素: 所采用的数据挖掘技术的有效性; 用于数据挖掘的质量和数量( 数据量的大小) ; 如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换,则 有可能取到不正确的挖掘结果;二是整个挖掘过程是一个不断反馈的过程。比如, 用户在挖掘途中发现选择的数据不太好,或使用的挖掘技术产生不了期望的结果 时,需要重复以前的过程,甚至重新开始;三是可视化在数据挖掘的各个阶段都 起着非常重要的作用。在数据准备阶段,用户尽可能要使用散点图、直方图等可 视化系统技术来显示有关数据,以期对数据有一个初步的了解,从而为更好地选 取数据打下基础。在挖掘阶段,用户则要使用与领域问题有关的可视化工具。在 表示结果阶段,则可能要用到可视化技术。 2 3 3 电子商务中w e b 数据挖掘的主要技术 随着电子商务的不断发展,许多人纷纷加入到电子商务推荐系统的研究中来。 为了寻求更加准确而且有效的推荐,己经有许多技术被应用到这个领域中。这些 技术在很多电子商务商品推荐系统中已经得到了实际应用,而且还取得了比较好 的推荐效果。目前,电子商务商品推荐系统中使用的技术主要有: 贝叶斯网络( b a y e s i a nn e t w o r k ) ( 窑) h o r t i n g 图( h o r t i n gg r a p h ) 关联规则( a s s o c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论