




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
郑重声明 本人的学位论文是在导师指导下独立撰写并完成的,学位论文没有剽窃、抄 袭等违反学术道德、学术规范的侵权行为,否则,本人愿意承担由此产生的一切 法律责任和法律岳果,特此郑重声明。 学位论文作者( 签名) :兜j 训年夕月巧日 基于电子商务w e b 的数据挖掘技术研究 摘要 随着i n t e m e t 的日益普及和电子商务的蓬勃发展,基于互联网的商业w 曲站 点业务的竞争也越来越激烈。由于电子商务可为数据挖掘提供极为丰富的数据 源,因而如何对大量的电子商务信息进行有效的组织利用,从中抽取感必趣的商 业运作模式,以便更好地理解客户的行为,或改进站点结构为客户提供更多的个 性化服务,已为众多商家所关注。 基于w 曲进行数据挖掘,是在w 曲环境下从大量的w e b 文档集合和用户浏 览网站的数据中发现蕴涵的、未知的、有潜在应用价值的、非平凡模式或信息, 冈此,开展本研究课题有一定的应用价值和意义。 本文在分析研究电子商务数据特点的基础上,较洋细地阐述了w e b 数据挖 掘的概念、方法等相关技术,针对基于w e b 日志的数据挖掘模型的缺点,构建 了一个基于s e s s i o n 的数据挖掘模型。并面向开展电子商务方面的个性化服务, 提出了一种基于相似属性集聚类算法的推荐系统,并与协同过滤推荐方法进行了 比较。该系统可通过获取用户对电子商务网站访问的页面序列,构建出较高购买 者的顾客行为矩阵模型,以得到w 曲访问对象在整个或者部分属性空问中的相 似访问行为,可给商家提供一些有用的服务信息和科学预测数据。 经模拟实验表明,该系统设计方案可行,对电子商务或交易网站进行数拊挖 掘得到一些重要信息,具有一定参考应用价值。 关键词:数据挖掘、w 曲挖掘,聚类分析、电子商务、个性化推荐系统 2 基十电子商务w e b 的数据挖掘技术纠 究 a b s t r a c t w i t ht h ep o p u l a r i z a t i o no fi m e m c ta n dt h ed e v e l 叩m e n to fe - c o m m e r c e , e _ b u s i n e s sw e bs i t e sa r cf a c e dw i t i lm o r ea 1 1 dm o r en e r c ec o m p e t i t i o n e c o m m e r c e p r o v i d e sa b u n d a n td a t ar e s o u r c e sf b rd a t am i n i n g ,t h u 8m o r ea i l dm o r eb u s i n e s s o r g a l l i z a t i o n sa r ei n t e r e s t e di nh o wt om a l ( eu s eo fe c o m m e r c ei n f o m l a t i o na n dm i n e t l l eu s e rm t e r e s tp a t t e n l ou 1 1 d e r s t a n du s e r b e h a v i o li m p r o v et h eu s a b i l i t yo fw e bs i t e a n dp r o v i d ep e r s o n a l i z e ds e i c ef o rc u s t o m e r s w e bm i n i n gi st h e 仃a d i l i o n a ld a t am i n i l l gt e c l l l l o l o g yu s e di nw e b ,w h i c hc a n e x t r a c ti n t e r e s t i n ga n dp o t e n t i a l l yu s e n np a t t e m sa n di m p l i c i ti n f o r m a t i o n 行o mw e b d o c u m e n t so ra c t i v i t yr e l a t e dt ot 1 1 ew o r l d - w i d e w e b t h u ss t u d y i n gt h i st a s kh a sa d e f i l l i t e 印p l i c a t i o nv a l u ea n ds i 印m c a n c e t h et h e s i sd i s c u s s e s山ec h a r a c t e ro fd a t ai n e - c o m m e r c e ,e x p a t i a t e st 1 1 e c o n c e p t i o na i l dt e c h n o l o g i e si nd e t a i l ,a n a l y z et 1 1 ed i s a d v a i l t a g e so f t h em o d e lo fd a t a m i n i n g b a s e do nt h ew 曲1 0 9a n dc o n s t m c tam o d e lo fd a t am i n i n gb a s e do ns e s s i o n , t h e ni tp r e s e n t sap e r s o n a l j z e dr e c o 舢e n d e rs y s t 锄b a s e do n8 j m jj a r瑚o d e j c l u s t e r i n ga 1 9 0 r i t h m t h es y s t e mc a nc a p t u r es i m j l a rm o d e lt h a te x l i b i t sac o h e r e n t p a t t e mo ne i t h e ra l lo ro n l yas u b s e to fd i m e n s i o n sb yc a t c h i n gc u s t o m e r sv i s i t i n g p a g es e q u e n c ea n dc o n s 咖c n n gt h et o ps e l l i n gc u s t o m e f sb e h a v i o rm a t r i xm o d e l w h i c hp m v i d e ss o m eu s e f u ls e r v i c ei n f o n n a t i o na n ds c i e n t i f i cp r e d i c t i n gd a t af o r b u s i n e s so 唱a n i z a t i o n s t 1 l ed e s i g n i n go ft h es y s t e mi sa v a i i a b j eb ys i m u i a t i n gt e s t 血g w h i c hg a i n s s o m ei m p o r t a n t 姐da p p l i c a b l ei n f o 廿n 撕o nb ym i n i n ge - c o m m e r c eo rb u s i n e s ss i t e k e y w o r d s :d a t am i n i n g ,w 曲m i r i i n g ,c l u s t e r i n ga n a l y s i s ,e l e c h o n i cc o m m e r c e , p e r s o n a l i z e dr e c o m m e n d e rs y s t e m 3 基于电了商务b 的数据挖掘技术研究 1 1 研究背景 第一章绪论 为了适廊现代企业管理的需要,越来越多的公司企业和金融机构纷纷建立电 子商务网站,通过计算机网络进行商务活动。致使w 曲数据资源空前丰富。如 何黜这些数据进行分析和挖掘,以充分了解客户的喜好、购买模式,甚至足客户一 时的冲动,进而设计出满足于不同客户群体需要的个性化网站,增加自己的竞争力 似乎已变得势在必行。电子商务( e l e c 廿o n i cc o m m e r c e ,简称e c o m m e r c e ) 就是 运用互联网技术所进行的经济贸易活动,是以电子信息设施为载体所提供的商品 和服务,其内容包括广告、交易、支付、服务等活动。商家与其合作伙伴、客户 通过计算机网络进行商务活动,可以拉近企业与客户的距离,缩短生产时间,降 低流通成本,提高产r 钴质量,为生产者和消费者提供更多的信息,扩大客户的选 择,提高企业的竞争力。但是在电子商务系统中,通常面临着以卜问题: 1 电子商务系统在为用户提供越来越多选择的同时,其结构也变得更加复 杂,用户如何才能从大量的商品信息中,快捷地找到自己需要的商品? 2 商家如何投其所好,为不同用户提供个性化服务? 3 企业如何适应市场的变化,进一步优化网站组织结构和服务方式以提高 网站的声誉和效益等? 现阶段在电子商务中使用的数据挖掘技术主要采用目前数据挖掘的研究成 果。常用的数据挖掘方法和技术有: 1 决策树方法:用树形结构来表示决策集合,这些决策集合通过对数据集 的分类产生规则。比较典型的决策树方法有i d 3 算法和c a r 丁( 分类回归树) 算 法等。 2 遗传算法:它是在生物进化的概念基础上设计的一种优化技术,它包括 基因组合、交叉、变异和自然选择等一系列过程,通过这些过程已达到优化的目 的。 3 人工神经网络:它从结构上模仿生物神经网络,是一种通过训练来学习 的非线性预测模型,可以完成分类、聚类、特征挖掘等多种数据挖掘任务。 基于电子商务w e b 的数据挖掘技术研究 4 最近临技术:这种技术通过已辨别历史记录的组合来辨别新的记录,它 可以用未作聚类和偏差分析。 5 规则归纳:通过统计方法来归纳、提取有价值的规则。规则归纳技术在 数据挖掘中被广泛应用。典型的方法有集合论的粗集( r o u 曲s e t ) 方法和概念树 方法等。 另外,还有可视化方法、公式发现方法等。 1 2 本文的主要内容 论文比较系统、完整地分析和论述了数据挖掘技术以及w 曲挖掘技术;提 出了一种基于s e s s i o n 的数据挖掘模型和一个基于相似度聚类算法的电子商务个 性化推荐系统;本系统没有采用传统的在w 曲服务器日志上进行w e b 挖掘,而 是将数据收集机制和应用服务器端相集成对用户的访问数据做全面的收集和解 析,获取用户访问电子商务网站的访问页面序列,构建较高购买者的顾客行为的 矩阵模型,得到访问者对象在整个或者部分属性空问的相似访问行为,然后通过 挖掘潜在购买者与较高购买者的相似度特征,帮助顾客发现他所希望购买的产品 信息,用于提高实际购买量。 基于电子商务w e b 的数据挖掘技术研究 第二章电子商务的背景知识 2 1 电子商务概述 电子商务足一种基于因特网、以交易救方为主体、以银行电子支付和结算为 手段、以客户数据为依托的全新商务模式,它足继因特网之后r r 行业的又一热 点。电子商务按类型分为b c b ( 商家对商家) 、b 2 c ( 商家对个人客户) 两种, 按照交易过程可分为商品检索、商品采购、订单支付三个阶段。 随着互联网的普及和电子商务的发展电子商务系统在为用户提供越来越多 选择的同时,其结构也变得更加复杂,用户如何才能不会迷失在大量的商品信息 空问中,顺利找到自己需要的商品? 商家如何投其所好,为用户实现主动推荐,提供个性化服务? 企业如何适应市场的变化,进一步优化网站组织结构和服务方式以提高嗍站 的声誉和效益等? 利用w e b 挖掘技术建立的电子商务推荐系统就可以有效的解决上述问题。 2 2 电子商务中进行数据挖掘的优势 在电子商务中进行成功的数据挖掘得益于: 1 电子商务提供海量的数据 在电子商务网站中进行数据挖掘的最大优势在于电子商务行为将会产生非 常大的数据、海量数据,而这个海量数据正足进行数据挖掘的基础。现在海量数 据至少足在l o o g b 以上的数量级,在这种规模的数据上挖掘才是有意义的,通 常情况下有条件进行数据挖掘的应用领域并不足很多。据统计,如果一个电子商 务网站平均每个小时卖出5 件物品,那么它一个月的平均点击量是1 6 0 万次。这 个点击量会产生巨大的w 曲日志( 记载页面访问的情况) 。 2 丰富的记录信息 如果电子商务站点设计的好,就可以获得各种商务的或者是用户访问的信 息。这些信息包括:商品和商品的属性、商品的归类信息( 当同时展示多种商品 时,归类信息是非常有用的) 、促销信息、关于访问的信息( 比如:访问计数) 、 基于屯f 商务w e b 的数据挖掘技术研究 关于客户的信息( 可以通过登陆注册来获得) 等。在一个电子商务网站当中, 客户访问网站的一举一动都可以记录下来。 3 良好的数据 从电子商务站点搜集的都是电子数据,无需人工输入或者从历史系统进行整 合,从而也减少了一些人t 输入的错误。可以通过良好的站点设计,直接获得跟 数据挖掘有关的数据。可以通过良好的站点设计,良好的控制数据采样的颗粒度, 颗粒度控制在用户级别或者是s e s s i o n 级别,而不足页面级别。 4 研究成果容易转化 在电子商务中,很多知识发现都可以直接应用。历史上的数据挖掘研究有过 很多的知识发现,但是这些知识发现却很少在实际的商业应用中产生什么效果。 要府用这些发现的知识可能意味着要进行复杂的系统更改、流程更改或是改变人 们的办事习惯,这在现实中是非常困难的。而在电子商务中很多知识发现都可 以直接应用。比如,改变站点的设计( 改变布局,进行个性化设计等) ,开始有 目标的促销,根据对广告效果的统计数据改变广告策略,可以很容易的提供捆绑 销售。这些改变郝是很容易的。 5 投资收益容易衡量 在传统的商业中衡量投资收益需要长期的测量和观察,p a c ou n d e r h i i l 在购 物的科学一书中提及,一个超市为了衡量他们的促销策略带来的投资收益,每 年要花1 4 0 0 0 个小时查看录像带。在电子商务,衡量革新的投资收益非常容易的, 销售变化的报表可以自动产生,客户对电子邮件和电子调查的反馈都可以在几天 内得到,而不必等几个月,电子商务乃至攘个互联网都足传统商业的理想实验室。 2 3 电子商务中挖掘数据分类 电子商务是通过i n t e m e t 进行的各项商务活动,挖掘的数据分为一卜几类: 1 w e b 内容 在电子商务中网页上的真正数据。即w 曲页面上的文本数据、图形、图像 数据、音频、视频数据等多种数据。 2 w 曲结构 w w w 的组织结构和链接关系胡l 织结构指一张网页内部各部分足如何组织 基于电子商务w e b 的数据挖掘技术研究 的,表现为各h t m l 或x m l 标记间的关系,可组成一颗树。链接关系是网页之 间的链接信息。 3 w e b 使用记录 即w e b 日志文件。w 曲日志文件是w e b 服务器上用来记录用户访问页血浏 览踪迹的文件。一般包括用户的i p 地址、访问日期和时间、u r l 、访问方式( g e t 或p o s t ) 等。 4 客户的背景信息 电子商务网站客户的背景信息,包括姓名、地址、职业、爱好等。 5 交易数据 电子商务网站的客户线上交易的情况,包括交易的商品、数量、交货目期等。 6 查询信息 r u 子商务网站的客户进行的些查询信息。 2 4 电子商务推荐系统与个性化服务 电子商务推荐系统通过分析大量的交易记录,预测用户未来的购买需要,向 用户推荐他可能感兴趣的商品。它能够直接与用户交互,模拟商店销售人员向用 户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程“。从用户 角度来看,电子商务推荐系统通过对收集到的用户的访问行为、访问频度、访问 内容等浏览信息进行挖掘,提取用户的特征,获取用户访问w 曲的模式,为用 户实现主动推荐,提供个性化服务【1 9 】;从氽业角度来看,氽业希望能够获取用 户的访问规律,以帮助企业确定顾客消费的生命周期,针对不同的产品制定相应 的营销策略、进一步优化网站的组织结构和访问方式,以提高网站的效率。日| j 1 , 几乎所有的大型的电子商务系统,如a m a z o n ,c d n o w ,e b a y ,d a n g d a f l g 等, 都不同程度的使用了各种形式的电子商务推荐系统。 电子商务网站以往的一些工作模式( 如w 曲站点设计,服务设计,导航设 计等) 已经不能满足用户对互联网的需要。经常上网的用户会发现一个普遍存在 的问题就是:在浏览某个电子商务网站的过程中,当前页面总是显示一些自己毫 不关心的话题,无论自己对该电子商务网站的访问频度多高都是如此。对该问题 的研究推动了电子商务从“以站点为中心”向“以用户为中心”发展,即电子商 1 0 基于电子商务w 曲的数据挖掘技术研究 务网站不但要针对所有用户共同兴趣的共性信息,而且更应该重视对每个用户自 身必趣的个性信息。冈此电子商务网站的发展趋势是为每个用户提供个性化服 务。 2 4 1 个性化服务 所谓个性化服务,就是在用户浏览w e b 站点时,尽可能的迎合每个用户的 浏览兴趣并且不断调整自己来适应用户浏览必趣的变化,使得每个用户部有足该 w e b 站点唯一用户的感觉”。电子商务推荐系统使得电子商务系统主动适应每 个用户的特定需求,为每一个用户创建一个适应该用户的电子商店,从而为每个 用户提供完全不同的个性化购物体验,因此属于w e b 站点个性化服务的范畴。 不同电子商务推荐系统的个性化程度不同,根据电子商务推荐系统的个性化 程度,可以将电子商务推荐系统分为如卜- 三类: 1 ) 非个性化推荐系统:电子商务推荐系统对每个用户产生的推荐都足相同 的。这种推荐系统可以基于w 曲站点_ t 作人员的手工推荐,可以基于统计分析 技术等,【乜子商务系统的销售排行、编辑推荐、平均值评分、个体文本评价、个 体数值评分等推荐形式对所有的用户而言都足一样的,部属于非个性化电子商务 推荐系统。 2 ) 半个性化推荐系统:电子商务推荐系统根据用户当前的行为产生相j 她的 推荐。这种推荐系统根据用户当前的浏览行为或用户当前的购物车信息产生推荐 结果,不同用户得到的推荐结果各不相同。半个性化推荐系统的个性化程度比非 个性化推荐系统要高。 3 ) 完全个性化推荐系统:推荐系统保存用户的各种历史信息,如历史浏览 信息、历史数值评分信息、用户注册信息等,然后根据用户的历史信息,结合用 户当前的行为产生完全个性化的推荐服务。这种推荐系统一般只能对注册用户提 供服务,个性化程度最高。 2 4 2 推荐系统在电子商务中的意义 电子商务推荐系统能在以下四个方面给电子商务网站带来益处 1 ) 方便用户查询和浏览,把浏览者转变成购买者 培十电子商务w e b 的数据挖掘技术研究 2 ) 增加交叉销售量 推荐系统通过向客户推荐额外的商品来提高站点企业的交叉销售量。例如站 点可以根据客户当前购物车中的物品向他们推荐一些和这些以选购的物品相关 的物品。如果有一个比较好的推荐系统,则企业的平均销售量就可能增加。 3 ) 建立和加强客户忠诚度 在电子商务环境下,站点对客户和一般访问者不断地了解和学习,利用推荐 系统提供符合所需的w 曲界面,客户则通过不断地访问这个最为符合他们各自 所需的站点来回报站点企业,越多的用户得到站点推荐系统给他们提供的个性化 服务,则他们会对站点赋予更多的忠诚度。 4 ) 增强广告的作用 2 4 3 推荐系统中采用的方法 目前,在国外已有相当多的电子商务系统应用了w 曲数据挖掘技术来提高 企业的收益。推荐系统是w e b 数据挖掘在电子商务中运用的一个热点,它属于 站点自适应的范畴,国外比较著名的研究成果有:i b m :s p e e dt r a c e r ,w 曲l o g m i n e r 【2 ”w 曲u t i l i z a o nm i n e 一2 m 等,在推荐系统中采用的方法有: 1 ) 对数据的简单检索( r a wr e 雠e v a l ) 这种系统的“推荐”实际上只是一种对用户的简单查询。例如当某个用户以 某个关键字询问一个站点时,这个站点就会简单地进行数据库查询,把凡是商品 席中与该关键字有关的都推荐给用户。 2 ) 站点的分析人员和专家等进行的人工选择推荐( m a i l u a l l vs e l e c t e d ) 这种推荐是基于这些站点人员他们自己主观的喜好、看法等,建立起一个针 对用户的推荐商品列表,通常表现为对商品文字上的评价。 3 ) 基于统计分析( s t a t i s t i c a ls 呦m 耐e s ) 这种推荐考虑用户对物品某些属性的兴趣,强调用户对商品特征属性的要 求。系统寻找拥有满足用户兴趣所要求的属性的商品推荐给用户。 4 ) 基于物品和物品关系的推荐( i t e m - t o 一“e mc o n l a t i o n ) 这种推荐主要是建立在物品和物品之间的关联相似规则模式,这种规则通常 足以物品之间的c o - p u r c h a s e 关系而定的,即考察物品a 被购买了物品b 也会被 基于电子商务b 的数据挖掘技术研究 购买的关系。 5 ) 基于用户和用户关系的推荐( u s e r t o u s e rc o r r e l a d o n ) 这种推荐主要考虑的是当前用户与在此站点上访问过或购买过物品的其他 用户的关系,并以此关系作为推荐的依据,通常也可以把这种推荐技术叫“协作 过滤”。这种方法的原理非常简单,一般认为某个访问者属于同一类或同一群体 的用户喜爱的,那么这个访问者也同样会喜爱。m yc d n o w 站点就是基于这种 方法向用户推荐的。 摧十电子商务w e b 的数据挖掘技术研究 第三章数据挖掘和w e b 数据挖掘 3 1 数据挖掘的概念 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程【lj 。与数据挖掘相近的同义词有数据融合、数据分析和决策 支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的; 发现的是用户感兴趣的知识:发现的知识要可接受、可理解、可运用;并不要求 发现放之四海皆准的知识,仅支持特定的发现问题。 电子商务的业务分析是近年来电子商务应用发展的重点。“分析型电子交易” 将会在下一代的在线交易中显示威力。而分析型电子交易的基础是数据仓库技术 及府用。数据仓库的概念由美匡i 著名工程学家w ll n m o n 博二l 于9 0 年代在建 立数据仓库一书中提出:“数据仓席( d a t aw a r e h o u s e ) 是一个面向主题的,集成的, 稳定的,包含历史数据的数据集合,它用于支持经营管理中的决策制定过程。”在 上述定义中,主题是指用户使用数据仓库进行决策时所关心的重点方面。血向主 题是指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信 息;集成是指数据仓库中的信息不是从箨个业务处理系统中简单抽取出来的,是 经过系统加工,汇总和整理,保证数据仓库内的信息是关于整个企业的一致的全 局信息:稳定是指一旦某个数据进入数据仓库以后,一般情况f 将被长期保留, 也就是数据仓库中一般有大量的插入和查询操作,但修改和删除操作很少;包含 历史数据是指数据仓库内的信息并不只是关于氽业当时或某一时点的信息,而是 系统记录了t = 业从过去某一时点到同| i i 的各个阶段的信息,通过这些信息可以对 企业的发展历程和未来趋势做出定量分析和预测。把信息加以整理归纳,并及时 提供给相应的管理决策人员,是数据仓库的根本任务。数据仓库的最终目标是把 企业范周内的所有数据集成在一个大仓库中,让用户能运行查询,产生报告,执 行分析。其主要有三方面的作用:1 ) 数据仓库提供了标准的报表和图表功能, 其中的数据来源于不同的多个事务处理系统,因此,数据仓库的报表和图表是关 于整个企业集成信息的报表和图表。2 ) 数据仓库支持多维分析,多维分析是通 1 4 基于电r 商务b 的数据挖掘技术研究 过把一个实体的多项重要的属性定义为多个维度,使得用户能方便地汇总数据 集,简化了数据的分析处理逻辑,并能对不同维度值的数据进行比较,而维度则 表示了对信息的不同理解角度。应用多维分析可以在一个查询中对彳i 同阶段的数 据进行纵向或横向比较,这在决策过程中非常有用。3 ) 数据仓库是数据挖掘技 术的关键基础,数据挖掘技术要在已有数据中识别数据的模式,以帮助用户理解现 有的信息,并在已有信息的基础上,对未来的状况做出预测。在数据仓库的基础上 进行数据挖掘,就可以针对整个企业的状况和未来发展做出较完整,合理,准确的 分析和预测。 3 2 数据挖掘的主要功能 数据挖掘的土要功能是确定数据挖掘任务中要找的模式类型,数据挖掘任务 一般可以分为描述和预测两大类,描述性挖掘任务主要是刻划数据席中数捌的一 般特性,预测性挖掘任务是在当前数据上进行推断,以进行预测。 数据挖掘功能以及它们可以发现的模式类型介绍如卜i : 1 分类、预测 分类就是通过研究已分类的样本集的特征,分析样本集的属性,建立一个分 类函数或分类模型,通过这个分类模型,未分类的或新的数据就可以分派到不同 的类别中,达到分类的目的。分类可以用决策树归纳、贝叶斯网络、人1 :神经元 网络( 如b p 网络等) 、粗糙集、遗传算法、k 一最临近分类和支持向量机等方法。 分类可以预测对象的类标记,当要预测的数据是数值数据f 连续值) ,而不足离散 的类别标志时,我们可以称之为预测。预测主要使用问归方法,当然也可以使用 人工神经元网络、支持向量机等机器学习方法。 2 关联规则 数据库中的数据之间一般都存在某种关联关系,即变量之间可能存在某种规 律,关联规则挖掘的任务就是找出数据库中哪些事物或属性共同出现的条件。譬 如,可以通过关联规则挖掘来发现超级市场哪些商品经常被同时购买,商家可以 利用这些关联信息来确定进货的计划、商品应该如何摆放等,如可以把经常一起 购买的商品摆的近一点,有助于同时购买,也可以把经常一起购买的商品放在商 店两端,可能可以诱发购买这些商品的顾客一路挑选其它的商品。由此可见,关 基于电子商务w e b 的数据挖掘技术研究 联规则挖掘能给仓业带来极有价值的信息和知识。最有影响力的关联规则挖掘的 算法是r a k e s ha g n v a l 等人提出的a p r i o r i 算法以及很多a p r i o r i 的改进算法,如 e d i t hc o h e n 等人提出的不需要剪枝的改进算法,m o h a m m e d j z a k i 提出的可伸缩 的改进算法等。 3 聚类分析 聚类是将对象集合按照相似性归为若干类别,同一类的对象具有较高的某种 相似性,而不同类的对象之间的差别较大。通过聚类,识别密集和稀疏的区域, 发现全局的分布模式及数据属性之间的相互关系,帮助人们建立宏观概念。聚类 的方法主要可以分为:划分方法0 叭i t i o l l i n gm e t h o d ) ,层次方法( h i e m r c h i c a l m e t h o 蛾基于密度的方法( d e n s i t y - b a s e dm e 血o d ) ,基于网格的方法( 酾d _ b a s e d m e t h o d ) 和基于模型的方法。其中,划分方法中用的比较多的是k 一平均算法和k 中心点算法。b i r c h 和c u r e 就是比较典型的层次方法,d b s c a n 是比较有代表 意义的基于密度的方法,s t i n g 算法是典型的基于网格的方法,基于模,l ! ! 的办法 有统计学方法、人t 神经元网络方法( 如k 0 h o n e n 网络) 等。 4 类概念描述 数据可以与类或概念相关联,用汇总的、简洁的、精确的方式描述每个类和 概念足有用的,日的足对数据进行浓缩,给出它的总体的综合描述,实现对原始 数据的总体把握。这种类或概念的描述称为类概念描述。通过类概念拙述使得 人们能够在复杂数据库中了解数据的意义以及产生数据的过程。这种描述可以通 过汇总所研究类的数据来获得( 这个过程也叫数据特征化1 或将所研究类与其它 的比较类进行比较来获得,或采用上面两种方法的结合。基于数据立方体的 o l a p 上卷操作来执行指定维的数据汇总就是一种很有效的数据特征化的方法, 数据特征化的输出通常采用如饼图、柱状图、多维数据立方体等形式来形象的表 现出来。 5 孤立点分析 数据库中经常存在这样一些数据对象,它们与数据的一般行为或模型不一 致,这些数据对象我们就称之为孤立点。在一般情况下,数据挖掘方法会将孤立 点视为噪声或异常而丢弃,但是在特殊场合,如在电子商务领域,探测和分析孤 立点显的比正常数据还来的重要。 1 6 基于电子商务w e b 的数据挖掘技术研究 6 演变分析 数据演变分析( e v 0 1 u t i o na i l a l y s i s ) 用来描述行为随时问变化的对象的规律或 趋势,并对其建模。时间趋势分析考虑时间上的变化趋势,空间趋势则要根据某 空间维找出变化趋势。 3 3 数据挖掘的常用方法和算法 数据挖掘的研究融合了多个不同学科领域的技术与成果,使的目前的数据挖 掘方法表现出多种多样的形式。从统计分析类的角度来说,统计分析技术中使用 的数据挖掘模型有线形分析和非线形分析、回归分析、逻辑回归分析、单变量分 析、多变量分析、时间序列分析、最近序列分析、最近邻算法和聚类分析等办法。 利用这些技术可以检查那些异常形式的数据,然后,利用各种统计模型和数学模 型解释这些数据,解释隐藏在这些数据背后的市场规律和商业机会。知识发现类 数据挖掘技术足一种与统计分析类数据挖掘技术完全不同的挖掘技术,包括人t 神经元网络、支持向量机、决策树、遗传算法、粗糙集、规则发现和关联顺序等。 1 k m e a l l 算法 k m e a i l s 算法用于数据挖掘中的聚类它是以k 为参数,把n 个对象分为k 个簇, 存同簇内相似度较高,在不同簇之间的相似度较低,每个簇用该簇中对象的平均 值来表示。这个算法尝试找出使平方误差函数最小的k 个划分,当结果集足密集, 簇与簇之间的区别明显时,效果很好。k e a n 算法的特点在于处理大数据集时, 该算法具有可伸缩性和比较高的效率。 2 a p r i o r i 算法 a p r i o r i 算法用于数据挖掘中的关联规则,是一种最有影响的挖掘布尔关联规 则频繁项集的算法。算法使用频繁项集性质的先验知识,通过逐层搜索的迭代方 法,k 项集用于探索k + 1 项集。其过程为首先找出频繁1 项集的集合l ,再根据i 一项集找出频繁2 一项集的集合l 2 ,l :再用于寻找l 3 ,如此迭代,直到不能找到频 繁k 一项集为正,然后在频繁项集的基础上生成规则。 3 人工神经元网络。 人_ 神经元网络模拟人脑神经元结构,以m p 模型和h 曲b 学习规则为基础, 建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理 景干电子商务w e b 的数据挖掘技术研究 和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。前馈神经 元网络以感知器网络、b p 网络等为代表,可以用于分类和预测等方面;反馈式 网络以h o d f l e l d 网络为代表,用于联想记忆和优化计算;自组织网络以a r t 模型、 k o h o n o n 模型为代表,用于聚类。 4 决策树。 决策树学习足一种通过逼近离散值目标函数的方法,通过把实例从根结点排 列到某个叶子结点来分类实例叶子结点即为实例所属的分类。树上的每个结点 说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个 町能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性, 然后按照给定实例的该属性值对应的树枝向卜 移动。决策树方法十要应用于数据 挖掘的分类方面。 5 遗传算法。 遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最 好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代 群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适府性的提高。 遗传算法由三个基本过程组成:繁殖( 选择) 是从一个旧种群( 父代) 选出生命力强 的个体,产生新种群( 后代) 的过程;交叉( 重组) 选择两个不同个体( 染色体) 的部分( 基因) 进行交换,形成新个体的过程变异( 突变) 足对某些个体的某些 基冈进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。 6 粗糙集, 粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为 基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分 类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的 元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与 结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为 初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个 集合就是粗糙的( 不精确的) 。每个粗糙集都具有边界元素,也就是那些既不能确 定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据 挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。 娃十电子商务w e b 的数据挖掘技术研究 3 4 数据挖掘的实施过程 数据挖掘过程如图3 1 所示,它不是一个线性的过程,而是包括许多的反 馈回路在内的,这些过程在具体实施中可能需要重复多次,在每一个过程中,需 要不同专业人员的参与,包括业务分析人员、数据分析人员和数据管理人员等。 数据挖掘的过程大致可以分为下面4 个阶段。 i 确定挖掘对象 在这个阶段,需要确定廊用的范围,理解用户的需求,确定最后的挖掘月标。 一般说来,数据挖掘的目标可以足关联规则、分类、聚类、回归、相关分析建模 等。 图3 1 数据挖掘的一般过程 2 数据准备 1 ) 数据的选择。在确定数据挖掘的业务对象后,需要搜索所有与业务对象 有关的内部和外部数据,从中选出适合于数据挖掘应用的数据。对于数据挖掘基 于数据仓库的情况,由于数据仓库已经为用户准备好了数据挖掘的基本数据,因 此数据的选择相对来说比较简单。否则,就需要从各个数据源去选择用于数据挖 掘的数据,意味着需要集成和合并数据到单一的数据挖掘库中,并且需要协调来 自不同数据源的数据在数值上的差异。 2 ) 数据的净化与预处理。在选择完数据后,需要对数据进行清理和预处理, 1 9 基于电子商务w e b 的数据挖掘技术研究 解决数据中的缺值、冗余、数据值的不一致、数据定义的不一致等问题。 3 ) 数据的变化和压缩。根据任务的目标,查找有用的特性来表示数据。可 以利用空间压缩或变换的方法来减少要考虑的有效变量数目或找到数据的不变 表示,一般可以通过把数据投影到某个空间上以利于问题的解决。 3 数据挖掘 1 ) 选择数据挖掘方法。根据k d d 过程的目标和确定的数据挖掘对象,选 择相廊的数据挖掘方法,如统计分析的方法,机器学习和人工智能的方法、模式 识别的方法等。 t 2 ) 选择数据挖掘算法。选择用来查找模式或数据的模型的算法,确定合适 的模型和参数。 3 ) 数据挖掘。查找感兴趣的模式。模式表示为一种特殊的形式或一套表达 式,如关联规则、分类规则、聚类集等。 4 表达、评估和巩固挖掘结果 1 ) 结果表达。利用可视化等方法,尽量直观地表示挖掘结粜,以便于用户 理解和使用。 2 ) 评价。筛选和评价挖掘结果中的有用部分,查找可接受的结果。 3 ) 知识巩同。把挖掘出的知识结合到执行系统中,了解这些知识的作用或 证明这些知识。用预先知道且可信的知识来检查和验证所挖掘出的知识,解决可 能存在的矛盾。 3 5 w e b 数据挖掘 3 5 1w e b 数据挖掘的概念 随着科学技术的不断发展,i n t e m e t 上的资源和服务更加丰富多彩,与之伴 随而来的则是海量的数据。由于万维网海量、异质、动态、分布、复杂、开放性 的特点,人们如何从这海量的数据中,查找自己想要的数据和有用信息,迫切需 要一种新的技术能自动从w 曲资源上发现、抽取和过虑信息。因此出现了w 曲 挖掘技术。w 曲挖掘就是从w 曲文档和w 曲活动中发现、抽取感兴趣的潜在的 有用模式和隐藏的信息。它以从w 曲上挖掘有用知识为目标,以数据挖掘、文 2 0 甚于电子商务_ e b 的数据挖掘技术研究 本挖掘、多媒体挖掘为基础,并综合应用人工智能、数据挖掘、计算机网络、数 据库与数据仓库、信息检索、可视化和自然语言处理等技术,将传统的数据挖捌 技术与w e b 结合起来2 “】。w 曲挖掘可在多方面发挥作用,如搜索引擎结构的挖 掘,搜索引擎的开发,改进和提高搜索引擎的质量和效率,确定权威页而7 1 , w e b 文档分类f ”1 ”,w 曲l o g 挖掘“j ,智能查询等。 w e b 上的信息只有很少的一部分是相关的或是有用的。据说9 9 的w e b 信 息相对9 9 的客户是无用的。虽然这看起来不是很明显,但一个人只是关心w e b 上的很少一部分信息确是事实。w 曲所包含的其余信息对客户来说足不感兴趣 的,而且会淹没所希望得到的搜索结果。这些问题已经推动了如何有效地发现利 利用因特网上资源地研究工作。w 曲挖掘是一个更具挑战性地课题。 现在网上顾客的流动性很大,他们关注的主要因素是商品的价值,而不象以 前注意品牌和地理因素。因此,电子商务一个主要的挑战足需要了解到顾客尽可 能多的爱好、价值取向,以保证在电子商务时代的竞争力。数据挖掘可用来发现 不叫显的、有潜在价值的数据。w 曲上数据挖掘的潜力之一在于席用最新的数 据挖掘算法,分析i n t e m e t 服务器上的日志以及顾客、销售和产品的外部数据, 得到有用的知识信息。 在目益激烈的屯子商务买方市场竞争中,任何与消费者行为有关的信息对商 家来说都是非常宝贵的。虽然电子商务网站的后台数据能够记录下来丰富的交易 信息和顾客相关的数据,但是这些数据资源中所蕴涵的大量有益信息至今却未能 得到充分地挖掘和利用。 近年来兴起的数据挖掘技术为解决这个问题带来了一线曙光。通过在w e b 上应用数据挖掘技术( 即w c bm i n i n g 技术) ,可以分析和预测顾客的将来行为。 3 5 2w e b m i n i n g 的类型 w e b 挖 回可以分为w c b 内容挖掘( w e bc o n t e n tm i 血g ) 、w e b 结构挖掘( w e b s 咖c t u f em i n i l l g ) 、w 曲使用记录挖掘( w 曲u s a g em i n i n g ) 三类。如图3 2 所示: 2 l 基于屯子商务k b 的数据挖掘技术研究 图3 2 w 曲挖掘分类图 w 曲内容挖掘,是对w 曲页面进行挖掘,从w e b 数据中发现信息。其具体 做法是,自动的从数以百万计的w 曲站点和在线数据库中搜索和获取信息和资 料。它和搜索引擎非常相似,搜索引擎是采用一种网络爬虫的技术自动的从各个 站点获取信息。通过搜索引擎,我们可以获得很大一部分的w e b 页面内容,但 足,即使当前最好的搜索引擎g o 0 9 1 e ,它也只能搜索到当前w 曲站点l 3 的内容。 我们在对电子商务站点进行数据挖掘的时候是有针对性的,并不是对所有的站点 都进行挖掘。比如说,对易趣网站进行挖掘,其它的电子商务站点或者非电子商 务站点,我们都不感兴趣。由此可见,它和当前流行的搜索引擎是不同的更加 具有引对性,且对数据内容的完整性,完全性有着更加高的要求。所以,尽管人 们可以直接从网上通过抓取建立索引,实现检索服务来获得资源,但是人量的“隐 藏”信息只能通过内容挖掘来自动挖掘。比如说,通过g o o 班e 搜索,建立一系 列超链接的索引,这些索引指向要挖掘的那些页面,但是索引当中包含的仅仅是 一个指针,而指针所指向的页面才是用户的关心的。 w e b 结构挖掘是对w e b 页面之间的结构进行挖掘。在整个w c b 空间,有用 的知识不仅包含在页面的内容之,而且也包含在页面的结构中。w 曲结构挖掘主 要针对的就是页面的超链接结构,如果有较多的超链接指向它,那么该页面就足 重要的,发现的这种知识可以用来改进搜索路径等。 w 曲使用记录挖掘( w 曲使用挖掘) 与w 曲c o n t e n tm i n i l l g 和w 曲s t u c t u r e m i i l i n g 不同的是,w 曲u s a g em i n i n g 的挖掘对象是用户和网络交互过程中抽取 出来的二手数据,这些数据主要是用户在访问w 曲时在w 曲日志里留下的信息, 以及其它一些交互信息,一般包括:访问日期、时间、用户坤地址、服务器口 基于电子商务w e b 的数据挖掘技术础究 地址、方法、所请求u r l 资源、服务器响应状态、用户代理、发送字节等。w e b u s a g em i n i n g 就是对系统日志信息,以及用户的注册数据等进行挖掘,以发现 有用的模式和知识。 通过对电子商务网站应用w 曲u s a g em i n i n g 数据挖掘技术,可以提高站点 的质量,比如,根据实际用户的浏览情况,调整网站网页的连接结构和内容,更 好的访问用户:改善w e b 缓存,缓解网络交通,提高性能:在电子商务巾还可 以捕捉到大量的采购过程的细节,为更加深入的分析提供了可能,比如,把“购 物车”丢弃事件记录卜i 来,经分析至少可知顾客对被丢弃的商品是感兴趣的。 3 6 电子商务中的w 曲使用挖掘过程 w 曲使用挖掘依然遵循数据挖掘的研究思路,挖掘过程分为4 个阶段
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025河南许昌市建安区招聘公益性岗位人员13人模拟试卷及答案详解一套
- 2025嘉兴市保安服务有限公司招聘2人考前自测高频考点模拟试题及答案详解(易错题)
- 2025广东龙川县财政投资评审中心招聘编外人员1人考前自测高频考点模拟试题及1套完整答案详解
- 2025广西右江民族医学院招聘实名编制高层次人才93人模拟试卷含答案详解
- 2025年山东省港口集团有限公司春季校园招聘(183人)模拟试卷及参考答案详解一套
- 2025年甘肃省定西市安定区第二人民医院招聘村卫生所工作人员模拟试卷及答案详解(全优)
- 2025广西柳州市鱼峰公园管理处招聘编外人员4人模拟试卷及答案详解(考点梳理)
- 2025国家民委直属事业单位招聘(48人)模拟试卷及一套完整答案详解
- 2025年齐齐哈尔市富裕县社会保险事业中心公开招聘公益性岗位人员1人模拟试卷及一套参考答案详解
- 2025江苏连云港农业农村局招聘1人模拟试卷及参考答案详解1套
- 2025年陕西、山西、青海、宁夏高考化学试卷真题(含答案解析)
- 光伏发电建设工程质量监督检查大纲(2023版)
- 老人外出免责协议书
- 研究生教材SPSS统计软件应用
- 青春期生殖健康教育
- 2025年BM²T电池管理技术白皮书-阳光电源
- 中医诊所招学徒合同标准文本
- 汉语言文学毕业论文-鲁迅小说中的知识分子形象
- 长期供应商供货合同书
- 如何缓解焦虑和压力
- 垃圾分类志愿服务
评论
0/150
提交评论