(计算机应用技术专业论文)web潜在用户挖掘研究.pdf_第1页
(计算机应用技术专业论文)web潜在用户挖掘研究.pdf_第2页
(计算机应用技术专业论文)web潜在用户挖掘研究.pdf_第3页
(计算机应用技术专业论文)web潜在用户挖掘研究.pdf_第4页
(计算机应用技术专业论文)web潜在用户挖掘研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)web潜在用户挖掘研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得煎j 丝壅些太堂或其它教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论 文中作了明确的说明并表示了谢意。 学位论文作者签名:签字日期: 刀年歹月7 日 关于论文使用授权的说明 本学位论文作者完全了解泣j e 壅些太堂有关保留及使用学位论文的规定,有权 保留并向国家有关部门( 机构) 送交论文的复印件和磁盘,允许论文被查( 借) 阅。 本人授权湮j 量壅些太堂可以将论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或扫描等方法加以保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:镳 签字日期: 功f 年石月7 e t 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名: 参雅 签字日期: 劲7 f 年乡月7 e t 电话: 邮编: 摘要 当前随着通信技术和互联网络的高速发展、市场的不断成熟,世界经济进入了全 球化、电子化的时代。各个企业之间产品和服务的差异越来越小,传统的以生产为中 心以销售产品为目的的市场战略逐渐被以客户为中心以服务为目的的市场战略所取 代。消费者越来越依赖于网络平台进行商品交易,潜在用户的挖掘可以为商家有效的 调整顾客服务策略提供准确的参考信息及科学的决策依据,企业同时也认识到良好客 户关系的提升是成为电子商务时代的制胜法宝,谁能把握客户的需求趋势、加强与客 户的关系、有效挖掘和管理客户资源,谁就能获得市场竞争优势,在日益白热化的市 场竞争中立于不败之地。因此,客户资源成为企业竞争的焦点,如何挖掘出潜在用户、 了解客户的需求趋势,为其提供个性化服务,发展潜在用户成为固定用户,是各大企 业成功的关键。 一 同时,随着人们对海量数据中的知识提取的迫切需求,数据挖掘技术在各个行业 中的应用需求也日趋激烈。本文探讨了数据挖掘技术在网站客户管理中的具体应用, 以利于决策层制定更好的策略,同时以购书网站的潜在用户挖掘为例,探讨数据挖掘 指导思想下的个性化服务流程。 本文研究了数据挖掘算法,对购书网站的用户信息展开分析,以挖掘潜在用户、 为其提供个性化服务、发展潜在用户为目标,从信息获取、数据预处理、判断潜在用 户等几个方面对数据挖掘算法在潜在用户挖掘中的应用展开研究。主要工作如下: 首先,利用用户访问网站路径收集用户样本信息,对用户样本进行特征提取,建 立潜在用户信息特征库。以特征库为标准,对新用户进行特征提取,使用贝叶斯过滤, 对新用户进行分类。 其次,对无法确定的用户信息,提取其特征,使用统计决策树进行判定,提取其 关键属性集,分析样本关键属性。然后,对关键属性符合已有类别条件的样本进行分 类,加入到已有类别或者新类别库里。 最后,以购书网站为背景,设计与实现了基于贝叶斯过滤和统计决策树的潜在用 户挖掘,对购书网站的数据库进行分析,挖掘出潜在用户。实验验证了该方法是有效 的。 关键词:分类算法;用户访问路径;贝叶斯算法:决策树;购书网站 r e s e a r c ho nt h em i n i n go fp o t e n t i a lw e bc u s t o m e r s a u t h o r :d o n g q i a n m a j o r :c o m p u t e ra p p l i e dt e c h n o l o g y s u p e r v i s o r :p r o f e s s o rw a n gk 白i a n p r o f e s s o rh a nx i a n z h o n g a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e ta n dc o m m u n i c a t i o nt e c h n o l o g ya n dt h e g r a d u a lm a t u r i t yo ft h em a r k e t , t h ew o r l de c o n o m yh a sc u r r e n t l y e n t e r e dag l o b a l , e l e c t r o n i ce r a v a r i o u sp r o d u c t sa n ds e r v i c e sa m o n ge n t e r p r i s e sa r es m a l l e ra n dn a l t o w e r s ot h a tt h et r a d i t i o n a lm a r k e ts t r a t e g yw h i c ht a k e st h ep r o d u c t i o na st h ec e n t e ra n ds e l l i n g 嬲t h ep u r p o s eh a sg r a d u a l l yb e e nr e p l a c e db yt h en e wt r e n d , c u s t o m e r - a n d - s e r v i c e - c e n t r i c s t r a t e g y c o n s u m e r sa r ei n c r e a s i n g l yd e p e n d e n to nt h en e t w o r kp l a t f o r mf o rc o m m o d i t y t r a d i n g ;b u s i n e s se l i t e sh a v er e c o g n i z e dt h a te n h a n c i n gg o o dr e l a t i o n s h i p sw i t l lc u s t o m e r s i st h ec r u c i a le l e m e n tt os u c c e s si nt h i se l e c t r o n i cc o m m e r c i a la g e t h a tm e a n sw h o e v e ri s a b l et og r a s pt h ec u s t o m e rd e m a n dt r e n d s ,s t r e n g t h e nt h er e l a t i o n s h i p sw i t hc u s t o m e r , a n d e f f e c t i v e l yd e v e l o pi d e n t i f ya n dm a n a g ec u s t o m e rr e s o u r c e sw i l lw i nt h i si n c r e a s i n g l y i n t e n s ec o m p e t i t i o n t h e r e f o r e , p o t e n t i a lc u s t o m e re x p l o i t a t i o nw i l lp r o v i d ea c c u r a t e r e f e r e n c ei n f o r m a t i o na n ds c i e n t i f i cd a t ab a s i s f o rt h eb u s i n e s st oa d j u s ti t sc u s t o m e r s e r v i c es t r a t e g ya n de f f e c t i v e l ym a k ed e c i s i o n s c u s t o m e rr e s o u r c e sh a v en a t u r a l l yb e c o m e t h ec o m p e t i t i v ef o c u s ,t h u sd i g g i n go u tt h ec u s t o m e r s d e m a n dt r e n d sa n dp r o v i d et h e m w i t ht h ep e r s o n a l i z e ds e r v i c ec o m et ot h et a r g e to fe n t e r p r i s e s m e a n w h i l e ,嬲p e o p l en e e dt oe x t r a c tt h ei n f o r m a t i o na n dk n o w l e d g ef r o mt h eh u g e a m o u n t so fd a t au r g e n t l y , d a t am i n i n gt e c h n o l o g yi nv a r i o u si n d u s t r i a la p p l i c a t i o n sa r e b e c o m i n gi n c r e a s i n g l yf i e r c e t h i sa r t i c l ei st r y i n gt oo b t a i nt h es p e c i f i ca p p l i c a t i o n so f d a t a e x p l o r i n gt e c h n i q u e s t ot h ew e b s i t e sc u s t o m e r m a n a g e m e n t t of a c i l i t a t e d e c i s i o n - m a k i n gp e o p l et od e v e l o pb e t t e rs t r a t e g i e s ;a t t h es a m et i m e ,t a k i n gt h e e x p l o r a t i o no fp o t e n t i a lu s e r so ft h eb o o ks a l ew e b s i t e sf o re x a m p l e ,t h i sp a p e ri sg o i n gt o i n v e s t i g a t e t h e p e r s o n a l i z e d s e r v i c e p r o c e s s e sg u i d e db yt h ei d e o l o g yo ft h e d a t a e x p l o r a t i o n a c c o r d i n gt ot h ep r i n c i p l eo fd a t am i n i n ga l g o r i t h m ,t h i sp a p e rw i l ld i s c u s sa n d r e s e a r c ht h eb o o k ss a l ew e b s i t e s ,t a r g e t i n gt od i go u tp o t e n t i a lc u s t o m e r s ,p r o v i d et h e m w i t hp e r s o n a l i z e ds e r v i c ea n de x p a n dt h en u m b e ro ft h ec u s t o m e r s t h i sr e s e a r c hm a i n l y i n c l u d e sa s p e c t so fi n f o r m a t i o na c q u i s i t i o n ,d a t ap r e p r o c e s s i n g , 舔w e l la sd e c i s i o n - m a k i n g i nt e r m so fp o t e n t i a lu s e r sa n de t c t h ef o l l o w i n g sa r et h ep r i m a r yt a s k s : f i r s t ,u s i n gt h eu s e ra c c e s sp a t h st oc o l l e c ts a m p l ei n f o r m a t i o no ft h en e ww e b s i t e c u s t o m e r s ;b u i l d i n gt h ep o t e n t i a lf e a t u r ec a t e g o r ya f t e re x t r a c t i n gt h e i rc o m m o nf e a t u r e s ; s u m m a r i z i n gt h ec h a r a c t e r i s t i c so ft h es a m p l e sa c c o r d i n gt ot h en e wc u s t o m e r s f e a t u r e c a t e g o r y ;m a k i n g t h ec l a s s i f i c a t i o n sb y b a y e s i a n s e c o n d ,a sf o rt h eu n i d e n t i f i e dc u s t o m e ri n f o r m a t i o n , t a k i n gi t st r a i t s ,、) i ,i t l lt h eh e l po f t h es t a t i s t i c a ld e c i s i o nt r e e ,d r a w i n gi t sc r i t i c a la t t r i b u t e ,a n a l y z i n gt h ek e ya t t r i b u t e so ft h e s a m p l ea n dt h e na d d i n gt h o s ew h o s ef e a t u r e sa l em e e t i n gt h ec o n d i t i o n st ot h ee x i s t i n g c a t e g o r i e sa n dt h o s en o tt on e wc a t e g o r i e s f i n a l l y , t h et e x t b o o kw e b s i t eb a c k g r o u n d ,d e s i g na n di m p l e m e n t a t i o no fas t a t i s t i c a l d e c i s i o nt r e eb a s e do nb a y e s i a nf i l t e r i n ga n dp o t e n t i a lu s e r so fe x c a v a t i o n , t h es i t eo ft h e t e x t b o o ka n a l y s i so ft h ed a t a b a s e ,a n dt a pt h ep o t e n t i a lu s e r s e x p e r i m e n t ss h o wt h a tt h e m e t h o di se f f e c t i v e k e y w o r d s :c l a s s i f i c a t i o na l g o r i t h m ;u s e ra c c e s sp a t h s ;b a y e s i a n ;d e c i s i o nt r e e ;t e x t b o o k w e b s i t e 2 2 3w r e b 数据挖掘的相关理论7 2 3 1w e b 数据挖掘的特征7 2 3 2w 曲数据挖掘分类。8 2 4w 曲数据挖掘技术在客户关系管理中的应用9 2 4 1w 曲数据挖掘技术在客户关系管理中的应用9 2 4 2w 曲数据挖掘在电子商务中的应用一l o 2 5 数据挖掘中潜在用户的相关理论1 l 2 5 1 什么是潜在用户l l 2 5 2 如何挖掘潜在用户1 2 2 6 本章小结1 4 3 潜在用户信息获取。1 5 3 1 寻找潜在用户数据信息。1 5 3 2 潜在用户信息的获取方法。1 5 3 3 潜在用户访问路径的获取1 6 3 3 1 数据净化1 6 3 3 2 用户识别1 6 3 3 3 会话识别1 7 3 3 4 路径补充1 7 3 4 本章小结1 8 4 购书网站中的潜在用户挖掘:1 9 4 1 潜在用户挖掘算法1 9 4 2 分类算法的基本原理。2 0 4 2 1 分类算法基本原理2 0 4 2 2 分类算法评价2 1 4 3 基于贝叶斯过滤的购书网站潜在用户挖掘2 3 4 3 1 贝叶斯算法2 3 4 3 2 基于贝叶斯算法的潜在用户挖掘流程2 4 4 3 3 潜在用户挖掘实例分析2 4 4 4 基于决策树购书网站潜在用户二次挖掘3 0 4 4 1 决策树算法基本原理3 0 4 4 2 基于决策树的潜在用户挖掘实例分析3 3 4 5 本章小结3 6 5 潜在用户挖掘方法在购书网站中的设计与实现3 7 5 1 购书网站的设计与实现3 7 5 1 1 数据库的设计3 7 5 1 2 数据访问层的设计与实现3 8 5 2 系统实现效果:3 9 5 3 本章小结4 l 6 总结与展望4 2 6 1 总结。4 2 6 2 展望。:4 2 参考文献4 3 在读期间发表的论文4 6 作者简介4 7 致谢4 8 w e b 潜在用户挖掘研究 1 引言 当前信息时代发展迅猛,网上书店作为方便用户购书也随之发展起来,网上书店 对每位顾客大都采取同样的推销策略,在服务成本加大,而收效甚微的前提下,商家 面临着拓宽客户的问题,挖掘潜在顾客群体,为网站经营者在激烈的市场竞争中洞察 先机、调整有效的顾客服务策略,提供了准确的参考信息及科学的决策依据,最终达 到识别潜在顾客、拉拢新顾客、真正做到以顾客价值为中心,全方位为其提供整体服 务,从而提升品牌、促进消费,在总体上减少商业成本并增加利润。 1 1 研究背景及意义 w e b 信息处理,通过处理相关的w 曲日志记录,来发现用户访问w e b 页面的模式, 通过分析日志记录中的规律,来识别用户的忠实度、喜好、满意度,以发现潜在用户, 增强站点的服务竞争力i l 】。w 曲信息资源、信息服务的数量和复杂度都以惊人的速度 增长,一个站点能否吸引访问者,能否成功地引导访问者获得有用的、恰到好处的信 息,成为这个站点是否能够成功的关键。这使得w e b 个性化成为w e b 组织者和终端用 户所必需的工具。w e b 信息处理是解决这一问题的有效手段,通过对用户浏览网站的 使用数据收集、分析和处理,建立用户行为和兴趣模型,这些模型可以帮助理解用户 行为,改进站点结构以及为用户提供良好的个性化推荐。因此,w e b 使用信息处理有 着广泛的应用。 随着i n t e m e t 的快速发展,越来越多的企业、政府、学校等组织建立了网站,通过 网站来进行产品和服务的营销,信息的发布、事务的处理,在线教学等。w e b 使用记 录数据除了服务器的日志记录外还包括代理服务器同志、浏览器端日志、注册信息、 用户会话信息、交易信息、c o o k i e 中的信息、用户查询、鼠标点击流等一切用户与站 点之间可能的交互记录。w e b 使用记录的数据量是非常巨大的,而且数据类型也相当 丰富。随着这些网站的运行,用户的访问,网站的管理者非常希望知道用户的访问模 式,例如用户的兴趣、习惯、来源等,根据这些信息来制定企业的经营战略、政府的 管理方针、学校的教学方式,以调整网站的结构,完善网页信息,从而满足用户的需 要。w e b 信息处理能从用户访问时留下的服务器同志、注册信息以及其他相关信息 中挖掘出用户访问模式,为组织决策提供依据屯 以电子商务为代表的信息经济,呈现出一种崭新的运作方式,它带来的不仅是一 种手段,而且触发了企业组织架构、工作流程的重组,直接影响企业竞争能力,改变 企业的管理和运营模式,导致整个社会管理思想的变革。企业管理思想经历了产值中 心论、销售中心论、利润中心论,目前j 下顺应互联网发展迈向客户中心论。管理思想 决定管理战略、理念,互联网时代的顾客中心理论决定了企业管理由此进入了以顾客 为中心的管理,企业开始从内部挖掘转向争取顾客,顾客地位被提升到了前所未有的 这也是统计学类型的数据挖掘技术,是目前数据挖掘技术中最为成熟的重要原因之 一 1 2 国内外研究现状 为了解决将数据挖掘技术集成到商业信息技术应用环境中的问题,国内外学者已 经作了许多有意义的探索与实践,某些方案在实际项目的应用中已相对成熟,但也存 在着一定的局限性。现对国内外几类常见数据挖掘技术的解决方案及其局限性进行了 分析与总结: 国外在数据挖掘领域中的研究内容十分广泛,已经取得了明显的成果,如h a a l a n df u y 【2 1 。等人对于定量关联规则以及其他种类关联规则的发现研究,r i c h a r ds s e g a l l 等人【3 】针对大型数据库快速分类算法的研究,o w e n a b 【4 】对分类与回归的管状 邻域研究,m a g d a l i n ie i r i n a k i 【5 】对数据挖掘中顾客个性化服务进行了研究,以及对聚 类规则的研究、数据泛化、简约和特征提取研究等。p e r k o w i t z 等人【6 】提供了一个称为 2 w e b 潜在用户挖掘研究 、 : “p a g e g a t h e r ”的工具,使用用户组的规则聚集w e b 页面并向其认为有共同兴趣的同 一组中的用户提供聚集的页面,但它不关心这些用户如何浏览这些页面。关于面向 w e b 日志挖掘用户行为及潜在顾客信息的研究中,d s w n g u 和x w u 等人【_ 7 】也研究 了s i t e h e l p e r 系统,其主要方法是使用信息提取的方法提取页面信息,并且结合用户 访问历史、用户个人资料提供的线索,向用户动态推荐访问的页面,缺点是涉及了比 较敏感的用户个人隐私问题。文献 8 】根据用户的查询与目标页面的并发关系,分析 聚类用户的存取事务,发现用户的个性化搜索模式,对其所需服务进行主动定制。 国内在数据挖掘领域的研究发现,其包括三个过程,即数据预处理、模式识别及 模式分析1 9 。文献【1 0 】引入b o o s t i n g 思想的改进的决策树算法用于挖掘预测潜在客户 群,此方法对每个实例赋予一个权重,权重越大的实例对分类学习的影响就越大,每 次试验,权重矢量都进行调整来反映相应的分类器的性能。该方法平均降低了改进前 的决策树算法的错误率,提高了测试数据集的性能,生成强分类器,提高分类器的准 确率。文献 1 1 】 1 2 提出了一种改进型f u z z y a r t 方法可以自动追踪并记录用户在电 子商务网站上的行为模式,并能够用自适应的神经网络对这些行为模式进行分类,最 终得到顾客的分类模式,挖掘出潜在用户。文献 1 3 1 使用了基于模型的s o m ( 自组织 特征映射) 神经网络的聚类方法,通过此网络帮助市场分析人员对消费者的消费记录 进行分析,概括出每一类消费者的消费模式,实现对消费群体的区分和对潜在用户的 挖掘。将s o m 运用于聚类操作可以较好地进行对潜在客户的挖掘工作,将拥有相似 属性的客户聚类到一起,便于挖掘潜在用户,但s o m 网络最大局限性是当学习模式 较少时,网络的聚类效果取决于输入模式的先后顺序,而且网络连接权向量的初始状 态对网络的收敛性能有很大影响。孔裂1 4 】采用c a r t 算法建立模型,将模型数据进 行分类,生成单分类器模型,然后利用该分类器对预测数据进行预测,挖掘出潜在用 户。c a r t 算法模型采用非参数估计的形式,在计算的过程中自动选取变量,避免了 事先选好变量可能带来的一些主观因素的影响。实际应用中的变量个数可以很多。 c a r t 算法建立的模型稳定性较差,用类似研究资料建立的树型模型往往存在差异。 文献【1 5 】提出利用数据挖掘中的分类方法,根据已有用户的访问信息,训练分类器, 其贡献在于能够量化地推断匿名用户的访问特性;其不足在于访问特性本身需要人工 定义,存在着缺漏。郭新涛等人【i6 】提出了一种新的支持站点设计优化的w e b 使用挖 掘方案,该方案基于w e b 日志中的搜寻路径统计用户寻找目标花费的平均时间,用 以量化w e b 页面的搜寻费用,在此基础上提出了一种数据挖掘方法,寻找一组能够 有效压缩搜寻路径( 降低时间费用) 的超链接,以便挖掘用户。 综上所述,国内外在w e b 数据挖掘和潜在用户挖掘中取得了很大的成果,基于 不同的算法也相应的有不同的缺陷,本论文从算法应用的简单性和有效性入手,使用 贝叶斯算法融合决策树算法对网站潜在用户进行了挖掘。 3 河北农业大学硕士学位( 毕业) 论文 1 3 本文的研究内容 基于上述问题,本文利用数据挖掘中贝叶斯分类技术和决策树算法来研究网上书 店中的有关挖掘潜在用户的问题。一般的网站需要用户注册,以更好的了解用户的信 息,方便对这些注册用户开展有针对性的营销策略,但还啊卜大部分用户为匿名用户, 网站数据仓库中没有这些匿名用户的基本信息,对挖掘这些用户的购物行为比较不容 易掌握,匿名交易虽然不会让数据挖掘者掌握太多个别顾客的信息,但确实可用来研 究某类重要顾客的消费习惯;本文以浏览购书网站的匿名用户为对象,在挖掘潜在用 户时,首先提取用户浏览特征,生成用户特征库,通过数据挖掘中的贝叶斯分类技术 生成对当前特征数据库有价值的用户分类模型,并对模型进行适当地分析,找出匿名 用户与各种因素之间隐藏的内在联系等有价值的信息,利用分类模型对新浏览用户进 行分类,将无法分类的用户使用统计决策树进行判定,使其得到正确分类,有助于发 掘潜在用户,对其进行个性化服务,进一步提高网店效益。 1 4 论文的组织结构 本文的组织结构如下: 第l 章引言。主要论述了w e b 潜在用户挖掘的研究背景和意义,并对国内外 w e b 潜在用户挖掘的研究现状进行了分析和总结,介绍了本文的研究内容及论文的组 织结构。 第2 章数据挖掘技术及相关理论基础。首先介绍了数据挖掘技术的技术定义与 商业定义以及w e b 数据挖掘相关理论,具体包括w e b 数据挖掘的特征及分类,然后 重点讨论了数据挖掘技术在c r m 及电子商务中的应用,以及如何挖掘潜在用户。 第3 章潜在用户信息获取。介绍了如何寻找潜在用户数据信息、分析了潜在用 户信息的获取方法以及潜在用户访问路径的形成。 第4 章潜在用户信息挖掘在购书网站中的应用。分析了潜在用户信息特征数据 库,在分类算法基本原理的基础上,确定挖掘潜在用户方案,提出了使用贝叶斯分类 算法融合决策树分类算法对购书网站进行潜在用户挖掘,生成分类模型,对两种算法 的具体实现情况加以阐述的同时,给出了主要部分的算法和流程图。 第5 章潜在用户挖掘方法在购书网站中的设计与实现。对购书网站中潜在用户 挖掘算法进行具体实现,在实现过程中对相关知识进行了研究和描述,给出了程序实 现的关键性代码或流程。 第6 章总结与展望。对本文工作做出总结,并对下一步工作做出计划。 4 w e b 潜在用户挖掘研究 2 数据挖掘技术及相关理论基础 2 1 数据挖掘的技术定义与商业定义 f r i e d m a nj h 在技术报告 d a t am i n i n ga n ds t a t i s t i c s :w h a ti st h ec o n n e c t i o n ? 【l 7 】中总结出了多家关于数据挖掘的定义: f a y y a d 提出数据挖掘是一个确定数据中有效的、新颖的、潜在有用的,以及最 终可理解的模式的非平凡过程。 z d m l i n 的说法是数据挖掘是一个从大型数据库中提取以前未知的、可理解的、 可执行的信息,并用它来进行关键的商业决策的过程。 fe :r m z z a 给出数据挖掘是用在知识发现过程,来辨识存在于数据中的未知关系和 模式的一些方法。 j o n n 提到数据挖掘是发现数据中有益模式的过程。 p a r s a y e 定义数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决 策支持过程。 上述定义方式虽然不同,但从各自的角度描述出了对数据挖掘的理解。下面我们 主要从技术和商业的角度给出数据挖掘的定义。 2 1 1 数据挖掘的技术定义 从技术的角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机 的实际应用数据中,提取隐含在其中的、人们事先不了解的、但又是潜在有用的信息 和知识的过程。从技术方面数据挖掘的定义包括以下几层含义:数据源必须是真实的、 大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要容易接受、容易理解、 容易运用;这些用户知识是相对的,是有特定前提和约束条件的,在特定领域中具有 实际应用价值。 数据挖掘是- f l 交叉学科,它把人们对数据的应用从低层次的简单查询,提升到 从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了数据库技术、人工智 能技术、数理统计、可视化技术、并行计算等不同领域的研究者和工程技术人员投身 到数据挖掘这一新兴的研究领域,形成新的技术热点。 2 1 2 数据挖掘的商业定义 从商业应用角度看,数据挖掘是一种新的商业信息处理技术。其主要特点是对商 业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助 商业决策的关键性知识,即从一个数据库中自动发现相关商业模式。多年来,统计学 家就开始手工挖掘数据库,从数据库中寻找符合统计学规律的有意义的模式。因此统 5 河北农业大学硕士学位( 毕业) 论文 计学类型的数据挖掘技术,是目前数据挖掘技术中最为成熟的重要原因之一。 数据挖掘是利用统计学和机器学习等技术,探求符合市场、客户行为的模式。现 在数据挖掘已经能够使挖掘技术自动化,将数据挖掘与商业数据仓库相结合,将挖掘 结果以适当的形式展示给企业经营管理人员。对于数据挖掘的应用在与依靠良好的算 法建立模型,重要的是解决如何将数据挖掘技术集成到信息技术应用环境中。 总之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年 的历史,只是在过去数据收集和分析的目的更多是用于科学研究,另外,由于当时计 算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现如今,各 行业业务自动化的广泛实现,导致了商业领域产生了大量的业务数据,这些数据不再 是为了分析的目的而搜集的,而是由于业务处理操作而获取和积累的。分析这些数据 也不再是单纯为了科学研究的需要,更主要是为商家提供有价值的决策信息,挖掘出 有利于商家发展的有价值的信息,进而获得利润。但所有企业面临的一个共同问题是: 企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层 分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,所以研究 数据挖掘在商业中的应用问题已成为当前的重中之重。 数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析, 揭示隐藏的、未知的或验证已知的规律性,且进一步将其模型化的数据处理方法。图 2 1 为典型的数据挖掘系统结构【l 引。 6 图2 1 典型数据挖掘系统结构 f i g 2 一lt ,伽c a ld a t am i n i n gs y s t e m w e b 潜在用户挖掘研究 2 2 数据挖掘任务 数据挖掘是从大量的业务数据中抽取潜在知识的过程,在进行数据挖掘时,主要 的任务是使用关联分析、时序模式、分类、聚类、偏差分析以及预测等【1 9 2 0 1 进行数据 分析,分析出数据间的潜在知识,得到有用的知识。其具体在数据挖掘中的任务有: 关联分析:如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通 过其他事物进行预测,其目的是为了挖掘隐藏在数据问的相互关系。例如,买电脑的 顾客同时会买某种软件,这就是一条关联规则。在数据挖掘的基本任务中关联和顺序 序列模型关联分析是指搜索事务数据库中的所有细节或事务,从中寻找重复出现概率 很高的模式或规则。 时序模式:在许多现实数据库中,数据常常与时间密切相关,对象的属性值可能 会随时间的变化而改变,为了进行预测,通过时间序列搜索出重复发生概率较高的模 式,挖掘出时序模式。例如,购买了激光打印机的客户中,半年后8 0 的人会买新的 硒鼓。 分类:找出一个类别的概念描述,它代表了这类数据占勺整体信息。分类数据挖掘 中应用最多的任务。 聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚 类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相 似,与其他非同一簇中的对象相异。 偏差分析:数据挖掘中,偏差分析是探测数据现状、历史记录或标准之间的显著 变化和偏离,偏差包括很大一类潜在的有趣知识。即从数据库中找出异常数据。如观 测结果与期望的偏离、分类中的反常实例、模式的例外等。例如,金融欺诈,洗黑钱。 预n - 利用历史数据找出规律,建立模型,并用此模型预测未来数据的种类、特 征等。 2 3w e b 数据挖掘的相关理论 w e b 数据挖掘就是从w e b 文件和w e b 活动中筛选感兴趣的潜在的有用模式和隐 藏的信息。 2 3 1w e b 数据挖掘的特征 w 曲数据挖掘具有以下特性【2 i 】: 1 数据收集容易且不引人注意,所谓儿走过必定留下痕迹,当访客进入网站后 的一切浏览行为与历程都是可以立即被纪录的; 2 以交互式个人化服务为终极目标,除了因应不同访客呈现出的专属设计的网 页之外,不同的访客也会有不同的服务; 7 河北农业大学硕士学位( 毕业) 论文 3 可整合外部来源数据使分析功能发挥地更深更广,除了l o gf i l e 、c o o k i e s 、 会员填表数据、线上调查数据、线上交易数据等由网络直接取得的资源外,结合实体 世界累积时间更久、范围更广的资源,将使分析的结果更准确也更深入。 利用d a t am i n i n g 技术建立更深入的访客数据剖析,并赖以架构精准的预测模式, 以期呈现真正智能型个人化的网络服务,是w e b 挖掘努力的方向。 2 3 2w e b 数据挖掘分类 。 w e b 挖掘可以在很多方面发挥功能,如对查找引擎的结构进行挖掘、确定权威页 面、w e b 文件分类、智能型查询、建立m e t a - w e b 数据仓库、提供用户浏览模式等。 针对不同的功能,往往是通过对w e b 数据中特定的一些数据进行挖掘出知识来实现 的。因此,w e b 挖掘的分类也是通过对数据资源的分类来实现的瞄j 。 1 w e b 数据资源 当人们进入一个网站时首先看到的应当是图片或者文字,或许有人对音乐或者影 片更感兴趣,不过在一次浏览中所看到的信息却不完成这次浏览的所有信息,用户看 到或者听到的只是网页上的内容,还有其他的诸如网站的组织结构,各种标记,以及 用户自己的登录信息,都不是通过浏览器能轻易看到的。按照资源的显示方式和内容 不同,可以将网络资源分成四类: ( 1 ) 就是通常网页上的内容,如文字,图片,声音,影片等; ( 2 ) 结构,就是描述网站和网页的内容组织结构的数据。包括各h t m l 或x m l 标记及其出现的序列等,其中的主要结构信息是网页之间的超链接属性; ( 3 ) 使用数据,是网页被人浏览的记录,如1 p 地址、访问时间等,这些信息可以 从w e b 服务器的日志文件获得; ( 4 ) 用户资料,是某个网站中记录的用户资料。 2 w 曲数据挖掘的分类 对应w e b 数据资源的分类,w e b 数据挖掘可以分为三类w e b 内容挖掘,w e b 结 构挖掘和w e b 使用挖掘【2 1 2 3 1 。前两种挖掘的对象分别对应第一、二种数据资源,而 w e b 使用挖掘则是针对第三和第四种数据资源,因为该类挖掘主要目的是优化对用户 的服务,这种数据挖掘的结果直接为“挖掘出潜在用户对其提供个性化自适应网站服 务 ,这也正是本文重点研究的问题。 ( 1 ) w e b 内容( c o n t e n t ) 挖掘 主要是从w e b 文档的内容中抽取出知识。由于w e b 文档的绝大部分内容是以文 本的形式存在,所以w e b 内容挖掘主要针对的是w e b 文档的文本部分。文本挖掘主 要包括了对w 曲文档文本的总结、分类、聚类、关联分析等。除了文本挖掘以外, w e b 内容挖掘还有针对除了文本以外的其他类型媒体如音频、视频、图片等的挖掘。 ( 2 ) w 曲结构( s t r u c t u r e ) 挖掘 主要指的是通过对w e b 文档的内部结构和文档之间的组织结构获耿有用的模式。 w e b 页面包含的不仅仅是页面的文本内容,同时还有一页到另一页的超链接,超链接 8 w e b 潜在用户挖掘研究 结构包含了大量的注释,通过挖掘这些结构信息,可以更加精确地理解w e b 内容的 相关性及质量。另外,w 曲结构还包含个网页内部的可以用h t m l ,x m l 表示 成的树形结构,以及文档u r l 中的目录路径结构等。通过挖掘w e b 的结构信息,可 以揭示许多蕴涵在w 曲内容之外的隐含的有用信息。结构挖掘的一个重要应用是在 搜索上。对w e b 的链接结构进行分析,以对超链接分析来评估基础w e b 资源,从而 发现有用模式,提高搜索质量。 ( 3 ) w e b 使用( u s a g e ) 挖掘 w _ b 使用挖掘又叫w e b 日志挖掘,主要是通过对用户在访问w w w 服务器时留 下的访问记录进行挖掘,从而获得有关用户的访问模式。挖掘的对象主要是在服务器 上的日志信息。w w w 服务器的日志文件中记录了用户的访问记录,通过对这些数 据的分析,获取有关用户的行为模式。 在这几类挖掘中,各类挖掘不一定都是孤立的使用,常常是结合几种挖掘的结果 共同实现一个目标。比如在“个性化自适应网站”中,主要使用w e b 日志挖掘来获 取用户的浏览模式,但在获取用户最大向前访问路径时同时也需要w e b 结构挖掘来 补充路径,在推荐页面的时候,也需要w e b 内容挖掘来优化内容的输出。 2 4w r e b 数据挖掘技术在客户关系管理中的应用 2 4 1w e b 数据挖掘技术在客户关系管理中的应用 根据数据挖掘所能够完成的任务,数据挖掘的技术可以应用到以客户为中心的企 业决策分析和管理的各个不同领域和阶段。在客户关系管理中,它可以应用到以下几 个方面【2 4 ,2 5 】: 1 客户获取 客户获取的传统方式一般是通过大量的媒体广告、散发传单等方式吸引新客户。 这种方式涉及面过广,但不能做到有的放矢,而且企业投入太大。数据挖掘技术可以 从以往的市场活动中收集到的有用数据,主要是指潜在客户反应模式分类建立数据挖 掘模型。企业因此能够了解真f 的潜在客户的特征分类,从而在以后的市场活动中做 到有的放矢而不是传统的凭经验的猜想。 2 客户群体分类分析 近年来,特别是在电子商务环境下一对一营销j 下在受到企业的青睐,一对一营销 是指了解每一个客户,并同其建立起持久的关系。这意味着企业要了解每一个客户, 并同其建立起持久的关系。利用数据挖掘技术可对大量的客户分类,提供针对性的产 品和服务,来提高不同类别客户对企业和产品的满

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论