(管理科学与工程专业论文)web数据挖掘在电子商务中的应用研究.pdf_第1页
(管理科学与工程专业论文)web数据挖掘在电子商务中的应用研究.pdf_第2页
(管理科学与工程专业论文)web数据挖掘在电子商务中的应用研究.pdf_第3页
(管理科学与工程专业论文)web数据挖掘在电子商务中的应用研究.pdf_第4页
(管理科学与工程专业论文)web数据挖掘在电子商务中的应用研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(管理科学与工程专业论文)web数据挖掘在电子商务中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要:随着i n t e m e t 的迅速发展和普及,一种新型的商务模式电子商务的 发展越来越引起研究者们的关注,人们希望充分利用其优点,获得更多的经济效 益。将数据挖掘的思想和方法应用到电子商务中,帮助电子商务网站从海量信息 中获得真正有价值的知识,以指导企业决策、为电子商务网站的客户提供更方便 的服务成为现在研究的一个热点问题。 数据挖掘是随着数据库技术的发展出现的一种全新的信息技术,它融合了数 据库、人工智能以及统计学等多种学科的知识,通过对历史积累的大量数据的有 效挖掘,试图从这些数据中提取出先前未知、有效和有用的知识。 本文在对数据挖掘和w e b 挖掘的相关概念和功能特点进行详细综述的基础上, 进一步研究了w e b 数据挖掘的主要挖掘方式和具体实现形式;然后探讨了电子商务 及个性化推荐系统的定义、分类、特点及数据挖掘技术在其中应用的特点等问题; 在以上工作的基础上,本文设计了一个面向w e b 数据挖掘技术的电子商务平台,同 时构建了基于w e b 使用挖掘的个性化服务推荐系统。本系统通过对w e b 服务器同志 数据的挖掘,获得用户聚类和浏览模式,为不同类用户提供个性化服务。在对个 性化服务推荐系统的描述中引入了关联规则的a p r i o r i 算法和聚类分析的k m e a n s 算 法,通过对数据顸处理、数据挖掘、推荐模型等一系列问题的解决,研究数据挖 掘技术在电子商务中实现的过程,实现个性化服务推荐。最后,给出了本文的总 结及对今后工作的展望。 关键词:数据挖掘;w e b 挖掘;电子商务;个性化推荐系统 分类号: a b ,s t r a c t :w i t ht h ed e v e l o p m e n ta n dp o p u l a r i z a t i o no ft h ei n t e r a c t , t h e d e v e l o p m e n to fe - c o m m e r c e - 一一an e wt y p eo fb u s i n e s sm o d e h a sd r a w nm o r ea n d m o r ea t t e n t i o nf r o mt h er e s e a r c h e r s p e o p l eh o p et oo b t a i nm o r ee c o n o m i cb e n e f i t sb y m a k i n gf u l lu s eo ft h ea d v a n t a g e so fe c o m m e r c e i th a sb e c o m eah o tt o p i ct oa p p l yt h e t h o u g h ta n dm e t h o do fd a t am i n i n gt oe - c o m m e r c et oh e l pt h ew e b s i t eg e tr e a lv a l u a b l e k n o w l e d g ef r o mah u g ea m o u n to fi n f o r m a t i o na n dt h e ng i v ei n s t r u c t i o no ne n t e r p r i s e s d e c i s i o na n dp r o v i d em o r ec o n v e n i e n ts e r v i c e st ot h eu s e r so fc - c o m m e r c ew e b s i t e a sab r a n d n e wi n f o r m a t i o nt e c h n o l o g yw h i c hc a m ef o r t hw i t ht h ed e v e l o p m e n to fd a t a t e c h n o l o g yi nr e c e n ty e a r s ,d a t a m i n i n gc o m b i n e sm u l t i d i s c i p l i n a r yk n o w l e d g es u c ha s d a t a ,a r t i f i c i a li n t e l l i g e n c e a n d s t a t i s t i c s t h r o u g hm i n i n gt h eh u g eh i s t o r i c a l l y a c c u m u l a t e dd a t a ,i tt r i e st oe x t r a c tu n k n o w n ,e f f e c t i v ea n du s e f u ik n o w l e d g et h e r e f r o m o nt h eb a s i so fs u m m a r i z i n gt h er e l a t e dc o n c e p t sa n df u n c t i o n so fd a t a m i n i n ga n d w e b m i n i n g , t h i sp a p e rf u r t h e rs t u d i e st h em a j o rm i n i n gw a y sa n ds p e c i f i cr e a l i z i n g m e t h o d s ;t h e ni tp r o b e si n t oe - c o m m e r c ea n dt h ed e f i n i t i o n ,c l a s s i f i c a t i o na n df e a t u r e s o fi n d i v i d u a l i z e dr e c o m m e n d a t i o ns y s t e ma sw e l la st h ef e a t u r e so ft h ea p p l i c a t i o no f d a t a m i n i n gt e c h n o l o g y ;b a s e do nt h ea b o v es t u d y , t h i sp a p e rd e s i g n sa ne c o m m e r c e p l a t f o r mf a c i n gt ot h ew e bd a t a - m i n i n gt e c h n o l o g ya n dc o n s t r u c t sa ni n d i v i d u a l i z e d s e r v i c er e c o m m e n d a t i o ns y s t e mb a s i n go nw e bu s i n g t h r o u g hm i n i n gt h ed a t ao fw e b s e r v e rl o g ,t h i ss y s t e mc a no b t a i nu s e r s c l u s t e r i n ga n db r o w s i n gm o d et h u sc a np r o v i d e i n d i v i d u a l i z e ds e r v i c e sf o rd i f f e r e n tk i n d so fu s e r s a p r i o r ia r i t h m e t i co fa s s o c i a t i o n r u l e sa n dk m e a n so f c l u s t e r i n ga n a l y z ea r eb r o u g h ti n w h e n d e s c r i b i n g t h e i n d i v i d u a l i z e ds e r v i c er e c o m m e n d a t i o ns y s t e m i ts t u d i e so nt h ep r o c e s so fr e a l i z a t i o n o fd a t a - m i n i n gi ne - c o m m e r c et om a k et h ei n d i v i d u a l i z e ds e r v i c er e c o m m e n d a t i o n c o m et r u eb ys o l v i n gas e r i e so fp r o b l e m sl i k ed a t ap r e t r e a t m e n t ,d a t a m i n i n ga n d r e c o m m e n d a t i o nm o d e f i n a l l yc o m et h ec o n c l u s i o na n dt h eo u t l o o ko nt h ef u t u r ew o r k k e y w o r d s :d a t a m i n i n g ,w e bm i n i n g ,e c o m m e r c e ,i n d i v i d u a l i z e dr e c o m m e n d a t i o n s y s t e m c l a s s n 0 : 学位论文版权使用授权书 本学1 1 = 论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交 通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫 描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印 件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 一躲问硝、 签字日期:五蕊年6 月j 日 导师签名: 签字日期:知喝年石月日 , 它 l - - 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:i 夏右 签字日期:加年多月日 致谢 本论文的工作是在我的导师张真继教授的悉心指导下完成的,张真继教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来 张真继老师对我的关心和指导。 研究生期间,常丹老师、姚家奕老师以及信息管理系的其他老师悉心指导我 完成了实验室的科研工作,在学习上和生活上都给予了我很大的关心和帮助,在 此向各位老师表示衷心的谢意。 在实验室工作及撰写论文期间,关晓兰、孔垂云、邹萍等同学对我论文中的 部分理论研究工作给予了热情帮助,在此向他们表达我的感激之情。 另外也感谢家人和朋友,他们的理解和支持使我能够在学校专心完成我的学 、i k 。 1 引言 1 1 研究背景 随着计算机网络技术的快速发展、i n t e r n e t 在全球的普及,使得网络上的信息 量空前丰富,越来越多的机构和个人在网络上发布、查找信息,网络已成为人们 获得信息的必要途径和重要手段。人们通过网络传递信息、收发邮件、收看电视 等,企业通过网络进行商务活动,这就是电子商务。电子商务是指个人或企业通 过i n t e m e t 网络,采用数字化电子方式进行商务数据交换和丌展商务业务的活动。 电子商务与传统商务相比具有很大的优势,灵活性、方便性和快捷性的特点使其 迅速发展,成为现今国际经济领域活动中的主要角色,并且是许多专家学者研究 的热点问题。 数据挖掘( d a t am i n i n g ,简称d m ) ,也称知识发现,是从海量数据中提取有价 值的知识的工具,被描述为从数据中抽取出隐含的、具有潜在用途的、人类可理 解的模式。数据挖掘通过发现有用的新规律和新概念,提高人们对大量的、看似 不相关的数据的更深层次的理解、认识以及应用。数据挖掘技术是目前国际上数 据库和信息决策领域最前沿的研究方向之一,同时也是学术界和商业界共同关注 的热点问题。 电子商务会产生大量的数据,如果能够合理分析这些数据,做出归纳性推理, 从中挖掘出潜在的模式,进行商业预测,帮助电子商务企业决策者调整市场策略, 减少风险,做出正确的决策,将会给企业带来巨大的利润。因此,如何在电子商 务平台上进行w e b 数据挖掘理所当然成为研究的热点问题。 1 2 论文研究的现状 1 9 8 9 年8 月,第1 l 届国际人工智能联合会议的专题讨论会上首次出现了k d d 这 个词( k n o w l e d g ed i s c o v e r y i nd a t a b a s e s ,从数据库中发现知识) ,随后由美国人 工智能协会主办的k d d 国际研讨会每年固定召开,集中讨论数据统计、海量数据 分析算法、知识表示、知识运用等问题,并且规模 丰i 原来的专题研讨会发展到现 在的国际学术大会。近几年,k d d 国际学术大会的研究重点逐渐从发现方法转向 系统应用,并且丌始重视多种发现策略和技术的集成,以及多种学科之i 日j 的相互 渗透,数据挖掘技术已经成为计算机科学界的一大热点研究问题。在1 9 8 9 年举行 的第4 届知识发现与数据挖掘国际学术会议上有3 0 多家软件公司展示了数据挖掘 软件产品,不少软件已经应用到北美和欧洲等一些国家中。 目前,国内外对w e b 挖掘的研究集中在理论研究和应用研究两个方面,国外在 发现用户兴趣模式的理论体系研究和个性化服务方面都取得了较大的进展。与国 外相比,国内的w e b 挖掘起步较晚,但是在理论和应用研究上有很多成果。这些研 究的重点在局部的挖掘算法的设计、分析和改进上,较少对数据挖掘系统自身的 构建、开发模式进行系统地论述。w e b 挖掘系统是一个有机的整体,各个部分有着 密切的联系。因而,有必要根据当前数据存储、应用环境的特点,构建一个实用 的w e b 挖掘原型系统,以指导今后实际的w e b 挖掘工具的设计,以及支持在此基础 之上的渐进开发。 目前数据挖掘在电子商务中的应用研究主要有以下几点: ( 1 ) 个性化特征及推荐系统。它主要解决从b 2 c 商务模式中挖掘顾客的个性购 买规律,通过挖掘w e b 服务器中的同志文件得到顾客的浏览个性行为,并利用这些 有价值的信息提高顾客的浏览兴趣。 ( 2 ) 挖掘框架体系及案例研究。它主要集中了来自数据挖掘技术应用厂商在构 建系统体系所面临的一些实际问题,以及相关的解决方案及应用原型。 ( 3 ) 客户浏览分析。它主要通过对顾客的浏览数据进行挖掘,得到一些有价值 的商业信息,了解顾客在决定是否购买产品时的细节行为。 现阶段在电子商务中应用的数据挖掘技术仍主要沿用目前数据挖掘的研究成 果。主要研究内容有路径分析、关联规则、序列模式、聚类和分类分析等。 1 3 论文研究的意义 随着互联网的迅猛发展,互联网上发布的信息呈爆炸性增长。越来越多的企 业和用户向互联网发出信息,从互联网上获取信息,互联网己成为人们发布、接 受信息,交流的主要媒体,也j 下发展成为各种信息流的主要传输渠道。 面对复杂庞大的互联网,越来越多的用户感觉到力不从心。据统计,9 9 的 w e b 信息相对9 9 的用户是无用的,每个用户真j 下需要的只是其中很小的一部分, 大量的无关信息会干扰甚至淹没其所需要的内容。如何有效地分析用户的需求, 帮助用户从互联网的信息海洋中发现他们所要查找或者感兴趣的资源,已经成为 一个亟待解决的重要课题。 另一方面,随着w e b 技术的发展,各类电子商务站点也风起云涌。其面临的一 个主要的挑战是需要了解客户的嗜好、购买模式,设计出满足不同客户群所需要 2 的个性化站点,这也是每一个商业站点追求的目标。 经过多年的发展,数据挖掘技术己有比较成熟的理论和一定的研究成果,将 数据挖掘技术与w e b 结合起来,进行w e b 挖掘,可以帮助人们更有效地从w e b 数据 中获取有用的信息。然而,w e b 挖掘与传统的数据挖掘相比又有很多不同之处,w e b 挖掘的对象是大量异构的、分布的、半结构化的w e b 数据,其自身的特殊性决定了 在w e b 挖掘之前必须进行数据预处理,研究w e b 挖掘技术,并将它用于商业站点的 开发,对发现w e b 销售的智能性,提高站点施行的促销效果等决策具有实际的意义。 分析互联网背后的用户行为,获取用户的行为模式,进而调整页面结构设计、推 荐用户最可能感兴趣的商品,预测用户的行为,为用户提供更好的服务,给商业 站点带来利润。 综上所述,尽管数据挖掘已经取得了一些研究和应用成果,但基于电子商务 数据的智能型挖掘与商业知识发现的整体方案仍没有得到解决,本文将致力于这 方面的一些研究工作,尝试提出一个面向电子商务站点的w e b 挖掘系统的原型结 构,并初步设计了一个基于此原型系统的w e b 挖掘工具,以推动w e b 挖掘的应用研 究。 1 4 本文研究的内容 本文通过对数据挖掘、w e b 使用挖掘技术以及相关技术的研究,对目前电子商 务网站的个性化推荐系统的发展趋势进行研究。在此基础上构建了一个面向w e b 数据挖掘的电子商务系统,并具体结合数据挖掘算法构建了一个电子商务个性化 推荐系统。 本文的组织结构如下: 第一章总体论述了论文的研究背景、主要研究内容和数据挖掘技术的研究现 状。 第二章首先介绍了一下电子商务的特点,然后介绍了数据挖掘的基本特点、 功能、挖掘过程及主要算法实现;研究了w e b 数据挖掘的特点、分类,重点讨论w e b 使用挖掘的几种挖掘类型。 第三章研究了w e b 数据挖掘技术在电子商务中的应用,提出了基于用户w e b 日志的挖掘模型设计,并对模型的具体实现进行了大量的研究。 第四章在电予商务w e b 数据挖掘模犁的皋础上对电子商务的个性化推荐服务 系统进行了进一步的研究,有助于更好地实现电子商务的智能化、个性化。 第五章对令文进行总结和展望。 3 2 问题的理论研究 随着网络技术的发展,人们对网络上的信息进行数据挖掘形成了数据挖掘新 的应用领域w e b 数据挖掘。本章首先对电子商务进行了简单的介绍,然后对数 据挖掘技术进行了研究,最后对w e b 数据挖掘技术的特点、内容、w e b 内容挖掘、 w e b 结构挖掘和w e b 使用挖掘进行了详细介绍,并在此基础上重点研究了w e b 使用 挖掘在电子商务中的应用。 2 1 电子商务概述 2 1 1 电子商务的定义 i n t e r n e t 这个曾是少数研究人员使用的工具,如今己经成长为h 常工作、生活 中的应用系统,种几乎能从地球任何角落访问其它地方信息的媒体。这种媒体 满载着无法估量的数值和信息。i n t e r n e t 实质上己成为一种崭新的全球数字化经济 的载体,并正在改变经济、政治和社会方面的传统观念。例如,全世界的学生可 以通过i n t e r n e t 同时访问国内,甚至是国外学校的图书馆、大学和其他信息宝库, 并从中获益;医生们根据需要利用远程医疗诊断技术来为远方患者的提供诊断服 务。与此同时,i n t e m e t 也使传统的买卖经济模式发生着深刻的变化。当商家和消 费者参到电子交易中并取得丰硕成果的时候,新的商业互动模式,即电子商务, 正在形成。电子商务的发展得益于计算机和通信产业在上世纪后半段的飞速发展, 特别是近二十年来的突破性进展。微型计算机的大范围普及、应用;世界性通信 网络的形成:通信协议的不断完善;信息安全的加强,为电子商务的发展提供了必 要的软、硬件基础。电子商务在狭义上称作电子交易( e c o m m e r c e ) ,主要是指利 用w e b 通信手段在网上进行的商业贸易活动:广义上则指包括电子交易在内的利用 w e b 进行的全部商务活动,亦称作电子商) l k ( e b u s i n e s s ) ,如市场分析、客户管理、 资源调配、企业决策等。归纳起来,电子商务是指在全球各地广泛的商业贸易活 动中,通过信息化网络所进行并完成的各种商务活动、交易活动、金融活动和相 关的综合服务活动。 2 1 2 电子商务的分类 电子商务根据交易双方的不同分为b 2 b 、b 2 c 、b 2 g 、c 2 g 等几种类型。 b 2 b ( b u s i n e s st ob u s i n e s s ,企、l k 对企业、) :是指企业与企、l k 之间使用网络进行的 4 各种商务活动。传统的企业之间的交易往往要耗费企业大量的资源和时间,无论 是销售、分销还是采购都要占用产品成本。通过b 2 b 的交易方式,买卖双方能够 在网上完成整个业务流程。b 2 b 使企业之间的交易减少许多事务性的工作流程和 管理费用,降低了企业经营成本。 b 2 c ( b u s i n e s s t oc o n s u m e r ,企业对消费者1 :是指企业与消费者之间进行的电 子商务活动,主要指在线订购等商务活动。企业对消费者的交易很大程度上就是 零售,现在互联网上已经有成千上力的网上购物网站,提供各种消费品,比如著 名的亚马逊网站( h t t p :w w w a m a z o n c o m ) 、国内的当当网( h t t p :w w w d a n g d a n g c o m ) 等。从长远来看,b 2 c 网站可以使企业增进与顾客的交流,为顾客提供更多选择, 提供更具个性化的服务,而这些都是传统经营方式无法实现的。 b 2 g ( b u s i n e s st og o v e r n m e n t ,企业对政府机构) :是指企业对政府机构的事务,包 括企业与政府机构之间所有的事务交易处理。如企业网上报关、网上报税、网上 申领执照或营业许可汪、网上产权交易以及政府网上招标、网上采购等行为。 c 2 g ( c o n s u m e rt og o v e r n m e n t ,消费者对政府机构1 :是指个人对政府机构的事 务,主要包括通过网络实现个人身份的核实、报税、收税等政府对个人的事务性 处理。 除了上述电子商务类型外,还有将交易三方进行整合的b 2 8 2 c 、b 2 8 2 g 等多 种电子商务类型。目前,发展较为成熟,使用较为广泛的类型是b 2 b 和b 2 c 电子 商务。 2 1 3 电子商务的特点 任何事物的产生和发展都有一定的原因,电子商务以前所未有的速度快速发 展,除了与计算机网络技术的快速发展有关以外,其自身也具有传统商务模式无 法比拟的特点: ( 1 ) 电子商务的服务不受时间、空间的限制,给客户带来了极大方便。客户可 以足不出户、一天二十四小时地进行各种信息查询、商品查询、即时购物等活动, 并且不仅可以与本地、全国甚至是全世界的电子商务经销商打交道; ( 2 ) 全球性资源共享,i n t e r n e t 上的信息容量无比巨大,任何人都可以从中受益; ( 3 ) 大大降低了商家的经营成本。商家不再需要真讵的店铺,而且可以直接进 货、减少仓储,加快资金周转,可节省大鼍的人力、物力和财力; ( 4 ) 商家町以更方便、直接、系统地接受客户反馈,有利于商家做好售后服务 和市场调查; ( 5 ) 由于商品的绝大部分信息可以在网上实时发送,所以可以大大降低广告费 5 用和信息发布费用,且能增加时效性; ( 6 ) i n t e r n e t 数字化、主动式、交互性的特点是电话、传真、电视、报纸等传统 媒介不能替代、无可比拟的; 节省购物空间,因为网上购物均为无店铺直销形式,商家可直接与消费者 联系,并通过信息反馈及时调整产品供求关系,客户感觉商店就在身边,商家也 可以避免盲目生产造成积压。 总体来说,电子商务可以拉近企业与客户的距离,缩短交易时间、降低流通 成本、提高商品产量,为生产者和消费者提供更多的信息,扩大客户的选择,提 高企业的竞争力,是推动未来经济增长的关键动力。 2 2 数据挖掘技术 2 2 1 数据挖掘概述 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数 据中,提取隐含在其中的、人们事先不知道但又有潜在作用的并最终可理解的信 息和知识的非平凡过程。 数据挖掘与传统的数据分析( 如查询、报表、联机分析处理) 不同在于数据挖掘 是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具 有先前未知、有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预 料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直 觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值;而且它是一个 非平凡的过程,也可能挖掘过程不是线性的,有反复和循环,所挖掘到的知识也 不是通过简单的分析就能得到,需要经过大量的数据比较分析,应用一些专门处 理大数据量的数据挖掘工具才能取得。 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据问的关系的 过程,使用这些模型和关系可以进行预测,它帮助决策者寻找数据问潜在的关联, 发现被忽略的因素,是解决当今时代所面临的数据爆炸而信息匮乏的问题的一种 有效方法。它是一种新的商业信息处理技术,其主要特点是对商业数据库中的大 量业务数据进行抽取、转换、分析和其它模犁化处理,从中提取辅助商业决策的 关键性数据,是一种深层次的数据分析方法。 鉴于数据、数掘挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多 挑战性的课题。数据挖掘语言的设计,高效而有用的数据挖掘方法和系统的丌发, 交互和集成的数据挖掘环境的建立,以及应用数据挖掘技术解决火型实际应用问 6 题,都是目前数据挖掘研究人员、系统和应用开发人员所面临的主要挑战。 2 2 2 数据挖掘功能 数据挖掘用于从数据库中发现隐含的、有意义的知识。数据挖掘任务一般可 以分为两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性。预测 性挖掘任务在当前数据上进行推断,以进行预测。现如今数据挖掘功能以及它们 可以发现的知识类型有如下几种: n ) 通过概念描述发现广义知识 广义知识是同类事物特征的概括性描述知识,是对数据的概括、精练和抽象。 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描 述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同 类对象之i 、日j 的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。 生成区别性描述的方法很多,如决策树方法、遗传算法等。 概念描述的方法和实现技术有很多,如数据立方体、面向属性的归纳等等。 数据立方体还有其他一些别名,如“多维数据库”、“实现视图”、“o l a p ”等。该方 法的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、 平均、最大值等,并将这些结果实现视图储存在多维数据库中。另一种广义知识 发现方法是加拿大s i m o n f r a s e r 大学提出的面向属性的归纳方法。这种方法以类 s q l 语言表示数据挖掘查询,收集数据库中的相关数据集,然后在相关数据集上 应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阙值 控制、计数及其他聚集函数传播等。 ( 2 ) 通过关联分析发现关联知识 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量 的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因 果关联。关联知识是反映一个事件和其他事件之间依赖或关联的知识。如果两项 或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预 测。 ( 3 ) 通过分类和聚类方法发现分类知识 分类知识是反映同类事物共同性质的特征型知识和不同事物之间的差异型特 征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决 策树,是一种有指导的学习方法。该方法先根据训练子集( 又称为窗口) 形成决策树。 如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗口中,重 复该过程一直到形成正确的决策集。最终结果是一棵树,其叶子结点是类名,中 7 间结点是带有分枝的属性,该分枝对应该属性的某一可能值。最为典型的决策树 学习系统是i d 3 ,它采用自顶向下不回溯策略,能保证找到一个简单的树。常用的 分类技术还有贝叶斯分类和贝叶斯网络、神经网络、遗传算法、粗糙集和模糊逻 辑等。 聚类方法是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有 较高的相似度,而不同簇中的对象差别较大。聚类与分类不同,它要划分的类是 未知的。相似度是根据描述对象的属性值来计算的。聚类分析广泛应用于模式识 别、数据分析、图像处理和市场研究。在商务上,聚类分析能帮助市场分析人员 从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。 聚类技术有划分方法、层次方法、基于密度的方法、基于网络的方法和基于模型 的方法。 通过预测方法得到预测型知i : 预测型知识指根据时间序列型数据,由历史的和当前的数据去推测未来的数 据,也可以认为它是以时间为关键属性的关联知识。 目前,时问序列预测方法有经典的统计方法、神经网络和机器学习等1 9 6 8 年 b o x 和j e n k i n s 提出了一套比较完善的时问序列建模理论和分析方法,这些经典的数 学方法通过建立随机模型,如自回归模型、自回归滑动平均模型、求和自回归滑 动平均模型和季节调整模型等,进行时间序列的预测。由于大量的时问序列是非 平稳的,其特征参数和数据分布随着时间的推移而发生变化。因此,仅仅通过对 某段历史数据的训练,建立单一的神经网络预测模型,还无法完成准确的预测任 务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存预测 模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立新的模 型。也有许多系统借助并行算法的计算优势进行时间序列预测。 ( 5 ) 通过偏差检测得到偏差型知识 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏 差知识就是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如分类中 的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的 变化等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提 升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。 2 2 3 数据挖掘的主要技术 现代数据挖掘技术以人二【:智能、数据库技术、概率与数理统计为三大支卡t 。 数据挖掘利用的技术越多,得出的结果精确度越高。下面介绍数据挖掘中常用的 8 技术: ( 1 ) 关联分析, 关联分析的目的是为了挖掘出隐藏在数据间的相互关系。常用豹关联分析技 术是关联规则和序列模式。关联规则用于寻找在同一个事件中出现的不同项的相 关性,比如在一次购买活动中所买不同商品的相关性。序列模式用于寻找事件之 间在时间上的相关性,比如对股票涨跌的分析 序列模式通过时间序列搜索出重复发生概率较高的模式。这里强调时间上的 、前后关系,例如购买了激光打印机的顾客,8 0 的人会在半年后购买硒鼓。与关联 规则类似,只是扩展为一段时间的项目集之间的关系,常把序列模式看作由时间 变量连接起来的关联规则。序列分析可分析长时期的相关记录,发现经常发生的 模式。 ( 2 ) 聚类分析 数据库中的数据可以根据一定的规则分为不同的类。在同一类别中,个体之 间的距离较小,而不同类别的个体之间距离则偏大。聚类分析和分类分析的区别 是:聚类分析前数据库中的数据不包含任何类别标记,将具有共同趋势和模式的 数据元组聚集为一类,使类中各元组相似程度最高,类问差异最大。在实际应用 中,可以根据已有顾客的数据,利用聚类分析将市场按顾客的消费模式相似性分 为若干细分的市场,制定有针对性的市- 场策略,提高销售业绩。 ( 3 ) 分类分析 分类是找出一个类别的概念描述,它代表了这类数据的整体特点,即该类的 内涵描述,一般用规则或决策树模式表示。一个类的内涵描述分为特征性描述和 区别性描述,特征性描述是对类中对象的共同特征的描述;区别性描述是对两个或 多个类之间的区别的描述。 ( 4 ) 神经网络 神经网络是仿照生理神经网络结构建立的非线性预测模型,通过学习进行模 式识别。因为它为解决复杂度很大的问题提供了一种相对来说比较有效的简单方 法,所以近年来越来越受到关注。神经网络常用于两类问题:分类和回归,是建 立在可以自学习的数据模型的基础之上的。它可以对大量复杂的数据进行分析, 并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。神经网络 很适合非线性数据和含噪声数据,所以在市场数据库的分析和建模方面应用广泛。 ( 5 ) 决策树 决策树是一种树型结构的预测模型,其中树的非终端节点表示属性,叶子节 点表示所属的不同类别。根据训练数据集中数据的不同取值建立树的分支,形成 决策树,对其进行反复修剪后转化为规则。决策树足通过一系列规则对数据进行 9 分类的过程。典型的例子是c a r t 回归决策树方法。 ( 6 ) 遗传算法 遗传算法是一种基于生物进化过程的组合优化方法。其基本思想是:随着时 间的更替,只有适合的物种才能得以进化。将这种思想用于数据挖掘就是根据遗 传算法获得最适合的模型,并据此对数据模型进行优化。具体来讲,就是模仿生 物进化的过程,反复进行选择、杂交和突变等遗传操作,直至满足最优解 ( 7 ) 统计分析法 在数据库或其他数据集的各项之间建立两种关系,即能用函数公式表示确定 关系的函数关系和不能用函数公式表示但有相关确定关系的相关关系,对它们的 分析可采用回归分析、相关分析、主成分分析等。 在实际过程中,这些技术通常并不是单独使用的,人们利用多种数据挖掘技 术来实现不| 一j 需求以达到最佳效果,在电子商务中亦是如此,我们将在以后的章 节介绍如何将这些数据挖掘技术运用到电子商务系统中。 2 2 4 数据挖掘的过程 数据挖掘是一个多步骤的处理过程,该过程从大型数据库中挖掘先前未知 的、有效的、可使用的信息,并使用这些信息做出决策或丰富知识。这个过程是 交互和迭代的,其中许多过程需要用户参与。 数据挖掘过程主要包括四个步骤:确定业务对象、数据准备、数据挖掘、结果 表达和分析。虽然我们把各个步骤按顺序排列,但数据挖掘过程并不是线性的。 要取得最好的结果就要不断反复和重复这些步骤。 ( 1 ) 确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘 的最后结果是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据 挖掘则带有盲目性,是不会成功的。因此,在挖掘之前要明确目的和需求。 ( 2 ) 数据准备 这个阶段又可以细分为三个步骤:数据选取、数据预处理和数据变换。 数据选取:根据用户的挖掘目的,搜索所有与业务对象有关的内部和外部 数据信息,从数据源中提取与挖掘相关的数据。这与对数据进行采样和选择预测 变量足不同的,这咀只是粗略的把一些冗余或无关的数据除去。 数掘预处理:对选取出的数掘进行加工,主要包括检查数据的完整性及数 掘的一致性,对其中噪音数据进行处理,推导计算出丢失的数据,消除重复的记 录,完成数据类型的转换等。如果数据挖掘的对象是数据仓库,则数据预处理在 1 0 形成数据仓库时已经完成。 数据变换:将数据转换成分析模型。这个分析模型是针对挖掘算法建立的。 建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 ( 3 ) 数据挖掘 根据所要挖掘的模式类型选择适当的数据挖掘算法,选取合适的模型和参 数。当然,没有一种算法或工具适应所有的数据,通常也很难在开始时就能决定 哪种算法对你所面临的问题来说是最好的,因此很多情况下,需要建立不同的模 型( 参数或算法) ,从中选择最好的。 ( 4 ) 挖掘结果的表述和评价 这个阶段分为结果表述和结果评价两个步骤。将挖掘出的结果以一种易于理 解的形式表示出来,并进行分析和评价。具体包括消除无关的、多余的模式,过 滤出要呈现给用户的信息;利用可视化技术将有意义的模式以图形或逻辑可视化 的形式表示,转化为用户可以理解的语言。我们还可将分析所得到的知识集成到 业务信息系统的组织结构中去,实现知识的同化。 2 3w e b 数据挖掘技术 随着i n t e m e t i n t r a n e t 技术的发展,尤其是w e b 的全球普及,使得w e b 上的信息 量无比丰富,越来越多的机构和个人在网络上发布信息、查找信息。网络已成为 人们获得信息的必要途径和重要手段。但是,网络在给人们带来方便的同时,也 带来了许多问题。w e b 上的数据是海量的,同时,w e b 是无结构的、动态的,w e b 页面极其复杂。这样就使得人们从成千上万的w e b 站点中找到有用的数据变得比较 困难。于是,人们就越来越关注如何开发和利用w e b 上的数据资源。 w e b 数据挖掘( w e bd a t am i n i n g ) 是解决上述问题的一个途径。当数据挖掘技术 应用于网络环境下的w e b 中就成为w e b 数据挖掘。w e b 数据挖掘就是从w e b 文档和 w e b 活动中抽取感兴趣的潜在的有用模式和隐藏的信息。 2 3 1w e b 数据挖掘概述 面对w e b 丰富的信息内容,海量数据、复杂性、极强的动态性、用户的多样性 等特点,传统数据库技术巾的简单奁询和结构化食询已经无法满足需求,人们迫 切需要能够从w e b 上快速、有效地发现、抽墩和过滤资源和知谚 的工具。w e b 挖掘 是数据挖掘在w e b 上的应用,是一项综合技术,涉及w e b 、数据挖掘、计算机语言 学、信息学等多个领域,不同研究者从自身的领域出发,对网络挖掘的含义有着 不同的理解,项目开发也各有其侧重点。w e b 挖掘是从w e b 资源上抽取信息或知识 的过程,它将传统的数据挖掘的思想和方法应用于w e b ,从w e b 文档和w e b 活动中, 抽取感兴趣的、潜在的、有用的模式和隐藏信息。w e b 挖掘是指从大量w e b 文档的i 集合c 中发现隐含的模式p ,如果将c 看作输入,将p 看作输出,那么,w e b 挖掘的 过程就是从输入到输出的一个映射:c p 。 w e b 挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类 似。但是,w e b 挖掘与传统的数据挖掘相比有许多独特之处。 首先,w e b 挖掘的对象是大量、异质、分布的w e b 文档。一般认为,以w e b 作为中问件对数据库进行挖掘,以及对w e b 服务器上的同志、用户信息等数据所 开展的挖掘工作,仍属于传统的数据挖掘的范畴。 其次,w e b 在逻辑上是由一个由文档节点和超链接构成的图,因此w e b 挖掘 所得剑的模式可能是关于w e b 内容的,也可能是关于w e b 结构的。 此外,由于w e b 文档本身是半结构化或无结构的,缺乏机器町理解的语义, 而数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结构来 发现知识,因此有些数据挖掘技术并不适用予w e b 挖掘,即使可用也需要建立在 对w e b 文档进行预处理的基础之上。这样,开发新的w e b 挖掘技术,以及对w e b 文档进行预处理以得到关于文档的特征表示,便成为w e b 挖掘研究的重点。 w e b 挖掘可在多方面发挥作用,如搜索引擎结构的挖掘、搜索引擎的= ,l :发、 改进和提高搜索引擎的质量和效率、确定权威页面、w e b 文档分类、w e bl o g 挖掘、 智能查询等。w e b 挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技 术、统计学、人工智能中的机器学习和神经网络等。特别是电子商务领域,通过 w e b 挖掘,不仅可以从大量多种多样信息的w e b 页面中提取出我们需要的有用的 知识,还可以得到关于群体用户访问行为和方式的普遍知识,用以改进w e b 服务 设计。更重要的是,通过对用户特征的理解和分析,如对用户访问行为、频度、 内容等的分析,提取出用户的特征,从而为用户定制个性化的界面,有助于开展 有针对性的电子商务活动。 、 2 3 2w e b 数据挖掘特点与分类 w e b 挖掘技术具有许多优点,如不需要用户提供主观的评价信息、可以处理大 规模的数据量、用户访问模式动态获取4 、= 会过时、使用方便等等。但是孑传统数 据库和数据仓库相比,w e b 是一个巨大、分布广泛、全球性的信息服务中心,涉及 经济、文化、教育、新闻、广告、消费、娱乐、金融、保险、销售、电子商务等 信息,内容极其丰富,数据最大特点就是半结构化。而传统的数据库中的数据是 1 2 完全结构化的数据。显然,面向w e b 的数据挖掘比面向单个数据仓库的数据挖掘要 复杂得多,会面临很多具体问题,主要有: ( 1 ) 对传统的数据挖掘和数据仓库而言,w e b 的数据量太过庞大。w e b 的数据 量目前以几百兆兆字节计算,而且仍然在迅速地增长。许多企业和团体都把自己 大量的可访问信息放在互联网上,这使得几乎不可能去构造一个数据仓库来复制、 存储或集成w e b 上的所有数据。 ( 2 ) w e b 页面的复杂性高于任何传统的文本文档,页面以某种格式( h t m l 或 x m l ) 呈现的半结构化数据,其数据结构不规则或不完整,复杂程度远远高于普通 的文本文档,其数据结构隐含、模式信息量大、模式变化快。 ( 3 ) w e b 是一个动态性极强的信息源,w e b 上的信息无时无刻不在发生着增长 的同时还在不断地更新并且没有固定的模式。w e b 上的信息几乎都是隐藏的、潜在 的、未知的,从w e b 上发现这些未知的信息和有用的模式,仪用传统的基于关键字 的检索方式很难实现,现在的搜索引擎不具备这些功能。 ( 4 ) w e b 面对的是一个广泛的形形色色的用户群体,不同的用户访问w e b 的兴 趣、爱好和使用目的r 差万别。大部分用户并不了解信息网络结构,不清楚搜索 的高昂代价,极容易在网络中迷失方向。 ( 5 ) 网络上信息储备量极大且信息内容十分丰富,但信息的利用率很低。w e b 上的信息对用户个人而言,被使用到的只是极小的一部分,其余信息对用户来说 是不感兴趣的。对于个体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论