(统计学专业论文)基于统计视角的数据挖掘应用研究.pdf_第1页
(统计学专业论文)基于统计视角的数据挖掘应用研究.pdf_第2页
(统计学专业论文)基于统计视角的数据挖掘应用研究.pdf_第3页
(统计学专业论文)基于统计视角的数据挖掘应用研究.pdf_第4页
(统计学专业论文)基于统计视角的数据挖掘应用研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(统计学专业论文)基于统计视角的数据挖掘应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据挖掘作为一个新型的跨领域的综合性学科,一经出现便显示出其强大的 生命力。统计学、数据仓库和机器学习技术共同构成数据挖掘的三大核心技术, 统计方法也是最基本的数据挖掘方法之一,它渗透于数据挖掘领域的各个阶段。 但从目前国内外的研究现状看,从事数据挖掘研究的主要是计算机领域的学者和 专家,统计学界的学者和专家对数据挖掘的研究相对较少。而随着数据存储技术 的不断发展,可用于数据分析的数据量越来越大,对传统的统计分析技术提出了 极大的挑战。 本文尝试从统计学的角度对数据挖掘进行应用性研究,使统计学方法适应数 据量变化,继续发挥其处理数据、分析数据的重要作用,并期望能对统计学理论 在数据挖掘方向的发展做出探索。 首先,针对目前数据挖掘大多侧重于算法设计及实现的现状,本文着重归纳 总结了国内外统计学领域的专家、学者在数据挖掘方面的探索和取得的成果,奠 定了本文的理论基础。然后分别从内涵、区别、联系等方面对统计学与数据挖掘 的关系进行了详尽对比分析,以释清疑惑,明确本文的出发点。接下来着重从统 计学的角度对数据挖掘中主要的技术和方法进行综述,其中既有对数据挖掘中使 用的传统统计方法的概括,也有对其它领域的数据挖掘技术、方法的统计学角度 的尝试性阐释,最后还给出了评价各种数据挖掘方法的统计学标准。 实证部分是本文的重点章节,在结构方面,依据统计学的理论框架分为了描 述性数据挖掘与预测性数据挖掘两部分。在描述性数据挖掘中利用统计学的思维 和方法对原始数据进行了大量探索性分析( 一元分析、二元分析、多元分析) ,从 而对待挖掘的数据有了一个整体的概括性了解,便于进一步明确挖掘的思路及所 用的方法。随后将质量指标( 电影评分值) 与数量指标( 观看数量) 相结合并引 进概率理论建立了用户类兴趣评价模型,实现了第一步的挖掘任务。在预测性数 据挖掘阶段针对现有聚类方法及统计软件无法实现动态聚类的不足,根据聚类分 析的基本思想及此次挖掘任务的特殊要求提出了改进后的动态聚类分析方法,并 将其利用m a t l a b 编程实现。另外,在整个挖掘过程中为适应各种挖掘方法的需 要,对数据进行了一系列的创造性的编程处理,随后综合运用了当今的主流统计 软件s p s s1 5 0 以及数据挖掘软件s p s sc l e m e n t i n e l 2 0 、s q l2 0 0 5b u s y n e s s m i n e r 、m a r k w a y3 0 ,进行了关联规则挖掘及决策树的建立并用于预测,对于上 述软件无法解决的任务同时辅以m a t l a b7 0 编程来综合实现。 统计学如何为数据挖掘服务,这是在“数据挖掘 飞速发展的今天,统计工 作者必须回答的一个问题。随着统计学与现代信息技术的融合,数据挖掘技术与 统计学的集成己成为必然的趋势,也必定会为统计学和数据挖掘未来的发展开辟 一片新的天地。 关键词:数据挖掘统计学个性化推荐 2 a b s t r a c t a san e wi n t e r d i s c i p l i n a r yc o m p r e h e n s i v es u b j e c t ,d a t am i n i n gh a sb e e ns h o w i n g i t sp o w e r f u lv i t a l i t y s t a t i s t i c s ,d a t as t o r a g ea n dm a c h i n el e a r n i n gt e c h n o l o g ya r et h r e e c o r et e c h n i q u e so fd a t am i n i n g ,s t a t i s t i c a lm e t h o di st h em o s tb a s i cm e t h o do fd a t a m i n i n g ,w h i c hi n f i l t r a t e di nd i f f e r e n ts t a g e so ft h ed a t am i n i n g b u tf r o mt h er e s e a r c h s i t u a t i o na th o m ea n da b r o a d ,m o r ec o m p u t e rs c h o l a r sa n de x p e r t se n g a g e di nt h e r e s e a r c ho fd a t am i n i n ga r e a , a n dr e l a t i v e l yf e ws c h o l a r sa n de x p e r t so fs t a t i s t i c ss t u d y i nt h i sf i e l d w i t ht h ec o n t i n u o u sd e v e l o p m e n to fd a t as t o r a g et e c h n o l o g y , m o r ea n d m o r ed a t ac a nb eu s e df o rd a t aa n a l y s i s ,w h i c hp u tf o r w a r dag r e a tc h a l l e n g et ot h e t r a d i t i o n a ls t a t i s t i c a la n a l y s i st e c h n o l o g y t h i sp a p e rt r i e st oc o n d u c ta p p l i c a t i o nr e s e a r c ho nd a t am i n i n gf r o ms t a t i s t i c a l v i e w , s ot h a tt h es t a t i s t i c a lm e t h o d sc a nb ea d a p tt od a t ac h a n g e si na m o u n t ,a n d c o n t i n u et op l a yi m p o r t a n tr o l ei nd a t ap r o c e s s i n g ,d a t aa n a l y s i s ,a n da l s ol o o kf o r w a r d t os o m ep r o g r e s so fs t a t i s t i c a lt h e o r yi nt h ed e v e l o p m e n td i r e c t i o no fd a t am i n i n g f i r s to fa l l ,a c c o r d i n gt od a t am i n i n gf o c u s e so nt h ea l g o r i t h md e s i g na n d i m p l e m e n t a t i o no ft h ec u r r e n ts i t u a t i o n ,t h i sp a p e rs u m m a r i z e dt h es t a t i s t i c si nt h ef i e l d o fd o m e s t i ca n df o r e i g n e x p e r t sa n ds c h o l a r si nt h ea r e a so fd a t am i n i n ge x p l o r a t i o na n d a c h i e v e m e n t sw h i c hh a v el a i dat h e o r e t i c a lf o u n d a t i o nf o rt h i sa r t i c l e a n dt h e nt h e a r t i c l ea n a l y z e st h er e l a t i o n s h i pb e t w e e ns t a t i s t i c sa n dd a t am i n i n gc o m p a r a t i v e l yf r o m t h ec o n n o t a t i o n ,d i f f e r e n c e ,c o n t a c ta n ds oo ni no r d e rt oa l l a yd o u b t sa n ds t a r tac l e a r p o i n tf o rt h i sa r t i c l e t h ef o l l o w i n go ft h ep a p e rf o c u s e so nt h em a i nt e c h n i q u e sa n d m e t h o d so ft h ed a t am i n i n gf r o mt h ep e r s p e c t i v eo fs t a t i s t i c s ,w h i c ha r eb o t hf o rd a t a m i n i n gi nt h et r a d i t i o n a ls t a t i s t i c a lm e t h o d su s e di ng e n e r a la n de x p l a i n i n gi no t h e r a r e a so fd a t am i n i n gt e c h n i q u e s ,m e t h o d so fs t a t i s t i c a lp o i n to fv i e w f i n a l l yt h ep a p e r g i v e sav a r i e t yo fe v a l u a t i o nm e t h o d so fs t a t i s t i c a ld a t am i n i n gs t a n d a r d s e m p i r i c a lp a r t i st h ee m p h a s i so ft h ed i s s e r t a t i o n i tc a nb ed i v i d e di n t o d e s c r i p t i v ed a t am i n i n ga n df o r e c a s t i n gd a t am i n i n ga c c o r d i n gt ot h es t a t i s t i c st h e o r y i n t h ep a r to fd e s c r i p t i v ed a t am i n i n g ,t h i sp a p e rc o n d u c t e dm a s se x p l o r a t o r yd a t aa n a l y s i s ( u n a r ya n a l y s i s ,b i v a r i a t ea n a l y s i s ,m u l t i v a r i a t ea n a l y s i s ) w i t hs t a t i s t i c a lt h i n k i n ga n d m e t h o dt og e tag e n e r a lu n d e r s t a n d i n gi nd a t am i n i n ga n df u r t h e rc l e a rt h et h o u g h t sa n d m e t h o d sw eu s e d ,a n dt h e nc o m b i n e dq u a l i t yi n d e x ( f i l mr a t i n gv a l u e ) w i t hq u a n t i t y i n d e x ( w a t c h i n gn u m b e o ,a n di n t r o d u c e dp r o b a b i l i t yt h e o r yt ob u i l dt h ee v a l u a t i o n m o d e l so fc u s t o m e r s i n t e r e s t t h i si st h ef i r s ts t e p i nt h ep r o c e s so ff o r e c a s t i n gd a t a 3 m i n i n g ,d u et ot h ed y n a m i cc l u s t e r i n gd e f i c i e n c yo fc l u s t e r i n gm e t h o d sa n ds t a t i s t i c a l s o f t w a r e ,w ep u tf o r w a r dt ot h ei m p r o v e dd y n a m i cc l u s t e r i n ga n a l y s i s m e t h o d s a c c o r d i n gt ot h eb a s i cc o n c e p t so ft h ec l u s t e r i n ga n a l y s i sa n dt h es p e c i a lr e q u i r e m e n t s f o rt h i sm i m n gt a s k a n dw er e a l i z e dt h i sp r o c e s sr e l yo nt h em a t l a bp r o g r a m m i n g i na d d i t i o n ,i no r d e rt om e e tt h ed e m a n d so fv a r i o u sm i n i n gm e t h o d s ,w et r e a t e dt h e d a t a 、析t ht h es e r i e so fc r e a t i v ep r o g r a m m i n g l a t e rw ec o m p r e h e n s i v e l yu t i l i z e dt h e m a i n s t r e a ms o f t w a r es p s s15 0a n dm i m n gs o f t w a r es p s sc l e m e n t i n e1 2 0 ,s q l2 0 0 5 b u s ym i n e r , m a r k w a y3 0t ob u i l dt h ea s s o c i a t i o nr u l e sa n dd e c i s i o nt r e e s ,a n df o r e c a s t w eu s e dt h em a t l a b7 0w h e na l lt h es o f t w a r ea b o v ef a i l e d h o ww o u l dt h es t a t i s t i c ss e r v ef o rt h ed a t am i n i n g ? t o d a y , i nt h ef a s t d e v e l o p m e n to f d a t am i n i n g ”,t h i si st h eq u e g i o nt h es t a t i s t i c s v o c a t i o n mh a v et o a n s w e r w i t ht h ei n t e g r a t i o no ft h es t a t i s t i c sa n dm o d e mi n f o r m a t i o nt e c h n o l o g y , t h e i n t e g r a t i o no ft h ed a t am i n i n gt e c h n o l o g ya n ds t a t i s t i c sw o u l db e c o m et h ei n e v i t a b l e t r e n d ,a n da l s oi tw o u l do p e nu pan e wf i e l df o rt h ef u t u r eo ft h es t a t i s t i c sa n dt h ed a t a m i n i n g k e yw o r d s :d a t am i n i n g s t a t i s t i c sp e r s o n a l i z e dr e c o m m e n d a t i o n 4 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果尽我所知,除了文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写的研究成果,也 不包含为获得江西财经大学或其他教育机构的学位或证书所使用 过的材料与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示了谢意 签名:趟猁魄盥幽 关于论文使用授权的说明 本人完全了解江西财经大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅; 学校可以公布论文的全部或部分内容,可以采用影印、缩印或其 他复制手段保存论文 ( 保密的论文在解密后遵守此规定) 日期:丝z 么丝乡 1 绪论 1 绪论 1 1选题背景 近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们 利用信息技术生产和搜集数据的能力大幅度提高。成千上万的数据库被用于商业 管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆 炸性增长,而且这一趋势仍将持续发展下去。市场调研机构i d c 和软件公司e m c 在他们题为膨胀的数字世界的研究报告中指出,2 0 0 7 年所创建、存储及复制 的数字信息总量达到了1 6 1 0 亿g b ,相当于有史以来全部书籍信息量的3 0 0 万倍。 预计到2 0 1 0 年,这个数字将增长到9 8 8 0 亿g b 。 大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量, 难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形 式不一致,难以统一处理。面对这种状况,一个新的挑战被提了出来:如何才能 不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢? 要想 使数据真正成为一个企业的资源,只有充分利用它为企业自身的业务决策和战略 发展服务,使决策建立在或者参考历史数据基础上,而不是完全由领导者的直觉 决定的,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数 据淹没,但却缺乏知识”的挑战,新的数据处理技术一数据挖掘( d a t am i n i n g ) 技术便应运而生了。 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程。简单的说就是从大量数据中提取或“挖掘知识。数据挖 掘是数据库、人工智能技术与统计学相结合的产物,是目前国际上数据库和信息 决策领域最前沿的研究方向之一,引起了学术界和产业界的广泛关注。 直观上,数据挖掘就是要挖掘出隐藏在大量原始数据中的规律和模式,为管 理和研究者提供有价值的决策信息。尤其是在商业领域,数据挖掘已成为应对经 济全球化,挑战日益激烈的市场,以期获得更多收益的强有力的竞争手段。 1 2 选题意义 统计学是搜集、展示、分析和解释数据的学科,它拥有非常深厚的理论基础, 并在社会生活的各个领域发挥着巨大的作用。历史上,统计学研究主要集中在预 定假设的检验和数据的拟合上,所用方法的依据通常是概率模型;而现在,统计 p a o l og i u d i c i ( 意) 著,袁方、王煜、王丽娟等译,实用数据挖掘,电子1 = 业出版社,2 0 0 4 6 第2 页 l 基于统计视角的数据挖掘应用研究 学的焦点已逐步从模型估计转移到模型选择上来,不再只是寻找最佳模型的参数 值,而是把模型的结构也作为搜索过程的一部分,这种趋势与数据挖掘的目的是 一致的。近代统计学方法与信息处理的关系日益密切,作为信息处理的一个基本 工具,统计学方法将发挥越来越重要的作用。统计学、数据仓库和机器学习技术 共同构成数据挖掘的三大核心技术,统计方法也是最基本的数据挖掘方法之一, 它渗透于数据挖掘领域的各个阶段。数据挖掘可以认为是对迄今为止的非常精确 化的统计模型的一个启示。 但从目前国内外的研究现状看,从事数据挖掘研究的主要是计算机领域的学 者和专家,统计学界的学者和专家对数据挖掘的研究相对较少。而随着数据存储 技术的不断发展,可用于数据分析的数据量越来越大,对传统的统计分析技术提 出了极大的挑战。数据挖掘的出现并不是为了替代传统的统计分析技术,而是对 传统统计分析方法的延伸和扩展。将传统的统计学方法与新兴的数据挖掘技术、 计算机技术、互联网技术联系起来,才能使统计学更广泛地服务于社会生活和经 济的各个领域。 另外,随着信息技术在国际贸易和商业领域中的广泛应用,电子商务在社会 生活和经济生活中得到了越来越广泛的应用,电子商务网站大量出现。网站每天 都可能有上百万次的在线交易,生成大量的记录文件和登记表,这些数据都是和 客户行为有关的,其中隐含了用户的兴趣和爱好,对商家来说是非常重要的。但 是数据并不是信息,它本身没有任何意义。现在g o o g l e 、百度、网易、迅雷、 淘宝、卓越、当当等各大网站都在积极的从网站数据中来发掘用户偏好,以提高 网站访问量。从数据到知识到智慧,需要经过分析加工处理精炼的过程,而这正 是统计学的传统优势。 因此,本文尝试对数据挖掘与统计学方法的结合进行研究,使统计学方法在 信息时代能够适应数据量变化,继续发挥其处理数据、分析数据的重要作用,并 期望能对统计学理论在数据挖掘方向的发展做出探索。 1 3 研究动态 数据挖掘的诞生可以追溯到2 0 世纪8 0 年代,1 9 8 9 年8 月在美国底特律召 开的第1 1 届国际人工智能联合会议i jc a i ,举行了数据库中知识发现的专题讨 论( k d dw o r k s h o p ) 。接着,美国人工智能学会在1 9 9 1 年、1 9 9 3 年和1 9 9 4 年 相继举行了该专题讨论会。在这些讨论会的基础上,美国计算机学会( a c m ) 成 立了知识发现与数据挖掘专业委员会s i g k d d ,并于1 9 9 5 年在加拿大蒙特利尔 。胡桔州、侯木周、欧阳资生,“数据挖掘的统计方泫及软件实现”,统计与决策,2 0 0 7 5 2 1 绪论 召开了第一届知识发现与数据挖掘国际学术会议( t h e a c ms i g k d di n t e r n a t i o n a l c o n f e r e n c eo nk n o w l e d g ed i s c o v e r ya n dd a t am i n i n g ) 。迄今为止,该会议已召开了 1 4 届,其中第1 4 届s i g k d d 国际会议于2 0 0 8 年8 月2 4 日至2 7 日在美国拉斯维 加斯举行。数据挖掘兴起至今,已成为许多国际学术会议关注的焦点,如s i g m o d 、 v l d b 、i c d e 、i c d m 、p ak d d 、p k d d 等,当前,s i g k d d 、i c d m 、s d m 、p k d d 、 p ak d d 称为数据挖掘领域五大会议。 国外己有许多专门的工作组,从事数据挖掘领域的研究。比较著名的有 r a g r a w a l 领导下的i b ma l m a d e n 实验室的数据挖掘工作组;j h a n 带领下的s f u 工作组;s t a n f o r d 大学的u l l m a n 领导的关联规则研究小组;m i n n e s o t a 大学的k u m a r 领导的并行数据挖掘研究小组;新西兰怀卡托大学i a nh w i t t e n 教授领导下的w 酞a 工作组等。他们提出了许多好的数据挖掘算法,并实现了数据挖掘工具,为该领 域的发展奠定了一定的基础。目前,国外对于数据挖掘的研究重点逐渐从发现方 法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗 透。当前,世界上比较有影响的典型数据挖掘系统有c o v e rs t o r y 、e x p l o r a 、 k n o w l e d g ed i s c o v e r y w o r k b e n c h 、d bm i n e r 、q u e s t 等。在应用方面包括:k d d 商业软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过 程。用户主要集中在大型银行、保险公司、电信公司、销售业和电子商务领域。 国外很多计算机公司非常注重数据挖掘的开发应用,i b m 和微软都成立了相应的 研究中心进行这方面的工作。此外,一些公司的相关软件也开始在国内销售,如 i b m 公司的i n t e l l i g e n tm i n e r ,s a s 公司的e m e r p r i s em i n e r 。, 与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量,但最近几年 有较大的发展。目前,国内的许多科研单位和高等院校竞相开展数据挖掘的基础 理论及应用研究,例如,复旦大学施伯乐教授领导开发了数据挖掘工具集 a m i n e r ;北京大学智能科学系的唐世渭和杨冬青教授领导开发了基于空间数据 挖掘的客户分析系统模型c a s d m 。此外,清华大学周立柱教授领导的数据挖掘研 究小组,四川大学唐常杰教授领导的针对时间序列方面的数据挖掘研究小组,中 国科技大学蔡庆生教授领导的针对关联规则的研究小组,复旦大学朱扬勇教授领 导的数据挖掘工作组等,都取得了许多重要的研究成果。在数据挖掘算法研究方 面,中科院计算所史忠值研究员、清华大学石纯一、陆玉昌教授、武汉大学李德 仁院士、北京科技大学杨炳儒教授、复旦大学周傲英教授等都取得了许多重要的 研究成果。 国内统计学界,中国人民大学统计学院开辟了“统计学与数据挖掘”研究专栏, 于2 0 0 1 年春季成立了数据挖掘研究中心。该中心是中国人民大学统计学院下的二 级非赢利性学术组织,现有专兼职研究人员1 0 人,现任中心主任为吴喜之教授。 基于统计视角的数据挖掘应用研究 它是国内较早开展数据挖掘应用和理论探索的团队,也是在经济学科下较早研究 数据挖掘应用的组织。厦门大学朱建平教授也有许多研究成果,其专著数据挖 掘的统计方法与实践于2 0 0 5 年1 2 月由中国统计出版社出版。台湾辅仁大学谢 邦昌教授是我国目前统计学领域从事数据挖掘研究最为活跃的一位学者,他与中 国人民大学数据挖掘研究中心合作出了很多研究成果,与朱建平等教授也有合作, 而且还常被各大学邀请举行数据挖掘专题讲座。东北财经大学、华东师范大学、 国家统计局等单位也有部分专家学者在从事统计学与数据挖掘领域方面的研究。 1 4 文献综述 数据挖掘作为一门交叉性学科,近年来随着多种技术的进步,其发展日新月 异,相关文献也非常多。本文在此仅将涉及到统计学领域的相关文献资料整理、 归纳如下。 1 4 1 数据挖掘与统计学基本问题的研究 国内外关于数据挖掘与统计学基本问题的研究成果较少。就国外而言, j o n a t h a n r m h o s k i n g ( 1 9 9 7 ) 等在分析统计学与数据挖掘特征的基础上,具体论 述了统计方法与数据挖掘在数据分析与建模方面的差异;s i v a g a n e s h ( 2 0 0 2 认为“数 据挖掘是智能化的统计”;j h a n d ( 1 9 9 8 ) 论述了数据挖掘有别于统计学的主要方 面及其目的和相关的统计方法;d a v i d j h a n d ( 1 9 9 9 ) 分别论述了统计学的性质与 数据挖掘的性质,同时提出了统计学与数据挖掘相关联的一些难题;g i l b e r t s ap o r t a ( 2 0 0 0 ) 在论述了数据挖掘的定义、目标、方法的基础上,认为数据挖掘也适用 于官方统计领域。 国内相关研究文献有:中国人民大学统计学系数据挖掘中心( 2 0 0 2 ) 以统计 学最近4 0 年的发展走势为论述起点,逐步对统计学方法在数据挖掘算法设计、开 发过程中的应用情况进行全面、系统的考察与分析,从而提出了统计学与数据挖 掘协同发展的广阔前景;马江洪、张文修、徐宗本( 2 0 0 2 ) 从统计学的角度分析 了数据挖掘中相关的统计问题,提出了在这一领域将带来的一些新的研究方向; 李经振( 2 0 0 2 ) 从数据、分析方法、模型和模式、算法、方法论几个方面分析了 数据挖掘与统计学的差异;朱世武、张尧庭、谢邦昌( 2 0 0 3 ) 提出了数据挖掘和 传统的统计分析相比所具有的几项特性。 1 4 2 数据挖掘中统计方法的研究 数据挖掘中统计方法的研究,国外的相关研究文献较多。b r i n ,s 、m o t w a n i , r a n ds i l v e r s t e i n ,c ( 1 9 9 7 ) 和s i l v e r s t e i n ,c 、b r i n 、m o t w a n i ,r a n du l l m a n , 4 1 绪论 j ( 1 9 9 8 ) 从统计学的角度研究关联规则:h t o i v o n e n ( 1 9 9 6 ) 提出了关联规则挖 掘算法中基于抽样的算法;l e n tb 、s w a m iaa n dw i d o n j ( 1 9 9 7 ) 提出了基于聚类 的关联规则挖掘:w e i s ssm a n d k u l i k o w s k ica ( 1 9 9 1 ) 对贝叶斯分类作了介绍; 等等。 国内的研究文献有:厦门大学朱建平教授的专著数据挖掘的统计方法与实 践于2 0 0 5 年1 2 月由中国统计出版社出版,是国内为数不多的从统计学角度进 行数据挖掘研究的系统性专著;赵广社、张希仁和牛力( 2 0 0 2 ) 等认为数据挖掘 中的统计方法主要有描述统计、概率论、回归分析、时间序列分析,多元统计中 的因子分析、判别分析及聚类分析等:吕安民、李成名等( 2 0 0 1 ) 将统计分析方 法与面向属性的归纳方法结合起来,形成一种应用面比较广的统计归纳学习方法, 用于g i s 属性归纳学习;中国人民大学统计学系数据挖掘中心( 2 0 0 2 ) 从作用、 相异度度量、算法及计算机操作程序等方面对数据挖掘中的聚类方法进行了详细 的论述李丙春、梁俊峰、田华( 2 0 0 3 ) 讨论了统计学方法在数据挖掘中的主要应 用,包括贝叶斯分类法和用于连续值预测的线性回归统计技术建模,以及基于统 计学的概念聚类方法,并分析了算法的有效性和局限性;朱建平、谢邦昌( 2 0 0 4 ) 对数据挖掘中关联规则作了统计描述,进而提出了相应分析的适应性问题,并对 此作了深入研究。 1 4 3 统计学与数据挖掘的关系探讨 j o n a t h a nr m h o s k i n g ,e d w i np d p e d n a u l t ( 19 9 7 ) ,行智国( 2 0 0 0 ) 等学者从 统计学与数据挖掘两者等同的角度,来阐述两门学科的关系。他们分别从统计学 和数据挖掘的性质来阐述两者的联系和区别,认为统计学具有保守性,大多关注 于描述性的问题,很少关注实时分析的内容,主要是分析数字型数据;而数据挖 掘在本质上是探索性的,同时数据挖掘常常考虑实时的分析。对于这一方面,本 文将在第二章重点讨论。 1 4 4 数据挖掘的应用方面 数据挖掘作为一个新兴的多学科交叉应用领域,一经出现便显示出其强大的 生命力,在电子商务、零售业、电线业、金融业、农业等行业有着广泛的应用, 并在各行各业的决策支持活动扮演着越来越重要的角色。由于本文实证部分是通 过电子商务领域的数据库对客户进行个性化产品的推荐,因而在此仅对数据挖掘 在电子商务领域内的已有相关成果做一些归纳介绍。 在电子商务个性化推荐方面国外主要侧重于系统的开发,文献方面则侧重于 算法的设计、改进和提高。对个性化推荐中兴趣度的研究至今已有多种多样的定 基于统计视角的数据挖掘应用研究 义:s r i k a n t r ,a g r a w a l r ( 1 9 9 5 ) 给出了感兴趣的规则的定义( r i n t e r e s t i n g ) :以 关联规则的支持度和置信度的差的绝对值为核心构造表达式,作为兴趣度的定义; b r i n s ,m o t w a n i r ,s i l v e r s t e i n c ( 1 9 9 6 ) :把事件的依赖性的统计定义扩展到了兴 趣度的定义上;s a v a s e r e a ,o m i e c i n s k i e ,n a v a t h e s ( 1 9 9 8 ) 定义了否定关联规 则的兴趣度。l e m e t t i n e n 等( 1 9 9 4 ) 定义了模版( t e m p l a t e ) 的概念,用户使用它来 确定哪些规则是令人感兴趣的而哪些则不然。也就是说,如果一条规则匹配一个 包含的模版( i n c l u s i v et e m p l a t e ) ,则是令人感兴趣的,然而,如果一条规则匹配一 个限制的模版( r e s t r i c t i v e t e m p l a t e ) ,则被认为是缺乏兴趣的。 国内相关文献并不是很多,且大都是从信息检索、人工智能方面进行研究。 余力,刘鲁( 2 0 0 4 ) 简要介绍了电子商务推荐系统的概念、作用及组成构件,给 出了推荐技术分类标准,系统综述了协同过滤推荐、基于内容推荐、基于人口统 计信息推荐、基于效用推荐、基于知识推荐和基于规则推荐等6 种主要的推荐技 术。对这些推荐技术的优缺点进行了比较,介绍了推荐评价技术。重点评述了电 子商务个性化推荐领域中的研究热点问题,并分析了目前国内电子商务个性化推 荐理论研究和应用现状,最后提出了电子商务个性化推荐领域所面临的挑战;何 典、梁英( 2 0 0 5 ) 对电子商务个性化推荐进行了归纳性的系统研究;姜有辉、高 琳琦( 2 0 0 5 ) 受国家自然科学基金资助在电子商场中进行了个性化推荐算法的研 究与应用;杨静( 2 0 0 6 ) 从知识工程的角度迸行了电子商务中个性化推荐模型的 研究;谢祈鸿( 2 0 0 6 ) 基于计算机理论对一种混合用户兴趣模型的个性化推荐系 统就行了研究:唐灿( 2 0 0 6 ) 介绍了一种基于模糊兴趣模型的个性化推荐算法; 王春贺、姜志英( 2 0 0 7 ) 从计算机应用技术方面介绍了个性化推荐技术研究及其 在数字图书馆中的应用。 上述文献作者大多为计算机应用技术、软件工程等计算机相关专业的学者, 统计学专业的学者对于数据挖掘在电子商务方面的应用尚无相关文献可以检索, 这也为本选题提供了广阔的研究空间。 综上所述,统计学作为数据挖掘三大核心支柱之一,国内外的统计学专家学 者立足于统计学科本身,对数据挖掘中涉及到的有关统计学的基本问题以及统计 学与数据挖掘之间的关系进行了学术性的探讨和说明;在某个特定的领域和条件 下就某种统计学方法在数据挖掘中的应用进行了统计学思维的研究、扩展,却忽 略了与其它学科的交叉融合。作为二个交叉型的边缘学科,数据挖掘是为应用而 生的。因此在实际应用方面,由于行业、背景及目标的不同,通用的模型和方法 是不存在的,选择什么方法取决于问题本身,但实践证明很难判断这些方法的优 劣,且处理结果对数据集的依赖程度极高,针对给定的数据集和给定的目标,到 目前为止尚没有公认的标准选择恰当的数据挖掘方法,在实际应用中,往往是集 6 1 绪论 成多项技术。 本文基于应用的角度,借助于c r i s p - d m ( c r o s s - i n d u s t r ys t a n d a r dp r o c e s sf o r d a t am i n i n g ) 过程模型,将统计学的思维和方法融入到数据挖掘过程中的各个环 节,并尽量实现与其它学科的交叉融合,以实现问题的最终解决。 1 5 论文结构与研究方法 第一章为绪论,主要介绍选题背景、选题意义、国内外研究动态以及国内外 参考文献、论文的结构与研究方法、难点、创新及不足之处。 第二章为统计学与数据挖掘的对比分析。从二者的内涵、区别、联系等方面 对统计学与数据挖掘的关系进行了详尽对比分析,以释清疑惑,明确本文的出发 点。 第三章为数据挖掘中的统计学方法。本章着重从统计学的角度对数据挖掘中 主要的技术和方法进行综述。其中既有对数据挖掘中使用的传统统计方法的概括, 也有对其它领域的数据挖掘技术、方法的统计学角度的尝试性阐释,最后还给出 了评价各种数据挖掘方法的统计学标准。 第四章为基于统计视角的数据挖掘在实际数据库中的实证应用。本章为本文 的重点章节,在结构方面,依据统计学的理论框架分为了描述性数据挖掘与预测 性数据挖掘两部分。在描述性数据挖掘中对所选数据库进行了一元、二元、多元 描述性数据挖掘,建立了用户的类兴趣模型,对所要挖掘的数据库有进行了一个 整体的概括,明确了进一步挖掘的目标及所应选用的方法;在预测性数据挖掘阶 段又先后建立了针对新用户的基于决策树的用户类兴趣模型,编程实现了基于改 进后的动态聚类方法并用于寻找最近邻用户,编程实现了目标用户对于某部具体 影片观看可能性的预测,并完成了对目标用户的推荐。 第五章为结论,对本文进行系统总结,以及进一步的研究展望。 在研究过程中,本文将规范分析与实证分析相结合,既有对基于统计视角的 数据挖掘理论及方法的介绍和创新,在实际数据库的应用中又综合运用了当今的 主流统计软件s p s s1 5 0 以及数据挖掘软件s p s sc l e m e n t i n e l 2 0 、s q l2 0 0 5 b u s y n e s sm i n e r 、m a r k w a y3 0 ,对于上述软件无法解决的任务利用m a t l a b7 0 编程实现。通过实际数据库的应用性示例,将文中所述数据挖掘技术、方法运用 到了实际中,体现了定性分析( 文中描述性挖掘部分) 与定量分析( 文中预测性 数据挖掘部分) 的结合;理论分析与实践应用的统一。 1 6 创新与不足之处 本文的难点主要体现在以下几个方面: 7 基于统计视角的数据挖掘应用研究 ( 1 ) 国内外对于数据挖掘的应用文献相对较多,但大都是计算机领域的学者 和专家,侧重于算法的设计和实现,统计界的学者和专家对数据挖掘的研究相对 较少,加大了本文的研究难度。 ( 2 ) 不同数据挖掘方法对数据集的不同要求将加大本文数据处理的难度; ( 3 ) 本文实证部分所需完成的部分挖掘任务,现存大部分挖掘软件无法直接 实现,需要自己编程解决,也加大了本研究的工作量。 基于上述难点,本文的创新点主要有以下几个方面: ( 1 ) 在方法上,本文将数据挖掘与统计方法的结合进行研究,使统计方法适 应数据量的变化,进一步深化、拓展其数据处理、数据分析的重要作用 ( 2 ) 在数据预处理过程中对现有统计软件无法直接实现的功能进行了编程处 理,以使所得数据满足各种挖掘方法的需要 ( 3 ) 提出了衡量用户类兴趣度的计算公式并建立了用户类兴趣度模型 ( 4 ) 编程改进、实现了动态聚类分析方法 ( 5 ) 按照统计学的框架和思维方式实现了一项具体的数据挖掘任务,并具有 一定的实用价值和商业意义。 由于本人水平有限,本文同时存在着如下的不足之处: ( 1 ) 本文从用户特征的角度进行了类兴趣的预测及具体影片的推荐,而没有 考虑电影信息( 导演、演员等) 本身,因为相对于电影类别( 1 8 类) 和用户信息 ( 年龄、性别、职业) 而言,导演、演员信息过于复杂和庞大,从中无法得出具 有普遍意义的规则和模式。但电影信息毕竟对用户的兴趣有影响,因此如何拓展 电影信息于用户兴趣的发掘及相关影片的推荐,还有待进一步的研究和论证。 ( 2 ) 本文所采用的整个数据挖掘及相关程序还有待进一步实现系统化、模块 化以提高实际应用价值。 8 2 统计学与数据挖掘的比较分析 2 统计学与数据挖掘的对比分析 数据挖掘是近十几年里发展起来的一门崭新的学科,由于它与统计学都关心 从数据中发现某种结构,因而从数据挖掘诞生之日起,就与统计学有了千丝万缕 的联系。 本文是对基于统计学视角的数据挖掘的研究和应用,因此,有必要对统计学 与数据挖掘做一个对比分析,以明确本文的侧重点。本章从数据挖掘并非统计学 分支这一观点出发来阐释这两门学科,既着眼于二者相重叠的地方,更重视二者 的区别,并考虑了一些其他与数据挖掘有关的问题。 2 1 统计学与数据挖掘的内涵 大不列颠百科全书对统计学的定义是:统计学是应用数学的一个分支, 主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、 总结,并进而进行推断和预测,为相关决策提供依据和参考;它分为描述统计和 推断统计。描述统计包括对客观现象的度量、调查方案的设计,对所收集的数据 资料进行加工整理、综合概括,通过图示、列表等方式进行分析和描述。推断统 计是在搜集、整理检测样本数据的基础上,对有关总体做出推断,其特点是根据 随机性的观测样本数据以及问题的条件和假定,对未知事务做出以概率形式表述 的推断。 从技术上定义,数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声 的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜 在有用的信息和知识的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论