从货篮分析谈数据挖掘.docx_第1页
从货篮分析谈数据挖掘.docx_第2页
从货篮分析谈数据挖掘.docx_第3页
从货篮分析谈数据挖掘.docx_第4页
从货篮分析谈数据挖掘.docx_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

从货篮分析谈数据挖掘新闻传播学院 张悦 09523467关键词:货篮 数据 摘要:货篮分析关联规则的基本概念数据挖掘数据挖掘定义的解释数据淘金金苹果文库数据淘金之方法篇数据淘金之工业应用篇数据淘金之社会篇数据淘金之科研篇1、 货篮分析全球最大的零售商沃尔玛(Walmart)通过对某地区顾客购物的数据分析后发现,很多周末购买尿布的顾客也同时购买啤酒。经过深入研究后发现,该地区家庭买尿布的大多是孩子爸爸。孩子爸爸们下班后要到超市买尿布,同时要“顺手牵羊”带走啤酒,好在周末看棒球赛的同时过把酒瘾。后来沃尔玛的这个连锁店就把尿布和啤酒摆放得很近,从而双双促进了尿布和啤酒的销量。这个故事被公认是商业领域知识发现的典故。2、关联规则的基本概念一个关联规则是形如XY的蕴涵式,这里XI, YI,并且XY=F。规则XY在交易数据库D中的支持度(support)是交易集中同时包含X和Y的交易数与所有交易数之比,记为support(XY),即 support(XY)=|T:XYT,TD|/|D|规则XY在交易集中的可信度(confidence)是指包含X和Y的交易数与包含X的交易数之比,记为confidence(XY),即 confidence(XY)=|T: XYT,TD|/|T:XT,TD|关联规则基本模型与概念设I=i1, i2, im为所有项目的集合,D为事务数据库,事务T 是一个项目子集(TI),每个事务具有惟一的标识Tid(如交易号). 设A是一个I中项的集合,如果AT,那么称交易T包含A。若A中包含k个项目,称其为k项集.l 项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度.l 如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(大项集) 规则实例For rule A C:support = support(A &C) = 50%confidence = support(A &C)/support(A) = 66.6%l 强规则l 如果不考虑关联规则的支持度和可信度,那么在事务数据库中存在无穷多的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。一般称满足一定要求的(如较大的支持度和可信度)的规则为强规则。因此,为了发现出有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度。l 最小支持度表示了一组物品集在统计意义上的需满足的最低程度;最小可信度反应了关联规则的最低可靠度。l Apriori算法l 是关联规则模型中的经典算法l 源于算法使用了频繁项集性质的先验(Prior)知识.l 分两步:1. 通过迭代,检索出事务数据库中所有频繁项集.2. 利用频繁项集构造出满足最小信任度阈值的规则.其中挖掘和识别出所有频繁项集是该算法的核心,占整个计算量的大部分.l 由m个项目形成的不同项集达2m-1个,是个NP 完全问题.l 潜在频繁k项集集合Ck,频繁k项集集合Lk, m个项目构成的k项集集合Cmk,则Lk Ck Cmk The Apriori principle:Any subset of a frequent itemset must be frequent 非频繁项集的超集一定是非频繁的 数据挖掘 Data Mining数据挖掘 知识发现 是什么l 随着计算机应用及互联网的日益普及,人们面对“被数据淹没, 却又饥饿于知识(丰富的数据与贫乏的知识)”的挑战, 不同领域的人们都期待从海量数据中挖掘出知识,将丰富的信息变为知识,这就产生了“数据挖掘与知识发现”学科。 l 运用数据挖掘技术在海量数据中我们可以挖出“金子”来。 数据挖掘与知识发现数据挖掘DM(Data Mining)只是数据库中知识发现KDD(Knowledge Discovery in DataBase )的一个步骤,但又是最重要的一步。因此,往往可以不加区别地使用知识发现和数据挖掘。一般在研究(人工智能)领域被称作数据库中知识发现,在工程领域(统计界 )则称之为数据挖掘知识发现(数据挖掘)的定义The non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data - Fayyad, Platetsky-Shapiro, Smyth (1996) 在1995年第一届KDD大会上给出了KDD的定义:“非平凡地抽取数据中隐含的、先前未知的、潜在有用的知识”123。 1 G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991 2 U. M. Fayyad, G. Platetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996. 3 G. Piatetsky-Shapiro, U. Fayyad, and P. Smith. From data mining to knowledge discovery: An overview. In U.M. Fayyad, et al. (eds.), Advances in Knowledge Discovery and Data Mining, 1-35. AAAI/MIT Press, 1996 知识发现(数据挖掘)的定义l 目前公认的定义是由Fayyad等人提出的。 所谓基于数据库的知识发现(KDD) 是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。 定义解释l 有效的:指发现的模式有一定的可信度,模式E的可信度c=C(E,F)l 新颖的:要求发现的模式应该是新的, N(E,F)。 l 潜在有用的:指提取的模式将来有实际效用,u=U(E,F)l 可理解的:要求发现的模式能被用户理解,目前它主要是体现在简洁性上, s=S (E,F)。 l 非平凡:是要有一定程度的智能性、自动性. l 过程:通常指多阶段的一个过程,涉及数据准备、预处理、模式提取、知识评价,以及反复的修改求精,过程优化;l 有效性、新颖性、潜在有用性和最终可理解性综合在一起可称之为感兴趣度。l 通常采用权值综合评判i=I(E,F,C,N,U,S) l KDD过程l 是一个反复迭代的人机交互处理过程。l 可粗略地理解为三部曲:数据准备(data preparation)、数据挖掘( Data Mining ),以及结果的解释评估(interpretation and evaluation)。 知识发现过程l KDD工作步骤数据 目标数据 处理数据 变换后数据 模式 知识 l KDD工作步骤数据准备:了解相关领域的有关情况,熟悉背景知识,弄清用户要求。数据选取:根据要求从数据库中提取相关的数据。数据预处理:主要对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据进行填补。 数据挖掘:运用选定的知识发现算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式。知识评估:将发现的知识以用户能理解的方式呈现,根据需要对知识发现过程中的某些处理阶段进行优化,直到满足要求。l KDD过程中的阶段l 数据准备:熟悉背景知识,搞清用户需求 relevant prior knowledge and goals of applicationl 数据选取(data selection) :生成目标数据集l 数据清洗和预处理 :检查数据的完整性和一致性.消除噪声,滤除冗余数据,填充丢失数据(may take 60% of effort!)l 数据缩减和变换(根据KDD的任务) Find useful features, dimensionality/variable reduction, invariant representation.l 确定KDD目标:根据用户要求,确定KDD要发现的知识类型,选择数据挖掘功能. summarization, classification, regression, association, clustering.l 选择挖掘算法(包括模式和参数):根据数据特点和用户需求.l 数据挖掘:运用所选择的算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来. search for patterns of interestl 模式评估:剔除冗余或无关模式,往往反复提取 visualization, transformation, removing redundant patterns, etc.l 数据挖掘怎么做?l 根据数据挖掘的方法分,可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。 l 数据淘金金苹果文库l 方法篇 用电脑从数据中挖掘有用信息来发财在传统的统计数学方法失灵时另起炉灶数据挖掘的步骤 模式识别法:在多维空间中看图像人工神经网络方法:利用软件技术模拟人的神经网络遗传算法:模仿生物进化的寻优算法模糊数学方法:先模糊,后清晰聚类分析方法:先分类,再研究支持向量机算法:数据样本偏少时的“绝招”“十八般武艺一起上”l 数据淘金金苹果文库l 工业应用篇石油化工生产:应用数据挖掘最广泛最有效钢铁生产:建设钢铁强国需要数据挖掘化工生产:提高收率,降低成本,防治污染催化剂研制:总结试验数据中的规律新材料、新产品试制:建设“材料智能数据库”新药研制:药物的分子设计机器检修:建造机器故障诊断“专家系统”汽车制造:改善零部件质量的捷径机器人研制:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论