




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘入门教程是什么近几年,大数据被炒得火热,一大批“不明觉厉”的朋友蜂拥而至,希望能 进入这个行业大捞一把, 但众多撞破头也没挤进去。 根本原因就是根本没有理解 什么是数据挖掘, 理解数据挖掘的相关概念, 所以, 今天小编就为大家讲几点数 据挖掘的入门必知的概念。1、 DataMining 和统计分析有什么不同?硬要去区分 DataMining 和 Statistics 的差异其实是没有太大意义的。 一般 将之定义为 DataMining 技术的 CART 、 CHAID 或模糊计算等等理论方法,也 都是由统计学者根据统计理论所发展衍生, 换另一个角度看, DataMining 有相 当大
2、的比重是由高等统计学中的多变量分析所支撑。 但是为什么 DataMining 的 出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言, DataMining 有下列几项特性:处理大量实际数据更强势, 且无须太专业的统计背景去使用 DataMining 的 工具;数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件, DataMining 的工具更符合企业需求;纯就理论的基础点来看, DataMining 和统计分析有应用上的差别,毕竟 DataMining 目的是方便企业终端用户使用而非给统计学家检测用的。 2、 OLAP 能不能代替 DataMining ?所谓 OLA
3、P (OnlineAnalyticalProcess 意指由数据库所连结出来的在线 分析处理程序。有些人会说:我已经有 OLAP 的工具了,所以我不需要 DataMining 。 事实上两者间是截然不同的,主要差异在于 DataMining 用在 产生假设, OLAP 则用于查证假设。简单来说, OLAP 是由使用者所主导,使用 者先有一些假设,然后利用 OLAP 来查证假设是否成立;而 DataMining 则是 用来帮助使用者产生假设。所以在使用 OLAP 或其它 Query 的工具时,使用者 是自己在做探索(Exploration ,但 DataMining 是用工具在帮助做探索。 举个
4、例子来看, 一市场分析师在为超市规划货品架柜摆设时, 可能会先假设 婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用 OLAP 的工具去 验证此假设是否为真,又成立的证据有多明显;但 DataMining 则不然,执行 DataMining 的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果, 透过 Mining 技术可找出存在于数据中的潜在规则, 于是我们可能得到例如尿布 和啤酒常被同时购买的意料外之发现, 这是 OLAP 所做不到的。 DataMining常能挖掘出超越归纳范围的关系,但 OLAP 仅能利用人工查询及可视化的报表来 确认某些关系,是以 DataMining 此种
5、自动找出甚至不会被怀疑过的数据模型 与关系的特性,事实上已超越了我们经验、教育、想象力的限制, OLAP 可以和 DataMining 互补,但这项特性是 DataMining 无法被 OLAP 取代的。 3、完整的 DataMining 包含哪些步骤?以下提供一个 DataMining 的进行步骤以为参考:理解业务与理解数据;获取相关技术与知识;整合与查询数据;去除错误或不一致及不完整的数据;由数据选取样本先行试验;建立数据模型实际 DataMining 的分析工作;测试与检验;找出假设并提出解释;持续应用于企业流程中。由上述步骤可看出, DataMining 牵涉了大量的准备工作与规划过程
6、, 事实 上许多专家皆认为整套 DataMining 的进行有 80%的时间精力是花费在数据前 置作业阶段,其中包含数据的净化与格式转换甚或表格的连结。由此可知 DataMining 只是信息挖掘过程中的一个步骤而已, 在进行此步骤前还有许多的 工作要先完成。 4、 DataMining 包含哪些主要功能?DataMining 实际应用功能可分为三大类六分项来说明:Classification 和 Clustering 属于分类区隔类; Regression 和 Time-series 属于推算预测类; Association 和 Sequence 则属于序列规则类。Classificatio
7、n 是根据一些变量的数值做计算, 再依照结果作分类。 (计算的 结果最后会被分类为几个少数的离散数值,例如将一组数据分为“可能会响应” 或是 “可能不会响应” 两类 。 Classification 常被用来处理如前所述之邮寄对象 筛选的问题。我们会用一些根据历史经验已经分类好的数据来研究它们的特征, 然后再根据这些特征对其他未经分类或是新的数据做预测。 这些我们用来寻找特 征的已分类数据可能是来自我们的现有的客户数据, 或是将一个完整数据库做部 份取样, 再经由实际的运作来测试; 譬如利用一个大型邮寄对象数据库的部份取 样来建立一个 ClassificationModel ,再利用这个 Mo
8、del 来对数据库的其它数 据或是新的数据作分类预测。Clustering 用在将数据分群, 其目的在于将群间的差异找出来, 同时也将群 内成员的相似性找出来。 Clustering 与 Classification 不同的是,在分析前并不 知道会以何种方式或根据来分类。所以必须要配合专业领域知识来解读这些分群的意义。 Regression 是使用一系列的现有数值来预测一个连续数值的可能值。若将 范围扩大亦可利用 LogisticRegression 来预测类别变量,特别在广泛运用现代 分析技术如类神经网络或决策树理论等分析工具, 推估预测的模式已不在止于传 统线性的局限,在预测的功能上大大增
9、加了选择工具的弹性与应用范围的广度。Time-SeriesForecasting 与 Regression 功能类似, 只是它是用现有的数值 来预测未来的数值。两者最大差异在于 Time-Series 所分析的数值都与时间有 关。 Time-SeriesForecasting 的工具可以处理有关时间的一些特性,譬如时间 的周期性、 阶层性、 季节性以及其它的一些特别因素 (如过去与未来的关连性 。Association 是要找出在某一事件或是数据中会同时出现的东西。 举例而言, 如果 A 是某一事件的一种选择,则 B 也出现在该事件中的机率有多少。 (例如:如果顾客买了火腿和柳橙汁,那么这个顾
10、客同时也会买牛奶的机率是 85%。 SequenceDiscovery 与 Association 关系很密切,所不同的是 Sequence Discovery 中事件的相关是以时间因素来作区隔 (例如:如果 A股票在某一天上千锋 大数据 视频教程 涨 12%, 而且当天股市加权指数下降, 则 B 股票在两天之内上涨的机率是 68%) 5、Data Warehousing 和 Data Mining 的关系为何? 若将 Data Warehousing(数据仓库)比喻作矿坑,Data Mining 就是深 入矿坑采矿的工作。毕竟 Data Mining 不是一种无中生有的魔术,也不是点石 成金
11、的炼金术,若没有够丰富完整的数据,是很难期待 Data Mining 能挖掘出 什么有意义的信息的。 要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。随着科技 的进步,功能完善的数据库系统就成了最好的收集数据的工具。数据仓库,简单 地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。所以其实 就是一个经过处理整合, 且容量特别大的关系型数据库,用以储存决策支持系统 (Design Support System)所需的数据,供决策支持或数据分析使用。从信息 技术的角度来看,数据仓库的目标是在组织中,在正确的时间,将正确的数据交 给正确的人。 许多人对于 Data Warehousing 和 Data Mining 时常混淆, 不知如何分辨。 其实,数据仓库是数据库技术的一个新主题,利用计算机系统帮助我们操作、计 算和思考,让作业方式改变,决策方式也跟着改变。 数据仓库本身是一个非常大的数据库,它储存着由组织作业数据库 中整合 做真实的自己-用良心做教育 千锋 大数据 视频教程 而来的数据, 特别是指事务处理系统 OLTP (On-Line Transactional Processing) 所得来的数据。 将这些整合过的数据置放于数据昂哭中,而公司的决策者则利用 这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓库最大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 测量实习自我鉴定范文(18篇)
- 辽宁工程职业技术学院数学复习试题(一)
- 新家风家训心得(16篇)
- 领导科学的核心理念与实践试题及答案
- 企业形象规定(完整版)
- 奖学金自我鉴定范文(28篇)
- 电子商务安全与支付行业试题集
- 成就数据库梦想2025年试题及答案
- 市场推广及渠道分销合同
- 农民合作社农业生产设备采购合同
- 塑料产品报价明细表
- 项目监理人员配置标准
- 酒店明住宿清单(水单)
- 人卫一类-口腔解剖学习题库+答案
- GCP相关人员职责课件
- 中职中国旅游地理教案:长江中下游旅游区(七)安徽省
- 《秦腔》(教案)高二语文(统编版选择性必修下册)
- 人教版九年级数学下册《特殊角的三角函数值及用计算器求角的三角函数值》评课稿
- 国内煤化工企业典型事故案例分析报告
- 摸球游戏北师大版小学数学四年级上册省市级一等奖优质课程
- 制冷工艺设计手册
评论
0/150
提交评论