大数据分析与挖掘_第1页
大数据分析与挖掘_第2页
大数据分析与挖掘_第3页
大数据分析与挖掘_第4页
大数据分析与挖掘_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,大数据和机器学习,广泛的数据,不足是发掘智慧和观点的方法。谷歌首席经济学家Hal Varian大数据分析主要依靠机器学习和大规模计算,机器学习已经成为大数据的基石。机器学习(ml)是概率论、统计、近似论、凸分析、算法复杂性理论等多种领域的学制。专门研究计算机如何模拟或实现人类的学习行为,获取新的知识或技术,重构已有的知识结构,不断提高自己的性能。简言之,机器学习是利用数据教育模型,然后使用模型预测的一种方法。什么是机器学习的一般用途,统计分析和数据挖掘,数据挖掘?数据分析和数据挖掘之间的区别、数据分析需要传统的计算方法、统计方法、将数据分析转换为信息的假设、预约束、对这些信息的进一步认识、有

2、效的预测和决策等,则需要数据挖掘。数据分析是将数据转换为信息的工具,数据挖掘是将信息转换为识别的工具。数据分析和数据挖掘在想从数据中提取特定规则(识别)时,经常需要同时使用数据分析和数据挖掘。大数据分析和挖掘的一般用途、1、自动预测趋势和行为、数据挖掘在大型数据库中自动查找预测信息,过去需要手动进行大量分析的问题现在可以直接从数据本身快速得出结论。谷歌预测了冬季流感的传播,初步锁定了与流感相关的关键字,谷歌数据库用户浏览器记录,美国CDC记录的流感发生的地区和时间,预测模型,预测结果,谷歌准确预测了2009年猪流感发生的时间,明确了爆发地点所在的州和时间。比落后的官方数据更有效、更及时的指标。

3、优化术语过滤,大数据分析和挖掘的一般用途,2,关联分析,数据关联是数据库中存在的重要的可发现知识类型。如果两个或多个变量的值之间有一定的规则性,则称为相关性。关联可以分为简单关联、时序关联和因果关系。关系分析的目的是在数据库中查找隐藏的关系网络。由于有时不知道数据库中数据的关联函数,即使知道也不确定,因此关联分析创建的规则具有可靠性。在购物车分析、关联分析后,发现顾客经常同时购买的产品中啤酒和尿布最常出现,大数据分析和挖掘的一般用途,3、聚类、数据库中的记录可分为一系列有意义的子集,即聚类。聚类是提高人们对客观现实的认识,进行概念说明和偏差分析的前提。群集通信行业用户的特性后,可以完成客户的肖

4、像,基于多个维度完成肖像,或者基于关联分析执行维度缩小处理后的肖像。a组:年龄50岁以上销售20K以下每月电话费50元以下组b:年龄3050岁年销售80K以上每月电话费200元以上组c:年龄2030岁年50K月电话费100元以上,大数据分析和挖掘的一般用途,4,概念说明,说明特定对象的含义,总结这些对象的特点。概念描述分为描述物件类别一般特性的特征描述和描述物件类别差异的区分描述。生成类的特征说明只与该类的对象中所有对象的共性有关。产生差异说明的方法很多,如决策树方法、遗传算法等。决策树、大数据分析和挖掘的一般用途、4、概念说明、概念说明是说明对象类的含义,并总结这些对象的相关特性。概念描述分

5、为描述物件类别一般特性的特征描述和描述物件类别差异的区分描述。生成类的特征说明只与该类的对象中所有对象的共性有关。产生差异说明的方法很多,如决策树方法、遗传算法等。大数据分析和挖掘的一般用途、5、偏差检测、数据库中的数据往往是对从数据库中检测这些偏差有意义的一些异常记录。偏差包括分类中的异常实例、不满足规则的特殊情况、观察和模型预测值的偏差、随时间变化的测量值等许多潜在知识。偏差检测的默认方法是找出观测值和参考值之间有意义的差异。一个人的年龄为-999似乎取决于程序处理基本数据的方式。一家公司的高管薪酬明显高于一般职员,这可能是破例的数字,但合理的一家住宅电话的电话费从每月200元以内增加到数

6、千元,可能是由于盗窃电话或其他原因,一张信用卡突然高消费造成的。1、异常数据可能是因为有用的信用卡,高、低、疯子和普通人2,一般检测方法异常挖掘,异常挖掘,异常挖掘,罕见事件挖掘,大型数据分析和挖掘项目的特性,1.1大规模数据分析和挖掘往往是从技术角度进行的。未知搜索1.2将导致比现有项目更多的尝试成本。1.3算法和模型的适用性和时间、区域和其他外部条件的影响1.4往往需要在目标要求和算法的复杂性、性能之间做出选择。数据挖掘任务的一般误会,仅依赖于一种技术/算法,MCLP多用途线性编程算法,KNN K-最近的折叠算法,对数据挖掘任务的一般误解,相同的研究对象必须考虑模型、算法模型选择,模型对数

7、据的适合性,只有将数据的固有特性、模型的假设条件结合在一起才能建立合适的模型,只有特定数据集的模型的好和好因此,数据本身的差异决定了算法模型选择的差异。即使研究目的相同,由于研究对象相似,影响数据生成过程的因素也有很大的不同,因此数据的具体表达也有很大的不同,算法也可能有很大的不同。随着时间的推移,数据的形式会发生变化,您可能需要重新选择合适的模型或调整原始同一模型的参数。缺乏有关数据挖掘工作的一般认识、数据不足、分类问题或预计问题的准确说明的案例。例如,Fraud Detection(欺诈检测):在过去数百万次交易中,可能有少数不正当交易和许多不正确标记的不正当交易,因此建模前需要大量人力进

8、行修改。信用得分:需要对风险高的潜在客户进行长期跟踪(例如,两年),并积累了足够的评分抽样。数据挖掘工作的常见误区,相同的研究对象应用模式,更可靠的专业技术支持,总负荷逐渐稳定,周期性强的假日特性强的白天和晚上负荷差异,学校的台湾变化,成熟的地球表变化,商店的台湾变化,新住宅变化,大数据分析和挖掘项目开发,大识别问题:识别需求所需之商业问题的意义。问题定义:定义业务问题并标识问题概念的类别。分解问题:将复杂的问题分解为几个相当简单的子问题。问题转换:将业务问题转换为可数据挖掘的问题。关键因素:问题转换、工作内容和业务需求转换为数据挖掘问题。分类、建议、回归、群集、关联规则分析、时间系列分析、要

9、素选择、流数据分析等。建模,数据挖掘方法,关键因素:数据定义,数据质量分析,工作内容,熟悉和了解数据原始数据的含义和生成条件,确定数据的质量问题,发现数据的内部属性。,数据定义:标识和理解原始数据中属性数据的含义。数据库的表结构、数据表之间的关系、数据表中每个列的含义、格式和约束等。数据质量分析:分析数据的质量。基本统计信息:缺少值的数量、平均值、方差、中值、频率、分位数、t检查、z检查等。可视化:点图、方框图、直方图等。异常:群集,异常检测,了解业务,了解数据,数据准备,评估,分发,建模,数据挖掘方法,关键因素:数据选择,数据集成,数据派生,数据转换,数据清理,工作内容,此数据将成为建模的输

10、入值。这一阶段的任务没有规定的顺序,可以多次执行。工作包括选取表格、记录和属性、转换和清除模型工具的资料。选择数据:按原始数据过滤,然后根据问题定义选择数据。使用完整数据、n fold块、比例、Bootstrap等。衍生资料:根据原始资料属性衍生新的资料属性。基本导数:平均值、中值、频率、最小值(大)、线性变换等。净资产、净资产收益率、贴现率等业务衍生。转换数据:转换原始数据以满足数据挖掘模型的需要。离散化处理:基于非数据的数据转换数值类型,如性别、职业、地区等。数据平滑:非平滑数据将转换为平滑数据,例如计时数据中的周、销售量等。可视化:点图、方框图、直方图等。异常:群集,异常检测,了解业务,

11、数据准备,了解数据,评估,分发,建模,数据挖掘方法,关键因素:数据选择,数据集成,数据派生,数据转换,数据清理,工作内容,此数据将成为建模的输入值。这一阶段的任务没有规定的顺序,可以多次执行。工作包括选取表格、记录和属性、转换和清除模型工具的资料。清理数据:清理数据中的异常情况以提高数据质量。缺失值处理:平均、按类别平均、群集平均、Bayes Rule、最近的折叠学习异常处理:打包、群集、回归、手动处理一致性处理:基于规则、手动数据集成:从多个数据源有机合并数据。关系数据SQL查询、按ID集成、Tag信息集成、异构数据集成等。数据减少:数据减少技术可用于获取数据集的缩小表示法。此技术小得多,但

12、几乎保持了原始数据的完整性,可以解决批量数据带来的效率和性能问题。范例:聚总资料对象、缩小维度、压缩资料、建立离散和概念阶层。了解业务、准备数据、了解数据、评估、部署、建模、数据挖掘方法、关键因素:模型选择、模型培训、模型最佳参数选择、模型优化、工作内容、选择和应用不同的数据挖掘模型、调整模型参数以获得最佳模型。一些模型可以解决相同类型的数据挖掘问题。某些模型对数据生成有特殊要求,因此可能需要经常返回到数据准备阶段。选择模型:根据业务了解阶段(如SVM、Logistic Regression、MCLP和Decision Tree)中的问题转换,选择不同的数据挖掘模型分类。推荐:基于内容、知识库

13、、协作过滤、基于实用程序等。回归:SVM、Linear Regression、Gaussian Process等。群集:Kmeans、Kmedoids、Affinity Propagation、EM关联规则:apriori、fp-tree等。培训模型:使用在数据准备阶段准备的数据培训选定的模型。概率论、统计、概率过程;机器学习人工智能优化理论,业务理解,建模,了解数据,评估,分发,数据准备,数据挖掘方法学,关键因素:模型选择,模型培训,模型优化参数选择,模型优化,工作内容,选择和应用不同的数据挖掘模型,模型参数一些模型可以解决相同类型的数据挖掘问题。某些模型对数据生成有特殊要求,因此可能需要经

14、常返回到数据准备阶段。调整模型最佳参数:选取模型后,必须进一步调整模型的参数,以便模型可以广泛一般化资料。网格搜索:设置每个模型参数的候选集,以从所有参数的组合中从根评估指标中选择最佳模型参数。遗传算法:每组候选参数都是遗传算法的对象,通过单独选择、参数间的交叉、转换来选择一组更好的候选参数。模型优化:进一步优化模型以满足特定业务需求。时间复杂性、空间复杂性、计算成本复杂性等。业务理解、建模、数据理解、评估、分发、数据准备、数据挖掘方法、关键因素:基本指标评估、业务指标评估、工作内容和数据分析等方面建立了高质量的模型。检查构成模型的阶段,以确保模型可以实现业务目标。此阶段的核心目的是判断是否未

15、充分考虑重要的业务问题。基本指标评估:从模型的角度评估选定的模型,以确定是否需要调整或重新选择模型。示例包括Confusion Matrix、ROC、AUC和K-S指标。业务指标评估:从业务角度评估选定的模型,以确定是否需要调整或重新选择模型。例如存款金额、销售额、利润率、顾客价值恢复等。业务理解、评估、数据理解、建模、部署、数据准备、数据挖掘方法、关键因素:模型实施、系统集成、可视化分析、工作内容和模型创建不是数据挖掘项目的结束。模型的作用是从数据中发现知识,获得的知识必须以用户容易使用的方式重新组织和展示。在此阶段,您可以根据应用程序要求创建简单的报告或实施更复杂、可重复的数据挖掘过程。通常,由更好地了解自己需求的用户分发。模型实施:通过特定软件平台实施模型,以便在实际生产系统中使用。系统集成:将数据挖掘模型集成到实际生产系统中。可视化分析:需要对最终结果的可视显示、历史数据和模型输出结果数据等进行综合可视化分析,从而便于历史分析、未来判断和差异比较。了解

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论