大数据分析与挖掘.pptx

上传人：T*** IP属地：江西上传时间：2020-01-01 格式：PPTX 页数：28 大小：2.46MB 积分：16 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据与机器学习海量数据可广泛获得所稀缺的是如何从中挖掘出智慧和观点 Google首席经济学家HalVarian大数据分析主要依靠机器学习和大规模计算机器学习已成为大数据的基石机器学习 MachineLearning ML 是一门多领域交叉学科涉及概率论统计学逼近论凸分析算法复杂度理论等多门学科专门研究计算机怎样模拟或实现人类的学习行为以获取新的知识或技能重新组织已有的知识结构使之不断改善自身的性能简而言之机器学习是一种通过利用数据训练出模型然后使用模型预测的一种方法机器学习的常见用途统计分析与数据挖掘什么是数据挖掘数据分析与数据挖掘的区别数据分析只是在已定的假设先验约束上处理原有计算方法统计方法将数据分析转化为信息而这些信息如果需要进一步的获得认知转化为有效的预测和决策这时就需要数据挖掘数据分析是把数据变成信息的工具数据挖掘是把信息变成认知的工具如果我们想要从数据中提取一定的规律即认知往往需要数据分析和数据挖掘结合使用大数据分析与挖掘的常见用途 1 自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论谷歌预测冬季流感的传播初步锁定与流感相关的关键词条谷歌数据库用户搜索记录美国疾控中心记录的流感事件发生的区域和时间预测模型预测结果谷歌准确的预测出2009年甲型H1N1流感的爆发并明确指出爆发地所在的州以及时间与滞后的官方数据相比谷歌成为一个更有效及时的指示者优化词条筛选大数据分析与挖掘的常见用途 2 关联分析数据关联是数据库中存在的一类重要的可被发现的知识若两个或多个变量的取值之间存在某种规律性就称为关联关联可分为简单关联时序关联因果关联关联分析的目的是找出数据库中隐藏的关联网有时并不知道数据库中数据的关联函数即使知道也是不确定的因此关联分析生成的规则带有可信度购物篮分析经过关联分析发现顾客经常同时购买的产品中啤酒与尿布同时出现的频率最高大数据分析与挖掘的常见用途 3 聚类数据库中的记录可被化分为一系列有意义的子集即聚类聚类增强了人们对客观现实的认识是概念描述和偏差分析的先决条件经过对电信行业用户的特征进行聚类可以完成客户的画像可以基于多个维度完成画像也可以基于关联分析的基础上进行降维处理后再开展画像群体A 年龄50岁以上年收入20K以下月话费支出50元以下群体B 年龄30 50岁年收入80K以上月话费支出200元以上群体C 年龄20 30岁年收入50K月话费支出100元大数据分析与挖掘的常见用途 4 概念描述概念描述就是对某类对象的内涵进行描述并概括这类对象的有关特征概念描述分为特征性描述和区别性描述前者描述某类对象的共同特征后者描述不同类对象之间的区别生成一个类的特征性描述只涉及该类对象中所有对象的共性生成区别性描述的方法很多如决策树方法遗传算法等决策树大数据分析与挖掘的常见用途 4 概念描述概念描述就是对某类对象的内涵进行描述并概括这类对象的有关特征概念描述分为特征性描述和区别性描述前者描述某类对象的共同特征后者描述不同类对象之间的区别生成一个类的特征性描述只涉及该类对象中所有对象的共性生成区别性描述的方法很多如决策树方法遗传算法等大数据分析与挖掘的常见用途 5 偏差检测数据库中的数据常有一些异常记录从数据库中检测这些偏差很有意义偏差包括很多潜在的知识如分类中的反常实例不满足规则的特例观测结果与模型预测值的偏差量值随时间的变化等偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别一个人的年龄为 999可能是程序处理缺省数据的方式导致的一个公司的高管工资明显高于普通员工可能成为异常数据但也许是合理的一部住宅电话的话费由每月200元以内增加到数千元可能因为盗打或其他原因所致一张信用卡突然出现明显的高额消费也许是因为盗用的信用卡 1 异常数据与众不同往往具有相对性如高与矮疯子与常人2 常用的检测方法异常挖掘离群挖掘例外挖掘稀有事件挖掘大数据分析与挖掘项目的特点 1 1 大数据分析与挖掘经常是从技术角度切入未知的探索1 2 比传统项目多了很多尝试成本 1 3 算法与模型的适用性与时间地域以及其他外部条件影响1 4 经常要在目标要求与算法的复杂性性能之间做出取舍数据挖掘工作常见误区只依赖一项技术算法 MCLP多目标线性规划算法 KNNK近邻算法数据挖掘工作常见误区同样研究对象应用一种模型算法模型的选择需要考虑模型对数据的适用性只有结合数据的内在特征模型的假设条件才能建立合适的模型也只有针对具体数据集才能谈模型的好坏因此数据本身的差异决定了算法模型选择的差异即使研究目的相同研究对象相似由于影响数据生成过程的因素差异性较大数据的具体表现形态也有较大差异算法也会有截然不同随着时间的推移数据的形态发生改变因此有可能需要重新选择合适的模型或者对原有相同模型进行参数调整数据挖掘工作常见误区缺乏数据对于分类问题或预估问题来说常常缺乏准确标注的案例例如欺诈侦测 FraudDetection 在上百万的交易中可能只有屈指可数的欺诈交易还有很多的欺诈交易没有被正确标注出来这就需要在建模前花费大量人力来修正信用评分 CreditScoring 需要对潜在的高风险客户进行长期跟踪比如两年从而积累足够的评分样本数据挖掘工作常见误区同样研究对象应用一种模型负荷较稳定专业技术支持负荷总量逐步提高至稳定周期性强节假日特性强日夜负荷差大有学校的台变成熟小区台变商铺较多的台变新建小区台变大数据分析与挖掘项目的开展大数据分析与挖掘的标准流程数据挖掘方法论跨行业数据挖掘标准流程 CRISP DM 业务理解数据理解数据准备评估部署需求分析从业务的角度理解项目的目的范围业务定义问题识别识别需求中待所需业务问题的内涵问题定义对业务问题进行定义确定问题概念范畴问题分解将复杂问题分解为几个相当对简单的子问题问题转化将业务问题转化为能够被数据挖掘问题关键要素问题转化工作内容将业务需求转化为数据挖掘问题如分类推荐回归聚类关联规则分析时间序列分析特征选择流数据分析等建模数据挖掘方法论关键要素数据定义数据质量分析工作内容熟悉并数据理解原始数据的含义及产生条件识别数据的质量问题发现数据的内部属性数据定义识别并理解原始数据中属性数据的含义如数据库中表的结构数据表之间的关系数据表每一列的含义格式约束条件等等数据质量分析对数据的质量进行分析基本统计量缺失值数量均值方差中值频数分位数 T检验 Z检验等等可视化点图箱型图柱状图等异常值聚类异常值检测业务理解数据理解数据准备评估部署建模数据挖掘方法论关键要素数据选择数据整合数据衍生数据转换数据清洗工作内容从原始数据中构造最终数据集的所有活动这些数据将是建模的输入值这个阶段的任务有个能执行多次没有任何规定的顺序任务包括表记录和属性的选择以及为模型工具转换和清洗数据数据选择在原始数据的基础上进行筛选根据问题定义进行数据选择如使用全部数据 nfold分块方式按比例方式 Bootstrap等数据衍生从原始数据属性的基础上派生出新的数据属性基本派生均值中值频数最小大值线形变换等根据业务的派生净资产净资产收益率折现率等数据转换对原始数据进行变换以满足数据挖掘模型需要离散化化处理非数据型数据转数值型如性别职业区域等数据平滑处理非平滑数据转化成平滑数据如时序数据中股票价格成交量等可视化点图箱型图柱状图等异常值聚类异常值检测业务理解数据准备数据理解评估部署建模数据挖掘方法论关键要素数据选择数据整合数据衍生数据转换数据清洗工作内容从原始数据中构造最终数据集的所有活动这些数据将是建模的输入值这个阶段的任务有个能执行多次没有任何规定的顺序任务包括表记录和属性的选择以及为模型工具转换和清洗数据数据清洗对数据中的异常情况进行清理提升数据质量缺失值处理均值按类别取均值聚类均值 BayesRule 近邻学习异常值处理装箱聚类回归人工处理一致性处理基于规则人工数据整合将多个数据源中的数据有机整合到一起如关系数据SQL查询按ID整合 Tag信息整合异构数据整合数据归约数据归约技术可以用来得到数据集的归约表示它小得多但仍接近地保持原数据的完整性数据归约可以解决海量数据上造成的效率与性能问题如数据方聚集维归约数据压缩离散化和概念分层产生业务理解数据准备数据理解评估部署建模数据挖掘方法论关键要素模型选择模型训练模型最优参数选择模型优化工作内容选择并应用不同的数据挖掘模型通过模型参数调整来获得最佳模型有些模型可以解决一类相同的数据挖掘问题有些模型在数据生成上有特殊要求因此可能需要经常返回到数据准备阶段模型选择根据业务理解阶段的问题转化选择不同的数据挖掘模型分类 SVM LogisticRegression MCLP DecisionTree等推荐基于内容基于知识协同过滤基于效用等回归 SVM LinearRegression GaussianProcess等聚类 Kmeans Kmedoids AffinityPropagation EM关联规则 apriori fp tree等模型训练使用数据准备阶段所准备的数据对所选模型进行训练概率论统计学随机过程机器学习人工智能最优化理论业务理解建模数据理解评估部署数据准备数据挖掘方法论关键要素模型选择模型训练模型最优参数选择模型优化工作内容选择并应用不同的数据挖掘模型通过模型参数调整来获得最佳模型有些模型可以解决一类相同的数据挖掘问题有些模型在数据生成上有特殊要求因此可能需要经常返回到数据准备阶段模型最优参数调整在选定模型后需要对模型的参数进行进一步的调整以使模型对数据有良好泛化能力网格搜索 GridSearch 为每个模型参数设定一个候选集合从全部参数的组合中根据评价指标选取最好的模型参数遗传算法每一个候选参数集合是遗传算法中的一个个体通过个体选择参数间交叉变异来选择较好的候选参数集合模型优化进一步优化模型以满足具体的业务需求如时间复杂度空间复杂度计算成本复杂度等等业务理解建模数据理解评估部署数据准备数据挖掘方法论关键要素基本指标评估业务指标评估工作内容从数据分析的角度已经建立了一个高质量的模型检查构造模型的步骤确保模型可以完成业务目标这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑基本指标评估从模型的角度对所选模型进行评估判断是否需要调整或重新选择模型如混淆矩阵 ConfusionMatrix ROC AUC K S指标等等业务指标评估从业务的角度对所选模型进行评估判断是否需要调整或重新选择模型如存款额营业额利润率挽回客户价值等等业务理解评估数据理解建模部署数据准备数据挖掘方法论关键要素模型实现系统集成可视化分析工作内容模型的创建不是数据挖掘项目的结束模型的作用是从数据中找到知识获得的知识需要便于用户使用的方式重新组织和展现根据不同的应用需求这个阶段可以产生简单的报告或是实现一个比较复杂的可重复的数据挖掘过程通常来讲一般由更加理解自身的需求的用户进行部署模型实现通过特定的软件平台将模型实现以在真实的生产系统中使用系统集成将数据挖掘模型集成到实际的生产系统当中可视化分析最终成果的可视化展示必要时需要同时对历史数据以及模型输出结果数据等进行综合的可视化分析便于分析历史判断未来比较差异等业务理解部署数据理解建模评估数据准备数据挖掘方法论大数据分析与挖掘项目的开展数据质量要求与处理数据挖掘工作

人人文库> 全部分类> 专业文献 > 工业制造

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据分析与挖掘.pptx

文档简介

温馨提示

最新文档

评论

大数据分析与挖掘.pptx

文档简介

温馨提示

最新文档

评论

相关文档