




已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据与机器学习 海量数据可广泛获得,所稀缺的是如何从中挖掘出智慧和观点。 Google 首席经济学家 Hal Varian 大数据分析主要依靠机器学习和大规模计算,机器学习已成为大数据的 基石。 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率 论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计 算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织 已有的知识结构使之不断改善自身的性能。 简而言之,机器学习是一种通过利用数据,训练出模型,然后使用模型 预测的一种方法。 机器学习的常见用途 统计分析与数据挖掘 应用一系列技术从大型数据库或数据仓库 的数据中提取人 们感兴趣的信息和知识 这些信息和知识是隐含的、未知的、潜在有用的 表示为概念、规则 、规律和模式等形式 新型的商业分析处理技术,帮助决策者寻找数据间潜在的 关联,发现 被忽略的因素 这些信息和因素对预测趋势 和决策行为是至关重要的 技术上的定义 在没有明确假设的前提下去挖掘信息、发现 知识 所获信息具有先前未知,有效和可实用三个特征 商业角度的定 义 与传统分析方 法的区别 什么是数据挖掘? 数据分析与数据挖掘的区别 数据分析数据挖掘 数据量 数据量一般不大数据量通常很大 约束 从一个既定假设(目标)出发可以不需要既定的假设(目标) 对象 针对数字化的数据可以针对数字化的数据,还可以针 对声音,文本,图像等 结果 对结果进行解释,呈现有效的信 息 结果有时不容易解释,着眼于预测 未来,提出决策建议 数据分析只是在已定的假设、先验约束上处理原有计算方法,统计 方法,将数据分析转化为信息,而这些信息如果需要进一步的获得认知,转 化为有效的预测和决策,这时就需要数据挖掘 数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知 的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分 析和数据挖掘结合使用。 大数据分析与挖掘的常见用途 1、自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手 工分析的问题如今可以迅速直接由数据本身得出结论。 谷歌预测冬季流感的传播 初步锁定与流感相关的关键词条 谷歌数据库 用户搜索记 录 美国疾控中心记录 的流感事件发生的 区域和时间 预测模型预测结 果 谷歌准确的预测出2009年甲型H1N1流感的爆发,并明确 指出爆发地所在的州以及时间。与滞后的官方数据相比 ,谷歌成为一个更有效及时的指示者。 优化词条筛选 大数据分析与挖掘的常见用途 2、关联分析 数据关联是数 据库中存在的一类重要的 可被发现的知识。若两个 或多个变量的取值之间存 在某种规律性,就称为关 联。关联可分为简单关 联、时序关联、因果关 联。关联分析的目的是找 出数据库中隐藏的关联 网。有时并不知道数据库 中数据的关联函数,即使 知道也是不确定的,因此 关联分析生成的规则带有 可信度。 购物篮分析 顾顾客一次购买购买 商品 1面包、黄油、啤酒、尿布、牛奶 2咖啡、糖、小甜饼、鲑鱼 3面包、黄油、咖啡、尿布、牛奶、鸡蛋、啤酒 4面包、黄油、鲑鱼、鸡 5鸡蛋、面包、黄油 6啤酒、鲑鱼、尿布、牛奶 7番茄、啤酒、虾、苹果 8土豆、面包、牛奶、生菜 9啤酒、面包、尿布、咖啡 10茶叶、鸡蛋、盐、啤酒 经过关联分析,发现顾客经常同时购买的产品中,啤酒与尿布同时出现的频率最高 大数据分析与挖掘的常见用途 3、聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强 了人们对客观现实的认识,是概念描述和偏差分析的先决条件。 经过对电信行业用户的特征进行聚类,可以完成客户的画像,可以基于多个维度完 成画像,也可以基于关联分析的基础上进行降维处理后再开展画像。 年龄 收入 话费支出 群体A:年龄50岁以上 年收入20K以下 月话费支出50元以下 群体B:年龄3050岁 年收入80K以上 月话费支出200元以上 群体C:年龄2030岁 年收入50K 月话费支出100元 大数据分析与挖掘的常见用途 4、概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特 征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后 者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有 对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 序号按时还时还 款婚姻状态态应纳应纳 税收入诈骗诈骗 嫌疑 1是单身125K否 2否已婚100K否 3否单身70K否 4是已婚120K否 5否离异95K是 6否已婚60K否 7是离异220K否 8否单身85K是 9否已婚75K否 10否单身90K是 按时还款 否婚姻状态 是 否 应纳税收 入 否 单身.离异 已婚 否是 80K 决策树 大数据分析与挖掘的常见用途 4、概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特 征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后 者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有 对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 大数据分析与挖掘的常见用途 5、偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意 义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测 结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找 观测结果与参照值之间有意义的差别。 一个人的年龄为-999可能是程序处理缺省数据的方式导致的 一个公司的高管工资明显高于普通员工可能成为异常数据但也许是合理的 一部住宅电话的话费由每月200元以内增加到数千元可能因为盗打或其他原因所致 一张信用卡突然出现明显的高额消费也许是因为盗用的信用卡 1、异常数据与众不同,往往具有相对性 如高与矮、疯子与常人 2、常用的检测方法 异常挖掘、离群挖掘、例外挖掘、 稀有事件挖掘 大数据分析与挖掘项目的特点 1.1大数据分析与挖掘经常是从技术角度切入:未知的探索 1.2比传统项目多了很多尝试成本: 1.3算法与模型的适用性与时间、地域以及其他外部条件影响 1.4经常要在目标要求与算法的复杂性、性能之间做出取舍 数据挖掘工作常见误区 只依赖一项技术/算法 MCLP 多目标线性规划算法 KNN K近邻算法 数据挖掘工作常见误区 同样研究对象应用一种模型 算法模型的选择,需要考虑模型对数据的适用性,只有结合数据的 内在特征、模型的假设条件,才能建立合适的模型,也只有针对具 体数据集,才能谈模型的好坏。因此数据本身的差异,决定了算法 模型选择的差异。 即使研究目的相同,研究对象相似,由于影响数据生成过程的因素 差异性较大,数据的具体表现形态也有较大差异,算法也会有截然 不同。 随着时间的推移,数据的形态发生改变,因此有可能需要重新选择 合适的模型,或者,对原有相同模型进行参数调整。 数据挖掘工作常见误区 缺乏数据 对于分类问题或预估问题来说,常常缺乏准确标注的案例。 例如: 欺诈侦测(Fraud Detection):在上百万的交易中,可能只有屈指 可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要 在建模前花费大量人力来修正。 信用评分(Credit Scoring):需要对潜在的高风险客户进行长期跟 踪(比如两年),从而积累足够的评分样本。 数据挖掘工作常见误区 同样研究对象应用一种模型 负荷较稳定 专业技术支持 负荷总量逐步提高至稳定 周期性强 节假日特性强 日夜负荷差大 有学校的 台变 成熟小区 台变 商铺较多 的台变 新建小区 台变 大数据分析与挖掘项目的开展 大数据分析与挖掘的标准流程 数据挖掘方法论 业务理解(Business Understanding) 数据理解(Data Understanding) 建模(Modeling) 数据准备(Data Preparation) 评估(Evaluation) 部署(Deployment) 跨行业数据挖掘标准流程(CRISP-DM) 业务理解数据理解数据准备评估部署 需求分析: 从业务的角度理解项目的目的、范围、业务定义。 问题识别:识别需求中待所需业务问题的内涵。 问题定义:对业务问题进行定义,确定问题概念范畴。 问题分解:将复杂问题分解为几个相当对简单的子问题。 问题转化:将业务问题转化为能够被数据挖掘问题。 关键要素:问题转化 工作内容 u 将业务需求转化为数据挖掘问题。 如:分类、推荐、回归、聚类、关联规则分析、时间序列分析、特征选择、流数据分析 等。 建模 数据挖掘方法论 关键要素:数据定义、数据质量分析 工作内容 熟悉并数据理解原始数据的含义及产生条件,识别数据的质量问题,发现数据的内部属 性。 u 数据定义:识别并理解原始数据中属性数据的含义。 如:数据库中表的结构,数据表之间的关系,数据表每一列的含义、格式、约束条件等 等。 u 数据质量分析:对数据的质量进行分析。 基本统计量:缺失值数量、均值、方差、中值、频数、分位数、T检验、Z检验等等。 可视化:点图、箱型图、柱状图等。 异常值:聚类、异常值检测 业务理解 数据理解 数据准备评估部署建模 数据挖掘方法论 关键要素:数据选择、数据整合、数据衍生、数据转换、数据清洗 工作内容 从原始数据中构造最终数据集的所有活动。这些数据将是建模的输入值。这个阶段的任务 有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具 转换和清洗数据。 u 数据选择:在原始数据的基础上进行筛选,根据问题定义进行数据选择。 如:使用全部数据、n fold分块方式、按比例方式、Bootstrap等。 u 数据衍生:从原始数据属性的基础上派生出新的数据属性。 基本派生:均值、中值、频数、最小(大)值、线形变换等。 根据业务的派生:净资产、净资产收益率、折现率等。 u 数据转换:对原始数据进行变换,以满足数据挖掘模型需要。 离散化化处理:非数据型数据转数值型,如性别、职业、区域等。 数据平滑处理:非平滑数据转化成平滑数据,如时序数据中股票价格、成交量等。 可视化:点图、箱型图、柱状图等。 异常值:聚类、异常值检测 业务理解 数据准备 数据理解 评估部署建模 数据挖掘方法论 关键要素:数据选择、数据整合、数据衍生、数据转换、数据清洗 工作内容 从原始数据中构造最终数据集的所有活动。这些数据将是建模的输入值。这个阶段的任务 有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具 转换和清洗数据。 u 数据清洗:对数据中的异常情况进行清理,提升数据质量。 缺失值处理:均值、按类别取均值、聚类均值、Bayes Rule、近邻学习 异常值处理:装箱、聚类、回归、人工处理 一致性处理:基于规则、人工 u 数据整合:将多个数据源中的数据有机整合到一起。 如:关系数据SQL查询、按ID整合、Tag信息整合、异构数据整合。 u 数据归约:数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近地保 持原数据的完整性,数据归约可以解决海量数据上造成的效率与性能问题。 如:数据方聚集、维归约、数据压缩、离散化和概念分层产生。 业务理解 数据准备 数据理解 评估部署建模 数据挖掘方法论 关键要素:模型选择、模型训练、模型最优参数选择 、模型优化 工作内容 选择并应用不同的数据挖掘模型,通过模型参数调整来获得最佳模型。有些模型可以解决 一类相同的数据挖掘问题。有些模型在数据生成上有特殊要求,因此可能需要经常返回到数 据准备阶段。 u 模型选择:根据业务理解阶段的问题转化选择不同的数据挖掘模型 分类:SVM、Logistic Regression、MCLP、Decision Tree等。 推荐:基于内容、基于知识、协同过滤、基于效用等。 回归:SVM、Linear Regression、Gaussian Process等。 聚类:Kmeans、Kmedoids 、Affinity Propagation、EM 关联规则:apriori、fp-tree等。 u 模型训练:使用数据准备阶段所准备的数据对所选模型进行训练。 概率论、统计学、随机过程;机器学习;人工智能;最优化理论 业务理解 建模 数据理解 评估部署数据准备 数据挖掘方法论 关键要素:模型选择、模型训练、模型最优参数选择 、模型优化 工作内容 选择并应用不同的数据挖掘模型,通过模型参数调整来获得最佳模型。有些模型可以解决 一类相同的数据挖掘问题。有些模型在数据生成上有特殊要求,因此可能需要经常返回到数 据准备阶段。 u 模型最优参数调整:在选定模型后,需要对模型的参数进行进一步的调整,以使模型 对数据有良好泛化能力。 网格搜索(Grid Search):为每个模型参数设定一个候选集合,从全部参数的组合中根 据评价指标选取最好的模型参数。 遗传算法:每一个候选参数集合是遗传算法中的一个个体,通过个体选择、参数间交 叉、变异来选择较好的候选参数集合。 u 模型优化:进一步优化模型以满足具体的业务需求。 如:时间复杂度、空间复杂度、计算成本复杂度等等。 业务理解 建模 数据理解 评估部署数据准备 数据挖掘方法论 关键要素:基本指标评估、业务指标评估 工作内容 从数据分析的角度已经建立了一个高质量的模型。检查构造模型的步骤,确保模型可以完 成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。 u 基本指标评估:从模型的角度对所选模型进行评估,判断是否需要调整或重新选择模 型。 如:混淆矩阵(Confusion Matrix)、ROC、AUC、K-S指标等等。 u 业务指标评估:从业务的角度对所选模型进行评估,判断是否需要调整或重新选择模 型。如,存款额、营业额、利润率、挽回客户价值等等。 业务理解 评估 数据理解建模 部署数据准备
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江省天台县2025年上半年事业单位公开遴选试题含答案分析
- 云南省陆良县2025年上半年事业单位公开遴选试题含答案分析
- 2025版教育产业入股合作协议书规范范本
- 2025年美容美发店转让及专业技术支持合同
- 2025年度吊车设备租赁与操作人员技能培训合同
- 2025年泵车租赁与租赁期间设备技术升级及改造合同
- 2025版乳胶漆涂装工程安全管理与应急预案承包合同
- 河北省昌黎县2025年上半年事业单位公开遴选试题含答案分析
- 2025年度轻钢别墅工程绿色建筑认证与推广合同
- 2025年二手车过户交易合同书
- 2023年山西日报社招聘笔试模拟试题及答案解析
- 国土空间生态修复规划与全域土地综合整治的衔接
- 糖皮质激素性骨质疏松症及其治疗
- PMC运作流程详解课件生产计划制定与物料控制方法培训
- 2022年省直辖行政单位政务中心综合窗口人员招聘笔试试题及答案解析
- YY/T 0127.11-2014口腔医疗器械生物学评价第11部分:盖髓试验
- GB/T 3836.3-2021爆炸性环境第3部分:由增安型“e”保护的设备
- 制药工程导论课件
- T-CIATCM 002-2019 中医药信息数据元目录
- 班主任培训讲稿(共12张PPT)
- 推拿手法精品课件
评论
0/150
提交评论