机器学习简介及实例作业PPT课件.ppt

上传人：优*** IP属地：广东上传时间：2020-01-09 格式：PPT 页数：25 大小：2.02MB 积分：35 举报 版权申诉

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

机器学习 2020 1 9 1 什么是机器学习现今机器学习已应用于多个领域远超出大多数人的想象下面就是假想的一日其中很多场景都会碰到机器学习假设你想起今天是某位朋友的生日打算通过邮局给她邮寄一张生日贺卡你打开浏览器搜索趣味卡片搜索引擎显示了10个最相关的链接你认为第二个链接最符合你的要求点击了这个链接搜索引擎将记录这次点击并从中学习以优化下次搜索结果然后你检查电子邮件系统此时垃圾邮件过滤器已经在后台自动过滤垃圾广告邮件并将其放在垃圾箱内接着你去商店购买这张生日卡片并给你朋友的孩子挑选了一些尿布结账时收银员给了你一张1美元的优惠券可以用于购买6罐装的啤酒之所以你会得到这张优惠券是因为款台收费软件基于以前的统计知识认为买尿布的人往往也会买啤酒然后你去邮局邮寄这张贺卡手写识别软件识别出邮寄地址并将贺卡发送给正确的邮车当天你还去了贷款申请机构查看自己是否能够申请贷款办事员并不是直接给出结果而是将你最近的金融活动信息输入计算机由软件来判定你是否合格 2020 1 9 2 机器学习问题的几个实例机器学习问题到处都是它们组成了日常使用的网络或桌面软件的核心或困难部分苹果的Siri语音理解系统就是实例以下是几个真正有关机器学习到底是什么的的实例 1 垃圾邮件检测根据邮箱中的邮件识别哪些是垃圾邮件哪些不是这样的模型可以程序帮助归类垃圾邮件和非垃圾邮件这个例子我们应该都不陌生 2 信用卡欺诈检测根据用户一个月内的信用卡交易识别哪些交易是该用户操作的哪些不是这样的决策模型可以帮助程序退还那些欺诈交易 3 数字识别根据信封上手写的邮编识别出每一个手写字符所代表的数字这样的模型可以帮助程序阅读和理解手写邮编并根据地利位置分类信件 4 语音识别从一个用户的话语确定用户提出的具体要求这样的模型可以帮助程序能够并尝试自动填充用户需求带有Siri系统的iPhone就有这种功能 5 人脸识别根据相册中的众多数码照片识别出那些包含某一个人的照片这样的决策模型可以帮助程序根据人脸管理照片某些相机或软件如iPhoto 就有这种功能 2020 1 9 3 什么是机器学习 1 林轩田机器学习想做的事情简单的说是要从资料中归纳出有用的规则大数据说的是对大量的资料做分析而人工智能说的是让机器看起来更聪明两者都可以使用机器学习来做核心的工具我们可以举2012年的KDD Cup做例子当年腾讯给的题目之一是希望能从大量的线上广告资料中找出这个广告到底会不会被点击的规则如果机器能找出有用的规则我们就会有更高智能的广告系统了 2 ArthurSamuel定义的机器学习 1959 在不直接针对问题进行编程的情况下赋予计算机学习能力的一个研究领域 3 通俗讲机器学习两部分首先是机器这个机器一般其实指的就是电脑其次学习这个学习也分为两部分一是数据二是算法其实和人是一样的比如你父母教你认识打棒球这个体育运动的时候肯定要给你看打棒球的图片或者视频或者需要跟你描述这个运动这些就是数据至于说算法的话描述本身就是一种算法比如他们告诉你拿着球棒这样那样挥舞击球的就是棒球这样在没有他们帮助的情况下再给你一个新的打棒球的图片你也认出这是打棒球4 简单讲就是总结过去预测未来 2020 1 9 4 什么是机器学习 2020 1 9 5 机器学习问题的类型关于机器学习有一些常见的分类以下这些分类是我们在研究机器学习时碰到的大多问题都会参考的典型分类标记数据也就是将它归入某一类如垃圾非垃圾邮件或欺诈非欺诈信用卡交易决策建模是为了标记新的未标记的数据项这可以看做是辨别问题为小组之间的差异性或相似性建模回归数据被标记以真实的值如浮点数而不是一个标签简单易懂的例子如时序数据如随着时间波动的股票价格这个建模的的决策是为新的未预测的数据估计值聚类不标记数据但是可根据相似性以及其他的对数据中自然结构的衡量对数据进行分组可以从以上十个例子清单中举出一例根据人脸而不是名字来管理照片这样用户就不得不为分组命名如Mac上的iPhoto 规则提取数据被用作对提议规则前提结果又名如果进行提取的基础这些规则可能但不都是有指向的意思是说这些方法可以找出数据的属性之间在统计学上有说服力的关系但不都是必要的涉及到需要预测的东西有一个找出买啤酒还是买尿布之间关系的例子这是数据挖掘的民间条例真实与否都阐述了期望和机会 2020 1 9 6 实例详解机器学习如何解决问题 2020 1 9 7 什么是机器学习机器学习可以分为无监督学习 unsupervisedlearning 和有监督学习 supervisedlearning 在工业界中有监督学习是更常见和更有价值的方式下文中主要以这种方式展开介绍如下图中所示有监督的机器学习在解决实际问题时有两个流程一个是离线训练流程蓝色箭头包含数据筛选和清洗特征抽取模型训练和优化模型等环节另一个流程则是应用流程绿色箭头对需要预估的数据抽取特征应用离线训练得到的模型进行预估获得预估值作用在实际产品中在这两个流程中离线训练是最有技术挑战的工作在线预估流程很多工作可以复用离线训练流程的工作所以下文主要介绍离线训练流程 2020 1 9 8 什么是模型 model 模型是机器学习中的一个重要概念简单的讲指特征空间到输出空间的映射一般由模型的假设函数和参数w组成下面公式就是LogisticRegression模型的一种表达在训练模型的章节做稍详细的解释一个模型的假设空间 hypothesisspace 指给定模型所有可能w对应的输出空间组成的集合工业界常用的模型有LogisticRegression 简称LR GradientBoostingDecisionTree 简称GBDT SupportVectorMachine 简称SVM DeepNeuralNetwork 简称DNN 等 2020 1 9 9 为什么要用机器学习解决问题 1 目标问题需要价值巨大因为机器学习解决问题有一定的代价 2 目标问题有大量数据可用有大量数据才能使机器学习比较好地解决问题相对于简单规则或人工 3 目标问题由多种因素特征决定机器学习解决问题的优势才能体现相对于简单规则或人工 4 目标问题需要持续优化因为机器学习可以基于数据自我学习和迭代持续地发挥价值 2020 1 9 10 对问题建模本文以DEAL 团购单交易额预估问题为例就是预估一个给定DEAL一段时间内卖了多少钱介绍使用机器学习如何解决问题首先需要 1 收集问题的资料理解问题成为这个问题的专家 2 拆解问题简化问题将问题转化机器可预估的问题深入理解和分析DEAL交易额后可以将它分解为如下图的几个问题 2020 1 9 11 为什么要用机器学习解决问题 1 目标问题需要价值巨大因为机器学习解决问题有一定的代价 2 目标问题有大量数据可用有大量数据才能使机器学习比较好地解决问题相对于简单规则或人工 3 目标问题由多种因素特征决定机器学习解决问题的优势才能体现相对于简单规则或人工 4 目标问题需要持续优化因为机器学习可以基于数据自我学习和迭代持续地发挥价值 2020 1 9 12 2020 1 9 13 模型选择对于DEAL交易额这个问题我们认为直接预估难度很大希望拆成子问题进行预估即多模型模式那样就需要建立用户数模型和访购率模型因为机器学习解决问题的方式类似下文只以访购率模型为例实际问题选择模型需要转化问题的业务目标为模型评价目标转化模型评价目标为模型优化目标根据业务的不同目标选择合适的模型具体关系如下通常来讲预估真实数值回归大小顺序排序目标所在的正确区间分类的难度从大到小根据应用所需尽可能选择难度小的目标进行对于访购率预估的应用目标来说我们至少需要知道大小顺序或真实数值所以我们可以选择AreaUnderCurve AUC 或MeanAbsoluteError MAE 作为评估目标以Maximumlikelihood为模型损失函数即优化目标综上所述我们选择spark版本GBDT或LR 主要基于如下考虑 1 可以解决排序或回归问题 2 我们自己实现了算法经常使用效果很好 3 支持海量数据 4 工业界广泛使用 2020 1 9 14 准备训练数据深入理解问题针对问题选择了相应的模型后接下来则需要准备数据数据是机器学习解决问题的根本数据选择不对则问题不可能被解决所以准备训练数据需要格外的小心和注意注意点 1 待解决问题的数据本身的分布尽量一致 2 训练集测试集分布与线上预测环境的数据分布尽可能一致这里的分布是指 x y 的分布不仅仅是y的分布 3 y数据噪音尽可能小尽量剔除y有噪音的数据 4 非必要不做采样采样常常可能使实际数据分布发生变化但是如果数据太大无法训练或者正负比例严重失调如超过100 1 则需要采样解决 2020 1 9 15 抽取特征完成数据筛选和清洗后就需要对数据抽取特征就是完成输入空间到特征空间的转换见下图针对线性模型或非线性模型需要进行不同特征抽取线性模型需要更多特征抽取工作和技巧而非线性模型对特征抽取要求相对较低 2020 1 9 16 特征归一化特征抽取后如果不同特征的取值范围相差很大最好对特征进行归一化以取得更好的效果常见的归一化方式如下 2020 1 9 17 特征选择特征抽取和归一化之后如果发现特征太多导致模型无法训练或很容易导致模型过拟合则需要对特征进行选择挑选有价值的特征 2020 1 9 18 训练模型完成特征抽取和处理后就可以开始模型训练了下文以简单且常用的LogisticRegression模型下称LR模型为例进行简单介绍设有m个 x y 训练数据其中x为特征向量 y为label w为模型中参数向量即模型训练中需要学习的对象所谓训练模型就是选定假说函数和损失函数基于已有训练数据 x y 不断调整w 使得损失函数最优相应的w就是最终学习结果也就得到相应的模型 2020 1 9 19 优化算法 2020 1 9 20 优化模型经过上文提到的数据筛选和清洗特征设计和选择模型训练就得到了一个模型但是如果发现效果不好怎么办首先反思目标是否可预估数据和特征是否存在bug 然后分析一下模型是Overfitting还是Underfitting 从数据特征和模型等环节做针对性优化 2020 1 9 21 Underfitting Overfitting 所谓Underfitting 即模型没有学到数据内在关系如下图左一所示产生分类面不能很好的区分X和O两类数据产生的深层原因就是模型假设空间太小或者模型假设空间偏离所谓Overfitting 即模型过渡拟合了训练数据的内在关系如下图右一所示产生分类面过好地区分X和O两类数据而真实分类面可能并不是这样以至于在非训练数据上表现不好产生的深层原因是巨大的模型假设空间与稀疏的数据之间的矛盾在实战中可以基于模型在训练集和测试集上的表现来确定当前模型到底是Underfitting还是Overfitting 判断方式如下表 2020 1 9 22 PPT模板下载总结综上所述机器学习解决问题涉及到问题建模准备训练数据抽取特征训练模型和优化模型等关键环节有如下要点 1 理解业务分解业务

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习简介及实例作业PPT课件.ppt

文档简介

温馨提示

最新文档

评论

机器学习简介及实例作业PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档