




已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习 2020 1 9 1 什么是机器学习 现今 机器学习已应用于多个领域 远超出大多数人的想象 下面就是假想的一日 其中很多场景都会碰到机器学习 假设你想起今天是某位朋友的生日 打算通过邮局给她邮寄一张生日贺卡 你打开浏览器搜索趣味卡片 搜索引擎显示了10个最相关的链接 你认为第二个链接最符合你的要求 点击了这个链接 搜索引擎将记录这次点击 并从中学习以优化下次搜索结果 然后 你检查电子邮件系统 此时垃圾邮件过滤器已经在后台自动过滤垃圾广告邮件 并将其放在垃圾箱内 接着你去商店购买这张生日卡片 并给你朋友的孩子挑选了一些尿布 结账时 收银员给了你一张1美元的优惠券 可以用于购买6罐装的啤酒 之所以你会得到这张优惠券 是因为款台收费软件基于以前的统计知识 认为买尿布的人往往也会买啤酒 然后你去邮局邮寄这张贺卡 手写识别软件识别出邮寄地址 并将贺卡发送给正确的邮车 当天你还去了贷款申请机构 查看自己是否能够申请贷款 办事员并不是直接给出结果 而是将你最近的金融活动信息输入计算机 由软件来判定你是否合格 2020 1 9 2 机器学习问题的几个实例 机器学习问题到处都是 它们组成了日常使用的网络或桌面软件的核心或困难部分 苹果的Siri语音理解系统就是实例 以下 是几个真正有关机器学习到底是什么的的实例 1 垃圾邮件检测 根据邮箱中的邮件 识别哪些是垃圾邮件 哪些不是 这样的模型 可以程序帮助归类垃圾邮件和非垃圾邮件 这个例子 我们应该都不陌生 2 信用卡欺诈检测 根据用户一个月内的信用卡交易 识别哪些交易是该用户操作的 哪些不是 这样的决策模型 可以帮助程序退还那些欺诈交易 3 数字识别 根据信封上手写的邮编 识别出每一个手写字符所代表的数字 这样的模型 可以帮助程序阅读和理解手写邮编 并根据地利位置分类信件 4 语音识别 从一个用户的话语 确定用户提出的具体要求 这样的模型 可以帮助程序能够并尝试自动填充用户需求 带有Siri系统的iPhone就有这种功能 5 人脸识别 根据相册中的众多数码照片 识别出那些包含某一个人的照片 这样的决策模型 可以帮助程序根据人脸管理照片 某些相机或软件 如iPhoto 就有这种功能 2020 1 9 3 什么是机器学习 1 林轩田 机器学习想做的事情 简单的说是要从资料中归纳出有用的规则 大数据说的是对大量的资料做分析 而人工智能说的是让机器看起来更聪明 两者都可以使用机器学习来做核心的工具 我们可以举2012年的KDD Cup做例子 当年腾讯给的题目之一 是希望能从大量的线上广告资料中 找出 这个广告到底会不会被点击 的规则 如果机器能找出有用的规则 我们就会有更高 智能 的广告系统了 2 ArthurSamuel定义的机器学习 1959 在不直接针对问题进行编程的情况下 赋予计算机学习能力的一个研究领域 3 通俗讲 机器学习 两部分 首先是 机器 这个机器一般其实指的就是 电脑 其次学习 这个学习也分为两部分 一是 数据 二是 算法 其实和人是一样的 比如你父母教你认识 打棒球 这个体育运动的时候 肯定要给你看打棒球的图片或者视频 或者需要跟你描述这个运动 这些就是 数据 至于说 算法 的话 描述本身就是一种算法 比如他们告诉你 拿着球棒 这样那样挥舞击球的就是棒球 这样 在没有他们帮助的情况下 再给你一个新的打棒球的图片 你也认出这是打棒球4 简单讲就是 总结过去 预测未来 2020 1 9 4 什么是机器学习 2020 1 9 5 机器学习问题的类型 关于机器学习 有一些常见的分类 以下这些分类 是我们在研究机器学习时碰到的大多问题都会参考的典型 分类 标记数据 也就是将它归入某一类 如垃圾 非垃圾 邮件 或欺诈 非欺诈 信用卡交易 决策建模是为了标记新的未标记的数据项 这可以看做是辨别问题 为小组之间的差异性或相似性建模 回归 数据被标记以真实的值 如浮点数 而不是一个标签 简单易懂的例子如时序数据 如随着时间波动的股票价格 这个建模的的决策是为新的未预测的数据估计值 聚类 不标记数据 但是可根据相似性 以及其他的对数据中自然结构的衡量对数据进行分组 可以从以上十个例子清单中举出一例 根据人脸 而不是名字 来管理照片 这样 用户就不得不为分组命名 如Mac上的iPhoto 规则提取 数据被用作对提议规则 前提 结果 又名如果 进行提取的基础 这些规则 可能但不都是有指向的 意思是说 这些方法可以找出数据的属性之间在统计学上有说服力的关系 但不都是必要的涉及到需要预测的东西 有一个找出买啤酒还是买尿布之间关系的例子 这是数据挖掘的民间条例 真实与否 都阐述了期望和机会 2020 1 9 6 实例详解机器学习如何解决问题 2020 1 9 7 什么是机器学习 机器学习可以分为无监督学习 unsupervisedlearning 和有监督学习 supervisedlearning 在工业界中 有监督学习是更常见和更有价值的方式 下文中主要以这种方式展开介绍 如下图中所示 有监督的机器学习在解决实际问题时 有两个流程 一个是离线训练流程 蓝色箭头 包含数据筛选和清洗 特征抽取 模型训练和优化模型等环节 另一个流程则是应用流程 绿色箭头 对需要预估的数据 抽取特征 应用离线训练得到的模型进行预估 获得预估值作用在实际产品中 在这两个流程中 离线训练是最有技术挑战的工作 在线预估流程很多工作可以复用离线训练流程的工作 所以下文主要介绍离线训练流程 2020 1 9 8 什么是模型 model 模型 是机器学习中的一个重要概念 简单的讲 指特征空间到输出空间的映射 一般由模型的假设函数和参数w组成 下面公式就是LogisticRegression模型的一种表达 在训练模型的章节做稍详细的解释 一个模型的假设空间 hypothesisspace 指给定模型所有可能w对应的输出空间组成的集合 工业界常用的模型有LogisticRegression 简称LR GradientBoostingDecisionTree 简称GBDT SupportVectorMachine 简称SVM DeepNeuralNetwork 简称DNN 等 2020 1 9 9 为什么要用机器学习解决问题 1 目标问题需要价值巨大 因为机器学习解决问题有一定的代价 2 目标问题有大量数据可用 有大量数据才能使机器学习比较好地解决问题 相对于简单规则或人工 3 目标问题由多种因素 特征 决定 机器学习解决问题的优势才能体现 相对于简单规则或人工 4 目标问题需要持续优化 因为机器学习可以基于数据自我学习和迭代 持续地发挥价值 2020 1 9 10 对问题建模 本文以DEAL 团购单 交易额预估问题为例 就是预估一个给定DEAL一段时间内卖了多少钱 介绍使用机器学习如何解决问题 首先需要 1 收集问题的资料 理解问题 成为这个问题的专家 2 拆解问题 简化问题 将问题转化机器可预估的问题 深入理解和分析DEAL交易额后 可以将它分解为如下图的几个问题 2020 1 9 11 为什么要用机器学习解决问题 1 目标问题需要价值巨大 因为机器学习解决问题有一定的代价 2 目标问题有大量数据可用 有大量数据才能使机器学习比较好地解决问题 相对于简单规则或人工 3 目标问题由多种因素 特征 决定 机器学习解决问题的优势才能体现 相对于简单规则或人工 4 目标问题需要持续优化 因为机器学习可以基于数据自我学习和迭代 持续地发挥价值 2020 1 9 12 2020 1 9 13 模型选择 对于DEAL交易额这个问题 我们认为直接预估难度很大 希望拆成子问题进行预估 即多模型模式 那样就需要建立用户数模型和访购率模型 因为机器学习解决问题的方式类似 下文只以访购率模型为例 实际问题选择模型 需要转化问题的业务目标为模型评价目标 转化模型评价目标为模型优化目标 根据业务的不同目标 选择合适的模型 具体关系如下 通常来讲 预估真实数值 回归 大小顺序 排序 目标所在的正确区间 分类 的难度从大到小 根据应用所需 尽可能选择难度小的目标进行 对于访购率预估的应用目标来说 我们至少需要知道大小顺序或真实数值 所以我们可以选择AreaUnderCurve AUC 或MeanAbsoluteError MAE 作为评估目标 以Maximumlikelihood为模型损失函数 即优化目标 综上所述 我们选择spark版本GBDT或LR 主要基于如下考虑 1 可以解决排序或回归问题 2 我们自己实现了算法 经常使用 效果很好 3 支持海量数据 4 工业界广泛使用 2020 1 9 14 准备训练数据 深入理解问题 针对问题选择了相应的模型后 接下来则需要准备数据 数据是机器学习解决问题的根本 数据选择不对 则问题不可能被解决 所以准备训练数据需要格外的小心和注意 注意点 1 待解决问题的数据本身的分布尽量一致 2 训练集 测试集分布与线上预测环境的数据分布尽可能一致 这里的分布是指 x y 的分布 不仅仅是y的分布 3 y数据噪音尽可能小 尽量剔除y有噪音的数据 4 非必要不做采样 采样常常可能使实际数据分布发生变化 但是如果数据太大无法训练或者正负比例严重失调 如超过100 1 则需要采样解决 2020 1 9 15 抽取特征 完成数据筛选和清洗后 就需要对数据抽取特征 就是完成输入空间到特征空间的转换 见下图 针对线性模型或非线性模型需要进行不同特征抽取 线性模型需要更多特征抽取工作和技巧 而非线性模型对特征抽取要求相对较低 2020 1 9 16 特征归一化 特征抽取后 如果不同特征的取值范围相差很大 最好对特征进行归一化 以取得更好的效果 常见的归一化方式如下 2020 1 9 17 特征选择 特征抽取和归一化之后 如果发现特征太多 导致模型无法训练 或很容易导致模型过拟合 则需要对特征进行选择 挑选有价值的特征 2020 1 9 18 训练模型 完成特征抽取和处理后 就可以开始模型训练了 下文以简单且常用的LogisticRegression模型 下称LR模型 为例 进行简单介绍 设有m个 x y 训练数据 其中x为特征向量 y为label w为模型中参数向量 即模型训练中需要学习的对象 所谓训练模型 就是选定假说函数和损失函数 基于已有训练数据 x y 不断调整w 使得损失函数最优 相应的w就是最终学习结果 也就得到相应的模型 2020 1 9 19 优化算法 2020 1 9 20 优化模型 经过上文提到的数据筛选和清洗 特征设计和选择 模型训练 就得到了一个模型 但是如果发现效果不好 怎么办 首先 反思目标是否可预估 数据和特征是否存在bug 然后 分析一下模型是Overfitting还是Underfitting 从数据 特征和模型等环节做针对性优化 2020 1 9 21 Underfitting Overfitting 所谓Underfitting 即模型没有学到数据内在关系 如下图左一所示 产生分类面不能很好的区分X和O两类数据 产生的深层原因 就是模型假设空间太小或者模型假设空间偏离 所谓Overfitting 即模型过渡拟合了训练数据的内在关系 如下图右一所示 产生分类面过好地区分X和O两类数据 而真实分类面可能并不是这样 以至于在非训练数据上表现不好 产生的深层原因 是巨大的模型假设空间与稀疏的数据之间的矛盾 在实战中 可以基于模型在训练集和测试集上的表现来确定当前模型到底是Underfitting还是Overfitting 判断方式如下表 2020 1 9 22 PPT模板下载 总结 综上所述 机器学习解决问题涉及到问题建模 准备训练数据 抽取特征 训练模型和优化模型等关键环节 有如下要点 1 理解业务 分解业务
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿安全口才培训心得课件
- 本章复习与测试教学设计-2025-2026学年初中数学鲁教版五四制2012六年级下册-鲁教版五四制2012
- 幼儿培训安全风险分析
- 3.3 服务业区位因素及其变化 教学设计 2024-2025学年高中地理人教版(2019)必修二
- 5.2生活中的透镜(说课稿)-2024-2025学年人教版物理八年级上学期
- 第一单元 负数(教学设计)-2024-2025学年六年级下册数学人教版
- 幼儿园防疫安全培训内容课件
- 福利院活动活动方案
- 答谢员工活动方案
- 美睫双十一团购活动方案
- 彩虹 第一课时 课件
- DB63-T 1921-2021 交通运输专业空间数据分类与编码规范
- (完整版)铝合金门窗施工方案
- 宽带基础培训知识课件
- 2025年国家电投黄河公司毕业生招聘考试笔试试题(含答案)
- 茶叶与咖啡混合饮品创新创业项目商业计划书
- 节点评审管理办法
- 来华留学生管理办法
- GJB2489A2023航空机载设备履历本及产品合格证编制要求
- 屠宰加工人员职业技能模拟试卷含答案
- 无烟世界健康共享课件
评论
0/150
提交评论