




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正。一机器学习是什么? 感觉和 Tom M. Mitchell的定义几乎一致,A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience
2、 E.简而言之,就是我们想要机器在某些方面有提高(如搜索排名的质量,即NDCG提高),就给机器一些数据(用户的点击数据等各种)然后让机器获得某些经验(Learning to rank的一种模型,也就是数学公式)。这里有点需要强调,那就是提高指标,必须要有某种指标可以量化这种提高,这点还是很关键的,工业界做机器学习,首先关注data,其次就是有无成型的measurement,可以使Precision/Recall,也可以是NDCG等。 二什么时候可以用机器学习? 其实就三要素:1. 有规律可以学习;2. 编程很难做到;3. 有能够学习到规律的数据;编程很难做到可以有多种,大部
3、分原因是系统太复杂,很难用Rule-based的东西去解决,例如搜索排名,现在影响排名的因素有超多几百种,不可能去想出这些因素的规则,因此,这时候用机器学习就是恰到好处。特别是移动互联网的今天,用户更容易接触互联网,产生的数据越来越多,那么要找到某些不容易实现的规律,用机器学习就是很好的了,这也是为啥机器学习这么火,其实我学机器学习不仅仅是一种投资(肯定它未来的发展前途),我想做的事情还有一点,就是通过它更深刻的理解人脑的学习过程,提高自己的学习效率和思维能力。 三具体如何用机器学习? 输入是两个:1 data;2 假设集合。Data如何使用?通过提取出featu
4、re vector来使用,也就是那个training examples,假设集合是用来选取最终f的。也就是说,输出就是f(或近似f)。 四第一个机器学习算法:PLA(Perceptron Learning Algorithm)课程讲述这个算法的总体思路如下(典型的提出问题,分析问题以及解决问题): 1. 通过信用卡问题引入PLA;2. 对问题用数学抽象,并得到目标函数;3. 详细解释PLA迭代(学习)过程;4. 证明PLA学习的过程可以收敛并会得到最优解;5. 分析PLA优缺点,并提出克服缺点的一些方法; 这个算法本质上是线性分类器,针对给定的feature ve
5、ctor给出Yes 或者 No的回答下面是用这个算法去解决信用卡问题的数学抽象:这里的思想在于朴素的把从用户信息抽出来的一些feature(年龄等)量化并组成vector,然后乘以一个权重向量,并设定一个阈值,大于这个阈值就表示好,小于表示不好,很明显这个式子的未知变量有两个(实际只有一个):1. 权重向量 wi, 1<=i<=d;2. 阈值,下面设为0做一点小小的变形使得式子更加紧凑,还有就是从这个模型可以知道,regression model也可以解决classification问题,转化的思想。下面是这个算法的核心,定义了学习目标之后,如何学习?
6、这里的学习是,如何得到最终的直线去区分data? 这个算法的精髓之处在于如何做到"做错能改",其循环是不断遍历feature vector,找到错误的点(Yn和当前Wt*Xn不符合),然后校正Wt,那么为什么要这样校正?因为这样可以保证Wt越来越靠近perfect直线Wf(ps.暂时没想到正向思维是如何得到这个式子的)课程像大多数课本一样,用逆向思维给予介绍,就是在给定这样能够做的情况下去证明,即证明为什么这样做可以不断接近目标,以及最终一定会停止?下面道出了PLA终止的条件: 这个是比较容易想到的,如果不能用直线去区分data(线性不可分)
7、,肯定是解决不了的,所以必须要满足线性可分,其实问题的关键在于如何方便的知道某些数据是否线性可分?这个在课程中目前没有涉及,一种简单的解决方法是画出来,直观的去看,这个我觉得不是好方法。 这两页PPT比较复杂,其实就是在利用条件证明,下面重新组织下给出思路,因为Latex用中文不太爽,就用英文了: 五 PLA的优缺点为了应对Noisy,我们不可能得到完美的直线,那么怎么衡量当前得到的直线能够满足要求呢?凭直觉,我们知道如果当前直线犯错越少越好(对所有data),于是有了下面的改进算法,Pocket PLA,本质上就是在改错的时候多做一步 - 判断当前改正犯的错是否比之前更小,也就是贪心选择 上了一周台大的这个课程感觉老师还是很负责任,特别是循循善诱的教学方式真正是站在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全文化推广方案试题及答案
- 施工安全相关证照要求试题及答案
- 施工现场安全案例分析试题及答案
- 比较静态与动态物理现象试题及答案
- 激发创造力的幼儿园数学考试试题及答案
- 余杭初一期末试卷及答案
- 失业人员面试题及答案
- 英语模拟考试卷子及答案
- 小学教师教育教学反思与改进策略的测评标准
- 一下册考试试卷及答案
- 德国政治制度简介课件
- 古诗《江上渔者》讲课稿课件
- 高标准基本农田建设项目监理月报1期
- 温泉度假设施造价预算
- 水质自动在线监测系统技术协议1010审计
- DBJ04∕T 258-2016 建筑地基基础勘察设计规范
- 七年级地理下双向细目表
- 企业风险评估报告模板
- 网吧员工劳动合同书
- Revit基础入门课件
- 小升初英语奥数题
评论
0/150
提交评论