金融科技工具箱-pub course6.1机器学习_第1页
金融科技工具箱-pub course6.1机器学习_第2页
金融科技工具箱-pub course6.1机器学习_第3页
金融科技工具箱-pub course6.1机器学习_第4页
金融科技工具箱-pub course6.1机器学习_第5页
免费预览已结束,剩余34页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

201

9机器学习:绪论CONTENT01机器学习02机器学习简单分类03界线噪音目标与样本04Part01机器学习从人的学习到机器的学习机器学习的公式表达机器学习与其他概念1.1人是如何学习的1.1机器如何学习机器学习:基于数据,通过计算的结果,提升部分的表现MLdataPerformance

measure存在生成的规律:使得表现可以提升,且这种提升是有意义的计算适中:一方面不存在简单规律(物理),另一方面在计算能力以内存在数据:有足够的数据来描述pattern。(N,b,data)含义:帮助

决策是否应当使用机器学习1.2机器学习的公式表达MLdataPerformance

measure定义如下:输入:

x

𝒳

一系列特征,(例如

,职位,信用历史)输出:

y

𝒴

指标,

(是否发生违约)数据生成过程,即存在目标函数

𝑓:

𝒳 →

𝒴

(现实世界如何)数据,即存在一些已观测值,

𝒟

=

{

𝒙

-

,

𝑦-

,

𝒙0,

𝑦0

,

,

(𝒙3,

𝑦3)}

(已发生的事实)假设,那些能够模拟数据生成过程的算法

𝑔:

𝒳 →

𝒴

(学到的,执行的

算法){(𝒙3,

𝑦3)}

from

𝑓

ML

𝑔1.2机器学习的抽象未知目标函数𝒇:

𝓧

𝓨部分数据=训练集𝓓

=

{

𝒙𝟏,

𝒚𝟏

,

,

(𝒙𝒏,

𝒚𝒏)}学习算法集合𝓐计算结果𝑔

𝒇假设集合𝓗机器学习:使用数据,通过计算寻找假设𝑔使其接近目标函数𝒇1.3机器学习与其他概念对比机器学习vs大数据大数据在

时候是商业概念,是宣传所用,不应成为学术用语大数据有的大,数据量大为复杂算法带来可能,b>N使得部分算法得到重视机器学习vs人工智能人工智能的概念范畴要比机器学习更大,机器学习只是一种实现方式类似的“实践经验”,靠谱的人工智能都有了更

的名字机器学习vs统计学二者关系相当复杂,这里面又有频率学派、

学派的恩怨纠葛机器学习相当多的理论基础、算法基于统计学,但机器学习始终在统计学的绳子上起伏机器学习vs计量经济学从技术而言,计量经济学大部分方法是机器学习中的一小部分从目的上讲,机器学习的终极目标在于模拟数据生成模式,做出,实现操作上的“

”。计量经济学的目的在于衡量因果、衡量影响,单纯的

不足以满足。计量应是对理论结果的验证而非DMPart02机器学习的简单分类结果的类型标的的类型训练过程输入类型2.1输出结果的类型输出空间为离散:二分类、多分类输出空间为连续:回归输出结果为结构化:结构学习(文本树)输出结果为输入2.2标的的类型有

的数据:有监督学习无

的数据:无监督数据理论上无法给出

&

实践上无法给出聚类问题;密度估计;异常检测有部分数据带

:半监督学习有部分/隐含的:强化学习2.3按照训练过程喂所有数据:Batch批处理一个个喂数据:online上面二者的结合:mini-batch让算法自己吃自助:Active

Learning2.4按照数据类型特征数据:有具体的含义原始数据:图像、声音本身抽象(

)数据:无意义的uid,主成分,其他中间结果Part03机器学习的界限失效标的的类型训练过程输入类型3.1一道题3.1说一些

熟悉的东西一个熟悉的问题:R2高的回归结果就一定好么一个熟悉的定理:大数定律Hoeffding不等式𝕡 𝜈

𝜇 >

𝜖 ≤

2exp(−2𝜖0𝑁)3.1回到机器学习未知目标函数𝒇:

𝓧

𝓨部分数据=训练集𝓓

=

{

𝒙𝟏,

𝒚𝟏

,

,

(𝒙𝒏,

𝒚𝒏)}学习算法集合𝓐计算结果𝑔

𝒇假设集合𝓗未知的一部分数据P

on

𝓧3.1回到机器学习3.1如果无法数据抽样的影响“坏数据”对于部分算法,样本内外误差偏差极大3.1坏数据上限即,如果 的假设集的大小M是有限的,当N足够大时样本内误差与样本外误差的差距就会足够小训练方法能够保证𝐸MN差距够小,那么𝐸MN做的足够小,如果又能保证𝐸OPQ与也就完成了真正的机器学习3.1为什么如此关心这件事儿未知目标函数𝒇:

𝓧

𝓨部分数据=训练集𝓓

=

{

𝒙𝟏,

𝒚𝟏

,

,

(𝒙𝒏,

𝒚𝒏)}学习算法集合𝓐计算结果𝑔

𝒇假设集合𝓗未知的一部分数据P

on

𝓧𝐸MN与𝐸RST差距是否足够小𝐸MN是不是能够做的足够小𝐸MN(𝑔)

0𝐸OPQ(𝑔)

03.1关于M:假设集的大小M实际上包含两部分信息:纳入分析的变量

变量间的组合关系M小的时候,很容易保证样本内误差与样本外误差差距很小,但是很难使样本内误差足够小M大的时候,很容获得高的样本内误差,但是坏数据带来的影响会非常大3.1再议M,从何而来3.1真实情况下,M如何3.1M的增长:Breaking

point3.1M的增长:Breaking

point之后如果k=2

N=3,会怎样?3.1M的增长:一个更合适的表达

B(N,k)B(N,k)123456123344563.1M的增长:一个更合适的表达

B(N,k)B(N,k)123456112222228841151633.1M的增长:B(N,k)的推导:B(4,3)3.1M的增长:B(N,k)的推导:B(4,3)3.1M的增长:VC定理3.1VC定理的含义𝑑WX

𝑙𝑎𝑟𝑔𝑒𝑠𝑡

𝑁

𝑠.

𝑡.

𝑚b𝑁 =

2

c3.1VC

dimension𝑑WX

𝑙𝑎𝑟𝑔𝑒𝑠𝑡

𝑁

𝑠.

𝑡.

𝑚b𝑁 =

2

c3.1VC

线性可分3.1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论