版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、会计学1AI统计学习理论与支持向量机人工智能统计学习理论与支持向量机人工智能课程浙江大学研究生课程浙江大学研究生第1页/共67页第2页/共67页STL & SVM的数学基础概率论与数理统计泛函分析第3页/共67页STL&SVM所坚持的“基本信念”传统的估计高维函数依赖关系的方法所坚传统的估计高维函数依赖关系的方法所坚持的信念持的信念 实际问题中总存在较少数目的一些“强特征强特征”,用它们的简单函数(如线性组合)就能较好地逼近未知函数。因此,需要仔细地选择一个低维的特征空间仔细地选择一个低维的特征空间,在这个空间中用常规的统计技术来求解一个逼近。STL&SVM所坚持的信念所坚持的信念 实际问题中
2、存在较大数目的一些“弱特征弱特征”,它们“巧妙的”线性组合可较好地逼近未知的依赖关系。因此,采用什么样的采用什么样的“弱特征弱特征”并不十并不十分重要,而形成分重要,而形成“巧妙的巧妙的”线性组合更为重线性组合更为重要要。第4页/共67页STL&SVM与传统方法的区别:要较好地实现传统方法传统方法,需要人工选择(构造)一些数目相对较少的“巧妙的特征”SVM方法方法则是自动地选择(构造)一些数目较少的“巧妙的特征”在实际应用中,可通过构造两层(或构造两层(或多层)多层)SVM来选择“巧妙的特征”第5页/共67页STL & SVM集以下模型于一身:结构风险最小化(SRM)模型数据压缩模型构造复合特
3、征的一个通用模型 在希尔伯特空间中的内积回旋可以 看作是构造特征的一种标准途径。对实际数据的一种模型 一个小的支持向量集合可能足以对不同的机器代表整个训练集。第6页/共67页第7页/共67页。n统计学习理论统计学习理论 一种研究小样本估计和预测的理论.第8页/共67页发现了泛函空间的大数定理,得到了关于收敛速度的非渐进界的主要结论。第9页/共67页SLT的发展历史(续)Vapnik和Chervonenkis(1974)提出了结构风结构风险最小化(险最小化(SRMSRM)归纳原则归纳原则。Vapnik和Chervonenkis(1989)发现了经验风险最小化归纳原则和最大似然方法一致性的充分必要
4、条件,完成了对经验风险最小化归纳推理的分析。90年代中期,有限样本情况下的机器学习理论研究逐渐成熟起来,形成了较完善的理论体系统计学习理论(Statistical Learning Theory,简称SLT)第10页/共67页第11页/共67页GLMSX Xyy第12页/共67页第13页/共67页1122( ,),(,),(,)nnx yxyxy ( , )f x0 ( ,)f x( , )P x y( )( ,( ,)( , )RL y f xdP x y第14页/共67页。第15页/共67页上述原则意味着,当解决模式识别或回归估计问题时,必须设法去必须设法去“直接直接”寻找寻找待求的函数待
5、求的函数,而不是首先估计密度,然后用估计的密度来构造待求的函数。密度估计密度估计是统计学中的一个全能问题,即知道了密度就可以解决各种问题。一般地,估计密度是一个不适定问题(ill-posed problem),需要大量观测才能较好地解决。实际上,需要解决的问题(如决策规则估计或回归估计)是很特殊的,通常只需要通常只需要有某一合理数量的观测就可以解决有某一合理数量的观测就可以解决。第16页/共67页11()(,(,)nem piiiRwLyfxwn( )empRw()Rw第17页/共67页第18页/共67页第19页/共67页第20页/共67页第21页/共67页第22页/共67页第23页/共67页
6、h2第24页/共67页第25页/共67页第26页/共67页第27页/共67页( )()(VC)lim0( )lim0( )lim0 xannxxH nnHnnG nn收敛的充分 必要 条件熵快收敛速度的充分条件 与概率测度无关的快收敛充要条件第28页/共67页( )empRw( )R w1(ln(2/)1)ln(/ 4)()()emphn hRRn第29页/共67页(ln(2/)1)ln(/ 4)()()emphn hRRn()()()e m pnRRh 1第30页/共67页第31页/共67页第32页/共67页第33页/共67页第34页/共67页第35页/共67页第36页/共67页12,HH第
7、37页/共67页第38页/共67页注:2()1wxb第39页/共67页()1,1,.,iiyw xbilRbRwbxwN, 0).(11( , ),.,( , ), 1, 1 nllx yx y x R y 2w2w第40页/共67页211( )()22() 1,1,.,iiwww wyw xbilliiiibwxywbwL1221) 1)(),(第41页/共67页liiiibwxywbwL1221) 1)(),(0),(0),(bwLwbwLbiiliiiliixywya110liiiiliiiililjijijijiibxxyxfyandlixxyyW1111,21)(sgn()(0,.,
8、1, 0)()(第42页/共67页4x3x2x1x2221234223341( )()(444)2Q12342323402124141x1 =(0, 0), y1 = +1x2 =(1, 0), y2 = +1x3 =(2, 0), y3 = -1x4 =(0, 2), y4 = -1利用公式利用公式 1 y1 2 y2 3 y3 4 y4= 0,且分别对且分别对 2, 3, 4求偏导,得求偏导,得 第43页/共67页123412013 / 41 / 41120312002144231113,02224()3220wbgxxx 第44页/共67页第45页/共67页()ijxx第46页/共67页
9、2( ,),( )0( ),) ( ) ( )0K x xxx dxKxxx dxdx 对于任意的对称函数它是某个特征空间中的内积运算的充要条件是,对于任意的且有(x,第47页/共67页第48页/共67页第49页/共67页第50页/共67页第51页/共67页第52页/共67页第53页/共67页分类器错误率人工表现2.5%决策树C4.516.2%最好的两层神经网络 5.9%SVM4.0%第54页/共67页SVM与神经网络(NN)的对比SVM的理论基础比NN更坚实,更像一门严谨的“科学科学”(三要素:问题的表示、问题的解决、证明)SVM 严格的数学推理NN 强烈依赖于工程技巧推广能力推广能力取决于
10、“经验风险值”和“置信范围值”,NN不能控制两者中的任何一个。NN设计者用高超的工程技巧弥补了数学设计者用高超的工程技巧弥补了数学上的缺陷上的缺陷设计特殊的结构,利用启发式算法,有时能得到出人意料的好结果。第55页/共67页“我们必须从一开始就澄清一个观点,就是如果某事不是科学,它并不一定不好。比如说,爱情就不是科学。因此,如果我们说某如果我们说某事不是科学,并不是说它有什么不对,而事不是科学,并不是说它有什么不对,而只是说它不是科学只是说它不是科学。” by R. Feynman from The Feynman Lectures on Physics, Addison-Wesley同理,与SVM相比,NN不像一门科学,更像一门工程技巧,但并不意味着它就一定不好!第56页/共67页第57页/共67页第58页/共67页第59页/共67页第60页/共67页第61页/共67页第62页/共67页课后编程实现题目(二选一):设计并实现一个简单的用于文本分类的SVM设计并实现一个简单的基于SVM的“新闻分离器新闻分离器”,主要用于对浙大BBS“缥缈水云间”中zjuonline版上的新闻进行分类。第63页/共67页多科学研究的基本原则,很多科学研究的基本原则,很有启发、借鉴意义。有启发、借鉴意义。第6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论