机器学习与数据挖掘-清华大学_第1页
机器学习与数据挖掘-清华大学_第2页
机器学习与数据挖掘-清华大学_第3页
机器学习与数据挖掘-清华大学_第4页
机器学习与数据挖掘-清华大学_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、机器学习的困惑与历史启示,王焕,第九届机器学习及其应用研讨会,2011年11月,清华大学,自然模型,抽样,算法,交叉验证,假设iid,统计机器学习的故障,什么?,问题:模型是自然模型吗? 统计机器学习,如果数据不够,在大变量集合下,如何设计实验,获得新数据。 统计机器学习的困难:实验设计有组合问题。 PS将成为与自然模型无关的假设! 在特殊函数的接近、社会需求、生物、网络、金融、经济和安全等许多领域,大量变量聚集的数据不断涌出,社会迫切需要分析处理这些数据的有效理论、方法和技术。 分析和处理大变量聚集大量数据的新理念、理论、方法和技术成为一项紧迫的任务。 基于历史故事、线性探测器和最小二乘的R

2、osenblatt探测器(1956 )本质上是多变量空间上的平均(回归)。 1902年,James的神经元是1943年,McCulloch和Pitts的神经元的工作方式是1949年,Hebb的学习律。 贡献是多变量回归的计算方法(神经网络)。 基函数: l=1d2i3g4s设计算法、确定、捕获模型、疑问只能解决线性问题,不能满足实际需要。 填补被批评的借口。 20世纪70年代面临的选择,统计优化(平均): 线性感知机统计模式识别,复杂信息系统(结构): 专家系统语法模式识别,选择,非线性问题计算效率,专家系统实现合理复杂问题解决智能系统的理想,Duda and Hart73,贝叶斯判别(损失函

3、数导入,正规化问题if d=0 g=a then l=0 if I=0 g=a then l=1,AI,1969年,M.Minsky发布了霸权报告表象面向XOR问题基于平均的感知机很难,本质上正在探索代替平均的结构性方法。 全书使用拓扑作为工具。 1956年,以复杂的信息处理为契机,提出了PS。 其动机有两个:一是发展了处理符号的方法,二是处理非线性问题。 过于强调独立性,任何问题都需要包罗一切可能性。 80年代,花费巨额费用的PS“失败”。 统计方法需要达成共识。 20世纪80年代面临的选择,概率图模型(Bayes学派) : Markov随机场Bayes网,人工神经网络(频率数学派) : B

4、P统计机器学习、选择、结构学习困难事先的结构先验概率分布估计是NPC, 字符识别网络数据建模误差界指导算法设计算法基于线性感知器,不需要事先知识,没有估计就以泛化为中心,但Gibbs1902、Wright 1935 Clifford 1971 pearl 1988 , 89 ),统计机器学习,1991年,Vapnik借用AI中的PAC,给了基于iid的误差界,基于PAC的统计开始成为主流,1986年,Remulhart发表PDP报告,包括非线性BP算法,解决XOR,逼近非线性函数学术价值低,人们再次开始尝试“平均”方法。 从ANN到SML,致力于字符识别的成功,神经网络有助于基于PAC的机器学

5、习统计学的机器学习, (1)有助于基于iid的误差边界指导算法设计,(2)算法设计返回感知机,线性算法有助于线性空间(核映射) 基于PAC理论,误差界以1概率成立。 这个参数被解释为泛化的意思:理想,应该为零,但误差界变得无限,成为平凡的界。 新世纪开始,统计学家加入短信,完全放弃了PAC(Hastie )。 次元灾害,高维空间上的统计理论,多重积分很麻烦,补充样本很麻烦。 “同分布”只能停留在假设上,不能实施。 如果用高维空间(数百数千)进行模型化,最大的危险是在空间大的程度上制作很多样品,在这个空间里也很稀疏。困难是本质的,平均会遇到大麻烦! 概率图模型把平均值放在局部,避免了维数灾害的问

6、题,泛化和模型的说明得到保证,重要的是结构,对局部平均值进行结构化。 根据平均的研究,在过去20多年、2009年,Koller公司出版了巨大的着作(近1200页),建立了概率图模型。 为了解决贝叶斯问题,考虑、结构(全局)平均值(局部)、问题,一、二、估计三、学习、概率图模型三个要素是-I-map、P(I、d、g、l、S)=、P(I )、P(D | I )、P(G | I、d )、P(L | I )=P(D)P(I ),P(L|G ),P(S|I ),P(D ),P(L,I|G)=P(L|G)P(I|G ),I和d相互独立,l仅与g相关,其他独立,s仅与I相关,其他独立,P(I ),P(G|I

7、 (1)被连接的节点维持连接。 (2)X和y有共同的子孙,x和y相连。 因为、Bayes网可以很容易地转换成Markov网,所以统计上,此方法可以属于Bayes类别,Markov网是解决Bayes问题的一种方法。 解决Bayes问题有两种方法: (1)直接解决,转换为困难(Markov网,用最优化方法解决。 (与Duda Hart的想法一致)。 估计-贝叶斯问题、估计和概率查询(y边):根据给定的地图计算P(Y | E=e )。 在证据E=e的条件下y出现的概率(边缘概率)。 (1)基于给出的BN,用联合分布: P()= P(Xi | PaXi ),(2)e计算变量y的边缘分布: p(y|e)

8、=x-y-ep (),并计算为NPC问题(或多重积分、贝叶斯问题)。 解Bayes问题的两个途径(Duda(1973 ),Koller(2009 ) ),(1)直接解:动态计划,Clique树,蒙特卡洛等。 (2)可变分解:设定目标函数(损失),使之成为正规化问题。 学习、假设:给出了结构,样本完整(所有变量都分配了)。 任务:学习参数、参数估计。 CPD方法: (1)最大似然估计,(2)拜尔预测,假设:结构不详,但样本完整。 任务:学习结构和参数。 考虑到可能结构的假设空间,结构选择成为最优化问题。 的双曲正切值。 假设示例不完整,或者某些变量未知。 任务:发现未表达的变量,发现知识。 学习

9、结构的两种策略: d、a、c、b、虚拟空间:结构是变量连接的所有组合。 学习结构:根据某个标准,求出I-map,标准:对某个结构的评价-评分。 I (g )= a b ,I(g)=ac ),I (g )= a e,I (g )= a e,be,cd,ac,目标:从虚拟空间中选择可能性最大的模型(结构和参数),并通过知识库建立结构(或减小虚拟空间历史进程-20年东,20年河西? 1986-今天的平均(数值计算)统计机器学习,1943-1969平均(数值计算)探测器,2000-今后的平均结构? 概率图模型? 1956-1986结构(符号计算)人工智能、M. Minsky等perceptron s

10、: anintroductiontocomputationalggeometry.1969、D. Rumelhart等, paralleldistributedprocess 1986 v.va pnik,thenatureofstatisticallearningtheory,1995 T.Hastie等,theelementsofstatisticallearning 2003 D. Koller等probabilisticgraphicalmodels : principlesandtechniques,2009,总结:我们的纠纷、统计机器学习以“泛化”为中心。 泛化:很多不确定观察的平均是确定的,在里面。 iid很难截断:(1)很多实际问题需要模型化,(2)通过泛化所构建的模型是实际问题的近似,(3)不知道有什么新的标准会代替泛化。 Koller这本书不是以泛化为中心的,她的宗旨和AI很像。 前景:“预测”和“说明”,预测和说明是数据挖掘提出的两项任务,但数据挖掘的说明任务一直不顺利(啤酒和尿布)。 被嘲笑! 地图模型可以去除噪声,实现紧凑的(对AI的全面)表示,还可以说明模型的各个部分。 前者是预测(泛化),后者是描述(发现)。金融和生物等领域,计算机科学有两种战

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论