大数据挖掘与统计机器学习课件第58章_第1页
大数据挖掘与统计机器学习课件第58章_第2页
大数据挖掘与统计机器学习课件第58章_第3页
大数据挖掘与统计机器学习课件第58章_第4页
大数据挖掘与统计机器学习课件第58章_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、五、决策树与组合方法5.1.决策树 5.1.1 决策树的基本知识 常用算法ID3C4.5CART核心归纳算法1二分类示意需要说明的一些问题1.二叉树还是多叉树2.自变量的进一步处理3. 其他的决策树算法4.决策树的一些问题7 5.2.4 讨论Bagging算法在基预测器不稳定的情况下很有用,而当基预测器稳定时,Bagging算法并不有效。 Bagging算法可以让好的分类器(错分率e0.5)效果更坏。 对于回归问题,M的值可以取得小一些,对于分类问题,尤其是当y的类别比较多的时候,M的取值应该大一些。 每次进行Bootstrap抽样时,我们选择的样本量都等于原始训练集的样本量n。当提高Boot

2、strap抽样样本量的个数至2n后,大约有14%的样本点没有被抽中,但是Bagging算法的精度并没有提高。 如果从偏差方差分解的角度理解Bagging算法,它可以提高不稳定基预测器的预测精度,实质上是减小了预测的方差(variance),但并没有降低偏差(bias)。所以通常Bagging不剪枝的决策树。 11125.3.2 可加模型:从统计的角度看Adaboost各种理论解释偏差-方差分解减小偏差,boosting树桩或者很小的树提升边际博弈论可加模型可以证明二分类AdaBoost算法是最小化指数损失L(y, f(x)=exp(-yf(x) 的分步向前可加模型y取值+1或-1131617六

3、、神经网络与深度学习6.1.神经网络 6.1.1 人工神经元的模型 (1)生物神经元18#截取一部分点进行分析t matplotlib.patches as patchesfig1 = plt.figure(figsize=(6,10)ax1 = fig1.add_subplot(1,1,1, aspect=equal)ax1.add_patch(patches.Rectangle(-74.0,40.66),0.05,0.045,fill=False,edgecolor=r,linewidth=3)22神经元的常用激活函数 6.1.2 人工神经网络的结构 (1)前向网络 前向网络中神经元是分层

4、排列的,每层神经元只接收来自前一层神经元的输入信号,并将信号处理后输出至下一层,网络中没有任何回环和反馈。前向网络的层按功能可分为输入层、隐层和输出层。 (2)反馈网络 反馈网络又称递归网络、回归网络,它和前向网络的区别在于它至少有一个反馈环,形成封闭回路,即反馈网络中至少有一个神经元将自身的输出信号作为输入信号反馈给自身或其他神经元。 6.1.3 人工神经网络的学习 (1)学习方式有监督学习(有导师学习) 无监督学习(无导师学习) 强化学习 (2)学习规则误差纠正学习规则 Hebb学习规则 6.1.4 感知机 感知器神经网络是一种典型的前向神经网络,具有分层结构,信息从输入层进入网络并逐层向

5、前传递至输出层。 (1)单层感知器(2)多层感知器 由于单层感知器只能处理线性可分的数据,而现实世界中的数据大多不是线性可分的,因此相关研究者提出在单层感知器的输入层和输出层之间增加一个或多个隐层,由此构成多层感知器,也称为多层前向神经网络。反向传播算法(Back Propagation Algorithm,简称BP算法): BP算法由信号的正向传播与误差的反向传播两部分组成。在正向传播过程中,信号由网络的输入层经隐层逐层传递至输出层,得到网络的实际输出。若此实际输出与期望输出不一致,则转入误差反向传播阶段。在反向传播阶段,将输出误差经由隐层向输入层反传,从而获得各层各单元的误差信号,依此信号

6、对网络连接权值进行调整。反复执行信号的正向传播与误差的反向传播这两个过程,直至网络输出误差小于预先设定的阈值,或进行到预先设定的学习次数为止。 BP网络的输入层与输出层的节点数依据所处理的任务确定后,还需确定隐层数和隐层节点数。 确定隐层节点数的最基本原则是:在满足精度要求的前提下取尽可能紧凑的结构,即取尽可能少的隐层节点数。这意味着可以先从隐层节点数少的神经网络开始训练,然后增加节点数,选取网络误差最小时对应的节点数;也可一开始加入足够多的隐层节点数,通过学习把不太起作用的隐层节点删去。 296.2.深度学习 深度神经网络是指含有多个隐层的神经网络,与含有一个隐层的浅层神经网络相对应。它模仿

7、大脑皮层的深度架构来处理数据。 对含有一个隐层的浅层网络使用BP算法能获得较好效果,对深度神经网络使用BP算法进行训练存在一定的问题: 梯度弥散问题局部极值问题数据获取问题深度学习方法:卷积神经网络(Convolutioal Neural Networks,CNN)深度玻尔兹曼机(Deep Boltzmann Machine,DBM)深度信念网栈式自编码网络(Stacked Autoencoder)306.2.2 深度信念网 DBN最顶部两层间的连接是无向的,它们的联合分布形成一个RBM; 较低的其他层构成有向的图模型。DBN可作为一个生成模型,顶层RBM与具有P()分布的实线箭头构成生成路径

8、。DBN也可提取数据的多层次的表示进行推理与识别,具有Q()分布的虚线箭头与顶层RBM构成识别路径。当自下而上进行学习时,顶层RBM 从隐层学习;当自上而下学习时,顶层RBM作为生成模型的起始器。鉴于传统的梯度下降算法针对多隐层网络训练效果不佳,Hinton 等人提出了深度信念网的贪婪逐层预训练学习方法(greedy layer-wise training), 获得较好的效果。贪婪逐层预训练学习的基本思想为:每次只训练网络中的一层,以此得到网络的初始参数值。具体而言,首先训练只含一个隐层的网络,得到其初始参数值,接着训练含两个隐层的网络,随后训练含三个隐层的网络,依此类推。在训练含k个隐层的网

9、络时,固定已经训练好的前k-1个隐层的初始参数值,将其输出作为新加入的第k个隐层的输入进行训练,得到该层的初始化参数。在对多层进行训练得到初始化参数后,对整个深度结构神经网络的参数进行微调(fine-tuning),所得网络的学习性能会有很大提高。通过贪婪逐层预训练学习方法所获得的DBN参数并不是最优的,因此DBN对预训练得到的各层参数进一步微调,得到整个多层模型的参数。例如,Hinton于2006年提出使用Up-down算法(Wake-sleep算法的一个变形)继续进行无监督训练,以得到更好的生成模型。DBN中自下而上的权值用于“认知”,并获得输入数据在各隐层的表示;自上而下的权值用于“生成

10、”,利用输入数据的潜在表示进行重构,得到近似的输入数据。Up-down算法的目的是获得数据的简洁表示,同时希望输入数据能够被准确地重构。Up-down算法分为三个阶段:第一阶段,通过使用认知权值进行随机自下向上的传播, 然后修改生成权值使得更好地重构下面层中的特征激活值;第二阶段,在顶层RBM中进行多次迭代采样,然后通过CD算法调整RBM的权值;第三阶段,通过生成权值进行自上向下的随机传播,然后修改认知权值使得更好地重构上面层中的特征激活值。七、支持向量机 在众多分类方法中,支持向量机(Support Vector Machine, SVM)是非常重要的一种,它于20世纪90年代由Vapnik

11、 等人提出,开始主要用于二分类,后来扩展到模式识别、多分类及回归等。支持向量机是一种典型的监督学习模型,从几何的角度来看,它的学习策略是间隔最大化,可化成一个凸二次规划的问题。从代数的角度来看,支持向量机是一种损失函数加罚的模型。367.1.线性可分支持向量机 7.1.1 简介如果两类点可以用一条直线或一个超平面分开,则称这些点是线性可分(linearly separable)模式;如果这两类点不能用一条直线或者一个超平面分开,那么这些点是线性不可分模式。 线性可分支持向量机:37在现有的训练数据下,无疑同时远离两类数据点的直线是最好的。因此问题变成如何度量点到直线的距离,然后最大化这些距离的

12、和。这就是所谓的最大间隔原则。我们所要求的最宽的隔离带实际上并不是由所有样本点决定的,而仅仅是由训练集中的三个点,即第4,8,30个观测点确定的,这三个点(当然也是向量)就称为支持向量(support vector),它们刚好在隔离带的边界(margin)上。38394041424344454647八、聚类分析 聚类分析属于无监督的统计学习的一种,是在没有训练目标的情况下将样本划分为若干类的方法。通过聚类分析, 使得同一个类中的对象有很大的相似性,而不同类的对象有很大的相异性。聚类分析广泛用于客户细分、 结构分组和行为跟踪等问题,取得了很好的效果。 48495051528.1.3 K均值聚类

13、K-means算法的基本思想简单直观,以空间中K个点为中心进行聚类,对最靠近它们的对象进行归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。 在算法开始前,需要输入参数K, 然后将事先输入的n个数据对象划分为K 个聚类, 使得最终聚类结果具有以下性质:在同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小。优点:简洁和快速。算法的关键在于初始中心的选择和距离公式。缺点:需要一个输入参数,不合适的K 值可能返回较差的结果。53545556575859606162638.4.双向聚类 之前介绍的聚类方法是根据变量的取值对观测进行聚类。本节介绍的双向聚类同时考虑观测与变量的差

14、异。64用户,产品V1V2VmU1101U2011 Un10065BIMAX的迭代算法:第一步: 重排行和列, 使得1集中在矩阵的右上角。第二步: 将矩阵分为两个子矩阵,若一个子矩阵中只有1, 则返回该子矩阵。为了得到一个令人满意的结果, 该方法需要从不同的起点重复几次。BIMAX尝试识别出E中只包含0的区域,可以在进一步的分析中排除这些区域。因此当E为稀疏矩阵时,BIMAX具有独特的优势。此外,BIMAX需要的存储空间和运算时间都较少。66九、推荐系统 推荐系统是在信息过载时信息拥有者向它的受众进行有选择的推送的系统。 9.1.基于邻居的推荐 9.1.1 基于邻居的预测算法 总体来看,基于用户或者物品的推荐属于基于邻居的推荐方法。所谓邻居,是指与一个对象比较近的其他对象。所谓物以类聚、人以群分,距离比较近的对象往往具有相近的特征。6768697071727374759.2.潜在因子与矩阵分解算法 潜在因子方法是一种矩阵分解算法,又叫隐因子模型(Koren et al.,2009),本质上是一种降维方法。 9.2.1 基于矩阵分解的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论