




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、机器学习整理资料1、学习方法:二分类:每个分类器只能把样本分为两类。瓦普尼克95年提出来基础的支持向量机就是个二分类的分类器,这个分类器学习过 程就是解一个基于正负二分类推导而来的一个最优规划问题(对偶问题),要解决多分类问题 就要用决策树把二分类的分类器级联,VC维的概念就是说的这事的复杂度。 多分类问题: 针对不同的属性训练几个不同的弱分类器,然后将它们集成为一个强分类器。层次聚类: 创建一个层次等级以分解给定的数据集。此方法分为自上而下(分解)和自下而上(合并)两种操作方式。K-中心点聚类:挑选实际对象来代表簇,每个簇使用一个代表对象。它是围绕中心点划分的一种规则回归分析:处理变量之间具
2、有相关性的一种统计方法结构分析: 结构分析法是在统计分组的基础上,计算各组成部分所占比重,进而分析某一总体现象的内部结构特征、总体的性质、总体内部结构依时间推移而表现出的变化规律性的统计方法。结构分析法的基本表现形式,就是计算结构标。2、监督学习算法:决策树、朴素贝叶斯、逻辑回归、KNN、SVM、神经网络、随机森林、AdaBoost、遗传算法无监督学习算法:聚类、关联规则、训练/学习、预测、K-Means、BIRCH、Apriori3、Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是: 特征变量X的各个维度是类别条件独立随机变量朴素:特征条件独立贝叶
3、斯:基于贝叶斯定理4、CRF(条件随机场算法)模型对于HMM(隐马尔可夫模型)和MEMM(最大熵隐马尔科夫模型)模型的优势: 特征灵活、可容纳较多上下文信息、全局最优三者的比较、优点:(1)CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样)与HMM比较(2)同时,由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。 与MEMM比较(3)CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。与ME比较缺点:训练代价大、
4、复杂度高5、KNN算法:K-NN算法通过计算新数据与训练数据特征值之间的距离, 然后选取 K (K=1) 个距离最近的邻居进行分类或者回归. 如果K = 1 , 那么新数据将被分配给其近邻的类k-NN最近邻方法在样本较少但典型性好的情况下效果较好.6、在HMM中,如果已知观察序列和产生观察序列的状态序列,极大似然估计方法直接进行参数估计。EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法 维特比算法: 用动态规划解决HMM的预测问题,不是参数估计 前向后向:用来算概率 极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数 7、常见的判别模型
5、有: 支持向量机 传统的神经网络 线性判别分析 线性回归逻辑回归 最近邻 CRF Boosting 产生式模型常见的主要有: 高斯 朴素贝叶斯 混合多项式 混合高斯模型 专家的混合物 隐马尔可夫模型 马尔可夫的随机场 HMMs Sigmoidal Belief Networks, Bayesian Networks Markov Random Fields Latent Dirichlet Allocation 8、已知一组数据的协方差矩阵P,1、主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小2、在经主分量分解后,协方差矩阵成为对
6、角矩阵3、主分量是通过求协方差矩阵的特征值得到4、K-L变换与PCA变换是不同的概念,PCA的变换矩阵是协方差矩阵,K-L变换的变换矩阵可以有很多种(二阶矩阵、协方差矩阵、总类内离散度矩阵等等)。当K-L变换矩阵为协方差矩阵时,等同于PCA。9、假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,1、模型效果相比无重复特征的情况下精确度会降低 2、当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题10、SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifie
7、r)在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。11、SPSS(统计产品与服务解决方案”软件)中,数据整理的功能主要集中在(数据、转换 )等菜单中12、数据清理中,处理缺失值的方法有两种:删除法:1)删除观察样本 2)删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除3)使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析4)改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按
8、照不同的权重进行加权,可以降低删除缺失数据带来的偏差查补法:均值插补、回归插补、抽样填补等成对删除与改变权重为一类;估算与查补法为一类13、卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。14、规则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。1、L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用。L1正则化偏向于稀疏,它会自动进行特征选择,去掉一些没用的特征,也就是将这些
9、特征对应的权重置为0.2、使用L2可以得到平滑的权值.L2主要功能是为了防止过拟合,当要求参数越小时,说明模型越简单,而模型越简单则,越趋向于平滑,从而防止过拟合。L2范数: |W|2, 因为它的强大功效是改善机器学习里面一个非常重要的问题:过拟合。通过L2范数,我们可以实现了对模型空间的限制,从而在一定程度上避免了过拟合。线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。 15、感知器准则函数:代价函数J=-(W*X+w0),分类的准则是最小化代价函数。感知器是神经网络(NN)的基础, SVM:支持向量机也是很经典的算法,优化目标是最大化间隔(mar
10、gin),又称最大间隔分类器,是一种典型的线性分类器。(使用核函数可解决非线性问题) Fisher准则:更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能小,不同类样本距离尽可能大,具体为最大化“广义瑞利商”。 贝叶斯分类器:一种基于统计方法的分类器,要求先了解样本的分布特点(高斯、指数等),所以使用起来限制很多。在满足一些特定条件下,其优化目标与线性分类器有相同结构(同方差高斯分布等),其余条件下不是线性分类。 线性分类器三种最优准则: Fisher 准则 :根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线 向量方向,使两类样本
11、在该方向上的投影满足类内尽可能密集,类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。 感知准则函数 :准则函数以使错分类样本到分界面距离之和最小为原则。 其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元 网络多层感知器的基础。 支持向量机 :基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的 间隔为最大,它的基本出发点是使期望泛化风险尽可能小。 16、INDEX: 函数返回表格或区域中的值或值的引用 . MATCH: 在范围单元格中搜索特定的项 , 然后返回该项在此区域中的相对位置 . VLOOKUP&HLOOKUP: 在表格的
12、首行或数值数组中搜索值 , 然后返回表格或数组中指定 行的所在列中的值 . 当比较值位于数据表格的首行时 , 如果要向下查看指定的行数 , 则可 使用 HLOOKUP; 当比较值位于所需查找的数据的左边一列时 , 则可使用 VLOOKUP. FIND: 返回一个字符串在另一个字符串中出现的起始位置 ( 区分大小写 ). IF: 可以对值和期待值进行逻辑比较 . LIKE: 可用Like运算符自定义字符比较函数之类的, 应该是VBA的函数. 17、统计模式分类问题中,当先验概率未知时,可以使用1、最小最大损失准则2、N-P判决A. 最小最大损失准则考虑p(wi)变化的条件下,是风险最小 B. 最
13、小误判概率准则, 就是判断p(w1|x)和p(w2|x)哪个大,x为特征向量,w1和w2为两分类,根据贝叶斯公式,需要用到先验知识 C. 最小损失准则,在B的基础之上,还要求出p(w1|x)和p(w2|x)的期望损失,因为B需要先验概率,所以C也需要先验概率 D. N-P判决,即限定一类错误率条件下使另一类错误率为最小的两类别决策,即在一类错误率固定的条件下,求另一类错误率的极小值的问题,直接计算p(x|w1)和p(x|w2)的比值,不需要用到贝叶斯公式18、隐马尔可夫模型三个基本问题以及相应的算法说法1、评估前向后向算法2、解码维特比算法3、学习Baum-Welch算法19、聚类的目标是使同
14、一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法1、层次聚类算法1.1聚合聚类1.1.1相似度依据距离不同:Single-Link:最近距离、Complete-Link:最远距离、Average-Link:平均距离1.1.2最具代表性算法1)CURE算法特点:固定数目有代表性的点共同代表类优点:识别形状复杂,大小不一的聚类,过滤孤立点2)ROCK算法特点:对CURE算法的改进优点:同上,并适用于类别属性的数据3)CHAME
15、LEON算法特点:利用了动态建模技术1.2分解聚类1.3优缺点优点:适用于任意形状和任意属性的数据集;灵活控制不同层次的聚类粒度,强聚类能力缺点:大大延长了算法的执行时间,不能回溯处理2、分割聚类算法2.1基于密度的聚类2.1.1特点将密度足够大的相邻区域连接,能有效处理异常数据,主要用于对空间数据的聚类2.1.2典型算法1)DBSCAN:不断生长足够高密度的区域2)DENCLUE:根据数据点在属性空间中的密度进行聚类,密度和网格与处理的结合3)OPTICS、DBCLASD、CURD:均针对数据在空间中呈现的不同密度分不对DBSCAN作了改进2.2基于网格的聚类2.2.1特点利用属性空间的多维
16、网格数据结构,将空间划分为有限数目的单元以构成网格结构;1)优点:处理时间与数据对象的数目无关,与数据的输入顺序无关,可以处理任意类型的数据2)缺点:处理时间与每维空间所划分的单元数相关,一定程度上降低了聚类的质量和准确性2.2.2典型算法1)STING:基于网格多分辨率,将空间划分为方形单元,对应不同分辨率2)STING+:改进STING,用于处理动态进化的空间数据3):结合网格和密度聚类的思想,能处理大规模高维度数据4)WaveCluster:以信号处理思想为基础2.3基于图论的聚类2.3.1特点转换为组合优化问题,并利用图论和相关启发式算法来解决,构造数据集的最小生成数,再逐步删除最长边
17、1)优点:不需要进行相似度的计算2.3.2两个主要的应用形式1)基于超图的划分2)基于光谱的图划分2.4基于平方误差的迭代重分配聚类2.4.1思想逐步对聚类结果进行优化、不断将目标数据集向各个聚类中心进行重新分配以获最优解2.4.2具体算法1)概率聚类算法期望最大化、能够处理异构数据、能够处理具有复杂结构的记录、能够连续处理成批的数据、具有在线处理能力、产生的聚类结果易于解释2)最近邻聚类算法共享最近邻算法SNN特点:结合基于密度方法和ROCK思想,保留K最近邻简化相似矩阵和个数不足:时间复杂度提高到了O(N2)3)K-Medioids算法特点:用类中的某个点来代表该聚类优点:能处理任意类型的
18、属性;对异常数据不敏感4)K-Means算法1特点:聚类中心用各类别中所有数据的平均值表示2原始K-Means算法的缺陷:结果好坏依赖于对初始聚类中心的选择、容易陷入局部最优解、对K值的选择没有准则可依循、对异常数据较为敏感、只能处理数值属性的数据、聚类结构可能不平衡3K-Means的变体Bradley和Fayyad等:降低对中心的依赖,能适用于大规模数据集Dhillon等:调整迭代过程中重新计算中心方法,提高性能Zhang等:权值软分配调整迭代优化过程Sarafis:将遗传算法应用于目标函数构建中Berkh in等:应用扩展到了分布式聚类还有:采用图论的划分思想,平衡聚类结果,将原始算法中的
19、目标函数对应于一个各向同性的高斯混合模型5)优缺点优点:应用最为广泛;收敛速度快;能扩展以用于大规模的数据集缺点:倾向于识别凸形分布、大小相近、密度相近的聚类;中心选择和噪声聚类对结果影响大3、基于约束的聚类算法3.1约束对个体对象的约束、对聚类参数的约束;均来自相关领域的经验知识3.2重要应用对存在障碍数据的二维空间按数据进行聚类,如COD(Clustering with Obstructed Distance):用两点之间的障碍距离取代了一般的欧式距离3.3不足通常只能处理特定应用领域中的特定需求4、用于高维数据的聚类算法4.1困难来源因素1)无关属性的出现使数据失去了聚类的趋势2)区分界
20、限变得模糊4.2解决方法1)对原始数据降维2)子空间聚类CACTUS:对原始空间在二维平面上的投影CLIQUE:结合基于密度和网格的聚类思想,借鉴Apriori算法3)联合聚类技术特点:对数据点和属性同时进行聚类文本:基于双向划分图及其最小分割的代数学方法4.3不足:不可避免地带来了原始数据信息的损失和聚类准确性的降低5、机器学习中的聚类算法5.1两个方法1)人工神经网络方法自组织映射:向量化方法,递增逐一处理;映射至二维平面,实现可视化基于投影自适应谐振理论的人工神经网络聚类 2)基于进化理论的方法缺陷:依赖于一些经验参数的选取,并具有较高的计算复杂度 模拟退火:微扰因子;遗传算法(选择、交
21、叉、变异)5.2优缺点优点:利用相应的启发式算法获得较高质量的聚类结果缺点:计算复杂度较高,结果依赖于对某些经验参数的选择20、位势函数法的积累势函数K(x)的作用相当于Bayes判决中的1、后验概率2、类概率密度与先验概率的乘积在(1、选用的可分性判据J对特征数目单调不减2、)情况下,用分支定界法做特征选择计算量相对较少分支定界法(branch and bound)是一种求解 整数规划 问题的最常用算法。这种方法不但可以求解纯整数规划,还可以求解混合整数规划问题。分支定界法是计算机最擅长 的广义搜索穷举算法。 分支定界法是一种搜索与迭代的方法,选择不同的分支变量和子问题进行分支。 对于两个变
22、量的整数规划问题,使用网格的方法有时更为简单。分支定界法类似决策树的决策特征,要选择那些具有强可分辨性的少量特征。21、可以用于特征降维的方法包括(ABCD)A主成分分析PCA B线性判别分析LDAC深度学习SparseAutoEncoder D矩阵奇异值分解SVD22、1、SVM对噪声(如来自其他分布的噪声样本)鲁棒 SVM本身对噪声具有一定的鲁棒性,但实验证明,是当噪声率低于一定水平的噪声对SVM没有太大影响,但随着噪声率的不断增加,分类器的识别率会降低。 2、在AdaBoost算法中所有被分错的样本的权重更新比例相同 AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的
23、。开始时,每个样本对应的权重是相同的,即其中n为样本个数,在此样本分布下训练出一弱分类器。对于分类错误的样本,加大其对应的权重;而对于分类正确的样本,降低其权重,这样分错的样本就被凸显出来,从而得到一个新的样本分布。在新的样本分布下,再次对样本进行训练,得到弱分类器。以此类推,将所有的弱分类器重叠加起来,得到强分类器。 3、Boost和Bagging都是组合多个分类器投票的方法,二者均是根据单个分类器的正确率决定其权重。 Bagging与Boosting的区别:取样方式不同。Bagging采用均匀取样,而Boosting根据错误率取样。Bagging的各个预测函数没有权重,而Boosting是
24、由权重的,Bagging的各个预测函数可以并行生成,而Boosing的哥哥预测函数只能顺序生成。 23、比较后验概率 p(|x) , 哪个类的后验概率大 , 就属于哪个类。 后验概率 : p(|x)=p(x| )p( )/p(x), 分母 p(x ) 总是常数可以忽略 , 先验概率 p( ) 已知 , 计算类条件概率 p( x| ) , 即可得到后验概率 . 模式识别知识点1、模式识别系统的基本构成单元包括: 模式采集 、特征提取与选择和 模式分类 。2、统计模式识别中描述模式的方法一般使用 特征矢量 ;句法模式识别中模式描述方法一般有串 、树 、网。3、聚类分析算法属于 (1) ;判别域代数
25、界面方程法属于 (3) 。(1)无监督分类 (2)有监督分类 (3)统计模式识别方法(4)句法模式识别方法4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。(1)距离测度 (2)模糊测度 (3)相似测度 (4)匹配测度5、 下列函数可以作为聚类分析中的准则函数的有 (1)(3)(4) 。(1) (2) (3) (4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在 (2)中进行 。(1)二维空间 (2)一维空间 (3)N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3) 。(1)感知器算法 (2)H-K算
26、法 (3)积累位势函数法8、下列四元组中满足文法定义的有 (1)(2)(4) 。(1)(A, B, 0, 1, A?01, A ? 0A1 , A ? 1A0 , B ? BA , B ? 0, A)(2)(A, 0, 1, A?0, A ? 0A, A)(3)(S, a, b, S ? 00S, S ? 11S, S ? 00, S ? 11, S)(4)(A, 0, 1, A?01, A ? 0A1, A ? 1A0, A)9、影响层次聚类算法结果的主要因素有( 计算模式距离的测度、(聚类准则、类间距离门限、预定的类别数目)。10、欧式距离具有( 1、2 );马式距离具有( 1、2、3、4
27、 )。(1)平移不变性(2)旋转不变性(3)尺度缩放不变性(4)不受量纲影响的特性11、线性判别函数的正负和数值大小的几何意义是(正(负)表示样本点位于判别界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离。)。12、感知器算法 1 。(1)只适用于线性可分的情况;(2)线性可分、不可分都适用。13、积累势函数法较之于H-K算法的优点是(该方法可用于非线性可分情况(也可用于线性可分情况) );K(x)?位势函数K(x,xk)与积累位势函数K(x)的关系为(?xk?X?kK(x,xk))。14、在统计模式分类问题中,聂曼-皮尔逊判决准则主要用于( 某一种判决错误较另一种判决错误
28、更为重要)情况;最小最大判决准则主要用于( 先验概率未知的)情况。15、“特征个数越多越有利于分类”这种说法正确吗?( 错误 )。特征选择的主要目的是(从n个特征中选出最有利于分类的的m个特征(mn )的条件下,可以使用分支定界法以减少计算量。16、 散度Jij越大,说明?i类模式与?j类模式的分布(差别越大);当?i类模式与?j类模式的分布相同时,Jij=(0)。17、 已知有限状态自动机Af=(?,Q,?,q0,F),?=0,1;Q=q0,q1;?:?(q0,0)= q1,?(q0,1)= q1,?(q1,0)=q0,?(q1,1)=q0;q0=q0;F=q0。现有输入字符串:(a) ,(
29、b) ,(c) 0,(d),试问,用Af对上述字符串进行分类的结果为( 1:a,d;2:b,c )。18、影响聚类算法结果的主要因素有( )。已知类别的样本质量;分类准则;特征选取;模式相似性测度。19、模式识别中,马式距离较之于欧式距离的优点是( )。平移不变性;旋转不变性;尺度不变性;考虑了模式的分布。20、基于二次准则函数的H-K算法较之于感知器算法的优点是( )。可以判别问题是否线性可分;其解完全适用于非线性可分的情况;其解的适应性更好;计算量小。21、影响基本C均值算法的主要因素有( )。样本输入顺序;模式相似性测度;聚类准则;初始类心的选取。22、位势函数法的积累势函数K(x)的作
30、用相当于Bayes判决中的( )。先验概率;后验概率;类概率密度;类概率密度与先验概率的乘积。23、在统计模式分类问题中,当先验概率未知时,可以使用( )。最小损失准则;最小最大损失准则;最小误判概率准则;N-P判决。24、在( )情况下,用分支定界法做特征选择计算量相对较少。Cnn,(n为原特征个数,d为要选出的特征个数);样本较多;选用的可分性判据J对特征数目单调不减;选用的可分性判据J具有可加性。 dm25、 散度JD是根据( )构造的可分性判据。先验概率;后验概率;类概率密度;信息熵;几何距离。26、似然函数的概型已知且为单峰,则可用( )估计该似然函数。矩估计;最大似然估计;Baye
31、s估计;Bayes学习;Parzen窗法。27、Kn近邻元法较之Parzen窗法的优点是( )。所需样本数较少;稳定性较好;分辨率较高;连续性较好。28、从分类的角度讲,用DKLT做特征提取主要利用了DKLT的性质:( )。变换产生的新分量正交或不相关;以部分新的分量表示原矢量均方误差最小;使变换后的矢量能量更趋集中;29、一般,剪辑k-NN最近邻方法在( )的情况下效果较好。样本数较大;样本数较小;样本呈团状分布;样本呈链状分布。30、如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有( )。已知类别样本质量;分类准则;特征选取;量纲。三、 试说明用监督学习与非监督学
32、习两种方法对道路图像中道路区域的划分的基本做法,以说明这两种学习方法的定义与它们间的区别。答:监督学习方法用来对数据实现分类,分类规则通过训练获得。该训练集由带分类号的数据集组成,因此监督学习方法的训练过程是离线的。非监督学习方法不需要单独的离线训练过程,也没有带分类号(标号)的训练数据集,一般用来对数据集进行分析,如聚类,确定其分布的主分量等。就道路图像的分割而言,监督学习方法则先在训练用图像中获取道路象素与非道路象素集,进行分类器设计,然后用所设计的分类器对道路图像进行分割。使用非监督学习方法,则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算,以实现道路图像的分割。动态聚类是指对当
33、前聚类通过迭代运算改善聚类;分级聚类则是将样本个体,按相似度标准合并,随着相似度要求的降低实现合并。试说明以下问题求解是基于监督学习或是非监督学习:1. 求数据集的主分量 2. 汉字识别 3. 自组织特征映射 4. CT图像的分割答: 1、求数据集的主分量是非监督学习方法;2、汉字识别对待识别字符加上相应类别号有监督学习方法;3、自组织特征映射将高维数组按保留近似度向低维映射非监督学习; 4、CT图像分割按数据自然分布聚类非监督学习方法;特征选择就是从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的。请论述模式识别系统的主要组成部分及其设计流程,并简述各组成部分中常用方法的主要思想
34、。特征空间 信息获取:通过测量、采样和量化,可以用矩阵或向量表示二维图像或以为波形。 预处理:去除噪声,加强有用的信息,并对输入测量仪器或其他因素造成的退化现象进行复原。特征选择和提取:为了有效地实现分类识别,就要对原始数据进行变换,得到最能反映分类本质的特征。分类决策:在特征空间中用统计方法把识别对象归为某一类。降维方法:PCA: 是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。LDA: 是一种有监督的(supervised)线性降维算法。与PCA保持数据信息
35、不同,LDA是为了使得降维后的数据点尽可能地容易被区分!局部线性嵌入(LLE): 是一种非线性降维算法,它能够使降维后的数据较好地保持原有流形结构。LLE可以说是流形学习方法最经典的工作之一。很多后续的流形学习、降维方法都与LLE有密切联系。Laplacian Eigenmaps 拉普拉斯特征映射它的直观思想是希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近。Laplacian Eigenmaps可以反映出数据内在的流形结构。LASSO方法是一种压缩估计,它通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种处理
36、具有复共线性数据的有偏估计。小波分析有一些变换的操作降低其他干扰可以看做是降维一元线性回归的基本假设有1、随机误差项是一个期望值或平均值为0的随机变量; 2、对于解释变量的所有观测值,随机误差项有相同的方差; 3、随机误差项彼此不相关;4、解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;5、解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;6、随机误差项服从正态分布违背基本假设的计量经济学模型还是可以估计的,只是不能使用普通最小二乘法进行估计。 当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计
37、。杜宾-瓦特森(DW)检验,计量经济,统计分析中常用的一种检验序列一阶 自相关 最常用的方法。 所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响(1)完全共线性下参数估计量不存在 (2)近似共线性下OLS估计量非有效 多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF) (3)参数估计量经济含义不合理 (4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外 (5)模型的预测功能失效。变大的方差容易使区间
38、预测的“区间”变大,使预测失去意义。 基于核的机器学习算法:A、EM算法 B、径向基核函数 C、线性判别分析 D、支持向量机核函数的本质其实就是一种将一个空间转化为另一个空间的变化在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是主要分重采样、欠采样、调整权值类域界面方程法中,求线性不可分情况下分类问题近似或精确解的方法是:伪逆法:径向基(RBF)神经网络的训练算法,径向基解决的就是线性不可分的情况。 感知器算法:线性分类模型。不可以 H-K算法:在最小均方误差准则下求得权矢量,二次准则解决非线性问题。 势函数法:势函数
39、非线性。样本线性不可分时,感知器算法不收敛。SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数,傅里叶核,样条核等概率质量函数 (probability mass function,PMF)是离散随机变量在各特定取值上的概率。 概率密度函数(p robability density function,PDF )是对 连续随机变量 定义的,本身不是概率,只有对连续随机变量的取值进行积分后才是概率。 累积分布函数(cumulative distribution
40、function,CDF) 能完整描述一个实数随机变量X的概率分布,是概率密度函数的积分。对於所有实数x ,与pdf相对。 svm高斯核函数比线性核函数模型更复杂,容易过拟合时间序列中常用预测技术 一个时间序列是一组对于某一变量连续时间点或连续时段上的观测值。 1. 移动平均法 (MA) 1.1. 简单移动平均法 设有一时间序列y1,y2,., 则按数据点的顺序逐点推移求出N个数的平均数,即可得到一次移动平均数. 1.2 趋势移动平均法 当时间序列没有明显的趋势变动时,使用一次移动平均就能够准确地反映实际情况,直接用第t周期的一次移动平均数就可预测第1t+周期之值。 时间序列出现线性变动趋势时
41、,用一次移动平均数来预测就会出现滞后偏差。修正的方法是在一次移动平均的基础上再做二次移动平均,利用移动平均滞后偏差的规律找出曲线的发展方向和发展趋势,然后才建立直线趋势的预测模型。故称为趋势移动平均法。 2. 自回归模型(AR) AR模型是一种线性预测,即已知N个数据,可由模型推出第N点前面或后面的数据(设推出P点). 本质类似于插值,其目的都是为了增加有效数据,只是AR模型是由N点递推,而插值是由两点(或少数几点)去推导多点,所以AR模型要比插值方法效果更好。 3. 自回归滑动平均模型(ARMA) 其建模思想可概括为:逐渐增加模型的阶数,拟合较高阶模型,直到再增加模型的阶数而剩余残差方差不再
42、显著减小为止。 4. GARCH模型 回归模型。除去和普通回归模型相同的之处,GARCH对误差的方差进行了进一步的建模。特别适用于波动性的分析和预测。 5. 指数平滑法 移动平均法的预测值实质上是以前观测值的加权和,且对不同时期的数据给予相同的加权。这往往不符合实际情况。 指数平滑法则对移动平均法进行了改进和发展,其应用较为广泛。 基本思想都是:预测值是以前观测值的加权和,且对不同的数据给予不同的权,新数据给较大的权,旧数据给较小的权。 根据平滑次数不同,指数平滑法分为:一次指数平滑法、二次指数平滑法和三次指数平滑法等。 对于二类分类问题常用的评价指标是精准度(precision)与召回率(r
43、ecall)。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作: TP将正类预测为正类数 FN将正类预测为负类数 FP将负类预测为正类数 TN将负类预测为负类数 由此: 精准率定义为:P = TP / (TP + FP) 召回率定义为:R = TP / (TP + FN) F1值定义为: F1 = 2 P R / (P + R)精准率和召回率和F1取值都在0和1之间,精准率和召回率高,F1值也会高,不存在数值越接近0越高的说法,应该是数值越接近1越高。Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率
44、和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率SVM可以通过正则化系数控制模型的复杂度,避免过拟合。SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化Logit回归的输出就是样本属于正类别的几率,可以计算出概率防止过拟合的方法?1、Early stopping:是一种迭代次数截断的方法来防止过拟合的方法,即在模型对训练数据集迭代收敛之前停止迭代来防止过拟合。2、数据集扩增一般有以下方法: 从数据源头采集更多数据 复制原有数据并加上随机噪声 重采样 根据当前数据集估计数据分布参数,使用该分布产生更多数据等3、正则
45、化方法正则化方法是指在进行目标函数或代价函数优化时,在目标函数或代价函数后面加上一个正则项,一般有L1正则与L2正则等。L1正则线性回归即为Lasso回归)(L2正则线性回归即为Ridge回归,岭回归)L2与L1的区别在于,L1正则是拉普拉斯先验,而L2正则则是高斯先验。它们都是服从均值为0,协方差为1。4、DropoutDropout方法是通过修改ANN中隐藏层的神经元个数来防止ANN的过拟合Bagging Boosting simpler model structure regularization data augmentation dropout Bootstrap/Bagging e
46、nsemble early stopping utilize invariance Bayesian机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。监督式学习:在监督式学习下,输入
47、数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”,对手写数字识别中的“1“,”2“,”3“,”4“等。在建立预测模型的时候,监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归(Logistic Regression)和反向传递神经网络(Back Propagation Neural Network)非监督式学习:在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。常见
48、的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法。半监督式学习:在此学习方式下,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。强化学习:在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对
49、错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习(Temporal difference learning)在企业数据应用的场景下, 人们最常用的可能就是监督式学习和非监督式学习的模型。 在图像识别等领域,由于存在大量的非标识的数据和少量的可标识数据, 目前半监督式学习是一个很热的话题。 而强化学习更多的应用在机器人控制及其他需要进行系统控制的领域。算法类似性根据算法的功能和形式的类似性,我们可以把算法分类,比如说基于树的算法,基于神经网络的算法等等。当然,机器学习的范围非常庞大
50、,有些算法很难明确归类到某一类。而对于有些分类来说,同一分类的算法可以针对不同类型的问题。这里,我们尽量把常用的算法按照最容易理解的方式进行分类。回归算法:回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。在机器学习领域,人们说起回归,有时候是指一类问题,有时候是指一类算法,这一点常常会使初学者有所困惑。常见的回归算法包括:最小二乘法(Ordinary Least Square),逻辑回归(Logistic Regression),逐步式回归(Stepwise Regression),多元自适应回归样条(Multivariate Adaptive Re
51、gression Splines)以及本地散点平滑估计(Locally Estimated Scatterplot Smoothing)基于实例的算法基于实例的算法常常用来对决策问题建立模型,这样的模型常常先选取一批样本数据,然后根据某些近似性把新数据与样本数据进行比较。通过这种方式来寻找最佳的匹配。因此,基于实例的算法常常也被称为“赢家通吃”学习或者“基于记忆的学习”。常见的算法包括 k-Nearest Neighbor(KNN), 学习矢量量化(Learning Vector Quantization, LVQ),以及自组织映射算法(Self-Organizing Map , SOM)正则
52、化方法正则化方法是其他算法(通常是回归算法)的延伸,根据算法的复杂度对算法进行调整。正则化方法通常对简单模型予以奖励而对复杂算法予以惩罚。常见的算法包括:Ridge Regression, Least Absolute Shrinkage and Selection Operator(LASSO),以及弹性网络(Elastic Net)。决策树学习决策树算法根据数据的属性采用树状结构建立决策模型, 决策树模型常常用来解决分类和回归问题。常见的算法包括:分类及回归树(Classification And Regression Tree, CART), ID3(Iterative Dichotomiser 3), C4.5, Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 随机森林(Random Fo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 纸张与纸板生产的自动化生产线设计与布局考核试卷
- 2024年工程瑞雷波仪资金筹措计划书代可行性研究报告
- 计算机四级考试必考点试题及答案
- 新能源汽车分销激励合伙人合作协议
- 2025年中国笔记本PCIe固态硬盘行业市场现状及未来发展前景预测分析报告
- 2025年中国背光油墨行业市场前景预测及投资价值评估分析报告
- 2025年中国半导体开关元件行业市场规模调研及投资前景研究分析报告
- 生物发酵产品中试基地运营合作与市场推广协议
- 智能建筑项目进度管理与AI优化服务协议
- 父母离婚后子女抚养费标准调整及子女情感关怀协议
- 简明疼痛评估量表
- 爱宝s-990p打卡机说明书
- 部分需控制滴速的抗菌药物
- GB/T 31586.1-2015防护涂料体系对钢结构的防腐蚀保护涂层附着力/内聚力(破坏强度)的评定和验收准则第1部分:拉开法试验
- 大坝安全监测培训课件
- DB37-T 3449-2019山东省金属非金属地下矿山通风技术规范
- 高等数学上册ppt课件完整版
- 电力建设热工热控作业指导书
- 四川危险废物经营许可证申请书
- 甲醇及制氢装置预试车方案
- 分子的立体构型
评论
0/150
提交评论