第4节统计分类.pptx

上传人：s*** IP属地：河南上传时间：2020-02-16 格式：PPTX 页数：75 大小：3.05MB 积分：20 举报 版权申诉

已阅读5页，还剩70页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

统计分类电子科技大学师君统计分类分类器训练统计聚类K近邻分类认知问题观测过程存在不确定性测量误差噪声模式识别的统计模型似然函数 likelihoodfunction 已知某事件发生不同测量值出现的可能性后验概率 PosterioriProbability 已知观测值的条件下事件发生的概率模式识别的统计模型已知特征向量样本属于某一类的概率后验概率 PosterioriProbability 错误概率将A类样本划分到非A类的概率分类方法与评估手段模式识别的统计模型统计分类策略当某个观测结果已知时认为后验概率最大的事件发生最大后验概率分类条件概率公式 A发生且B发生联合概率在B发生条件下 A发生的概率条件概率与联合概率的关系贝叶斯定理贝叶斯公式似然函数与后验概率的关系条件概率联合概率事件概率贝叶斯推理已知似然函数和事件发生概率当某观测发生时对事件出现的概率推断多观测推理贝叶斯定理例已知1000人中有1人得病进行测试如果有病则该测试结果为阳性的概率为0 99 无病测试结果为阳性的概率为0 02 某人测试结果为阳性问其得病概率为多少贝叶斯定理例如果得病人数未知假设概率相同则有贝叶斯定理贝叶斯分类等价于贝叶斯分类二元分类差法比法似然函数比阀值贝叶斯分类最大后验概率分类是最小误差分类几何解释贝叶斯分类引理1 证明贝叶斯分类引理2 证明贝叶斯分类二元分类器引理1的直接结论多元分类器错误概率 1 正确概率结合利用引理2 得证贝叶斯分类似然函数是高斯函数贝叶斯分类器正态分布下贝叶斯分类属于二次分类器正态分布贝叶斯分类二元分类正态分布贝叶斯分类几何意义贝叶斯分类 closeallclearallclcN 200 u1 0 8 0 6 u2 0 8 0 6 Cov1 0 3 0 8 0 2 0 2 8 Cov1 0 3 1 0 0 1 Cov2 0 6 1 0 0 1 Cov2 Cov1 P1 0 5 P2 1 P1 nn 1 N C 4 xx nn N 2 N C foriii 1 Nforjjj 1 Nx 1 iii N 2 N C x 2 jjj N 2 N C f1 iii jjj 1 sqrt 2 pi sqrt det Cov1 exp 1 2 x u1 inv Cov1 x u1 f2 iii jjj 1 sqrt 2 pi sqrt det Cov2 exp 1 2 x u2 inv Cov2 x u2 endendfigure mesh f1 figure mesh f2 foriii 1 Nforjjj 1 N a b max f1 iii jjj f2 iii jjj yy iii jjj a mask iii jjj b 1 endendfigure imagesc mask foriii 1 N a b max abs diff mask iii border iii 1 C iii N 2 N border iii 2 C b N 2 N endfigure contour xx xx yy 40 linewidth 2 colormap jet holdonplot border 2 border 1 r markersize 15 linewidth 3 线性分类如果两类样本的相关矩阵相等则有是n维空间中的平面正态分布贝叶斯分类线性分类如果相关矩阵为对角阵则分类面与样本中心垂直否则不垂直正态分布贝叶斯分类最小代价分类将样本 k错分为 i的代价总代价利用引理1 可得最优分类为其他分类策略二元最小代价分类比法其他分类策略 Neyman Pearson准则限定一类错误率条件下使另一类错误率为最小即假设各类先验信息相同利用拉格朗日乘数法可得其他分类策略等价转化为判决函数为其他分类策略的计算根据拉格朗日乘数法有即选择使得分界面满足固定概率约束对于一维情况则可先计算分界点t 再计算其他分类策略最小最大损失决策给定先验概率利用最小代价分类如果先验概率未知则得到与代价的函数设计分类器使得对于所有代价函数最小其他分类策略最小最大损失决策过程选择不同计算损失选择最大损失记作则最小最大损失分类器为其他分类策略统计分类分类器训练统计聚类K近邻分类统计分类需要各类的先验概率和其对应的似然函数和先验概率根据实际情况或假设相等似然函数如果已知则直接写出判决函数如果未知则需要从样本中估计似然函数估计似然函数似然函数类型已知参数估计似然函数类型未知非参数化估计分类器训练参数估计信号检测与估计最大似然估计 ML 各样本相互独立则最大后验概率 MAP 与ML相比 MAP需要另外给定参数的概率密度函数分类器训练参数估计信号检测与估计最大熵估计略混合模型估计假设样本分布函数为一组基函数 kernelfunction 的线性组合估计线性系数 wi 解法建立ML MAP模型求解最优化问题略分类器训练非参数化估计有时分布函数没有解析表达式无法参数化此时需要采用非参数化的估计直方图估计 hist 统计样本出现的频率利用频率分布逼近概率密度分布当步长趋近于0 样本趋近于无穷时频率逼近于概率密度分布分类器训练直方图直方图函数分类器训练直方图估计分类器训练 closeallclearallclcN 1000 C 10nn 1 N xx C nn N N y zeros N Nsam 500 samp randn 2 Nsam foriii 1 Nforjjj 1 Nx 1 C iii N 2 N x 2 C jjj N 2 N forkkk 1 Nsamif abs x 1 samp 1 kkk 0 5imagesc xx xx y N 1 N 50 N 500 N 2000 Parzen窗估计矩形函数不具有连续性因此利用一组连续函数估计概率密度函数称为核函数势函数 Parzen窗一般选择独立同分布高斯函数作为核函数分类器训练 Parzen窗估计分类器训练 closeallclearallclcN 200 C 10nn 1 N xx C nn N N y zeros N Nsam 200 samp randn 2 Nsam foriii 1 Niiiforjjj 1 Nx 1 C iii N 2 N x 2 C jjj N 2 N forkkk 1 Nsamy iii jjj y iii jjj exp 0 5 norm x samp kkk 2 endendendfigure mesh xx xx y figure imagesc xx xx y N 200 N 10 N 1 高维空间的样本问题朴素贝叶斯 Na veBayes 为了保证对样本空间的均匀采样样本数按维数的增加幂级增长如果采用各变量独立假设则样本数按维数的增加线性增长此假设称为朴素贝叶斯分类器训练采用高斯核函数则似然函数判决函数分类器实现贝叶斯分类算法伪码初始化训练样本和测试样本 For 所有测试样本 for A类训练样本计算样本概率PA Endfor B类训练样本计算样本概率PB endif PA PB 将该样本放入A类结果中 Else将该样本放入B类结果中 EndEND显示评估分类结果分类器实现分类结果分类器实现 closeallclearallclcObj1 NTrain 100 Obj1 mean 0 3 3 5 Obj1 SampTrain randn 2 Obj1 NTrain kron Obj1 mean ones 1 Obj1 NTrain Obj1 NTest 100 Obj1 SampTest randn 2 Obj1 NTest kron Obj1 mean ones 1 Obj1 NTest Obj2 NTrain 100 Obj2 mean 0 3 3 5 Obj2 SampTrain randn 2 Obj2 NTrain kron Obj2 mean ones 1 Obj2 NTrain Obj2 NTest 100 Obj2 SampTest randn 2 Obj2 NTest kron Obj2 mean ones 1 Obj2 NTest EvaluationTestMatrix zeros 2 cnt c1 1 cnt c2 1 foriii 1 Obj1 NTesty1 0 y2 0 forkkk 1 Obj1 NTrainy1 y1 exp 0 5 norm Obj1 SampTest iii Obj1 SampTrain kkk 2 endforkkk 1 Obj2 NTrainy2 y2 exp 0 5 norm Obj1 SampTest iii Obj2 SampTrain kkk 2 endif y1 y2 Result c1 cnt c1 Obj1 SampTest iii cnt c1 cnt c1 1 TestMatrix 1 1 TestMatrix 1 1 1 elseResult c2 cnt c2 Obj1 SampTest iii cnt c2 cnt c2 1 TestMatrix 1 2 TestMatrix 1 2 1 endendforiii 1 Obj2 NTesty1 0 y2 0 forkkk 1 Obj1 NTrainy1 y1 exp 0 5 norm Obj2 SampTest iii Obj1 SampTrain kkk 2 endforkkk 1 Obj2 NTrainy2 y2 exp 0 5 norm Obj2 SampTest iii Obj2 SampTrain kkk 2 endif y1 y2 Result c1 cnt c1 Obj2 SampTest iii cnt c1 cnt c1 1 TestMatrix 2 1 TestMatrix 2 1 1 elseResult c2 cnt c2 Obj2 SampTest iii cnt c2 cnt c2 1 TestMatrix 2 2 TestMatrix 2 2 1 endendTestMatrix 1 TestMatrix 1 Obj1 NTest TestMatrix 2 TestMatrix 2 Obj2 NTest TestMatrixfigure plot Result c1 1 Result c1 2 ro linewidth 2 markersize 10 holdonplot Result c2 1 Result c2 2 bo linewidth 2 markersize 10 plot Obj1 SampTrain 1 Obj1 SampTrain 2 r linewidth 2 markersize 10 plot Obj2 SampTrain 1 Obj2 SampTrain 2 b linewidth 2 markersize 10 复杂样本分类 Parzen窗贝叶斯分类可构造复杂分类曲面分类器实现复杂样本分类分类器实现复杂样本分类分类器实现代码分类器实现 closeallclearallclcObj1 mean 0 0 Obj1 NTrain 200 cnt1 1 foriii 1 1000 Obj1 NTrain tmp rand 2 1 0 5 10 Obj1 mean if norm tmp Obj1 mean 0 8contour xx xx yy 40 linewidth 2 colormap jet holdonplot border 1 border 2 r markersize 15 linewidth 3 贝叶斯分类应用实例统计分类分类器训练统计聚类K近邻分类模型已知概率密度函数和样本序列xi 则样本序列出现的可能性为取对数求使得似然函数最大期望最大算法例子已知事件包含四种情况 a b c d 概率密度函数统计197个样本 a出现125次 b出现18次 c出现20次 d出现34次求期望最大算法例子期望最大算法 symsxy 125 1 x x 38 x 2 x 34 2 x 1 x solve y double ans 例子已知事件包含五种情况 a b c d e 概率密度函数统计197个样本 a b出现125次 c出现18次 d出现20次 e出现34次求方法一令x1 a b x2 c x3 d x4 e 构造概率密度函数计算 0 6268 期望最大算法方法二 EM算法给定初始 0 得到P a 0 5 P b 0 估计样本a 125 b 0 计算利用新计算重新估计a b 迭代计算得到对的估计计算得到 0 6268 期望最大算法 clearallcloseallclcab 125 c 18d 20e 34x 0 foriii 1 10a ab 0 5 0 5 0 25 x b ab a x b e b c d e end 已知y 求E x y 离散情况连续情况期望最大算法基本步骤 1 求完全变量X条件期望 2 代入似然函数 3 求似然函数最大值期望最大算法标准步骤 E step 计算Q函数M step 令Q函数等于0 更新的估计其中期望最大算法收敛性讨论1 迭代过程似然函数单调增加 2 似然函数有界3 迭代序列收敛到局部最大值 4 如果分布函数为高斯函数为凸优化收敛到全局最大值期望最大算法问题为多类混合样本x添加类标号扩展为更高维随机变量估计分布参数属于非完备样本参数估计采用EM算法混合分解聚类例假设服从高斯分布混合分解聚类求偏导得到其中混合分解聚类混合分解聚类 clearallcloseallclcK 2 N 300 P1 0 3 P2 0 7 u1 0 0 u2 3 4 b1 0 3 b2 1 Data 1 round N P1 randn 2 round N P1 b1 kron u1 ones 1 round N P1 Data round N P1 1 N randn 2 round N P2 b2 kron u2 ones 1 round N P2 figure plot Data 1 Data 2 ro PP 1 0 5 PP 2 0 5 uu 1 0 0 uu 2 5 5 bb 1 1 bb 2 3 foriii 1 20PPP zeros 1 2 uuu zeros 2 2 bbb zeros 1 2 forjjj 1 Nforkkk 1 KPxx jjj kkk 1 sqrt 2 pi bb kkk exp 1 norm Data jjj uu kkk 2 2 bb kkk bb kkk PP kkk endPxx jjj Pxx jjj sum Pxx jjj eps endforjjj 1 NPPP PPP Pxx jjj endforjjj 1 Nforkkk 1 Kuuu kkk uuu kkk Pxx jjj kkk Data jjj PPP kkk endendforjjj 1 Nforkkk 1 Kbbb kkk bbb kkk Pxx jjj kkk norm Data jjj uuu kkk 2 PPP kkk 2 endendPP PPP N uu uuu bb sqrt bbb endPPuubbxxx zeros 2 1 forxx 1 100foryy 1 100 xxx 1 xx 50 5 xxx 2 yy 50 5 z1 xx yy 1 sqrt 2 pi bb 1 exp 1 norm xxx uu 1 2 2 bb 1 bb 1 z2 xx yy 1 sqrt 2 pi bb 2 exp 1 norm xxx uu 2 2 2 bb 2 bb 2 endendholdon nn 1 100 ttt nn 50 5 contour ttt ttt z1 5 linewidth 2 contour ttt ttt z2 5 linewidth 2 统计分类分类器训练统计聚类K近邻分类思路对某些似然函数待分类点到训练样本的距离越近对应的似然函数值越大该点越有可能位于此类因此可以直接以距离作为评判标准设计分类器如何衡量向量的远近需要引入距离的概念最邻近分类距离度量的公理化定义距离的构造利用范数构造距离但是距离不需要满足范数的齐次性可以构造其他的距离距离欧氏距离 Manhattan距离契比雪夫距离明氏 Minkowski 距离 Mahalanobis距离 Camberra Lance Willims距离无量纲根据所处理问题的实际情况选择合适的距离常用距离正态分布贝叶斯分类对于高斯分布且发生概率相同各类协方差矩阵相同则判决函数等价于定义mahalanobis距离马氏距离如果协方差矩阵为单位阵则马氏距离等于欧式距离明显距离某训练样本距离越近对应似然函数越大所以距离远近可作为分类标准前提似然函数类高斯最小距离分类例不用计算指数降低了运算量最小距离分类 k最邻近分类 kNN 计算待分类点到所有训练样本的距离选出距离最短的k个训练样本统计k个样本所在的类将待分类点分配给包含k个训练样本中数目最多的类 k最邻近分类 KNN分类算法伪码初始化训练样本和测试样本 For 所有测试样本 for A类训练样本计算测试样本到A训练样本的距离 Endfor B类训练样本计算测试样本到B训练样本的距离 End距离排序选择最近k个距离统计所属集合数目if NA NB 将该样本放入A类结果中 Else将该样本放入B类结果中 EndEND显示评估分类结果 k最邻近分类 k最邻近分类决策面 closeallclearallclcObj1 mean 1 0 3 5 Obj2 mean 1 3 5 Obj3 mean 1 3 5 Obj4 mean 1 3 5 K NNInv 7 K 2 Im zeros 300 foriii 1 300forjjj 1 300 xx iii 150 150 Inv yy jjj 150 150 Inv d 1 norm Obj1 mean xx yy K d 2 norm Obj2 mean xx yy K d 3 norm Obj3 mean xx yy K d 4 norm Obj4 mean xx yy K a b min d Im iii jjj b endendxxx 1 300 xxx xxx 150 150 Inv imagesc xxx xxx Im holdonplot Obj1 mean 2 Obj1 mean 1 ro linewidth 3 markersize 15 plot Obj2 mean 2 Obj2 mean 1 ro linewidth 3 markersize 15 plot Obj3 mean 2 Obj3 mean 1 ro linewidth 3 markersize 15 plot Obj4 mean 2 Obj4 mean 1 ro linewidth 3 markersize 15 k 1Voronoi纹理代码 k最邻近分类 closeallclearallclcObj1 NTrain 100 Obj1 mean 0 2 3 5 Obj1 SampTrain randn 2 Obj1 NTrain kron Obj1 mean ones 1 Obj1 NTrain Obj1 NTest 100 Obj1 SampTest randn 2 Obj1 NTest kron Obj1 mean ones 1 Obj1 NTest Obj2 NTrain 100 Obj2 mean 0 2 3 5 Obj2 SampTrain randn 2 Obj2 NTrain kron Obj2 mean ones 1 Obj2 NTrain Obj2 NTest 100 Obj2 SampTest randn 2 Obj2 NTest kron Obj2 mean ones 1 Obj2 NTest K NNTestMatrix zeros 2 K 11 cnt c1 1 cnt c2 1 NORM ORDER 2 foriii 1 Obj1 NTestcnt dist 1 forkkk 1 Obj1 NTrainDist cnt dist 1 norm Obj1 SampTest iii Obj1 SampTrain kkk NORM ORDER Dist cnt dist 2 1 cnt dist cnt dist 1 endforkkk 1 Obj2 NTrainDist cnt dist 1 norm Obj1 SampTest iii Obj2 SampTrain kkk NORM ORDER Dist cnt dist 2 1 cnt dist cnt dist 1 end a ID sort Dist 1 SortID Dist ID 2 if sum SortID 1 K 0 Result c1 cnt c1 Obj1 SampTest iii cnt c1 cnt c1 1 TestMatrix 1 1 TestMatrix 1 1 1 elseResult c2 cnt c1 Obj1 SampTest iii cnt c2 cnt c2 1 TestMatrix 1 2 TestMatrix 1 2 1 endendforiii 1 Obj2 NTestcnt dist 1 forkkk 1 Obj1 NTrainDist cnt dist 1 norm Obj2 SampTest iii Obj1 SampTrain kkk NORM ORDER Dist cnt dist 2 1 cnt dist cnt dist 1 endforkkk 1 Obj2 NTrainDist cnt dist 1 norm Obj2 SampTest iii Obj2 SampTrain kkk NORM ORDER Dist cnt dist 2 1 cnt dist cnt dist 1 end a ID sort Dist 1 SortID Dist ID 2 if sum SortID 1 K 0 Result c1 cnt c1 Obj2 SampTest iii cnt c1 cnt c1 1 TestMatrix 2 1 TestMatrix 2 1 1 elseResult c2 cnt c1 Obj2 SampTest iii cnt c2 cnt c2 1 TestMatrix 2 2 TestMatrix 2 2 1 endendTestMatrix 1 TestMatrix 1 Obj1 NTest TestMatrix 2 TestMatrix 2 Obj2 NTest TestMatrixfig

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第4节统计分类.pptx

文档简介

温馨提示

最新文档

评论

第4节 统计分类.pptx

文档简介

温馨提示

最新文档

评论

相关文档

第4节统计分类.pptx