模式识别与分类PPT学习教案_第1页
模式识别与分类PPT学习教案_第2页
模式识别与分类PPT学习教案_第3页
模式识别与分类PPT学习教案_第4页
模式识别与分类PPT学习教案_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1 模式识别与分类模式识别与分类 数据预处理 值域调整range scaling min,max, min,* kk kik ik xx xx x 10 * ik x 自标度化 Autoscaling k kik ik s xx x * 均值0 方差1 模长1n 第1页/共38页 数据预处理 标准化 Normalization k ik ik x x x * 模长为1 n i ik ik ik x x x 1 * 色谱面积归1 )max( * ik ik ik x x x 质谱最大为1 第2页/共38页 数据预处理 变换法 ikik xx * 原变量相加/减/除等 ikik xxlg *

2、 组合法 第3页/共38页 数据预处理 特征的选择 偏差权重法s大的变量更重要 Fisher比率法F大的变量更重要 21 2 21 ii ii i ss xx F 第4页/共38页 数据预处理 协方差矩阵C与相关矩阵R 对于)(pnXn为对象数,p为特征数 方差 j=1,p 2 1 2 1 1 n i jijij xx n s n i kikjij xxxx n kj 1 1 1 ),cov( 协方差 j,k=1,p; jk 第5页/共38页 数据预处理 方差-协方差矩阵,简称协方差矩阵如下: 2 2 22 2 11 )2 ,cov() 1 ,cov( ), 2cov() 1 , 2cov(

3、), 1cov()2 , 1cov( pp spp ps ps C 对称矩阵 第6页/共38页 数据预处理 相关矩阵如下: 1 1 1 21 212 112 pp p p rr rr rr R 其中 ikij jk ss kj r ),cov( 但对于Autoscaling后的数据,s=1。 C即为R。 第7页/共38页 主成分分析PCA 因子分析FA 聚类分析clustering 无监督方法 第8页/共38页 PCA T TLX 得分score 载荷loading d为主成分数 第9页/共38页 PCA 投影判别法 XLT 数据重构 组成互不相关的新变量 取较少的主成分数(常为2),完成分类

4、 -1.5 -0.5 0.5 1.5 2.5 -3-2-10123 2 5 8 4 9 1 3 6 7 第10页/共38页 PCA实例1 不同嫌疑人头发中元素的含量(g/g) 样品CuMnClBr I 19.20.30 173012.0 3.6 212.40.39 93050.0 2.3 37.20.32 275065.3 3.4 410.20.36 15003.4 5.3 510.10.50 104039.2 1.9 66.50.20 249090.0 4.6 75.60.29 294088.0 5.6 811.80.42 86743.1 1.5 98.50.25 16205.2 6.2 原

5、始数据原始数据 X(95) autoscaling 计算计算 相关矩阵相关矩阵 计算计算 特征值特征值 返回 第11页/共38页 方差百分数 主成分数的确定 p i i d i i e s 1 1 2 指定 , 如90% 相应的d 2 e s PCA实例1 头发样品中的特征值与方差 成分数 特征值 方差% 累计方差% 1 3.352 67.05 67.05 2 1.182 23.65 90.70 3 0.285 5.70 96.40 4 0.135 2.70 99.10 5 0.045 0.90 100.00 特征值1 对于相关矩阵, 1的成分为主成分 p p i i 1 Scree检验 nP

6、C在2-3间 斜率下降 因此d=2合适 0 1 2 3 4 012345 nPC 第12页/共38页 得分图 主成分图形解释 PCA实例1 -1.5 -0.5 0.5 1.5 2.5 -3-2-10123 t1 t2 2 5 8 4 9 1 3 6 7 -1.5 -0.5 0.5 1.5 2.5 -3-2-10123 t1 t2 2 5 8 4 9 1 3 6 7 3个聚类 分属三人 t1对t2作图 t1最重要 第13页/共38页 主成分图形解释 PCA实例1 载荷图 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 -0.6-0.4-0.200.20.40.6

7、 l1 l2 Cu Mn Br Cl I l1对l2作图 特征在主成分上的投影 各变量的相关信息 夹角越小,相关性越高 高度相关的特征取1即可 载荷大小是重要性的度量 位于原点的载荷不重要 金属间的相关性大于卤素间的 Cu与Cl反性相关 l1最重要,距原点距离越大,该特征权重越大,Cu 第14页/共38页 主成分图形解释 PCA实例1 相似系数或相关系数表 Cu Cu 1.000 Mn Mn 0.697 1.000 Cl Cl -0.950 -0.692 1.000 Br Br -0.530 -0.233 0.588 1.000 I -0.645 -0.749 0.581 -0.084 相似

8、系数)( cos 1 2 1 2 1 nk kjk nk kik nk kjkik ij xx xx 相关 系数)()( )( 2 1 2 1 1 nk kjjk nk kiik nk kjjkiik ij xxxx xxxx r Br/I 接近正交 Cu/Cl 负相关 1:完全相同 0:完全正交 自标度化 的数据 cos=r 第15页/共38页 得分图 主成分图形解释 PCA实例1 -1.5 -0.5 0.5 1.5 2.5 -3-2-10123 t1 t2 2 5 8 4 9 1 3 6 7 特征的选择 5个全取 -1 0 1 2 -2-1012 t1 t2 取Cu/Br/I 仍能分类 效

9、果略差 -1 -0.5 0 0.5 1 -2-1012 t1 t2 取Cu/Mn/Cl 分类效果差 l2无效果 -0.1 0.1 -2-1012 3个,仅1个1 2.57,0.38,0.05 一维投影结果 原始数据 第16页/共38页 主成分图形解释 PCA实例1 双重图biplot -1 0 1 2 -2.5-1.5-0.50.51.52.5 1 4 9 82 51 6 7 Br Cl I Cu Mn t1各元素均有贡 献 t2由Br和I表征 Cu/Mn/Cl/I 将对象聚为2组 Br 将对象聚为另2组 第17页/共38页 PCA实例1 应用示例应用示例 烟叶硅烷化色谱烟叶硅烷化色谱 辽宁凤

10、城烟叶不同辽宁凤城烟叶不同 部位烟叶的区分部位烟叶的区分 下部 上 部 中 部 第18页/共38页 FA EFLX T 用少数几个通用因子描述矩阵中的特征 抽象因子需经旋转变换成实因子TTFA F 包含d个因子的特征参数,各因子对应1个起因 L 与对应因子相关的载荷分数 E 由剩余p-d个和通用因子无关的特殊因子构成,如噪声因子 第19页/共38页 FA T FLX 目标转换因子分析Target Transformation FA *T1T LLL)(LT 变换矩阵 * LLT 抽象载荷目标 LTL 预测目标 均值相对偏差 relative deviation 估计两者的一致性 p j j p

11、 j jj l ll rd 1 * 1 * 第20页/共38页 FA实例TTFA 245265285305325 6.47.814.833.370.941.78 6.584.3352.6956.112.8920.73 6.6161.5899.30108.4326.9239.03 6.7173.3377.8997.2639.3728.67 6.8274.763.9282.1647.1520.06 6.9218.9236.9539.8225.5810.49 7.079.0412.0710.586.543.23 HPLC-DAD数据(mA) tR/min wavelength/nm 6.4 6.6

12、6.8 7.0 245 285 325 0 50 100 150 200 250 300 多环芳烃HPLC-DAD数据 有3个重要因子 第21页/共38页 多环芳烃HPLC-DAD数据 * X F T L -1.476-1.307-1.295-1.285-1.174 -0.6400.088-0.017-0.5810.222 0.2051.4471.2500.2441.571 0.3340.8230.9800.9770.807 1.4420.4160.6141.4350.173 0.832-0.371-0.4120.165-0.532 -0.697-1.096-1.120-0.955-1.067

13、 -2.904-0.3400.210 -0.370-0.815-0.066 2.178-1.192-0.248 1.783-0.1700.383 1.7581.2690.121 -0.2191.074-0.329 -2.2270.174-0.071 0.3850.4730.4840.4400.447 0.662-0.309-0.2110.455-0.464 -0.628-0.1920.2180.699-0.181 FA实例TTFA 已知4物的纯光谱 但仅3个主因子 F补一列 1 1 1 1 1 1 1 第22页/共38页 多环芳烃HPLC-DAD数据 FA实例TTFA *T1T LLL)(LT

14、 111.2112.6282.1280 38.287.276.42.25 52.569.412.21 110.633.25.11.3 14.7256.95.5 * L 283.331545.91126.4 -58.497 102.72120.36217.71 172.22 3.665-106.13-223.13 -169.66 -63.573-628.81-435.24 76.663 LTL 111.23112.88282.74 274.61 38.03685.85873.304 28.345 52.66370.73415.276 -24.929 110.5432.7193.9913 10.6

15、45 14.72625.2127.3891 1.377 BkFBbF苝蒽BkFBbF苝蒽 245111.2112.6282.1280111.2112.9282.7274.6 26538.287.276.42.2538.085.973.328.3 28652.569.412.2152.770.715.3-24.9 305110.633.25.11.3110.532.74.010.6 32514.7256.95.514.725.27.41.4 KnownPredicted 0 100 200 300 240260280300320 wavelength/nm absorbance/mA -50 5

16、0 150 250 240260280300320 wavelength/nm absorbance/mA 存在不存在 第23页/共38页 聚类分析 无监督学习方法 根据相似性度量,物以类聚 分类方法是把未知对象分配到已存在类中 聚类分析步骤 n个样本个样本n类类 计算距离计算距离 最近最近的的2类类合并合并 继续合并继续合并 最近的最近的2类类 经经n-1次合并次合并 最后成最后成1类类 第24页/共38页 聚类分析 距离与相似性度量的方法 明氏Minkowski距离 pK k p jkikij xxd 1 1 欧氏Euclidean距离 2p 曼哈顿Manhattan距离 city-blo

17、ck距离 1p 第25页/共38页 聚类分析 距离与相似性度量的方法 马氏Mahalanobis距 离 )()( 12 ji T jiij DxxCxx 基于协方差矩阵C的向量运算 基于马氏距离的相似性量度 )max( 1 ij ij ij d d S 完全相似 Sij=1 完全不相似 Sij=0 马氏距离可避免特征向量的相关性引起的失真 无需对数据进行调整 第26页/共38页 聚类分析实例 6个血清样本的分级聚类 mg/100ml 对象钙磷酸盐 18.005.50 28.255.75 38.706.30 410.003.00 510.254.00 69.753.50 血清样本的钙和磷酸盐浓度

18、 对象123456 10.000 20.3540.3540.000 31.6030.7110.000 43.2023.2603.3470.000 52.7042.6582.7741.0310.000 62.6582.7042.9900.5590.7070.000 第一次距离 对象1、2距离最短,聚为新对象1* 设其距离为0 与其余各对象用平均法或新距离 2 21 *1 ii i dd d 第27页/共38页 聚类分析实例 6个血清样本的分级聚类 对象1*3456 10.000 30.8870.000 43.2313.3470.000 52.6812.7741.0310.000 62.6812.

19、9900.5590.5590.7070.000 第二次距离 4, 6 并并4* 对象1*34*5 1*0.000 30.8870.000 4*2.9563.1690.000 52.6812.7740.8690.8690.000 第三次距离 4*,5 并5* 对象1*35* 1*0.000 30.8870.8870.000 5*2.8192.9720.000 第四次距离 对象3*5* 3*0.000 5*2.8952.8950.000 第五次距离 1*,3 并3* 第28页/共38页 聚类分析实例 6个血清样本的分级聚类 1 2 3 123465 1* 3* 4* 5* 欧氏距离 6个血清样本

20、实际上可分为两类 第29页/共38页 聚类分析 A、B聚后新距离的算法 加权均连 weighted average linkage 2 BiAi ABi dd d 单连法(最近距离) single linkage ),min( BiAiABi ddd 全连法(最远距离) complete linkage ),max( BiAiABi ddd 其他方法 第30页/共38页 线性学习机LLM K最近邻法KFA SIMCA法 有监督方法 第31页/共38页 LLM 1 11 1 1 1 1 1 1 2 2 2 22 2 2 2 1 x 2 x w 判别面 1 2 以分类(疾病判断)为例 1 2 存在

21、一判别面,用垂直的 法线(权)矢量w表示 w 与类1中任一样本矢量的夹角 ,与类2中 90 1 w 90 2 线性判别函数s(标量) p j jj xws 1 xw cosxw s ,s0 ,s0 90 1 90 2 第32页/共38页 LLM 步 骤 已知样本作训练得 法线矢量w 未知样本计算s 并预测分类 初值w,可随机确定 第第1个已知样本个已知样本 计算计算s 不符 xwwc oldnew 2 22 j x ss c T xx 下一个样本计算下一个样本计算s 继续调整w 第33页/共38页 LLM实例 数 据 初 值 1 1 1 1 1 w 样品v1v2v3v4v5归类 1-1.310

22、.800.78-0.70-0.611 2-0.630.751.94-0.61-0.421 30.701.481.04-0.66-0.731 4-0.970.870.01-0.64-0.611 5-1.420.630.78-0.65-0.711 6-1.311.50-0.63-0.70-0.581 7-0.971.090.91-0.70-0.571 8-0.280.581.43-0.69-0.521 90.74-1.10-0.890.51-0.212 100.170.000.660.041.542 110.06-0.73-0.631.01-0.432 122.56-0.300.27-0.060.

23、092 131.19-1.29-1.270.20-0.602 14-0.06-0.78-0.120.132.152 150.17-1.19-1.140.660.672 160.06-1.46-1.143.580.522 17-0.740.310.40-0.48-0.651 180.400.700.01-0.70-0.641 190.51-0.30-0.630.292.602 200.85-1.53-1.780.17-0.242 甲状腺病人与正常人5项指标及归类 第34页/共38页 LLM实例 修正 w 不修正004.1 11 xws 须修正003.1 22 xws 2 xwwc 2 2 2 2 xx s c 16. 1 24. 1 24. 0 71. 0 25. 1 以后还需修正1次,最终 32. 138. 102. 039. 010. 1w 判别 第35页/共38页 LLM实例 程序 clear; close all; Y= load(E:bkjshxjiazx.txt);Y(:,1)=; n,p = size(Y); cluste

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论