版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、判别和聚类分析第1页,共36页,2022年,5月20日,13点44分,星期一实际应用问题 1、蠓虫的分类问题 两种蠓虫Af和Apf,根据它们触角长度和翼长加以区分。假定已知类别的部分样本数据,即 9只Af蠓虫和 6只Apf蠓虫的数据。 若给定一只蠓虫,如何正确地区分它属于哪一类?第2页,共36页,2022年,5月20日,13点44分,星期一已知蠓虫类别的数据Af触角1.241.361.381.381.381.41.481.541.56翼长1.721.741.641.821.91.71.821.822.08Apf触角1.141.181.21.261.281.3翼长1.781.961.862.02
2、.01.96未知类别的三个样本数据:(1.24,1.8)、(1.28,1.84)、(1.4,2.04)第3页,共36页,2022年,5月20日,13点44分,星期一2、乳腺癌的诊断问题 通过某种医学手段利用细针穿刺进行采样,可以确定哪些乳房肿瘤为良性(benign)哪些为恶性(malignant)。 医学研究发现乳房肿瘤病灶组织的细胞核显微图像的10个量化特征:细胞核直径x1,质地x2,周长x3,面积x4,光滑度x5,紧密度x6,凹陷度x7,凹陷点数x8,对称度x9,断裂度x10。第4页,共36页,2022年,5月20日,13点44分,星期一2、乳腺癌的诊断问题 现需要根据已获得的实验数据建立
3、起一种诊断乳房肿瘤是良性还是恶性的方法。假设已经确诊了500个病例,利用这组数据建立一种分类模型,由此诊断另外69名已做穿刺采样的患者。第5页,共36页,2022年,5月20日,13点44分,星期一3、DNA序列的分类模型 假定已知两组人工已分类的DNA序列(20个已知类别的人工制造的序列),其中序列标号110 为A类,11-20为B类。要求我们从中提取已经分类了的DNA序列片段的特征和构造分类方法,并且还要衡量所用分类方法的好坏,从而构造或选择一种较好的分类方法。测试对象是20个未标明类别的人工序列(标号2140)和182个自然DNA序列。例如A类: 第6页,共36页,2022年,5月20日
4、,13点44分,星期一a1=aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg;b1=gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt; 需要进行特征提取,将字符转换成数据。上述两个问题极其相似,都属于分类问题。有关的分类方法有:判别分析、聚类分析、神经网
5、络分析、粗集理论第7页,共36页,2022年,5月20日,13点44分,星期一方法概述判别分析主成分分析因子分析聚类分析 现代统计分析方法与应用第8页,共36页,2022年,5月20日,13点44分,星期一判别分析目的:对某一种研究对象的归属作出判断。例如:在经济学中,根据人均国民收入、人均消费水平、人均住房面积等多种指标去判定一个国家的经济发展程度所属类型(高、中、低等)。第9页,共36页,2022年,5月20日,13点44分,星期一 设有k个类别G1,G2,Gk (总体),对任意样品x,希望建立一个准则能判定它属于哪个总体? G1G2Gkx关键是建立什么样的判别准则,判断x的归属问题。 要
6、求建立的准则在某中意义下是最优的。例如误判概率最小或错判损失最小等。判别分析的统计模型描述待判点第10页,共36页,2022年,5月20日,13点44分,星期一 1=(11,12,1p)数据结构 x1 x2 xp12n1 x1 x2 xp12n2G1G2 2=(21,22,2p)待判数据的数据结构与G1,G2的数据结构一致。第11页,共36页,2022年,5月20日,13点44分,星期一1、距离判别x12X=x1, x2, , xn1=a1,an, 2=b1,bnd2(x,G1)=(x-1)1-1(x-1)d2(x,G2)=(x-2)2-1(x-2)其中1,2分别为协方差矩阵注意:正态性假定马
7、氏距离第12页,共36页,2022年,5月20日,13点44分,星期一判别规则如下: 当w(x)0时, 则 xG2 当w(x)0 n=2;else n=1;endnplot(G1(:,1),G1(:,2),*,G2(:,1),G2(:,2),*,x(1),x(2),*) 这是蠓虫分类的算例mcfl.m第14页,共36页,2022年,5月20日,13点44分,星期一mcfl.m第15页,共36页,2022年,5月20日,13点44分,星期一 当判别准则提出后,还应该研究其优良性。这里我们主要考虑误判概率。 注意: 1,2 ,1,2往往是未知的,它们可以用各总体的训练样本作估计。判别准则的评价第1
8、6页,共36页,2022年,5月20日,13点44分,星期一判别情况分析在正态性的假定下,误判概率为图中阴影部分的面积。如何计算?阈值阈值点的选择极为重要。注意:如果两个总体靠得很近,则无论用何种办法,误判的概率都很大。第17页,共36页,2022年,5月20日,13点44分,星期一误判率回代估计法 设G1, G2为两个总体,x(1),x(2)分别是来自两个总体的样本,其样本容量分别是n1,n2。以全体训练样本,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。回判结果如下表:其中n12表示属于G1的样品误判为G2的个数,则总的误判个数为n12+n21。误判率回代估计: 回判情况 实际归
9、类 G1 G2G1G2 n11 n12 n21 n22n1n2频率第18页,共36页,2022年,5月20日,13点44分,星期一误判率的交叉确认估计1)从总体G1的容量为n1的训练样本中,剔除其中一个样品,用剩余的n1-1的训练样本和总体G2的n2个训练样本一起建立判别函数; 2)用建立的判别函数对删除的样本作判别;3)重复以上步骤,直到n1个训练样本依次被剔除,又进行判别,其误判样品个数记为n12*。4)对总体G2的训练样本重复1)2)3),其误判样品个数为n21*。第19页,共36页,2022年,5月20日,13点44分,星期一2、Fisher判别判别思想: 通过将多维数据投影到某个方向
10、上。投影的原则是将总体与总体之间尽可能分开,再选择合适的判别规则,将待判的样品进行分类判别。第20页,共36页,2022年,5月20日,13点44分,星期一Fisher判别方法的图形解释蠓虫分类的散点图mAfApf*y=0.5448 x1-0.5070 x2第21页,共36页,2022年,5月20日,13点44分,星期一Fisher判别方法概述G1, 1,1G2, 2,2 欲寻找线性函数 y = ax, 使得来自两个总体的数据间的距离大,而来自同一个总体数据间的变异小。可以证明:a=(1- 2) -1, 其中1= 2= 第22页,共36页,2022年,5月20日,13点44分,星期一Af=1.
11、24,1.36,1.38,1.38,1.38,1.4,1.48,1.54,1.56; 1.72,1.74,1.64,1.82,1.90,1.7,1.82,1.82,2.08;Apf=1.14,1.18,1.2,1.26,1.28,1.3; 1.78,1.96,1.86,2.0,2.0,1.96;mu1=mean(Af);mu2=mean(Apf);stdr1=std(Af);stdr2=std(Apf);sr1=zscore(Af);sr2=zscore(Apf); xiefc1=cov(sr1);xiefc2=cov(sr2);sim=0.5*(xiefc1+xiefc2);nsim=inv
12、(sim);a=(mu1-mu2)*nsimm=0.5*(mu1-mu2)*nsim*(mu1+mu2)w=1.24 1.28 1.4;1.8,1.84,2.04;y=a*wplot(Af(:,1),Af(:,2),o,Apf(:,1),Apf(:,2),*,w(1,:),w(2,:),*);计算结果:m = -0.2267y = -0.2371 -0.2356 -0.2716第23页,共36页,2022年,5月20日,13点44分,星期一AfApf第24页,共36页,2022年,5月20日,13点44分,星期一聚类分析基本概念 聚类分析(Cluster Analysis)是研究“物以类聚”的
13、一种方法。 根据一批样品的多个观测指标,具体找出能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据,将相似程度较大的样品(指标)聚合为一类。第25页,共36页,2022年,5月20日,13点44分,星期一方法概述 系统聚类法 动态聚类法 图论聚类法 模糊聚类法 有序聚类法第26页,共36页,2022年,5月20日,13点44分,星期一2、对指标进行聚类 对指标之间的“靠近程度往往用相似系数来刻画。第27页,共36页,2022年,5月20日,13点44分,星期一系统聚类法(Hierarchical Clustering)的计算步骤:1)计算n个样品两两间的距离dij,记D2)构
14、造n个类,每个类只包含一个样品;3)合并距离最近的两类为一新类;4)计算新类与当前各类的距离;若类的个数等于1,转到5);否则回3);5)画聚类图;6)决定类的个数和类;第28页,共36页,2022年,5月20日,13点44分,星期一Matlab软件对系统聚类法的实现cluster 从连接输出(linkage)中创建聚类clusterdata 从数据集合(x)中创建聚类dendrogram 画系统树状图linkage 连接数据集中的目标为二元群的层次树pdist 计算数据集合中两两元素间的距离(向量)squareform 将距离的输出向量形式定格为矩阵形式zscore 对数据矩阵 X 进行标准
15、化处理 第29页,共36页,2022年,5月20日,13点44分,星期一1、T = clusterdata(X, cutoff) 其中X为数据矩阵,cutoff是创建聚类的临界值。即表示欲分成几类。以上语句等价与以下几句命令: Y=pdist(X,euclid) Z=linkage(Y,single) T=cluster(Z,cutoff)以上三组命令更加灵活,可以自由选择各种方法!各种命令解释第30页,共36页,2022年,5月20日,13点44分,星期一2、T = cluster(Z, cutoff) 从逐级聚类树中构造聚类,其中Z是由语句likage产生的(n-1)3阶矩阵,cutoff
16、是创建聚类的临界值。3、 Z = linkage(Y) Z = linkage(Y, method) 创建逐级聚类树,其中Y是由语句pdist产生的n(n-1)/2 阶向量,method表示用何方法,默认值是欧氏距离(single)。有complete最长距离法;average类平均距离;centroid重心法 ;ward递增平方和等。 第31页,共36页,2022年,5月20日,13点44分,星期一4、 Y = pdist(X) Y = pdist(X, metric) 计算数据集X中两两元素间的距离, metric表示使用特定的方法,有欧氏距离euclid 、标准欧氏距离SEuclid 、
17、马氏距离mahal、明可夫斯基距离Minkowski 等5、 H = dendrogram(Z) H = dendrogram(Z, p) 由likage产生的数据矩阵z画聚类树状图。P是结点数,默认值是30。第32页,共36页,2022年,5月20日,13点44分,星期一X=7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29; 7.68 50.37 11.35 13.3 19.25 14.59 2.75 14.87; 9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76; 9.16 27.98 9.01 9.32 15.99
18、 9.10 1.82 11.35; 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81;BX=zscore(X); % 标准化数据矩阵Y=pdist(X) % 用欧氏距离计算两两之间的距离D=squareform(Y) % 欧氏距离矩阵Z = linkage(Y) % 最短距离法T = cluster(Z,3) %等价于 T=clusterdata(X,3) find(T=3) % 第3类集合中的元素H,T=dendrogram(Z) % 画聚类图例:一段程序(julei1.m)第33页,共36页,2022年,5月20日,13点44分,星期一Y = 11.6726 13.8054 13.1278 12.7983 24.6353 24.0591 23.5389 2.2033 3.5037 2.2159D = 0 11.6726 13.8054 13.1278 12.7983 11.6726 0 24.6353 24.0591 23.5389 13.8054 24.6353 0 2.2033 3.5037 13.1278 24.0591 2.2033 0 2.2159 12.7983 23.5389 3.503
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 污染控制题目及详解
- 资产评估师财务会计试卷及详解
- 钳工技能试题及分析
- 2024-2025学年湖南长沙一中高一下学期期中语文试题含答案
- DB36-T 1492-2021 家具产业集群发展水平评价
- 腹腔镜肾部分切除术护理查房
- CRBN-ligand-895-PEG2-N3-生命科学试剂-MCE
- 2026年宠物美容服务套餐定价模型:策略、实践与趋势
- 2026年写字楼中央空调维修合同协议
- 工地儿童免责协议书
- 职业技能竞赛互联网营销师(直播销售员)赛项考试题库500题(含答案)
- 厨房劳务承揽合同范本
- 上海会展展览行业劳动合同模板
- 下基层调研工作制度
- JJG 621-2012 液压千斤顶行业标准
- T-GDWCA 0035-2018 HDMI 连接线标准规范
- 小升初语文文言文阅读历年真题50题(含答案解析)
- 头晕教学讲解课件
- 电气化铁路有关人员电气安全规则2023年新版
- GB/T 16823.3-2010紧固件扭矩-夹紧力试验
- FZ/T 74001-2020纺织品针织运动护具
评论
0/150
提交评论