已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章药学研究中的模式识别技术,引言,模式识别的基本概念,聚类分析,有监督模式识别,6.1基本概念,分析化学已扩展到多维空间;越来越多的智能型分析仪器采集到多维多变量数据;化学模式识别技术是多变量数据分析在化学领域的重要应用。,HPLC中,二极管阵列检测器色谱光谱图每个组分多个波长的吸收度。,如:,模式识别的基本概念(PatternRecognition),“模式”:,模式识别:,供模仿用的完美无缺的样本;具有某种共同性质的一类现象的集合。,认识出某个样本与哪一种供模仿用的样本相同体相似。,是鉴别数据阵提供的信息,用数学方法识别具有一定模式的样品和变量,其功能是对样本进行分类或识别。,例如:,中医凭舌苔和脉搏进行诊断;公安人员根据指纹查证罪犯。,分类:,无监督模式识别(unsupervisedlearning):,模式识别的基本概念,聚类分析,根据样本数据判别样本是否可属于不同的类别。,有监督模式识别(supervisedlearning):,数据中有一部分是已知模式的样本,通过对处理过的数据进行试验,识别未知类别的样本属于不同的类别。,训练集和预测集,有监督模式识别:,利用训练集(Trainingset),通过训练或学习来获得识别准规(或判别函数),然后用这些识别好的规则来判决未知模式所属类别,并利用预测集,对训练集中获得的识别准则加以检测,来考察识别准则的可靠性与正确性。,未包括在训练集中的已知类别的样本,已知各个模式的所属类别,6.2.数据预处理,6.2.1遗漏的数据、中心化与比例调整遗漏数据:不宜用零替代,而用行或列的平均来替代,或者使用随机数来替代。,消除数据量纲不同或分布范围过大造成的常数偏移量,可以对坐标原点做变换,一般的步骤是均值中心化,,原始数据矩阵的预处理,n个样本,每个样本数据为一个m维矢量,中心化处理:,对数变换:,最大值标准化:,正规标准化处理:,6.2.2协方差矩阵与相关矩阵,数据预处理的另一种常用方法:将原始数据变换坐标系,用于后面介绍的各种模式识别方法。变换的思路是根据原始数据矩阵得到一个可以反映原始数据中各数据点之间关系的数据矩阵,即方差协方差矩阵或相关矩阵。,方差协方差矩阵,相关矩阵,6.2.3距离与相似性度量,通过样本间的相似性来对样本进行分类的。可用距离来描述样本间的相似程度;距离越小两个样本越接近,相似性大,分在同一类的可能性就越大,距离大则相反。,距离越小两样本越接近,分在同一类的可能性就越大,绝对距离:,欧氏距离:,明氏距离:,与各变量的量纲有关没考虑变量间的相关性,马氏距离:,距离,数据矩阵的协方差矩阵,原始数据矩阵的预处理,6.3聚类分析,聚类分析的一般概念,将一批样品或变量按照它们性质上亲疏远近的程度分类,基本思路,n个样本各自成一类,按一定方法逐步并类,使类由多变少,直至最后合并为一类。,类:,设T为取定的阈值,若对任意的样本,则称G为一类。,样本间的距离,描述样本(或变量)间亲疏程度的统计量:,相似系数,或距离,性质越接近的样本间的相似系数越接近1或-1,距离&相关系数例讲,对于5种陨石样品分别测试4种金属的含量,原始数据如下:,解:,按,计算其距离矩阵如下:,6.3.2系统(谱系)聚类法,基本思想:,先把n个样本各自看成一类,选择距离最小的两类合并成一个新类并计算该类和其它类的距离,再将距离最近的两类合并,这样每次减少一类,直至所有样本都成为一类。,算法:,设初始模式样品共n个,每个样本看成一类,计算各类之间的距离,可得,维的距离矩阵,从距离矩阵,找出距离最小的元素(如i,j)合并成类,计算合并后的新类别之间的距离矩阵,转向第二步,直至所有样品都聚为一类,谱系聚类法,平均距离法,如何定义两类的距离,P、Q两类相距最近,合并为K类,则K类和其它相关类H的距离DHP:,例:,对于5种陨石样品分别测试4种金属的含量,原始数据如下:,解:,按,计算其距离矩阵如下:,例,D和E相距最近,合并为D*,,B和C合并为B*,,A和B*合并为A*,,聚类分析谱系图,距离,A,B,C,D,E,A*,B*,D*,(a)平均距离法,MATLAB命令pdist:计算距离矩阵linkage:生成谱系数据dendrogram:绘制谱系图cluster聚类分析例题:X1(5个陨石样品,四种元素),最短距离法,如何定义两类的距离,H,K为两类,,K类是P和Q类两类合并而成的,,例讲:,平均距离法,对于5种陨石样品分别测试4种金属的含量。,将每个样本各自看成一类,x2,x3,x4,x5,x1,GA(0),GB(0),GC(0),GD(0),GE(0),计算距离(欧氏距离),D,E最近,解:,合并,得,例解,计算新类与其它类之间的距离,再合并,由上表知,最小,合并B,C;,6.3.3动态聚类分析,谱系聚类分析的缺点:,样本一旦划分到某个类后就不变了;,聚类过程需多次合并,计算量大。,基本思想:,先设定类别的数目,按聚类准则使所有样本向各自聚类中心聚集,从而得到初始分类,然后判断初始分类是否合理,如不合理就修改分类,直至合理为止。,选择若干样本作为聚类中心,最短距离法,初始聚类法,计算过程中各类重心和类别都可能变化,动态聚类法算法,算法的步骤,选n个初始聚类中心,,逐个将需要的样品按最小距离分配给K个聚类中心的某一个Z1(1),形成初始分类,计算初始类的新的向量值(重心),,合理,打印,若,如果不等,返回第二步。,对A和D,其中心点*1坐标为:x1=(45+64)/2=54.5x2=(24+52)/2=38对B、C、E、F、G的中心点*2坐标为:x1=(24+14+36+56+20)/5=30 x2=(42+23+121+140+148)/5=95下一步再计算各点离*1和*2的距离确定下一轮的类别。结果为(A、B、C、D)(E、F、G),显然这一轮已经得到了正确的结果。继续计算新的中心点*3和*4,得到的结果仍为(A、B、C、D)(E、F、G)动态聚类的结果为(A、B、C、D)和(E、F、G)。,选择凝聚点,初始分类,最终分类,修改分类,分类是否合理,N,Y,动态聚类法示意图,例:7样本2变量,最小生成树法,基本思想:,对n个样本,要找到连通n个顶点的n-1条边的加和为最小的生成树。,计算方法:,从最短距离的两点开始,每加一条边都不和已经生成树的构成回路循环。,例:,x1,7样本2变量的聚类分析,对于右图(7样本2变量),数据值如下:,C,A,B,D,E,G,F,x2,最小生成树法,计算各点间的距离得下表:,解:,据上表,按两点距离小到大排列得如下顺序,BC,AB,EF,EG,AC,AD,CD,DE,C,A,B,D,E,G,F,x1,x2,将最长的边DE剪断,将7个样本分为两类,聚类分析步骤与应用,如何进行聚类分析,选择恰当的特征来描述分类对象,变量指标,确定相似性的测度,如采用距离,提出到达分类的步骤和算法,解析聚类的结果,应用,解析和分析实验数据,优化分析过程,既选择最佳分析方法,最合理的组合,分析方法和最恰当地安排分析过程的顺序,6.3.4模糊聚类法,6.4降维和显示技术,处理多变量数据时,当变量数为或时,我们可以通过绘图或计算机屏?幕显示的方式直观地观察图形并识别其特征。当变量数超过时,这种直接显示则不再可能,这就涉及降维问题。如何将多维的数据在二维或三维空间中显示出其最大多数的信息,是降维和显示技术要解决的主要问题。降维和显示技术有多种方法,因子分析技术是多数方法的算法基础,,6.5有监督模式识别方法,有监督学习方法需要运用一组已知其类别的样本,这些样本集在特征空间中构成的点集称为训练集(trainingSet)有监督模式识别就是利用训练集通过训练获得判别准则(或判别函数),然后再利用识别准则来判决未知模式所属的类别。为了检验从训练集中得到的识别准则的可靠程度。常利用一组未包含在训练集中的已知类别的样本构成预示集(predictionset),利用从训练集中获得的识别准则对预示集中的各模式进行识别,以检验其识别的可靠性。常见的有监督学习方法包括贝叶斯线性判别法、Fisher线性判别分析、线性学习机、最近邻毓域判决法、SIMCA分类法等。,基本概念,一类对数据信息处理方法,统计PaPc:规则函数,句法结构PaPc:形式语言,有监督模式识别:,使用已知类别的样本作为学习器到出分类规则,用于对未知样本进行识别与分类。,用计算机技术对某类物理对象进行分类,在错误概率最小的情况下,使识别结果尽量与客观事物相符合。,模式:,供模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025煤矿井下爆破特种作业证考试题库及答案
- 2024年陇南紫金爆破作业人员安全教育培训考试题及答案
- 汽车保养项目及初级工的操作步骤
- 工程测量员职业技能鉴定初级工作计划及安排
- 博物馆展览策划与日常运营工作计划
- 关于规范初级遗体防腐师操作记录填写的实施计划
- 传统香文化在香席设计中的应用探索
- 风险投资VC退出机制设计与最优路径选择
- 殡葬礼仪师技能水平考核方案
- 游戏CG制作中初级阶段的挑战与机遇
- 2025福建厦漳泉城际铁路有限责任公司筹备组社会招聘10人考试参考试题及答案解析
- 2025年医疗设备升级改造可行性分析报告
- 拍卖行从业人员技能考试及答案解析
- 绿化农药使用安全培训课件
- 光伏项目接入系统设计方案
- 2026届高考语文复习指导和素材积累:中央广播电视总台主持人大赛-新闻主播季
- 军队季节性防病课件
- 高值介入耗材工作总结
- 镀锌板墙面做法
- 第三届全国工业和信息化技术技能大赛-工业大数据(数据库运行管理员)赛项技术方案
- 个人征信修复成果承诺书8篇
评论
0/150
提交评论