




已阅读5页,还剩62页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章药学研究中的模式识别技术 ChinaPharmaceuticalUniversity Contents ChinaPharmaceuticalUniversity 分类 俗语说 物以类聚 人以群分 但什么是分类的根据呢 比如 要想把中国的县分成若干类 就有很多种分类法 可以按照自然条件来分 比如考虑降水 土地 日照 湿度等各方面 也可以考虑收入 教育水准 医疗条件 基础设施等指标 既可以用某一项来分类 也可以同时考虑多项指标来分类 ChinaPharmaceuticalUniversity 6 1基本概念 分析化学已扩展到多维空间 越来越多的智能型分析仪器采集到多维多变量数据 化学模式识别技术是多变量数据分析在化学领域的重要应用 HPLC中 二极管阵列检测器色谱光谱图每个组分多个波长的吸收度 复杂体系的分离分析 中药分析 生物大分子分析 人类基因组学 如 ChinaPharmaceuticalUniversity 模式识别的基本概念 PatternRecognition 模式 模式识别 供模仿用的完美无缺的样本 具有某种共同性质的一类现象的集合 认识出某个样本与哪一种供模仿用的样本相同体相似 是鉴别数据阵提供的信息 用数学方法识别具有一定模式的样品和变量 其功能是对样本进行分类或识别 例如 中医凭舌苔和脉搏进行诊断 公安人员根据指纹查证罪犯 ChinaPharmaceuticalUniversity ChinaPharmaceuticalUniversity 羧酸 酮类在熔点和沸点二维平面上的分布图 ChinaPharmaceuticalUniversity 无监督模式识别 unsupervisedlearning 模式识别的基本概念 聚类分析 不依赖训练集 直接在特征空间中寻找点群或其它可以识别的数据结构 有监督模式识别 supervisedlearning 数据中有一部分是已知模式的样本 通过对处理过的数据进行试验 识别未知类别的样本属于不同的类别 训练集和预测集 有监督模式识别 利用训练集 Trainingset 通过训练或学习来获得识别准规 或判别函数 然后用这些识别好的规则来判决未知模式所属类别 并利用预测集 对训练集中获得的识别准则加以检测 来考察识别准则的可靠性与正确性 未包括在训练集中的已知类别的样本 已知各个模式的所属类别 分类 ChinaPharmaceuticalUniversity 6 2 数据预处理 6 2 1遗漏的数据 中心化与比例调整遗漏数据 不宜用零替代 而用行或列的平均来替代 或者使用随机数来替代 ChinaPharmaceuticalUniversity 消除数据量纲不同或分布范围过大造成的常数偏移量 可以对坐标原点做变换 一般的步骤是均值中心化 ChinaPharmaceuticalUniversity 原始数据矩阵的预处理 n个样本 每个样本数据为一个m维矢量 中心化处理 对数变换 范围调整 正规标准化处理 正规标准化处理 均值为零 方差为1 MATLAB命令 zscore X ChinaPharmaceuticalUniversity 6 2 2协方差矩阵与相关矩阵 数据预处理的常用方法将原始数据变换坐标系 用于后面介绍的各种模式识别方法 变换的思路根据原始数据矩阵得到一个可以反映原始数据中各数据点之间关系的数据矩阵 即方差 协方差矩阵或相关矩阵 ChinaPharmaceuticalUniversity 方差 协方差矩阵 MATLAB命令 cov X ChinaPharmaceuticalUniversity 相关矩阵 ChinaPharmaceuticalUniversity 6 2 3距离与相似性度量 通过样本间的相似性来对样本进行分类的 可用距离来描述样本间的相似程度 距离越小两个样本越接近 相似性大 分在同一类的可能性就越大 距离大则相反 ChinaPharmaceuticalUniversity 距离越小两样本越接近 分在同一类的可能性就越大 绝对距离 欧氏距离 明氏距离 与各变量的量纲有关没考虑变量间的相关性 马氏距离 距离 数据矩阵的协方差矩阵 原始数据矩阵的预处理 ChinaPharmaceuticalUniversity 6 3聚类分析 聚类分析的一般概念 将一批样品或变量按照它们性质上亲疏远近的程度分类 基本思路 n个样本各自成一类 按一定方法逐步并类 使类由多变少 直至最后合并为一类 类 设T为取定的阈值 若对任意的样本 则称G为一类 样本间的距离 描述样本 或变量 间亲疏程度的统计量 相似系数或距离 性质越接近的样本间的相似系数越接近1或 1 ChinaPharmaceuticalUniversity 6 3 2系统 谱系 聚类法 基本思想 先把n个样本各自看成一类 选择距离最小的两类合并成一个新类并计算该类和其它类的距离 再将距离最近的两类合并 这样每次减少一类 直至所有样本都成为一类 算法 设初始模式样品共n个 每个样本看成一类 计算各类之间的距离 可得 维的距离矩阵 从距离矩阵 找出距离最小的元素 如i j 合并成类 计算合并后的新类别之间的距离矩阵 转向第二步 直至所有样品都聚为一类 ChinaPharmaceuticalUniversity 谱系聚类法 平均距离法 如何定义两类的距离 P Q两类相距最近 合并为K类 则K类和其它相关类H的距离DHP 例 对于5种陨石样品分别测试4种金属的含量 原始数据如下 解 按 计算其距离矩阵如下 ChinaPharmaceuticalUniversity D和E相距最近 合并为D B和C合并为B A和B 合并为A ChinaPharmaceuticalUniversity 聚类分析谱系图 距离 A B C D E A B D a 平均距离法 ChinaPharmaceuticalUniversity MATLAB命令pdist 计算距离矩阵linkage 生成谱系数据dendrogram 绘制谱系图cluster 聚类分析 ChinaPharmaceuticalUniversity 最短距离法 如何定义两类的距离 H K为两类 K类是P和Q类两类合并而成的 例讲 平均距离法 对于5种陨石样品分别测试4种金属的含量 ChinaPharmaceuticalUniversity 将每个样本各自看成一类 x2 x3 x4 x5 x1 GA 0 GB 0 GC 0 GD 0 GE 0 计算距离 欧氏距离 D E最近 解 合并 得 ChinaPharmaceuticalUniversity 计算新类与其它类之间的距离 再合并 由上表知 最小 合并B C ChinaPharmaceuticalUniversity 6 3 3动态聚类分析 谱系聚类分析的缺点 样本一旦划分到某个类后就不变了 聚类过程需多次合并 计算量大 基本思想 设定类别的数目 选择若干样本作为聚类中心 按聚类准则使所有样本向各自聚类中心聚集 从而得到初始分类 判断初始分类是否合理 如不合理就修改分类 直至合理为止 最短距离法 特点 计算过程中各类重心和类别都可能变化 ChinaPharmaceuticalUniversity 动态聚类法算法 算法的步骤 选n个初始聚类中心 逐个将需要的样品按最小距离分配给K个聚类中心的某一个Z1 1 形成初始分类 计算初始类的新的向量值 重心 合理 打印 若 如果不等 返回第二步 ChinaPharmaceuticalUniversity 选择凝聚点 初始分类 最终分类 修改分类 分类是否合理 N Y 动态聚类法示意图 例 7样本2变量 ChinaPharmaceuticalUniversity 对A和D 其中心点 1坐标为 x1 45 64 2 54 5x2 24 52 2 38对B C E F G的中心点 2坐标为 x1 24 14 36 56 20 5 30 x2 42 23 121 140 148 5 95下一步再计算各点离 1和 2的距离确定下一轮的类别 结果为 A B C D E F G 显然这一轮已经得到了正确的结果 继续计算新的中心点 3和 4 得到的结果仍为 A B C D E F G 动态聚类的结果为 A B C D 和 E F G ChinaPharmaceuticalUniversity 动态聚类分析 ChinaPharmaceuticalUniversity 最小生成树法 基本思想 对n个样本 要找到连通n个顶点的n 1条边的加和为最小的生成树 计算方法 从最短距离的两点开始 每加一条边都不和已经生成树的构成回路循环 例 x1 7样本2变量的聚类分析 C A B D E G F x2 ChinaPharmaceuticalUniversity 最小生成树法 计算各点间的距离得下表 解 据上表 按两点距离小到大排列得如下顺序 BC AB EF EG AC AD CD DE C A B D E G F x1 x2 将最长的边DE剪断 将7个样本分为两类 ChinaPharmaceuticalUniversity 6 3 4模糊聚类法 ChinaPharmaceuticalUniversity ChinaPharmaceuticalUniversity 6 4降维和显示技术 处理多变量数据时 当变量数为 或 时 我们可以通过绘图或计算机屏幕显示的方式直观地观察图形并识别其特征 当变量数超过 时 这种直接显示则不再可能 这就涉及降维问题 如何将多维的数据在二维或三维空间中显示出其最大多数的信息 是降维和显示技术要解决的主要问题 降维和显示技术有多种方法 因子分析技术是多数方法的算法基础 因子分析是通过对数据矩阵进行特征分析 旋转变换等处理获得信息的方法 因子分析在模式识别中的重要应用是降维和显示技术 数据的投影主要有主成分分析 因子分析等 ChinaPharmaceuticalUniversity 需要与可能 在各个领域的科学研究中 往往需要对反映事物的多个变量进行大量的观测 收集大量数据以便进行分析寻找规律 多变量大样本无疑会为科学研究提供丰富的信息 但也在一定程度上增加了数据采集的工作量 更重要的是在大多数情况下 许多变量之间可能存在相关性而增加了问题分析的复杂性 同时对分析带来不便 如果分别分析每个指标 分析又可能是孤立的 而不是综合的 盲目减少指标会损失很多信息 容易产生错误的结论 ChinaPharmaceuticalUniversity 因此需要找到一个合理的方法 减少分析指标的同时 尽量减少原指标包含信息的损失 对所收集的资料作全面的分析 由于各变量间存在一定的相关关系 因此有可能用较少的综合指标分别综合存在于各变量中的各类信息 主成分分析与因子分析就是这样一种降维的方法 主成分分析与因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法直线综合指标往往是不能直接观测到的 但它更能反映事物的本质 因此在医学 心理学 经济学等科学领域以及社会化生产中得到广泛的应用 ChinaPharmaceuticalUniversity PCA算法简介 ChinaPharmaceuticalUniversity ChinaPharmaceuticalUniversity ChinaPharmaceuticalUniversity 主成分数的估计 ChinaPharmaceuticalUniversity ChinaPharmaceuticalUniversity 特征值1分析法 1视为主成分 2个主成分 ChinaPharmaceuticalUniversity ChinaPharmaceuticalUniversity PCA法的MATLAB命令 PCACOVPrincipalComponentAnalysisusingthecovariancematrix PC LATENT EXPLAINED PCACOV X takesathecovariancematrix X andreturnstheprincipalcomponentsinPC theeigenvaluesofthecovariancematrixofXinLATENT andthepercentageofthetotalvarianceintheobservationsexplainedbyeacheigenvectorinEXPLAINED ChinaPharmaceuticalUniversity 164页习题5程序 以协方差矩阵进行主成分分析x 51818228818212827 1415852563975112636 6262832161430263636 4547268644690244454 13606674403472578081 pc latent explained pcacov cov x ChinaPharmaceuticalUniversity 运行结果如下 pc Columns1through9 0 01990 13610 0006 0 09830 04560 0304 0 01170 0848 0 2164 0 29830 08440 65910 62190 22480 08560 1132 0 0593 0 0906 0 4012 0 09990 04330 0752 0 3812 0 3530 0 7146 0 19240 0244 0 37600 0827 0 0759 0 39220 70020 1299 0 2349 0 2493 0 2260 0 3614 0 37210 3883 0 4524 0 15640 31460 06230 40340 2910 0 2584 0 1878 0 0705 0 0897 0 42690 25140 3924 0 5479 0 4301 0 5042 0 2842 0 54980 33380 1760 0 16020 29430 12830 2792 0 12480 49790 1041 0 1917 0 0657 0 07650 2096 0 44420 6535 0 23510 5410 0 28680 1793 0 23100 5943 0 19800 2803 0 0415 0 29290 40310 0824 0 2258 0 1285 0 55080 30590 3673 0 3418Column10 0 9562 0 0180 0 05680 1294 0 02700 0194 0 1167 0 10220 10790 1693 pc theprincipalcomponents ChinaPharmaceuticalUniversity theeigenvaluesofthecovariancematrixofXinLATENT latent 1 0e 003 3 50910 98840 00000 00000 00000 00000 00000 00000 00000 0000 ChinaPharmaceuticalUniversity explained 78 022621 97740 00000 00000 00000 00000 00000 00000 00000 0000 ChinaPharmaceuticalUniversity pc latent explained pcacov cov x 由贡献率explained可知 78 0226 21 9774 100 85 所以只取两个主成分即可 它们为 y1 0 0199 x1 0 2983 x2 0 4012 x3 0 3760 x4 0 3614 x5 0 2584 x6 0 5042 x7 0 1248 x8 0 2351 x9 0 2929 x10 y2 0 1361 x1 0 0844 x2 0 0999 x3 0 0827 x4 0 3721 x5 0 1878 x6 0 2842 x7 0 4974 x8 0 5410 x9 0 4031 x10 ChinaPharmaceuticalUniversity 6 4 2图形分类法 图形分类法是以多维特征样本的简洁表达为基础的分类方法 使用星 star 图 太阳光线 sun ray 图和Chernoff脸谱 Chernofffaces 等方法对多变量数据进行表示 使用这些方法的先决条件是将特征描述值标准化或变换为正值 ChinaPharmaceuticalUniversity ChinaPharmaceuticalUniversity 图6 10用图形方法表示表6 3中头发样本数据的分类 a b和c的归属见表6 5 上 星型图 中 太阳光线图 下 Chernoff脸谱图 ChinaPharmaceuticalUniversity 图6 11基于血清样本的20次临床分析数据区分患者和健康人的Chernoff脸谱图 ChinaPharmaceuticalUniversity 非监督模式识别的局限性 不确定性没有已知类别的样本集 甚至不知道类别数 可以利用的信息量少 在实际应用中 应该设法有效应用领域的专门知识 以弥补信息的不足 ChinaPharmaceuticalUniversity ChinaPharmaceuticalUniversity 6 5有监督模式识别方法 有监督学习方法需要运用一组已知其类别的样本 这些样本集在特征空间中构成的点集称为训练集 trainingSet 有监督模式识别就是利用训练集通过训练获得判别准则 或判别函数 然后再利用识别准则来判决未知模式所属的类别 为了检验从训练集中得到的识别准则的可靠程度 常利用一组未包含在训练集中的已知类别的样本构成预示集 predictionset 利用从训练集中获得的识别准则对预示集中的各模式进行识别 以检验其识别的可靠性 常见的有监督学习方法包括贝叶斯线性判别法 Fisher线性判别分析 线性学习机 最近邻域判决法 SIMCA分类法等 ChinaPharmaceuticalUniversity 贝叶斯线性判别法Fisher线性判别分析线性学习机 LDA LINAERDISCRIMINANTANALYSIS 线性判别式分析 对已知类别的样本数据建立一定的数学模型 如概率密度函数对未知样本的类别归属进行判断 ChinaPharmaceuticalUniversity K 最近邻域判决法 K NN法 基本思想 一组已知类别的样本集 每个样品n维向量 且每个样本分别属于 类中的某一类 不知每一类中的样品个数 比较到哪一样品的距离最小 取前k个距离最小者 缺点 存贮量和计算量大 k为奇数 然后再看在哪一类中较多 就判为哪一类 对于一未知模式计算出到的有已知模式间的d ChinaPharmaceuticalUniversity 图6 16时将样本分为两类的分类边界线 ChinaPharmaceuticalUniversity 6 5 5SIMCA Softindependentmodelingclassanalogies 法 SIMCA 簇类的独立软模式对训练集中同一类样本的数据集分别进行主成分分析 建立能表述类别特征的局部软模式 以各类模型来对未知样品进行分析 根据残差比较 确定其属于哪一类 或不属于哪一类 ChinaPharmaceuticalUniversity 图不同显著主成分个数时的SIMCA模型 图6 16不同显著主成分个数时的SIMCA模型 ChinaPharmaceuticalUniversity 6 6模式识别在药学中的应用 6 6 1药物定量构效
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2021年高考真题重庆卷物理试题(解析版)
- 建筑工地拆除安全专项方案范文
- 酒店客房服务流程优化方案与规范
- 企业间节能减排技术合作协议
- 2025年学历类自考房地产法-国民经济统计概论参考题库含答案解析(5卷)
- 共享健身房使用协议
- 微纳流体动力学与生物医学应用-洞察及研究
- 2025年学历类自考国际贸易实务(三)-资产评估参考题库含答案解析(5卷)
- 2025年学历类自考国际贸易实务(三)-幼儿园组织与管理参考题库含答案解析(5卷)
- 2025年学历类自考国际经济法概论-行政管理学参考题库含答案解析(5卷)
- 软件著作权无偿转让合同5篇
- 2025年公安警种知识测试题及答案
- 抵押车贷合同(标准版)
- 2025年秋季学期教科版三年级上册科学教学计划(三篇)
- 2025年秋季学期中小学开展工作重点观测指标一览表
- 农民公寓买卖合同协议书
- 燃气检修工模拟试题(附答案)
- 2025居间服务合同范本(合同版本)
- 2025年机关事务管理局招聘考试大纲
- 中老年唱歌教学课件下载
- 主城区积水易涝点排水防涝管网更新改造工程可行性分析报告(参考模板)
评论
0/150
提交评论