第13章 基于经典表型方法-_第1页
已阅读1页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于经典数据挖掘技术的表型分析方法HUAZHONGAGRICULTURALUNIVERSITY1目录CONTENTS第一节降维技术第二节聚类分析第三节分类算法第四节回归分析第五节推荐阅读第六节思考与讨论2本章概述深入到作物表型的研究中不难发现,人们首先注意到的是作物外在形态表现出来的、能够直接用肉眼观测到的表型。例如,各种作物群体的株高、冠幅和叶面积指数,作物根的形态、结构及豆科作物的根瘤个数和大小,作物籽粒的形态、颜色和数量等。记录这些直观表型最好的载体就是照片,所以基于图像的作物表型技术是常见的作物表型获取方法之一,其基本的分析流程见图13-3。图13-3图像分析流程(Yang等,2020)3本章概述从图中可见,不同的数据分析和处理阶段都会有大量的数据挖掘算法参与其中,如图像分割过程中的卷积神经网络(convolutionalneuralnetwork),特征预处理过程中的离群点检测(outlierdetection)、相关性分析(correlationanalysis),关键特征选择过程中的聚类分析(clusteranalysis)、主成分分析(principalcomponentanalysis)和回归分析(regressionanalysis),数据挖掘阶段的支持向量机(supportvectormachine)、随机森林(randomforest)和神经网络(neuralnetwork)等。正是因为这些数据挖掘算法的融入,才使得从作物图片到作物表型再到育种材料选择这一流程完整并运行起来。4一、降维技术5降维技术聚类分析分类算法回归分析降维技术是对高维数据的一种预处理方法,通过降维可以将高维数据的重要特征保留下来,去掉噪声和一些非重要特征。在实际应用中,降维可以在损失一定信息的前提下,帮助我们节省大量的时间和成本,被广泛地应用于数据的预处理过程中。作物表型组学研究中涉及大量的高维数据,如视频和图片等,所以降维对于表型提取与分析过程来说必不可少,此外,有些降维技术对于表型的测量起到了意想不到的效果。下面先看看降维技术在表型组学中的应用,具体的案例细节将在案例分析中加以说明。一、降维技术6降维技术聚类分析分类算法回归分析(principalcomponentanalysis,PCA)是特征提取方法中的一种,是被广泛应用的数据降维技术。主成分分析(其基本思想是将已知数据的协方差矩阵进行分解,如果沿着某一方向协方差分解量是最大的,那这个方向就是第一主成分方向,矩阵在这个方向上的投影即为第一主成分,继续寻找新的方向(垂直于第一主成分方向)将剩余的方差继续分解,寻找到方差分解次大的方向为第二主成分方向,依次类推,就可以找到所有的主成分。下面将用矩阵分解的知识给出各个主成分的确定方法。一、降维技术7降维技术聚类分析分类算法回归分析一、降维技术8降维技术聚类分析分类算法回归分析一、降维技术9降维技术聚类分析分类算法回归分析一、降维技术10降维技术聚类分析分类算法回归分析一、降维技术11降维技术聚类分析分类算法回归分析一、降维技术12降维技术聚类分析分类算法回归分析一、降维技术13降维技术聚类分析分类算法回归分析一、降维技术14降维技术聚类分析分类算法回归分析一、降维技术15降维技术聚类分析分类算法回归分析二、聚类分析16降维技术聚类分析分类算法回归分析聚类分析与作物表型技术聚类分析是指将物体或抽象对象根据某种特征归为多个类的分析过程。聚类的目标就是在相似的基础上收集数据来归类,所以它与分类技术有着本质的区别:聚类所要归的类是未知的,而分类恰恰相反。一般来说,聚类分析在建立分类器之前进行,为未知类别数据的探索提供重要的指导信息。聚类分析源于数学、统计学、计算机科学、生物学和经济学等多个领域的多个场景和多个案例,同时,此方法又被应用于更广泛的领域,如在新兴的作物表型组学中,聚类分析可以对目标图像进行分割,可以对空间植株点云进行分解,还可以根据表型对目标样本进行归类。下面我们就先来看看聚类分析在作物表型组学研究中的应用。二、聚类分析17降维技术聚类分析分类算法回归分析聚类分析的概念(1)聚类的基本思想俗话说“物以类聚,人以群分”,用这句话来形容聚类再恰当不过了。TanPang-Ning等(2011)在《数据挖掘导论》中写道:聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象进行分组。组内的对象是相似的,而不同组中的对象之间是不同的。通常,聚类分析中的“类”被称为“簇”(cluster),按照对“簇”分解策略的不同,聚类分析可分为划分聚类(partitionalclustering)和层次聚类(hierarchicalclustering)。划分聚类就是简单地将数据对象划分为不重叠的簇,使每个对象恰好在一个簇里;层次聚类是允许簇具有子簇,是嵌套簇的集族,组织成一棵树,此时的叶片节点是单个对象的单元素簇,而非其子簇组成的簇集。二、聚类分析18降维技术聚类分析分类算法回归分析(2)动态聚类法划分聚类最具代表性的算法就是k-means聚类法,又称动态聚类法,它适用于所有变量都是定量类型情况,并且选择欧几里得距离的平方作为相异性度量。二、聚类分析19降维技术聚类分析分类算法回归分析二、聚类分析20降维技术聚类分析分类算法回归分析这可以通过上述算法给出的交替优化程序来实现最小化。

然而,上述算法的结果可能代表的不是全局最优解而是局部的次优解。Hartigan和Wong(1979)的算法效果会更好,能确保观察从一组切换到另一组不会降低目标。另外,算法的开始应该有很多不同的随机选择作为起始手段,并选择目标函数值最小的解。二、聚类分析21降维技术聚类分析分类算法回归分析(3)层次聚类法层次聚类可分为聚合和分裂两种类型(图13-7),聚合是一种自底向上的层次聚类算法,从最底层开始,每一次通过合并最相似的簇来形成上一层次中的簇,当全部数据点都合并到一个类的时候停止或者达到某个终止条件而结束,大部分层次聚类都是采用这种方法处理。分裂是采用自顶向下的方法,从一个包含全部数据点的簇开始,然后把根节点分裂为一些子簇,每个子簇再递归地继续往下分裂,直到出现只包含一个数据点的单节点簇出现,即每个簇中仅包含一个数据点。二、聚类分析22降维技术聚类分析分类算法回归分析下面介绍影响层次聚类结果的一个重要概念:簇间距离。设G和H代表两个样本簇。G和H之间的相异性d(G,H)是从成对观察的集合中计算出来的,其中一个i在G中,另一个0在H中。单连锁(singlelinkage,SL)聚合聚类将组间差异视为最接近(差异最小)的组间差异。这通常也称为最近邻距离。完全连锁(completelinkage,CL)聚合聚类(最远邻居技术)将组间相异性视为最远(最相异)对的组间相异性。其中NG和NH是每个组中各自的观察数。尽管在聚合聚类的背景下有许多其他定义组间差异的建议,但以上3种是最常用的。图13-8显示了对同一个仿真数据集应用3种不同的簇间距离所得到的层次聚类结果。二、聚类分析23降维技术聚类分析分类算法回归分析例题:使用聚类法完成图13-9a给出的5个点的层次聚类全过程。先将5个样本分别看成是一个簇,最靠近的两个簇是3和4,因为它们具有最小的簇间距离D(3,4)=5.0。第一步:合并簇3和4,得到新簇集合1,2,(34),5;更新距离矩阵(簇间距离选用最近邻距离单连锁),计算过程如下:二、聚类分析24降维技术聚类分析分类算法回归分析三、分类算法25降维技术聚类分析分类算法回归分析三、分类算法26降维技术聚类分析分类算法回归分析三、分类算法27降维技术聚类分析分类算法回归分析三、分类算法28降维技术聚类分析分类算法回归分析三、分类算法29降维技术聚类分析分类算法回归分析三、分类算法30降维技术聚类分析分类算法回归分析三、分类算法31降维技术聚类分析分类算法回归分析三、分类算法32降维技术聚类分析分类算法回归分析三、分类算法33降维技术聚类分析分类算法回归分析三、分类算法34降维技术聚类分析分类算法回归分析三、分类算法35降维技术聚类分析分类算法回归分析四、回归分析36降维技术聚类分析分类算法回归分析四、回归分析37降维技术聚类分析分类算法回归分析四、回归分析38降维技术聚类分析分类算法回归分析四、回归分析39降维技术聚类分析分类算法回归分析四、回归分析40降维技术聚类分析分类算法回归分析四、回归分析41降维技术聚类分析分类算法回归分析四、回归分析42降维技术聚类分析分类算法回归分析四、回归分析43降维技术聚类分析分类算法回归分析四、回归分析44降维技术聚类分析分类算法回归分析四、回归分析45降维技术聚类分析分类算法回归分析四、回归分析46降维技术聚类分析分类算法回归分析四、回归分析47降维技术聚类分析分类算法回归分析四、回归分析48降维技术聚类分析分类算法回归分析四、回归分析49降维技术聚类分析分类算法回归分析四、回归分析50降维技术聚类分析分类算法回归分析四、回归分析51降维技术聚类分析分类算法回归分析五、推荐阅读1.TrevorHastie,RobertTibshirani,JeromeH.Friedman.Theelementsofstatisticallearning:datamining,inference,andprediction[M].Berlin:Springer,2013.文章通过一个全面的概念框架系统地呈现了统计方法的核心思想,持向量机、分类树等主题。2.JiaweiHan,MichelineKamber,JianPei.Datamining:conceptsandtechniques[M].3rdedition.California:MorganKaufmann,2011.本书探讨了最新的高维数据空间分析和信息提取技术,系统性地介绍了一种集成统计、人工智能、数据库、模式识别和计算机可视化等学科成果的方法,以应对大规模数据集的分析挑战。3.哈默德·坎塔尔季奇.数据挖掘概念、模型、方法和算法[M].3版.李晓峰,刘刚,译.北京:清华大学出版社,2021.文章通过简单的统计和数学概念,向读者介绍了R软件的基础知识,并阐述了数据分析的一些基本逻辑和常识。4.何晓群,刘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论