




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、同济大学化学系硕士学位论文非平滑非负矩阵分解及其应用研究姓名:孙江明申请学位级别:硕士专业:分析化学指导教师:李通化20080301摘要摘要化学计量学的蓬勃发展丰富了分析化学的理论,提高了分析化学家解决问题的能力,为现代化学注入了新的活力。随着新技术、新领域的不断开拓和分析样品的日趋复杂化,日益要求分析化学和化学计量学提供相应的新理论、新技术和新方法。化学计量学新方法的研究一直是化学计量学的热点和推动力,它们不断改变着化学量测的面貌,推动着化学量测的发展。近年来,在模式识别、图像分析和无线通讯等研究领域出现了不少新的数据分析方法,如正矩阵分解,非负矩阵分解等,将这些方法的新思路引入化学计量学,
2、并结合一些成熟的化学计量学方法,我们将可能提出一些更好的化学计量学新方法。本文在非负矩阵分解的基础上,针对算法存在的零值等问题,通过引入平滑矩阵改进算法,成功解决了这一问题,并在化学信号解析中取得一定的成功。同时本文在和模型的基础上发展了一种新的数据解析方法。非负的高维数据分解方法为化学数据解析提供了新思路,新的算法适用体系广泛,不仅可以解析色谱等具有连续选择性区域的混合体系,更善于解析如质谱等只有非连续选择性区域的混合体系。算法在重叠峰解析,复杂化学反应动力学,代谢组学数据解析均取得了令人满意的结果。本文的主要工作成果在于:()通过对非负矩阵分解理论和算法的研究,考虑到算法的缺陷,借助平滑矩
3、阵等算法改进,成功解决了非负矩阵分解算法存在的零值等问题;()提出了分别基于和模型的三维数据非负分解模型,指明了一条新的数据解析思路。新的方法无需再展开三维数据,而是直接分解三维数据,非负的解析结果有直接的物理化学意义;()利用主成分分析和核一致诊断,成功解决了算法如何确定主成分数的问题;()将算法应用于复杂体系的化学反应动力学,取得了令入满意的结果:()初步探讨了算法在手性化合物分离、代谢组学质谱数据等领域的应用。本文分为以下几部分:第部分是前言,负责阐述课题的背景来源和课题所要完成的任务,并对论摘要文的整体结构进行概括。第部分是二维非负矩阵分解研究。这部分包括不同的非负矩阵分解方法以及非负
4、矩阵分解基本原理和算法,从数学角度上论证了算法的收敛性:同时探讨了算法优缺点和适用性,以及非负矩阵分解的发展和改进:接着改进算法,包括不同平滑方法的引入,以及主成分数的确定,使算法适用于化学信号解析,并通过模拟实验研究了算法的可行性,最后成功应用于消旋异构体系的色谱信号解析。第部分是高维数据的非负解析研究。论文探讨了高维数据的解析方法;针对三维数据,分别用平行因子分解和模型发展了非平滑三维非负矩阵分解方法;通过加入非平滑矩阵解决了算法的零值问题;利用核一致诊断,确定了数据的主成分数。在应用环节,本文主要研究了算法在化学反应动力学中应用,包括模拟反应动力学实验和实测体系,并初步探讨了算法在代谢组
5、学的应用,取得了令人满意的结果。第部分是结语,总结了论文的研究工作,并展望了以后的工作。关键词:非负矩阵分解非平滑动力学化学计量学,(),(),(,:学位论文版权使用授权书本人完全了解同济大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名:
6、口】、卜咱伊年,月日经指导教师同意,本学位论文属于保密,在本授权书。指导教师签名:年月日年解密后适用学位论文作者签名:竹沙嘎年、月,日同济大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。签名:们一沙嵋俨(年月第一章引言第章引言化学计量学发展与挑战分析化学是研究分析方法的学科,也是一门表征和测量的科学,其发展依赖于理论、
7、技术与对象(问题)的相互作用。学科之间的相互渗透(包括分析方法中不同技术的联用)是分析化学发展的基本规律。分析化学也是计量科学,它发展、优化、应用量测过程,以获取全局或局部性的化学品质信息,解决所提出的量测课题。因此,分析化学实际上是化学信息科学【“。化学计量学是从量测数据中获取,表述和显示相关化学信息。化学计量学是化学与计算机科学以及数学、统计学的接。它运用在计算机上实现的数学、统计学方法,优化化学量测过程,并从化学量测数据(信号)中最大限度提取有用的化学信息。化学计量学以化学量测的基础理论与方法学为研究对象。它涉及的问题很多是分析化学的基础性问题,或者说它构成分析化学第二层的基础理论的重要
8、部分。化学计量学的发展与分析化学的信息化有着密切的关联。化学计量学经过近年的发展,取得了令人瞩目的成就,正日益得到国内外学者的重视】【列【】。化学计量学不仅为化学量测提供理论和方法,而且为各类波谱及化学量测数据解析、化学化工过程的机理研究和优化提供新途径,它涵盖了化学量测的全过程,包括采样理论与方法、试验设计与化学化工过程优化控制、化学信号处理、分析信号的校正与分辨、化学模式识别、化学过程和化学量测过程的计算机模拟、化学定量构效关系、化学数据库、人工智能与化学专家系统等,是一门内涵相当丰富的化学学科分支。化学计量学的发展为化学各分支学科、其中特别是分析化学、环境化学、药物化学、有机化学、化学工
9、程等,提供了不少解决问题的新思路、新途径和新方法【”。上世纪年代以来,我国化学计量学研究得到了迅速的发展,国内出现了多本化学计量学专著与教材【】【“】【”】【】,化学计量学到现在“己发展成为一门在国际上有一定影响的独立的化学学科分支”【“。化学计量学已成为化学与分析化学学科的一个独特分支,两个重要的条件和因素推动了这方面的发展。首先,化学与分析化学中大量涌现的现代化学量第一章引言测仪器,使化学与分析化学家比以往任何时候都更容易获得大量化学量测数据。取得数据甚至大量数据已不是最困难的一步,最难解决的瓶颈问题是这些数据的解析以及如何从中提取所需的有用化学信息。化学家与分析化学家首次遇到类似行为科学
10、家或经济学家所遇到的大量数据如何处理的问题。化学家与分析化学家比较幸运,因为大量现代分析测试仪器出现带来的“数据爆炸时代”,也正是计算机普及的时代。这就构成了化学计量学发展的第二个条件。为了对极为复杂的化学量测数据进行解析,化学家、分析化学家利用可在计算机上实现的许多强有力的数学方法,包括一些相关学科发展的数据与信号处理新方法,从多维化学量测数据中提取有用的相关化学信息。如果说经典分析化学是依赖费时而麻烦的化学或物理的方法来对很多复杂化学体系进行纯组分分离,即采用单变量校正方法进行定性定量分析的话,那么,现代分析化学家面对的则是各种分析分离技术集于一体的高维仪器所产生的巨量分析信号,藉化学计量
11、学发展的新型分析信号的多元校正与分辨方法来进行复杂多组分体系的定性定量解析。高维数据解析的化学计量学方法现已进入可用来解决分析化学中实际难题的程度,将这些方法用于复杂环境样本、中草药中单位药及复方分析等领域,取得了很多令人振奋的结果。复杂多组分体系解析随着化学、生命科学、药物学等学科的迅猛发展,分析样品正变得越来越复杂。体系的高度复杂性使得体系中化学成分的定性定量分析变得非常困难,分析任务也因此变得越来越艰巨。与此同时,近二十年来,联用仪器在化学领域得到了比较广泛的发展和应用,如、以及等等。这些仪器普遍具有较强的分离特性,可以将一个复杂的体系分解成为相对简单的子系统,它们的出现与应用使复杂体系
12、的分析变成可能。然而,无论仪器多么的先进,条件如何的优化,一个特别复杂的体系,如中草药成分分析体系、食品分析体系等是不可能通过色谱分解得到一个个只包含一种组分的小体系,重叠峰仍然不可避免。但幸运的是,联用仪器量测得到的两维数据包含着大量的化学成分信息,如果能借助结合适当的化学计量学方法,就有可能从这大量的信息中提取出有用的化学信息,甚至得到纯组分的浓度、光谱信息,进而对体系中的化学成分进行定性定量分析。第一章引言般来说,对于服从定律的化学信号,实验测得的数据矩阵可用矩阵分解的方法解析,其实质就是要将一个单矩阵分解为两个能表示原始组分化学信息的子矩阵。为此,在化学计量学领域中,分析化学家提出了各
13、种各样的单矩阵分析方法,如自模式曲线分辨(,)就是一类单矩阵分解方法的统称。自模式曲线分辨法主要基于主成分分析,其基本假设有两条:()混合物量测谱符合线形加和性;()波谱量测值只能为正值。由于这两条假设要求条件对一般波谱仪器所产生的数据皆可成立,故其适用性较广。典型的方法有迭代目标转换因子分析方法(,)、直观推导式演进特征投影方法(,)等。它们分别根据不同的原理实现单矩阵的分解,如邝通过在迭代中加入化学信息限制(如非负性、单峰性等)使迭代矢量逼近原始信号,而则充分利用两维色谱的化学特征,采用基于秩图的局部主成分分析方法实现单矩阵的分解。与此同时,近年来,在模式识别、图像分析以及声音处理和无线通
14、讯等研究领域也出现了很多新的单矩阵分解方法,如独立组分分析(,)、非负独立组分分析(,)、非负矩阵因子分析(,)、非线性主成分分析(,)等。与传统的方法相似,它们的目的也是将一个单矩阵分解为两个具有实际物理化学意义的子矩阵。如能得到不仅是不相关的而且是相互统计独立的组分,非负矩阵因子分解可以将一个非负矩阵分解为两个非负因子矩阵的线性组合,可用于“非负”限制条件下的数据降维。是一种数据降维和特征提取方法,它只限制原始数据非负,量测数据可看成是原始信号的线性加合。也是一种潜变量分析方法,它可以在不改变原数据结构的前提下,将原数据阵分解成两个非负矩阵来表征原数据,尽可能地从原数据中提取信息。因而可以
15、像主成分分析()一样用来进行潜变量分析,虽然和都是通过寻找转换矩阵投影得到新的矩阵表达,但两者有根本的不同。是基于向量的分解方法,其分解得到的得分矩阵和载荷矩阵相互正交,矩阵没有明确的物理化学意义;分解得到的两个矩阵第一章引言并不一定正交,它的分解结果中没有负值,有相应的物理化学意义。论文主要工作内容本文的主要工作成果在于:通过对非负矩阵分解理论和算法的研究,考虑到算法的缺陷,借助平滑矩阵等算法改进,成功解决了非负矩阵分解算法存在的零值等问题;提出了分别基于和模型的三维数据非负分解模型,指明了一条新的数据解析思路。新的方法无需再展开三维数据,而是直接分解三维数据,非负的解析结果有直接的物理化学
16、意义;利用主成分分析和核一致诊断,成功解决了肝算法如何确定主成分数的问题;将算法应用于复杂体系的化学反应动力学,取得了令人满意的结果;初步探讨了算法在手性化合物分离、代谢组学质谱数据等领域的应用。本文分为以下几部分:第部分是前言,负责阐述课题的背景来源和课题所要完成的任务,并对论文的整体结构做一概括。第部分是二维非负矩阵分解研究。这部分包括不同的非负矩阵分解方法以及非负矩阵分解基本原理和算法,从数学角度上论证了算法的收敛性;同时探讨了算法优缺点和适用性,以及非负矩阵分解的发展和改进;论文接着改进算法,包括不同平滑方法的引入,以及主成分数的确定,使算法适用于化学信号解析,并通过模拟实验研究了算法
17、的可行性,最后成功应用于消旋异构体系的色谱信号解析。第部分是高维数据的非负解析研究。论文首先探讨了高维数据的解析方法;接着针对三维数据,分别用平行因子分解和模型发展了非平滑三维非负矩阵分解方法;然后通过加入非平滑矩阵解决了算法的零值问题:同时利用核一致诊断,确定了数据的主成分数。在应用环节,本文主要研究了算法在化学反应动力学的应用,包括模拟反应动力学实验和实测体系,并初步探讨了算法在代谢组学的应用,取得了令人满意的结果。第部分是结语,对论文研究工作总结,并展望了以后的工作。第章非负矩阵分解理论与算法第章非负矩阵分解理论与算法非负矩阵分解方法概述在年发表了一篇用交替回归的技术来获得非负化学谱图信
18、号,即后来被称为交替最小二乘()的技术。年和在他们所发表的一篇文章【】里尝试对环境方面的实际数据进行因子分析,所得到的每一个因子是一系列的基本变量的正线性组合。具体模型如下:设矩阵的每一列为实际观测值,矩阵的每一列为因子,而矩阵的每一行作为矩阵对应因子的影响。用矩阵来代表每一个元素的权重,权重代表每一个观测值的可信度等级。和提出了如式()所示的优化模型:缈一删犯,()和最先提出了利用有约束的最小二乘迭代算法。这种方法固定针对进行优化,然后互换变量的角色固定针对优化,重复迭代过程。该算法的初始状态随机选定以试图得到全局最优解。随后设计了多种算法来对上述的优化算法进行改进。他的第二个算法,】对上述
19、算法进行了修改,使整个应用过程复杂化不少。接着他又提出了一个更加通用的算法模型”,来寻找满足非负条件限制的多因子模型,该算法利用改进的变梯度算法来解决此优化问题。由上述可知,等人在非负因子分析方面作了大量的工作。但从现在的角度来看,他们的文章中还是存在一些不足之处。首先,他们的研究只局限在非负矩阵分解的某一具体应用领域,没有对该类算法的应用推广性做深入研究;其次,他们使用的算法只能应用于特定的领域,无法直接推广到其他的领域;最后,他们没有对所建立的模型进行相应的理论推导和研究,没有从理论上证明算法的收敛性以及复杂度等,而是主要基于经验来提出,缺乏理论基础。和在年的一篇有关无监督学习方法的论文中
20、提出了非负矩阵因子分解,)“】的概念,年他第章非负矩阵分解理论与算法们的论文】在上发表后引起了人们的广泛关注,目前已广泛用于生物医学【】【】【、人脸识别【】【“、图像科学【】【”、语音信号处理等领域。是一种数据降维和特征提取方法,它只限制原始数据非负,量测数据可看成是原始信号的线性加合。也是一种潜变量分析方法,它可以在不改变原数据结构的前提下,将原数据阵分解成两个非负矩阵来表征原数据,尽可能地从原数据中提取信息。因而可以象主成分分析()一样用来进行潜变量分析,虽然和都是通过寻找转换矩阵投影得到新的矩阵表达,但两者有根本的不同。是基于向量的分解方法,其分解得到的得分矩阵和载荷矩阵相互正交,矩阵没
21、有明确的物理化学意义;分解得到的两个矩阵并不一定正交,它的分解结果中没有负值,有相应的物理化学意义。模型非负矩阵分解可用下述公式描述:圪。形。,。()式()中。表示观测数据矩阵,。,和耳,。表示因子矩阵,为变量数,为样本(或变量)数。表示体系的主成分数,一般情况下,的选取要满足(),一。与因子矩阵。,。元素值均非负。与其他矩阵分解模型最大的不同之处在于矩阵的非负限制,在这种情况下,只有加和是可能的,即:二()睨。()式()中为非负矩阵中的元素,既和日。分别表示因子矩阵和中的元素。因子矩阵每一列表示一个基向量,而因子矩阵的每一行则表示由该基向量表征原非负矩阵的相应列时的权重。目标函数和迭代规则为
22、了寻找一个近似的分解过程,必须首先定义目标函数来保证逼近的效果。这样的目标函数有两类,一种是用范数误差来衡量重构误差,另一种是最小化第章非负矩阵分解理论与算法修正的散度为目标函数。欧氏距离对于第一类目标函数,一个比较有用的方法是衡量量测矩阵和重构矩阵的欧氏距离:卜聊(一(孵)口)当且仅当时,式()即欧氏距离为零。()我们采用欧氏距离来构建评价函数,得到式():(一(聊)分别对和求偏导,有:瓦之晒一岫)薏之矿妒聊。)采用梯度法,我们可以得到加法更新法则:()()彬。彬。(),。一(),。】()()日【(形叼掣一(矿)口】上面两个公式中参数。和瑁。也成为学习率,它们的物理意义是定点()梯度法的步长
23、,若选择屯谚和谚名言,加法更新公式()和式()可以变为乘法更新公式()和式(”:七一”帆黩黯(的散度对第二类,基于散度或熵的目标函数如下:。塑!兰韭里丝堕坌堡些堡皇竺鎏掣)莩(”蒜一(附同样,当且仅当时,式取最小值。简化公式(),得评价函数:()。()驷一(腰)埘需要说明的是,公式()等价式()(),【。()一(嗍机】我们的任务是最小化,使得逼近于。根据公式,对求偏导,则有:()舞弘。击一;日”薏莩睨击一军得到加法公式()和式():、仁佗既川一九【善蔬一莓军击一军既其中参数瓦和玎,称为学习率,若选择耻盎和驴轰,删仁曲,”可以得到乘法更新规则(,)。彬。卜彬三()扯仁曲第章非负矩阵分解理论与算法
24、卜矿()。收敛性证明其满足(,)();(,)()令(,。),则可得)为了证明在上述更新公式下,目标函数单调递减,引入辅助函数(,),()(“)(,。)(。,。产()()只有当。取(,。)最小值时(。户(。)。如果目标函数的导数存在且在。的一个极小领域内连续,那么若每次取。盯,。)进行迭代,最终会收敛到一个局部最小点珥(:(一)(。)(矗。)()可以构造这样的辅助函数(,。),对于目标函数,其迭代规则能满足(,。)。算法根据乘法更新公式()和式(),得到计算因子矩阵和的第一种算法。在非负约束条件下,初始化因子矩阵和(如随机初始化矩阵和;()计算新帆帖形。舷;()列归一化:芝万:;()计算新的:,
25、乙瑞第章非负矩阵分解理论与算法()重复()至(),直到收敛。根据乘法更新公式()并式(),得到计算因子矩阵和的第二种算法。()在非负约束条件下,初始化因子矩阵和(如随机初始化矩阵和:()计算新的:形形。矿;哪。()列归一化:,藏;形。,()驷()计算新的:矿;啥彬。按日;瓦;一一()重复()至(),直到收敛。综上所述,以上两种算法仅仅是采用的乘法更新计算公式不同,基本步骤是相同的,并且二者算法运算速度相差不大。实际上我们使用的是简化过的算法,这也是现在常用的算法。算法如下:在非负约束条件下,初始化因子矩阵和(如随机初始化矩阵和;()计算新的:()列归一化:计算新胁()咿冼重复()至(),直到收
26、敛。算法优点和不足第章非负矩阵分解理论与算法和的算法在非负元素的限制下是一种非常好的矩阵分解算法,它有两个非常重要的特点,即产生基于局部的、稀疏的非负矩阵,这些特性使产生的数据比较容易直观地解释。在传统的化学计量学方法中,非负是一种外加限制条件的方法,即算法本身不能保证分析结果非负,要在算法之中加入其它方法进行限制,比如,当有负值出现时,采用将其设为零或采用非负最小二乘()】方法进行限制。中对“非负”的限制截然不同。由于乘法更新规则的应用,在原始数据非负的情况下,能够保证分解结果和不会出现负值。算法本身就能保证不会出现负值,而不再需要其它的任何方法对“非负”进行进一步的限制。将算法用在人脸数据
27、上,主题矩阵每列中存放的是诸如人眼、鼻、嘴等在表现人脸具有关键作用的特征,编码矩阵每列中存放是具体人脸用中的局部特征相加组合的方式码。这有别于用整个特征脸来表征不同的脸。这和人们在记住一个人的脸的过程相似:先记住脸上有特色的局部特征,然后经过相加的组合而形成一个人整个脸的记忆。算法在人脸识别和图像压缩中有相当大的用途。将算法用在语音处理上的时候,矩阵每列中存放是语音数据比较稀疏的特征码,而矩阵每列中存放是具体语音在由中特征码组合时的方式编码。这种数据结构在进行语音识别和语音分离等方面有较大的用处。将算法应用在化学信号的解析中,矩阵每列存放的是化学各纯组分的特征信号,而矩阵存放的是中特征信号的一
28、定组合方式,如浓度或对应的光谱强度。与基于的化学计量学方法不同,算法解析的是非负化学信号的线性加和,而不是整个体系对应的特征向量,可直接得到有物理化学意义的解。的原理简单,已在模式识别和图像分析处理等研究领域得到了比较广泛的应用。但同时算法也存在以下不足之处:零值:如前所述,在迭代计算过程中采用了乘法更新公式,如果(初始)因子分解矩阵和中的任一元素为“零”,则重构数据矩阵中相对应的元素也必将为“零”而不会成为“非零值”。也就是说,这时会导致迭代不收敛,或者说不能达到局部最小值,此时得到的解将不会是最优解。收敛速度:算法是用由梯度下降法推导而产生的,其乘法更新公式是第章非负矩阵分解理论与算法由梯
29、度下降法中的加法更新公式转换而来,以梯度为基础的方法的一个不足之处是其速度受步长(或称学习率)大小的影响。算法的收敛速度比较慢。有时需要几千甚至几万次迭代计算才能达到比较理想的收敛结果。唯一性:当用于化学波谱解析时,得到的解析结果可能仍是纯组分波谱的线性组合,需要通过“投影”或“旋转”等进一步操作。另外算法需要其它算法确定体系的组分数,并且在处理高稀疏的数据上也存在问题,需要做进一步的改进。第章非负矩阵分解算法改进和应用研究第章非负矩阵分解算法改进和应用研究非负矩阵分解改进算法简介自从年和正式在上发表文章给出了一种矩阵分解算法以来,许多在此基础上的算法在不同程度上对存在的缺点进行了改善。下面着
30、重介绍以下几种算法:()非负矩阵分解只是要求所分解的因子矩阵元素非负,如果对分解的因子矩阵考虑进一步的约束,可以强化分解的结果。等基于这个想法,提出了局部非负矩阵分解并用于图像识别,他们提出的约束问题可转为如下的约束优化求解问题:。(刚册)等(。万岳一(唧口砉缈一卢喜晒()()根据稀疏编码原则,提出了一种非负稀疏编码,使分解后的系数有比较好的稀疏特性,也就是求解如下的约束性问题(矿,脚)扣一删卜丑厂帆)()该学习算法的一个缺点是基向量学习是加性迭代,不能很好地保持非负特性,对负值必须使其强制置零。将其算法应用在视觉感知的建模研究中。稀疏非负矩阵分解【圳同样根据稀疏编码原则,等基于散度提出了如下
31、的稀疏非负矩阵分解()莩(讪蒜一“抄口等以()和的学习算法相比,算法全部采用乘性迭代规则,能很好地保持数据的非负特性。()”第章非负矩阵分解算法改进和应用研究近来的一篇是等的非平滑非负矩阵分解,通过加入一平滑矩阵控制因子矩阵和的稀疏性,他们把数据分解为,以及平滑矩阵即:()其中(一口讧()在高稀疏数据处理中的问题。,()的元素值在迭代中不变。通过口的值控制和的稀疏性,解决了等探讨了在化学里的应用,并针对化学性号的特征,对相应的算法进行修饰,如平滑处理、单峰限制等。取得了一定的成果。算法改进近年来有许多针对算法在不同领域的应用的改进算法,这些算法从各个方面克服了算法在应用领域的缺点,改进的方式大
32、致可以分为两大类:第一类主要改进算法使之能收敛到全局最优点;第二类改进是在算法的稀疏度的控制上进行改进,使之更有效、可控地处理高稀疏度的数据。本文通过参考奇异值分解,并借鉴非平滑非负矩阵分解()的思想,发展了一种新的非负矩阵分解算法,新方法将数据矩阵分解为三个相乘的因子矩阵,如下式()所示:矿()其中矩阵矿是量测矩阵,矿和分别是分解所得的因子矩阵,矩阵类似于分解里的特征矩阵,它的初始值如式()所示:(一口皿()()其中,当口时,等同于将矿分解为;曰斗时,任一矩阵与的乘积皆为元素值近似相等的矩阵。由此矩阵称为平滑矩阵,它的平滑程度由决定。算法采用散度(熵)为目标函数,如式()所示:第章非负矩阵分
33、解算法改进和应用研究(川脚)等(蒜一()、,)()分别对矿,月和求偏导,求得的形,和的更新法则:既叫(跗)。(,)啦划”(孵),。()枷。七一。既算法在非负约束条件下,初始化因子矩阵,和计算新的:既叫上列归一化最;计算新的:州”(孵)。()扭行归一化:”盎()()()第章非负矩阵分解算法改进和应用研究计算新的:卜,二二既日口,。口。重复直到收敛。主成份数的确定对于解析实验数据,首先要知道的是该数据中包含了多少的独立化学组分,才能进一步分析数据。确定未知混合体系中的独立组分数的方法有基于量测误差大小已知的方法;对量测误差大小无可估计,只根据计算结果判断的方法。主要有剩余标准偏差法(真实误差法,法
34、),因子指示函数法(法),方差比法和相邻特征值比值法等几种方法【”】【”。这些主因子数的确定方法从整个矩阵的特征值(它们反映了整个协方差阵的方差)来考虑,这样的方法常被称为全局因子分析法。此外还有局部因子分析法,针式搜索算法等来估计体系的独立组分数。本文采用了以上几种确定主成份数的方法。算法优点在上一章里,我们讨论了原始的算法存在的不足之处,比如零值,唯一性,主成分等问题。本章建立一个新的分解模型,引入了一个起平滑作用的矩阵,当迭代过程中因子矩阵元素出现零值时,若其他因子对应元素不全为零,则由于矩阵与因子矩阵相乘,使得附近的元素加和到此元素上从而使得元素变为非零,这就解决了原始的缺陷零值问题。
35、零值问题的解决意味着算法避免了因此陷入局部最优,而使得算法更易得到唯一解。同时,矩阵的加入不仅能起到平滑的作用,解决零值问题,而且促使了算法收敛速度的加快,这在一定程度上也解决了算法的收敛速度问题。由于化学信号解析需要精确估计体系的主成分数,传统的并未考虑这个问题,算法通过基于的方法预判体系的组分数,这就使得精确判断体系的组分数成为可能,从而使得算法能够解析化学波谱信号。为了验证算法的可行性,本文将算法分别应用在模拟数据和实测实验体系。并结合化学信号的特点,如色谱的单峰性等对算法在具体的体系进行改进,使第章非负矩阵分解算法改进和应用研究得算法能够更准确地解析结果。应用示例前文讨论了非负矩阵分解
36、的基本理论、算法、以及改进,下面探讨的应用。模拟数据为了研究手性物质的分离,我们用类型数据模拟实验。采用高斯函数模拟色谱和光谱。模拟纯组分的色谱数据构成矩阵的列,模拟纯组分的光谱数据构成矩阵的行,根据定律,矩阵乘积产生型数据矩阵,实验测量误差用均值为最大吸收的的正态分布模拟,模拟数据矩阵用下式表示:为了评价算法,选取了几个有代表性的实验体系:两组分体系色谱重叠程度较小时,色谱存在较多的单信息区;色谱严重重叠时,单信息区较小或者没有单信息区存在。我们探讨了不同色谱分离度时解析情况,下表列出了光谱完全重叠而色谱解析度分别为、和时的解析结果,其中实线表示模拟曲线,点线表示解析曲线。表两组分色谱不同重
37、叠程度的肝解析结果色谱分离度模拟与解析色谱曲线模拟与解析光谱曲线憎帽埘;。州。:。”。娥氓一嘣。”。:一:,。“第章非负矩阵分解算法改进和应用研究嘣叫崩一叫啪响啊。二:。“。瓜。一;恤曲一一曲”:。瓜。啊岫;嘣叫伯。二:二:。”。”。矗厶。氓酞盼“一帽叫一嘣哳弩一,二二瓜;口岬”:。:,。表中所列色谱部分重叠的四种不同情况,在色谱解析度大于的情况下,色谱重叠程度较小,存在着可明显分辨的单信息区;当色谱分离度为时,色谱的重叠程度较大,单信息区已经非常小,此时仍能给出理想的解析结果;当色谱分离度为时,色谱严重重叠,此时两种物质已经彼此不存在单信息区,的解析结果仍然能给出正确的峰位置,结果非常可信。
38、由此我们可以得出结论,两组分体系中,对于不同的色谱重叠情况,都能给出比较合适的解析结果。三组分体系多组分的情况比较复杂,我们以三组分为例,初步讨论了在多组分曲第章非负矩阵分解算法改进和应用研究线分辨的可行性。图三组分部分重叠时解析色谱结果()图三组分部分重叠时盯解析光谱结果从图和图可看出,在色谱相对解析度为的情况下,即色谱重叠程度比较大的情况下,的解析结果是令人满意的。由以上讨论,能够用于型数据的解析。在不同的色谱重叠情况和组分数的多少,的解析结果都比较理想。为了进一步验证算法的适用性,我们用实验做进一步探讨。第章非负矩阵分解算法改进和应用研究实测示例:手性舒必利分离仪器与试剂舒必利,对映及左
39、旋舒必利样品由上海玉安药业有限公司提供,甲醇(国产色谱纯,上海星狮生物工程有限公司),磷酸(国产分析纯),三乙胺(国产分析纯)。流动相在使用前都经滤膜过滤。一型精密计(上海雷磁仪器厂),百万分之一分析天平(德国,型)。色谱条件液相色谱仪包括泵,紫外检测器,进样阀(),使用在线过滤器(江苏汉邦科技有限公司),色谱信号由色谱工作站(杭州英谱科学技术有限公司)采集处理。色谱柱为大环抗生素类固定相手性柱();流动相:甲醇:磷酸:三乙胺:(:);流速进样量为血,检测波长:柱温为室温。标准液的配制称取舒必利消旋体和左旋舒必利,分别置于容量瓶中,用甲醇定容得到舒必利消旋体及的左旋舒必利标准溶液。用流动相将上
40、述标准溶液配制成不同浓度的工作溶液。测定结果舒必利手性化合物色谱图如图所示,其中为的舒必利消旋体,为的舒必利消旋体,为的舒必利消旋体。左旋的舒必利色谱如图所示,其中标号为的左旋舒必利,为的左旋舒必利。图为的舒必利加入的左旋舒必利混合物的色谱图。第章非负矩阵分解算法改进和应用研究图不同浓度舒必利手性化合物的色谱图图左旋舒必利的色谱图图消旋体与左旋舒必利混合物的色谱图第章非负矩阵分解算法改进和应用研究图中,在保留时间和附近,分别有两个色谱峰,但两峰部分重叠,通过不同的实验条件尝试,两峰仍难以分离。图中,左旋舒必利出峰时间在,但保留时间附近有峰,可见左旋舒必利可能仍旧含有右旋舒必利,我们依然难以通过实验精确定性定量。因此必须采用波谱解析方法进行分析。”卜:掺图解析结果与讨论本文采用非负矩阵分解算法解析图中部分重叠的色谱数据,分别得到如下图和图所示的解析色谱图,其中图中,我们对色谱
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 预装作业知识试题含答案含穿护套操作及问题处理测试卷有答案
- 2025年单招面试奇葩试题及答案
- 气象知识竞赛试卷及答案
- 合理用药知识试卷及答案
- 化学与环境(有机污染)联系试题
- 化学批判性(评价实验方案)思维测评试题
- 商业素养知识题库及答案
- 2025年高考物理“选择题专练”速度准确率试题(二)
- 2025年高考文科综合试卷及答案
- 工业设备考试题及答案
- 项目经理年中会议汇报
- 小学生美容知识培训内容课件
- 7-函数的连续性省公开课一等奖全国示范课微课金奖课件
- 2024年北控水务集团招聘笔试真题
- 2025年盘锦市总工会面向社会公开招聘工会社会工作者52人考试参考试题及答案解析
- 2025年具有良好的商业信誉和健全的财务会计制度承诺书范本
- 2025年秋人教版数学四年级上学期第一次月考测试卷【附答案】
- 2025年全国高校辅导员素质能力大赛基础知识测试卷及答案(共五套)
- 酒类酿造产品品质追溯体系建设方案
- 电焊车间卫生管理办法
- 书店服务礼仪培训课件
评论
0/150
提交评论