(分析化学专业论文)分析化学中多维数据解析的新算法.pdf_第1页
(分析化学专业论文)分析化学中多维数据解析的新算法.pdf_第2页
(分析化学专业论文)分析化学中多维数据解析的新算法.pdf_第3页
(分析化学专业论文)分析化学中多维数据解析的新算法.pdf_第4页
(分析化学专业论文)分析化学中多维数据解析的新算法.pdf_第5页
已阅读5页,还剩124页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 i 随着大量新型分析仪器( 如h p l c - d a d 、g c i r 、g c - m s 等) 的相继问世以及仪 器自动采集和传输成为易事,分析化学工作者面对的不再是几个或十几个数据,而是成 千上万个数据点构成的二维化学数据阵或三维化学数据阵。这些数据阵携带着大量的化 学信息,其中包括:体系中的化学组分数,各组份的纯光谱、纯色谱以及含量。然而要 从这些由成千上万个数据点构成的数据阵中提取以上有用的化学信息却不是靠分析化学 工作者的一双经验丰富的眼睛或通过简单的计算能够完成的,必须借助化学计量学算法 才能实现。 化学计量学理论与方法中,最有应用价值的可能是分析化学中的多维数据( 二维 数据和三维数据) 的解析。多维数据解析理论和方法的发展使人们对复杂化学体系的分 析能力有了质提高;使传统分析化学难以处理的复杂化学体系的实时、无扰动直接分析 成为可能。目前多维数据解析研究领域的一个重要趋势是利用化学体系的特点发展能够 适用复杂体系的化学计量学算法。 7 本文作者通过仔细分析当前化学计量学发展的方向,及其研究的热点。选取了二 维化学数据分析及三维化学数据分析中的几个较为重要的问题进行了较为深入的研究、 完成了本论文。本论文主要涉及以下几个方面: 一、二维化学数据分枫k 第一章一第三章) :1 ) 物质的紫外可见光谱和近红外 光谱是宽带吸收谱,呈现平滑的特征,即相邻数据点之间的变化较为缓慢,而噪声则呈 现粗糙的特征,即相邻数据之间的变化十分突兀而随机。这一化学数据的特点早已为化 学家所知。本文作者利用这一化学先验知识定义了度量特征向量粗糙度的粗糙度惩罚 量,来区分二维数据中代表物质光谱信息的主特征向量和代表噪声的次特征向量。由于 主特征向量代表物质平滑光谱的信息,其粗糙度惩罚量较小,粗糙度惩罚量对相应特征 值的影响也较小:次特征向量代表随机噪声,其粗糙度惩罚量较大,对相应特征值的影 响也较大。在这一理论的基础上,作者提出了r e s o 指数( 平滑主成份特征值与普通主 成份对应特征值的比值) 来判断二维数据中的主成份数( 化学组分数) 。该指数的综合 性能优良,适用于组分光谱之间的共线性较严重、含有微量组分或存在非等性噪声的体 系。2 ) 另外,作者把物质的紫外可见光谱和近红外光谱具有平滑特征这一化学先验知 识完美地与固定窗口因子分析法结合了起来。发展了具有高灵敏度的平滑窗口因子分析 法。同时为了使该算法的计算速度与固定窗口因子分析法相当提出了快速平滑窗口因 摘要 子分析法。平滑窗口因子分析法能有效地抑制噪声的影响,适用于精确确定含有微量组 分或组分光谱之间的共线性较为严重的色谱体系中组份的流入、流出时刻;为二维色谱 数据的分辨提供了新的工具。 二、三维化学数据分析i ¥第四章一第九章) :1 ) 针对p a r a f a c 收敛慢的缺 点,提出了优化三个具有密切内在联系,但并不完全等价的目标函数来避免优化过程陷 入所谓的“沼泽”区域,从而加速优化过程收敛的自加权交替三线性分解算法。该算法 的优化过程十分独特,不同于现有的其他采用压缩技术的快速三线性分解算法;它是从 改变目标函数的响应曲面来加速收敛。实验表明:该算法的收敛速度比p a r a f a c 算法 的收敛速度快几十倍。2 ) 针对分析化学中三维数据的特殊结构( 服从三线性分解模 型) ,提出了用于三线性数据阵中主因子数估计的a d d - o n e - u p 法。该算法巧妙地结 合了二维因子分析及三线性分解所提供的信息来提高三线性数据阵主因子数估计的准确 性。a d d o n e - u p 法的操作简单计算量适中、性能优良。能处理组分光谱之间共线 性严重或存在背景干扰的体系3 在三维数据分析中常用的p a r a f a c 算法要求对体 系中的真实因子数作出准确的估计,否则其分解结果将是错误的。但分析化学工作者经 常会遇到难以估计真实因子数的三维数据。本文作者提出了伪交替最小二乘法来避免这 种麻烦。该算法不要求对三维数据阵的主因子数作准确的估计。只要在计算中所使用的 因子数大于体系中的真实因子数,就能够保证伪交替最小二乘法最终分解结果的正确 性。伪交替最小二乘法的这性质使分析工作者能够从复杂繁琐的因子数估计的困境中 解脱出来。4 ) 经过深入细致的研究,作者在比较温和的条件下,对伪交替最小二乘法 的以上性质提供了严格的数学证明,具体指出了赋予伪交替最小二乘法这一优势的主要 原因。该数学证明为设计具有同样性质的新型算法提供了理论指导。5 ) 另外,为了提 高三线性分解算法在有模型偏差情况下的预测能力,提出了利用校正组分浓度阵来约束 三线性分解模型参数的约束平行因子分析法。在二阶校正中,该算法比非负约束平行因 子分析法、单峰约束平行因子分析以及加权平行因子分析的适用范围更广,为存在模型 偏差的三维数据阵的分析提供了新的工具。l , i i a b s t r a c t a b s 仃a c t w i t ht h ee m e r g e n c e o f m a n ys o p h i s t i c a t e di n s t r u m e n t ss u c h a sh p l c - d a d , g c i r , g c - m sa n dt h ea u t o m a t i z a t i o no f d a t ac o l l e c t i o na n d t r a n s m i s s i o n , a n a l y s t s c a n n o w o b t a i n d a t a m a t r i x e s c o n s i s t i n g o f h u n d r e d s a n d t h o u s a n d s d a t a p o i n t se a s i l y t h e s ed a t am a t r i x e sc o n t a i n p l e n t yo f c h e m i c a li n f o r m a t i o ni n c l u d i n gt h en u m b e ro f c h e m i c a l c o m p o n e n t s ,t h ep u r es p e c 帆c h r o m a t o g r a m sa n dc o n t e n t so ft h e s e c o m p o n e n t s h o w e v e r , i t i s d i 伍c u l t , i fn o ti m p o s s i b l e t o e x t r a c tt h ea b o v e i n f o r m a t i o nf r o mt h ed a t am a t r i x e s c o m p o s e d o f v a s td a t ap o i n t s j u s t b y c o n v e n t i o n a l a n a l y t i c a lt e c h n i q u e s a n a l y s t sh a v et or e s o r tt oc h e m o m e t r i c ,t h ea r to fe x t r a c t i n g m e a n i n g f u li n f o r m a t i o nf r o mc h e m i c a ld a t ab yt h ec o m b i n a t i o no fm a t h e m a t i c s , s t a t i s t i c sa n d c o m p u t e r s c i e n c e a m o n g t h eb u l ko fc h e m o m e t r i cm e t h o d o l o g i e s ,m u l t i w a yd a t aa n a l y s i si n a n a l y t i c a lc h e m i s t r yi so n eo ft h em o s ta c t i v e a r e a sw i t hp r a c t i c a ls i g n i f i c a n c e i t p r o v i d e sp r o m i s i n gt o o l sf o rt h ea n a l y s i so fc o m p l e xc h e m i c a ls y s t e m s ,w h i c ha r e h a r dt oh a n d l e b y c o n v e n t i o n a la n a l y t i c a lt e c h n i q u e s a ni m p o r t a n tt r e n di nm u l t i - w a y d a t aa n a l y s i si st o i n c o r p o r a t e 口p r i o r ic h e m i c a l i n f o r m a t i o ni n t oc h e m o m e t r i c a l g o r i t h m s w i t hav i e wt ot a c k l ed a t as e t sr e c o r d e du n d e rn o n - i d e a le x p e r i m e n t a l c o n d i t i o n s t h ep r e s e n tt h e s i sp r i m a r i l yd e a l sw i t ht h ef o l l o w i n ga s p e c t s o f m u l t i w a y d a t a a n a l y s i s i na n a l y t i c a lc h e m i s t r y : 1 t w o - w a yd a t aa n a l y s i s ( c h a p t e r1 t oc h a p t e r3 、:t h eu l t r a - v i s i b l ea n dn e a r i n f r a r e ds p e c t r ao f c h e m i c a lc o m p o u n d sa r es m o o t h s i g n a l s ,w h i l et h er a n d o m n o i s e s a r er o u g ho n e s b a s e do ns u c ha p r i o r ic h e m i c a li n f o r m a t i o n ,ar o u g h n e s sp e n a l t yi s d e f i n e di n c h a p t e r 2t od i s c r i m i n a t et h e p r i m a r ye i g e n v e c t o r s o r e i g e n v a l u e s c o n t r i b u t e d b yc h e m i c a l i n f o r m a t i o na n ds e c o n d a r ye i g e n v e c t o r so r e i g e n v a l u e s p r o d u c e db yr a n d o m n o i s e s i tw a so b s e r v e dt h a tt h er o u g h n e s sp e n a l t i e so f p r i m a r y e i g e n v e c t o r s a r e r e l a t i v e l ys m a l l ,a n dh a v el i t t l e i n f l u e n c eo nt h ec o r r e s p o n d i n g e i g e n v a l u e s w h i l et h o s eo fs e c o n d a r ye i g e n v a c t o r sa r er e l a t i v e l yl a r g ea n dg r e a t l y a f f e c tt h es e c o n d a r ye i g e n v a l u e s a f a c t o r - d e t e r m i n i n gi n d e xc a l l e dr e s o ( t h e r a t i o s b e t w e e nt h ee i g e n v a l u e so fs m o o t h e dp c aa n dt h o s eo fo r d i n a r yp c a ) h a sb e e n i a b s t r a c t e s t a b l i s h e do nt h ea b o v eb a s i s n l ep r o p o s e di n d e xp o s s e s s e se x c e l l e n t p e r f o r m a n c e a n dc a nh a n d l et w o - w a yd a t as e t sw i t hm i n o rc o m p o n e n t s ,h e a v yc o l l i n e a r i t yi n s p e c w ao rh e t e r o s c e d a s t i cn o i s e i nc h a p t e r3 ,as m o o t h e dw i n d o wf a c t o ra n a l y s i s m e t h o df o rt h er e s o l u t i o no f t w o - w a yd a t as e t sh a sb e e n d e s i g n e dt h r o u g hc o m b i n i n g t h es m o o t h n e s sf e a t u r eo f s p e c t r aw i t hf i x - s i z e dm o v i n g w i n d o wf a c t o ra n a l y s i s t h e s m o o t h e dw i n d o wf a c t o ra n a l y s i sc a ns u p p r e s sr a n d o m n o i s e s , d e t e c tm i n o rc h e m i c a l c o m p o n e n t s o rc h e m i c a lc o m p o n e n t sw i t h v e r ys i m i l a rs p e c t r a lf e a t u r e s 2 t h r e e - w a yd a t aa n a l y s i s ( c h a p t e r 4t oc h a p t e r9 、:i no r d e rt oa c c o l e m t et h e o p t i m i z i n gp r o c e d u r eo fi t e m t i v et r i l i n e a rd e c o m p o s i t i o na l g o r i t h m s ,s e l f - w e i g h t e d a l t e r n a t i n g t r i l i n e a rd e c o m p o s i t i o na l g o r i t h m ( s w a t l d ) h a sb e e nc o n t r i v e di n c h a p t e r5 as a l i e n t c h a r a c t e r i s t i c d i s t i n g u i s h i n gs w a t l df i o mo t h e ri t e r a t i v e a l g o r i t h m sw i t hf a s tc o n v e r g e n c er a t ei st h a ts w a t l d t r i e st oa v o i d b e i n g 缸p p e d i n “s w a m pa r e a t h r o u g ha l t e r n a t i v e l ym i n i m i z i n g t h r e e o b j e c t i v ef u n c f i o m w i t h i n t r i n s i cr e l a t i o n s h i p s 1 1 l eu n i q u e o p t i m i z i n gp r o c e d u r e o f s w a t l de n d o w si tw i t h t h ef e a t u r eo ff a s tc o n v e r g e n c e g e n e r a l l y ,s w a t l dc a nc o n v e r g et os a t i s f a c t o r y r e s u l t sw i t h i n1 0 0i t e r a t i o n s ,w h i c hi sm a n yt i m e sf a s t e rt h a nm a n yo t h e ri t e m t i v e t r i l i n e a rd e c o m p o s i t i o na l g o r i t h m s ,s u c ha sp a r a f a c f o rt r i l i n e a rd a t aa r r a y ,t h e s y s t e m a t i cp a r to f v a r i a t i o no b e y s t r i l i n e a rd e c o m p o s i t i o n m o d e l ,w h i l er a n d o m n o i s e s a n d v a r y i n gb a c k g r o u n d s d on o t s u c hi n f o r m a t i o ns h o u l db eu n d o u b t e d l y h e l p f u li n f a c t o rd e t e r m i n a t i o no ft h r e e - w a yd a t aa r r a y s ,e s p e c i a l l yw h e n v a r a n gb a c k g r o u n d s a r ep r e s e n t ( a l w a y st h ec a s ei np r a c t i c e ) am e t h o dn a m e da d d o n e - u p s k i l l f u l l y t a k i n gt h ea d v a n t a g e so ft h eh i l i n e a rc o n f i g u r a t i o no ft h r e e - w a yd a t aa r r a y sw a s d e s i g n e di nc h a p t e r6 ,s p e c i f i c a l l yf o rf a c t o rd e t e r m i n a t i o no f t r i l i n e a rd a t aa r r a y s t h ef a c t o r d e t e r m i n i n gp r o c e d u r e o fa d d - o n e - u pi s s i m p l e a n dc a nb e a u t o m a t i c a l l yi m p l e m e n t e d u n l i k eo t h e rf a c t o r - d e t e r m i n i n gm e t h o d s s u c ha sf - t e s t , n ot h r e s h o l dy a l u eo rc o n f i d e n c ed e g r e ei sr e q u i r e d a d d o n e - u ph a sas t r o n g a b i l i t yt oc o p e w i t hh e t e m s e e d a s t i cn o i s e ,h e a v yc o l l i n e a r i t ya n d v a r y i n gb a c k g r o u n d s m o r e o v e r , i t c a l ls u p p l ym o r ei n f o r m a t i o na b o u tt h es y s t e ms t u d i e dr a t h e rt h a n j u s ta n a r b i t r a r yd e c i s i o no nt h en u m b e ro fu n d e r l y i n gf a c t o r sa sm a n yo t h e rm e t h o d sd o w h i l e a p p l y i n gi t e r a t i v et r i l i n e a rd e c o m p o s i t i o na l g o r i t h m st ot h r e e - w a yd a t aa r r a y s , i ti s n e c e s s a r yt oa c c u r a t e l ye s t i m a t et h en u m b e ro f t h eu n d e r l y i n gf a c t o r si nt h e s y s t e ms t u d i e d f o r t h e g r e a tv a r i e t yo f d a t aa r r a y s ,f a a o r d e t e r m i n a t i o ni ss o m e t i m e s i v a b s t r a c t at i m ec o n s u m i n ga n dt r o u b l e s o m et a s k t h ep s e u d oa l t e r n a t i n gl e a s t s q u a r e s a l g o r i t h m ( p a l s ) d e v e l o p e d i nc h a p t e r7c a l lr e l i e v ea n a l y s t sf r o ms u c hd i l e m m a s p a l sh a sa no u t s t a n d i n gf e a t u r eo fb e i n gi n l l t l u n et ot h ea c , t - 七s s f a c t o r su s e di n c a l c u l a t i o n a sl o n ga st h en u m b e ro ff a c t o r su s e di nc a l c u l a t i o ni sn o1 e g st h a nt h e n u m b e ro f a c t u a l u n d e r l y i n gf a c t o r s ,c a np a l sg u a r a n t e e i t sf i n a lr e s u l t st ob ec o r r e c t t h i sa t t r a c t i v ef e a t u r eh a sn o to n l yb e e no b s e r v e di ne x t e n s i v ee x p e r i m e n t sb u ta l s o b e e np r o v e dm a t h e m a t i c a l l yi nc h a p t e r8 t h em o s ti m p o r t a n tp r e r e q u i s i t ef o rm e s u c c e s s f u la p p l i c a t i o no fu i l i n e a rd e c o m p o s i t i o na l g o r i t h m si st h a tt h ed a t aa r r a y s s h o u l df o l l o wt h et d l i n e a rd e c o m p o s i t i o nm o d e l s u c ha n a s s u m p t i o n , h o w e v e r , m a y b ev i o l a t e di np r a c t i c e ( r a y l e i g hs e a t t e r i n gi nf l u o r e s c e n c es p e c t r o s c o p yi sb u to n e i n s t a n c e ) n l e e x i s t e n c eo fp o s s i b l em o d e li n a d e q u a c yc a ne a u s et h eh i l i n e a r d e c o m p o s i t i o na l g o r i t h m s t ob e m i s l e a d i n g ,w h i c h j u s t i f i e s t h en e c e s s 时o f r e a s o n a b l e c o n s t r a i n t s an o v e lc o n s t r a i n e dp a r a f a ca l g o r i t h mp r o p o s e di nc h a p t e r9 ,b y i m p o s i n gt h ec o n c e n t r a t i o n m a u i xo f t h ec a l i b r a t i o ns a m p l e sa sc o n s w a i n t so nm o d e l p a r a m e t e r s c a n s i g n i f i c a n t l yi m p r o v e t h e p r e d i c t i v ec a p a c i t y i ns e c o n d o r d e r c a l i b r a t i o n v 符号说明 符号说明 a 、b 、c 、,大写黑体字母为矩阵: a 7 、b 7 、c 7 、,矩阵的转置; a 、b 、c 、,小写黑体字母为列向量; a 、b 、c 、,行向量; ( a ,b ) 。向量a 和b 的点积; k ,小写斜体字母为标量; i ,单位矩阵; x ,”m 阶矩阵x ,即矩阵x 具有”行,m 列: c o n d ( a ) ,矩阵a 的条件数; a + ,矩阵a 的广义逆,或称m o o r e - p e n r o s e 逆; i i a i i ,矩阵a 的f r o b e n i u s 范数; r a n k ( a 1 ,矩阵a 的秩; k r a n k ( c ) ,矩阵c 的k 秩; d i a g m ( a ) ,列向量,其元素对应于方阵a 的对角元素; d i a g ( a 。1 ,对角矩阵,其对角元素对应于行向量a 的元素: x ,三维数据矩阵: ,、,、丘,三维数据矩阵墨在三个方向上的维数; ,三线性分解算法中所使用的因子数; f ,二维或三维数据阵的真实因子数; 0 ,h a d a m a r d 乘积 ,向量除法:设x = ( x ) 、y = ( y ,) ,n x y = ( x ,y ,) o ,k r o n e c k e r 张量积: v i 湖南大学分析化学专业博士学位论文陈增萍2 0 0 1 年5 月 绪论 计算机科学与技术的发展极大地丰富与提高了人们对信息的获取与处理的工具 与手段。使得信息科学与技术逐渐成为当代乃至未来科学体系中的主导群体之一这一 变革的影响是如此的广泛而深远,以至古老的分析化学领域也因此而焕发出勃勃生机。 分析化学作为一门化学量测科学,其主要研究任务是探索物质体系的定性与定量的信 息。是关于物质体系化学结构与化学组成的一门化学信息科学。现代分析化学的一个重 要的特征就是分析手段仪器化与量测信息多样化。在计算机技术的推动下,随着分析仪 器不断演化与联用技术的运用,现代分析仪器都具有强大的数据产生能力。一般地,对 单个样品通常可以得到多元乃至多阶量测数据信息。这些丰富的分析信息使得复杂化学 体系的直接解析成为可能。于是,如何有效地从这些庞大却冗余的量测信息中提取相关 化学信息以实现复杂化学体系的直接解析就成为化学研究的一个重点问题。这一问题也 为分析化学研究创造了一个新的生长点。正是在这样一种形式下,化学计量学就应运而 生了。 化学计量学是- i i 关于运用数学,统计学与计算机科学方法和手段来获取用常规 方法难以获得的化学信息的一门新兴学科【l “。它自二十世纪7 0 年代兴起以来,迄今为 止已经经历了3 0 多年的发展。它的基础理论已基本上构成了一较完善的体系。近几年 来,化学计量学的研究方向大致可分为以下几个方面:1 ) 最优化方法、2 ) 信号处理、 3 ) 多元分辨、4 ) 多元校正、5 ) 结构与性能关系、6 ) 模式识别与人工智能。从分析化 学的角度而言,以多元分辨与多元校正的研究最为活跃。多元分辨与多元校正主要涉及 如何从化学量测数据中提取化学组分的定性、定量信息;它们与分析化学的关系最为密 切,构成了分析化学计量学的最核心的部分。按照所分析数据的结构不同,多元分辨和 多元校正可以分为二维化学数据分析和三维化学数据分析。顾名思义,二维化学数据分 析的对象是二维化学数据矩阵。三维化学数据分析的对象则是三维化学数据阵,或称立 体阵。 在比较温和的条件下,二维化学数据的特征值和特征向量与二维化学数据中所含 化学组分数有着很密切的联系。而体系中的化学组分数是一个十分重要的信息,有时甚 至决定后续分析能否进行。因此怎样根据二维化学数据阵的特征值和特征向量估计出体 系中所含化学组分数一直是化学计量学中最受关注的热点之一”。除交互检验等少数 几个方法外”7 。现有的估计二维化学数据阵中化学组份数的方法大致可以分为两类。 第一类方法是根据二维数据阵特征值的大小来估计化学组分数r 8 - i 目。美国化学计量学家 l 绪论 m a l i n o w s l d 在这方面进行了全面系统的研究,提出了因子分析的误差理论【8 】。且在误差 理论的基础上提出了卜统计检验( 9 “、i e 1 1 、i n d 1 1 3 等二维数据化学组份数的估计方 法。最近,f a b e r 等人对m a l i n o w s k i 的f - 统计检验进行了改进“,使其灵敏度有所提 高。除了建立在m a l i n o w s k i 的因子分析误差理论基础上的组分数估计方法外,s a l e x 和i ls a v i o cc 1 3 3 以及何锡文教授等人 1 ”从考察特征值之间的差别角度出发,分别提出了 v p v r s 和e r ( 特征值的比值) 两个经验组份数估计方法第二类方法则是建立在二维 数据阵的特征向量所携带信息的基础上m 。】。这类方法主要是使用一些较为复杂的数学 工具对特征向量进行分析,从而确定二维数据阵中的化学组份数。ri s h r g e 等人口”利 用从光谱数据中得到的特征向量的相关函数来鉴别出那些高噪声向量( 噪声向量被认为 是无意义的) ,从而确定化学组份数。t m r o s s i 等 1 0 利用经傅立叶变换的特征向量 的频率分布来鉴别高噪声向量。高噪声向量被发现具有更高的频率成分。王继红等人 1 ” 提出了利用特征向量的形态因子来确定化学组分的新思路。x m t u 等嘲指出二维数 据阵经奇异值分解后所获得的特征向量信息对于判断二维数据中的化学组份数是有用 的。他们提出用典型相关方法来判断带有误差的实验数据阵中的化学组份数。方法直接 适用于存在有两个或两个以上大小相同,内在因子也相同的实验数据阵的情况。 s h e n r 2 ”,s h a o 嘲等人则尝试将小波分析应用于二维数据中的化学组份数的估计。虽然 现在已经发展了如此众多的因子数( 化学组分数) 估计方法,但是现有的这些方法要么 只是建立在特征值的基础上,要么仅仅利用了特征向量所携带的信息,在实际应用中发 现它们的局限性较大,不适用于一些非理想的二维数据体系( 例如:组分光谱的共线性 严重、存在微量组分或背景干扰) 。在确定非理想体系中所含化学组分数时,结合特征 值和特征向量两者所携带的信息也许能使估计的结果更为准确 二维化学数据分析中的另外一个十分重要的方向是二维数据的分辨,即对体系中 的化学组分进行定性分析。二维化学数据的分辨在复杂体系的研究中占有十分重要的地 位,其应用非常广泛f 2 a - g s 。由于双线性分解的旋转不确定性,原则上对一般的二维化学 数据进行分辨得不到唯一的,具有物理意义的解。但是对于由h p l c - d a d 、g c - m s 等 联用仪器产生的二维数据来说,由于色谱系统的良好分离性能赋予了这种二维数据阵以 特殊的结构,即体系中各组分在色谱保留时间方向上服从依次流出、先入先出规则。这 特征使得对二维色谱数据可以实现唯一分辨( x q 一些化学反应体系的二维数据也可以 实现唯一分辨) 。化学计量学家已经发展了多个二维数据阵分辨算法删。g a m p p 和 m a e d e r 等提出来的渐进因子分析法h “5 0 是二维数据分辨中的一个里程碑式的工作。它 巧妙地利用了二维色谱数据的结构特点,第一次实现了二维色谱数据的唯一分辨但由 于渐进因子分析法包含前向与后向分析两步,且采用的是逐步增大计算数据阵大小的方 2 湖南大学分析化学专业博士学位论文陈增萍2 0 0 1 年5 月 案,因此其计算量较大,有时可能需要几十分钟才能完成计算k e l l e r 和m a s s a r t 提出 的固定窗口因子分析法【5 l 】,在某种程度上解决了渐进因子分析法的不足之处。梁逸曾 教授等人提出的直观推导式演进特征投影法鼬鼬】则综合考虑了色谱方向上的选择性区 域和零组份区域所提供的信息,使二维数据的分辨结果更为准确可靠。j u a n 等人一反以 往利用秩图分辨思想,设计了用于二维数据分辨的针式算法( n e e d l ea l g o r i t h m ) i s 4 , s s 。 m a l i n o w s k i 则开始了对二维数据进行自动分辨的有益尝试畸力。另一很有意义的工作是 m a l _ l r l e 等人的子窗t z l 因子分析法嘲。该算法摆脱了原有的全组份分辨思路,实现了 只对体系中某一个或几个组份的分辨。在这些二维数据分辨算法中,不管是采用那种方 案进行分辨,它们均要求准确确定体系中所有或部分组份的存在区域,即:组份的流 入、流出时刻。但由于化学体系的多样性、以及背景干扰的存在,现有方法有时难以精 确确定一些小组分或光谱共线性较严重组分的流入、流出时刻,从而影响分辨结果的准 确性:因此怎样迸一步提高算法的灵敏度,就成为二维数据分辨中的一个至关重要的问 题。 二维化学数据解析方法的发展为人们提供了分析复杂化学体系( 例如中草药的分 析) 提供了一强有力的工具,大大地缩短了复杂体系的分析时间、以及减少了分析费 用。由于二维数据的唯一分解对数据结构的要求较高,以至于不但一般二维化学数据达 不到这一要求,甚至很大一部分二维色谱数据也难以严格符合唯一分解的条件。正当人 们对二维数据分解中存在的诸如大色谱峰包含小色谱峰等无法解决的问题而绞尽脑汁, 苦思良策之际,三维化学数据分析已悄然进入化学计量学家的视线。三维数据分析的突 出优势在于三线性分解模型的唯一性,及该模型与大多数二阶分析仪器的响应模式( 即 b e e r 定律) 的一致性。在一般的分析条件下产生的三维数据,其三线性分解模型是唯 一的,且其分解结果直接对应于体系中化学组分的定性( 色谱或光谱) 与定量信息( 浓 度) ,不存在类似于二维数据解析中的旋转不确定性问题三维数据分析的这特点使 得它在化学领域( 特别是分析化学领域) 中得到了广泛的应用口”日三维数据分析中最 为著名的算法为平行因子分析法( p a r a f a c ) m7 8 。该算法在理论上已十分成熟,但 在实际应用中却存在一些不尽人意的地方口9 。例如1 ) 它的收敛速度慢,有时经过上万 次迭代也难以收敛;2 ) 它要求事先对所分析体系中的主因子数( 化学组分数) 作出准 确的估计否则其分解结果将没有任何物理意义;3 ) 当存在模型偏差时( 即三维数据 不严格服从三线性分解模型) ,其分解结果不理想。 为了提高三线性分解算法的收敛速度,化学计量学家分析了导致三线性分解算 法收敛速度慢的原因,并提出了各种各样相应的解决方案嘟吲。m i t c h e l l 和b u r d i c k 删认 为p a r a f a f c 算法收敛太慢的原因在于三线性分解模型的解空间存在所谓的“沼泽区 3 绪论 域( s w a m pa r e a ) ”;当优化过程进入“沼泽区域”时,算法的收敛速度将十分缓慢。他 们建议:当发现优化过程进入“沼泽区域”时,就停止本次运行重新启动另一次优化 过程。这是一种比较消极的方法。p a a t e r o 等人通过在所优化的目标函数中增加一项其 影响随迭代次数增大而减弱的惩罚项来加快p a r a f a c 算法的收敛速度陬j a l g b 目琶和 k v a l h e i m 2 嘲则采用压缩技术在尽可能不丢失数据阵主体信息的前提下将维数很大的 数据阵压缩成维数相对较小的数据阵,从而减少每次迭代所需计算时间。b r o 和 a n d e r s 旧蚓将快速t u c h e r3 算法用于大型数据阵的压缩来提高p a r a f a c 算法的收 敛速度。k i e r s 注意到数据阵的严重共线性是影响p a r a f a c 算法收敛速度的一个重要 的因素。他建议将数据阵中的共线性转移到所谓的“基矩阵 上来提高优化过程的收敛速 度 脯】。以上方案对p a r a f a c 算法或多或少均有一定的加速作用,然而仍然难以满足 诸如在线检测等快速分析场合的要求。因此怎样进一步提高三线性分解算法的收敛速度 仍是三维数据分析中的一个重要问题。 p a r a f a c 等迭代三线性分解算法要求对体系中所含主因子数( 化学组分数) 进行准确的估计,否则所得结果将可能是错误的。因此,因子数的确定对于采用 p a r a f a c 类算法进行三维数据分析就显得十分重要。目前,化学计量学家一般先把三 维数据在三个方向上展开成三个二维数据,然后采用二维数据因子数估计方法来估计三 个二维数据的主因子数,从而确定兰维数据中的主因子数e s s - 。在三线性分解中具有 三线性结构的三维数据阵所包含的信息要比二维数据阵丰富得多,其主体结构服从三线 性分解模型,而背景干扰却不具备这种结构特点。因此仅仅把三线性数据展开成三个二 维数据,然后根据二维数据的主因子数来推断三线性数据的因子数的方法是不太合理 的。因为在这种估计方法中,数据的三线性结构特点没有被充分地利用。若要对一个体 系主的因子数作出较准确的估计,则应该利用一切有用的先验信息来提高估计结果的准 确度。当有背景干扰存在时,三线性数据的主体具有三线性结构的这特点,肯定有助 于提高对体系主因子数估计的准确度。迄今为止。利用了三线性数据结构特点的因子数 估计方法并不多。主要有h a r s h m a n 和l m d y 提出的对半分析法( s p l i t - h a l f ) d i , l o u w e r s e 、s m i l d e 和k i e r s 三人共同提出的三维交互检验法( t h r e e w a y c r o s sv a l i d a t i o n ) 9 2 d u r e l l 等人的残差分析法( r e s i d u a la n a l y s i s ) 唧以及b r o 等人的中心一致性诊断分 析法( c o r ec o n s i s t e n c yd i a g n o s i s ) 酬。h a r s h m a n 等人提出的对半分析法在很大程度上依 赖于子集的选择。不恰当的子集选择将导致错误的估计三维交互检验法的计算量太 大,在实际中应用不多。而残差分析法和中心一致性诊断法在确定三维数据的因子数时 要求事先设置一域值。由于不同的数据阵其域值的大小也不同这使得残差分析法和中 心一致性诊断法在实际应用中,需要人为干涉。这对于不熟悉这些方法的使用者来说, 4 湖南大学分析化学专业博士学位论文陈增萍2 0 0 1 年

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论