(分析化学专业论文)多模型共识数据建模方法研究.pdf_第1页
(分析化学专业论文)多模型共识数据建模方法研究.pdf_第2页
(分析化学专业论文)多模型共识数据建模方法研究.pdf_第3页
(分析化学专业论文)多模型共识数据建模方法研究.pdf_第4页
(分析化学专业论文)多模型共识数据建模方法研究.pdf_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学博士学位论文 摘要 分析化学数据的建模是化学计量学研究的重要内容。根据数据建模的任务不 同,可以分为回归校正( r e g r e s s i o n ) 和模式识别( p a t t e r nr e c o g n i t i o n ) 。由于传统的单 模型建模方法对数据中的噪声和样本量都比较敏感,在分析复杂的化学测量数据 时,容易受到数据中噪声或样本量的影响,使模型的普适性( g e n e r a l i z a t i o n p e r f o r m a n c e ) 大大降低。为了弥补单模型建模方法的不足,近年来,多模型共识建 模( e n s e m b l em o d e l i n g 或o o n s e n s i l $ m o d e l i n g ) 方法受到普遍重视,在很多研究领域 得到广泛的研究和应用。本论文将多模型共识建模方法用于近红外光谱和基因芯 片( m i c r o a r r a y ) 数据的建模与分类,并对多模型共识建模方法的基本理论和应用进 行了探讨,主要内容包括: 1 综述了分析化学数据建模的基本原理以及常见的建模方法,重点总结了多 模型共识建模的基本理论、常用建模方法以及应用现状。 2 研究了随机抽样法多回归模型共识建模方法,提出了一种基于偏最小二乘 ( p l s ) 的多回归模型共识算法c p l s 。该方法不是只利用预测性能最好的单个模型 来预测未知样本,而是采用随机抽样技术扰动训练集,建立一系列的p l s 模型, 并从中选择部分预测性能较好的模型共同预测未知样本。通过对玉米近红外光谱 数据的校正分析,结果表明,c p l s 的预测性能要比普通p l s 模型好,采用多个 p l s 模型的共识,不但提高了p l s 模型的预测精度,而且也提高了p l s 模型的普 适性。 3 将局部建模技术与多模型共识方法相结合,提出了一种动态建模多模型共 识算法c d l - p l s 与普通p l s 和基于b a g g i n g b o o s t i n g 的p l s 算法不同,c d l - p l s 采用一种局部动态建模方法训练成员p l s 模型,用于训练成员p l s 模型的样本不 是从原训练集中随机选取,而是根据训练集样本与未知预测样本之间在主成分空 间的欧几里得距离来选取。通过对烟叶样品近红外光谱数据的校正分析,结果表 明,局部动态建模技术可以提高p l s 模型的预测精度和稳定性,而多个局部动态 p l s 模型的共识,可以进一步提高模型的预测精度和普适性。 4 采用特征变量选择和非重复特征变量相结合的方法,建立了多分类器共识 v 摘要中国科学技术大学博士学位论文 分类方法c a m c u n ( c o n s e n s u sa n a l y s i so fm u l t i p l ec l a s s i f i e r su s i n gn o n r e p e t i t i v e v a r i a b l e s ) 。c a m c u n 根据特征变量的预测能力有选择地建立非重复特征变量成员 分类器,使各成员分类器之间尽可能不相关,以增加成员的多样性。通过对基因 表达谱数据的分析,结果表明,c a m c u n 的预测精度和普适性比其成员分类器有 较大的提高。另外,对c a m c u n 的偶然相关性( c h a n c ec o r r e l a t i o n ) 和预测结果的 可信度( p r e d i c t i o nc o n f i d e n c e ) 分别进行了评估,研究结果表明。通过多分类器的共 识,c a m c u n 的偶然相关性降低而预测可信度得到了提高。 5 研究了模式识别过程中特征变量的选择方法,提出了一种不相交主成分分 析( d i s j o i n tp r i n c i p a lc o m p o n e n ta n a l y s i s ) 和遗传算法( g e n e t i ca l g o r i t h m 。g a ) 相结合 的特征变量选择方法,并将其应用于基因表达谱数据中差异表达基因的识别。不 相交p c a 用于评估不i j 基因组合在区分两类样品时的区分能力大小,由于考虑了 基因之间的组合效果,更加符合基因在生物体内发挥调控作用的实际情形。g a 用 于优化不同基因间的组合。此外,还提出了一种新的统计方法,对差异表达基因 的偶然相关性进行了评估。研究结果表明,与文献中常用的差异表达基因识别方 法t - 检验和s a m ( s i g n i f i c a n c ea n a l y s i so f m i c r o a r r a y ) 相比,新方法识别的差异表达 基因具有更强的区分能力。 v l 中国科学技术大学博士学位论文 a b s t r a c t m o d e l i n go fa n a l y t i c a ld a t ai sac o m l n o nt a s ki nc h e m o m e t r i c s t h e r ea r et w o t y p e so f p r o b l e m si nt h em o d e l i n go f a n a l y t i c a ld a t a ,n a m e l yr e g r e s s i o n ( o rc a l i b r a t i o n ) a n dp a t t e r nr e c o g n i t i o n b e c a u s eas i n g l em o d e li s i n h e r e n t l ys u s c e p t i b l et ot h e d i f f i c u l t i e sa s s o c i a t e dw i t hd a t aq u a l i t ya n ds a m p l en u m b e r i nt h i sd i s s e r t a t i o n , c o l l s c n c s u ss t r a t e g yw a su s e di nt h em o d e l i n go f n i r s p e c t r o s c o p ya n dm i c r o a r r a yd a t a , a n dt h et h e o r i e sa n da p p l i c a t i o no f c o n s e n s u sm o d e l i n gw e r ei n v e s t i g a t e d , i n c l u d i n gt h e f o l l o w i n gw o r k s : 1 t h eb a s i ct h e o r i e sa n df r e q u e n t l yu s e dm e t h o d sf o rt h em o d e l i n go fa n a l y t i c a l d a t aw e r er e v i e w e d ,a n dt h eb a s i ct h e o r i e s ,m o d e l i n gm e t h o d sa n da p p l i c a t i o no f c o n s e u s u sm o d e l i n gw e r es u m m a r i z e da sa ne m p h a s i s 2 b a s e do nr a n d o mr e s a m p l i n g ,ap a r t i a ll e a s ts q u a r e s b a s e dc o n s e n s u sr e g r e s s i o n m e t h o dc p l s w a sp r o p o s e d i nc p l s ,o t h e rt h a ns e l e c t i n go n ep l sm o d e l0 1 1t h eb a s i s o ft h eb e s t 凤s e v e r a lp l sm o d e l ss a t i s f y i n ga p r e d e f m e dc r i t e r i o nw e r es e l e c t e da n d c o m b i n e di n t oo n ec p l s t h ee f f e c t i v e n e s so fc p l sw a sd e m o n s t r a t e db yc o m p a r i n g t h ep r e d i c t i o nr e s u l t st ot h o s ef r o mt h er e g u l a rp l si na na p p l i c a t i o nf o rt h ec a l i b r a t i o n o ft h en i rs p c c t r ao fc o ms a m p l e s t h er e s u l t ss u g g e s t e dt h a tc o m b i n i n gm u l t i p l e i n d i v i d u a lp l sm o d e l sb yc p l sc o u l di m p r o v en o to n l yt h ea o c u r a f yo fp r e d i c t i o n ,b u t a l s ot h er o b u s t n e s so f t h em o d e l 3 c o m b i n a t i o no fl o c a lm o d e l i n gw i t hc o n s e n s u sm o d e l i n g , ac o n s e n s u sd y n a m i c l o c a lp a r t i a ll e a s ts q u a r e s ,c d l - p l s ,w a sp r o p o s e d u n l i k ear e g u l a rp l sa n dm a n y c o n s e n s u sm e t h o d sr e p o r t e di nt h el i t e r a t u r e sw h i c hu s e db a g g i n go rb o o s t i n gt o g e n e r a t e c o n s t i t u e n tp r e d i c t o r s ,c d l - p l s g e n e r a t e sc o n s t i t u e n tm o d e l su s i n ga d y n a m i cl o c a lm o d e l i n gt e c h n i q u e ,w h i c hi sd i f f e r e n tf r o mb a g g i n go rb o o s t i n gi nt h a t t h es a m p l e su s e dt od e v e l o pc o n s t i t u e n tp r e d i c t o r sa r cn o tr a n d o m l ys e l e c t e df r o mt h e o r i g i n a lu a i n i n gd a t as e tb u ta c c o r d i n gt ot h e i re u c l i d e a nd i s t a n c e st ot h ep r e d i c t i n g u n k n o w ns a m p l e t h ee f f e c t i v e n e s so fc d l - p l sw a sd e m o n s t r a t e db yc o m p a r i n gi t s a b s t r a e t 中国科学技术大学博士学位论文 p r e d i c t i o nr e s u l t st 0t h o s eo fag e n e r a lp l si na na p p l i c a t i o nf o rt h ec a l i b r a t i o no ft h e n e a r - i n f r a r e d ( n i e - ) s p e c t r a ld a t ao f t o b a c c ol a m i n as a m p l e s i tw a sf o u n dt h a tt h eu s eo f d y n a m i cl o c a lm o d e l i n gt e c h n i q u ec o u l di n c r e a s et h ep r e d i c t i o na c c u r a c ya n ds t a b i l i t y o fap r e d i c t o r , w h i l et h ec o m b i n a t i o no fm u l t i p l ed y n a m i cl o c a lp l sm o d e l sc o u l d f u r t h e ri m p r o v et h ep r e d i c t i o na c c u r a c ya n dr o b u s t n e s so f ap r e d i c t o r 4 an e wc l a s s i f i c a t i o nm e t h o dc a m c u n ( c o n s e n s u sa n a l y s i so fm u l t i p l e c l a s s i f i e r su s i n gn o n - r e p e t i t i v ev a r i a b l e s ) w a sd e v e l o p e d t h ec e n t r a li d e ao f c a m c u n i st oc o m b i n em u l t i p l e ,h e t e r o g e n e o u sc l a s s i f i e r s ,e a c hd e r i v e dw i t hd i s t i n c tf e a t u r e s s e l e c t e da c c o r d i n gt od i s c r i m i n a t o r yp o w e r c a m c u nw a sa p p l i e di na n a l y s i so f m i c r o a r r a yg e n ee x p r e s s i o nd a t a t h ea n a l y s i si n c l u d i n gc l a s s i f i c a t i o no f c a n c e rb a s e d o ng e n ee x p r e s s i o np r o f i l e s ,a s s e s s i n gt h ec h a n c ec o r r e l a t i o na n dt h ep r e d i c t i o n c o n f i d e n c eo fc l a s s i f i e r s ,a n di d e n t i f y i n gb i o m a r k e r s i tw a sf o u n dt h a tc a m c u ng i v e m u c hb e t t e rp r e d i c t i o na c c u r a c yw i t hh i g h e rp r e d i c t i o nc o n f i d e n c ea n dl o w e rc h a n c e c o r r e l a t i o nt h a na n yo f t h ec o n s t i t u e n tc l a s s i f i e r s 7 5 b yi n t e g r a t i o no fd i s j o i n tp r i n c i p a lc o m p o n e n ta n a l y s i sw i t hg e n e t i ca l g o r i t h m ( g a ) ,an e w f e a t u r es e l e c t i o nm e l h o df o r p a t t e r nr e c o g n i t i o n w a sd e v e l o p e da n d a p p l i e d i ni d e n t i f i c a t i o no fd i f f e r e n t i a l l ye x p r e s s e dg e n e sf r o mm i c r o a r r a yg e n ee x p r e s s i o n p r o f i l e s i nt h i sm e t h o d ,t h ed i s c r i m i n a t o r yp o w e r o f c o m b i n a t i o no f g e n e sw a so b t a i n e d f r o md i s j o i n tp c a g aw a su s e dt os e a r c hf o rt h eb e s tc o m b i n a t i o no fg e n e s 。t h e s i g n i f i c a n c ei nd i f f e r e n t i a le x p r e s s i o no fi n d i v i d u a lg e n ew a sa s s e s s e db yas t a t i s t i c m e t h o d i tw a sf o u n dt h a tt h ed i f f e r e n t i a l l ye x p r e s s e d g e n e si d e n t i f i e du s i n gt h i sm e t h o d s h o w e ds t r o n g e rd i s c r i m i n a t o r yp o w e rt h a nt h o s eo b t a i n e df r o mt - t e s ta n ds a m ( s i g n i f i c a n c ea n a l y s i so fm i c r o a r r a y ) v i 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究 工作所取得的成果。除已特别加以标注和致谢的地方外,论文中 不包含任何他人已经发表或撰写过的研究成果。与我一同工作的 同志对本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即: 学校有权按有关规定向国家有关部门或机构送交论文的复印件和 电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编 学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:豸! 亟缝 2 0 0 6 年1 0 月2 6 日 中国科学技术大学博士学位论文第一章 第一章综述 1 1 分析化学数据的建模方法 分析化学数据的建模是化学计量学研究的重要内容之一,其目的是揭示分析 化学测量数据内部的规律根据数据建模的不同目标,可以将其分为回归分析和 模式识别i i 捌回归分析的目标为寻找分析化学测量因子与响应值之间的某种依赖 关系,从而通过易于测量的因子获得不易或不能直接测量因子的可靠估计。模式 识别的目标为通过分析化学测量数据,将样本集按照隐含在化学测量数据中的某 个或某些属性进行分类和特征抽取。下面分别介绍这两种类型的数据建模方法。 1 1 1 回归分析方法 分析化学中,回归分析通常被称为校正分析。常用的回归分析方法有单变量 线性回归( 一元校正分析) 、多元线性回归( 多元校正分析) 以及非线性回归等。下 面分别予以介绍。 1 单变量线性回归 单变量线性回归是分析化学中经典的校正分析方法,通常对单一组分的某一 性质进行测量,根据响应量与被测物浓度的关系进行校正分析。这种校正方法只 能将一个测量信号与一个响应值关联起来。因此,如果分析仪器能同时提供多个 测量信号数据,就要选择与响应值相关性最好的测量信号进行建模。 单变量线性回归有两个基本假定选择性和线性例。选择性指的是测量信号 只来源于感兴趣的分析物,与其它成分没有关系。线性是指分析物的浓度与测量 信号强度之间的关系呈线性。一般地,单变量线性回归可以用公式( 1 1 ) 表示: y = a + b x ( 1 1 ) 其中,y 为分析物浓度,x 为测量信号强度,b 为回归系数,口为回归直线在y 轴上 的截距。回归系数b 通常用最小二乘进行估计。 第章中国科学技术大学博士学位论文 2 多元线性回归 多元线性回归在多元校正分析中使用非常广泛,常用于多组分共存的复杂体 系的分析。在数学上,多元线性同归可以表示( 4 1 : y = x b + e ( 1 2 ) 其中,y 抽1 ) 和x 西p ) 分别为疗个分析物的浓度向量和光谱测量矩阵,b 为回 归系数向量,e 为服从正态分布的随机误差向量。通过校正分析,对回归系数b 作 出估计,从而建立回归模型。 常用的多元线性回归方法有常规最小二乘回归( o r d i n a r yl e a s ts q u a r e ,o l s ) 【5 】、 主成分回归( p r i n c i p a lc o m p o n e n tr e g r e s s i o n ,p c r ) 【6 1 和偏最小二乘回归( p a r t i a ll e a s t s q u a r e sr e g r e s s i o n ,p l s r ) i 唣。 3 非线性回归 分析化学测量中也常常会遇到一些非线性问题。处理化学测量中的非线性问 题的方法通常有两种:( 1 ) 变量代换法:通过某种变换,将非线性问题转变成线 性问题处理;( 2 ) 宣接采用非线性回归方法,建立非线性回归模型。 分析化学中常用的非线性回归方法有非线性最小二乘法、非线性偏最小二乘 ( n p l s ) 【s 】、多元自适应回归样条函数( m u l t i v a r i a b l ea d a p t i v er e g r e s s i o ns p l i n e s , m a r s ) 【9 l 和人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k s ,a n n ) l t o l 等, 1 1 2 模式识别方法 模式识别是通过数据建模方法来揭示化学测量数据内部规律的一种多元分析 技术,其目的是对样品进行分类和特征提取。通常,模式识别方法可分为有监督 的模式识别和无监督的模式识别。 1 有监督模式识别 有监督模式识别又称为有管理模式识别或有教师模式识别【川。这种方法在建 模时要求有一个学习集或训练集( 类似于回归分析中的校正集) ,训练时,各样本 2 中国科学技术大学博士学位论文 第一章 的类别也必须是已知的。通过某种学习算法,掌握样品的识别规律后,再用这些 规律去识别未知样品。 常用的有监督模式识别方法有l d a ( 1 i n e a rd i s e r i m i n a n ta n a l y s i s ,又叫线性学 习机) f 2 】、k 奇球i ( k - n e a r e s tn e i g h b o r s ) 1 1 3 】、s i m c a ( s o f ti n d e p e n d e n tm o d e l i n go f c l a s sa n a l o g y ) 【1 4 j ,p l s d a ( p a r t i a l e a s ts q u a r e sd i s c r i m i n a n ta n a l y s i s ) e 阍,支持向量 机( s u p p o r t v e c t o r m a c h i n e ,s v i v l ) i t 6 和人工神经网络( a n n ) 1 1 7 等。 2 无监督模式识别 无监督模式识别又称为无管理模式识别或无教师模式识别【1 1 l 。与有监督模式 识别不同,无监督模式识别不需要训练集,也不必事先知道样品的类别,只要事 先给定样品与样品之间、样品与类之间以及类与类之间相似性的度量方法即可进 行。因此,这种方法特另1 j 适用于样品归属不清楚的情况。通常用于发现或探索样 品的类别,或者对样品进行某种归类。分析化学常用的无监督模式识别算法为聚 类分析,如系统聚类分析法( h i e r a r c h i c a lc l u s t e ra n a l y s i s ,h c a ) 1 1 引、k - m e a n 1 卅和 b u b b l ea g g l o m e r a t i o n ( b a ) 2 0 1 等。 以上简单介绍了分析化学中传统的单模型数据建模方法。近年来,多模型共 识( c o n s e n s u sm o d e l i n g 或e n s e m b l em o d e l i n g ) 数据建模方法在许多领域的研究和应 用越来越多,本论文主要研究和探讨这种新兴的数据建模方法。下面重点总结多 模型共识建模的基本理论、常用建模方法以及应用现状。 1 2 多模型共识建模方法及应用 近年来,多模型共识数据建模方法在许多研究领域受到广泛的关注。顾名思 义,多模型共识就是把多个成员模型对未知样品的预测结合起来,形成一个共识 的结果。这种建模方法与传统的单模型方法不同。传统单模型方法建模的一般过 程为:在反复分析化学测量数据过程中,建立一系列的预测模型,最后,从中选 出一个预测性能最好的模型来预测未知样品。多模型共识数据建模则是通过某种 方法建立多个成员模型,并把多个成员模型对未知样品的预测用某种方法结合起 来,形成一个共识的结果,以提高模型的预测精度和可靠性【2 1 】。 第章 中国科学技术大学博十学位论文 尽管多模犁共识数据建模的思想起源很早,但这种技术。开始并没有引起人 们的普遍重视【2 l 】。直到二十世纪九十年代,随着多模型共识建模理论的不断发展 和一些成功应用的出现,人们对多模型共识数据建模方法又重新重视起来。近十 几年来,在许多领域对这种建模方法的研究和应用也越来越多泌硐。 多模型共识的目的是希望通过结合多个模型,得到一个预测精度更高、普适 性( g e n e r a l i z a t i o np e r f o r m a n c e ) 更强的复合全局模型,从而使得对未知样本的预测 更精确、更可靠【2 7 1 。模型的普适性通常是指根据有限样本训练酶模型,对其它未 知样本的良好预测能力,即模型的经验风险和实际风险保持一致的能力。 许多研究表明1 2 8 - 3 0 1 ,多模型共识的确可以提高很多单模型的预测精度和普适 性。但是,很难从理论上证明多模型共识的结果一定会比单模型好。而且,已有 研究表明p ”,在某些情况下,多模型共识并不能提高单模型的预测精度,甚至可 能出现预测精度降低的情况,其中的原因尚不清楚。 在单模型数据建模领域,在理论上【3 2 l 和实践中人们已经形成了共识不同 的数据需要用不同的模型来分析。这一结论也同样适用于多模型共识方法 ”】。但 这种模型与数据依赖关系的本质尚不清楚,有待研究,已有研究人员在这方面作 出尝试和努力 3 3 】。正如k a n a l 3 4 】一九七二年指出的那样:“不存在一种模型可以鳃 决所有模式识别问题;也没有一种单一技术可以适用于所有问题。我们所拥有的 是一袋子工具和一袋子问题。” 到目前为止,多模型共识建模的基本理论还不完善,一些共识性结论往往是 经验性的,缺乏可靠的理论推导。因此,还有很多| 廿j 题有待进一步研究 3 5 1 。 1 2 1 多模型共识建模的基本理论 尽管很多多模型共识建模方法的研究及应用表明,通过多模型共识不但可以 提高模型的预测精度,也可以增强模型在预测未知样品时的稳定性。但是,人们 对多模型共识建模方法在大多数情况下能够获得成功的机理尚未完全了解p 5 1 ,只 是基于经验认为:只有结合那些对相同输入能给出不同输出的多个模型,才有可 能提高共识模型的预测性能;而结合多个对相同输入均给出相同输出的模型,不 会有任何收获| 3 6 - 3 8 】。此外。许多研究也发现,成员模型的多样化( d i v e r s i t y ) 对多模 4 中国科学技术大学博士学位论文 第一章 型共识数据建模至关重要p ”。对这些经验性结论,一些研究人员铁不同的角度 和学习算法出发,提出了几种不同的理论解释。 1 k r o g l l 和v e d e l s b y 理论 g r o g 血和v e d e l s b y l 3 8 墟于人工神经网络提出如下理论: 假设共识神经网络由m 个成员神经网络组成,且各成员按加权平均法达成共 识,即: 于= w f z ( 砷且嵋= l ill,f-i ( 1 3 ) 其中,歹( 功和o ) 分别为共识神经网络和成员神经网络的预测值,蜥为z ( 功的 权重。成员神经网络,:( 功的“a m b i g u i t y ”定义为: q = 暖一九纠2 ( 1 4 ) 则,根据成员神经网络的共识规则,共识神经网络的“a m b i g u i t y ”应为: 矾曲= 嵋q ( 功= 嵋m ( 功一,( 善) 】2 “ ( 1 5 ) 定义成员神经网络和共识神经网络的预测误差分别为公式( 1 6 ) 和( 1 7 ) : 巳( = l 厂( 功一z ( 瑚2 ( 1 6 ) f ( 功_ 【一于( 砷】2 ( 1 7 ) 其中,删为真值函数。将公式( 1 6 ) 和( 1 7 ) 分别代入公式( 1 5 ) ,经变换得到: 酗= w j e , ( x ) - e ( x ) “ ( 1 8 】 定义公式( 1 8 ) 右边第一项为成员神经网络的加权平均误差: 酬= 啊岛 t - i ( 1 9 ) 代入公式( 1 8 ) ,变换得到: 口( 力2 亭( 力一烈x ) ( 1 。l o ) 第章 中国科学技术大学博士学能论文 上式将共识神经网络的预测误差分解成两部分:一部分g ( x ) 。依赖于各成员神经 网络的预测误差;另部分石( x ) ,依赖于各成员神经网络的预测方差( 预测结果的 多样性) 。根据k r o g h 和v e d e l s b y ,万( 曲反映了各成员神经网络之间的相关性,其 大小可以通过外部验证样本来估计,而不必知道的万( 力具体函数形式。 可以看出,共识神经网络的预测误差总是小于或等于各成员神经网络的加权 平均预测误差: e ( x ) 虱x ) ( 1 1 1 ) 如果各成员神经网络的权重均相等,那么: 出脚( 加善w p ( 加蔼e t ( 1 1 2 ) 在此条件下,结合的成员越多0 m 越大) ,共识神经网络的预测误差越小, 根据上述k r o g h 和v e d e l s b y 的误差分理理论可知,一个好的共识神经删络应 该由那些预测精度较高( 有较小的预测误差e 1 0 ) ) 而且互小相关( 有较大的 “a m b i g u i t y ”a l b ) ) 的成员神经网络来组成。 2 r a v i v 和i n t r a t o r 理论 r a v i v 和i n t r a t o r l 4 2 1 的理论如下; 假没共识模型,( x ) 由m 个成员模型融) ,( i = l ,2 ,蚴组成,各成员模型 按简单平均法达成共识。则,共识模型,( 工) 的预测方差v a 吒尹( x ) ) 可以表示为: v 嘲妒古萋v 引( 功音t lc 。v 洲一( 1 1 3 ) 其中,v a r ( f i ) 为成员模型石的预测方差,c o v ( 7 ;,石) 为成员模型b ) 和 石q ) 之间的协方差。如果假定所有成员模型的预测方差为v ,而且均匀分布,则公 式( 1 1 3 ) 变为: v 呱,( 功2 面v + 专善c 。v ( ,( n ( 砌 ( 4 ) 中国科学技术大学博士学位论文第一章 如果各成员模型高度相关,例如,各成员模型完全相同:q ) 劫= 于( 功,则公 式( 1 1 4 ) 变成: v 酊蜘茜+ 矿2 半 ( 1 1 5 ) 上式表明,结合多个高度相关的模型并不能改进共识模型的预测性能。相反,如 果各成员模型互不相关,则共识模型的预测方差变为: 陆( 厂砌2 云 ( 1 “) 这种情况下,结合的成员模型越多,共识模型的预测误差越小。实际应用中,通 常会介于上述两种极端情况之间。只要各成员模型之间的协方差c o v 奶b ) ,石( 曲) 比较小,而且各成员模型的预测方差与单模型相比又不太大时,多模型共识都可 以达到较好的效果。 3 t u r n e r 和g h o s h 理论 t u m 盯和g h o s h 2 7 , 4 习的理论认为,每个成员分类器分别提供了样品所属类别后 验概率的估计,如果多个成员分类器按简单平均法达成共识,则共识分类器的分 类误差可以用公式( l 1 7 ) 表示: e :! 亟丝= ! 狺 m ( 1 1 7 ) 其中,e 和万分别为共识分类器和成员分类器的平均分类误差,膨为成员分类器 总数,艿为介于区间 o ,l 】的常数,表示各成员分类错误的相关程度。如果5 = 0 , 则公式( 1 1 7 ) 变为: e :上豆 肘 ( 1 1 8 ) 上式表明,在各成员分类错误完全不相关的情况下,结合的成员分类器越多,共 识分类器的分类错误也越低。反之,如果6 = 1 ,则有: e = 君( 1 1 9 ) 7 第章 中国科学技术大学博士学位论文 表明,在各成员的分类错误完全相同时,结合多个分类器不会改进预测性能。在 实际应用中,由于各成员分类器之间共享训练数据0 7 1 或者有重叠的诱导偏差 ( o v e r l a p p i n gi n d u c t i v eb i a s e s ) 存在畔1 ,6 往往趋近于l 而不是0 。因此,多个成员 分类器共识的效果总会受到影响,难以达到理想的结果。 4 b r e i m a n 理论 b r e i m a n l 2 2 1 基十分类回归树( c l a s s i f i c a t i o na n dr e g r e s s i o nt r e e , c a r t ) 对 b a g g i n g l 2 2 建模的机理提出如下解释: 假设原训练集为l ,每个训练样本魄,帅) 都是从l 中以概率p 独立抽取,k 为b a g g i n g 法产生的第后个训练集,h ,l 0 为用k 训练的模型,于( x ,即为共识模 型,多个成员模型采用简单平均法达成共识,即: 夕p ) = e 。l 厂k ) 】 ( 1 2 0 ) 其中,e 口为数学期望。 假设kx 是从l 中独立抽取的随机变量,其分布概率为尸,则成员模型的平 均预测误差为: 万= e l 【e r j 【( y f ( x ,l i ) ) 2 】 如果定义共识模型的平均预测误差为: p = e r x 【( y 一( x ,) ) 2 】 根据不等式原理: ( e 【z 】) 2 e z 2 】 将公式( 1 2 1 ) 和( 1 2 2 ) 联系起来,得到: 虿= e l 【e r 【( 】,一f ( x ,l ) ) 2 】 = e l 【e ,f 【y 2 2 r f ( x ,l 。) + 厂2 ( x ,l i ) 】 = e y 2 卜2 e ,【】穸( x ,尸) 】+ e r x 【e l i f 2 ( x ,l t ) 玎 e y 2 卜2 e ,x 【妒( x ,p ) 】+ e rx 【( e l 【厂( x ,l 。】) 2 】 = e r 2 卜2 e ,【厅( x ,尸) 】+ e ,【于2 ( r ,p ) 】 = e r x ( y f ( x ,即) 2 】 = e ( 1 2 1 ) ( 1 2 2 ) ( 1 2 3 ) ( 1 2 4 ) 中国科学技术大学博士学位论文 第一章 可见,多个成员模型共识的预测误差e 不大于各成员模型的平均预测误差虿。二者 相差的大小由不等式( 1 2 5 ) 两边的差别大小决定。 l l 厂( x ,l i ) 】) 2se l l 厂2 似l i ) 】 ( 1 2 5 ) 这种理论解释了成员模型的不稳定性有利于多模型共识建模阢3 6 1 :如果成员 模型,b ,l k ) 随h 的变化不大,不等式( 1 2 5 ) 两边的大小总是接近相等,因此,多 个成员模型共识的预测误差与单模型相近;反之,如果成员模型弛,l d 随h 的变 化较大,不等式( 1 2 5 ) 两边的差值也越大,多个成员模型共识的效果越好。 对b a g g i n g 改进模型预测性能的机理,f d e , d m a n 和h a l l l 4 5 崤不同的看法。他们 认为,b a g g i n g 用估计的期望值取代了模型的非线性部分,因此,只对模型的非线 性部分起作用,对模型的线性部分没有影响。 1 2 2 多模型共识的建模方法 多模型共识数据建模方法主要由两大步骤组成:( 1 ) 训练多个尽可能不相关 的成员模型;( 2 ) 采用适当的共识规则,使多个成员模型的预测达成共识。在建 立成员模型时,既要确保各成员模型有较高的预测稽度,又要尽量降低它们之间 的相关性( 保持成员模型的多样性) 。但成员模型的预测精度和成员模型之间的多 样性互相矛盾,过分提高成员模型的预测精度往往会同时增加成员模型之间的相 关性。因此。在建立成员模型时,要在成员模型的预测精度和多样性之间进行折 中,以便取得较好的共识结果 目前,文献中已报道的成员建模方法有多种。有些方法的通用性强,如 b a g g i n g l 2 2 j f g lb o o s t i n g t 4 6 1 等,可以用于许多不同的学习算法;而另一些方法比较特 殊,只能用于特定的学习算法。在众多成员建模方法中,有两种方法应用最为普 遍,即:训练集扰动法和样本特征扰动法。 1 训练集扰动法 用扰动训练集建立成员模型的方法在多模型共识数据建模的研究和应用中非 常普遍。这种方法的基本思路是:同一种学习算法被重复运行多次,每次都用 一个不同的训练集,每个训练集都是用某种扰动方法从原训练集中产生。研究表 9 第章 中国科学技术大学博士学 4 = 论文 明这种方法对那些预测结果受训练集变化影响较大的不稳定学习算法效果较好 1 2 射。常见的训练集扰动法有以下几种: ( 1 ) b a g g i n g 和b o o s t i n g b a g g i n g 和b o o s t i n g 是两种典型的训练集扰动法,也是应用最为广泛的成员模 型建模方法【4 再5 5 1 。由于二者有很多相似之处,本章将其放在一起介绍。b a g g i n g 是 b o o t s t r a pa g g r e g a t i n g 的缩写,由b r e i m a n l 2 2 1 首先提出;b o o s t i n g 由f r e u n d 和 s e h a p i r e l 4 6 , s 5 】提出,目前应用较多的是a d a b o o s t 算法1 5 5 , 5 6 。 b a g g i n g 以置网、可重复随机抽样方法从原训练集中产生一系列子集,然后从 每个子集出发,训练一个成员模型。用b a g g i n g 产生的每个子集都是原训练集的一 个b o o t s t r a pr e p l i c a t e s 5 7 1 ,子集的大小通常为原训练集的6 3 2 1 2 3 1 。各个子集之间 完全独立,但同一个子集中的某些样本有可能重复出现多次。 a d a b o o s t 算法流程如图1 i 所示。这种方法中,原训练集中的每个样本都 被赋于一个权重d l q ) ,代表了样本麓在第t 次迭代时的分布密度( 取样权重) 。开 始迭代时,每个样本的权重都相等,在每一轮迭代时,从原训练集中以置回、可 重复随机抽样方法按样本的取样权重抽取同定数目的样本作为训练集。再用这个 训练集建立一个模型g ,并将g 用于预测原训练集中的所有样本,根据各样本的 分布密度d l c 0 计算模型g 的预测误差五。再由五计算g 的权重m 。最后,根据 n ,重新调整所有样本的取样权蕈d r + i ) ( 分布密度) 。被错误分类的样本的权重将 增大,使得在下一轮学习时,这些样本得到更多的关注。相反,被正确分类的样 本的权重变小。在迭代结束后,用加权平均法将各成员模型的预测结合起来,成 员模型c f 的权重为嘶,即: r c ( ) = s g n 口,c ,( ) 】 ( 1 2 6 )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论