(控制理论与控制工程专业论文)基于独立成分分析的多元回归方法研究.pdf_第1页
(控制理论与控制工程专业论文)基于独立成分分析的多元回归方法研究.pdf_第2页
(控制理论与控制工程专业论文)基于独立成分分析的多元回归方法研究.pdf_第3页
(控制理论与控制工程专业论文)基于独立成分分析的多元回归方法研究.pdf_第4页
(控制理论与控制工程专业论文)基于独立成分分析的多元回归方法研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(控制理论与控制工程专业论文)基于独立成分分析的多元回归方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

: 0 at h e s i si nc o n t r o lt h e o r ya n dc o n t r o l e n g i n e e r i n g i i l ll li lli ii il l i ii iu i y 1 8 4 0 6 6 9 m u l t i v a r i a t er e g r e s s i o nm e t h o d s t u d y b a s e do n i n d e p e n d e n tco m p o n e n ta n a l y s i s b y d uw a n l i a n g s u p e r v i s o r :z h a n gy i n g w e i n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 9 o o 。 , 一 、v 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 二6 二 恧。 学位论文作者签名: d; 私砀秒 , 日期:叶,门、 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年口一年口一年半日两年口 学位论文作者签名:物j 荔汐 签字日期: 。o 、o 。 导师签名: 签字日期: 醒耘砖 叫。刁7 j 东北大学硕士论文 摘要 基于独立成分分析的多元回归方法研究 摘要 本文以多变量回归模型问题为主要内容,利用现代信号处理技术,针对现有基于数 据驱动的多变量统计过程预测方法的不足,引入独立元分析( i n d e p e n d e n tc o m p o n e n t a n a l y s i s ,简称i c a ) 应对实际工业过程中非高斯问题。 本文在分析i c a 提取的独立元的性质的基础上,提出了基于修正独立元分析的多变 量回归方法。回归分析中提取的特征成分包含目标信息的丰富程度对模型的精度影响很 大,为了提取包含目标信息丰富信息的特征成分,本文首先利用修正的i c a 方法提取独 立元建立类似主元的回归模型,接着对建立的模型进行改进:对输入变量进行用于回归 的特征独立元提取,使得提取的输入变量的独立元和目标变量的独立元互信息最大,从 而建立回归模型。接着为了解决非线性问题,介绍了在输出空间利用核独立元分析提取 非线性的独立元用于回归建模。 本文的基于i c a 的回归方法对田纳西一库兹曼过程的部分过程测量变量和成分测 量变量进行了预测研究,通过一些过程测量变量把本文的基于i c a 的回归方法和偏最小 二乘回归方法进行了比较,基于t e 过程的仿真实验证实了其有效性。接着对部分成分 测量变量进行了预测研究,证实核独立元提取的特征对非线性回归的有效性。 关键词:回归模型:独立元分析;核独立元分析;偏最小二乘 - i i t j - , 东北大学硕士论文a b s t r a c t m u l t i v a r i a t er e g r e s s i o nm e t h o ds t u d yb a s e do ni n d e p e n d e n t c o m p o n e n ta n a l y s i s a bs t r a c t w i t ht h eh e l po fm o d e ms i g n a lp r o c e s s i n gt e c h n i q u e s ,b a s e do ne x i s t i n gd a t a d r i v e n m u l t i v a r i a t es t a t i s t i c a lf o r e c a s t i n gm e t h o d so ft h ep r o c e s sp r e d i c t i o n sm e t h o d s t h i sp a p e r s t u d i e sp r o c e s sp r e d i c t i o nm e t h o d sw i t h i nt h ea p p l i c a t i o no fd a t a d r i v e nm u l t i v a r i a t es t a t i s t i c a lp r o c e s sp r e d i c t i o n sm e t h o d si nt h ef l o wi n d u s t r y f l o wi n d u s t r yi sa ne s s e n t i a lp a r to fo u r n a t i o n a le c o n o m y a st h ep r o c e s si n v o l v e sh i g ht e m p e r a t u r e ,h i g hp r e s s u r ea n dh i g hr i s k t h e i m p o r t a n c eo fi t sq u a l i t yp r e d i c t i o ni si n c r e a s i n g l yp r o m i n e n t b a s e do nt h ea n a l y s i so fi c se x t r a c t e df r o mt h en a t u r eo fa ni n d e p e n d e n te l e m e n to nt h e b a s i so ft h e p r o p o s e da m e n d m e n t s b a s e do n i n d e p e n d e n tc o m p o n e n ta n a l y s i so f m u l t i 。v a r i a b l er e g r e s s i o nm e t h o d r e g r e s s i o na n a l y s i so ft h ec h a r a c t e r i s t i c so fc o m p o n e n t st o e x t r a c tt a r g e ti n f o r m a t i o ni n c l u d e di nt h em o d e lo ft h ea b u n d a n c eo f g r e a ti n f l u e n c eo nt h e a c c u r a c y , i nt h i sp a p e r , t h ef i r s tt ou s ei c a t oe x t r a c tt h ea m e n d m e n tt oe s t a b l i s has i m i l a r i n d e p e n d e n tc o m p o n e n to ft h ep c ar e g r e s s i o nm o d e l ,f o l l o w e db yt h ee s t a b l i s h m e n to ft h e m o d e lt oi m p r o v e :t h ei n p u tv a r i a b l e sf o rt h ec h a r a c t e r i s t i c so fi n d e p e n d e n tr e u n i f i c a t i o n e x t r a c t i o n ,m a k e se x t r a c t i o no ft h ei n p u tv a r i a b l e sa n do b j e c t i v e so fi n d e p e n d e n ti n d e p e n d e n t v a r i a b l e sl a r g e s tm u t u a li n f o r m a t i o n ,r e g r e s s i o nm o d e lt ob u i l d i no r d e rt os o l v en o n l i n e a r p r o b l e m sa n dt h e ni n t r o d u c e di nt h eo u t p u ts p a c eu s i n gt h en u c l e a re x t r a c t i o ni n d e p e n d e n t c o m p o n e n ta n a l y s i sf o rn o n l i n e a rr e g r e s s i o np r e d i c t i o n t h em e t h o di sa p p l i e dt ot h eq u a l i t yp r e d i c t i o no ft e n n e s s e e - - - e a s t m a np r o c e s si nt h i s p a p e r t h ep r e d i c t i o np e r f o r m a n c eo ft h ep r o p o s e da p p r o a c hb a s e di c ai sc o m p a r e dt op l s r u s i n gs o m ep r o c e s sv a r i a b l e se x a m p l e s i ti sp r o v e dt ob ee f f e c t i v et h r o u g ht h es i m u l a t e a p p l i c a t i o nu p o nt ep r o c e s s a n du s ek i c at oe x t r a c tf e a t u r e so ft a r g e tv a r i a b l e st op r e d i c t t h eq u a l i t yo fs o m ep r o c e s s t h es i m u l a t i o nr e s u l ts h o w st h a tt h ei c am e t h o dc a n c a p t u r et h e n o n l i n e a rd y n a m i cf e a t u r e se f f e c t i v e l y ,a n dp r e d i c tt h ep r o c e s s q u a l i t ys u c c e s s f u l l y k e y w o r d s :r e g r e s s i o nm e t h o d ;i n d e p e n d e n tc o m p o n e n ta n a l y s i s ;k e r n a li n d e p e n d e n t c o m p o n e n ta n a l y s i s ;p a r t i a ll e a s ts q u a r e s i i i t 一 - , 东北大学硕士学位论文目录 目录 独创性声明i 摘要i i a b s t r a c t i v 第1 章绪论l 1 1 课题背景及意义1 1 2 多变量统计过程回归研究现状2 1 3 现有回归方法的不足与改进4 1 4 本文的主要内容5 第2 章基础理论知识7 2 1 数学基础知识7 2 1 1 统计量7 2 1 2 独立与相关。9 2 1 3 典型相关分析9 2 2 多变量统计过程回归预测1 l 2 2 1 数据的标准化处理1 1 2 2 2 基于主成分的回归方法1 2 2 2 3 基于偏最小二乘的回归方法1 4 2 3 信息论基础1 5 2 4 数据的白化处理1 6 2 5 独立成分分析方法基础1 6 2 5 1 引言16 2 5 2i c a 信号模型1 7 2 5 3 基本假设与不确定性l8 2 5 4 独立分量分析方法中常用的准则和方法1 8 2 5 5i c a 的典型算法1 9 2 6 独立分量分析与主分量分析的比较21 2 7 本章小结2 1 第3 章基于i c a 的回归方法2 3 r 、, 东北大学硕士学位论文 目录 3 1 引言2 3 3 2 利用修正的i c a 方法提取输出空间独立元2 4 3 - 3 建立基于i c a 的回归模型2 5 3 3 1 独立元与主元的比较2 5 3 3 2 修正i c a 算法独立元的特点2 8 3 3 3 基于修正i c a 的回归模型2 9 3 4 基于i c a 回归模型的改进3 0 3 4 1 用于回归的输入空间特征独立元提取3 0 3 4 2 建立基于i c a 的改进回归模型3 l 3 4 3 改进的i c a 回归与p l s 回归的比较3 2 3 5 基于核独立元的回归方法3 3 3 5 1 利用核独立成分分析提取非线性独立元3 3 3 5 2 基于k i c a 的回归建模3 5 3 6 回归模型的性能指标3 5 3 7 本章小结3 6 第4 章基于i c a 的回归方法在t - e 过程预测应用研究一3 7 4 1 田纳西一伊斯曼过程介绍3 7 4 1 1 引言3 7 4 1 2t e 过程工艺流程3 7 4 1 3 过程变量。3 9 4 1 4 仿真数据采集4 0 4 2t e 过程非高斯分析4 0 4 3 田纳西一伊斯曼过程预测研究4 l 4 3 1i c r 与p l s r 在t e 过程预测的比较4 1 4 3 2 改进的i c r 在t e 过程预测4 6 4 3 3 对成分测量变量的预测研究5 0 4 4 本章小结5 3 第5 章总结与展望5 5 5 1 总结。5 5 5 2 展望5 5 参考文献5 7 致谢6 1 - v 东北大学硕士学位论文笫1 章绪论 第1 章绪论 1 1 课题背景及意义 伴随着现代科技的全面进步,现代工业过程的生产日趋复杂对工业过程生产过程及 最终产品进行回归预测是现代化生产中的一个重要研究课题。就像是在化工过程这样的 复杂过程,影响产品最重质量的原因很多且难以直接定位,工业过程的预测不但可以为 产品的质量判断提供依据,而且对系统的运行状态的判断可以提供依据,过程变量的异 常往往预示着系统的故障,往往会给企业带来很大的损失和灾难的情况下,可以为生产 过程提供有效的信息进行故障检测。 复杂工业过程特征表现为大范围的不确定性、高度非线性、强关联性和交错的信息 结构,这些特征给生产管理和决策带来了相当大的难度。过程工程师难以建立精确可靠 的机理模型或基于知识推理的专家模型对过程和产品质量进行预测。因此,基于机理模 型或知识模型的预测方法较难适用于复杂工业过程。多元数据分析的一个主要工作目标 是利用经验的、历史的数据建立变量间的回归模型用于预测工业过程的过程及产品的性 能指标。而不需要获知系统太多的机理和精确的数学模型。因而多元统计回归方法在一 些复杂工业过程中就体现出了优势。 建立多元统计回归模型实现对工业生产过程的预测不仅可以为过程工程师提供有 关过程运行状态的实时信息、排除安全隐患、保证产品质量;而且可以为生产过程的优 化和产品质量的改进提供必要的指导和辅助。现代工业除了对产品的质量变量的重视 外,也越来越强调过程变量的影响。最终的产品质量预测最引人关注,而对过程的关注 也一直有足够的重视,产品的质量指标一定程度上反映了系统的运行状况,而过程的运 行决定了最终的产品质量指标。因此有必要对流程工业过程进行质量预测,这其中蕴含 重大的经济利益和安全保障,对工业的流程和产品质量的预测可以为故障诊断提供依 据。 另一方面,随着电子技术和计算机应用技术的飞速发展,现代流程工业大都具有完 备、甚至冗余的传感测量装置,可以在线获得大量的过程数据,譬如压力、温度、流量 等测量值。显然,这些过程数据中含有关于生产过程运行状态以及可用于预测最终产品 质量的有用信息。基于过程数据的统计方法【l l 吸引了科研人员的广泛关注。然而,由于 缺乏有效的数据处理和信息提取的方法,传统的统计方法并没有广泛应用于多变量工业 过程,尤其是流程工业过程。流程工业过程中那些大量的、随手可得的测量数据,是一 座座富含信息的金矿,却没有得到有效的发掘和利用。其中的主要难点在于: 东北大学硕士学位论文第1 章绪论 ( 1 ) 数据维数高现代流程工业过程一般拥有几十至上百个测量变量,而且数据采 集系统的采样速度以及工业计算机的运行速度也日新月异的增长。这就意味着每一个 间歇操作周期内,生产过程将产生成千上万的过程数据。高维的过程数据使得传统的 基于数据的建模方法受到严峻的挑战,在提取有用信息的同时尽可能地降低数据的维 数已成为现代流程工业过程基于数据的建模方法的一个迫切要求。 ( 2 ) 测量变量问的相关性过程变量的外部特征决定于过程的内部运行机制。在自 然界,事物总是相生相克、此消彼长、变化无穷。流程工业过程亦是如此,过程变量 之间并非独立无关,而是遵从一定的运行机理体现出复杂的耦合关系。譬如:注塑过 程的保压段中,压力、速度和时间存在固定的关系压力越大,加压速度越慢而保 压时l s j 贝| j 越长。过程变量之间这种复杂的耦合关系同样也给传统的过程监测方法带来 极大的困扰。 ( 3 ) 测量噪声、3 i 数据问题。电子传感装置的输出信号容易受到外界噪音源的污 染,比如交流电磁场、音波干扰等。基于数据的建模方法需要合适的信号提炼,突出 测量数据中的系统性信息,屏蔽掉测量噪音的影响,这样才有可能建立准确的过程模 型。另外,实际流程工业过程的测量数据通常存在3 i 问题,即不完整( i n c o m p l e t e ) 、 不连续( i n c o n s i s t e n t ) 和不准确( i n a c c u r a t e ) ,3 i 数据问题已经成为多变量流程工业过程 的数据校正和数据协调领域一个关注焦点。 上述问题困扰着基于测量数据的统计过程分析和建模方法,这种迟滞不前的状况一 直持续到二十世纪8 0 年代末,以主成分分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) 啦! 和 偏最d , - 乘法( p a r t i a ll e a s ts q u a r e s ,p l s ) 孓5 】等多变量投影技术为核心的多变量统计建模 方法揭开了基于过程数据的统计过程监测、预测控制及故障诊断的新篇章。因为p c a 和p l s 只需要正常工况下的历史数据来建立模型而不需要过程的机理知识,同时p c a 和p l s 能够有效地剔除过程数据中的冗余信息、极大地降低数据维数,甚至可以将过程 运行状态直接显示于二维的主成分监视图中,这类方法越来越受到研究人员和现场工程 师的青睐。目前,基于这类多变量统计模型的过程监测、故障诊断、控制器设计、质量 控制等算法层出不穷【6 7 】,并且已成功地应用到多个连续生产过程中【8 1 0 】。 一系列完善可行的过程建模、监测、诊断和质量改进算法必将推动整个流程工业过 程的长足进步和繁荣发展,为社会提供高质量产品的同时,还可排除安全隐患、保障生 命和财产、节约资源、保护环境,提供这些更加重要的无形的社会财富。 1 2 多变量统计过程回归研究现状 一直以来,多变量统计回归方法及其应用一直引导着工业过程及产品质量预测的发 展,目前,多变量统计预测过程在一些发达国家己投入大量人力、物力和资源进行复杂 东北大学硕士学位论文第1 章绪论 工业过程的多变量统计建模算法及其工业应用的研究工作,而国内在这一方向上的研究 工作也获得较快发展【l 卜1 5 】。面向流程工业过程的多变量统计建模、质量预测及改进、监 测这一研究领域中仍有大量的空白和难题没有涉及和解决,因此,这一领域正成为科研 工作者和过程工程师的巨大挑战,但也是难得的契机。 流程工业预测领域中,现有的在线质量指标的估计算法可大致分成两类:基于状态 空间模型的估计方法【l d l 8 】,如扩展卡尔曼估计器;和基于过程数据经验建模的估计方法 【1 9 。2 ,如多变量最小二乘回归、主成分回归、偏最小二乘回归方法等。基于状态空间模 型的方法需要准确的过程机理,而获取过程机理模型需要耗费大量的时间和资源。尤其 对于具有反应复杂、产品多样化、市场占有周期短等特点的流程工业过程,基于机理模 型的在线质量预测方法并不可行。相比之下,利用历史过程数据建模的多变量统计方法, 因其不需要详细的过程运行机理,且容易获取的过程变量测量值中含有丰富的产品质量 信息,这一类方法逐渐成为过程工程师和质量工程师的得力助手。 统计过程预测与监测方法所依托的主要理论是以主成分分析( p c a ) 及偏最d , - 乘 ( p l s ) 为核心的多变量统计投影方法。多变量统计回归的基础方法是最d , - - 乘算法,但 由于实际工作中多重相关性的普遍存在限制了最小二乘法的应用。为了解决多重相关性 问题在其基础上发展了许多回归算法。主元回归和偏最, j , - - 乘回归都是从降维的角度解 决多重相关性,对原系统中的信息进行综合筛选。主元回归仅仅是针对自变量的信息进 行筛选,而偏最小二乘回归分析是对变量系统中的信息重新进行综合筛选。偏最小二乘 法已广泛应用于许多工业生产过程,其中包括自变量共线性、测量数据含噪、变量维数 高,以及在描述潜在数据结构时观测值比自变量少的情况。 上述的两种方法在应用过程中都以下列假设条件作为前提:( 1 ) 各变量服从正态分 布,即过程数据中只具有二阶统计特性而不含高阶统计特性;( 2 ) 各采样服从独立性条件, 即当前采样与历史采样之间不存在时间序列相关性;( 3 ) 变量之间线性相关,即变量与变 量间通过线性矩阵进行建模;( 4 ) 过程具有平稳性,即正常过程的参数与采样序列的统计 特征都是平稳的、并没有显著变化。 为了解决过程数据中含有的非正态、动态、非线性、非平稳等特性,在上述传统方 法基础上的改进方法层出不穷,以p c a 为例,近些年出现了n o n l i n e a rp c a 2 2 1 ,k e r n e l p c a 2 3 1 ,d y n a m i cp c a 2 4 1 ,p r o b a b i l i s t i cp c a 2 5 1 ,m u l t i s c a l ep c a 2 6 1 ,r o b u s tp c a 2 7 等等, p l s 也有许多学者做了类似的改进型研究。 这些新兴的理论不仅仅停留在降维的层面,而是通过对数据更深层内涵的发掘达到 对数据进行特征提取的目的。 东北大学硕士学位论文第1 章绪论 1 3 现有回归方法的不足与改进 上述涉及的传统多变量统计过程预测方法在应用中都假设各变量服从高斯分布,即 过程数据中只具有二阶特性而不含高阶统计特性,从统计学的基本知识可知,当输入变 量具有理想高斯分布特性时,对其进行线性变换,输出变量必然也具有理想高斯分布特 性,对于输入是高斯分布的线性过程,其数据的统计特性均完全能够通过二阶统计量进 行描述。 而实际的工业过程往往不满足高斯分布的前提条件。b a g a j e w i c z 指出:对于温度、 压力等可以直接测量的变量,在过程处于稳态时由相应的仪表测到的数据基本满足正态 分布;而对于液位、浓度等间接测量的变量,测量仪表根据一定的变换关系实现对这些 变量的测量,而这种变换关系往往是非线性的。已经证明对于间接测量的变量,仪表所 记录的数据一般不满足正态分布。这说明高斯分布的输入变量经过非线性变换后,输出 变量的峭度值显著增大,反映出输出变量具有较强的非高斯分布特性。由此可以看出, 输出变量的非高斯特性在一定程度上反映了过程中的非线性变换。因此对于非线性过程 而言,利用了数据高阶统计量的i c a 必然比仅考虑二阶统计量的过程监控方法达到更好 的效果。 文献 2 8 】中通过两个流程工业过程过程实例来说明过程变量具有不同程度的非高 斯性,因此传统的过程及质量预测方法并不能满足实际过程及产品最重质量预测的需 要。作者通过实例说明实际流程工业过程的一些变量并不服从理想的高斯分布,一些变 量的非高斯性还很强。因此,使用以数据的高斯分布特性为假设前提的传统方法进行处 理就会不可避免地产生偏差或不足,因此有必要针对实际流程工业过程的非高斯性对流 程工业过程质量预测方法进行改进。 现有多变量统计回归方法不能充分利用过程数据的特性,主要是高阶特性。应对非 高斯的一个有效办法就是引入针对非高斯数据的统计处理方法。而独立成分分析方法 ( i n d e p e n d e n tc o m p o n e n t a n a l y s i s ,i c a ) j 下是以非高斯分布为前提条件的,针对回归和预 测把i c a 引入工业过程数据处理是合理而且必要的。 本文主要工作是建立基于独立元的回归方法,主要思想在于首先提取目标变量的独 立元,对这些独立元的要求是:尽量携带目标变量的变异信息;有统一的次序。接着对 自变量进行特征独立元提取,对特征独立元的基本要求是:尽量携带自变量的变异信息; 尽量包含目标变量独立元的信息。在以上独立元提取的基础上利用独立元的特性建立回 归模型。文提出的改进的基于i c a 的回归方法考虑了数据高阶统计特性必然比传统的基 于二阶统计特性的预测方法更加优越。 4 东北大学硕士学位论文第1 章绪论 1 4 本文的主要内容 本文研究的是基于i c a 的回归方法。主要工作有: ( 1 ) 针对i c a 模型的不确定性利用修正的i c a 方法提取独立元,并建立一种基于 i c a 的回归模型; ( 2 ) 针对提出的类似主元回归的模型的缺点,对模型进行了改进; ( 3 ) 把基于i c a 的回归方法和主元回归及偏最小二乘回归进行了比较; ( 4 ) 利用核独立元分析提取输出空间独立元进而解决非线性的回归问题; ( 5 ) 对本文提出的基于i c a 的回归方法在田纳西库兹曼过程上进行了应用研究,对 其部分过程测量变量和成分测量变量的预测达到了可信的程度,获得了较好的应用效 果。 东北大学硕士学位论文 第1 章绪论 东北大学硕士学位论文 第2 章基础理论知识 2 1 数学基础知识 2 1 1 统计量 第2 章基础理论知识 本节将对本文中涉及的统计量进行介绍。简而言之,样本,x ,一,置,的不含未 知参数的函数称为统计量。根据该定义,统计量有二个重要的性质:1 统计量只依赖于 样本而不依赖于任何未知的量,尤其是不能依赖于样本分布的参数;2 对于一个统计量 t ,必定有一个可测空间与之相关联。在绝大多数情况下t 是一个有限维实向量。 统计量是对样本的一种加工方式:把通常是一大堆杂乱无章的数据加工成少数几个 有代表性的数字,它们集中地反映了样本中所包含的感兴趣的信息。许多统计量是由估 计总体分布的某种特征产生的,如样本均值,样本方差,样本矩,样本相关系数和样本 回归系数之类,其命名就是该总体待征前加上“样本”两字也有不少的统计量不是派 出于这一途径,它们往往有其特定的名称。 设x 为一个n 维随机向量:x = h ,x 2 ,z 。】t ,式中t 表示转置,列向量x 的分量 五,而,吒是随机变量,对x 进行采样得到m 个样本点,所得的数据矩阵记为: x = lx 1 2 五m x 2s 勃而。 l 吒2 吒。 x j x j : x : ( 2 1 ) 则变量x 的各个统计量定义如下: ( 1 ) 变量x 的均值m 。= 【l ,朋彬,m x n 7 , ( 2 ) 二阶统计量:方差v a r ( x ) = s := 【,2 :,s 。2 】7 ,m ,和s :的各个分量由式2 2 、 式2 3 给出: m x i2 吉爵 f = l ,2 ,刀( 2 2 ) s 未2 去荟( x i t - m x i ) 2 i = l ,2 ,。,n ( 2 3 ) 变量x 的相关矩阵r ,记为: 东北大学硕士学位论文第2 章基础理论知识 足= e x x r ) = 吒2 吒2 ,i 。l ,i t - 2 纠 ( 2 4 ) : l l i 2 2 j 。 其中,为r 的第i 行第j 列元素,吩由如下二阶矩得到: 吩- e 慨) 2 去善 ( 2 5 ) 在相关矩阵的基础上,x 的协方差矩阵e 按式2 6 定义: e = e ( x m ,) ( x m ,) 1 ) ( 2 6 ) ”,l 维矩阵e 中的元素为: 勺_ e 眠一f ) ( _ 叫埘2 去荟( 叫拟h 一对) ( 2 一) 容易验证: r 5q + m ,h i : ( 2 8 ) ( 3 ) 高阶统计量 高阶统计也称为高阶累积量,它与高阶矩相联系,高阶统计与相关理论最显著的区 别在于高阶累积量对高斯过程是“盲”的,而相关函数则不是,这意味着当基于高阶累 积量的方法应用于混有加性高斯噪声的非高斯信号的提取时,能够改善信噪比。基于高 阶累积量的多谱( 高阶累积量的多维傅里叶变换) 和基于相关函数的功率谱另一个重要差 别在于前者含有幅度和相位信息,而后者对相位是“盲”的,因此采用高阶累积量可比 采用二阶统计提取更多的有用信息【2 0 1 。非高斯的一种测度峰度就属于4 阶累积量。 峰度是度量非高斯性的一个比较传统的方法,如前所述,y 的峰度k u r t ( y ) 在统计学 上是用四阶统计量来表示的 k u r t ( y ) = e y 4 卜3 ( e y 2 ) ) 2( 2 9 ) 进一步简化该表达式,假设独立成分的方差为单位方差,即y 2 = 1 ,则上述表达式 就可以表示为: k u r t ( y ) = e y 4 ) - 3( 2 1 0 ) 这说明随机变量的峰度是四阶矩e y 4 ) ) 的规范化版本。如果随机变量y 服从高斯分 布,则它的四阶矩等于3 ( e y 2 ) ) 2 ,故高斯随机变量的峰度值为零。随机变量的非高斯性 可以用峰度的绝对值来刻画,对于高斯变量,它的值是零。 从统计信号处理的角度看,传统的信号处理方法只涉及到一阶与二阶统计量,即均 值和方差( 或相关函数) 。高阶统计量则是指三阶以上的统计量( 包括高阶矩和高阶累积 8 东北大学硕士学位论文 第2 章基础理论知识 量) ,高阶谱则是高阶统计量的多维傅立叶变换,有时也以高阶统计量来统称高阶矩、 高阶累积量和高阶谱。 高阶统计量有许多的性质使得它们在信号处理中特别有用,这主要体现在如下几个 方面 2 3 2 4 】: ( 1 ) 理论上高斯信号的高阶累积量为零,那么如果信号中包含有高斯噪声,则将其 变换到高阶累积量( 高阶谱) 域,可以剔除高斯噪声。 ( 2 ) 自相关函数与功率谱相位是盲的,只适用于处理最小相位信号,对于非最小相 位信号的处理则无能为力,而高阶统计量则保存了信号的相位信息,可以用以恢复非最 小相位信号的相位。 ( 3 ) 高阶统计量可以对非线性信号进行有效的分析和处理。 2 1 2 独立与相关 由数理统计的理论知识可以得出独立必不相关,不相关却不一定独立的结论。独立 分量的一个性质是:如果s 。和s :是相互独立的分量,那么对s ,和s :的任意非线性变换, 其结果都是不相关的( 即它们的协方差为o ) ;与之相反,对二个仅仅满足不相关条件的 随机变量,对其作非线性变换的结果,其协方差往往不为0 。 由于相关系数只能刻画线性关系的程度,而不能刻画一般的函数相依关系的程度, 因此在概率论中还引进了另一些相关性指标,以弥补这个缺点。但是,这些指标都未能 在应用中推广开来2 9 1 。究其原因,除了这些指标在性质上比较复杂外,还有一个重要原 因:在统计学应用上,最重要的二维分布是二维正态分布,而对二维正态分布而言,互 相关系数是x ,y 的相关性的一个完美的刻画,没有上面所述的缺点。其根据是:当( x ,】,) 为二维正态时,由不相关能推出x ,y 独立。即在这一特定场合,独立与不相关是等价 的。 2 1 3 典型相关分析 如果有两组变量,第一组变量是数据表x = x l ,一,x 。】,第二组变量是数据表 y = 【y l ,一,y 。】,它们都取样于同样的1 1 个样本点。因此,可构造一个n x ( p + g ) 维的数 据矩阵 z = 【以桫k 。,k 朋) ( 2 1 1 ) 下面研究两组变量x 与y 之间的相关关系。典型相关分析借助于提取成分的思路, 从变量组x 中提取一个典型成分e ,e 是变量x i ,一,x 口的线性组合,再从变量组】,中提 取一个典型成分g 。,g 。是y i 一,y 。的线性组合。在提取过程中,要求e 与g 。的相关程 9 东北大学硕士学位论文 第2 章基础理论知识 度达到最大。这时,e 与g 。的相关程度就可以大致反映出x 与y 的相关关系。 不失一般性,下面总假设原变量均是标准化的,即z 数据表的每一列均值为0 ,方 差为l ,则z 的协方差矩阵等于其相关系数矩阵,记 y ( z ) :! z r z ( 2 1 2 ) ,z 写成分块矩阵的形式 y ( z ) = i 1 。l x :r x xx r r 7 r y l j 登。巧1 芝 在主成分分析中,我们是针对组内方差矩阵巧,:进行分析的, 间方差矩阵k := ( 。) 进行分析。 目前的主要问题是怎样寻找主轴a 。,b 。,并用它们构造典型成分 e = x a l y z ( 2 1 3 ) 下面主要针对组 ( 2 1 4 ) g i = y b l ( 2 1 5 ) 使得f i 与g 。的相关程度达到最大。显然,f i 与g 的样本均值为0 ,i l 与g ,的样本方差 分别为 v a r ( e ) = 一ia l t x7 x a l ( 2 1 6 ) v a r ( g 1 ) = _ _ tb i t y r y b i ( 2 1 7 ) e 与g 的样本协方差为 c o v ( v , ,g 1 ) = 一ia i t x r y b i ( 2 1 8 ) 要使得f l 与g 。的相关程度达到最大,一种未经深入分析的办法,是直接采用相关 系数最大的准则,即 邺- ) = 器专蝴 ( 2 1 9 ) 然而,仔细观察一下就可以发现,这个准则的主要缺陷是在i l 与g ,的相关性达到 最大的同时,e 与g 的方差却达到了最小。因此,用这种方法得到的典型成分i i 与g 。, 对原变量组x 与】,的代表性就很弱了,它们无法更多地反映出原变量组中的变异信息。 在典型相关分析中,则采用下述原则寻优,即 - 1 0 东北大学硕士学位论文第2 章基础理论知识 m a x f , ,g i ) = a l r x r y b i j jf x r 巍= l ( 2 加) 【b l r y 7 y b l = 1 在这个优化问题中,约束条件要求l i :与g 。均为单位向量,它们的模长均等于1 。这 时计算l i 与g 的样本相关系数为 “2 黼= a i r x r y b , ( 2 2 1 ) 由此可见,寻优准则式( 2 2 0 ) 可以归结为:在x 的子空间上求一个单位向量e , 在y 的子空间上求一个单位向量g 。,使得i i 与g 。的相关性达到最大。从几何上看, 达时e 与g 。的相关系数又等于它们之间的夹角余弦,因此,问题又等价于使f i 与g 。的 央角缈取到最小值。实质上彩就是两个子空间与巧的最小夹角。这就从几何意义上 解释了典型成分l l 与g ,的含意。 由此,可以定义两组变量问的典型相关系数 届= = a - r x r y b - ( 2 2 2 ) 胪蒇商 1( 2 2 2 ) 2 2 多变量统计过程回归预测 2 2 1 数据的标准化处理 数据标准化是基于过程数据的建模方法的一个重要环节。一个好的标准化方法可以 很大程度上突出过程变量之间的相关关系、去除过程中存在的一些非线性特性、剔除 不同测量量纲对模型的影响、简化数据模型的结构。数据标准化通常包含两个步骤【3 0 】: 数据的中心化处理和无量纲化处理。 数据的中心化处理是指将数据进行平移变换,使得新坐标系下的数据和样本集合的 重心重合。对于数据阵x ( n m ) ,数据中心化的数学表示式如下, 暑= 玉,一弓( f = 1 ,刀;j = l ,朋) 弓= 吉弛 q 2 3 其中,以是样本点个数,m 是变量个数,f 是样本点索引,j 是变量索引。中心化 处理既不会改变数据点之间的相互位置,也不会改变变量间的相关性。 过程变量测量值的量程差异很大,比如注塑过程中机桶温度的测量值往往在几百度 l l 东北大学硕士学位论文 第2 章基础理论知识 左右,而螺杆位移的量程只有几个厘米。若对这些未经过任何处理的测量数据进行主 成分分析,很显然在几百度附近变化的温度测量量左右着主成分的方向。在工程上, 这类问题称为数据的假变异,并不能真正反映数据本身的方差结构。为了消除假变异 现象,使每一个变量在数据模型中都具有同等的权重,数据预处理时常常将不同变量 的方差归一以实现无量纲化,如下式, 暑,= 五,s j ( i = l ,;j = 1 ,。,j ) 勺= 丽 q 2 4 在数据建模方法中,最常用的数据标准化则是对数据同时作中心化和方差归一化处 理, 妒了x , j - x j ( f = 1 ,。,叫= l 。,刀 ( 2 2 5 ) 2 2 2 基于主成分的回归方法 本小节介绍主成分回归( p r i n c i p a lc o m p o n e n tr e g r i s s i o n ,p c r ) 的内容,主成分分析 是一种多变量统计方法,其主要思想是通过线性空间变换求取主成分变量,将高维数据 空间投影到低维主成分空间。由于低维主成分空间可以保留原始数据空间的大部分方差 信息,并且主成分变量之间具有正交性,可以去除原数据空间的冗余信息,主成分分析 逐渐成为一种有效的数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论