(控制理论与控制工程专业论文)基于独立元分析的数据重构方法及其应用.pdf_第1页
(控制理论与控制工程专业论文)基于独立元分析的数据重构方法及其应用.pdf_第2页
(控制理论与控制工程专业论文)基于独立元分析的数据重构方法及其应用.pdf_第3页
(控制理论与控制工程专业论文)基于独立元分析的数据重构方法及其应用.pdf_第4页
(控制理论与控制工程专业论文)基于独立元分析的数据重构方法及其应用.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(控制理论与控制工程专业论文)基于独立元分析的数据重构方法及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在工业系统的数据采集过程中往往不可避免的会有数据遗失的现象发生。在连续过 程的数据采集过程中,数据会因传感器的故障或者定期的离线维护而遗失;各种的设备 故障,或者响应超过设备可探测范围,也会引起数据的遗失。这些数据的遗失是随机的。 还有些情况数据的遗失是规则的,最常见的情况就是因传感器的采样周期不同造成的数 据的遗失。 而传统的处理数据遗失的方法已不适用于现在多变量的工业系统。为此,本文采用 独立元分析方法作为研究的主要数学工具。独立元分析的基本原理是通过分析多维观测 数据问的高阶统计相关性,找出相互独立的隐含信息成分,完成分量间高阶冗余的去除 及独立源信号的提取。本文的主要内容如下: 1 首先介绍了数据遗失以及数据重构的基本概念,并简要地介绍了多元统计方法在数 据重构中的应用。然后以t e 过程为仿真实验对象,分析了p c a 在遗失数据重构中 的应用,通过具体计算仿真,验证其效果,并指出存在的不足。 2 将基于高阶统计特性的独立元分析方法引入数据重构,该方法去除了过程数据必须 服从高斯分布或独立同分布的约束,且提取出过程尽可能相互独立的源信号,明显 降低了重构数据与原始数据的误差。本文尝试了引入两种不同的i c a 方法:f a s t i c a 和基于p a r z e n 核估计的i c a ,并分别利用统计量s p e 和r 成功的完成了数据的重构, 并, 1 仿真实例证明了该方法的优越性。 3 在很多真实环境下,线性假设往往只是对非线性i c a 模型的一种近似描述。有时线 性假设呵能会带来一些不难确的结果。基于此探讨了两种非线性i c a 方法在数据重 构中应用,并对此做了一些初步的研究工作。在t e 过程上的仿真试验表明了该方法 的有效性,为非线性i c a 的进一步深入研究提供了一个良好的借鉴。 4 对于独立元分析方法以及在数据重构应用中未能解决的问题作出解释以及对未来数 据重构发展方向作了展望。 关键词:数据遗失,数据重构,主元分析,独立元分析,非线性i c a ,t e 过程 a b s t r a c t a b s t r a c t t h e r ea r em a n yr e a s o n sw h ym e a s u r c m e n sm a yb em i s s i n gf b o mad a t as e t m i s s i n g m e a s u r e 】= 1 1 e n t so c c u rp e r i o d i c a l l yw h e ns e n s o r sf a i lo ra r et a k e no 昏l i n ef o rr o u t i n e m a i n t e n a n c e i no t h e rs i t u a t i o n s ,m e a s u r e m e n t sa r er e m o v e d 厅o mad a t as e tb e c a u s e 铲o s s m e a s u r e m e n te r r o r so c c u ro rs 踟p l e sa r es i m p i yn o tc o l l e c t e da tt h er e q u i r e dt i m e i nt h e s e c a s e s , t h em e a s u r e m e n t sa r em i s s e da tr a n d o mt i m e s i no t h e rs i t u a t i o n s , m i s s i n g m e a s u r e m e n t so c c u ro nav e r yr e g u l a rb a s i s ac o m m o ne x 锄p l eo c c u r sw h e ns e n s o r sh a v e d i 髋r e n ts a m p l i n gp e r i o d s b u tt h e 仃a d i t i o n a lm e t h o do fd e a l i n gm i s s i n gd a t ad o e sn o t 印p l yt om ei n d u s t r i a ls y s t e mo fm a l l y v a r i a b i e sn o w t h e r e f o r e ,t h i sa r t i c l eu s e si n d e p e n d e n tc o m p o n e n ta n a l y s i sa st h em a i nm a t h e m a t i c a i t o o l s t h eb 2 l s i cp r i n c i p l e so fi n d e p e n d e mc o m p o n e n ta n a l y s i si st h r o u g ht h em u l t i d i m e n s i o n a la n a l y s i so fd a t a r e l a t e dt ot h eh i g h e n ds t a t i s t i c s ,i n d e p e n d e n to f e a c ho t h e rt on n dh i d d e ni n f o r n l a t i o ne l e m e n t s ,b e t w e e n m eh i g h e n dc o m p o n e n t st oc o m p l e t et h er e m o v a lo fr e d u n d a n ta n di n d 印e n d e ms o u r c eo ft h es i g n a l e x t r i c t i o n t h em a i nc o n t e n to fm i sd i s s e r t a t i o ni sa sf - o n o w s : 1 i n t n o d u c e db a s i cc o n c e p t so ft h em i s s i n gd a t aa t l dd a t ar e c o n s t r u c t i o no ea i l dab r i e fi n t r o d u c t i o nt o m u l t i p l es t a t i s t i c a lm e t h o d si nt h e 印p l i c a t i o no fd a t ar e c o n s t r u c t i o n g a v eab r i e f i n go nt h cm a i n e l e m e n ta n a l y s i sm e t h o d so fb a s i cc o n c e p t s ,a n dt h e i rs t a t i s t i c ss p em e t h o do fc a l c u l a t i o n a tt h e s 锄et i m e ,m es u c c e s so ft h ep c am e t h o d0 fd a t aw a si o s tr e c o n s t m c t i o na n dt e pp r o c e s st 0 a c h i e v et h es i m u l a t i o nt e s l , 2 b a s e do nt h ep r 主n e i p a lc o m p o n e n to ft h el a c ko fl e a d sb a s e do nt h es t a t i s t i c a lp r o p e r t i e so fh g h e n d i n d e p e n d e n te l e m e n ta i l a l y s i sm e m o d sa n dd a t ai nt h er e c o n s t r u c t i o no ft h em e t h o di na d d i t i o nt 0 p r o c e s sd a t am u s tb es u b o r d i n a t et 0t h eg a u s s i a nd i s t r i b u t i o no ri n d e p e n d e n td i s t r i b u t i o no fr e s t r a i n t , a n dt oe x 仃a c tt h ep r o c e s sa sf 缸a sp o s s i b l ei n d e p e n d e n to fe a c ho t h e rs i g n a is o u r c e ,s i g n i f i c a l l t l y 。d e c r e a s e dt h er e c o n s t r u c t i o no ft h eo r i g i n a ld a t aa n dd a t ae r r o r s t h i sp a p e rh a st r i e dt oi n t r o d u c et h e i c a 似od i 施r e n tw a y s :f 弱t i c aa n dt h ei c ab a s e d0 np a r z e nn u c l e a re s t i m a t e s ,a n da r eu s i n g s t a t i s t i c ss p ea r l ds u c c e s s 矗lc o m p l e t i o no ft h er e c o n s t m c t i o no ft h ed a t aa n du s es i m u l a t i o n e x 啪p l e sp r o v et h es u p e r i o r i t y 3 i ns o m er e a ji n d u s t r i a l p r o c e s s e s , t h er e l a t i o n so fv 撕a b l e sa r es u p p o s e dl i n e a r s o m e t i m e st h ea s s u m p t i o nc a i ll e a dt os o m ei n c o r r e c tr e s u l t s t h e r e f o r e ,ap r o c e s s m o n i t o r i n gm e t h o db a s e do nn o n l i n e a ri c ai s 印p l i e di nt h ed a t ar e c o n s t r u c t i o n s o m e p o s i t i v er e s u l t s 剐ea l s og i v e n 4 f i n a l l y ,j o m eb e n e f i c i a le x p l o r a t i o n si nt h ef i e l do fp r o c e s sm o n i t o r i n ga r em a d e ,a 1 1 d s o m e 如t u r er e s e a r c ha r e a sa r eh i g h i i g h t e d 1 ( e yw o r d s :m i s s i n gd a t a , d a t ar e c o n s t m c t i o n ,i n d e p e n d e n tc o m p o n e n ta j l a l y s i s ,n o n l i n e a ri n d e p e n d e n t c o m p o n e n ta n a l y s i s ,t ep r o c e s s 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含本人为获得江南 大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志 对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 签名:日 期: 毕 关于论文使用授权的说明 本学位论文作者完全了解江南大学有关保留、使用学位论文的规定: 江南大学有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文, 并且本人电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 签名:导师签名: 日 期: 第一章绪论 1 1 引言 第一章绪论 随着科学技术水平的日益提高,尤其是5 c 技术的飞速发展( 5 c :c o m p u t e r 计算机 技术、c o n t r o l 自动控制技术、c o m m u n i c a t i o n 通信技术、c r t 显示技术、c h a n g e 转换 技术) ,一方面使得工业系统的规模不断扩大,工艺也越来越复杂,加之巨大的投资, 迫使人们不得不考虑工业系统的可靠性和安全性。不论是在工业控制方面还是在故障检 测方面都离不开数据的采集,通过采集得到的数据进行算法研究,从而达到控制或者故 障诊断的效果。因此采集数据的准确性就至关重要,采集得到的数据中,任何一个数据 的错误、遗失或者不确定都会影响算法的准确性。 作为信息采集系统的前端单元,传感器的作用越来越重要。在工业控制现场,传感 器通过光、电磁、超声波等手段对现场状况进行监控,并将接收到的能量转换为电信号 再进行处理,因此传感器在工业现场被比作人的眼睛。因此传感器的正常工作,才能够 准确的了解当前工业系统的生产和操作情况。但是无论稳定性多高的传感器都不能避免 发生故障的情况,一旦传感器发生故障,得到的采样数据必然是错误的或者是缺失的。 传感器故障大致可以分为四大类【1 j :( 1 ) 传感器失灵,指传感器彻底失去功能,读数停留 在某个固定值上不再变化:( 2 ) 精度下降,指传感器测量误差的方差增加;( 3 ) 偏差,指 传感器的读数与实际值之间的偏差不断增加。研究如何及时检测、快速诊断传感器是否 故障,并恢复故障数据不论对工业控制系统、工业装置还是操作本身都具有重要的意义。 基于这个原因,科学家们很早就开始尝试各类的方法来恢复那些遗失的或者错误的 数据,以便达到数据重构的效果。从早先的单纯的将遗失的数据丢弃,到后来的用最多 见的数据来替代遗失的数据,再到现在的通过各类参数估计的算法来重构数据。数据重 构的方法越来越复杂,重构的效果也越来越好。但是随着现在技术的发展,工业过程的 数据越来越趋于多变量和非线性,对数据重构的算法的要求也就越来越高。 多元统计分析足数理统计学近3 0 年来迅速地发展起来的一个分支,特别是由于观 代电子计算机的广泛运用,多元统计方法已广泛应用到许多社会科学领域和自然科学学 科之中去,取得了很大的进展。1 9 8 7 年,l i t t l e 和r u b i n 首次尝试将统计分析的方法应 用于数据重构当中| 2 1 。接着便有研究学者将各类的统计分析方法应用于数据重构当中。 而将多元统计方法引入数据重构是在2 0 0 2 年由w a l c z a k 和m a s s 砒在文献【3 。4 中首次提 出的。在这两篇文献中首先介绍了极大似然( m l ) 算法和最大期望( e m ) 算法来重构数据, 接着提出了用p c a 和p l s 算法来重构数据的思想。 1 2 数据重构 所谓数据重构,就是当采样获得的数据出现遗失、不完整或者错误的时候,为了不 影响建模的精度或者控制的准确性,通过各类的算法对这些数据进行恢复。工业系统当 中,不论是工业控制、过程监控还是故障诊断,都需要用到数据重构。 江南人学硕士学位论文 1 2 1 数据遗失 过程监控的进行离不开通过实时测量得到的数据,因此监测得到的数据的准确性 从一定程度上影响分析结果的精确度,而经常我们得到的数据常常可能是不完美的、错 误的、残缺不全、不确定的或者隐藏的。本文分析的是当数据残缺不全即有数据遗失的 情况。 在连续过程的数据采集过程中,传感器的故障、定期的离线维护、各种的设备故障、 或者响应超过设备可探测范围都会引起数据的遗失。这些数据的遗失是随机的。还有些 情况数据的遗失是规则的,最常见的情况就是因传感器的采样周期不同造成的数据的遗 失。 数据的遗失大致分以下三类【5 】: l 、完全随机遗失( m i s s i n gc o m p l e t e i ya tr a n d o m ,m c a r ) :这是最高水平的随机性。 一般是指数据遗失的可能性和已知数据和遗失数据之间的相关性为零,即 p ( mix ) = p ( m ) ,其中m 代表遗失数据,x 代表已知数据。在随机性的这个水 平,所有数据重构的方法都是适用的。 2 、随机遗失( m i s s i n ga tr a n d o m ,m a r ) :数据遗失的可能性和已知数据之间有相关性, 而与遗失数据之间没有相关性,即p ( mix ) = p ( mk 缸) ,其中k 缸代表已知 数据和数据遗失可能性相关的部分。 3 、非随机遗失( n o tm i s s i n ga tr a n d o m ,n m a r ) :数据遗失的可能性完全取决于已知 数据,即p ( mix ) = p ( x ) 。 1 2 2 数据重构的方法 一般来说,对于数据遗失的处理分两大类方法。第一类方法不利用遗失数据特征值 进行重构的方法。第二类方法是利用遗失数据的特征值,对其进行学习归纳来进行重构 的方法,此类方法也是最普遍使用的方法。其他处理数据遗失的方法还有使用模糊控制 来进行重构的1 1 。 传统方法 在对数据进行分析的时候丢弃部分包含遗失数据的结果。此类方法会导致建立模型 的精确度下降,并使预测和监控的能力也相应下降。 基于遗失数据特征值的方法【1 2 1 4 】 当数据出现遗失的时候,用一些出现比较频繁的数值来代替那些遗失的数据。但是 这种方法低估了数据的背离程度,即使是m c r a ,所以被认为是不充分的。 基于非遗失数据特征值的参数估计方法【1 5 1 6 】 这类方法被证明是十分有效的,尤其是最大期望( e m ) 算法和多重填补( m i ) 算法。但 是这类算法最大的问题是需要建立精确的数据模型,模型越精确,恢复的数据就越 接近,然而精确的数据模型却不容易得到。 2 第一章绪论 1 3 多元统计方法在数据重构中的应用 在对社会、经济、技术系统的认识过程中,都需要收集和分析大量表现系统特征和 运行状态的数据信息。这类原始数据集合往往由于样本点数量巨大,用于刻画系统特征 的指标变量众多,并且带有动态特性,而形成规模宏大、复杂难辨的数据海洋。如何分 析和认识高维复杂数据集合中的内在规律性,简明扼要地把握系统的本质特征加何对高 维数据集合进行最佳综合,迅速将隐没在其中的重要信息集中提取出来;如何充分发掘 数据中的丰富内涵,清晰地展示系统结构,准确地认识系统元素的内在联系,以及直观 地描绘系统的运动历程;这些是科学决策和决策支持系统建立的基础,是增强决策考知 识快捷、有效的实用工具。利用统计学和数学方法,对多维复杂数据集合进行科学分析 的理论和方法,就是多元统计数据分析研究的基本内容。 多元统计方法起源于2 0 世纪2 0 年代,5 0 年代后随着计算机和统计分析软件的发 展,得到广泛应用,逐步渗透到自然科学和社会科学的各个领域。多元统计是研究多个 变量之间相互依赖关系以及内在统计规律性的一门统计学科,其技术可以分为非对称性 技术和对称性技术。非对称性技术( d e p e n d e n c et e c h n i q u e ) 适用于一个或多个变量作 为因变量,其他变量作为自变量的情况。当只有一个因变量的时候,可以使用交叉表、 方差和协方差分析、多元回归分析、两组判别分析以及联合分析等。如果因变量不止一 个,则可以使用多元方差和协方差分析、典型相关分析以及多组判别分析等。对称性技 术( i n t e r d e p e n d e n c et e c h n i q u e ) 是指变量没有自变量和因变量之分,主要是测试变量之 问的相关性或对象之间变量的相似性。测试变量相关性的方法主要有因子分析,分析对 象之间变量相似程度的方法有聚类分析和多维标度分析等。 1 3 1 常见的几种多元统计方法 1 )主元分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) 主元分析足将研究对象的多个相关变量化为少数几个不相关的变量的一种多元统 计方法。在多变量的分析中,为了尽可能完整地搜集信息,对每个样品往往要测量许多 项指标,当然这可以避免重要信息的遗漏,然而从统计的角度来看,这些变量可能存在 着很强的相关性,使得分析问题增加了复杂性。因此自然想到用少数几个不相关的综合 变量来代替原来较多的相关变量的研究。而且要求这些不相关的综合变量能够反映原变 量提供的大部分信息。从数学的角度来看,这就是降维的思想。主元分析就是在力保数 据信息丢失最少的情况下对高维变量空间进行降维处理。其信息提取的实质是选择几个 有代表性的主元,解释数据中大部分变化,从而将数据按最优形式分成两个部分:噪声部分 和系统部分。 p c a 近年来在工业监控方面发展迅速,主要的研究成果有: 传统的p c a i l 6 j 按方差最大化的准则从过程数据中获取过程的主元信息或对过程变量的协方差矩 阵进行奇异值分解获得过程的主元特征信号,并以此建立基于p c a 的过程统计模型。 主元特征信号的数目可按照一定的准则来确定,然后分别构造出基于过程主元特征子空 3 江南人学硕+ 学位论文 问信息的过程统计量矿2 和基于残差子空间信息的过程统计量s p e 。 非线性p c a ( n o n l i 矗e a rp c a ) 【1 7 2 0 】 在工业过程中,变量之问的非线性特征非常普遍。对这一类问题,通常的办法是结 合神经网络来建立过程的主元模型,然后得到过程数据的残差信息,并构建出相应的过 程统计量。 多向主元分析m p c a ( m u l t i 、v a yp c a ) 【2 1 ,2 2 1 这是一种主要针对间歇过程的p c a 方法,将三维数据矩阵切割成多个二维子数据 模块,并按照一定的方式排列。这样原来的三维数据块就转化为一个二维数据矩阵。 多尺度p c a 【2 3 j 针对传统p c a 方法是以单一尺度分析过程数据的性质,该方法将小波分析的多尺度 特性与p c a 方法相结合,对原始数据进行多尺度细化分析。利用小波变换对过程数据 在给定尺度下进行细化分析,提取过程主元信息,构建过程统计量。 分级和多块p c “2 4 ,2 5 】 利用过程额外的信息将高维的数据矩阵分解成一些小的有意义的数据矩阵或数据 块,把主元分析方法转化为两级主元分析方法:在高一级上用主元分析去除数据块之间 的相关性,进而在低一级上对小的数据块内的信息进行主元分析。 动态p c a ( d y n 锄i cp c a ) 【2 6 j 针对获得的过程数据存在着一定的时间结构,该方法的的主要思想是:在时域中扩 展过程数据块,使得其自相关或互相关最小,然后对这个数据块进行主元分析以提取过 程特征信号子空间信息。 核p c a 【2 7 】 这种方法的基本思想是先用主元分析方法提取过程特征信号,然后对过程特征信号 的概率密度函数进行核密度估计,最后构建相应的过程统计量对过程信息进行分类。 概率p c a ( p r o b a b i l i s t i cp c a ) 【2 8 】 对于过程数据存在缺失的状况,考虑给过程变量一个指定的概率密度函数,建立一 个概率生成模型。用e m ( e x p e c t a t i o nm a x i m u m ) 算法求取模型的各个参数。最后基于 m a l l a l a n o b i s 范数构建过程的统计量。 2 )判别分析( d i s c r i m i n a t o r ya n a l y s i s ,d a ) 判别分析是用于判别个体所属群体的一种统计方法,它产生于本世纪3 0 年代。近 年来,在自然科学、社会学及经济管理学科中都有广泛的应用。 判别分析的特点是根据己掌握的、历史上每个类别的若干样本的数据信息,总结出 客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要 根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。判别分析法有两 总体判别与多总体判别之分。 在判别分析中常采用马哈拉诺比斯( m a h a l a n o b i s ) 距离,简称马氏距离。马氏距离的 主要优点是可以克服变量之间的相关性干扰,并且消除各变量星纲的影响。常见的几种 4 第一章绪 论 判别分析方法有:距离判别法、费含尔判别法、贝叶斯判别法。 距离判别法的思想方法十分简单、直观。根据各样品与各母体之间的距离远近作出 判别。即根据资料建立关于各母体的距离判别函数式,将各样品数据逐_ 代入计算,得 出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。 费舍尔判别法是一种线性判别的方法。它的工作思路是投影,使多维问题简化为一 维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影 值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小, 而不同类问的投影值所形成的类间离差尽可能大。费舍尔判据分析常被用于工业故障诊 断的研究1 2 w 。 贝叶斯判别分析方法的基本思想是利用以往对研究对象的认识先验概率来求 出后验概率,并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们 事先对所研究的对象的认识的程度:所谓后验概率,就是根据具体资料、先验概率、特 定的判别舰则所计算出来的概率。它是对先验概率修正后的结果。 3 )偏最小二乘( p a r t i a ll e a s ts q u a r e s ,p l s ) 偏最小二乘法是一种新型的多元统计数据分析方法,它于1 9 8 3 年由伍德( s 。w ,0 1 d ) 和阿巴诺( c a 1 b a n o ) 等人首次提出【3 0 】。近几十年来,它在理论、方法和应用方面都得到 了迅速的发展。偏最小二乘回归主要用于建立多因变量与多自变量的统计关系。在回归 分析中,当自变量与因变量的个数都很多,并且在自变量之间以及因变量之j 日j 都存在较 严重的多重共线性时,如果采用一般的多元回归方法,其分析结果的可靠性极低,而采 用偏最小二乘回归分析的建模方法,可以较好地解决这个问题。 长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。而偏最小二乘 法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模( 多元线性回归) 、 数据结构简化( 主元分析) 以及两组变量之间的相关性分析( 典型相关分析) 。这是多元统 计数据分析中的一个飞跃。 多向偏最小二乘( m u l t i w a yp a n i a ll e a s ts q u a r e s ,m p l s ) 多用于间歇过程的监控【3 1 j 。 4 )因子分析伊a c t o ra 船l y s i s ,f a _ ) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之问的联系,即将 相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子( 之所以称其为因 子,是囚为它足不可观测的,即不是具体的变量) ,以较少的几个因子反映原资料的大 部分信息p 引。 主成分分析和因子分析的区别 1 、因子分析中是把变量表示成各囚子的线性组合,而主成分分析中则是把主成分表 示成个变量的线性组合。 2 、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变 量之间的协方差。 3 、主成分分析中不需要有假设( a s s u m p t i o n s ) ,因子分析则需要一些假设。因予分析 5 江南大学硕+ 学位论文 的假设包括:各个共同因子之间不相关,特殊因子。( s p e c m cf a c t o r ) 之间也不相关,共 同因子和特殊因子之间也不相关。 r 4 、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主 成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5 、在因子分析中,因子个数需要分析者指定( s p s s 根据一定的条件自动设定,只 要是特征值大于1 的因子进入分析) ,而指定的因子数量不同而结果不同。在主成分分 析中,成分的数量是一定的,一般有几个变量就有几个主成分。 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更 加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾 向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数 几个新的变量( 新的变量几乎带有原来所有变量的信息) 来进入后续的分析,则可以使 用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。 5 )独立元分析( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ,i c a ) p c a 和p l s 方法在过程监控时都是假定测量数据是满足独立同分布的高斯变量,都 是在保留大多数原变量的特性下,将高维的相关变量投影至低维的不相关变量,在这变 换中,去除的仅是变量之间的相关性,各变量之间不满足独立性特点。相互独立比不相关 具有更多良好的性质【j3 。 i c a 是一种新的统计方法f 3 训。该方法的目的是将观察到的数据分解成统计独立的成 分,并从混合信号里恢复出一些基本的源信号的方法。1 9 8 6 年,j h e r a u l t 和c j 吡e n 第 一次提出独立元分析思想,但直到9 0 年代中期,i c a 的理论和算法研究才真正得以发 展并受到国际信号处理界的广泛关注。 。 长期以来,许多学者都致力于寻找更加精确的i c a 目标函数与寻优算法。对独立元 分析的研究主要有以下两个方向。一方面是从盲源分离的角度进行研究,利用二阶或者 高阶累计量来近似目标函数,将信号分解成未知的独立信号源。1 9 9 4 年c o m m o n 等人 详细地论述了独立元分析的概念和最小化互信息的近似目标函数,对这类算法进行了总 结。另一方面是基于信息论的框架,l i n s k e r 根据减少冗余原则提出的基于信息论的无 监督学习,这是一种基于最大化输出信号的熵及输入、输出间互信息的算法。1 9 9 5 而 b e l l 和s e j n o w s k i 把盲源分离的观点并入信息论的框架中,从而使这两类算法得到了统 一。19 9 7 年,奥贾等人用非线性主元分析算法实现独立元分析,并把主元分析和独立元 分析结合起来,提出负熵的方法。同年,p e a r l m 暇e r 和p 赫a 及m a c k a y 和c a r d o s o 证明 了最大化互信息的算法和最大似然估计等价。a a p oh y v l i r i n e n 在负熵的概念下提出了快 速独立元分析算法,使独立元分析的计算量大大地减少。 目前,i c a 理论正呈现出“百花齐放”的发展态势,针对非线性模型、非稳定信源、 卷积混合模型、噪声环境、不完全问题等各种问题的各类算法层出不穷,例如:分阶段 学习算法、g r a d i e n t 算法、e q u i v a r i a n ta d a p t i v es e p a r a t i o nv i ai d d e p e n d e n c e 算法、j a d e 算法、k e m e l 算法、t o p o g r a p h i ci c a 算法、m u l t i d i m e n s i o n a li c a 算法、1 r e e d e p e n d e n t c o m p o n e n ta n a l y s i s 算法、s u b b a n dd e c o m p o s i t i o n - i c a 算法、s p a r s ec o m p o n e n ta n a l y s i s 6 第一章绪论 算法、s p a r s ep c a 算法、n o n _ n e g a t i v em a t r i xf a c t o r i z a t i o n 算法、s m o o t hc o m p o n e n t a n a l y s i s 算法、p a r a l l e lf a c t o ra n a l y s i s 算法、t i m e f r e q u e n c yc o m p o n e n ta n a l y z e r 算法、 m u l t i c h a n i l e lb l i n dd e c o n v o l u t i o n 算法等等,被广泛应用于:生物医学、天线阵列、通信 信号处理、语言信号处理、图像恢复、系统的盲源分离、数据分析和故障监测等方面。 1 3 2 多元统计方法在数据重构中的应用 主元分析、偏最小二乘等数据驱动的多元统计方法由于不依赖于精确的数学模型, 在化工过程监控与故障检测方面取得了广泛的应用,现也有人开始将其应用于数据霞构 中。多元统计方法主要采用各种降维方法来实现。降维方法的基本思想是将由大量测得 的变量所张成的商维空间投影到维数更少的模型空间。 统计数据重构算法可以大致分为以下几类【3 5 1 : ( 1 ) 模型空间投影法( p r o j e c t i o nt ot h em o d e lp l a n e ,p m p ) :该方法等价于d u n i a 提出的 s p e 极小化方法。 j = 妻: = 。,一尸。尸二,一,尸。p 。r 三 妻: + ( 2 ) 已知数据回归法( k n o ,i ld a t ar e g r e s s i o n ,k d r ) :与条件均值替代法( c o n d i t i o n a l m e a l lr e p l a c e m e n t ,c m r ) 以及修剪主元回归法( t r i n u n e ds c o r er e g r e s s i o n ,t s r ) 等价。 戈橱= k 搬卜瞪驯善翟搿期 ( 3 ) 得分修剪法( t r i m m e ds c o r em e t h o d ,t r i ) : j 孽= 妻: = 二。二。r兰 妻: ( 4 ) 单主元投影方法( s i n g l ec o h l p o n e n tp r o j e c t i o n ,s c p ) :该算法为递归算法,实现相 对复杂。 近年来国内对于将多元统计方法应用于数据重构方面还不是很多,具体的有:王一 竹的主元分析及数据重构在过程监控中应用【3 6 】;陈友明的空调监测系统的数据恢复方法 的研究【3 7 】;杨帆的一种基于数据重构的k p c a 故障识别方法【3 8 】;赵忠盖的基于概率p c a 过程监控中遗失数据的重构f 捌。吴立洲的基于f i s h e r 判别分析法的空调系统传感器故障 诊断4 0 1 。刘丹的移动最小二乘法在多功能传感器数据重构中的应用4 】;孙金玮的向上查 表法在多功能传感器信号重构中的应用f 4 2 1 。魏国的基于l s s v m 的非线性多功能传感器 信号重构方法研究f 4 3 】,等等。 1 4 本章小结 本章酋先介绍了过程监控的基本概念及其分类,然后详细介绍了数据遗失的概念以 及引起数据遗失的原因和数据遗失的类别,同时介绍了数据重构的基本思想和到目前为 止对数据进行重构的三大类方法以及它们的优缺点,最后简要介绍了多变量统计过程控 7 江南人学硕士学位论文 制的三大主要统计方法。除了绪论之外,本文的框架及主要内容为: 第一章、绪论。2 t : ? 第二章、回顾了基于二阶统计特性的主元分析方法,详细介绍了过程主元的提取方 法,以及其统计量s p e 的计算方法。同时利用统计量s p e 成功的利用p c a 模型对遗失的数据进行了重构。同时对于本文基于仿真试验的平台,介绍 了一个工业界普遍采用的的仿真试验平台田纳西一依斯曼过程( t e p ) 。对 过程的流程图、变量和结构都做了详细的说明,并在t e p 过程实现了仿真 试验,证明了该方法的有效性 第三章、基于主元分析的不足,引出了基于高阶统计特性的独立元分析方法及其在 数据重构中的应用,该方法去除了过程数据必须服从高斯分布或独立同分 布的约束,且提取出过程尽可能相互独立的源信号,明显降低了重构数据 与原始数据的误差。本文尝试了引入两种不同的1 c a 方法:f a s t i c a 和基 于p a r z e n 核估计的i c a ,并分别利用统计量s p e 和统计量r 成功的完成 了数据的重构,并用仿真实例证明了该方法的优越性。 第四章、就工业现场样本数据之间呈现出的较强的非线性的问题。探讨了两种非线 性i c a 方法在数据重构中应用,并对此做了一些初步的研究工作。在t e 过程上的仿真试验表明了该方法的有效性,为非线性i c a 的进一步深入研 究提供了一个良好的借鉴。 第五章、总结了本文所作的工作,探讨了i c a 在数据重构中的应用所存在的问题, 阐述了作者对此领域研究的看法,并对未来的研究课题进行了展望。 第二章p c a 在数据重构中的府用 第二章p c a 在数据重构中的应用 2 1 主元分析基本概念 一 主元分析方法足一种线性降维技术,通常把数据划分为特征子空间和它的补空问。 在分析复杂过程时,把高维原始数据投影到一个低维的特征子空间当中,在这个低维子 空间中对过程实施监控f 1 7 】。 令过程j 下常工况下的采样数据为: x = 五,x 2 ,x 所】尺脓牌,力为采样数,垅为 观测变量的个数。对数据矩阵进行归一化处理,即( t ,_ ,一乃) ,乃为第个变量的采 样均值,v ,为第歹个变量的采样方差,f = 1 ,2 ,刀;歹= 1 ,2 ,垅。 利用奇异值分解法来求取主元。矩阵x 的奇异值分解可表示为: x = u y 7 ( 2 1 ) 其中:u = 甜2 甜月 尺删一,矿= h呓 尺猁掰 = o l o o 仃2 oo oo oo oo oo 。o 仃m ; o 尺删珊 且仃l 盯2 仃州为矩阵x 的奇异值,同时满足: u r u :y7 矿= ,u = u 7 ,y = 矿7 。 因此: x 7 x = ( u y 7 ) 7 ( u y7 ) = y 7 ,矿7 = 矿 仃f oo oo o o 仃三 矿7 ( 2 2 ) 显然,盯? ,仃;,仃三是矩阵x 的协方差矩阵的特征值,即:仃,= ,而u ( y 的列向 量) 则是协方差矩阵的特征向量。因为存在:x = 盯f “,如果令仃f 秘f = t ,只= , 则式( 2 2 ) 可写为: x = u y r = 盯。铭,谚= t = 即r ( 2 3 ) f = li = l 其中t r ”为主元,只r ”为负荷向量,并且 p :pi :qt 季1 。 p f lp ,= 1扛 9 江南人学硕士学位论文 即每个负荷向量之间相互正交,且每个负荷向量的长度都为l o 将式( 2 3 ) 等式两边同时右乘p i 即可得: = 却, ( 2 4 ) 式( 2 4 ) 即为主元求取的基本模型 2 2p c a 的统计量 对建立起来的主元模型( 2 4 ) ,要进行有效的过程监控,首先要解决主元个数选择的 问题。通常考虑一种累计方差百分比( c 啪u l a t i v ep e r c e n t i a n c e ,c p v ) 的方法【1 5 】,它是 通过计算前后个主元对数据解释程度的累积贡献率来确定主元的个数: c p 圪= - 0 ( 2 5 ) i - l = l 一般选择9 5 9 9 的百分比来确定主元的个数。 其次是过程监控统计量的选择,一般常用的统计量有丁2 统计量和即e ( s q u a r e d p r e d i c t i o ne 订o r ) 统计量。第f 时刻其值分别为: z 2 = t 允- 1 ,= x ( f ) 尸允- 1 尸7 x ( f ) r ( 2 6 ) 卯e = 愀f ) 一是( 邢 ( 2 7 ) x ( ,) 为,时刻过程的采样,曼( f ) 为f 时刻主元模型的输出,f 。是得分矩阵丁中的第f 行,九 是由与前七个主元所对应的特征值所组成的对角矩阵。丁2 统计量是通过主元模型内部的 主元向量模的波动来反映多变量过程变化的情况,而艘e 统计量则代表了数据中没有被 主元模型所解释的变化。换言之,丁2 统计量是监控数据特征子空间的变化,而s p e 统 计量则是重点监控数据补空问的变化。 最后是统计量的求取。如果统计量偏大,超出了一定的范围,说明过程中出现了不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论