(控制理论与控制工程专业论文)贝叶斯方法在化工软测量建模中的应用研究.pdf_第1页
(控制理论与控制工程专业论文)贝叶斯方法在化工软测量建模中的应用研究.pdf_第2页
(控制理论与控制工程专业论文)贝叶斯方法在化工软测量建模中的应用研究.pdf_第3页
(控制理论与控制工程专业论文)贝叶斯方法在化工软测量建模中的应用研究.pdf_第4页
(控制理论与控制工程专业论文)贝叶斯方法在化工软测量建模中的应用研究.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 贝叶斯学习理论使用概率表示各种形式的知识和不确定性,并通过概率规则来实现 学习和推理过程,是处理不确定信息的有力工具。本文在学习贝叶斯方法的理论及其应 用基础上,详细讨论了贝叶斯方法在数据分类中的应用以及贝叶斯方法在化工软测量建 模的应用。 本文就以上主要内容进行了深入的研究并取得了以下结果: ( 1 ) 软测量建模问题中为了提高模型的估计精度,通常需要将原始数据集分类,以 构造多个子模型。本文利用朴素贝叶斯分类器简单高效的优点,首先对连续的类变量进 行类别范围划分,然后用概率论中的“30 规则对连续的属性变量离散。为了消除训 练样本中干扰数据的影响,利用遗传算法从训练样本集中优选样本。对连续变量的离散 和样本的优选作为对数据的预处理,最后由预处理后的训练样本构建贝叶斯分类器。通 过对u c i 数据集和双酚a 生产过程在线监测数据集的实验仿真,实验结果表明:基于 遗传算法优选样本集的“30 ”规则朴素贝叶斯分类方法比其它方法有更高的分类精度。 ( 2 ) 将贝叶斯网络应用于化工软测量建模。在综合考虑生产过程工艺机理的基础上 利用领域专家知识构建网络模型,采用加权联合高斯分布函数来近似表达贝叶斯网络模 型中的联合概率分布,并给出了贝叶斯网络估计公式。对某企业双酚a 生产装置在线采 集的数据进行建模,离线估计取得了较好的效果。与支持向量机方法相比,在估计精度 相当的情况下,省去了许多过程参数的估计,因此也是一种有效的软测量建模方法。 ( 3 ) 为了改善软测量模型的估计精度,提出了一种基于贝叶斯分类算法和关联向量 机的多模型软测量建模方法。采用贝叶斯分类器对样本数据集进行分类,并对不同类别 的输入数据分别建立关联向量回归机子模型,用“切换开关 方式组合作为最终的软测 量模型输出。将该方法应用于双酚a 生产过程的质量指标软测量建模,仿真结果表明: 与单模型支持向量机相比,该方法估计精度较高,具有一定的应用价值。 关键词:软测量;朴素贝叶斯分类器;“30 ”规则;贝叶斯网络;混合高斯模型; 关联向量机 a b s t r a c t a b s t r a c t b a y e s i a nl e a r n i n gt h e o r yr e p r e s e n t s v a r i o u sk n o w l e d g ea n du n c e r t a i n t yw i t h p r o b a b i l i t y t h el e a r n i n ga n di n f e r e n c ea r er e a l i z e db yp r o b a b i l i s t i cr u l e s t h e r e f o r e ,i ti sa s t r o n gt o o ld e a l i n gw i t hu n c e r t a i ni n f o r m a t i o n t h i st h e s i sm a i n l ys t u d i e st h eb a s i cp o i n t , a p p l i c a t i o no fb a y e s i a nl e a r n i n gt h e o r y t h ea p p l i c a t i o no fd a t ac l a s s i f i c a t i o na n dt h es o f t s e n s o rm o d e lb a s e do nb a y e s i a nm e t h o da r em a i n l ys t u d i e da st h ek e yp r o b l e m t h i sd i s s e r t a t i o nc o n c e n t r a t e do nt h er e s e a r c hw o r kl i s t e db e l o wa n da c h i e v e ds o m e c r e a t i v er e s u l t s ( 1 ) c o n s t r u c t i n gs u b m o d e l sc a ni n c r e a s ee s t i m a t i o na c c u r a c yi ns o f ts e n s i n gm o d e l i n g , a n dt h ec o n s t r u c t i o no fm u l t i m o d e li sb a s e do nt h ec l a s s i f i c a t i o no ft h eo r i g i n a ld a t as e t a m o n gt h em e t h o d so fd a t ac l a s s i f i c a t i o n ,n a i v eb a y e s i a nc l a s s i f i e rh a sb e e nw i d e l ya p p l i e d b e c a u s eo fi t ss i m p l i c i t ya n de f f i c i e n c y t h ec o n t i n u o u sc l a s sv a r i a b l e sa r ef i r s t l yd i v i d e di n t o s e v e r a lc a t e g o r i e s ,t h e nt h e ”3o r ”r u l eb a s e do np r o b a b i l i t yt h e o r yi sp r o p o s e dt od i s c r e t i z et h e a t t r i b u t e s i no r d e rt oe l i m i n a t et h ei n t e r f e r e n c e sf r o mt h et r a i n i n gs a m p l e ,t h eo p t i m a ls u b s a m p l e s e ti ss e l e c t e df r o mt h et r a i n i n gs a m p l es e tb yg e n e t i ca l g o r i t h m f i n a l l yt h e p r e p r o c e s s e dt r a i n i n gs a m p l ei su s e dt ob u i l dt h eb a y e s i a nc l a s s i f i e r b o t hu c i d a t as e t sa n d t h eo n l i n em o n i t o r i n gd a t as e t sf r o mt h ep r o c e s so fp r o d u c t i o nf o rb i s p h e n o l a ( b p a ) a r e m a d ee x p e r i m e n t ,a n dt h es i m u l a t i o nr e s u l t ss h o wt h a ti ti sp o s s i b l et or e l i a b l yi m p r o v et h e n a i v eb a y e s i a nc l a s s i f i e r b yu s i n g d a t a d i s c r e t i z a t i o na n ds e l e c t e da s p a r t o fd a t a p r e p r o c e s s i n g ( 2 ) an e wa p p r o a c hb a s e do nb a y e s i a nn e t w o r ka p p l i e dt oc h e m i c a ls o f ts e n s o ri s p r o p o s e d t h en e t w o r km o d e li sb a s e d o nk n o w l e d g eo ft h ef i e l de x p e r t sa n dt h em e c h a n i s m o fp r o c e s s ,a n daw e i g h t e dc o m b i n a t i o no fs e v e r a ln o r m a ld i s t r i b u t i o nf u n c t i o n si su s e dt o a p p r o x i m a t et h ejo i n tp r o b a b i l i t yd i s t r i b u t i o ni nb a y e s i a nn e t w o r k ,a n dt h e nt h ee s t i m a t e d f o r m u l af o rb a y e s i a nn e t w o r ki sb e e ng i v e n t h ep a r a m e t e r so ft h em o d e la r ee s t i m a t e db y p r o c e s s i n gr e a lt i m ed a t af r o map r o d u c t i v ep l a n tf o rb i s p h e n o la ,a n dt h em o d e lb a s e do n b a y e s i a nn e t w o r ks h o w sg o o dr e s u l t s c o m p a r e dw i t hs u p p o r t v e c t o rm a c h i n e ,t h eb a y e s i a n n e t w o r ks a v e sal o to ft h ee s t i m a t e dp r o c e s sp a r a m e t e r sa n dh a sc o n s i d e r a b l ea c c u r a c y i ti sa n e f f e c t i v em e t h o df o rs o f ts e n s o rm o d e l i n g ( 3 ) i no r d e rt oi m p r o v et h ee s t i m a t i o na c c u r a c yo ft h es o f ts e n s o rm o d e l ,an e w n o n l i n e a r m u l t i m o d e l i n gm e t h o db a s e d o nb a y e s i a nc l a s s i f ya l g o r i t h ma n dr e l e v a n c ev e c t o rm a c h i n ei s p r o p o s e di nt h ep a p e r t h ea l g o r i t h mc l a s s i f i e st h ei n p u t sb yb a y e s i a nc l a s s i f i e r , a n dt h e n t r a i n se a c hc l a s sb yd i f f e r e n tr e l e v a n c ev e c t o rr e g r e s s i o nm a c h i n e s ,a n do b t a i n st h ef i n a lr e s u l t b yt h e “s w i t c h ”w a y t h ep r o p o s e da l g o r i t h mi s u s e df o ras o f ts e n s o rm o d e lf o rt h e b i s p h e n o l ap r o d u c t i v ep r o c e s s t h ee x p e r i m e n t a lr e s u l t si n d i c a t et h ep r o p o s e da l g o r i t h mi s s u p e r i o rc o m p a r e dw i t ht h es i n g l em o d e lo fs v m a n dh a sc e r t a i na p p l i c a t i o nv a l u e k e yw o r d s :s o f t s e n s i n g ;n a i v eb a y e s i a nc l a s s i f i e r ;“3 0 ”r u l e ;b a y e s i a nn e t w o r k ; g a u s s i a nm i x t u r em o d e l ;r e l e v a n c ev e c t o rm a c h i n e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 本人为获得江南大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明 确的说明并表示谢意。 签名: ,围丑型日期:明年7 月留日 关于论文使用授权的说明 本学位论文作者完全了解江南大学有关保留、使用学位论文的规 定:江南大学有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文,并且本人电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 签名: 围蕴鲨导师签名: 日期:0 7 年9 月砑日 第一章绪论 第一章绪论 1 1 课题研究背景及研究意义 ( 1 ) 课题研究背景 在工业过程中,为了保证产品的质量和生产操作的连续平稳,需要对与品质密切相 关的过程变量进行实时监视和控制。然而在实际过程中存在一大类变量无法或难以用传 感器直接检测,只能通过采样离线人工化验的方法得到,如分馏塔产品组份浓度、粗汽 油干点、化学反应器中反应物浓度和产品分布等。这些参数直接或间接地反映了生产过 程的状态和产品质量,是工业生产过程中必须加以严格监视和控制的参数。但是,离线 实验室分析往往存在长时间滞后的问题,无法满足在线实时控制和优化操作的要求。 为了保证生产过程的正常进行和获取最大的经济效益,从前简单的、局部的、常规 的控制方法已不能满足现代生产工艺的要求。纵观当今工业过程控制技术,解决这类难 题以实时测量变量的主要方法为间接质量指标控制法与直接测量法【l j ,但这两种方法都 存在一定的不足。前者要求必须对工艺的机理认识深刻并清楚生产工艺过程,然而精度 不高,而且存在较大的局限性;后者利用在线分析仪直接测量所需参数,但是,在线分 析仪投资大、维护难、分析周期长、测量滞后大、准确率低等原因,所以其使用率低, 同时难以提供实时正确信息作为质量控制的反馈信号。为了解决这类变量的测量,众多 学者与专家提出利用软测量技术对其估计与控制拉圳。软测量技术的发展已有三十多年 的历史,并且理论上取得很大的发展,在工业过程控制中得到了良好的应用。然而,工 业过程往往呈现出高度的非线性和时变性,除了某些简单的物理和化学状态变量( 如温 度、p h 值、压力等) 外,绝大多数的状态变量很难在线测量,这给软测量建模提出了许 多问题。模型的准确性与精度决定软测量模型对变量估计的成败,模型的失效或精度不 满足要求都将失去建模的意义。因此,对软测量技术模型的建立具有十分重要的理论意 义和应用价值。 ( 2 ) 课题研究意义 本文主要针对某石化厂双酚a 的生产过程进行在线软测量。其工业用途是:制造环 氧树脂、聚碳酸酯( p c ) 、聚砜树脂等的重要原料,也用于制各抗氧剂、稳定剂、增塑剂、 橡胶防老剂、油漆、油墨、农药等。以双酚a 为原料的多种聚合物材料及多种制剂在化 工、轻工、电子仪表、机电、交通运输、建筑、军事、航空航天工业等现代科学技术的 各个领域中得到了广泛的应用。双酚a 产品对新型合成材料的制造、应用和发展有着重 要的意义。其工艺机理过程是:双酚a 重整反应【5 ,6 j 是把裂解后生成苯酚、对异丙烯基苯 酚( p i p h ) 等轻组份母液,分馏、冷凝、稀释后送入重整反应器,经重整生成双酚a 。为 了保证双酚a 产品质量,特别是达到聚碳级要求,该工艺操作至关重要。因此,必须对 重整反应生成的双酚a 的含量进行在线测量,但是在实际生产中,双酚a 含量无法在线 分析,通常一天只能得到一组人工分析值,远远不能满足控制要求,如何实现双酚a 含 量的在线估计将是我们面临的重要课题。 江南人学硕十学位论文 基此,本文采用软测量技术对双酚a 生产过程的质量指标进行软测量建模,将贝叶 斯方法应用于该过程的软测量模型的建立,以实现对双酚a 质量指标的实时预测。 1 2 软测量技术应用在化工建模中的现状与发展趋势 1 2 1 软测量技术应用在化工建模中的现状 生产技术的发展和生产过程的同益复杂,确保了生产装置安全、保证产品质量,推 动了产品质量的直接闭环控制、质量约束和安全约束控制的广泛应用,对产品质量指标 等目前还不可测的生产装置重要过程变量提出了实时测量的迫切要求。可是在许多生产 装置的这类重要过程变量中,大部分由于技术或是经济上的原因,很难通过传感器进行 测量,为了解决这些问题,逐步形成了软测量方法及其应用技术。早在2 0 世纪7 0 年代 b r o s i l l o w 提出推断控制的思想并给出了软测量技术的雏形,其基本思想别7 j :针对难于 测量或暂时不能测量的重要变量( 或称之为主导变量) ,选择另外一些容易测量的变量( 或 称之为辅助变量) ,通过构成某种数学关系来推断和估计,其实质就是建立辅助变量与 主导变量的关系模型。8 0 年代中后期软测量技术作为个概括性的科学术语被提出, 1 9 9 2 年,国际过程控制专家t j m a c o v y 在著名学术刊物a u t o m a t i c a 上发表一篇名为 “c o n t e m p l a t i v es t a n c ef o rc h e m i c a lp r o c e s sc o n t r o l 的i f a c 报告,明确指出软测量技 术将是今后过程控制的主要发展方向之一。 软测量的工作原理,就是在常规检测的基础上,利用辅助变量与主导变量的关系, 通过软件计算,得到主导变量的估计值,现在研究和应用的软测量方法有许多种,按其 建模方法来分,具体可概括为以下两大类 8 - 1 0 】: ( 1 ) 基于过程机理模型方法 基于工艺机理分析的软测量建模主要是运用化学反应动力学、物料平衡、能量平衡 等原理,通过对过程对象的机理分析,找出不可测主导变量与可测辅助变量之间的关系, 从而实现对某一参数的软测量。对于工艺机理较为清楚的工艺过程,该方法能构造出性 能良好的软仪表。但是对于机理研究不充分、尚不完全清楚的复杂工业过程,难以建立 合适的机理模型。此时该方法就需要与其它参数估计方法相结合才能构造软仪表。这种 软测量建模方法是工程中常用的方法,其特点是简单、工程背景清晰、便于实际应用, 但应用效果依赖于对工艺机理的了解程度,因为这种软测量方法是建立在对工艺过程机 理深刻认识的基础上,建模的难度较大。 ( 2 ) 基于非机理模型的方法 这是软测量技术得到系统研究和能够形成通用的软测量技术的途径,因此该类型的 软测量技术受到较多的研究,并形成了各种类型的方法,下面仅介绍在化工过程获得较 为广泛应用的三种类型的方法。 a 基于回归分析的软测量建模 对于许多实际的化工过程,虽然没有确定的待测变量与辅助变量的数学模型,但可 以得到大量的待测变量与辅助变量的实际数据,以这些数据作为样本,应用统计分析中 的回归分析方法可以得到化工过程的软测量模型,常用的统计分析方法有多元线性回归 2 第一章绪论 ( m u l t il i n e a rr e g r e s s i o n ,m l r ) 、主元分析法( p r i n c i p a lc o m p o n e n tr e g r e s s i o n ,p c r ) 、部 分最d - 乘法( p a r t i a ll e a s ts q u a r e sr e g r e s s i o n ,p l s ) 等。 工业过程中常通过对生产过程历史数据的回归分析,建立质量指标的软测量模型, 在线估计产品质量】。回归分析法算法简单,是建立软测量模型的最常用方法之一,但 它需要较多的数据样本,且对测量误差比较敏感。陈渭泉等【1 2 】提出基于贝叶斯方法预测 p t a 氧化过程4 一c b a 浓度的软测量模型,模型考虑了时间之后的影响。对数据进行必 要的预处理后,建立贝叶斯线性统计模型性能高。利用贝叶斯方法进行变量和节点的选 择,最后根据最小二乘法建立最终的软测量模型。预测结果证明该模型泛化性能好,具 有较高的实际应用价值。 b 基于人工神经网络的软测量建模 基于人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k , a n n ) 的软测量建模方法是近年来研究 较多、发展很快和应用范围很广泛的一种软测量建模方法。其特点是不需要机理模型, 通过样本( 历史数据) 的学习,建立a n n ,然后以过程可测变量作为a n n 的输入,进行 不可测变量的在线计算,最近,a s p e nt e c h 、h o n e y w e l l 等公司都推出了基于神经元网 络软测量技术,用实验室化验分析数据或在线分析仪数据来校正模型。但神经网络在化 工软测量建模过程中存在着网络结构需要事先指定或应用启发式算法;网络权系数的调 整方法存在局限性,表现在训练可能过早结束、权值衰退等;容易陷入局部最小,有些 训练算法甚至不能得到最小以及过分依赖学习数据的质量和数量,模型性能的好坏取决 于模型训练过程中样本数据的数量和质量等诸多问题。为了提高神经网络建模的准确性 和实时性,出现了支持向量机的软测量建模方法【l 3 。 c 基于回归支持向量机的方法 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 最初是由v a p n i k 1 4 j 提出的一种新兴的基 于统计学习理论的学习机,已成为当前机器学习领域的一个研究热点。它采用结构风险 最小化准则,在有限样本情况下,得到现有信息下的最优解而不仅仅是样本数趋于无穷 大时的最优值,解决了一般学习方法难以解决的问题,如神经网络的局部最小问题、过 学习以及结构和类型的选择过分依赖于经验等固有的缺陷问题,从而提高了模型的泛化 能力。另外支持向量机把机器学习问题归结为一个二次规划问题,因而得到的最优解不 仅是全局最优解,而且具有唯一性。s v m 方法最早是针对模式识别问题提出的,v a p n i k 通过引入e 不敏感损失函数,将其推广应用到非线性回归估计中,得到了用于回归估计 的标准s v m 方法。由于软测量建模与般数据回归问题之间存在着共性,支持向量机 方法应用于回归估计问题取得不错的效果应用5 | ,促使人们把眼光投向工程应用领域, 提出不少建立基于回归支持向量机的软测量建模方法【1 6 以8 1 。 1 2 2 软测量技术进一步研究与展望 软测量建模方法虽然经过多年的发展有了很多成果,但仍有许多问题有待于进一步 研究。软测量建模方法进一步研究的方向有以下几种【l 州: ( 1 ) 将新兴的技术用于软测量建模 目前虽然出现了众多软测量建模方法,但仍不能满足实际需要。将一些新兴的技术 江南人学硕士学位论文 用于软测量建模,建立基于新兴技术的软测量模型仍是目前研究的热点。如:将神经网 络、微粒群优化算法、遗传算法、贝叶斯方法等新兴技术用于软测量建模,建立性能更 好的软测量模型。亦可以将小波分析、推断控制等许多先进控制算法和信号处理理论和 方法应用到软测量技术中,对测量信号进行分析和处理,从而计算出许多化工过程中无 法直接测量的变量值。 ( 2 ) 将不同的方法相互融合建立混合模型或多模型 由于实际系统的复杂多变,往往来说,一种方法建立的模型难以满足要求。如果结 合实际系统的机理分析和实际情况,将不同的方法相互融合,建立混合模型,这一建模 方法是值得研究的方向。 特别是来自实际化工过程中的数据,其数据特点是含有噪声,首先对数据进行预处 理,针对传统的单一模型精度及泛化能力不高,多模型的思想将是一个重要的研究方向。 ( 3 ) 动态软测量模型研究 经过十几年的发展,软测量技术无论是在理论研究还是在十几应用中均取得了较大 成功,然而至今为止的大部分研究都是针对静态软测量模型。为了进一步提高软测量模 型精度和鲁棒性,动态软测量模型是今后任务研究方向之一。 综上所述,软测量技术作为一种新型的过程参数检测技术为解决复杂化工过程的参 数检测问题提供了一条有效的途径。它将数学建模、人工智能、先进控制理论和信息处 理理论应用到测量技术中,能够建立准确的复杂化工过程测量模型。可以预计,软测量 技术不仅现在是化工测量技术研究热点,也必将成为未来化工检测领域中的一个重要研 究发展方向。 本文在研究贝叶斯理论和方法的基础上将其应用于化工软测量建模。运用贝叶斯网 络实现双酚a 含量的在线软测量;针对单一模型的精度及泛化性能不高,将多模型引进 建模过程中。特别对数据存在噪声时,先对数据进行预处理,同时将数据进行分类这一 步骤又为多模型的建立奠定基础。接下来的章节将给予详细介绍并给出仿真结果。 1 3 贝叶斯方法的应用 贝叶斯方法是基于贝叶斯公式而发展起来的用于系统地阐述和解决统计问题的方 法。其理论的奠基性工作是十八世纪英国学者托马斯贝叶斯( r e v e r e n dt h o m a sb a y e s 1 7 0 2 1 7 6 1 ) 的论文“关于几率性问题求解的评论”中所提出的著名贝叶斯公式及其推理 方法。著名的数学家p s l a p l a c e 用贝叶斯方法导出了重要的“相继律”,贝叶斯方法和 理论才逐渐被人们理解和重视起来。二十世纪初,意大利的b f i n e t t i 和英国的h j e f f r e y s 等都对贝叶斯学派的理论作出了重要的贡献。特别是二十世纪八十年代以后,人工智能 的发展,尤其是及其学习、数据挖掘的兴起,为贝叶斯理论的发展和应用提供了更为广 阔的空间l 2 u 1 。 和其他方法不同,贝叶斯方法在观测到数据之前,统计学家在可能的模型中以概率 的术语考虑了相信程度,在观测到数据之后,贝叶斯公式允许我们考虑一套新的概率。 它代表了重新估计的关于模型的相信程度,并计入了由数据得到的新的信息。最初的概 4 第一章绪论 率称为先验的,而重新估价的称为后验的。显然,这些概念涉及一组特别的数据,今天 用的概率相当于昨天为后验的,而相对于明天的数据则是先验的。 贝叶斯方法可以利用下面的图来说明: 图卜l 贝叶斯方法结构图 f i g 1 1t h es t r u c t u r eo fb a y e sj a nm e t h o d 目前,贝叶斯方法的研究主要集中在以下几个方面:贝叶斯网络应用于数据分类和 预测( 包括动态贝叶斯网络应用于预测) ,贝叶斯动态模型,基于稀疏贝叶斯的关联向量 机回归建模。本文就贝叶斯网络在数据分类和回归建模中的应用以及稀疏贝叶斯的关联 向量机回归建模分别给予介绍。 1 3 1 贝叶斯网络在数据分类和回归建模中的应用 ( 1 ) 贝叶斯分类 分类有规则分类( 查询) 和非规则分类( 有指导学习) 。贝叶斯分类是非规则分类,它 通过训练集( 己分类的例子集) 训练( 学习) 而归纳出分类器( 被预测变量是离散的称为分 类,连续的称为回归) ,并利用分类器对没有分类的数据进行分类【2 。贝叶斯分类器家 族中有代表性的分类器有:朴素贝叶斯分类器、树扩张型贝叶斯分类器、贝叶斯网络分 类器。 朴素贝叶斯分类器是贝叶斯网络分类器的一种特殊形式。朴素贝叶斯分类器【2 2 】它是 贝叶斯分类模型中一种最简单、有效的而且在实际使用中很成功的分类器,其性能可以 与神经网络、决策树相媲美。朴素贝叶斯分类模型基于假定特征向量的各分量间相对于 决策变量是相对独立的,即条件独立性假设。尽管这一假设在一定程度上限制了朴素贝 叶斯分类模型的适用范围,但在实际应用中,降低了贝叶斯网络结构的复杂性。朴素贝 叶斯分类模型仍有需要改进的地方,条件独立性假设在一定程度上限制了朴素贝叶斯分 类模型的使用范围,因此人们开始研究放松独立性条件的限制,以提高朴素贝叶斯分类 器的分类性能。为了突破朴素贝叶斯分类器的独立性假设条件的限制,人们通过改变其 结构假设的方式来达到目的。例如半朴素贝叶斯分类器( s e m i n a i v eb a y e s i a nc l a s s i f i e r , s n b c ) 、树扩张型贝叶斯分类器( t r e e a u g m e n t e db a y e s i a nc l a s s i f i e r , t a n ) 及增强型贝叶 斯分类器( b a y e s i a nn e t w o r ka u g m e n t e dn a i v eb a y e s ,b a n ) 等。 贝叶斯分类模型是一种典型的基于统计方法的分类模型。贝叶斯定理是贝叶斯理论 中最重要的一个公式,是贝叶斯学习方法的理论基础,它将事件的先验概率与后验概率 5 江南人学硕+ 学位论文 巧妙地联系起来,充分利用先验信息和样本数据信息确定事件的后验概率。本文将在第 三章介绍了常用的几种贝叶斯分类器,并重点介绍了朴素贝叶斯分类器在数据分类中应 用。 ( 2 ) 贝叶斯网络 贝叶斯网络【2 3 l ( b a y e s i a nn e t w o r k s ,b n ) 是目前不确定知识和推理领域最有效的理论 模型之一,已成为人工智能领域的研究热点。“贝叶斯网络这一术语是在1 9 8 8 年由 p e a r l 在论文中提出的,奠定了贝叶斯网络的理论基础,二十世纪9 0 年代后期h e c h e r m a n 把贝叶斯网络用于数据挖掘【2 引,它能很好地表示变量之间的随机性、不确定性和相关性。 贝叶斯网络可以用于分类、聚类、人工神经网络、预测和因果关系分析等,具有很强大 的学习、推理能力,能很好地利用先验知识。 贝叶斯网络的特点 2 l 】:能够真正有效处理不完整数据;和其他技术相结合能够进行 因果分析;能够使先验知识和数据有机的结合;能够有效地避免对数据的过渡拟合。构 造贝叶斯网络( 先验贝叶斯网络) 一般分为三个步骤,首先是确定变量集,之后是确定网 络结构,最后是确定局部概率分布( 或局部密度函数) 。 目前贝叶斯网络的研究主要集中在结构和参数学习两个方面。结构学习:利用样本 数据集和先验知识且定贝叶斯网络的拓扑结构;参数学习:给定网络拓扑结构后,通过 样本数据集确定网络的参数即局部概率分布。文献 2 5 提出将贝叶斯网络应用于牛奶产 量的预测,文献 2 6 将贝叶斯网络应用于交通流量的预测,文献 2 7 】为了预测高炉铁水 硅含量采用贝叶斯网络方法,都取得了较好的预测效果。本文将在第四章重点介绍贝叶 斯网络应用于双酚a 的在线软测量。 1 3 2 稀疏贝叶斯方法在软测量回归建模中的应用 关联向量机【2 8 l ( r e l e v a n c ev e c t o rm a c h i n e ,r v m ) 是由t i p p i n g 在2 0 0 0 年提出的一种 基于稀疏贝叶斯学习方法,具有和s v m 相同的核函数形式。人们对贝叶斯方法已研究 了很多年,但仅在近些年才广泛地应用于信息提取、数据挖掘、数据分析以及软测量回 归建模等各个领域,这主要是高速计算机的快速发展解决了边缘概率积分的复杂计算问 题。更进一步,马尔科夫链蒙特卡罗( m a r k o v c h a i nm o n t e c a r l o ,m c m c ) 方法、期望 最大化( e x p e c t a t i o n m a x i m i z a t i o n ,e m ) 算法以及最近关于边缘概率计算的近似算法如变 元推理等,大大地扩展了贝叶斯的应用领域。 目前应用的实例较少,孙宗海等【2 9 j 提出将关联向量机应用在微生物发酵传感器故障 诊断中,采用两个关联向量机,一个用于产生残差即用关联向量机进行回归建模,个 作为分类器来获得故障诊断的结果,其仿真实验表明该方法可以有效地诊断传感器的故 障的。张旭东等【3 0 】提出将稀疏贝叶斯方法应用与时间序列的预测,并与支持向量机和 r b f 神经网络时间序列预测进行比较,该方法不仅具有s v m 的性能,而且比s v m 使 用更少的核函数,取得了较好的预测效果。朱世增等f 3 1 j 提出了基于关联向量机的非线性 动态系统辨识,该方法避免了支持向量机的非线性系统辨识的模型结构难于确定的问 题,与支持向量机辨识方法相比较,其辨识的模型结构更简洁。陈型3 2 j 提出基于贝叶斯 学习的关联向量机应用在p t a 装置溶剂脱水塔塔顶塔底组份的软测量建模,其仿真结 6 第一章绪论 果表明该方法预测精度较高,具有一定的应用价值。 1 4 本文的内容组织 本文由六章组成: 第一章:绪论 主要介绍了课题的研究背景以及研究意义,接着给出了软测量技术在化工过程中建 模的研究现状与发展趋势,然后介绍了贝叶斯方法在数据分类以及回归建模中的应用前 景,最后简要给出了文章的组织结构。 第二章:数据预处理及多模型思想 介绍了在建立软测量模型之前的准备工作:数据预处理以及多模型思想,并且阐述 了它们在软测量建模中作用以及处理方法。 第三章:贝叶斯方法在数据分类中的应用 应用朴素贝叶斯分类器对数据进行分类。提出了一个对连续属性变量进行离散化的 方法概率论中的“3o ”规则。同时为了消除训练样本中干扰数据的影响,利用遗 传算法从训练样本集中优选样本。对连续变量的离散和样本的优选作为对数据的预处 理,最后由预处理后的训练样本构建贝叶斯分类器。 第四章:基于贝叶斯网络的双酚a 含量在线软测量 本章是本文的核心内容。在综合考虑双酚a 生产过程工艺机理的基础上利用领域专 家知识构建网络模型,采用加权联合高斯分布函数来近似表达贝叶斯网络模型中的联合 概率分布,并给出了贝叶斯网络估计公式。仿真结果表明,与支持向量机方法相比,在 估计精度相当的情况下,省去了许多过程参数的估计,因此也是一种有效的软测量建模 方法。 第五章:基于贝叶斯分类器的关联向量机软测量建模 本章是本文的核心内容。根据多模型可以改善模型估计精度,提出了基于贝叶斯分 类器对样本数据进行分类,并对不同类别的输入数据分别建立关联向量回归机模型 一种与支持向量机函数形式相同的稀疏概率模型。将该方法应用于双酚a 生产过程的质 量指标软测量建模,仿真结果表明:在相同实验条件下,与标准支持向量机比较,该方 法估计精度较高,具有一定的应用价值。 第六章:总结与展望 对已做的工作进行总结,指出了本文的研究成果并对下一步的工作进行了探讨与展 望。 7 第二章数据预处理及多模型思想 第二章数据预处理及多模型思想 2 1 数据预处理 软测量建模实质是一个数据挖掘过程。不论数据挖掘的目标是分类、预测,还是聚 类或者关联分析、序列分析,其基本过程可分为:问题定义、数据预处理、数据挖掘以 及结果的解释和评估等阶段。目前,软测量建模的研究主要集中在建模方法的研究上( 具 体参见第一章1 2 节的内容) ,在建模之前的数据预处理上研究涉及较少,而数据挖掘过 程中的数据预处理至关重要。 2 1 1 数据预处理在化工过程建模中的必要性 在化工过程和很多其他的工业应用领域中,建立准确的系统模型对于实施先进控制 是非常重要的,但由于大多数系统特别是化工过程存在机理复杂、高度非线性、强耦合、 大时滞等特点,使得建模效果的好坏依赖于样本的数量和质量。一般来说,建模对象的 样本数量是有限的,如何让这些有限的数据准确、完整地描述对象,即如何提高样本数 据的质量是建模的一个关键步骤。文献 3 3 指出对数据进行有效的预处理辅助变量 选择、数据采集、数据校正、输入数据降维等,可以改善模型的精确度。所以软测量模 型建立的前期工作数据预处理不能忽略。 数据预处理的重要性体现在以下三个方面【3 4 1 :( 1 ) 数据挖掘算法对数据集合都有一定 要求,原始数据不能直接用于挖掘,即使挖掘算法能处理不完全的、有噪声的数据,其 鲁棒性也很差;( 2 ) 数据预处理工作量比纯粹的挖掘过程要大得多,前者约占整个数据挖 掘过程的6 0 左右,而后者只占1 0 左右;( 3 ) 数据预处理对挖掘算法的执行影响很大, 实际系统中的大量数据存在不完整性、冗余性和模糊性,这会严重干扰甚至误导挖掘结 果。 2 1 2 数据预处理所涉及的内容和处理方法 本节的数据预处理工作是在数据校正的基础上,所谓数据校正就是从测量的数据中 剔除过失误差并降低随机误差对测量值的影响。具体的过失误差及随机误差处理参见文 献 3 3 1 。数据预处理主要涉及数据清理和数据归约两大部分,下面介绍其处理方法: 一、数据清理 在选择某种方法或几种方法混合建立软测量模型前,面临的首要问题就是样本数据 的清理工作,其包含下面两个过程【j 4 j : ( 1 ) 缺失数据处理 删除该记录。除非无法填补遗漏数据,一般不要轻易删除属性值缺失的记录。 手工填补。工作量大,可操作性差。 采用默认值、平均值或者同类别平均值填补。这种方法有可能对数据挖掘产生误 导。 通过回归分析、贝叶斯方法或决策树推断该记录特定属性的最有可能取值。这类 9 江南人学硕十学位论文 方法最大程度地利用现有的数据信息来推测遗漏数据值,因而效果最好。 ( 2 ) 噪声数据处理 噪声是指被测量的随机错误或偏差,包括错误的值或偏离期望的孤立点。可以用一 下技术来平滑噪声数据,识别和删除孤立点。 分箱法:将存储的值分布到一些箱中,通过考察“邻居”来局部平滑存储数据的 值。可以采用按箱的平均值、中值或箱边界值进行平滑。 聚类:将类似的值组织成群或“聚类”,落在聚类集合之外的值被视为异常数据。 对于异常数据,如果是垃圾数据,则予以清除,否则保留作为重要数据进行孤立点分析。 回归方法:利用拟合函数来平滑数据,帮助除去噪声。例如:线性回归、多元回 归等。 人机结合检查方法:首先由计算机识别并输出那些差异程度大于某个阈值的数据, 然后人工审核这些数据,确定孤立点。这种方法比单纯的人工检查要快。 二、数据归约 ( 1 ) 辅助变量的初选 经过缺失数据处理和噪声数据处理后,首先要进行辅助变量的选择作为模型的输 入,辅助变量的选择包括变量的类型、数目和检测点位置等,他们相互关联、相互影响, 受到多方面因素的影响和制约。本文针对双酚a 生产过程的质量指标进行软测量建模, 建立的是一个m i s o 系统模型,通常是根据系统的机理分析进行的。对于有n 个辅助变 量的实体来说,其可能的候选辅助变量个数为【3 5 】: 盟 n = :( 珂一1 ) ! ( 尼k ( 疗一k 一1 ) ! ) ( 2 1 ) 西 随着n 的增大,增长得非常快。其目的在于找出最小候选集( 辅助变量个数) ,即 含有最少属性的候选集。大体上有3 种方法来产生这些候选集。 a 穷举法 穷举法是给出所有的属性组合。从单属性开始,然后是两个属性的组合,直至发现 能通过冲突检测的属性集为止。如果不是很大,穷举法工作得非常好,其优势在于一 旦找到候选集,即可停止工作,并且其候选集一定是最小的。 b 启发式搜索 如果领域知识可以提供某些倾向性,比如确定某些属性组合一定不是候选集,从而 使我们可以预选将之剔除,则可以考虑采用启发式搜索,将所有可能的候选集按其可能 性从大到小排列。其优势在于可以提高运行速度,缺陷在于其结构可能不是最小候选集。 c 随机搜索 如果没有领域知识可采用,则可以考虑采用随机抽取属性集。 ( 2 ) 属性约简 从理论上讲样本辅助变量个数越多越能使得建模取得的效果越好,但是辅助变量个 数越多,其训练时间越长,考虑到在辅助变量个数减少但模型精度不减的情况下,对模 型的属性约简是必要的。 1 0 第二章数据预处理及多模型思想 在实际生产中,为了全面分析问题常常提出许多与输出有关的变量,每个变量都在 不同程度上反映了过程的某些信息,但往往它们之间有定的相关关系,太多变量构成 的高维数据使得建模问题复杂化,同时如果众多的变量问还存在错综复杂的相关关系, 则又会给建模带来困难。主元分析( p r i n c i p a lc o m p o n e n t sa n a l y s i s ,p c a ) ,是一种统计相 关分析技术【3 6 1 ,在进行建模前,通过p c a 方法找出几个公共的支配因素,最大限度保 留有用信息,滤去冗余信息,然后按主元贡献率选取合适的主元数目进行过程建模,将 会大大简化模型结构和建模工作量【3 7 1 。 ( 3 ) 数据的归一化 由于来自现场的数据各个属性值的量纲和单位不同,为了消除这些因素的影响,就 要对数据进行归一化,所谓数据的归一化是指将数据映射到某一个较小的特定区间,一 般是o 0 1 0 区间。其公式可以表达为: 矗:j d ( 2 ,l ) 一一 i 二, x m a x 一x m 血 其中,x 是当前属性值,x 。积,石晌分别为该属性值里的最大值和最小值。x 是归一化以 后的属性值。特别注意的是在建模过程中所选取的训练样本,有的属性最大值往往没有 测试样本的属性值大,属性最小值往往也没有测试样本的属性值小,这就要对训练样本 的属性最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论