(农业电气化与自动化专业论文)基于支持向量机的生物发酵软测量技术研究.pdf_第1页
(农业电气化与自动化专业论文)基于支持向量机的生物发酵软测量技术研究.pdf_第2页
(农业电气化与自动化专业论文)基于支持向量机的生物发酵软测量技术研究.pdf_第3页
(农业电气化与自动化专业论文)基于支持向量机的生物发酵软测量技术研究.pdf_第4页
(农业电气化与自动化专业论文)基于支持向量机的生物发酵软测量技术研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(农业电气化与自动化专业论文)基于支持向量机的生物发酵软测量技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江苏大学硕士学位论文 摘要 微生物发酵工程是生物工程和现代生物技术的产业化基础。生物量浓度是发 酵过程的重要参数,直接反映着生物发酵过程的状态,影响着发酵产物的质量和 产量。为了对发酵过程进行有效控制,迫切需要实现发酵过程中代谢产物浓度的 在线测量。 受到生物传感器技术的限制,生物量浓度难以用常规的传感器测量。专用传 感器存在着价格昂贵和维护费用高的缺点使其应用具有很大的局限性。随着计算 机技术的发展,利用在线可测辅助变量估计在线不可测变量或难以测量变量的软 测量方法在微生物发酵过程中得到应用。近几年来,诸如机理建模、卡尔曼滤波 器、多元回归、人工神经网络和支持向量机等方法已经被诸多学者应用于微生物 发酵过程的软测量建模中。支持向量机理论以其样本需求量小、预测精度高和泛 化能力强的优势在众多方法中脱颖而出,受到广泛关注。 本文在简要分析了支持向量机回归建模理论的基础上,结合红霉素发酵过 程,针对基于支持向量机的生物发酵过程软测量优化建模进行深入的讨论。研究 了基于遗传模拟退火算法和赤池信息准则的优化建模方法进而确立支持向量机 最优模型,即选择微生物发酵过程中在线可测的重要辅助变量作为软测量模型的 输入并同时确定支持向量机软测量模型的关键参数;针对支持向量机回归训练的 本质,即一个二次规划问题,研究了基于具有快速收敛性能粒子群算法解决该二 次规划问题,从而确定支持向量机回归训练中的支持向量和支持向量权值,提高 了收敛速度,使复杂的算法理论易于工业实现。实验仿真结果表明:所提优化方 法使基于支持向量机的软测量建模理论在微生物发酵过程中得以更准确、高效的 应用。 关键词:微生物发酵,软测量,支持向量机,优化建模 江苏大学硕士学位论文 a b s t r a c t m i c r o o r g a n i s mf e r m e n t a t i o ne n g i n e e r i n gi st h ef o u n d a t i o no fb i o e n g i n e e r i n ga n d b i o t e c h n o l o g y b i o m a s sc o n c e n t r a t i o ni sa l li m p o r t a n tv a r i a b l ei nt h ef e r m e n t a t i o n p r o c e s s ,w h i c hr e f l e c t st h es t a t eo ft h ef e r m e n t a t i o np r o c e s sa n di m p a c t st h eq u a l i t y a n dy i e l do ft h eo u t p u t i no r d e rt oc o n t r o lt h ef e r m e n t a t i o np r o c e s se f f e c t i v e l y , o n l i n e m e a s u r e m e n to fm e t a b o l i cp r o d u c tc o n c e n t r a t i o ni si n d i s p e n s a b l e c o n s t r a i n e d b yt h e s e n s o r t e c h n o l o g y i nf e r m e n t a t i o n ,m e t a b o l i cp r o d u c t c o n c e n t r a t i o nc a nn o tb em e a s u r e db yr e g u l a rs e n s o r s b e c a u s eo ft h eh i 曲p r i c ea n d h i g hm a i n t e n a n c ec o s t s ,t h ea p p l i c a t i o no fd e d i c a t e ds e n s o r si sl i m i t e d w i t ht h e d e v e l o p m e n t o f c o m p u t e rt e c h n o l o g y , s o f t s e n s o r t e c h n o l o g y , e s t i m a t i n g u n m e a s u r a b l ev a r i a b l e so rd i f f i c u l t - t o m e a s u r ev a r i a b l e sw i t hm e a s u r a b l eo n e so n l i n e , i sa p p l i e di nm i c r o o r g a n i s mf e r m e n t a t i o np r o c e s s r e c e n t l y , m a n ym e t h o d sh a v eb e e n u s e dt om o d e lf e r m e n t a t i o ns o f ts e n s o r s ,s u c ha sm e c h a n i s mm o d e l i n g ,k a l m a nf i l t e r , m u l t i p l er e g r e s s i o n , a r t i f i c i a ln e u r a ln e t w o r ka n ds u p p o r tv e c t o rm a c h i n e s ( s v m s ) s v m sh a v ed r a w ne x t e n s i v ea t t e n t i o nw i t ht h e i rh i 曲p r e c i s i o na n ds t r o n g g e n e r a l i z a t i o na b i l i t yu s i n gs m a l ls a m p l e s b a s e do ns i m p l ea n a l y s i so fs o f ts e n s o rm o d e l i n gf o re r y t h r o m y c i nf e r m e n t a t i o n p r o c e s su s i n gs v m s ,t h i sp a p e rp r o p o s e daa p p r o a c hf o rm o d e lo p t i m i z a t i o no fs v m s b a s e do ng e n e t i cs i m u l a t i o na n n e a l i n ga l g o r i t h m ( g s a ) a n da k a i k ei n f o r m a t i o n c r i t e r i o n ( a i c ) ,w h i c hc o u l d s e l e c ti m p o r t a n tf e r m e n t a t i o na u x i l i a r yv a r i a b l e sa n ds e t s v m sp a r a m e t e r ss i m u l t a n e o u s t r a i n i n gas u p p o r tv e c t o rm a c h i n er e q u i r e ss o l v i n ga l i n e a r l yc o n s t r a i n e dq u a d r a t i cp r o g r a m m i n gp r o b l e m ( q p ) t h i sp r o b l e mo f t e n i n v o l v e sam a t r i xw i t ha l le x t r e m e l yl a r g en u m b e ro fe n t r i e s ,w h i c hm a k eo f f - t h e - s h e l f o p t i m i z a t i o np a c k a g e su n s u i t a b l e i no r d e rt om a k et h ec o m p l e xa l g o r i t h me a s yt o i m p l e m e n ti ni n d u s t r y , p a r t i c l es w a r mo p t i m i z a t i o n ( p s o ) w i t hh i 曲c o n v e r g e n c ei s p r o p o s e dt os o l v et h ep r o b l e m ,w h i c hc o u l dd e t e r m i n et h es u p p o r tv e c t o rw e i g h ta n d s u p p o r tv e c t o r so fs u p p o r tv e c t o rm a c h i n e si nas i m p l ew a y s i m u l a t i o n ss h o wt h a t s o f ts e n s o r sm o d e l i n g m e t h o d s f o 【f e r m e n t a t i o np r o c e s sb a s e do ns v m sc o u l db e i i i 江苏大学硕士学位论文 a p p l i e dm o r ec o n v e n i e n t l ya n de f f i c i e n t l yw i t ht h ep r o p o s e do p t i m i z a t i o nm e t h o d s k e yw o r d sm i c r o o r g a n i s mf e r m e n t a t i o n ,s o f ts e n s o r , s u p p o r tv e c t o rm a c h i n e s , m o d e lo p t i m i z a t i o n i v 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规 定,同意学校保留并向国家有关部门或机构送交论文的复印件和电 子版,允许论文被查阅和借阅。本人授权江苏大学可以将本学位论 文的全部内容或部分内容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 保密口,在年解密后适用本授权书。 不保密。 学位论文作者签名:阅劫 指导教师签名:侈7c 护仔 砷年力月6 日卅年,月彬日 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已注明引用的内容以外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 学位论文储虢) 哥为 日期:卅年1 1 月 江苏大学硕士学位论文 1 1 引言 第一章绪论 红霉素等药物或化学品的生产,都离不开微生物发酵过程。微生物发酵工程 是生化工程和现代生物技术及其产业化的基础。 微生物发酵过程是一个多变量强耦合的、时变的、复杂的非线性过程。对微 生物发酵过程的操作,人们通常是凭借过去的经验进行的。由于缺乏对微生物发 酵过程中重要生物参数的测量和监控,先进的控制算法往往不能在微生物发酵过 程中得到很好的应用。这使得微生物发酵工业产品成本高,生产的操作费用大。 所以,要实现对发酵过程的有效监控和控制,首先需要解决的是对发酵过程中关 键参数( 如生物量浓度等) 的在线测量问题。 微生物发酵过程中的代谢产物浓度能够有效反映整个生物发酵过程的状态, 了解发酵过程的状态是对发酵过程进行优化控制的基础。目前,对生物量浓度的 测量绝大多数采用离线测量的方法,但这不能达到及时了解发酵状态的目的,并 且在取样过程中容易污染发酵液。 二十世纪中后期,随着计算机技术的发展,“软测量 技术被许多学者重视, 并应用于检测微生物发酵过程中的关键过程参数。与传统的测量方法不同,软测 量技术是利用一系列在线可测的辅助变量估计那些不可测变量或者难以测量的 变量的检测方法。 目前,软测量建模方法众多。而基于统计学习理论( s l t s t a t i s t i c a ll e a r n i n g t h e o r y ) 的支持向量机( s v m ,s u p p o r t v e c t o rm a c h i n e s ) 方法以其精度高、小样 本和泛化能力强的优势在众多的建模方法中脱颖而出。该方法已经被广泛的应用 于模式识别、时间序列预测、谐波检测和生物发酵软测量等领域中。 作为一种新型的学习算法,支持向量机方法仍存在着许多需要完善的方面。 一方面,支持向量机良好的学习能力和泛化能力在很大程度上依赖于支持向量机 关键参数的选取,而这些参数往往是依靠人们经验给定的;另一方面,用于解决 支持向量机训练过程中二次规鲋问题的传统算法十分复杂且不易于工业实现。这 江苏大学硕士学位论文 使得支持向量机算法难以在工业生产中得到广泛且灵活的应用。 1 2 国内外研究现状 1 2 1 生物发酵软测量研究现状 为解决工业过程关键变量的在线测量问题,二十世纪七十年代,b r o s i l l o w l i l 提出了推断控制的基本思想和方法,即采集过程中比较容易测量的二次变量,构 造推断估计器并克服扰动和测量噪声对过程主导变量的影响。软测量模型的建立 需要根据实际对象的具体情况选用不同的方法。但无论哪种方法,若将模型有效 的应用于实际生产过程中,则必须满足模型精度高、适应性好、易于构建与维护、 及时反应系统变化以及具有良好的可靠性等要求。近年来,应用软测量技术研究 微生物发酵过程关键变量的在线估计已经取得了一些进展,主要研究成果包括: 基于过程机理分析的方法、基于回归分析的方法、基于状态估计器的方法、基于 人工神经网络( 砧州,a r t i f i c i a ln e u r a ln e t w o r k ) 的方法、基于神经模糊系统( n f s , n e u r o - f u z z ys y s t e m ) 的方法和基于支持向量机( s v m ,s u p p o r tv e c t o rm a c h i n e ) 的方法。 一、基于过程机理分析的软测量 基于过程机理分析的软测量建模方法是从质能平衡方程、m o n o d 型方程和 a r r h e n i u s 型方程等出发,建立以过程动力学为基础的、反映不可测变量与可测 变量之间关系的机理模型。 z h a o t 2 l 从质能平衡出发建立了发酵过程的机理模型,对发酵过程中生物量进 行在线估计和自适应控制。机理建模是建立在对发酵过程机理有深刻认识的基础 之上,需要对发酵过程的机理较为清楚。虽然根据机理模型可以明确的了解发酵 过程中各个变量之间的关系,但是,基于质能平衡、m o n o d 型方程等建立的“白 箱”软测量模型,在发酵过程中的菌体生长反应等理论处理上大为简化,导致模 型不能真实反映微生物生长的性质,适应性差。并且,目前对微生物发酵过程缺 乏足够的了解,难以对每个发酵过程都进行精确的机理建模,所以基于机理建模 方法的“白箱”微生物发酵软测量模型难以得到广泛的工业应用。 二、基于回归分析的软测量 2 江苏大学硕士学位论文 线性回归模型是建立数据驱动的软测量模型的最直接方式,目前比较成熟的 一元和多元线性回归辨识建模方法都是以偏最小二乘回归( p l s ,p a r t i a ll e a s t s q u a r e s ) 为基础,被广泛用于线性模型辨识。实际应用中,常采用主元回归( p c r , p r i n c i p a lc o m p o n e n tr e g r e s s i o n ) 和偏最小二乘回归( p l s r , p a r t i a ll e a s ts q u a r e s r e g r e s s i o n ) 建立简化的软测量模型。 主元回归是通过建立输入变量之间的线性组合达到减少变量个数和避免共 线性问题的目的,但它仅考虑了输入空间的数据集而对输出空间数据集的分析较 少。偏最d - - 乘回归是一种多元统计数据的分析方法,能够有效地消除变量复共 线性的影响。它集多元线性回归分析、典型相关分析和主成分分析的基本功能为 一体,将建模预测类型的数据分析方法与非模型式的数据认知性分析方法有机地 结合起来,能够充分反映出自变量与从变量之间的关系;它能够在自变量间存在 多重共线性的条件下,建立起合理的回归模型。针对两种回归分析算法,众多学 者研究了它们的许多改进型变体。主元回归算法改进的几个重要方向见图1 1 所 示。偏最小二乘回归算法改进的几个重要方向见图1 2 所示。 图1 1 主元分析法及其主要变体 f i g 1p c aa n di t sd e r i v a t i o n s z h a o 和c h a i 3 】对主元回归算法进行了改进,提出了具有自适应移动窗的主 元回归算法,并将其应用于监控聚氯乙烯的分批提炼过程。w a m e s 等【4 】采用了主 元回归的建模方法对埃希氏杆菌发酵过程中的生物量和重组蛋白浓度进行了在 线估计并同其他几种建模方式比较,对比分析可知较其他算法基于主元回归算法 的建模方法具有跟踪特性好、预测精度高和稳定性强的优点。 江苏大学硕士学位论文 图1 2 偏最小二乘法及其主要变体 f i g 1 2p l sa n di t sd e r i v a t i o n s z h a n g 和l e n n o x 5 1 利用偏最d x - - 乘法建立软测量模型预测一个分批补料发 酵过程中的生物量浓度,并同时利用该模型对发酵罐进行故障检测和隔离。z h a n g 等【6 i 利用核最小二乘法取代传统的最小二乘法并结合独立分量算法( i c a , i n d e p e n d e n tc o m p o n e n ta l g o r i t h m ) 分别对青霉素发酵过程和田纳西伊斯曼进程 的产物浓度进行预测,通过仿真实验证明所提核最d x - - 乘法很好的解决了最小二 乘法非线性差的问题,并有效减少了计算量。 基于回归分析的软测量方法实现简单,是建立软测量模型的常用方法之一, 但由于其对测量误差十分敏感和样本需求量大的缺点难以得到广泛的应用。 三、基于状态估计器的软测量 基于状态估计器的软测量是从微生物发酵过程的状态空间模型出发,将对于 所选辅助变量是完全可观测的生物量作为系统的状态变量,结合构造自适应观测 器、卡尔曼滤波器( k f ,k a l m a nf i l t e r ) 或扩展卡尔曼滤波器( e k f , e x t e n d e d k a l m a nf i l t e r ) 实现代谢产物浓度的在线估计。, b a s t i n 和d o c h a i n 7 】提出了利用自适应非线性观测器的方法测量细胞浓度和 发酵过程中的关键增长率。所提方法的主要特征是不需要任何对关键增长率的分 析说明,仅仅将其认为是一个完全未知的时变参数。g e e 和r a m i r e z 8 l 将连续状 态的参数识别技术用于饮料分批发酵过程中,利用扩展卡尔曼滤波器进行状态估 计,并利用递推预测误差方法( r p e m ,r e c u r s i v ep r e d i c t i o ne r r o rm e t h o d ) 识别 模型参数,取得了良好的实验效果。t a k i g u c h i 等f 9 1 采用扩展卡尔曼滤波器预测了 赖氨酸发酵过程中的谷氨酸棒杆菌浓度。 4 江苏大学硕士学位论文 对于微生物发酵的非线性过程,像卡尔曼滤波器这样的线性系统的最优状态 估计器是不适用的。扩展卡尔曼滤波器虽然可以有效地处理一个非线性系统,但 值得注意的是,该方法的精度很大程度上依赖于对过程模型和测量误差的预估 计,显然,该方法在微生物发酵的软测量建模中也同样不能得到广泛应用。 四、基于人工神经网络的软测量 基于人工神经网络的软测量技术可以在不具备对象先验知识的条件下,仅根 据对象的输入输出数据直接建模,所建模型在线校正能力强,适合解决高度非线 性和严重不确定性系统的软测量建模问题。目前,许多学者研究了人工神经网络 的多种改进算法,其主要的改进方向见图1 3 所示。 l i n k o 等【l0 】将前馈反向传播人工神经网络的软测量技术用于测量酶发酵过 程中产物浓度,取得了良好的预测效果。c h e n 等】针对一个分批补料的发酵过 程,应用动态人工神经网络算法进行了软测量建模,并结合改进的遗传算法优化 控制加料速度。j i m e n e z 等【1 2 】利用人工神经网络在线实时测量橄榄油精化过程中 的湿度和残渣中的脂肪含量。 图1 3 人工神经网络算法及其主要变体 f i g 1 3a n na n di t sd e r i v a t i o n s 对比以上软测量技术,人工神经网络算法更为广泛地应用于发酵过程的软测 量建模中。但是,收敛速度无法保证、容易陷入局部最小、过拟合和隐层数目难 以确定等缺陷一直是人工神经网络技术应用的难题。 五、基于神经模糊系统的软测量 近年来,随着人工神经网络技术和模糊逻辑技术的发展,不少学者将它们进 江苏大学硕士学位论文 行融合提出了神经模糊系统。它是基于人工神经网络的模糊逻辑控制和决策系 统。它与人工神经网络类似,适用于非线性系统的在线辨识和控制。 a r a u z o b r a v o 等 1 3 1 设计了基于f a s a r t 和f a s b a c k 的神经模糊系统自适应控 制器,并利用该控制器在线测量青霉素发酵过程的产物,取得了良好的效果。 w a n g 和r o n g 1 4 l 利用一种自组织神经模糊系统对精馏塔中的丙烯纯度进行软测 量建模,并通过仿真实验证明该自组织神经模糊系统具有学习速度快,模型精度 高的优点。 近年来,许多学者通过将以上软测量技术进行融合建立混合模型进行软测量 建模。f e u n e r 掣1 5 1 将发酵机理和人工神经网络技术相结合,即在动态神经网络 中任意植入代表发酵机理的功能节点,并利用该模型准确地估计丁二酮浓度。该 方法较传统的人工神经网络算法具有泛化能力强、鲁棒性高的优点,并且在同等 预测精度条件下,可以减少5 0 的训练样本。j a m e s 等【1 6 】结合质量守恒方程,建 立基于后向传播和径向基函数人工神经网络“灰箱”模型,预测真养产碱杆菌的生 物量浓度。实验表明,该“灰箱”模型比同类算法所建“黑箱”模型的精度高,且模 型针对性强。 六、基于支持向量机的软测量 支持向量机是一种针对小样本学习问题的通用学习算法,从理论上克服了人 工神经网络的缺陷。支持向量机理论起源于统计学习理论和v c 理论,最初的研 究主要集中在光学字符识别( o c r , o p t i c a lc h a r a c t e rr e c o g n i t i o n ) ,随后支持向 量机在回归和时间序列预测等方面也取得了良好效果。 传统的统计学研究的是样本数目趋于无穷大时的渐进理论,现有学习方法也 多是基于此假设。但在实际问题中,样本数往往是有限的,因此理论上很优秀的 学习方法实际中表现可能不尽人意。与传统统计学相比,统计学习理论是一种专 门研究小样本情况下学习规律的理论,建立在一套较坚实的理论基础之上,为解 决有限样本学习问题提供了一个统一的框架。支持向量机也正是在这一理论基础 上发展起来的一种新的通用学习方法,表现出很多优于已有方法的性能。与神经 网络相比,支持向量机不但较好地解决了以往困扰很多学习方法的小样本、过学 习、高维数、局部最优等实际难题,而且具有很强的泛化能力,为软测量建模问 题提供一个有效的解决途径。 6 江苏大学硕士学位论文 马等【1 7 】针对青霉素发酵过程的菌丝浓度建立了基于支持向量机的软测量模 型,并证明该方法的精度和泛化能力均优于最d , - 乘方法和人工神经网络方法。 许等【l8 】利用支持向量机建立了柠檬酸发酵过程的软测量模型,并与人工神经网 络的建模效果进行对比仿真实验。d e s a i 等【l9 j 建立基于支持向量机的分批补料发 酵过程的软测量模型,通过对比多种人工神经网络建模方法,得到支持向量机建 模方法较人工神经网络有很大优势。w a n g 等1 2 0 j 提出一种加权最d , - - 乘支持向量 机模型,将其用于啤酒酵母发酵过程中的谷胱甘肽产量的在线测量中,并证明其 效果优于标准支持向量机和最小二乘支持向量机。 目前的应用研究虽然表明了支持向量机的确优于其它传统的统计建模方法, 但作为一种新型的学习算法,支持向量机也存在着许多需要完善的方面。首先, 支持向量机进行生物发酵软测量建模时,其良好的学习能力和泛化能力在很大程 度上取决于支持向量机的参数选择,并且不同的输入集所对应的最优支持向量机 参数是不同的,所以对于支持向量机参数选取没有一劳永逸的方法。其次,支持 向量机训练的过程中的最重要的过程是二次规划过程,传统的二次规划算法有牛 顿法和内点算法。在处理具体实际问题时,由于存储和计算两方面的要求,这些 算法往往会失效,且不易于工业实现。 1 2 2 支持向量机建模优化方法 支持向量机参数选取会影响支持向量机模型的预测精度、学习能力和泛化能 力的问题已经被很多学者所关注。针对支持向量机参数选取问题,一些学者在不 同的领域从不同的角度对其进行了研究。l i n 等【2 ”提出了粒子群优化算法优化支 持向量机参数和图形特征提取的方法,并将优化的模型应用到图像模式识别中。 颜等【2 2 】提出将遗传算法和梯度算法相结合的混合遗传算法用于支持向量机参数 选取。y a h 等【2 3 】将贝叶斯模型优选准则应用到支持向量机参数选取中,并将优化 模型应用于估计分裂蒸馏塔中轻柴油的凝固点。费等【2 4 】提出基于粒子群优化算 法的支持向量机参数选择方法,并将所优化的支持向量机模型用于变压器故障诊 断中。袁等【2 5 1 提出了基于混沌优化算法的支持向量机参数选取方法。y a n g 等【2 6 】 提出了一种混合方法来优化支持向量机算法,利用遗传算法进行特征选择,将支 持向量机参数通过共轭梯度法进行优化,并将所优化的模型用于估计药代动力学 7 江苏大学硕士学位论文 特性。m a t h e n y 等【2 7 】利用三重交叉验证内外循环的方法根据训练样本确定支持向 量机最优模型,并取得了良好的效果。 支持向量机训练中的二次规划过程占据了整个训练过程的大部分训练时间 和计算量。传统的二次规划算法在工业过程中不易实现,这也使得支持向量机软 测量建模在工业中的应用遇到一定的阻碍。一些学者已经对支持向量机的二次规 划算法做出改进。p a q u e t 和e n g e l b r e c h t l 2 8 】利用粒子群优化算法训练支持向量机 分类算法,为支持向量机分类中的二次规划过程提供了一种新方法。o s u n a 等【2 9 】 利用一种分解算法解决支持向量机训练过程的二次规划问题。曾等【3 0 】提出一种 预处理类型的支持向量机分类训练算法,通过创建一相对粗糙的分类超平面来实 现潜在的支持向量的选择,从而减小支持向量机对应q p 问题的规模。然而,以 上研究均是针对支持向量机分类算法的二次规划问题,而支持向量机回归算法中 的二次规划问题的优化方法在国内外研究甚少。 1 3 本课题的研究意义和主要研究内容 1 3 1 课题的研究意义 微生物发酵工程是生物工程和现代生物技术及其产业化的基础。生物量浓度 是发酵过程中的重要过程参数,直接影响着发酵过程的控制和优化,以及发酵产 物的质量和产量。为了能够对发酵过程进行优化控制,使先进的控制算法得以工 业应用,对生物量浓度的在线测量是当务之急。在红霉素发酵过程中,可在线直 接测量的参数有溶氧量、p h 值、糊精体积、豆油体积、丙醇体积、水体积、温 度、相对气压、转速、和空气流量,而生物量浓度是一个在线难以测量的重要参 数。纵观目前生物量检测技术研究现状,干重法、离心叠集细胞体积法、直接染 色法、光密度法和细胞计数法等离线测量方法,操作复杂,滞后时间长,且容易 污染发酵液;以硬件传感技术为基础的光浊度法、荧光法、介电常数法、超声波 法等在线测量方法在使用上也都有局限性,且价格昂贵、维护费用高。随着计算 机技术的发展,新出现的软测量技术得到了较大的发展。在微生物发酵过程中, 利用较易测量的辅助变量和离线分析信息,在线估计生物量浓度是一种有效的方 法。因此,应用支持向量机理论,研究微生物发酵过程中的生物量软测量方法, 8 江苏大学硕士学位论文 实现生物量在线实时检测具有重要的理论意义和实际应用价值。而支持向量机软 测量建模技术同其他软测量建模方法一样也存在着许多问题,迫切需要先进算法 对其进行优化建模。本文结合红霉素发酵过程,优化了基于支持向量机的软测量 建模方法,通过将遗传模拟退火算法( g s a ,g e n e t i cs i m u l a t i o na n n e a l i n g a l g o r i t h m ) 和赤池信息准则( a i c ,a k a i k ei n f o r m a t i o nc r i t e r i o n ) 相结合的模型优 化方法选择模型的输入变量并同时确定支持向量机关键参数;对粒子群算法 ( p s o ,p a r t i c l es w a r mo p t i m i z a t i o n ) 进行了收敛性分析并提出其参数约束关系, 利用改进的粒子群算法解决支持向量机训练过程中的二次规划问题,在精度降低 不明显的条件下使得基于支持向量机的生物发酵软测量建模方法更易实现。 1 3 2 主要研究内容 本课题依托国家高新技术发展计划( 8 6 3 ) 基金项目( 2 0 0 7 a a 0 4 2 1 7 9 ) ,研究 基于支持向量机的微生物发酵过程生物量浓度的软测量优化建模技术,建立红霉 素发酵过程中生物量浓度的软测量模型,实现生物量浓度的在线检测。课题的主 要研究内容如下: l 、在简要分析支持向量机建模理论的基础上,结合红霉素发酵过程,研究 基于支持向量机回归的软测量建模方法。 2 、针对支持向量机参数选取和在线可测输变入量选择问题,研究了基于遗 传模拟退火算法和赤池信息准则的模型优化方法,将重要在线输入变量的选择和 支持向量机关键参数的确定同时进行。 3 、针对解决支持向量机训练过程中二次规划问题时,传统算法复杂且不易 实现的问题,提出利用粒子群算法解决训练过程中的二次规划问题,并对粒子群 算法进行收敛性分析,提出了具有快速收敛性能的粒子群算法。 4 、采用真实工业数据,对所提改进支持向量机生物量软测量模型的方案进 行实验仿真,验证所提优化模型的可行性和有效性。 1 3 3 文章主要结构 第一章:绪论。本章主要介绍课题背景,选题意义,国内外研究现状以及文 章的研究内容和论文的结构安排。 9 江苏大学硕士学位论文 第二章:统计学习理论与支持向量机。本章系统地介绍了统计学习理论中的 经验风险最小化准则,v c 维和结构风险最小化准则。并介绍了基于统计学习理 论的支持向量机回归算法及其核函数。 第三章:基于s v m 生物发酵软测量优化建模。本章介绍了遗传算法、遗传 模拟退火算法和赤池信息准则,并将它们融合到生物发酵软测量s v m 优化建模 中,用于选择模型关键输入变量和确定支持向量机运行参数。最后通过对比仿真 实验证明所提方法的有效性。 第四章:基于p s o 的s v m 优化训练技术在生物发酵软测量中的应用。本章 介绍了p s o 算法,并根据动力学稳定性理论分析其收敛性,提出其参数约束关 系。并将带有该参数约束关系的p s o 算法用于优化s v m 生物发酵软测量建模的 训练过程中。最后通过仿真实验证明所提方法的优越性。 第五章:结论与展望。本章主要对全文的工作进行了总结,并对今后的工作 进行了展望。 l o 江苏大学硕士学位论文 2 1 引言 第二章统计学习理论与支持向量机 对样本数据进行训练并寻找规律,利用这些规律对未来数据或无法观测的数 据进行预测是基于机器学习的基本思想。现有机器学习方法共同的重要理论基础 之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论,即当样 本数趋于无穷大时的极限特性。然而,实际应用过程中,样本数往往是有限的, 因此一些理论上很优秀的学习方法实际中表现却可能不尽人意。 诞生于2 0 世纪7 0 年代的统计学习理论( sl t ,s t a t i s t i c a ll e a r n i n gt h e o r y ) 系统 地研究了机器学习问题,对有限样本情况下的统计学习问题提供了一个有效的解 决途径,弥补了传统统计学的不足。与传统统计学相比,s l t 是一种专门研究小 样本情况下机器学习规律的理论,在这种体系下的统计推理不仅考虑了对渐进性 能的要求,而且追求得到现有信息条件下的最优解。 支持向量机就是以统计学习理论为基础的一种新型机器学习算法,它具有严 格的数学理论基础、直观的集合解释和良好的泛化能力,在处理小样本学习问题 上具有独特的优越性。不仅如此,与机器学习的另一主流算法一人工神经网络 相比,支持向量机避免了神经网络中的局部最优解问题和拓扑结构难以确定问 题,并有效地克服了“维数灾难 。 2 2 统计学习理论 s l t 是一种研究小样本估计和预测的理论。它从理论上系统地研究了经验风 险最小化原则成立的条件、有限样本下经验风险与期望风险的关系以及如何利用 这些理论找到新的学习原则和方法。v a p n i k 等【3 1 】于二十世纪六、七十年代提出 了关于学习过程已执行收敛、学习过程的收敛速度、控制学习过程的推广能力和 构造学习算法的一系列理论。到九十年代中期,随着其理论的不断发展和成熟, v a p n i k 提出了基于s l t 的支持向量机方法,该方法在解决实际问题时表现出优 江苏大学硕士学位论文 异性能,同时也由于人工神经网络等学习方法在理论上缺乏实质性的进展,统计 学习理论和支持向量机开始受到越来越广泛的重视。v a p n i k 提出的统计学习理论 建立在一套理论演绎的基础之上,为解决小样本学习问题提供了一个框架,有望 解决许多原来难以解决的问题,比如缓解了人工神经网络面临的结构选择问题、 局部最优问题等。一些学者认为,s l t 和s v m 正成为继人工神经网络研究之后 的新热点,并将有力地推动基于观测数据的建模理论和技术的发展【3 2 1 。 统计学习理论主要包括四方面的内容【3 3 】: 1 ) 经验风险最小化准则下统计学习一致性的条件; 2 ) 在这些条件下关于统计学习方法推广性的界的结论; 3 ) 在这些界的基础上建立的小样本归纳推理准则; 4 ) 实现新的准则的实际方法( 算法) 。 2 2 1 经验风险最小化原则 一般地,学习问题可以表示为y 与x 之间存在的未知依赖关系,即遵循某一 未知的联合概率舷j ,) 。机器学习问题就是根据,个独立的相同分布的观测样本 o l ,y o ,仇y 2 ) ,( x hy d ,在一组函数( f i x , ) ) 中,求一个最优的函数f i x , c o o ) , 对依赖关系进行估计,使期望风险 r ( c o ) = ll y ,f ( x ,c o ) d f ( x ,y ) ( 2 1 ) 最小。其中,馋,) ) 称作预测函数集,c o 为函数的广义定义参数。l b , ,如,0 2 ) 】 为用锨,) ) 对j ,预测造成的损失。 然而,对于未知的概率分布舷力,要使得期望风险最小化,只有样本信息 可以利用。这导致式( 2 1 ) 定义的期望风险是无法直接计算和最小化。因此,传统 的机器学习方法中,采用了经验风险最小化( e r m ,e m p i r i c a lr i s km i n i m i z a t i o n ) 准则,即采用样本定义经验风险 1, r 叩( 缈) = 乃,( t 缈) 】 ( 2 2 ) i = 1 来逼近式( 2 1 ) 定义的期望风险。经验风险最小化的实质是在样本趋于无穷的情况 下,使经验风险r 。r a p ( c o ) 逼近于实际风险r ( ) ,同时使r 唧( ) 达到最小值时,也 可以使r ( ) 达到最小。 1 2 江苏大学硕士学位论文 事实上,用e r m 准则代替期望风险最小化并没有经过充分的理论论证,只 是直观上合理的想当然做法,但这种思想却在多年的机器学习方法研究中占据了 主要地位。人们多年来将大部分注意力集中到如何更好地最小化经验风险上,而 实际上,即使可以假定当n 趋向于无穷大时式( 2 2 ) 趋近于式( 2 1 ) ,在很多问题中 的样本数目也离无穷大相去甚远,则在有限样本下e r m 准则很难得到较小的真 实风险。 2 2 2v c 维 为了研究学习过程一致收敛的速度和推广性,统计学习理论定义了一系列有 关函数集学习性能的指标,其中最重要的是v c 维( v a p n i k c h e r v o n e n k i s d i m e n s i o n ) 。模式识别方法中v c 维的直观定义是:对一个知识函数集,如果存 在h 个样本能够被函数集中的函数按所有可能的矿种形式分开,则称函数集能 够把h 个样本打散;函数集的v c 维就是它能打散的最大样本数目h 。若对任意 数目的样本都有函数能将它们打散,则函数集的v c 维是无穷大。有界实函数的 v c 维可以通过用一定的阈值将它转化成指示函数来定义。 v c 维反映了函数集的学习能力,v c 维越大则学习机器越复杂。然而,目 前尚没有通用的关于任意函数集v c 维计算的理论,只对一些特殊的函数集知道 其v c 维。一般说来,函数集的v c 维与其自由参数的数目不同,它可以大于自 由参数个数,也可以小于自由参数个数,是函数集的v c 维,而不是其自由参数 的个数影响了学习机器的推广能力。因此,用一个包含很多参数,但是有较小 v c 维的函数集为基础,学习机将具有很好的推广能力。 2 2 3 结构风险最小化原则 在传统方法中,选择学习模型和算法的过程就是调整置信范围的过程,如果 模型比较适合现有的训练样本,则可以取得比较好的效果。但因为缺乏理论指导, 这种选择只能依赖先验知识和经验,造成了如神经网络等方法对使用者“技巧 的过分依赖。 统计学习理论提出了一种新策略,即把函数集构造为一个函数子集序列,使 各个子集按照v c 维的大小排列;在每个子集中寻找最小经验风险,在子集间折 江苏大学硕士学位论文 中考虑经验风险和置信范围,取得实际风险的最小,如图2 1 所示。折中思想称 作结构风险最小化( s r m ,s t r u c t u r a l 鼬s km i n i m i z a t i o n ) 。图2 1 给出了结构风险最 小化的原理图。 风险 函数集子集:s ic s 2 c s , v c 维:h i h 2 吣 图2 1 结构风险最小化原理图 f i g 2 1s c h e m a t i cd i a g r a mo fs r m 实现s i 洲原则可以有两种思路,一是在每个子集中求最小经验风险,然后 选择使最小经验风险和置信范围之和最小的子集。显然这种方法比较费时,当子 集数目很大甚至是无穷时不可行。因此有第二种思路,即设计函数集的某种结构 使每个子集中都能取得最小的经验风险,然后只需选择适当的子集使置信范围最 小,则这个子集中使经验风险最小的函数就是最优函数。s v m 方法实际上就是 这种思想的具体实现【3 4 1 。 2 3 支持向量机 s v m ,是统计学习理论中最年轻的内容,也是最实用的部分。 2 3 1 支持向量回归 生物发酵软测量建模时利用s v m 的函数拟合性能。s v m 方法可以很好地应 用于函数拟合问题中【3 5 - 3 7 ,其思路与模式识别中七分相似。首先考虑用线性回归 1 4 江苏大学硕士学位论文 函数似) = 时6 拟合数据 而,m ) ,f _ l ,刀,x i e ,y i 厅的问题,并假设所有训 练数据都可以在精度s 下无误差地用线性函数拟合,即 k 舞薹h ,刀 亿3 , 【国砖+ 6 一咒s u j ) 与最优分类面中最大化分类间隔相似,这里控制函数集复杂性的方法是使回归函 数最平坦,它等价于最小化圳| 1 2 0 考虑到允许拟合误差的情况,引入松弛因子 6 o 和o ,则条件( 2 3 ) 变成 = :焉三篇,疗 亿4 , 【彩薯+ 6 一只g + 等 77 卜一7 优化目标变成最小化 ( 缈,善,孝+ ) = 丢0 缈0 2 + c 窆( 专+ 等) ( 2 5 ) 常数c 0 控制对超出误差s 的样本的惩罚程度。采用同样的优化方法可以得到 其对偶问题。在条件 善( 一尘0 ( 2 6 ) 0 ,西ci = 1 ,1 一 下,对l a g r a n g e 因子q f ,0 0 最大化目标函数 w ( a ,口) = 一g ( 西+ ) + 只( 西一) 一寺( z 一呸) ( 巧一哆) ( 薯0 ) ( 2 7 ) 得回归函数为 厂( x ) = ( 国x ) + 6 = ( 西一呸) ( t x ) + 6( 2 8 ) i = l 与模式识别中的s v m 方法一样,这里a f ,a f 也将只有小部分不为0 ,它们 对应的样本就是支持向量,一般是在函数变化比较剧烈的位置上的样本;而且这 里也只涉及内积运算,只要用核函数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论