(光学工程专业论文)基于机器学习的水质cod测量方法研究.pdf_第1页
(光学工程专业论文)基于机器学习的水质cod测量方法研究.pdf_第2页
(光学工程专业论文)基于机器学习的水质cod测量方法研究.pdf_第3页
(光学工程专业论文)基于机器学习的水质cod测量方法研究.pdf_第4页
(光学工程专业论文)基于机器学习的水质cod测量方法研究.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

(光学工程专业论文)基于机器学习的水质cod测量方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

塑兰查兰塑兰些丝奎 a b s t r a c t w a t e rc o m p o n e n ti sam u l t i p l e xa n dc o m p l e xs y s t e m ,t h e r ei sah i g h l yn o n l i n e a r r c l a t i o nb e t w e e nc 0 d( c h e m i c a lo x y g c nd e m a n d )a n du l t r a x 浙江大学硕士学位论文 第一章绪论 1 1 课题的研究背景及意义 随着城市化进程的加快,城市规模的不断扩大和现代化工农业生产的迅猛发 展,大量工农业废水和生活污水排入江河湖库,特别是有机化工等不同的工业废 水会产生约5 0 多万种化学污染物质,一方面使水体中的有机污染日益加剧,另 一方面由于污染物的多样性和动态性,使得对污染程度的测定和评价成为一个多 变的复杂问题。目前采用的综合评价水质有机污染程度的方法主要是测定水体的 c o d 值【1 j ,依据标准是g b l l 9 1 4 8 9 重铬酸钾法测定法。目前,国内外利用紫外 吸光度法测定污水中c o d 、b o d 、表而活性剂等已经有了相当的研究。 由于水质有机污染物的复杂性和动态性,影响因子的多样性,给水质c o d 测定研究提出了新的要求和研究课题。主要有: ( 1 ) 化学测定c o d 方法因氧化剂的种类、浓度、氧化酸度、反应温度及时 间等条件的不同而出现不同的结果。并且普遍存在着二次污染、测量速度慢、成 本高、氯离子干扰强等问题。这是孤立的、静态的测定方法,效率低,非实时, 很难为水质监测、水环境质量的评估和环境治理提供准确、实时的动态科学数据。 ( 2 ) 用单波段紫外吸收等物理方法测定c o d ,由于影响水质c o d 因素的多 样性和复杂性,往往存在着大量不确定的信息,如某些化学离子的干扰等:在不 同地区、不同行业的污染源,均存在较大的差异,难以用精确的公式来描述紫外 吸光度和c o d 之间的关系。因此利用单波长的紫外吸光度值来表征废水的c o d , 无法得到较准确的c o d 。 ( 3 ) 提出紫外吸收多光谱法的概念,紫外吸收多光谱法在紫外全波段范围内 对水样进行扫描,能够得到反映水体污染物质的更多信息。通过合理选择扫描水 样的特征波长能够充分地得到反映水体复杂性的内部信息,使得对于不同成分的 水质c o d 测量具有很好的适应性和准确性。水质成分具有高度的非线性特征, 是一个高度非线性的系统,对于这种多个自变量的系统,需要建立复杂的模型, 并且必定是非线性的。因此,利用紫外吸收多光谱法测定c o d 值需要建立一个 浙江大学硕士学位论文 能够比较完备表征水质复杂性的非线性模型。 鉴于以上问题,化学方法和单波长紫外吸光度法都存在着一些无法解决的问 题。而紫外吸收多光谱法测定c o d 值要得到很好的应用,需要运用人工智能及 机器学习等先进的建模方法。 在紫外吸光度和c o d 值相关性研究中,常规的方法是建立线性模型,这种 方法对于大多数水质往往得不到预期的效果。实际研究表明,紫外吸光度和c 0 d 值之间存在高维的非线性关系,但又很难用常规的方法来建立其相关性。机器学 习不需要建立研究对象的精确模型,就能解决研究对象的不确定性问题。神经网 络和支持向量机等机器学习技术为解决系统建模、非线性数掘拟合提供了有效的 途径。 因此,使用紫外吸收多光谱法替代传统化学方法和单波段紫外吸收法,并将 人工神经网络和支持向量机等机器学习方法应用于水质c o d 与紫外吸光度的相 关性研究中,对于建立完备的相关性模型和高维的非线性拟合关系具有重要意义 和科学价值。将为应用物理方法解决化学测量方法中普遍要求解决的相关性问 题,提供了一种解决方案和途径。 通过物理量的测量来表征化学测定量,由于物理方法的简单、不需消耗试剂、 无污染等特点,被越来越广泛地使用和倡导,并将成为检测技术的一个发展方向。 1 2 机器学习的主要策略和发展概述 机器学习就是计算机自动获取知识,它是知识工程的三个分支( 获取知识、 表示知识、使用知识) 之一,是人工智能中的一个重要的研究领域。随着人工智 能研究的进展,人们逐渐发现研究人工智能的最好方法是向人类自身学习,因而 引入了一蝗模拟进化的方法来解决复杂优化的问题,其中富有代表性的是遗传算 法。遗传算法的生物基础是人类生理的进化及发展,这种方法被称为进化主义; 另一方面,神经网络的理论是基于人脑的结构,其目的方式与内部表达方式不完 全一致,系统在接收外部知识时需要揭示一个系统是如何向环境学习的,此方法 被称为连接主义。这两种方法与传统方法大相径庭,因而近年来许多科学家致力 于这两种方法的研究。 浙江大学硕士学位论文 另外由于统计学习理论的发展,提出了支持向量机的学习算法,由于其出色 的学习性能尤其是泛化能力,从而引起了人们对这一领域的极大关注【6 】。该技术 已成为机器学习界的研究热点,并在很多领域都得到了成功的应用。 1 2 1 基于神经网络的学习 一个连接模型( 神经网络) 是由一些简单的类似神经元的单元以及单元之间 的权值连接组成。每个神经元具有一个状态,这个状态是由与这个单元相连接的 其他单元的输入决定的,如图1 1 所示。连接学习的目的是区分输入的模式的等 价类,连接学习通过使用各类例子来训练网络,产生网络的内部表示,并用来识 别其他输入例子。学习主要表现在调整网络中的连接权,这种学习是非符号的, 并具有高度并行分布式处理的能力,近年来获得极大的成功与发展。比较出名的 网络模型和学习算法有单层感知器( p e r c e p t m n ) 、h o p f i e l d 网络、b o h z m a n n 机和 反向传播算法( b a c kp m p a g a t i o n ,b p ) 。 削1 - l 单个神经元结构 神经网络已经在很多领域得到了成功的应用,但由于缺乏严密理沦体系的指 导,在实际应用中,因为缺乏问题的先验知识,往往需要经过大量费力费时的试 验摸索才能确定合适的神经网络模型、算法以及参数没置,其应用效果完全取决 于使用者的经验。 1 2 2 基于遗传算法的学习 遗传算法是建立在自然选择和群体遗传学机理基础上的随机迭代和进化, 具有广泛适用性的搜索方法,具有很强的全局优化搜索能力。它模拟了自然选择 浙江大学硕士学位论文 和自然遗传过程中发生的繁殖、交配和变异现象,根据适者生存、优胜劣汰的自 然法则,利用遗传算子选择、交叉和变异逐代产生优选个体( 即候选解) ,最终搜 索到较优的个体。遗传算法本质上是基于自然进化原理提出的一种优化策略,在 求解过程中,通过最好解的选择和彼此组合,则可以期望解的集合将会愈来愈 好。 遗传算法受到研究人员广泛重视是由于它采用随机搜索方法,其特点是几 乎不需要所求问题的任何信息而仅需要目标函数的信息,不受搜索空间是否连续 或可微的限制就可找到最优解,具有强的适应能力和便于并行计算。人们相信随 机算法可以解决非线性全局优化问题,自适应方法可以解决机器学习问题,并行 算法有极高的计算效率。因此,遗传算法广泛地应用于自动控制、计算科学、模 式识别、工程设计、智能故障诊断管理科学和社会科学领域,适用于解决复杂的 非线性和多维空间寻优问题。与此同时,经典遗传算法的缺点也显现出来:有时 计算时间过长,不能保证解是全局最优的。 遗传算法尚存在很多问题,其原因是它自身的一些缺陷:遗传算法没有 有效措施来保证所进行的是全局搜索:变异可消除基因缺陷,但同时会产生新 的基因缺陷,因而如何有效地消除基因缺陷又是一个重要的问题:进化的终止 判定,严格地说,遗传算法的迭代是不能完全收敛的,这样终止判定就成了一个 亟待解决而又举足轻重的问题。 1 2 3 基于支持向量机的学习 支持向量机f s v m l 是一种基于统计的学爿方法,它是对结构风险最小化归纳 原则的近似。它的理论基础是v a p n i k 创建的统计学习理论。统计学习理论研 究始于2 0 世纪6 0 年代未,在其后的2 0 年内,涉足这一领域的人不多。s v m 是 统计学理论中最年轻也最实用的内容,目前有关这一理论以及应用的研究正在快 速发展。不夸张地说,就像信息论为信息技术的崛起丌辟道路一样,统计学习理 论带柬机器学习领域一场深刻的变革。统计学习理论就是研究小样本统计估计和 预测的理论,主要内容包括四个方面: ( 1 ) 经验风险最小化准则下统计学习一致性的条件。 ( 2 ) 在这些条件下关于统计学习方法推广性的界的结论。 4 浙江大学硕士学位论文 ( 3 ) 在这些界的基础,建立的小样本归纳推理准则。 f 4 ) 实现新的准则的实际方法( 算法) 。 由于统计学习理论和支持向量机建立了一套较好的有限样本下机器学习的 理论框架和通用方法,既有严格的理论基础,又能较好地解决小样本、非线性、 高维数和局部极小点等实际问题,因此成为2 0 世纪9 0 年代术发展最快的研究 方向之一,其核心思想就是学习机器要与有限的训练样本相适应。 1 3 水质c o d 测量方法的现状 1 3 1 化学方法测量水质c o d 及其不足 c o d 是一个条件性指标,受加入的氧化剂种类、浓度、反应液的p h 值、 反应温度、时间以及催化剂的种类和用量等条件的影响。目前测定水中c o d 的 经典方法是高锰酸盐指数法( c o d 。) 和重铬酸钾回流法( c 0 d 叮) 【4 】,重铬酸钾 酸回流法也是我国水质监测规定的标准方法,前者适用于地下水和较干净的地表 水、饮用水的分析,后者多用于工业废水和生活污水的分析。这两种方法都需要 加热回流,操作费时,受回流设备限制。因此,对区域水质调查中大批样品的测 定,水质在线监测及污水处理厂生产控制的实时测定,标准法并不适用。 基于重铬酸钾消解原理的标准化学方法的c o d 测量仪器,存在着以下几个 主要缺点: ( 1 ) 被测水体经高温消解与滴定后的废液造成二次污染。 ( 2 ) 测量速度太慢,难以满足随时、快速掌握水质污染瞬时变化的需要。 ( 3 ) 使用成本高,存在氯离予干扰,仪器故障率高等。 为避免传统的c o d c r 参数测量原理上带来的不足,国外在9 0 年代己逐渐用 测定总有机碳1 0 c ( t o t a l0 r g a n i cc a r b o n 简称1 1 0 c ) 的方法和紫外吸光度法( u v ) 来替代重铬酸钟消解迸行在线水质c o d 的测量。特别是u v 法,其紫外光吸光 度与水质c o d 参数存在一定的相关性,操作简便,价格低廉,在国外的水质c o d 在线检测中使用门益增多,尤其是同本已十分普及,u v 法是当前水质c o d 在 线测量发展的必然趋势。国内已有少量u v c o d 测量仪引进,但在国内尚未见 浙江大学硕士学位论文 紫外扫描式c 0 d 测量仪器研制开发的信息和报道。 1 3 2 基于紫外吸光度法的水质c o d 测量方法 首次提出利用紫外吸收光谱直接测定c 0 d 的是日本学者1 2 l 。1 9 6 5 年,n o r i o 0 9 u r a 发表了海、湖水、雨水、河流等天然水体中紫外光吸收物质的光谱图。随 后研究了天然水体水质与紫外吸光度之间的关系,并发表了天然水的紫外吸光 度与化学需氧量的关系。结果表明,在2 2 0 咖处,有机物的紫外吸光度与化学 需氧量之间存在一定的相关性,而对含有大量伙的水体而言,由于的吠紫 外吸收于扰,2 5 0 n m 将更适合有机物的测定。 y a m a o t o l 3 】研究了日本o s a k a 和n a r a 辖区五条河流天然水体中c 0 d 和紫外 吸光度在2 6 0 n m 处的关系,并测量了水体中不同有机物及无机离子的吸光度。 有机物包括腐殖酸、合成洗涤剂、肥皂、甲酸、酒石酸苯甲酸、乙酸、苯酚以及 苯胺。无机离子包括氨根离子、硫酸根离子、亚硫酸根离子、硝酸根离子、亚硝 酸根离子、碳酸根离子以及磷酸根离子。研究结果表明在2 6 0 n m 处,c 0 d 和紫 外吸光度之问存在很好的线性关系,他们由此得出结论,这是一种可用于估算天 然河流水体中c 0 d 含量的简便技术。 u v 2 5 4 指在波长为2 5 4 n m 处的紫外吸光度,是衡量水中有机物指标的一项重 要控制参数,在国外经过近二十年的不断研究,已被水处理研究和管理人员普遍 接受和使用。u v 2 5 4 适用于成分比较单一的 郑 ( 1 ) 光源:系统选择供电电源为1 0 v 的氘灯,其窗体为透紫玻璃,点灯开 始电压为3 5 0 v ,点灯维持电压为6 5 9 0 v ,平均寿命是2 0 0 0 小时。 (2)分光扫描系统:由进出口狭缝,聚焦镜,平面光栅,准直镜与步进马 达组成。分光扫描系统寰净疆;mli。鬟i锄髓甥班烈鬻:璀灞籍隧霄贼甬黼墨磁田。墓蒴鄞菲祁西虾油雏神瓣薹骚岭i 姑辚瑞鬻筚会萍簪鍪霸制娜搿;佰 用性较差。对于不同的生活污水 与一1 二业废水,由于水体中有机物的组分不同,最大的吸收波长并非都在2 5 4 n m , 它们的紫外全波段吸收光谱有显著差异,单光谱吸光度与c o d 的相关性有很大 的不同。实验证明:皮革厂废水的最大吸收波长为200nml8】;焦化废水在 浙江大学硕士学位论文 ( 3 ) 分光器件:选择光栅常数为1 2 0 0 线m m ,闪耀波长为5 0 0 n m 的平面 光栅作为分光器件。 ( 4 ) 光电探测器:系统采用日本滨松公司含有内置前置放大器的硅光电二 极管s 8 7 4 5 作为探测器,s 8 7 4 5 集成了硅二极管,反馈电容和反馈电阻,适用于 微光检测领域。探测器的有效接收区域内部接地,具有很高的抗电磁干扰性。 ( 5 ) 硬件系统:以t p c 6 4 2 嵌入式平板电脑为人机交互与运算核心,以单片 机系统作为电路控制中心,实现对泵、阀的操作,控制步进电机进行分光扫描, 光电信号的采样,与上位机的通信等各项性能。硬件模块包括电源电路,单片机 与数据采集电路,步进电机控制电路,光电探测器探测电路以及t p c 6 4 2 平板电 脑等部分。 光路中氘灯发出的光通过会聚透镜后成平行光,经过石英玻璃窗口进入测量 槽中,测量时保证被测水样稳定的通过l o m m 的测量槽,被吸收后的光经过另一 会聚透镜进入进口狭缝,经过准直物镜的反射成为平行光束投射到光栅表面,光 栅作为色散元件将接收到的复合光衍射分解成光谱,经过聚焦物镜会聚到出口狭 缝,形成一系列按波长排列的单色狭缝像,控制步进电机可以使各个波长的光谱 信号进入光电探测器。 5 b 一6 型c o d 快速测定仪采用一种特制试剂,含有一种复合催化剂,既加速反 映,又对氯离子具有抗干扰作用。水样与特制试剂d 和试剂e 在加热炉中进行快速 氧化还原反应,反映后产生的三价铬离子,通过分光光度法测定其浓度,从而得 出相应的c o d 。仪器实物如图2 3 ,2 4 所示。 图2 35 b 一6 型c 0 d 速测仪 图2 45 b l 型c o d 消解仪 浙江大学硕士学位论文 5 b 一6 型型号体积小,精度高,简单便携,浓度直读,数字显示,基本参数 如下f 驯: ( 1 ) 直接测定范围:地表水:2 1 4 0 m g l 污水:2 0 1 2 0 0 i i l g l5 0 2 5 0 0 m g l ( 2 ) 测定时间:2 0 分钟同时测定2 5 支水样,最多可同时测定3 6 支水样 ( 3 ) 测定精度:5 ( 4 ) 波长范围:3 6 0 1 0 0 0 n m 5 b l 型主要起到一个消解器的作用,基本参数如下: ( 1 ) 消解温度:1 6 5 1 5 ( 2 ) 消解时间:1 0 分钟 ( 3 ) 测定范围:3 0 1 0 0 0 m l ( 4 ) 测定时间:2 0 分钟同时测定1 4 个水样 ( 5 ) 抗氯干扰:【c l 1 0 0 0m l 【c l o( 4 - 5 ) 判断优劣要有原则,通常采用误差最小化原则,即寻求决策函数使对训练样 本集的分类误差“总和”( 有多种汇总方法) 最小。按此原则,落在虚线区域内的 任一直线都是最优,因为都使总分类误差为零。 v a p n jk 提出一个最大边际化( m a x i m a 卜m a r g i n ) ,所谓边际又称间隔,是指训 练样本集到划分超平面的距离,它是所有训练样本点到划分超平面的( 垂直) 距离 中的最小者: 肘跏( 0 x 一0 :z r “,( w x ) + 6 = o ,i = 1 ,一,f ) 对应最大间隔的划分超平面称为最优划分超平面,简称为最优超平面,如图 4 2 中的l 。图4 2 中两条平行虚线h i ,h 2 ( 称为边界) 距离之半就是最大间隔。可 以证明最大间隔是唯一的,但达到最大间隔的最优超平面可能不唯一。 浙江大学硕士学位论文 的最优或广义最优分类面,则就可以得到较好的推广性。 夺利用支持向量机解决非线性分类时,映射后的特征空间可以很高,但是 这并不增加网络的复杂性。利用支持向量机的方法我们即使在维数很高 的空间中也能得到较小v c 维的函数集,从而得到较好的推广能力。 夺通过采用不同的核函数将导出不同的支持向量机算法,因此支持向量机 可以将神经网络等学习机器纳入其中。 夺支持向量机是由统计学习理论的指导下导出的,体现了结构风险最小化 原则的设计思想,因此学习结果具有很好的推广性能,克服了神经网络 学习中的过学习现象。 冷支持向量机的设计较神经网络更灵活。首先,可以通过选择不同核函数, 不同的优化目标函数,不同的参数得到不同等价的分类器和函数逼近 器;再者,支持向量机的结构( 隐层单元数) 是通过优化目标函数得到 的,因此克服了神经网络设计中结构选择的困难。 夺支持向量机的训练是优化二次函数( 或者线性函数) ,有难一的全局最 优解,因此克服了神经网络易陷入局部极小的缺点。 4 3 基于支持向量机的u v c o d 相关性模型研究 支持作为一种优秀的机器学习方法,与基于人工神经网络的测量模型相似, 通过学习来建立测量对象与各个因素之间的一种关系模型,从而估算出结果。本 节将详述使用支持向量机方法构建c o d 测量的模型。本章采用估计误差平均绝 对值( m e a i 值e ) 、估计误差方差( m s e ) 作为性能指标评价模型的预测能力,其计算 公式如下: 州e = 潦盱刑 ( 4 _ 峋 脚= 击扣一 件 式中,q 为实际值,b 为预测值。 4 5 浙江大学硕士学位论文 的数量,越大,则支持向量越少,因此c 和都影响着模型的复杂程度。 表4 2 表示对于表2 1 杭州啤酒厂的水样数据进行建模时,c 变化、e 不变 ( g = 0 0 0 1 ) 时对应的性能评价指标计算值。表4 3 给出了变化、c 不变( c = 3 0 0 ) 对应的性能指标计算值。 表4 2 = 0 0 0 1 时c 变化时的性能比较 cm e a n a em s e 1 0 01 8 ,6 43 4 8 2 1 2 0 01 7 0 93 0 5 4 7 3 0 01 4 5 72 5 9 4 9 4 0 01 6 2 12 8 8 3 7 表4 3c = 3 0 0 时变化的性能比较 m e a n a em s e o 0 11 9 3 73 5 6 2 1 o 0 0 51 5 2 22 8 3 5 1 o 0 0 21 8 3 63 3 1 _ 8 2 o 0 0 11 4 5 72 5 9 4 9 对于支持向量机参数的选择问题,已经有学者做了大量的研究,并提出一定 成果【2 8 3 2 i : 夺使用交叉验证的方法,通过将训练样本分组,求出最优的模型参数组合。 夺c 和的取值应该考虑训练样本数量的影响。 令c 的取值直接影响了输出数据的范围,因此可以通过训练样本的输出数 据反算模型最优的c 值。 夺当c 大于一定值后,其变化只对模型产生细微的影响。 在实际的应用中,u v - c o d 相关性建模就是采用了交叉验证的方法来求 出最优的模型参数组合。即先将学习的样本数据乱数拆分成机组训练样本, 用某组参数来训练,并且用别组的数据作为测试数据来验证准确率,准确率 不够的化则换参数再重复训练、验证,直到找到一组最优的参数。 4 7 浙江大学硕士学位论文 4 4 实验数据及模型分析 选用径向基酬附懒数m z x 一 - 警】,主要参数是核函 数的参数g 合支持向量机的平衡参数c ,不敏感系数s ,通过交叉验证确定参数。 对于水质实际c 0 d 等于1 2 5 的杭州啤酒的废水进行连续测量,并且设计参数 为c = 3 0 0 ,= o 0 0 1 的支持向量机模型,对表2 一l 的1 5 组样本进行学习,使用学习 得到的模型对水样连续测量4 2 分钟所得的实时数据进行c 0 d 估测,结果如表4 4 所示。 表4 4 杭州啤酒厂水样实际c o d 为1 2 5 时的实时测量数据 时间a l a 2a 3a 4 a 5 a 6a 7 8a 9 爿 估算 的c o d 1 0 :3 01 1 5 21 1 5 li 1 4 5t 1 4 31 1 3 71 1 3 3 l1 2 7 1 1 2 0l _ 0 2 0 1 01 2 8 1 2 3 l o :3 61 1 5 21 1 4 l1 1 4 11 1 3 91 1 3 81 1 2 9 1 1 2 5 11 1 81 0 2 11 0 1 0 41 2 l l o :4 2l - 1 5 21 1 5 l1 1 4 l1 1 4 01 1 2 91 1 2 7 1 1 2 3 1 1 1 71 0 2 01 0 1 0 01 2 1 1 0 :4 8 1 1 5 4l _ 1 4 9l _ 1 4 31 1 4 31 1 3 91 1 2 71 1 2 51 1 1 8l _ 0 2 0l o 1 1 81 2 2 1 0 :5 4 1 1 4 7i1 4 6t1 4 l1 1 4 01 1 3 51 1 3 l1 l 2 31 1 1 81 0 2 1l o 1 0 2 1 2 l 1 2 :0 0 1 1 4 71 1 4 41 ,1 4 01 1 3 51 1 3 411 2 91 挖31 _ 1 1 31 0 2 l1 0 0 8 6 1 1 8 1 2 :0 61 1 5 21 ,1 4 91 1 4 3l1 4 31 1 3 9l 】z 91 1 2 711 2 61 ,0 2 01 01 2 8l z 3 1 2 :1 2l1 5 21 1 4 6l ,1 4 l1 1 4 01 1 3 711 3 l1 1 2 51 1 1 71 0 2 01 0 1 0 91 2 l 从表4 4 中可见使用支持向量机建模的方法测出来的c o d 值和水样实际的 c o d 值误差不超过5 ,由结果可知,采用支持向量机方法可以有效的实现基于 紫外光谱的c o d 测量。同时由于输入数据与学习样本数据不同,输出结果仍然 保持了一定的准确性和稳定性,说明此模型的推广能力比较好。 使用留一法对l m b p 神经网络和支持向量机的拟合能力进行比较。首先使用 表2 1 的杭州市啤酒厂的样本学习数据建模。应用支持向量机方法建立的模型参 数为c = 3 0 0 ,= 0 0 0 1 ,比较数据结果如表4 5 所示,图谱对比如图4 4 所示,黑 色线条表示样本的实际c o d 值,红色线条表示的是使用u b p 神经网络建模得 到的拟合结果,蓝色线条是使用支持向量机方法拟合得到的数据。 浙江大学硕士学位论文 表4 - 5 杭州市啤酒厂数据的u 一b p 神经网络与支持向量机拟台性能比较 序号实际c o d 值 u m b pu m b p 神经 支持向量机支持向量机 神经网络估算 网络误差估算的c o d误差 的c 0 d 值值 l2 52 8 1 2 2 0 2 0 23 33 30 3 56 7 34 54 74 4 4 98 9 45 85 91 7 5 63 4 58 38 03 7 8 74 8 61 0 51 0 13 8 1 1 26 7 71 5 41 5 93 2 1 5 3 o ,6 81 6 21 6 94 3 1 6 94 1 92 1 02 0 04 - 8 2 1 52 4 1 02 2 32 2 40 4 2 3 65 8 1 12 4 62 4 02 5 2 5 74 5 1 22 5 72 5 12 3 2 6 1 1 ,6 1 32 6 72 6 02 6 2 6 41 1 1 4 2 9 12 8 52 1 3 1 16 ,9 1 5 3 1 33 2 13 5 3 4 18 9 3 巧 3 m 目 2 2 5 1 了5 1 i 2 5 l 。0 t 5 5 0 2 5 o 图4 4 杭州市啤酒厂数据的i m ,b p 神经网络与支持向量机拟合图谱比较 4 9 浙江大学硕士学位论文 然后使用表2 2 的绍兴市污水厂的样本学习数据建模。因为水样的学习样本 数据只有6 组,需要稍加重视经验数据的作用,所以c 的值应该取得大点。建立的 模型参数为c = 3 5 0 ,s = o 0 0 1 比较数据结果如表4 6 所示,图谱对比如图4 5 所 示,黑色线条表示样本的实际c o d 值,红色线条表示的是使用l m b p 神经网络 建模得到的拟合结果,蓝色线条是使用支持向量机方法拟台撂到的数据。 表4 6 绍兴市污水厂数据的u m b p 神经网络与支持向量机拟合性能比较 序号 实际c o d 值 l m b pl m b p 神经 支持向量机支持向量机 神经网络估算网络误差估算的c o d误差 的c o d 值 值 13 03 13 3 3 31 0 26 06 00 6 35 31 2 51 2 40 8 1 2 1 3 3 41 4 21 4 52 ,l 1 4 5 2 1 52 0 01 9 90 5 2 0 84 62 8 42 8 33 5 2 9 12 5 图4 5 绍兴污水厂数据的l m b p 神经网络与支持向量机拟合图谱比较 可见支持向量机的回归预测模型方法的拟合学习样本相对误差值处于0 6 和2 0 之闽。支持向量机方法对学习样本拟合误差略大于人工神经网络方法,这 说明s v m 使用样本数据作为测试数据的拟合能力相对稍逊于人 :神经网络。但是 如果调整各个参数的值,也可以实现较高的准确率,也就是说,一个预测模型的 浙江大学硕士学位论文 优劣不能单独以样本相对误差来评价。 在实际应用中更看重的是预测模型的推广能力,下面比较当学习样本数量不 同的时候,考察支持向量机和人工神经网络的推广能力,未经过学习的数据作为 测试样本,使用的数据时表2 2 的杭州市啤酒厂的样本数据,结果如表所示。 表4 6 学习样本数量不同时的性能比较 学习样本数量l m b p 平均误差s v m 平均误差 51 2 4 5 1 1 7 9 1 01 0 1 9 7 3 3 1 53 6 1 6 2 3 可见在小样本的情况下,支持响亮机的推广能力比人工神经网络要好。因为 支持向量机模型训练学习中采用结构风险最小化准则而不是经验风险最小化准 则,因此,最终获取的模型并非单纯的拟合模型的训练样本,而是平衡的考虑拟 合程度和推广能力。 通过以上实验数据的对比讨论,总结了支持向量机模型和人工神经网络模型 的优劣对比: 夺支持向量机模型的运算速度快。支持向量机模型利用核函数解决了高维 问题,避免了“维数灾难”,运算速度较神经网络快。 夺使用学习的样本数据作为测试数据时,神经网络表现的拟合能力要高于 支持向量机。但是一个预测模型的推广能力要看该模型对于未学习的数 据的拟合能力。 夺推广能力各有所长。在理论角度,支持向量机有着深厚理论的支持,推 广能力有着保障。在实际应用中,优化的人工神经网络同样也具有较好 的推广能力。在小样本学习上,支持向量机模型选择合适的参数,推“ 能力要优于人工神经网络。 夺支持向量机模型参数选择相对简单。通过实例运算,可以得知两种模型 的参数选择都是用过试算法,不过支持向量机有着比较成熟的交叉验证 的方法,而神经网络模型只能依靠设计者的工程经验,试算时问较长。 浙江大学硕士学位论文 第五章紫外扫描式c o d 测量仪上位机系统软件设计 在紫外扫描式c o d 测量仪下位机中使用的是w i n d o w sc e 操作系统,它增 强了w i n d o w s 兼容性、并提供硬件实时处理支持。新的内核服务,例如嵌套式 的中断、更好的线程响应、新增的任务特性、信号量等,使得操作系统能对事件 和中断立即响应。所以,固化在紫外扫描式c 0 d 测量仪下位机中的软件在 w i n d o w sc e 操作系统下高效率的发挥着作用。 但是由于嵌入式系统是面向用户、面向产品、面向应用的,嵌入式处理器的 功耗、体积、成本、可靠性、速度、处理能力、电磁兼容性等方面均受到了一定 的制约。并且处理器没有一般意义的硬盘,只有有限容量的内存及常用的f l a s h 电子盘,不能储存大量的各类测量数据。因此,就需要设计实现一个上位机管理 系统,将紫外扫描式c 0 d 测量仪与上位计算机管理系统进行通信,将紫外扫描 式c o d 测量仪所保存的各种信息传送到上位机,进行进一步的数据分析处理, 建立预测模型和保存到指定的数据库中,所得的机器学习参数再通信到下位机, 以供下位机连续运行计算c o d 值。通过以上分析,上位机系统软件需要如下基 本功能: 冷建立企业信息库:如前绪论所述,影响水质c o d 的因素非常复杂,并 且有着大量的不确定信息,如随机信息、模糊信息等。在不同地区、行 业、污染源,c o d 的值有着巨大的差异,因此,对于所在不同行q k 的 企业均需要建立各自的数据信息库,用于保存各种测量数据,机器学习 参数等。 夺查询和修改企业信息:为每个企业建立丰富企业信息,并允许,卜- 位机系 统管理员进行修改。 夺数据通信:将紫外扫描式c o d 测量仪所测得各类数据通信至上位机中。 夺数据查询:为上位机使用人员提供数据库已有的数据查询功能,并日既 能够表格显示又能图谱显示。这样,既可以为下一步的数据分析提供一 个直观的谱线概念,又能够得到准确地数据数值。 夺数据分析:使用最小二乘法、u 一b p 神经网络、支持向量机等演算方法 对得到的样本数据进行分析、建模。 浙江大学硕士学位论文 5 1 上位机系统软件模块设计 上位机系统软件主要使用面向对象的编程思想来完成分析设计的。由于客观 世界中的实体通常都既具有静态的属性,又具有动态的行为,因此,面向对象方 法学中的对象是由描述该对象属性的数据以及可以对这些数据旎加的所有操作 封装在一起构成的统一体。对象可以做的操作表示他的动态行为,在面向对象分 析和面向对象设计中,通常把对象的操作成为服务和方法。面向对象软件开发模 式,很自然的支持了把系统分解成模块的设计原理:对象就是模块。它把数据结 构和操作这些数据的方法紧密的集合在一起所构成的模块。面向对象方法不仅支 持过程抽象,而且支持数据抽象。在面向对象方法中,信息隐藏通过对象的封装 性实现,具有弱耦合、强内聚和可重用的特点【”】。将陆续介绍上微机系统软件 的各大主要模块。 5 1 1 数据库操作模块 设计此模块时遵循着面向对象设计中的抽象工厂的设计模式。该设计模式的 意图是提供一个创建一系列相关对象的接口,而无需指定他们的具体类型。数据 库的具体操作代码使用标准的s q l 语言。这样的设计将具体的数据库和实现的代 码相分离,当客户所使用的数据库改变的时候,只需要扩展接口即可,而不需改 变操作数据库的代码。数据库操作模块负责完成所有与数据库相关的操作,主要 包括:自动创建企业信息库、保存数据到对应的表等一系列的子模块。 1 自动创建企业信息库 当企业开始测试一种污水时,就需要为这种企业的污水建立一个数据库,数 据库名即为企业的名称。当用户在添加企业界面输入污水类型、企业名称、隶属 监理部门、所在城市、登记日期、所属行业、企业性质、企业地址、邮政编码、 电子邮件、联系电话、移动电活、环保联系人的相关企业信息后,程序将调用该 模块,根据所输入的信息创建下列表,有:企业信息、标准样本测量数据、停电 事件数据、吸光度数据、实时测量数据、小时测量数据、报警事件数掘、日志数 据、样本测量数据、样本扫描数据、空白标定数据。除企业信息表中初始就存有 用户输入的企业信息外,其他表均为空表,字段名称和类型已经设置好。需要强 5 3 浙江大学硕j 一学位论文 调的是用户自己必须在w i n d o w s 的数据源( o d b c ) 中的手动添加系统d s n , 使得外部数据库能够对应程序中数据库。具体流程图如下: 图5l 创建企业信息库流程图 2 保存数据到对应的表 通过r s 4 8 5 实现将紫外扫描式c o d 测量仪下位机所保存的各项数据传输到 上位机保存,就需要把合适的数据保存到指定数据库的对应的表中,因为下位机 保存的数据是采用队列式保存,即保存总数一定,有新的数据就会把最久的数据 覆盖,应该一次通信得到的数据必然有很多重复,也就是说保存到上位机数据库 前要进行判断,重复的数掘就不保存。 由于测量得到的数据类型很多,对应的表的字段名称、类型各不相同,但是 保存数据这个操作思想是相同的,因此就需要抽象出一个相对独立的模块,可以 接受指定的数据库源、通信数据种类,使得不同的数据可以都通过此模块进行保 存。然后将这个模块扩展,使之能够将数据正确保存到指定的表中。保存数据的 模块流程如下所示: 浙江大学硕士学位论文 图5 3串口通信基本模块流程图 基本通信模块完成后,就可以根据所指定的通信协议,扩充通信模块,用户 想要得到什么数据就调用相应的扩展通信模块,如空白标定数据的通信模块,同 时因为得到的数据类型不同,也要根据协议内容对得到的字节进行还原,转变为 原始的测量数据,至此一次通信才全部完成。此后将继续调用数据保存模块,将 数据写入数据库中,通信的整体流程如图5 4 所示: f j ,1 ,指定通f 占内容 硼川干 i 府的通信幞块 + 进行 1 迎信 + 哿f 送成功i j 勺7 ,1 ,还城! 成原始数搦 图5 4 数据通信流群图 浙江大学硕士学位论文 图5 5 数据查询流程图 产生c r c 码后,将码的高位和低位分为两个字节,放置到通信数据最后,当 上位机收到数据后会进行c r c 校验,首先计算出数据的c r c 码,再和传送过来的 c r c 进行比对,如果完全一致则说明通信正确。通信中数据校验的流程图5 6 所 不 “弹迎价数制的校骑码 特技验破矬曲- 通船数撤 的腱龆 协帆“ 蚧! f ;礼垧l 址衍 似他的戡蝌校蛉刚 将汁”的米拉驺娼稿i 迎 船过水的枝牦娼比较 孓迦 、竺竺竺) 浙江大学硕士学位论文 5 1 5 数据分析模块 在上位机系统软件中,数据回归分析模块是最为重要的一个模块之一。一个 好的测量仪器必须具备一个完善的、实用的数学模型,但是又不同于一般意义下 的数学模型,它强调通过二次变量来获得对主导变量的最佳估计。 数据分析方法以现场采集的测量数据为基础,采用线性回归非线性回归方 法直接建立其估计模型,而无须深入了解内部拟台的细节。本节将分别介绍上位 机软件中使用的最小二乘法拟合、l m b p 神经网络和支持向量机的数据处理方 法。 1 最小二乘法拟合 最小二乘法是一种数学优化技术,它通过最小化误差的平方和找到一组数据 的最佳函数匹配。最小二乘法是用最简的方法求得一些绝对不可知的真值,而 令误差平方和为最小。它通常用于曲线拟合。 采用c 十+ 语言完成此模块编写,并且制作成动态链接库d l l 供上位机软件系 统调用。拟成的函数为: v o i dc a l c u l a t e l i n e p a i r ( d o u b l ex ,d o u b l ey ,i n tn ,d o u b l ea , i n tm 1d o u b l ed t ) : 形参说明: x :双精度浮点型一维数组,长度为n 。存放给定n 个数据点的x 坐标。 y :双精度浮点型一维数组,长度为n 。存放给定n 个数据点的y 坐标。 n :整形变量。给定数据点的个数。 a :双精度浮点型一维数组,长度为m 。返回m 1 次拟合多项式的m 个系数。 m :整形变量。拟成多项式的项数,即拟合多项式的最高次数为m l 。要求m = n 且m n 或m ) 2 0 ,则本函数自动按m = m i n n ,2 0 ) 处理。 d t :双精度浮点型一维数组,长度为3 。其中:d t ( 0 ) 返回拟合多项式与数据 点误差的平方和;d t ( 1 ) 返回拟合多项式与数据点误差的绝对值之和;d l ( 2 ) 返回拟合多项式与数据点误差绝对值的最大值。 2 l m b p 神经网络 基于l m b p 人工神经网络的c 0 d 预测模型可以认为是一种黑箱模型,模型将测 浙江大学硕士学位论文 量得到样本数据,即不同波长处的吸光度值作为模型的输入,样本的实际c o d 值 作为模型的输出,通过对历史样本数据的学习,使得该模型具有对未来在线测量 数据的预测能力。 根据第三章所述的人工神经网络原理,分析出神经网络模块学习的步骤是: 首先随机初始化输入层到隐含层、隐含层到输出层的权值矩阵。输入训练样本数 据,求出隐含层和输出层的节点输出,计算训练样本和输出之间的误差,如果误 差满足要求,则训练成功。如果误差不满足要求,并且没有达到最大训练次数, 则反向计算各点误差,再计算各点的误差梯度,修改连接权值。反向运算结束后 再次进行前向运算,知道误差达到要求。流程图如图5 7 所示: 图5 7 神经网络训练流程刚 应用神经网络进行运算的算法相对比较简单:首先调入已经学习好的权值参 数,输入欲仿真的数据,使用向前运算算法计算得出预测的值。流程图如图5 8 所示: 浙江大学硕士学位论文 r 输入欲仿真数据、 + 调入学习好的权戗参数 + 使h 向前运辫钳法汁钳 ( 得到顶测的数捌) 图5 8 神经网络运算流程图 3 支持向量机算法 支持向量机算法所殴计到的数学理论和知识都相当复杂,编程实现该算法的 难度就更大。由于限于时间和精力,本文使用了台湾大学林智仁r l i nc h i h - j e n ) 副教授等开发设计l i b s v m 软件包,它提供了核心算法源代码,笔者修改并编写了 基于核心算法的支持向量机的图形界面软件。在此向林智仁等人表示感谢。支持 向量机算法的流程图如图5 9 所示。 幽5 9 支持向量机算法流程图 浙江大学硕士学位论文 这里介绍l i b s v m 的主要参数含义: s 指s v m 类型:s v m 设置类型( 默认0 ) o c s v c1 一v s v c 2 一类s v m 3 一e s v r4 一v s v r t 指核函数类型:核函数设置类型( 默认2 ) 0 一线性l 一多项式2 一r b f 函数3 一s i g m o i d d 指d e g r e e :核函数中的d e 目e e 设置( 默认3 ) g 指g a m a :默认0 0 0 1 r 指c o e f 0 :核函数中的c o e f 0 设置r 默认0 1 v 指n :n f o l d 交互检验模式 其中g 选项中的k 是指输入数据中的属性数。o p t i o n - v 随机地将数据剖分为n 部分并计算交互检验准确度和均方根误差。以上这些参数设置可以按照s v m 的 类型和核函数所支持的参数进行任意组合,如果设置的参数在函数或s v m 类型 中没有也不会产生影响,程序不会接受该参数;如果应有的参数设置不正确,参 数将采用默认值。t r a i n i n gs e tf i l e 是要进行训练的数据集;m o d e lf i l e 是训练结 束后产生的模型文件,文件中包括支持向量样本数、支持向量样本以及l a g r a n g e 系数等必须的参数;该参数如果不设置将采用默认的文件名,也可以设置成自己 惯用的文件名。 5 2 上位机系统软件的实现 软件之美在于它的功能,在于它的内部结构,还在团队创建它的过程。对于 用户来说,通过直观、简单的界面呈现出恰当特性的程序就是美的。对于软件设 计者来说,被简单、直观地分割,并具有最小内部耦合地内部结构就是美的。通 过卜一节软件设讨的介绍,下一步就是编写程序来实现一个软件系统。一般来况, 对于相同的设计存在着若干种不同的实现方法,可以选择的编程语言和工具也不 少,本软件实现是采用l a b v i e w 和c + + 语言。下面介绍系统的各部分实现情况。 5 2 1 系统主界面 当上位机系统软件启动时就会运行至主界面如图5 1 0 所示,这是整个系统的 浙江大学硕士学位论文 主框架,所有的功能完成都在这个框架下完成。 紫外扫描式c o d 测量仅上往机软件 图5 一l o 系统土界面 位于左侧的是一个二级菜单,注明了水质的类型,每一个工厂对应着一个数 据库,用户可以选择不同水质类型下的不同工厂,然后对该厂进行数据查询、数 据分析等工作。位于界面右上角的文字提示用户现在进行的操作是在哪个工厂污 水上的。界面的下方是上位机软件的主要功能,按键如下:企业信息,增加企业, 数据通信,演算方法,信息查询,参数设置和退出系统。点击不同的按键就将进 入不同的功能模块,点击“退出系统”键就结束本软件。 5 2 - 2 企业界面 和企业界商相关的界面有三个,分别是企业信息界面,增加企业界面和修改 企业信息界面,如图5 1 l 所示。三个界面看上去相似,但是完成的功能不同。企 业信息界面供用户查询企j 的各种信息,包括污水类型、企业名称、隶属监理部 门、所在城市、登记日期、所属行业、企

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论