基于独立分量分析-神经网络回归的柴油组分含量和特性分析_第1页
基于独立分量分析-神经网络回归的柴油组分含量和特性分析_第2页
基于独立分量分析-神经网络回归的柴油组分含量和特性分析_第3页
基于独立分量分析-神经网络回归的柴油组分含量和特性分析_第4页
基于独立分量分析-神经网络回归的柴油组分含量和特性分析_第5页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于独立分量分析-神经网络回归的柴油组分含量和特性分析

现代近红外光谱技术具有分析速度快、再现好、成本低、样品无损坏性等特点。石油、化工、农业产品(食品)和制药等行业的在线质量控制正在逐步实施。对油品而言,其组成变化会引起近红外光谱特征吸收的变化,尽管这种变化非常细微,但通过化学计量学对光谱数据的处理,能得到油品组成变化的信息。但相关研究表明,柴油作为一种多烃混合物,其光谱结构十分复杂,谱图重叠现象严重,用特征峰等简单谱分析方法难以达到测试要求,因此,对近红外光谱数据进行处理、分析和建模是柴油在线软测量的难点和关键点。化学计量学方法是NIR在定量定性分析中有效应用的保证,比如偏最小二乘法(PLS)、主成分回归(PCR)、小波分析、人工神经网络法(ANN)、支持向量基(SVM)方法等在石油加工行业中的应用已取得了一定的进展。通常测得的NIR光谱可以认为是一些纯物质(主要成分)光谱的线性组合,若能够将这些主要成分的光谱从复杂的混合光谱中分离出来,则对于样品成分和相应含量的测定将大有裨益。而这一分离问题可以归结为“盲源分离(BSS)”问题。但是,以上所提及的化学计量学方法都不能用于辨识混合光谱中的未知成分,无法解决上述问题,具有一定的局限性。独立分量分析(Independentcomponentanalysis,ICA)是近年发展起来的一种全新的数据分析工具,是解决盲源分离问题的一种有效方法。自20世纪90年代出现以来,ICA方法已经在特征提取、生物医学信号处理、语音信号处理、图像处理及人脸识别等方面得到了广泛的应用,在光谱处理方面也逐渐显示了它的强大作用。笔者将ICA方法应用于柴油的近红外光谱分析,并结合人工神经网络回归建立了影响柴油的十六烷值、芳烃含量以及密度等主要性能的校正模型。该方法先测定柴油的近红外光全谱数据,再对该数据进行ICA分解,提取独立成分矩阵和相应的混合系数矩阵,最后利用ANN回归算法分别建立柴油十六烷值、芳烃含量、密度与光谱经ICA分解所得混合矩阵之间的数学模型,并通过该模型对油品进行定量分析,取得了较好效果。1基本理论1.1混合信号的存记X=[x1,x2,…,x1]T为获得的l个传感器信号,S=[s1,s2,…,sm]T为m个未知源信号,M是l×m混合矩阵,其元素为mij(i=1,2,3-…,l;j=1,2,3…,m),则ICA的基本模型可写为(要求l≥m):ICA的目的是在假设源信号相互统计独立的条件下,仅通过可获得的l个传感器信号来估计混合矩阵M以及源信号S,即要求找到分离矩阵W使其满足其中是S的估计,W就是混合矩阵M的MoorePenrose逆。ICA属于盲信号处理(Blindsignalprocessing,BSP)问题,“盲”意味着对混合信号体系的信息知之甚少,在对源信号和传输通道几乎没有可利用信息的情况下,仅从观测到的混合信号中提取或恢复出源信号。ICA的基本原理可以粗略地概括为两条:(1)原理一:去相关。求解混阵W使其任意两输出(i≠j)不但本身不相关,而且经非线性变换后的分量g(),h()也不相关。函数g,h自然要适当选择。(2)原理二:使输出尽可能非高斯化。在输出某分量的方差恒定的条件下,将输入X各分量作线性组合。优化选择各权重bi,使尽可能非高斯化,则的非高斯性的每一个局部极大值给出一个独立分量。1.2浓度矩阵与m个独立成分的函数关系:一个说明Beer-Lambert定律是光谱定量分析的理论基础,根据该定理,对于未知的混合体系,测得的近红外光谱通常认为是一些纯物质(主要成分)光谱的线性组合。因此,对于油品样本的NIR光谱数据矩阵Al×n,亦可建模为各成分的光谱信号与其浓度乘积的加和:式(3)中,Al×n是l个样本在n个波长处的近红外光谱数据矩阵;Im×n是独立成分矩阵,在理想的分解状态下相当于纯物质的光谱数据矩阵;Ml×m是混合矩阵,它与纯物质在混合样品中的浓度有关。ICA根据式(3)的模型,将每个样品的近红外光谱作为m个独立成分的线性组合。光谱矩阵A经分解后,所得I的每一行相当于一种统计独立成分的光谱信息,该独立成分在混合光谱中的相对浓度信息,在混合矩阵M中得以体现,即M的每一列可以被认为是某一独立成分(IC)光谱在混合光谱中的权重大小,代表该IC对整个采样样品NIR光谱的贡献。因此,混合矩阵M与浓度矩阵C之间存在一定的函数关系。应该指出的是,ICA分离出的成分是相互独立的,而传统的主成分分析(PCA)和因子分析(FA)分离出的成分则是相互正交的,这是ICA与PCA、FA的主要区别。后者在实际计算时只涉及到输入数据的二阶统计量(仅利用信号的协方差矩阵),分离出的成分是相互正交的,而根据数理统计的观点来看,实际信号的大部分重要信息往往包含在高阶统计特性中。ICA方法利用的独立性就是高阶统计量,是比PCA方法的正交性更强的条件,因此,在近红外光谱分析中,分离出的独立的分量比正交的分量包含更多的化学信息,更接近实际光谱。值得注意的是,混合矩阵M与浓度矩阵C之间的函数关系可能为线性,也可能为非线性的。因此,使用人工神经网络替代一般的线性回归模型,建立基于ANN回归定量分析模型。考虑BP神经网络的设计,将经ICA分解所得的混合矩阵M作为输入,要求预测的浓度矩阵C作为网络的输出,采用具有三层的神经网络。2实验部分2.1近红外光谱的采集实验数据由SoutwestResearchInstitute(SWRI)提供。所用柴油不含十六烷值改进剂。柴油近红外光谱数据采用Nicolet6700型傅里叶红外光谱仪,光谱采集范围是750~1550nm,分辨率0.4cm-1,数据间隔2nm,每个样品扫描10次,总共采集了245个柴油样品的近红外光谱。按ASTMD-613方法测定十六烷值(CN),分布范围为40.3~61.3;按ASTMD-5186方法测定芳烃质量分数,分布范围为13.0%~47.2%;按ASTMD-4052方法测定密度,分布范围为0.8043~0.8716g/ml。将样本划分为训练样品集、验证样品集和测试样品集,其中测试样品集从245个样品中均匀选取20个而生成,余下的一半作为训练样品集,另一半作为验证样品集。训练样品集和验证样品集组成校正集,用于建立校正模型。校正集柴油样品的近红外光谱如图1所示。在实际柴油NIR光谱获取过程中,采样的光程、油品的颜色、光谱的背景漂移、仪器噪声及环境干扰等均会混入光谱信号中,因此有必要先对柴油的近红外光谱进行预处理,以提高其抗干扰性。笔者先用移动窗口平滑法对原始光谱作处理以消除仪器噪声对光谱造成的漂移影响,然后再对光谱数据进行一阶微分以清除光散射、克服样本颜色及光源强度变化的影响。2.2预测过程分析采用的柴油NIR光谱分析方法主要包括光谱预处理、ICA分解、ANN回归和预测模型4个方面。主要的ICA-NNR算法步骤为:(1)按平滑窗口大小取3,一阶微分点数取4,对柴油NIR光谱作预处理;(2)利用JADE算法对光谱数据进行ICA分析,提取独立分量矩阵和混合矩阵;(3)由混合阵作为输入,建立BP神经网络模型,分别建立十六烷值、芳烃含量、密度与混合阵的关系;(4)由训练好的模型对柴油预测样本集进行十六烷值、芳烃含量和密度的定量分析。所用核心算法程序为自编MatlabR2007b软件(Mathworks)环境下JADE算法和BP神经网络算法。校正模型以校正集标准偏差(SEC)作为评价,SEC的数值越小越好;在模型预测过程中,以验证集的均方根误差(RMSEP)和相关系数(R)的大小作为模型预测准确度的评价,RMSEP的数值越小,R越大,模型的预测准确度越高。SEC与RMSEP的定义分别为其中yi为yi的预测值,m为校正集样品数,n为验证集样品数。3结果与讨论3.1隐层神经元数的确定采用3层BP神经网络:输入层、中间隐层和输出层。输入层与隐层、隐层与输出层之间的传递函数分别用tansig函数和purelin函数,优化学习算法选用的是Levevberg-Marquardt学习算法。网络的输入是经ICA计算得到的混合矩阵M,因此对于ICA分析中独立分量数的选择不仅关系到JADE算法的精度,而且与网络的运行速率以及所建模型的精确度有关。在实际操作中,将采用不同的独立分量数来得到最优的数值。其次,隐层神经元数也关系到模型的拟合精度,因此需要通过选取不同的值来得到最优。最后,由于该网络是对柴油样品中十六烷值、芳烃含量和密度的定量分析,输出层节点数可以固定为1个,也可同时对它们进行分析,选取输出节点数为3个,笔者采用的是前者,分别建立各自的定量分析模型。首先,对于人工神经网络中间隐层神经元数的确定,通过分析组分含量测定的RMSEP值与nods之间的关系,十六烷值、芳烃含量的测定模型和密度的关联模型中网络中间隐层节点数均采用nods=5。其次,对于ICA分解中分量数ICs的选择不仅关系到ICA算法的精度,而且与网络的运行速率以及所建模型的精确度有关。在实际操作中,将采用不同的分量数来得到最优的数值。图2给出了芳烃含量测定的RMSEP、R值与分量数ICs之间的关系曲线。由图2可知,随着独立分量数目ICs的变化,芳烃含量测定的相关系数R与ICs的关系曲线出现极大值点,相应的RMSEP与ICs的关系曲线出现了极小值,两曲线所呈现的结果是相符的。此外,在ICs由4到5变化时,R与RMSEP均出现较大的变化,并且再随着ICs的增加,其变化都比较微小。综合计算量和模型精确度两方面考虑,选取极值点附近所对应的ICs值作为该模型的独立分量数,由图2可知芳烃含量测定的模型中ICs值应取:ICs=8。同样地,对十六烷值的测定模型和密度的关联模型亦可得到最优取值,分别为ICs=8和ICs=6。3.2柴油质量的关联校正模型的建立所建立的测定柴油样品中芳烃含量、十六烷值和密度大小的3个校正模型主要参数见表1。将模型的SEC与ASTM标准方法的再现性要求作比较,近红外光谱的预测偏差在要求的范围之内。在模型的预测过程中,首先用验证样品集对训练样品集的参数进行优化,然后对预测集进行预测。笔者采用ICA-NNR方法,选取之前获得的最优参数(nods=5,ICs=8、8、6),分别建立了十六烷值、芳烃含量的测定模型和密度的关联模型。(1)主要成分含量测定的校正模型。校正集样品芳烃含量的模型测定值与标准方法测定值的相关性分析见图3,可以看出,模型测定结果与标准方法测定结果之间具有很好的线性相关关系。此外,利用模型对预测集中的未知样品进行预测,相关系数达到R=0.9894,均方根误差值RMSEP=1.57,比较结果见表2。可见,除了3个样品外,其余17个样品的预相对误差均小于6%。对于十六烷值的测定,整个预测集中,模型预测值与标准方法测定值之间的相对误差只有4个样本在5%~10%之间,其余的均小于5%。笔者所建模型是基于无十六烷值改进剂的柴油样本,因此只适用于本类柴油样本的定量分析,对于添加十六烷值改进剂柴油的预测需要重新采集样本建立模型。(2)柴油的物理性质——密度的关联校正模型。将密度与近红外光谱进行关联,利用所提出的ICA-NNR方法建立关联模型。校正集样品密度的模型测定值与标准方法测定值的相关性分析见图4。可见,预测结果与标准方法测定结果之间具有很好的线性相关性关系。此外,利用模型对预测集中的未知样品进行预测,相关系数达到R=0.9746,均方根误差值RMSEP=0.0044。对于整个预测集,模型的预测值与标准方法测定值之间的相对误差均小于1%,预测的精度较高。下面用现行常用的PLS、PCR方法建立柴油组分分析模型,并与本文所用方法作比较。利用3种方法对芳烃含量和密度分别建立校正模型,所建模型主要参数和预测能力的比较结果见表3。其中所用的预处理方法的参数与表1相同。可见,笔者所建的模型在SEC、RMSEP和R3个指标上均优于PLS和PCR方法。4近红外光谱分析模型从上述柴油性质与其近红外光谱相关性研究可以看

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论