电子鼻的研究.doc_第1页
电子鼻的研究.doc_第2页
电子鼻的研究.doc_第3页
电子鼻的研究.doc_第4页
电子鼻的研究.doc_第5页
免费预览已结束,剩余40页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电子鼻的研究 第1章 绪 论1125条件下经过24小时的繁殖周期的真菌和细菌A Bockreis and J Jager应用电子鼻对环境中的危险气体进行检测从而监控环境大气质量15比利时的Martyna Kuske等检测微生物中的易挥发混合物MVOCS以检测室内环境真菌污染16结果表明电子鼻能够辨别发霉及未发霉样品并且能够识别某种真菌CDelpha等人使用电子鼻系统对空气中的二氧化碳浓度进行检测从而对环境湿度进行监控医学领域随着电子鼻技术的快速发展其在医学领域的应用也日渐普遍起来AK Pavlou利用电子鼻对油门杆菌和试管培养的胃食道菌进行分析识别以检测身体疾病17国内浙江大学的王平教授所带领的课题组利用电子鼻系统诊断早期肺癌提出一种基于虚拟气敏传感器阵列和图像识别方法的无创肺癌检测电子鼻1819公共安全领域为了保障公共场所的人身和财产安全在机场车站等公共场所检查可疑爆炸物是一项极其重要的工作这些地点大多人员杂乱人流速度很快环境复杂因此在这些公共场所的探测任务变得十分复杂美国的Yinun等人应用电子鼻系统检测爆炸物及化学武器的挥发气体20相较于其他检测方法该电子鼻系统具有体积小成本低廉可靠性高和能够实现批量生产等众多优点意大利的S De Vito等人使用电子鼻系统分析硫质喷气孔火山口的气体21为整个网络提供火山区域大量并且复杂的动态信息农业科学在很长一段时间农业生产过程中农作物一直是依靠人的经验进行分类和评级然而气味可以作为一个重要特征用于检测作物的健康状态马来西亚的MAMarkom等人提出一种电子鼻用于检测植物疾病用商业电子鼻产品Cyranose 320对植物进行检测模式识别算法中采用的是工神经网络ANN现场采集气味样本并在计算机中对其进行分类识别其结果表明该电子鼻系统在大多数情况下能够区别健康和感染的植物茎22澳大利亚的Jae Ho Sohn等人利用电子鼻系统对养鸡场进行监控23需要清楚复杂气味的产生机理气味场所识别策略等尽最大可能降低排放气体对周围环境的影响其结果表明该电子鼻系统在监测气味浓度时有良好的表现122 商业化的电子鼻目前国际上已经出现众多制造电子鼻的厂商例如法国的Alpha MOS公司有几种电子鼻产品以声表面波Surface Acoustic WaveSAW传感器为主24美国的Electronic Sensor Technology公司有一种名为zNose的电子鼻也是采用SAW传感器德国的Airsensor Analytics则是采用金属氧化物传感器Metal Oxide Semiconductor SensorMOS25大部分厂商的电子鼻都是在电脑上加装电子鼻电路等装置也有少数公司研究掌上型的电子鼻最有名的是Cyranoscience后来被Smith Detection收购该公司使用32个导电聚合物传感器阵列此外还有其他多种电子鼻产品如表1-1所示电子鼻虽然已经发展了很多年但其具体实现至今仍停留在大型仪器且价格大多昂贵对混合气体的识别能力有待加强主要原因是除了在实验室中能产生单一气体的环境以外日常生活中所遇到的情况空气中实际上包含了未知气体成分当空气中掺杂有未知气体时其算法比气体成分全属已知的情形要复杂的多目前电子鼻相关的研究对于单一已知气体的模式识别算法已经具有相当高的准确率939526但是对于测试气体中含有未知气体的情况则尚没有有效的模式识别算法123 气敏传感器技术气敏传感器的选择对于一个电子鼻系统是至关重要的其主要有以下3个性能指标1稳定性稳定性是指气敏传感器在工作范围内的基本响应特性考察的依据分别是零点漂移和区间漂移零点漂移是指在不检测待测气体时的整个工作时间内传感器对基本线性条件的响应2灵敏度灵敏度是指传感器的输出增量与被测气体的输入量的比值大多数气敏传感器都是采用生物化学电化学物理或者光学的设计原理3耐腐蚀性耐腐蚀性是指传感器在长时间处于高浓度气体中正常检测的能力当传感器从高浓度气体返回正常工作条件时传感器的漂移和零点校正值应尽可能的小此外出于经济方面的考虑传感器应该做到成本低寿命长便于标定和维护无需复杂的外围设备支持等特点如今大多数电子鼻系统所采用的传感器大概可分为以下几类1金属氧化物传感器金属氧化物传感器的原理是利用气体与半导体相互接触时所引起的半导体性质的变化从而达到测量气体的目的金属氧化物传感器可大致分为表面电阻控制型体电阻控制型和非电阻型272质量型气敏传感器质量型气敏传感器可大致分为石英压电型和声表面波型两种石英压电型气敏传感器中的石英压电晶体是灵敏度的质量检测元件当有气体分子吸附在表面涂层材料以后石英晶体的质量略微增加振荡频率下降所以振荡频率的变化是特定气体浓度的线性函数采用此种方法已经成功实现了对NH3NO2SO2SO3CO等有害气体的检测灵敏度可达到10-9级声表面波型气敏传感器能够探测到气体吸附后所引起的持续波的扰动具有灵敏度高信号易处理抗干扰能力强等特点3电化学型气敏传感器电化学型气敏传感器有液体电解质和固体电解质两种固体电解质气敏传感器的产量比较大应用范围广液体电解质气敏传感器利用气体氧化或还原产生的电流来检测气体或根据气体溶解的离子化过程中离子作用于电极产生电动势来检测气体284导电聚合物型气敏传感器一般本征导体聚合物ICP都包含线性重复的共轭单元如聚乙炔聚苯胺等这些物质本身是绝缘的但电化学还原或氧化使聚合物有了导电的特性它们的导电性形成于带结构的转化或电荷载体的产生当吸附气体以后ICP物理溶胀影响聚合链上的电子密度电流电导产生变化电导变化与检测物浓度有关因此测量聚合物电导即可检测被检测物浓度大小13 研究内容设计了基于Labview的电子鼻系统包括硬件部分和软件部分1硬件的设计主要包括数据采集调理电路传感器阵列及气室数据采集部分采用HYtek Automation公司的iUSBDAQ-U120816数据采集卡传感器阵列部分选用日本费加罗公司的8个TGS-8系列金属氧化物传感器2软件设计上首先搭建基于Labview的电子鼻系统平台由于Labview是图形化界面方便用户操作能够解决电子鼻系统不易操作的问题并且目前没有任何一种模式识别算法适用于所有被检测物本课题将在平台中集成目前应用于电子鼻系统中的几种主流算法如人工神经网络算法统计模式识别算法等由用户选择适宜的模式识别算法实现识别方法选择上的自由性并能够应对更多种类的被检测物电子鼻系统的最终目的是对被检测物进行识别所以一个有效的算法是电子鼻系统的核心部分利用以中位数作为临界值的K-最临近分类法对5种醋数据进行模式识别达到了良好的识别效果并对未归类气体做出了比较正确的排除机制通过与传统的K-最临近分类法对比证明了改进后的KNN算法在电子鼻系统模式识别的优势第2章21 电子鼻系统结构及工作流程一个完整的嗅觉过程可分为3个阶段291气体分子经过空气传播扩散到鼻腔与嗅觉细胞表皮纤毛上皮细胞的G受体结合蛋白作用产生神经信号2神经信号在嗅觉细胞神经网络和嗅球中经过一系列的处理加工后输入到大脑3大脑接收输入的神经信号并做出分析和判断而电子鼻系统是仿照人的嗅觉器官所设计的其工作流程与嗅觉过程比较相似其组成部分主要有4个气敏传感器阵列气室数据采集电路及模式识别算法其中气敏传感器阵列是整个电子鼻系统最关键的部分当气体与处于工作状态的气敏传感器接触其能够获取气体的指纹信息并将其转换为电信号气室把传感器阵列封装在里面使其避免受到外界空气的干扰以提高检测的精度数据采集卡和配套的Labview平台共同组成了一套软件测试模型完成气敏传感器阵列的信号采集波形显示特征值提取数据存储数据预处理模式识别等基本功能一个完整的电子鼻系统的结构如图2-1所示工作流程框图如图2-2所示首先被检测气体与加热的气敏传感器阵列接触并吸附于其表面传感器的电阻值随吸附量的增加而增高其两端的电压便是我们所要测量的值电压信号经过信号调理电路的调理使其能够被数据采集卡所读取数据采集卡将采样数据传送至上位机基于Labview的电子鼻系统平台能够实时显示波形并存储数据平台中集成的数据预处理算法能够对信号做预处理工作最后由工作人员选取平台中集成的模式识别算法对样本类别做出判断其中数据采集电路采用iUSBDAQ-U120816型号采集卡传感器阵列选用费加罗公司的8个TGS-8系列金属氧化物传感器22 电子鼻系统硬件结构设计 电子鼻系统的硬件部分主要工作是完成气敏传感器阵列与气体分子的吸附反应并将气敏传感器阵列的响应信号传送到上位机中的电子鼻系统软件部分硬件性能的好坏与否对整个电子鼻系统有严重的影响一个良好的硬件系统应该能使气体分子在适宜的环境下与传感器充分接触能够真实准确的反映气敏传感器的响应过程能够把气敏传感器获取的电信号精准的传递给电子鼻系统的软件部分本节将从传感器阵列信号调理电路和数据采集卡着手阐述电子鼻系统的硬件设计221 气敏传感器阵列气敏传感器就相当于嗅觉系统中的嗅觉神经细胞其主要功能是吸附周围特定敏感的气体分子其吸附的过程将表现在传感器组织的变化上单一的气敏传感器只对某一种或者某一类气体分子有良好的响应但是被测物质挥发出的气味成份大多数比较复杂能够包含多种组分所以根据应用的需要选择多个气敏传感器组成传感器阵列是十分必要的在一个完整的电子鼻系统中气敏传感器是整个系统的重要部分之一传感器阵列的性能直接关系到系统的识别能力应用范围和使用寿命因而传感器的选择及阵列的构成是电子鼻系统设计的一个关键技术在绪论中对传感器的类型已经做了基本介绍综合考虑各类气敏传感器的工作原理稳定性选择性等因素最终确定使用日本费加罗FIGARO公司的TGS-8系列金属氧化物传感器目前金属氧化物传感器比较成熟并且其应用也最为广泛该类传感器的气敏材料是锡钛锌等的氧化物目前常用的材料主要有三种SnO2ZnOFe2O3当气体接触到该种气敏传感器时表面发生吸附或者脱附反应引起以载流子运动为特征的电导率的变化从而使两个电极之间的电阻产生变化材料的半导体性质决定变化的大小以及快慢传感器的工作温度在200400其内部设置了电压为5V的加热装置首次使用需加热7天以上在此之后的每次工作之前都要预热达96小时以上所采用的TGS-8系列传感器的型号及性能如表2-1所示其具有如下优点1传感器的阻值与被测气体的浓度呈指数关系具有较高的灵敏度2稳定性好使用寿命长耐腐蚀性好3恢复时间短4结构简单成本低廉可靠性高5调理电路结构简单其电阻率变化大不需要放大电路即可与上位机通信由于金属氧化物传感器属于表面电阻控制型元件在测量时其电阻值会发生变化进而两端的电压就会变化所以对气体的测量实际上就是对传感器两端电压的测量所采用的8个TGS系列传感器的规格各不相同所以其配套的采集加热电路也各不相同下面将以其中的一个传感器TGS-822为例阐述传感器的工作过程TGS-822所配套的采集和加热电路如图2-3所示图中VH为加热电压VC为回路测试电压VRL为负载电压RL为负载电阻传感器配套电路中需要2个独立的直流稳压电源其中一个给传感器中的加热器供电负责预热VH另一个作为测试回路的电源VC在测试回路中还需要串联一个负载电阻RL我们检测的便是负载电阻两端的电压VRL根据传感器参数手册VH设为5VVC设为12VRL则根据具体的传感器参数而设定这样既不会因为输出过大而超过数据采集卡的量程也不会因为输出过小而需要在后端增加放大电路传感器的电阻RS可用下式计算 2-1其功耗PS值可用下式计算 2-2图2-4是其典型的灵敏度特性以及受温度湿度影响的典型曲线全部是在标准试验条件下得出的结果纵坐标以传感器电阻比RSR0表示左图中RS是不同浓度气体中的电阻值R0是300ppm乙醇中的电阻值右图中RS是含300ppm乙醇各种温湿度下的电阻值R0是含300ppm乙醇20 65RH下的电阻值222 信号调理电路调理电路是将传感器阵列产生的非电量信号转化成可测量的电信号经过模数转换后为模式识别部分提供原始数据系统采用分压式信号调理电路如图2-5所示回路电压VC为12V的直流电压TGS代表气敏传感器气敏传感器表面吸附气体分子反应后阻值会发生变化通过检测负载电阻R2两端电压的变化来反映传感器信号的变化另外传感器长时间不用时需要进行预热本电路选择5V直流电压作为加热电压为了去除干扰及系统的简洁化采用简单的RC并联电路进行滤波PCB电路图用Protel 99se绘制并由厂家加工制作成PCB电路板PCB图如图2-6所示223 数据采集卡数据采集卡选用锐选自动化科技上海有限公司的iUSBDAQ-U120816型号采集卡如图2-7所示它有8个模拟输入通道准5VUSB数据线供电电源以及5个模拟地线数字通道及数字地线因为在本课题中未涉及所以不做介绍其端口排列情况如图2-8所示AI0-AI7为8个单端模拟输入通道它是12位的AD转换器测量范围是0-4096V因此其分辨率为1mviUSBDAQ支持流模式和扫描的数据采集用户可以一次扫描单通道或多通道在扫描模式下执行时间是8ms所以这将使扫描模式的采集频率也叫软件定时的数据采集为125HZ在流模式下设备能立即将数据实时传送到PC或者等待外触发器开始传输数据到电脑这是软件可调的在触发模式中上升沿rising edge的触发线将触发数据采集在传输过程中该LED会闪烁但在采样频率很高的时候用户可能看不到它在闪烁因为其闪烁的非常快最大的实时采样点传送到PC的通过率会随着所选的通道个数的变化而变化最大通过率为32Ksampless表2-2显示最大的通过率和通道个数的关系采样率数据通过率综合扫描速度和通道数量之间的关系如下所示采样率 扫描速度 通道数量 2-3 例如一个扫描速度为4000的8个输入通道总采样率就是32Ksampless对于流传输模式最低采样率是128sampless如果低于这个要求用户可以使用扫描模式或过量采样本课题所采用的采样率就是128sampless23 电子鼻系统软件设计完成系统的硬件部分设计后软件平台的开发就成为整个电子鼻系统的重要环节本课题所开发的平台应具有以下几个功能特点1操作界面简洁友好即使是非研究人员的普通用户也能使用本测试平台进行采集和测量2建立用户注册和登录的机制使平台能够面向多用户3实时波形现实数据的存储以及调用用户可在平台中选择读取哪几个通道4常见预处理及模式识别算法的集成因为平台的定位是面向多种被检测物但是目前没有一种算法能够适合于所有的被检测物所以方便用户选择适宜的预处理和模式识别算法鉴于以上几点本课题采用虚拟仪器技术构建基于Labview的电子鼻系统实现数据采集数据显示数据存储数据库访问特征值提取信号预处理和模式识别等功能231 Labview简介我们首先要介绍虚拟仪器的概念虚拟仪器Virtual Instrument缩写为VI是基于计算机的仪器是将仪器植入进计算机里面以计算机硬件和操作系统为基础实现各种仪器的功能虚拟仪器和传统仪器的基本结构比较如表2-3与传统仪器相比虚拟仪器在程序智能化处理能力性价比可操作性等方面都具有显著的优势具体有以下3点1智能化程度高虚拟仪器的智能化程度主要取决于仪器的软件水平用户可以根据实际应用需求将信号处理算法人工智能技术和专家系统应用于仪器的设计与集成将智能仪器的水平提高到一个新的层次2复用性强运用虚拟仪器的思想仅用相同的基本硬件就可构造多种功能的测试分析仪器可设计出数字示波器逻辑分析仪计数器等多种仪器这样的测试仪器系统功能更加灵活系统成本更低通过与计算机进行网络连接还可以实现虚拟仪器的共享更好地发挥仪器的使用价值3可操作性强虚拟仪器面板可由用户定义针对不同应用可以设计不同的操作显示界面使用计算机的多媒体处理能力可以使仪器操作变得更加直观简便易于理解测量结果可以直接进入数据库系统或通过网络发送测量完后还可打印显示所需的报表或曲线这些都使得仪器的可操作性大大提高而本课题所使用的Labview软件是由美国国家仪器NI公司开发的一种程序开发环境其与其他计算机语言的最显著区别是其他大多数语言的编程是通过代码实现而Labview使用的是图形化语言编程简单而且易读懂232 基于Labview的电子鼻系统功能基于Labview的检测平台是整个电子鼻系统的核心部分主要包括测试参数设定波形显示特征值提取数据库存储与访问等基本功能所有的操作都是基于Labview平台并结合各子VI模块来实现的程序流程框图的编程方式使开发环境以及操作环境更加人性化大量独立封装的通用功能模块另开发者不用关心底层的程序架构只需灵活调用所需的模块以及编程接口就能快速构建相应的测试模型节约了开发时间软件系统结构框图如图2-9所示Labview的总程序框图如图2-10所示本电子鼻系统功能如表2-4所示233 平台功能实现主要功能模块简要介绍如下1登录模块该模块实现的功能为新用户注册用户登录以及账户管理的功能登录注册界面如图2-11所示账户管理界面如图2-12所示2数据采集模块数据采集模块是整个平台中最为重要的部分该模块的程序流程图如图2-13所示采集界面如图2-14所示该界面提供实时数据波形图显示改变采样频率改变数据存储路径瞬时电压值显示以及设置采集通道的数量等功能2数据预处理模块该模块主要完成对各类样本测量数据的预处理实验过程所采集的数据是传感器阵列各时刻的瞬态特性所以在分析前需进行特征提取本系统根据采集信号的特点选择稳态时的最大值为特征数据为了消除噪音等环境影响对所选的特征数据进行归一化处理归一化后的数据可以选择降维或直接分析处理图2-15为预处理中的归一化的操作面板图2-16为归一化的程序框图3模式识别模块本文基于Labview提供的MATLAB Script节点实现了与MATLAB的无缝连接可以实现多种模式识别算法目前系统中集成的模式识别算法包括BPLVQRBFSOM和KNN等图2-17所示为BP神经网络算法的前面板从图中可以看出其操作方法十分简便可以供非专业人员使用为实现电子鼻的商品化提供了可能性图2-18为BP神经网络的程序框图24 电子鼻系统调试与优化241 信号噪声及抑制措施电子鼻测量被检测物时受到的噪声干扰比较明显采集的原始电压信号波形有许多毛刺如若不采取控制噪声的措施会对特征提取直至最后的模式识别造成很大的影响所以为了提高电子鼻系统的检测准确度尽可能的控制噪声显得尤为重要噪声是指电路在信号传输过程中产生的杂乱信号噪声在时域里通常具有随机性无法预测其固定频率信号传输过程中主要存在3种噪声类型1器件噪声每一个元器件都有独特的噪声频谱对电路产生影响如电阻热噪声晶体管散粒噪声以及基于电感的开关电源的开关噪声这一类噪声主要源自内部期间固有噪声注入信号传播途径2辐射噪声电磁辐射源通过空间传播至敏感设备所造成的噪声比如继电器开关或电动机在通过辐射的方式讲噪声耦合到信号线上辐射噪声也可以通过PCB走线之间传递3传导噪声此类噪声本身存在于电路的传导路径中与有用的电信号叠加在一起影响电路正常工作传导噪声常见于电路板的电源线与信号走线器件噪声或辐射噪声可能是产生传导噪声的源头目前已经有成熟的措施能够有效减弱甚至消除以上所属的噪声类型产生的干扰信号在对噪声影响严重的电路进行改进时要首先考虑器件噪声是否存在本课题在每一个气敏传感器的配套电路中都设计RC并联电路进行滤波降噪在Labview的数据采集界面显示采用了RC并联电路滤波的方法后数据波形变得比较平滑且稳定241 传感器漂移及其校正通过测试我们不难发现即使是同样的样品也会因为传感器的漂移而导致出现数据不一致的情况如果在这时直接读取电压值信号进行分析就会把漂移因素带进来导致整个电子鼻系统的可重复性和稳定性下降目前校正传感器漂移的方法有主成分分析校正偏最小二乘法校正和参比样品校正等虽然这些校正方法对于某些特定种类的传感器有良好的校正效果但是这些方法的通用性和试用范围还需进一步的考察在一个电子鼻测试系统中算法属于整个系统的后期阶段我们应该首先考虑用一些简单的方法实现校正而尽量避免在系统前端就造成严重的漂移影响而给后期的处理算法带来过重的负担首先传感器在进行了一次测试之后我们将样本移出气室用微型风扇对传感器进行吹扫即所谓的传感器清洗吹扫20分钟后才开始进行下一阶段的测量这样能够尽可能让每一个传感器在进入下一次测量之前清洗掉表面吸附的敏感气体分子一做好进行测量下一个样品的准备其次采用基线校正方法基线校正方法就是人为的把某一次测量值记录下来设为基线值然后用测量值与基线值做比较基线校正的目的是消除背景信息的干扰使响应信号尽可能的体现测试对象的真实属性基线校正的过程如下1开机后的初次清洗过程中测量值被保存下来作为基线值2每次都将测试所得信号与基线值做比值运算将两者比值作为传感器响应曲线图的纵坐标这就相当于去除传感器漂移所带来的背景干扰3当一轮测试完成后进行清洗操作记录清洗后的测量值作为新基线值这样进行反复的清洗反复的调整基线值能很好的消除背景干扰减小气敏传感器的漂移程度提高测试数据的稳定性第3章31 电子鼻系统中的聚类算法聚类是将物理或抽象对象的集合组成为由类似的对象组成的多个类的过程由聚类所组成的簇是一组数据对象的集合这些对象与同一簇中的对象彼此类似与其他簇中的对象相异在许多应用中可以将一些簇中的数据对象作为一个整体来对待聚类是研究数据间逻辑上或物理上的相互关系的技术其分析结果不仅可以揭示数据间的内在联系区别还可以为进一步的数据分析提供重要依据它是数据挖掘技术中的重要组成部分作为统计学的重要研究内容之一聚类分析具有坚实的理论基础并形成了系统的方法学体系在机器学习领域聚类分析是无学习与分类不同聚类不需要依赖事先定义的类和带符号的训练实践所以聚类分析是观察式学习而不是示例式学习在数据挖掘领域研究工作已经集中在为大型数据库的有效实际的聚类分析寻找的方法活跃的研究课题集中在聚类方法的可伸缩性方法对聚类复杂形状和类型的数据的有效性高维聚类分析技术以及针对大型数据库中混合数值和分类数据的聚类方法聚类分析计算方法主要有如下几种 划分法partitioning methods首先创建k个划分k为要创建的划分个数用循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量典型的划分方法包括动态聚类法也称逐步聚类法k-means模糊C均值FCM2层次法hierarchical methods创建一个层次分解给定的数据集分为自上而下分解和自下而上合并两种方式为弥补分解与合并的不足层次合并经常要与其它聚类方法相结合例如在自底向上方案中初始时每一个数据纪录都组成一个单独的组在接下来的迭代中它把那些相互邻近的组合并成一个组直到所有的记录组成一个分组或者某个条件满足为止代表算法有BIRCH算法CURE算法CHAMELEON算法等 基于密度的方法density-based methods根据密度对象聚类根据对象周围的密度如DBSCAN不断增长聚类典型的基于密度方法包括DBSCAN Densit-based Spatial Clustering of Application with Noise 该算法通过不断生长足够高密度区域来进行聚类能从含有噪声的空间数据库中发现任意形状的聚类此方法将一个聚类定义为一组密度连接的点集OPTICS Ordering Points To Identify the Clustering Structure 并不产生一个聚类而是为自动交互的聚类分析计算出一个增强聚类顺序基于网格的方法grid-based methods首先将对象空间划分为有限个单元构成网格结构然后用网格结构完成聚类STING STatistical INformation Grid 就是一个利用网格单元保存的统计信息进行网格聚类的方法CLIQUE Clustering In QUEst 和Wave-Cluster 则是将基于网格与密度相结合的方法基于模型的方法model-based methods假设每个聚类的模型并发现适合相应模型的数据典型的基于模型方法包括统计方法COBWEB是一个常用的增量式概念聚类方法它的输入对象采用符号量来加以描述采用分类树的形式创建一个层次聚类CLASSIT是COBWEB的另一个版本它可以对连续取值属性进行增量式聚类它为每个结点中的每个属性保存相应的连续正态分布均值与方差并用一个改进的分类能力描述方法即不象COBWEB那样计算离散属性和而是对连续属性求积分但是CLASSIT方法也存在与COBWEB类似的问题它们都不适合对大数据库进行聚类311 K均值K-meansK-means算法是典型的距离的聚类算法用距离作为相似性的评价指标即认为两个对象的距离越近相似度就越大认为簇是由距离靠近的对象组成的因此把得到紧凑且独立的簇作为目标 k个初始类聚类中心点的选取对聚类结果具有较大的 影响因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心初始地代表一个簇该算法在每次迭代中对数据集中剩余的每个对象根据其与各个簇中心的距离将每个对象重新赋给最近的簇当考察完所有数据对象后一次迭代运算完成新的聚类中心被计算出来如果在一次迭代前后J的值没有发生变化说明算法已经收敛 算法过程如下 1从N个文档随机选取K个文档作为质心 2对剩余的每个文档测量其到每个质心的距离并把它归到最近的质心的类 3重新计算已经得到的各个类的质心 4迭代23步直至新的质心与原质心相等或小于指定阈值算法结束 j 12n 3-1 步骤3神经元选择把与输入向量X距离最近的竞争层神经元c作为最优匹配输出神经元 步骤4权值调整调整节点c和在其邻域Nc t 内包含的节点权系数即 t 12n 3-2 3-3式中posrpost分别是神经元c和t的位置norm计算两神经元之间的欧氏距离距离r为邻域半径为学习速率r一般随进化次数的增加而线性下降步骤5判断算法是否结束若没有结束返回步骤232 电子鼻系统中的模式识别算法在电子鼻中常用的模式识别算法有统计模式识别算法和人工神经网络算法两种统计模式识别的算法主要有线性判别分析法LDAK最临近分类法KNN等人工神经网络方法主要有反向传播神经网络BP径向基函数神经网络RBF概率神经网络PNN等统计模式识别算法模仿人类的逻辑思维但它的数据处理结果与人的感官感受无法匹配由于统计模式识别方法是基于统计学的知识所以当外界环境相对复杂或干扰因素比较多的情况下其分析结果易出错容错能力较差人工神经网络算法可以模仿人类逻辑思维通过学习或者训练能够自动掌握并理解隐藏在事物内部的不能用数学公式来表示的关系这与统计模式识别方法形成复杂的判别函数或者决策的方式不同这种网络模拟生物神经网络构造所以类似于生物能自动取出感官信息中的干扰信息的功能人工神经网络方法具备降低干扰信息的能力容错力较好321 反向传播神经网络BPBPBack Propagation网络由Rumelhart和McCelland为首的科学家小组1986年提出是一种误差逆传播多层前馈网络是目前应用最广泛的之一BP网络能学习和存贮大量的输入输出模式映射关系而无需事前揭示描述这种映射关系的数学方程它的学习规则是使用最速下降法通过反向传播来不断网络的权值和阈值使网络的误差平方和最小BP神经网络结构包括输入层input隐层 hide layer 和输出层 output layer 3 模式识别方法的改进331 以距离为基础的异常侦测方法 异常值最早由Hawkins在1980年给出定义一群测试样本偏离其他测试样本太多而引起怀疑它是由其他不同机制产生出的测试样本之后也有许多学者对于异常值进行定义以距离为基础的异常值定义主要是以下三种1样本集中的一个样本在给定一最小距离的范围内若没包含超过一定比例的样本量其可能就是异常值2与最近的几个临近样本的距离最远的前几个样本可能就是异常值3与最近的几个临近样本的平均距离最远的前几个样本可能就是异常值以距离为基础的概念主要是利用样本集合中样本点之间的距离来当作样本是否是异常值的指标距离的定义可依据样本集的特性来决定以Knorr and Ng所提出的方法为例在给定一组参数k和d下对一样本集中的某一个样本x若与其距离为d或小于d的样本少于k个则x即为异常样本以距离为基础的方法主要优点是不必事前知道样本相关的统计分配即可使用但这方法存在一些缺点1使用者事前不易判断一个具体适当的距离值采用距离为基础的方法必须有该领域的知识才能做出正确的设定例如假设两个异常样本但因距离设定过大而将这两个样本归类为正常样本也可能两个样本均为正常样本但因为距离设定过小而使得这两个样本被归类成异常样本2不提供异常值等级排序结果例如一异常值在距离d内的临近样本很少相对另一异常值距离d中含有较多的样本其异常程度应该有所差异Ramaswamy et al认为Knorr and Ng提出的方法有上述缺点因此对于异常值给出了不同的定义给定k与n一个样本点p如果没有超过n-1个其他样本点与其最临近的k个邻居的距离和比它来的大则样本点P即为异常值Ramaswamy et al提出了利用KNN算法来找出异常值在这种方法之下会先计算样本集中所有点的K个最临近距离然后依照值的大小排序最后取前n个样本作为异常值Angiulli and Pizzuti也运用KNN的概念来决定每个样本的距离权重依次来判断异常值因而成功的运用在处理高维度的样本集上然而在这样的基础下的设计方法有一个很大的缺点那就是在这个过程当中要不断的去计算距离这对于样本量很大的时候效率是很差的332 以中位数作为临界值的K-最临近分类法在321中提到使用距离为基础的方法不易判断一个具体适当的距离值到底怎样的距离应该将之归类成同类距离要多远才应将之归类成异类因此此方法的主要问题为如何设定临界值及与此临界值比较的对象临界值如果设定太小会将同类给判别成异类反之如果设定太大很多异类都会被误判成同类提出的方法称为以中位数作为临界值的KNN先求出训练数据集中每个类别的各个训练数据之间的距离然后找出这些距离的中位数使用它来当作临界值使用KNN算法找出最接近此测试气体的K个邻居求出测试气体与这K个邻居距离的中位数此值必须小于临界值否则就将此测试气体判别成未归类气体这里牵扯到一个距离的概念这也是所有识别系统中最基本的一环决定两点距离的方法将会影响到后来的识别结果而在众多的距离计算公式中采用欧几里德距离 Euclidean Distance 假设在n微向量中有x和y两个点由欧氏距离公式可以表示出这两点的距离如下 3-4有了距离的概念之后再来看分类的步骤步骤1先求出训练数据集中每个类别的各个训练数据之间的距离然后找出这些距离的中位数当作每个类别的临界值步骤2输入一个测试数据时计算这个数据点与所有训练数据的距离步骤3找出距离最近的K个临近数据由这K个临近数据投票决定此数据点的类别步骤4求出测试数据与这K个临近数据距离的中位数m步骤5此中位数m必须小于该类别的临界值否则将之判别为未归类气体图3-2所示为算法在K 3类别数为2时的分类步骤首先计算测试样本点与所有训练样本的距离由于K 3所以找出最近的3个临近样本然后测试样本点由3个临近样本投票决定判别为白色类别且与3个临近样本的中位数必须小于白色类别的临界值在以中位数作为临界值的KNN算法的训练阶段会根据已分类好的训练样本来计算出每个类别的临界值方法是找出每个类别中每个训练样本两两之间距离的中位数使用此中位数当作该类别的临界值流程如图3-3所示在测试阶段则是判别测试样本属于哪一个类别首先去计算测试样本与所有训练样本的距离找出距离最近的K个邻居由这K个邻居去作多数投票来决定此样本点的类别接着求出测试样本与这K个邻居距离的中位数此中位数必须小于该类别的临界值否则将之判别为未归类气体流程如图3-4所示第4章 电子鼻系统实验研究41 传感器的响应和特征值提取411 传感器的响应当气体进入系统时传感器典型的反应如图4-1在第一阶段传感器的电阻值保持在它的基线Rbase上在气体被施放到传感器表面时传感器产生反应并且它的电阻值在上升时间内迅速增加之后传感器的电阻值逐渐增加最后达到它的平衡值R此为第二阶段只要气体还保持着同样的浓度传感器的电阻值会保持在它的平衡值R当气体被移开时传感器的电阻值在它的下降时间内大幅度地下降然后朝向原先的基线Rbase缓慢地减少最后传感器的电阻会慢慢地回到它原先的基线值此为第三阶段我们将传感器的平衡态电阻值R和基线的电阻值Rbase间的电阻差定义为传感器电阻差RR R Rbase 4-1传感器阵列反应的图案本身形成一个气体的指纹使得气味分类成为可能并且稳态图案的高度也使气味浓度的定量化成为可能我们写下一个方程式来描述传感器的线性 4-2其中是一个与聚合物有关的常数C代表气味的浓度412 特征值提取特征值提取就是进行一种变换将原始特征参数进行某种组合或变换变成个数减少了的新数据集该数据集将作为数据预处理以及模式识别算法的输入特征提取的目的在于找到最能有效的代表样本信息的特征集尽可能的提高数据预处理和模式识别的效率但气敏传感器阵列与被检测气体接触并发生反应后电子鼻系统将这一反应转化成一组电信号这组输出的电信号虽然能够代表被测样本的信息但也包含了对识别样本贡献不太大的信息以及环境中的其他信息噪声漂移等该电信号不能够直接用于模式识别或者说即使能够直接用于模式识别效果也不会尽如人意特征提取可以通过映射减少这些干扰信息并提取最能够代表样本信息特征最有利于识别样本的信息得到一个新特征集这个新特征集中的噪声含量减少可以更精确的描述分类函数构造更可靠的分类规则进而提高模式识别的效率特征值提取有利于电子鼻的微型化智能化和商业化的发展训练样本太庞大特征参数也比较多时为了获得更加精确的模式分类结果分类器的结构往往会相当复杂计算时需要很大的存储空间这样就对电子鼻系统中数据处理的硬件设备造成相当高的要求便携式手持式的商用电子鼻具有体积小成本低等特点硬件配备上往往不能满足复杂计算的要求特征值提取可以通过映射使得样本集容量减少降低分类器的复杂度进而降低数据处理对硬件设备较高的需求提高电子鼻的识别效果表4-1列举了几种常见的特征提取方法42 实验背景食醋是日常生活中十分常见的调味品并且还可用于食品工业中的添加剂防腐剂以及药物等食醋与我们的生活息息相关越来越多的科研人员开始重视食醋的质量评定方法但是到目前为止尚且没有一种有效的食醋质量检测的方法目前食醋品质的主要识别方法依然是依靠感官评定几个经过训练的专家组成评审团按照食醋的清澈程度香气品质味道等多个指标进行评定由于评审人员在长期工作后会产生嗅觉疲劳每个人每天只评测几个样本而且在一段时间后需要重复评测此类方法存在以下几种缺点结果不够客观评测人员容易受到环境情绪疲劳等状况的影响食醋相较于其他食品更不容易在气味上有较大的差异因为人类的嗅觉对酸味尤其敏感而导致很容易达到饱和而无法进行区分所以开发一种稳定而又可靠的食醋评测方法对食醋质量进行标准化检测有长远的社会效益以及广阔的应用前景由于食醋具有挥发性近几年较热门的电子鼻技术比较适合于食醋的品质鉴别42 聚类结果比较将K均值算法与SOM神经网络应用于5种食用醋数据分别为紫林陈醋江城白醋老才臣香醋六必居米醋和海天果醋每种醋取1000个样本样本经过归一化处理表4-1为K均值聚类的结果SOM网络的输入层为6个神经元输出层竞争层为66的神经元矩阵聚类结果如图4-2为了表示结果能够更直观经EXCEL统计得图4-3图中横纵坐标轴代表竞争层神经元位置我们可以观察到SOM网络总体上对5种醋进行了明确聚类K均值的聚类正确率为60SOM网络聚类正确率为10043 模式分类结果比较我们将4类样本紫林陈醋江城白醋老才臣香醋和六必居米醋用于BP神经网络和KNN算法的测试BP分类结果如图4-4图中红色实线代表KNN算法预测的类别蓝色虚线代表实际类别两线交叉的紫色线代表预测和期望吻合即识别正确误差收敛曲线如图4-5KNN分类结果如图4-6图中红色实线代表KNN算法预测的类别蓝色虚线代表实际类别两线交叉的紫色线代表预测和期望吻合即识别正确此结果来自于K值为3的KNN算法误差分布图如图4-7测试表明BP神经网络的识别正确率高达983而当K值为3时KNN算法识别的正确率达到最高为976但是当我们加入第5类样本用于测试时两种算法并未进行过第5类样本的训练第5类样本会被两种算法强制归类于已知的4个类别当中识别精度大大降低图4-8表示在掺入第5类样本的情况下第5类样本个数为100KNN算法在各个K值下的识别精度对KNN算法而言要能够识别未归类气体必须要有每一种未归类气体的反应样本储存于训练样本集中接下来我们来看KNN算法与以中位数作为临界值的KNN算法在测试样本中含有未归类气体的情况下的测试结果对比如图4-9由于改进后的KNN加入了使用中位数作为临界值的排除机制我们可以发现未归类气体几乎都被排除掉了气体识别正确率回到了KNN算法对于不包含未归类气体时的水平大约降低01这是因为改进后的KNN除了将未归类气体排除掉以外也将少部分与训练样本集中相同类别的样本排除在外图中结果表明以中位数作为临界值的KNN算法能够对掺杂未归类气体样本的情况做出良好的模式识别效果44 拔靴法Bootstrapping 当我们做了多次实验得到一些实验数据时假设使用第一份实验数据来测试算法得到的数据是V1第二份是V2重复了m次以后就有V1V2Vm个数据这m个数据都不相同这是就要思考一下到底哪个数据才是正确的在直觉上把得到的m个结果求平均值所得到的值会比任一结果的值都要好但是这个平均值我们可以有多大的程度去相信呢在这里我们引出置信区间的概念实际上若是想要在有限个实验数据结果中得到一个最接近真实结果的数据是很困难的我们最多能做的就是去求得一个概率范围因此若是我们可以得到一个概率范围的上限c1和一个范围的下限c2则就有一个很高的概率1-会使得每次所得到的实验结果平均值都落在c1到c2的范围之间 4-1我们把c1c2这个范围就称为置信区间称为显著水平100称为置信水平置信水平一般用百分比表示并且这个值会比较接近100例如90或者是95而对应的显著水平就等于0190或者是00595假设当 01时求90置信水平时就可以用5和95的测试结果平均值当作下限和上限例如假设有k个测试结果先求出平均值然后再做排序顺序是由小到大最后以第1005 k-1 和第1095 k-1 个结果当作是范围的下限和上限拔靴法是一项应用电脑的统计分析方法在数据来源分配未知的情况下去做估计和统计推论拔靴法的概念为经由数据的重新抽样借以估计统计量的分配一般而言拔靴法所提供的近似会比常用的极限近似精确因此拔靴法在1979年由Efron提出后即大量被应用于统计分析中我们把想要知道的母体参数设为从母体中取得可用的样本表示为x1x2xn根据样本来估计并且把的估计值表示为对于重新取样之后产生的新的拔靴样本所估计的表示为使用拔靴法的流程如下1从研究母体中得到大小为n的一份样本资料并且计算其2从原始的样本中通过可置换抽样的方式来产生新的拔靴样本每一个新的拔靴样本的大小皆与原始样本相同3对新的拔靴样本计算其对应的4重复步骤2-3来产生 5最后将每一个以统计图表示并根据c1c2计算其拔靴置信区间我们使用实验产生的80个测试结果当作原始样本通过可置换抽样产生10000组拔靴样本使用新的拔靴样本来计算k 110的气体识别正确率使用25和975当作上下限其95的置信区间如图4-10所示可以发现原始样本使用以中位数作为临界值的KNN算法在K 110的气体识别正确率落在95的置信区间范围25975之间因此我们有95的置信水平去相信使用该算法来排除未归类气体的识别正确率最差的情形也至少有其下限25的水准错列管束与顺列管束比较发现伴随着液相折算速度的升高顺列管束中泡状流向间歇流的过渡气相折算速度要低Noghrehkar13还提到概率密度法能够计算管束内侧与管壳处直接法查看不到的流型这样提高了计算的精确性贾峰等13研究R134a分别在流动速度慢流体沸腾的情况下竖直流经实验段时的流型特性绘图并结合实验测得的压差求得压差波动值根据流型不同压差不同的特点识别出泡状流间歇流和泡沫流为研究流型奠定了基础流行图中包含了很多有关流型的信息流型的种类工质的流动参数等通常我们提到的流行图都是在一定的条件下获得的所以这个流型图只是在当时的实验条件下才有意义具有一定的局限性而不具有普遍适用性Grant5等人通过研究两相流竖直流过实验段的流行图得到了两相流互相转变特性Cornwell22使用反推法通过流行图反推实验结果可以得出推得的结论与实验时得到的结论相同1-1是一幅流行图一定条件下气-水工质竖直流经管束得到的在只改变管束尺寸的情况下使用直接法得到的流型图之间区别很大产生这一问题的主要原因每个人对于流型的认知不同进而在划定节点时造成的差异在其它实验条件不变而使用客观研究方法的情况下流型图的差异表现为误差允许的范围内第5章 结论与展望第6章绪论11 选题的背景及意义随着时代的科学与技术精密机械和设备的复杂性和自动化水平人们总是希望正常运行并最大限度地提高效益设备发生故障会造成的损失并威胁到人民群众的生产和生活电厂风机是电厂中的最关键的大型生产设备之一它能否保持安全平稳的运行将直接影响整个电厂的安全及经济情况而风机从开始投入使用的那一刻起就肩负了艰巨的任务不但运行实际情况非常恶劣而且振动情况十分严重且必须保持不间断的运行通常风机故障常以振动形式表现出来振动危及设备的正常运行日本南海电厂600MW汽轮发电机大同电厂秦岭电厂200 MW汽轮发电机发电设备的自动化程度越来越高准确地捕捉和检测的设备状态传感器确定故障类型的设备诊断技术已有效的监测与故障诊断方法对于风机机组来说具有重要意义总结如下 1能够及早的对异常工况做出判断与识别及早的对设备进行防治或检修使设备故障在初期就得到有效控制降低故障发生的可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论