【《室内环境空气质量检测系统中基于K近邻的Stacking集成学习算法分析案例》9700字】

上传人：E*** IP属地：湖北上传时间：2026-05-10 格式：DOCX 页数：20 大小：2.57MB 积分：22 举报 版权申诉

【《室内环境空气质量检测系统中基于K近邻的Stacking集成学习算法分析案例》9700字】_第2页

【《室内环境空气质量检测系统中基于K近邻的Stacking集成学习算法分析案例》9700字】_第3页

【《室内环境空气质量检测系统中基于K近邻的Stacking集成学习算法分析案例》9700字】_第4页

【《室内环境空气质量检测系统中基于K近邻的Stacking集成学习算法分析案例》9700字】_第5页

已阅读5页，还剩15页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

室内环境空气质量检测系统中基于K近邻的Stacking集成学习算法分析案例目录TOC\o"1-3"\h\u25198室内环境空气质量检测系统中基于K近邻的Stacking集成学习算法分析案例 114291.1构建等级划分标准表 1265871.2常见的集成学习模型 218621.2.1Bagging 366551.2.2Boosting 49871.2.3Stacking 4167391.3基于K近邻的Stacking集成学习算法模型架构设计 5132851.3.1K折交叉验证 6178541.3.2Stacking集成学习各分类模型的实现 6215091.4基于K近邻的Stacking集成模型的验证分析 1276591.1.1评价指标 12249571.1.2基于K近邻的Stacking集成模型的验证与分析 13298651.1.3基于K近邻的Stacking集成算法结果分析 1772771.5小结 201.1构建等级划分标准表结合《室内空气质量标准》中规定的相关污染物标准值，根据各污染因子的检测值与规定中对应标准值的距离大小，本文将每个污染因子的浓度分为五个等级，如表4-1所示。表4-SEQ表\*ARABIC1各污染因子分级标准污染因子污染因子浓度等级V1(优)V2(良)V3(中)V4(差)V5(严重)温度(℃)(22,24](20,22]∪(24,26](18,20]∪(26,28](16,18]∪(28,30](0,16]∪(30,40]湿度(%)(40,60](30,40]∪(60,70](20,30]∪(70,80](10,20]∪(80,90](0,10]∪(90,100]甲醛(mg/m3)(0,0.05)[0.05,0.10)[0.10,0.20)[0.20,0.50)[0.50,5]PM2.5(mg/m3)(0,0.04)[0.04,0.075)[0.075,0.40)[0.40,0.80)[0.80,+∞)PM10(mg/m3)(0,0.09)[0.09,0.15)[0.15,0.50)[0.50,1.0)[1,+∞)氨气(mg/m3)(0,0.15)[0.15,0.20)[0.20,0.50)[0.50,1.0)[1,+∞)结合表4-1中各污染因子的分级标准设定室内环境污染水平分级情况，如表4-2所示。表4-SEQ表\*ARABIC2室内环境污染水平分级情况污染等级描述I(优)不超过两个污染因子浓度等级为良，其余污染因子浓度等级均为优II(良)所有污染因子浓度等级均为良或优III(中)不超过一个污染因子浓度等级为差，其余污染因子浓度等级均为良或优IV(差)不超过一个污染因子浓度等级为严重，其余污染因子浓度等级均为中、良或优V(严重)至少有一个污染因子浓度等级为严重，其余污染因子浓度等级均为差、中、良或优1.2常见的集成学习模型集成学习多用于解决分类问题，因此也称为多分类器系统，其主要思想是通过构建并结合多个学习器从而实现学习目标ADDINNE.Ref.{84A042E1-0CE0-4F3A-ADC3-5285060971EE}[44]。集成学习通常用于评判某方案的好坏、某物体品质的优良或预测某物体的种类。相比单个学习器，集成学习算法具有更好的分类效果ADDINNE.Ref.{54741F14-937F-4565-AF7A-A19F0CC8C969}[45]。因此，将集成学习应用于评价室内环境污染程度相比使用单个评价算法更具优势，同时评价结果更可靠，有利于克服评价结果主观性强的问题。集成学习的一般结构如图4-1所示，首先构建一组“弱学习器”，再用某种结合策略将多个“弱学习器”的学习结果组合起来，获得一个新的结果。图4-1集成学习结构图从“弱学习器”的种类来分类，集成学习可分为同质集成和异质集成两种。同质集成中只包含同种类型的“弱学习器”，异质集成中包含两个或两个以上不同种类型的“弱学习器”ADDINNE.Ref.{C8E2A2C7-2AE5-4755-91B6-D9A759C7A4C1}[46]。同质集成中，因为“弱学习器”的种类相同和计算方式相同，导致所有“弱学习器”的学习结果差异性较小，需要通过使用多组不同的数据进行学习，相对增加“弱学习器”学习结果的差异性，使集成学习结果起提升作用。异质集成中，使用不同的“弱学习器”实现训练ADDINNE.Ref.{62AC5AB3-21FD-4E2E-817C-C077E05DAB3D}[47]，因为“弱学习器”本身的不同，从本身就保证了学习结果之间存在一定的差异性，不用担心集成学习结果起负作用或不起作用。从“弱学习器”的学习顺序来分类，集成学习可分为串行集成和并行集成ADDINNE.Ref.{C5035D61-3F4D-4FF6-8CB9-40B6CAA7B724}[48]。串行集成中，训练“弱学习器”需要按照一定的顺序进行，某一个“弱学习器”的输出是下一个“弱学习器”的输入，这就使得串行集成的时间成本较大。并行集成中，训练“弱学习器”是独自进行的，可以在同一个时间段内多个“弱学习器”同时训练。相比串行集成，并行集成中“弱学习器”之间的依赖性更小，集成的时间成本更低。常见的集成学习模型ADDINNE.Ref.{C883D1F3-A194-4B14-A8F5-8806967BCCE5}[48]主要有Bagging、Boosting和Stacking，不同的集成模型有不同的集成效果。1.2.1BaggingBagging是典型的同质并行集成学习方法ADDINNE.Ref.{3711014D-3685-4558-9448-C109191A12FD}[49]，它的集成思想是首先使用自助采样法构建采样集，然后基于采样集训练多个“弱学习器”，再将这些“弱学习器”进行结合，针对学习任务的不同选择不同的结合策略，常用的结合策略有简单投票法和简单平均法等。Bagging算法的主要流程ADDINNE.Ref.{F2CE9C60-E14D-415A-9C68-EC4CD967D269}[50]如下：1)数据准备。构建训练集D={(x1,y1),(x2,y2),…,(xm,ym)},在本系统中x代表检测值向量，y代表当前向量所对应的评价等级。构建弱学习器H，设定训练次数T，T的初始值为1，构建测试集Dtext。2)自助采样。有放回的对原始训练集D进行随机采样n次，采样次数n需小于原始训练集样本数m，将采样获得的n个数据集作为第t次训练的训练集，标记为Dt。3)弱学习器训练。使用采样后获得的训练集Dt对第t个弱学习器Ht进行训练。4)测试学习器。将测试集Dtext作为输入，经过弱学习器Ht计算，获得学习结果yt’。5)循环训练。重复执行步骤2~4，每循环执行一次t=t+1，直至t=T。6)结合策略。针对本系统的分类问题，使用投票法作为Bagging的结合策略，当某几种分类结果投票数相同的情形下，随机选择一种分类结果作为最终结果。通过Bagging的计算流程可以看出，Bagging的复杂度主要由弱学习器的计算复杂度和训练次数T决定，通常T是一个较小的常数，因此训练一个Bagging集成与弱学习器的复杂度同阶，即Bagging集成学习效率较高。同时Bagging具有受样本扰动的影响小，整体模型的方差小的优点。1.2.2BoostingBoosting与Bagging不同，属于串行同质集成学习ADDINNE.Ref.{2E5E3ED5-61B7-4AD0-A280-ACEB9F70664F}[51]，是一种可以用来减小监督学习中偏差的集成学习算法。Boosting集成学习算法流程ADDINNE.Ref.{86D1A5C6-6726-4DFC-9F49-4DF95FAA1713}[52]，如图4-2所示。图4-2Boosting算法流程图构建的样本数据集D，首次调用弱学习器时使用平均分布的方法从数据集D中选取部分样本数据形成训练集X1，之后的每一轮需要对前一轮训练集中判断错误的样本赋予较大的分布权值V，使得训练错误的样本在当前训练中出现的概率增加，通过权重的方式对难以正确分类的样本进行多次重点学习，经过T轮的学习从而获得T个弱学习器h，每个弱学习器都有对应的权值w，w的确定取决于弱学习器h的分类效果，最后通过多个弱学习器加权结合产生最终的分类器H(x)。Boosting集成学习在训练弱学习器时需要按照一定顺序，弱学习器之间存在一定的依赖关系，这使得Boosting集成学习在获得一个强分类器的时候需要牺牲一定的时间成本ADDINNE.Ref.{9A49333F-EAA0-4888-894E-776AFBCF152A}[53]，但是Boosting擅长集成一些泛化能力弱的学习器，并且整体模型具有偏差小的特点。1.2.3StackingStacking与上述两种集成凡是不同，是一种并行异质集成，使用“学习法”作为结合策略。Stacking集成学习中，通常由初级学习器和元学习器构成，元学习器用于将多个初级学习器进行结合ADDINNE.Ref.{A9471D9F-1BFD-4D30-AF07-AD5B0EAF01E5}[54]。Stacking首先使用原始数据集训练多个不同的初级学习器，然后将初级学习器的输出作为样本的输入特征，再训练元学习器。在训练学习器时，训练集的生成方式很重要，若初级学习器与元学习器的训练集没有差异性，则有很大几率会发生过拟合的现象ADDINNE.Ref.{CF215B82-22F5-450B-A78F-AE9747DA1FC1}[45]，因此使用k折交叉验证法产生训练集，使用训练初级学习器时未使用的数据子集来训练元学习器。Stacking算法流程图如图4-3所示。图4-3Stacking算法流程1.3基于K近邻的Stacking集成学习算法模型架构设计集成学习是一种常见的提高算法性能的方法，不同的集成模型各有不同的优缺点,Bagging模型具有容易过拟合的缺点，Boosting模型具有迭代次数不易设定，并且对离群点较敏感的缺点，而Stacking集成模型个体学习器之间依赖性小ADDINNE.Ref.{11EFB2ED-EDD3-40D7-8A39-8ADDFBE98AE4}[45]，使用交叉验证法产生训练集，能够有效防止出现过拟合的现象，Stacking属于异质集成ADDINNE.Ref.{FB106092-859A-4D33-9987-C50F387BA787}[45]，因为初级学习器的种类不同，可以将评价算法与分类算法有效结合，更加符合本系统的设计，因此本文选取Stacking集成模型对评价算法与分类算法进行集成学习。Stacking集成学习结构图如图4-1所示。图4-4Stacking集成学习结构图首先使用模糊数学综合评价法对检测数据进行计算获得评价结果，然后对训练数据分别使用决策树和KNN分类，分类结果即为评价结果，最后使用平均法对三组评价结果进行集成，获得最终的评价结果。1.3.1K折交叉验证Stacking集成学习中，初级学习器与元学习器的训练数据会影响分类结果，当元学习器与初级学习器使用相同的训练集时，会使得Stacking模型出现过拟合现象的概率大大提升，严重影响模型性能。因此，采用K折交叉验证法生成训练集和测试集ADDINNE.Ref.{F52421D7-64B9-4FA7-9CCC-0793C1F59CDA}[57]，训练集用于训练初级学习器，测试集用于测试初级学习器的分类结果，将测试集与初级学习器的测试结果共同作为输入训练元学习器。这种产生训练集和测试集的方法能够有效防止由于训练集和测试集选择不佳而导致算法模型出现过拟合的现象，从而训练处更加稳定可靠的集成模型ADDINNE.Ref.{C33A2D19-C07E-4F89-9FA7-9FFDBC0DE7FB}[58]。K折交叉验证法具体流程ADDINNE.Ref.{1AF29787-A4DE-4A7D-8B78-DAFF60BB32BB}[59]如下：1)取折数K为5，将原始训练集D随机平分为五个子集，分别为D1,D2,D3,D4,D5；2)将Di作为测试集，剩余的四个子集作为训练集，对第n个初级学习器分别进行训练及测试，测试结果为Pni，使用训练好的初级学习器对原始测试集进行测试，测试结果为Rni；3)对于i=1,2,3,4,5分别执行步骤2；4)将得到的Pn1,Pn2,Pn3,Pn4,Pn5做行拼接得到当前初级学习器的预测结果Pn，Pn中的样本数与原始训练集D中样本数一致，并将得到的Rni进行简单的投票获得Rn；5)对n个初级学习器分别执行步骤2~4；6)将得到的Pn作为Stacking中元学习器的训练集，Rn作为测试集。1.3.2Stacking集成学习各分类模型的实现本文采用评价算法和分类算法作为Stacking集成的分类模型。首先，评价算法采用模糊数学综合评价法。其次，选取四种常见的分类算法分别使用K折交叉验证法ADDINNE.Ref.{7838BFB8-BD1F-449A-8583-8772E54A3817}[59]产生训练集并进行训练，参考分类准确率及算法训练时间选取两个较优的分类算法。通过表4-3可以看出决策树（CART）及KNN在保证分类准确率的同时训练时间较短，能够有效保证本系统的实时性。所以本文选用决策树及KNN作为集成学习的两个分类模型算法。表4-SEQ表\*ARABIC3不同分类模型训练性能对比算法名称准确率训练时间决策树（CART）99.0%1.06sKNN97.9%0.71sAdaBoost90.7%3.92sBayes分类器87.6%0.96s使用环境检测终端，在室内环境下采集几个不同时刻的各指标数据，如表4-4所示，下述小节将以第一组数据为例对各分类模型进行个例分析。表4-4室内环境部分检测数据组号温度(℃)湿度(%)甲醛(mg/m3)PM2.5(mg/m3)PM10(mg/m3)氨气(mg/m3)120.568.10.0540.0440.0550.138221.8950.090.0110.040.0630.154320.560.20.0160.0660.0940.234421.350.210.090.0060.0120.1931.1.2.1模糊数学综合评价法模糊数学综合评价法是应用较为广泛的一种常见的评价类算法ADDINNE.Ref.{0FD2D9C4-EE86-4045-AD6E-38E2F589BE7B}[61]，该算法基于模糊数学理论ADDINNE.Ref.{A608C3DB-5E11-4FF7-AB13-DBA743ED4793}[61]，使用模糊数学中的隶属度理论把定性评价转化为定量评价。该算法具有结果清晰和评价结果主客观结合等优点，擅长解决各种非确定性的问题。模糊数学综合评价法的基本步骤如下：1）建立评价指标集合。根据2.1.2章节中污染因子地选择，确定评价指标u及评价指标集合U：U={u1,u2,u3,u4,u5,u6}={温度，湿度，甲醛，PM2.5，PM10，氨气}；2）建立评价值集合。根据1.1章节对室内空气质量等级地划分，确定评价值集合V：V={v1,v2,v3,v4,v5}={优，良，中，差，严重}；3）确定评价指标的权重集A。确定权重集在模糊数学综合评价法中是重要并不可缺少的一步，权重集的确定方式影响评价结果的客观性，不同的权重会直接导致评价结果的不同。常用的确定权重的方式有专家评定法、污染贡献率法等，污染贡献率法计算公式如下： (4-1)公式（4-1）中，n为评价指标个数，sj为第j种评价指标的标准值，xi(j)为第i个评价指标集中第j种评价指标的检测值，ai(j)为第i个评价指标集中第j中评价指标对应的权重值。本系统中评价指标个数为6，根据国家标准《室内空气质量标准》中的规定，S=[22,50,0.10,0.10,0.15,0.20]。以表4-3中第一组数据为例，所对应的权重集A=[0.2152,0.3145,0.1247,0.1016,0.0847,0.1593]。4）建立隶属度函数。对温湿度指标采用高斯型隶属函数构建隶属度函数，对其他化学参数指标采用三角形隶属函数。以温度和甲醛为例，温度指标的隶属度函数关系如图4-5所示，甲醛指标的隶属度函数关系如图4-6所示，其中，x表示评价指标检测值，温度范围为℃，甲醛单位为mg/m3，y表示评价结果的隶属度值。图4-5温度指标隶属度函数图4-6甲醛指标隶属度函数根据建立的隶属度函数结合表4-1，可以计算出当前指标检测值在不同污染等级对应的隶属度值。5）计算隶属度矩阵。将检测数据代入各指标的隶属度函数计算获得模糊矩阵R。R为6*5的矩阵。R=r6）计算模糊集。获得模糊评价B=A*R，经计算第一组数据对应的模糊集B=[0.3464,0.6487,0,0,0]。7）对模糊评价结果B解模糊化分析。本系统解模糊化分析使用最大隶属度法，具有计算简单，实时性强的特点。以表4-4中的检测数据为例，各组数据不同等级的隶属度值如表4-5所示，最大隶属度值所对应的等级为模糊数学综合评价法的输出结果。表SEQ表\*ARABIC4-5各组数据对应不同等级的隶属度值组别隶属度值“优”“良”“中”“差”“严重”10.34640.648700020.60430.395000030.13940.70720.15100040.28760.55570.1552001.1.2.2分类算法模型1）决策树CART分类决策树是一类常见的机器学习方法，多用于分类，通过递归的方式生成决策树。本系统使用CART决策树ADDINNE.Ref.{B93973F0-807D-494B-91DF-9FF519F71CF9}[63]对室内环境污染水平进行分类。CART算法流程图如图4-7所示。图4-7CART算法流程图首先，针对系统数据构建数据集D=i=11000di，di={温度,湿度,甲醛,PM2.5,PM10,氨气}。初始属性集A={a1,a2,a3,a4CART算法的核心是计算当前节点的基尼指数并选择最优划分属性ADDINNE.Ref.{5A6FFAC7-6CA8-45F6-BD99-37D402090C1C}[63]。对于数据集D有1000组不重复样本数据，属性集A中有“优”、“良”、“中”、“差”、“严重”五个属性值，根据属性集A中属性的个数将数据集D分为V组数据集{D1，D2，…，DV}，若A中有五个属性值则V取5。在属性“优”的条件下，样本D的基尼系数表达式如公式（4-3）所示，其中，DV和D分别代表对应数据集中的样本数。(4-3)公式（4-3）中，GiniDV为数据集DV的基尼系数，以数据集D(4-4)假设数据集D1中有三种类别，则k取3，Ck为 (4-5)若属性“优”的基尼系数最小，则将属性“优”从A中剔除获得新的A’，同时将属性为“优”的数据从数据集D中剔除获得数据子集D’。对D’和A’再次计算，直到属性集为空集。2）KNN分类KNN算法属于监督学习方法ADDINNE.Ref.{243A8DC7-A134-4D05-AC68-386387468F45}[65]，通过计算指标间的距离值，在训练集中找出距离值最小的k个训练样本，通过这k个训练样本信息进行预测，通过投票的方式，选择这k个样本中出现最多的类别标记作为预测结果，k的取值通常为奇数。KNN算法模型训练的基本步骤如下：1）构建训练集。为保证KNN分类结果的准确性，选取1000组数据，有5个类别，每个类别需要有200组数据来构成训练集。2）遍历测试集中的数据，计算当前数据x0到训练集中每个数据点的距离。由于该步骤计算量较大，考虑的本系统的实时性，采用计算方式较为简单的欧式距离进行计算，见公式（4-6）。公式中n=6，a1至a (4-6)3）找出距离x0最近的k个点，将x0分类到这k个点中最多的类。k应取奇数。通过对1000组训练集数据做交叉验证，当k=3时，KNN分类准确率最大，为97.41%。如图4-8所示。图4-8算法准确率与k值变化曲线1.1.2.3基于K近邻的Stacking集成模型按照1.3小节的Stacking集成学习的算法流程，将模糊数学综合评价法、CART算法和KNN分类算法作为Stacking集成学习的弱学习器，同时使用非监督学习的K近邻作为元学习器进行Stacking集成。算法模型图如图4-9所示。图4-9基于K近邻的Stacking集成学习算法模型图首先使用5折交叉验证法将总的原始训练集平均分为5份，分别标记为D1、D2、D3、D4、D5，取其中一份数据集作为训练测试集，其余四份作为训练集，分别对模糊数学综合评价法、CART法和KNN法做训练和测试，每种算法分别获得5组测试结果。对这5组测试结果采用投票法的方式生成对应算法的最终训练测试结果P1、P2和P3。使用原始测试集T分别对5组训练好的模糊数学综合评价法、CART法和KNN方法进行测试，获得5组测试结果，并对这5组测试结果采用投票法生成对应算法的测试结果R1、R2和R3。将P1、P2、P3和原始训练集数据的标记值整合作为元学习器K近邻的训练集，将R1、R2、R3和原始测试集数据的标记值整合，作为元学习器K近邻的测试集，从而获得最终输出结果，算法实现流程图如图4-10所示。图4-10基于K近邻的Stacking集成学习算法实现流程图1.4基于K近邻的Stacking集成模型的验证分析1.1.1评价指标通常为了评价算法模型性能的好坏，针对不同问题有不同的评价指标。常见的算法模型评价指标ADDINNE.Ref.{EE18AB89-D40D-43A4-A784-31D6E347D8C8}[66]有均方误差（RMSE）、平方根误差（MSE）、准确率、查准率、查全率、F1度量，其中均方误差与平方根误差多用于回归问题，针对本系统的分类问题，将从准确率、查准率、F1度量等评价指标进行介绍及分析算法模型性能。分类问题中的查准率、查全率和F1度量都需要从混淆矩阵中获得，以分类结果为“优”时为例，多分类问题同样是一种二分类问题，对应的混淆矩阵如表4-6所示。表4-6“优”等级对应的二分类混淆矩阵混淆矩阵预测值优非优真实值优TP（真正例）FN（假反例）非优FP（假正例）TN（真反例）准确率(accuracy)：指真实值与预测值相同的样本数占所有样本的比重(4-7)查准率(precision)：又称为精确率，指在所有预测类别均为“优”的样本中，模型预测值与真实值相同的样本数所占的比重(4-8)查全率(recall)：又称为召回率，指在所有真实值为“优”的样本中，即在如表4-6中所有真实值为“优”的样本中，模型预测正确的样本数多占的比重 (4-9)F1度量：F1是查全率与查准率的调和平均，F1的值越接近1说明该算法模型越稳定 (4-10)1.1.2基于K近邻的Stacking集成模型的验证与分析在1.4小节中介绍了生成训练集的方式，以及算法模型的实现流程，本小节将通过实验对算法优化前后的性能和与其他同类算法进行对比分析。实验使用控制变量法向实验箱多次通入污染气体来模拟不同环境，并对实验箱内环境进行实时检测获得实验数据，实验箱模拟环境如表4-7所示，其中PM2.5与PM10指标存在较大的依赖关系，因此将PM2.5和PM10作为一个整体进行分析。实验箱装置示意图如图4-10所示。表4-7实验箱模拟环境说明实验箱模拟环境只含有单一污染气体含有两种污染气体含有三种污染气体污染气体种类甲醛氨气PM2.5/10甲醛、氨气甲醛、PM2.5/10氨气、PM2.5/10甲醛、氨气、PM2.5/10污染气体加入方式甲醛：向培养皿中滴入5%浓度的甲醛溶液NH3：向实验箱通入NH3气体PM2.5/10：向实验箱通入烟雾，烟雾由烟支燃烧时采集图4-10实验箱装置示意图（①环境检测终端②培养皿③风扇④移动电源）通过实验，对每种不同污染情况的实验箱环境采集1小时数据，将所有数据进行去重处理，针对不同实验箱环境情况以及采集到的各检测值的大小将数据进行标记，对标记的每个类别的数据分别随机抽取260组，共1300组样本数据，再随机抽取其中1000组作为训练集，300组作为测试集。对测试集中300组数据使用不同算法进行预测，测试结果如图4-11~4-14所示，图中x轴为样本编号，y轴为评价结果等级值，等级值1~5分别对应评价结果“优”、“良”、“中”、“差”、“严重”。图4-11模糊数学综合评价测试结果图4-12CART分类测试结果图4-13KNN分类测试结果图4-14基于K近邻Stacking集成学习模型测试结果根据上述测试结果对模糊数学综合评价法、CART分类、KNN分类进行分析，统计各模型在测试集上的准确率和F1度量值如图4-15所示。图4-15弱学习器模型准确率与F1度量值通过图4-15观察各分类模型和Stacking集成结果的准确率和F1度量值可以看出，无论从准确率还是F1度量值分析，模糊数学综合评价法和两个分类器的性能高低顺序均为CART>模糊数学综合评价法>KNN。采用不同的元学习器集成弱学习器会使得集成模型有不一样的性能，在这里分别采用K近邻、投票法和平均法作为元学习器将弱学习器进行集成得到三个集成模型，同样使用测试集对三种集成模型进行测试并分析其性能，如图4-16所示。图4-16基于不同元学习器的集成模型性能对比分析图4-16可以得知，使用不同的元学习器集成的模型性能各有不同，其中基于K近邻的Stacking集成模型具有最高的准确率和最大的F1度量值，再结合图4-15中各弱分类器的性能，虽然基于投票法的Stacking和基于平均法的Stacking模型性能均高于模糊数学综合评价法和KNN法，但是从CART的性能分析，这两种集成模型的结果起了负作用，没有充分发挥集成学习的特点，而基于K近邻的Stacking模型很好的提高了集成模型的性能。经过三种集成模型性能对比，也可以得知集成结果并不是总起正向作用，单一的集成也不会因为某个弱学习器的性能高而获得更高的性能，由此可知从算法性能方面看，基于K近邻的Stacking集成学习在本系统中的应用具有可靠性和有效性。1.1.3基于K近邻的Stacking集成算法结果分析根据本系统的特点，本节将结合原始数据与各分类模型测试结果和基于K近邻的Stacking集成学习结果进行对比分析，验证本系统采取的算法模型的客观性。考虑到环境污染情况众多，主要从几种不同的实验环境情况进行结果分析。如表4-8所示，其中污染气体的单位均为mg/m3，评价等级“优、良、中、差、严重”分别以罗马数字“I、II、III、IV、V”表示。表4-8情形一：所有污染因子浓度均非常低编号甲醛PM2.5PM10NH3模糊数学CARTKNNK近邻_Stacking10.0110.0480.0730.149I级I级II级I级20.0160.0590.0830.127II级I级I级I级30.0160.0550.0780.137II级I级II级I级40.0160.0400.0630.147I级I级II级I级50.0130.0490.0740.137I级I级II级I级上表情形一中的所有数据均在未加入任何污染因子的实验箱中采集，结合每组数据中各污染物的浓度分析上述五组数据，第二组和第三组数据中PM2.5和PM10的浓度值相对较高，模糊数学法将其分类至II级污染，KNN法认为氨气浓度值相对高的数据均为II级污染，CART的分类结果较符合实际情况，K近邻_Stacking的分类结果均为I级，符合当前实验箱模拟的环境污染水平。表4-9情形二：所有污染因子浓度均较低编号甲醛PM2.5PM10NH3模糊数学CARTKNNK近邻_Stacking10.0170.0600.0870.014IIIIIII20.0210.0630.0930.145IIIIIII30.0290.0600.0790.138IIIIII40.0150.0790.0980.142IIIIIIIIII50.0490.0440.0570.129IIIIIIII向实验箱中多次通入2ul的污染因子，此时实验箱中污染因子的浓度有所增加，但因为是少量多次通入污染因子，所以污染因子的浓度值均接近且未超过《室内空气质量标准》中规定的超标值。分析上述五组数据，由于其中某一个指标浓度值较低，模糊数学和KNN将其分类至I级污染，由于某个指标浓度值接近超标值，使得模糊数学和KNN将其分类至III级污染，明显不符合1.1节提出的等级划分标准，K近邻_Stacking的分类结果较好的融合了三种弱分类器的差异性，获得较为合理的分类结果。表4-10情形三：某一或两个指标浓度少量超标编号甲醛PM2.5PM10NH3模糊数学CARTKNNK近邻_Stacking10.0270.0640.0980.216IIIIIIIIIII20.0170.0530.0680.237IIIIIIIIII30.0400.2720.3050.339IIIIIIIVIII40.0200.1060.1360.149IIIIIIIIII50.0580.0170.0210.497IVIIIIVIII在情形二对应的实验箱环境中，再多次通入2ul的污染因子，此时实验箱中污染因子的浓度值明显超标，但是超标量较少。上述五组数据中，第一、二、四组数据中仅有某一个指标浓度少量超标，使得弱学习器的分类结果存在II级污染，第三组和第五组数据中存在某指标浓度值相对超标较多，使得模糊数学和KNN将其分类至IV级污染，而K近邻_Stacking将五组数据均分类至III级污染，更加符合实验箱模拟的环境污染情况以及1.1节

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《室内环境空气质量检测系统中基于K近邻的Stacking集成学习算法分析案例》9700字】

文档简介

温馨提示

最新文档

评论

【《室内环境空气质量检测系统中基于K近邻的Stacking集成学习算法分析案例》9700字】

文档简介

温馨提示

最新文档

评论

相关文档