版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 “地沟油”的识别摘要“地沟油”是一种对人体危害极大的有毒物质,本文建立一个数学模型,可以根据样品成分来准确判断出此样品是否为地沟油。问题一:需要根据已经确定类别的84组数据,建立模型用于判别未分类的组属于哪一类。题中给出数据比较充足,统计学中提供多种分类方法可以从不同角度对样品进行分类,本文讨论使用多种方法,利用SPSS软件对数据进行分析,从而建立判别地沟油的数学模型。问题二:问题一求解完成后将数据分别代入模型,可以从多种角度辨别此样品是否为地沟油。问题三:在得出判别函数后结模型的特性以及各种成分数据对结果的影响度适当修改模型,在确保判别分类正确的情况下尽量减少参与模型设计的样品成分,从而达
2、到节约成本的目的。关键词:地沟油判别法聚类判别函数SPSS一、 问题重述地沟油,泛指在生活中存在的各类劣质油,如回收的食用油、反复使用的炸油等。地沟油最大来源为城市大型饭店下水道的隔油池。长期食用可能会引发癌症,对人体的危害极大。给出优质食用油(编号1-60)和地沟油(编号61-84)的7种化学物质成分的含量,利用数据解决下面问题:(1) 建立判别地沟油的数学模型,并对你建立的模型进行评价。(2) 利用你所建立的模型对编号85-100的样品进行判别。(3) 化验7种化学物质含量花费较大,能否在保证一定的准确率条件下,减少化验指标数。二、 问题分析地沟油对人们的生活已经带来了很多负面影响,而且地
3、沟油种类多样,如何准确快速地判断样品油是否为地沟油是一个必须解决的问题。而地沟油的区分不能仅靠观察其外表,还需要测试样品各种成分的含量得出更可靠的结果。本题目要求根据样品各成分的数据建立判别模型来实现对优质油与地沟油的区分,且已经给出两类样品油的多组数据。对于问题一:给出了84组可用数据,其中1-60组划分为优质油,61-84划分为地沟油,每组样品都需要考虑7种成分。数据比较充足,可以利用统计学相关算法进行分析。此问题可以在SPSS软件工具中得到方便快捷的解答。对于问题二:在问题一的基础上可以轻松地得到问题二的判别结果。分类模型建立完成后,代入数据求解即可。对于问题三:由于化验全部7种化学指标
4、过程繁琐,耗费较多时间且开销较大。因此应该在保证准确率的情况下减少化验指标。这个问题需要考虑每个指标在具体的判别函数中所占权重以及所有样品中同类指标的离散度。从而舍轻取重,并将区别不大的指标从判别函数中剔除。以此达到减小成本的目的。综上所述,本题可看作一个分类问题,利用统计学相关算法得出分类模型。三、 模型假设1. 假设所有样品都可以分为优质油和地沟油两类;2. 假设只需要考虑题设7种成分;3. 假设优质油与地沟油之间存在可用数学模型描述的差异;四、 数据分析由于数据比较多,为了得到更准确可靠的分析结果,首先对数据进行初步检测。折线图可以清晰地展示每种成分的波动空间,并且很容易发现数值突出的元
5、素。以下是每种成分对应编号的折线图:从图中可以清楚地看到,在一百组数据中出现了5组异常数据。这5组数据中每组都有某一种成分严重超出正常范围。为了消除对结果的影响,需要删除这5组数据。通过对照原始数据表得到这5组数据的编号分别为:14,26,42,57,70。后文中涉及到对数据的分析与计算时,都是已将异常数据排除后的结果。另外,图中各成分在第53组数据附近出现明显的分界。成分7含量整体上升,其他成分间的差异缩小,如果在利用SPSS求解判别函数时出现类内成员被分到其他类的情况,可以参考图中分界点寻找更加合理的分组方式。后文需要对检测指标进行缩减,需要了解每种成分所占比例,作为缩减指标的参考依据。以
6、下是每种成分平均值得饼状图:由图可知成分7占比重最大,而成分1最少。在综合考虑各成分所占比例与其在标准化的典型判别式函数中所占权重可推测能够被去掉的测量指标。五、 模型建立与求解5.1Fisher判别模型建立与求解5.1.1Fisher判别法的符号说明类样品数量;=1,2(1代表优质油,2代表地沟油);类样品指标的一维数值线性函数;=1,2,3,4,5,6,7;类样品的指标;类样品的均值向量;类样品映射到一维特性空间后的平均值;类样品的类内离散度;Fisher准则函数;一维映射权向量;Fisher准则函数取得最大值的解;类样品的类内离散度矩阵;两类样品的类间离散度矩阵;类内总离散度矩阵;5.1
7、.2 Fisher判别法的模型建立本题所用求解模型核心内容为Fisher判别法,以下是Fisher判别法对本题内容求解的详细步骤。5.1.2.1线性投影与Fisher准则函数类各指标的一维线性投影函数:(1)各类别7个指标的样本均值向量:(2)通过变换w映射到一维空间后,各类平均值为:(3)映射后,各样本“类内离散度”定义为:(4)显然当两类的均值之间距离越大越好,而各类内部离散度越小越好。因此定义Fisher准则函数:(5)使最大的解就是最佳解向量,也就是Fisher的线性判别式。5.1.2.2求解线性判别式从的表达式可知,它并非的显函数,必须进行变换。已知:依次代入(1)和(2),得到:(
8、6)所以: (7)其中(8)是样本类间离散度矩阵,表示两类均值向量之间的离散度大小,因此,越大越容易区分。将(6)和(2)代入(4)中得:(9)其中:(10)因此:(11)其中:(12)将上述所有推导结果代入可以得到:(详细推导参考相关文献)其中,是比例因子,不影响的方向,可以删除,从而得到最后解:使取得最大值,可使样本由多维空间向一维空间映射,其投影方向最好。是Fisher线性判别式。得出了判别函数,将1类指标均值代入得到,将2类指标均值代入得到,临界值则为将未分类的数据代入判别函数得到的结果与比较即可判别此数据所属类别。5.1.3问题一的求解5.1.3.1利用SPSS求解判别函数问题一的模
9、型已经建立完成,由于SPSS工具中包含了Fisher判别法的相关算法,可以利用这个工具快速得出分析结果。将题述数据去除异常后导入SPSS,运行Fisher判别法得到分类函数系数和标准化的典型判别式函数系数:标准化的典型判别式函数系数成分1234567系数-0.5540.7500.3570.8930.0320.3820.131由此可得到标准化的典型判别式函数为:又有优质油组的指标均值:16.171 23.893 17.377 26.321 23.097 27.288 81.188地沟油组的指标均值20.157 26.133 17.152 14.927 20.378 15.993 90.197将两
10、组均值分别代入判别函数得到:60.38846.464所以得到其临界值为:53.426将未分类的数据指标代入判别函数,将得到的结果与临界值比较。若小于临界值则为地沟油;若大于临界值则为优质油。5.1.3.2模型的评价问题一中利用已确定品质的样品指标特征建立了一套可以应用到其他未知样品上的数学模型。能够较为合理准确地判断待测样品属于那种品质,所得结果对有关部门的检测工作有一定的借鉴意义,实用性较强。本题给出的判断油品质的模型可以推广到对其他物品的检测,例如水质、空气质量等。只需要更换相应的指标即可实现模型的转移。本文中所建模型的核心思想就是Fisher判别法的应用,由于判别法本身的特性,此模型只能
11、解决线性可分的样本,对于线性不可分样本只能选择其他模型。5.1.4问题二的求解利用问题一所建立的模型对剩余16组进行判别。将16组数据分别代入模型计算判别函数的值,得出结果如下:编号判别函数值临界值判别结果8564.6141953.426优质油8661.0119353.426优质油8757.935153.426优质油8859.4775953.426优质油8960.877953.426优质油9059.4018353.426优质油9162.8941553.426优质油9263.2048153.426优质油9348.4462253.426地沟油9449.0306953.426地沟油9545.8281
12、753.426地沟油9645.2372253.426地沟油9745.6767653.426地沟油9846.1889153.426地沟油9944.9624253.426地沟油10042.1798353.426地沟油由表中数据可得到分类结果:85,86,87,88,89,90,91,92号为优质油;93,94,95,96,97,98,99,100号为地沟油。5.1.5问题三的求解本题需要减少判别所需的成分指标,显然优先剔除在判别函数中系数较小、在所有组别中数值波动较小、总体平均值最小的指标。这样可以在确保正确的情况下达到节约成本的目的。5.1.5.1候选成分分析综合前文数据分析和SPSS工具中的分
13、析结果,将各成分权重分析所需数据整理出来,结果如下:判别函数中各成分对应系数成分1234567系数-0.5540.7500.3570.8930.0320.3820.131各指标总体方差与标准差成分1234567方差18.7749.4207.17144.83746.07343.78136.765标准差4.3333.0692.6786.6966.7876.6166.063各指标总体平均值成分1234567平均值17.03224.45317.35324.09323.08225.13682.822由上面的图表可初步推测:(1) 在考虑指标在判别函数中所占权重对判别结果的影响时,因为指标5所对应的系数是
14、最接近于0的,所以首先可以考虑剔除指标5;(2) 在考虑指标总体方差时可以发现指标3的方差值最小,所以此指标变化最轻微,变化较小的值对不同组别的判定结果影响自然也是最小的,在这种条件下可以的首先考虑剔除指标3。(3) 从平均值的表格中得出指标1、3平均值较小,可以尝试分别剔除指标1、3。综上,可以选出三个待删除的指标,分别是成分1、成分3和成分5。在候选的三个指标中,依次尝试剔除单个指标。如果有两个指标分别剔除后分析结果的分类正确率很高,那么可以考虑同时剔除两个指标;若有三个指标正确率都达到要求那么可以尝试同时剔除三个指标。如果1、3、5全部剔除后结果依然不变,可以进一步尝试剔除剩余的指标。5
15、.1.5.2利用SPSS求解首先给出剔除指标前,SPSS软件在分析数据时对原始数据表的分类情况:类型初始成员数分类后成员数分类正确率优质油564991.1%地沟油2330上表作为参考,通过将去除某项指标前后的各类别成员数和分类正确率与此表进行比较来确定去除指标后的分析结果是否合理。若成员数在分类前后差距太大,正确率则会偏低,说明被去除的指标在判别中有着较大作用,应该被保留;若去除指标后结果与此表相同或非常接近,说明去除的指标对结果没有影响或影响很微弱,为了节约成本可以将这个指标从检测对象中删除。依次去除指标1、3、5后SPSS的分析结果如下:(1)只去除指标1后分类结果:类型初始成员数分类后成
16、员数分类正确率优质油564991.1%地沟油2330结果与去除指标前完全一致。(2)只去除指标3后分类结果:类型初始成员数分类后成员数分类正确率优质油564991.1%地沟油2330结果与去除指标前完全一致。(3)只去除指标5后分类结果:类型初始成员数分类后成员数分类正确率优质油564991.1%地沟油2330结果与去除指标前完全一致。(4)同时去除指标1、3、5后分类结果:类型初始成员数分类后成员数分类正确率优质油564991.1%地沟油2330结果与去除指标前完全一致。三个候选指标已经全部被剔除,然而结果却没有任何改变。通过上文分析将指标缩减至4个,此时可以考虑其他指标是否也能够被剔除而不
17、影响分类结果。对于指标2、4、6、7,首先分别去除单个指标,比较去除后结果与去除前的差异,若出现两或两个以上个指标在去除后结果不变,那么同时去除这几个指标。经过多次对指标的删减,最终仅仅保留了指标4或指标6,在确保结果的正确性最大限度的减少了指标数量。验证指标4和指标6的正确性:(1)在只有指标4的情况下,计算出了临界值为20.579。通过比较未分类组的成分4与此临界值的大小得到85至92组为优质油,93至100组为地沟油,这与其他指标被剔除前得出的判别结果完全一致。(2)在只有指标6的情况下,计算出了临界值为21.641。通过比较未分类组的成分6与此临界值的大小得的出分类结果与剔除其他指标前
18、的结果完全一致。通过上面的分析,可以确定只需要使用指标4或指标6就可以达到与使用所有指标相同的准确率。5.1.6模型的改进从6.1的分析过程可看出,模型可以较准确地对原始数据进行分类,并且可以对未知数据做出相应的判断。但是,模型也有明显不足的地方,每次求解判别结果时都会发现有7组数据被分在另一组中,而且这7组数据是固定不变的,它们的编号分别是53、54、55、56、58、59、60。这是连续的7组数据(第57组由于数据异常已经被删除),引发了对原始数据分组的合理性。可以尝试将这七组的默认分组从优质油改为地沟油,这样得出的结果也许更加的准确,对未分类的数据可以起到更好的判别效果。更改分组后优质油
19、为1-52组,地沟油为53-84组。将重新分组的数据导入SPSS得出新的分析结果:标准化的典型判别式函数系数成分1234567系数0.0990.1741.4521.706-0.0820.732-0.341分类结果:类型初始成员数分类后成员数分类正确率优质油4949100%地沟油3030此时分类结果正确率达到100%,判别函数也发生相应的变化。问题一中的模型也相应得到改变。修改后的判别函数为:第一类样本品指标均值为: 15.53423.41617.52727.70823.18328.94979.713第二类样本品指标均值为: 20.26826.39116.96015.15320.87115.91
20、590.503故求得临界值 =53.296对于问题二:使用此临界值对问题二求解,结果与更改分组前一致。对于问题三:更改分组后,只使用指标6可以使得分类正确率达到100%,而只是用指标4可使分类正确率达到98.7%。可见,更改原始分组后,可在不影响其他结果正确性的情况下使得分类正确率达到100%。因此,第53-60组更适合被分为地沟油,而不是优质油。5.2K-均值聚类模型建立与求解k-均值聚类又称为快速样本聚类,是非系统聚类中最常用的一种聚类法。以某几个点为中心,将样本以各中心点为基准就近归类。5.2.1K-均值模型基本原理1. 按照指定的分类数目n,按某种方法选择某些观测量,设为Z1,Z2Zn
21、,作为初始聚心。2. 计算每个观测量到各个聚心的欧氏距离。即按就近原则将每个观测量选入一个类中,然后计算各个类的中心位置,即均值,作为新的聚心。3. 使用计算出来的新聚心重新进行分类,分类完成后继续计算各类的中心位置,作为新的聚心,如此反复操作,直到两次迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小距离的倍数时,或者达到迭代次数的上限时,停止迭代。以上既是K-均值聚类模型的基本思想。显然,在此模型中不需要预先知道样品油属于优质油还是地沟油,只需要将所有数据一起导入模型(需要删除前文提出的5组异常数据),分类数量设置为2,即可看出未知类别组属于哪一类,实现未知组类别的划分。5.2.2 S
22、PSS聚类结果1. 在SPSS中对数据进行标准化2. 设置簇数量为23. 使用标准化后的数据进行k-均值聚类分析聚类分析结果如下:编号分类编号分类编号分类编号分类编号分类12222442651862222324526618723224246267188242252472681892522724826919026228249271191272292502721922823025127319319231252274194110232253175195111233254176196112234255177197113235256178198115236258179199116237259180110
23、01171382601811182392611821192402621831202412631841212432641852(注:表中类别1代表地沟油,类别2代表优质油)5.2.3问题的求解与结果分析对于问题二:从表中可以清楚地看到待测的样品中85-92组被分为优质油,93-100组被分为地沟油。这一结果与Fisher判别模型中问题二的出的结果完全一致,再一次肯定了模型的正确性。同时,注意到53-60组被分为地沟油。这是在预先不分组的前提下得出的分类结果,最大限度的排除了题设分组不合理带来的干扰,因此此模型的分析结果证明了在Fisher模型的改进中提出的将53-60组归入地沟油的建议是正确的。
24、但是,第17组数据由原始的优质油被分为地沟油。这与Fisher判别模型的分类结果是不同的。第17组数据如下:成分1成分2成分3成分4成分5成分6成分728.230.522.1624.8624.4230.7582.19仔细观察得出第17组前两种成分含量过高。然而在不同模型中对各种成分处理是不同的,最终使得分类结果有微小的差异。对于问题三:沿用Fisher判别模型中对问题三求解的思想,分别剔除单个指标进行标准化数据的分析,再逐步增加剔除的指标数量,最后得出能确保正确率的最少指标数量以及分别是那些指标。在这一模型下,SPSS的分析结果指出,在53-60组被归为地沟油的情况下,只使用指标4,k-均值聚
25、类模型得到了100%的分类正确率,对于第二问的求解结果与去除指标前一致。只是用指标6也得出了相同的结果。而在只使用指标7的条件下,除了第92的分类情况不同,其他组与剔除指标前一致。所以,在K-均值聚类模型中可以将指标缩减至只剩指标4或指标6。由于指标7也表现出色,只错判一组,因其含量较多,便于检测,在特定条件下可选择只保留指标7。5.2.4模型改进在K-均值聚类模型中,初始聚心需要随机选取,而在大量样本中,初始聚心的选取是会影响到最终归类结果的。为了使结果更准确,可以引入一种辅助确定初始聚心的算法。这里选用了最大最小距离法。其基本内容如下:最大最小距离法是模式识别领域中的一种基于试探的算法,思
26、想是取尽可能离得远的对象做为聚类中心,避免了K-均值聚类算法初值选取时可能出现的聚类种子过于邻近的情况,智能地确定初始聚类种子的个数。最大最小距离聚类的基本算法流程如下:1) 从n个数据对象中任意选择一个对象作为第一个类的中心。2) 计算剩余对象与选取的对象的距离,找出距离最大的那个对象作为第二个类的中心。3) 设定阈值T,(D为第一个中心点与第二个中心点的距离,通常取0.51)4) 对剩余对象,分别计算到第一类中心点和第二类中心点的距离。令其中较小的那个为Di。若Di<T则将对象归入距离较小的那类;若Di>T则将该对象作为新的类的中心。
27、160;5) 重复同样的处理,直到再找不到符合条件的新的聚类中心。改进的K-均值聚类算法是将K-均值算法与最大最小算法相结合。其基本思想是:首先选取距离最大的两个对象作为初始聚类中心,然后对于剩余对象计算到两个初始聚类中心的距离,再与阈值比较判断是否有新的聚类中心。如果出现新的聚心那么重新计算其它点到此聚心的距离,判断是否再次出现聚心。如此循环直到不再出现新的聚心为止。这种改进使得初始聚心选取的随机性降低。因为选取的初始聚心间隔较远,所以可以避免K-均值聚类算法初值选取时可能出现的聚类种子过于邻近的情况,使类间区别更加明显。5.3系统聚类模型求解前面已经使用了两种模型对数据分类,且都取得了很好的效果,但是它们都是用到统计软件得出结果,具体的分类过程不能直观的展现出来。下面将使用MATLAB来实现系统类聚的模型,可以清楚地看到分类的每一个步骤。5.3.1系统聚类模型基本思想系统聚类法的基本思想:先假定各个样品各自成一类,这时各类间的距离就是各样品之间的距离,将距离最近的两类合并成一个新的类;再计算新类与其它类间的距离,将距离最近的两类合并,如此每次缩小一类,直至所有的样品都成为一类为止。然后根据需要或者根据给出的距离临界值(阈
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水上交通安全测试题及答案解析
- 2025年汽车自动驾驶行业技术突破与智能出行研究报告及未来发展趋势预测
- 蒸汽自压加水器行业深度研究报告
- 中考红岩阅读真题及答案
- 安全英文写作课件
- 2025年齐齐哈尔市辅警招聘《公安基础知识》真题及答案解析
- 工艺美术设计师理论知识考核试题及答案
- 跨文化团队效能提升-第3篇-洞察与解读
- 超可靠低延迟通信-洞察与解读
- 智能泵阀安全防护技术-洞察与解读
- 土地开发整理项目预算编制课件
- 芳香疗法医学知识培训课件
- 2022年宝信软件发展现状及竞争优势分析
- 高级工电工题库:501-600
- 煤矿皮带顺槽锚索支护施工安全技术措施
- 《聚合物基复合材料成型工艺》PPT课件(完整版)
- 大连理工大学机械制图习题集答案.
- 第七章产品策略PPT课件
- 初级爆破工程技术人员考试填空题
- 某创业公司员工的自我修养PPT课件
- 《诗经_魏风_伐檀》
评论
0/150
提交评论