




已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种新的判别分析方法模糊典型判别分析 内容提要:本文在Fisher典型判别分析基础上,把模糊理论引入判别分析方法,提出了模糊典型判别分析,可以用来处理自然科学和社会科学中很多模糊现象的判别分析。推导了模糊典型判别分析的参数求解,并提出了计算机可执行的算法。最后通过数值案例分析和其他判别方法比较,进一步证明了该方法具有很好的判别效果。 关键词:模糊理论;判别分析;算法中图分类号:O212文献标识码:AA New Discriminant Analysis Fuzzy Canonical Discriminant Analysis Abstract: This paper propose Fuzzy Canonical Discriminant Analysis based on Fisher Canonical Discriminant Analysis,we bring the fuzzy theory into discriminant analysis and apply it to deal with many vagueness in natural scinece and social science.We also infer the parameters estimation of the Fuzzy Canonical Discriminant Analysis and design the computer feasible Algorithm.At last,we further prove the good performance of this method by numeric analysis.Key words: Fuzzy Theory; Discriminant Analysis;Algorithm一、 引言判别分析是利用已知分类变量的样本数据构建判别函数,并对未知类型的对象进行预测的一种分类方法。设有个样本,对每个样本测得项指标(变量)的数据,已知每个样本属于个类别(或总体)中的某一类。我们希望利用这些数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来,并对测得同样项指标(变量)数据的一个新样本,能判定这个样本归属于哪一类。判别分析在实际应用中非常广泛,比如财务危机分类预测、信用卡欺诈分类预测、市场营销的客户分类预测、石油勘探的波形分类预测、岩层分类预测等等。判别分析的方法很多,其中最常用最经典的是Fisher典型判别分析法,是由R.A.Fisher于1936年提出来的。虽然Fisher典型判别分析法能解决很多分类问题,但该方法在很多情况下判别精度相对较低,而且尤其是对于那些定义不是很明确,或者说存在模糊现象的判别精度过低,比如人的身高“高”和“矮”的分类;成绩的“好”和“坏”;天气的“冷”和“热”等的判别。实际上,在自然科学或社会科学研究中,存在着许多定义不很严格或者说具有模糊性的概念。模糊性同随机性一样也是一种不精确性,是事物本身所固有的特性。处理分析这些“模糊”概念的数据,很难用传统的数学和统计学去描述。模糊理论最早是由美国加州大学伯克利分校电气工程系的L.A.zadeh教授在1965年提出的,开始用数学的观点来刻划模糊现象。自从模糊理论的提出,极大扩展了传统的明确数学(crisp mathematics),可以用来描述模糊分类的不确定性。在明确数学里,一个对象对应于一个集合,要么属于,要么不属于,二者必居其一,且仅居其一,也就是一个对象的隶属度取值要么是1,要么是0,这样的集合论本身并无法处理具体的模糊概念。但是在模糊理论,摆脱了这种“非此即彼”的精确性,隶属度的取值是在0,1之间取任意值,反应了事物之间由于差异的中间过渡性所引起的划分上的不确定,而使得概念外延的不分明性,也就是“亦此亦彼”。因此本文尝试在Fisher典型判别分析方法中引入模糊理论概念,提出了模糊典型判别分析方法,用来解决一些模糊现象的分类问题。用隶属度来度量第个观测值和第组的相似程度。在传统的判别分析里,的取值只能是0或1,但本文提出的模糊典型判别分析理论,可以取0,1的任一实数。比如等于0表示第个观测值完全不属于第组,假如等于1,表示第个观测值完全属于第组,假如等于0.5,表示第个观测值与第组的相似度为0.5。实际上,可以把传统的典型判别分析看做是模糊典型判别分析的特例。这样就可以处理很多模糊现象的分类问题。本文接下来的结构安排如下:第二部分提出了模糊典型判别分析的基本理论框架;第三部分以分三类为例求解了模糊典型判别分析方法的参数,并设计了计算机可执行的算法;第四部分是数值案例分析,比较分析了Fisher典型判别分析方法与模糊典型判别分析方法的优劣;第五部分是小结与讨论。二 、模糊典型判别分析Fisher判别法是R.A.Fisher于1936年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上,投影的原则是将不同的总体尽可能的分开,再选择合适的判别规则,将新的未知类别的样品进行分类判别。假设表示有个指标(变量)的个样品观测数据,总共有类。假设的分类变量未知,而的分类变量已知。我们希望利用这些数据,构建合适的判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来,并对测得同样项指标(变量)数据的每一个样本,能判定归属于哪一类。但是,在本文提出的模糊判别分析里,假设第个观测值可以以不同的隶属度属于多个总体,用表示第个观测值属于第组的隶属度,对于每一个观测值在所有组上的隶属度和应该为1。由于的分类变量未知,因此隶属度也未知。而的分类变量已知,也就说每个观测值对应的隶属度确定的,比如属于第组,则,。为了便于阐述,我们先做如下定义。定义 2.1 :表示第个观测值属于第组的隶属度,且满足和,。定义2.2:组间离差平方和其中 表示第组的样本均值,表示所有样本的均值。是一个用来控制模糊程度的平滑参数。定义2.3:组内离差平方和:其中,表示有个变量的第个观测值,。根据Fisher判别分析的思想,要求使不同总体间的差异大,同时使每一个总体内的离差平方和小,也就是等价于使组间离差平方和和组内离差平方和的比率达到最大。也就是等价于选择判别系数向量和隶属度向量,使如下目标函数最大。 (1)为了确保式(1)解的唯一性,不妨假设,这样问题就转化为,在,和()条件下求最大值。即: (2) 则式(2)对应的拉格朗日函数为: ( 3 )式(3)中的拉格朗日函数含有个,1个,个,个参数需要求解。这样,实际上式(3)很难求解出这些参数,在后面的算法设计中也非常复杂。为了解决这个问题,我们考虑利用正余弦函数替换原来的隶属度。转换如下: (4)很容易求证,上述替代满足条件,和;i=1, c , k=1,n 。这样变换后,对于每个观测值隶属度参数的个数就等于总体(分类)数减1,即个,通过式(4)替换后相对于式(2)需要求解的参数总共减少了个。并且替换后满足式(2)中隶属度的所有条件。这样的替代近似于等量代换,对原问题的解的影响很小,却可以大大减少参数的求解。所以,模糊典型判别分析的问题归结于求判别系数向量和隶属度向量使得经过式(4)转换后的目标函数最大。如何求解判别系数向量和隶属度向量是模糊判别分析最关键的部分,本文在第三部分重点介绍了参数的求解和计算可执行的算法。三、 参数估计与算法设计(一)参数估计为了方便叙述,本文以分成三类为例,即时进行阐述。根据式(4),对应的隶属度可由如下式子给出: (5)把式(5)代入式(3),则当,即分为三类时,模糊典型判别分析归结为求解式(6): (6)则可得对应的拉格朗日函数为: 利用拉格朗日法可以求解各参数,由于篇幅问题,详细求解过程略去。各参数求解的结果如下: (8) (9) (10) (11) (12) (13)其中, 是的最大特征根,因为由得到,可进一步写为 (14)将代入拉格朗日函数中得到 那么拉格朗日函数最大等价于最大。同时由于,得到是的特征根,所以是的最大的特征根。是的特征向量。 (二)算法设计前面部分的参数估计结果实际上对于已知分类变量的观测值计算,而对于未知分类变量的观测值如何估计其隶属度,从而如何做判别预测?这就需要设计一套计算机可执行的算法来求解。步骤1:首先,根据已知分类变量的观测值和其对应隶属度,计算总的样本均值,以及每组样本均值 (i=1,.,c)。步骤2:给平滑参数赋一个初始值。步骤3:根据定义2.2、2.3以及第1、2步的结果计算组间离差平方和和组内离差平方和。步骤4:根据公式(14)和第3步计算和步骤5:根据公式(12)和第1步和第4步的结果计算 (k= n0+1,.,n)。步骤6:根据公式(13)和第1步、第4步和第5步的结果计算 (k= n0+1,.,n)。步骤7: 利用公式(6)和第5步、第6步的结果计算未知分类变量观测值的隶属度(i=1,.,c ,k=1,.,n0)。步骤8:利用公式(8)( 13)和所有观测值以及对应的隶属度(包括已知分类变量和未知分类变量的观测值)计算新的总样本均值和各组均值 (i=1,.,c)。步骤9:重复计算第2至第8步直到隶属度收敛为止,也就是说 i=1,.,c; k=1,.,n,表示迭代的次数。在实际中,我们可以让等于0.0001。这样,按照以上算法迭代到第9步后得到最终的,(i=1,.,c; k=1,.,n)及判别函数系数,那么就可以判别的归类。四、 数值分析(一)判别效果比较为了比较模糊典型判别分析和Fisher典型判别分析在判别效果上的优劣,本文选用R.A.Fisher 在1936年做判别分析时使用的鸢蕊花数据(Iris),该数据分为三类花,即setosa,versicolor和virginica,每类花都有50个观测值,这样样本总共有150个观测值,每个观测值有四个指标,分别为花瓣长、花瓣宽、花萼长、花萼宽。利用错分率作为判别分析好坏的标准。模糊典型判别分析和Fisher经典判别分析的判别结果见表1。表1 Fisher典型判别分析和模糊典型判别分析结果 Fisher典型判别分析模糊典型判别分析实际值SET.VER.VIR.SET.VER.VIR.SET. 5050(100%)0 (0%)0 (0%)50 (100%)0 (0%)0 (0%)VER. 500 (0%)48 (96%)2 (4%)0 (0%)48 (96%)2 (4%)VIR. 500 (0%)1 (2%)49 (98%)0 (0%)1 (2%)49 (98%)注:SET.为Setosa简写,VER.为Versicolor简写,VIR.为Virginica简写从表1可以看出,对于鸢蕊花数据,模糊典型判别分析的错分率与Fisher典型判别分析的错分率一样,这与鸢蕊花数据有关,该数据是R.A.Fisher最早用来检验Fisher典型判别分析效果。我们进一步比较了模糊典型判别分析和线性典型判别分析,二次型典型判别分析和近邻典型判别分析的判别结果,各种方法判别的总错分率见表2。表 2 各种判别分析方法总的错分率模糊典型判别分析典型判别分析(线性)典型判别分析(二次型)典型判别分析(K近邻)SETOSA0.000.000.020.00VERSICOLOR0.040.040.040.04VIRGINICA0.020.020.080.08总计0.020.020.04670.04从表2可以看出,模糊典型判别分析和线性典型判别分析的错分率最低,都为2%,而二次型典型判别分析和近邻典型判别分析的误判率相对较高。可见对于鸢蕊花数据,模糊典型判别分析与Fisher典型判别分析效果一样,且都好于二次型和近邻的判别效果。前面主要针对所有150个已知分类变量的观测值构建模糊判别模型和Fisher典型判别模型,由于样本的特殊性,无法区分出这两种判别方法的优劣。并且前面进行的主要是样本内预测,无法考察这两种方法在样本外的预测表现。因此,本文接下来考察这两种方法在不同规模的已知样本量的预测效果。我们利用重抽样方法从IRIS原始数据每组分别抽取5、10、15、20、25、30、40、50个观测值进行建模,然后利用构建的模型再对原始IRIS数据所有样本进行判别预测。各种组合的预测效果见表3。从表3可以看出,当用来建模的样本量比较少时,模糊典型判别分析的判别效果明显要好于Fisher典型判别分析效果,比如当每组抽取5个已知分类变量的观测值构建判别函数,然后对原始IRIS数据的所有观测值进行预测,发现Fisher典型判别分析方法virgino类花15个误判,versi花有1个误判,而模糊典型判别分析virgino类花有13个误判,versi花有2个误判。当每组抽取10个已知分类变量的观测值建模,模糊典型判别分析的判别效果也要好于Fisher典型判别分析效果。随着每组已知分类变量的样本数增加,比如本例中当每组抽取15个及以上已知分类变量的观测值时,Fisher典型判别分析和模糊典型判别分析的误判率相同。说明在小样本情况下,模糊典型判别分析想对于Fisher典型判别分析具有更好的判别效果。表3 原始样本重抽样的判别效果典型判别错分数模糊典型判别错分数已知分类变量样本数大小SET.VER.VIR.SET.VER.VIR.每组5个01150213每组10055054每组15个056056每组20个046046每组25个046046每组30个046046每组40个046046每组50个056056每组错分率0%8%14%0%8.25%13.25%总的错分率7.33%7.17%注:SET.为Setosa简写,VER.为Versicolor简写,VIR.为Virginica简写(二)平滑参数的选择本文设计的平滑参数是为了控制隶属度而设置,需要在分析之前根据实际情况人为设定,因此检验不同的平滑参数对判别分类的结果影响非常重要。为了验证参数对分类结果的影响,分别选取,对容易错分的观测值5,12,118进行分析。发现的取值对判别的结果影响很稳定,的判别结果完全一致,但是随着平滑参数的增大,隶属度间的差距在缩小。比如,当时,第五个观测值的隶属度分别为0.17,0.423,0.407,而当时,对应的隶属度则分别为0.293,0.355,0.353,隶属度趋向于相同。的取值根据实际情况来定,一般来说,本文认为的取值在1-5之间是比较合理的。表4 平滑参数的选择对错分样本的影响平滑参数NO.实际类别预测结果SET.VER.VIR.预测结果SET.VER.VIR.预测结果SET.VER.VIR.5VIR.VER.0.1700.4230.407VER.0.2520.3760.372VER.0.2930.3550.35312VER.VIR.0.1500.3230.528VIR.0.2410.3380.421VIR.0.2880.3380.374118VER.VIR.0.1680.4100.421VIR.0.2510.3710.378VIR.0.2960.3520.355注:SET.为Setosa简写,VER.为Versicolor简写,VIR.为Virginica简写五、结论本文在Fisher典型判别分析的基础上,提出了模糊典型判别分析方法。通过引入模糊理论,克服了传统判别分析的缺陷,可以用来处理自然科学或社会科学中很多模糊现象的分类问题。本文推导了模糊典型判别分析的参数求解,并提出了计算机可执行的算法。并通过数值案例分析,进一步证明了在判别效果上,模糊典型判别分析在小样本下的判别效果明显要好于Fisher典型判别分析。该方法在理论上极大地扩展了传统的判别分析方法,可以进一步把该思想运用到其他判别分析方法以及主成分分析、因子分析、聚类分析等方法。从而可以把在传统明确数学概念下的诸多多元统计方法扩展到模糊概念下的统计方法。该方法在应用上具有很好的前景。可以用来处理自然科学或社会科学中很多模糊现象的判别分析。比如在植物病害数值诊断、医学诊断、商品评判、土壤分类、企业信用评级等都有很好的应用前景。 总之,把在传统明确数学概念下建立起来的统计方法扩展到模糊概念下的统计方法具有很好的研究价值以及很广的应用前景。参考文献1陈水利等编著 模糊集理论及其应用M 北京:科学出版社,20052李柏年著 模糊数学及其应用M 安徽:合肥工业大学出版社,20073朱建平主编 应用多元统计分析M 北京:科学出版社,20074 Zadeh L. AFuzzy setsJ. Information and Control ,1965 (3): 338353.5 Dubois D. and and Prade H. Fuzzy Sets and SystemsM.New York :Academic Press,1988:51506 Fisher, R.A.The Use of Multiple Measurements in Taxonomic ProblemsJ Annals of Eugenics, 1936(7):179-188.7 Gustrfson, D. E. and Kessel, W. C. Fuzzy Clustering with a Fuzzy Covariance Matrix J Proc.IEEE CDC. 1979(10-12):761-766.8 Gautier, J. M. and Saporta, G. About Fuzzy Discrimination C COMPSTAT1982: 224229.9 Klecka, W. R. Discriminant Analysis M California :SAGA Publications, Inc.198010Okuda,T. , Tanaka H. and Asai,K. Discrimination Problem with Fuzzy States and Fuzzy Information J TIMS/Studies in the Management Sciences 1984(20):97106.11 Lin T.L. and Shia B.C.and Tang R.T. C-mean fuzzy cluster analysis of sugarcane yields of F146 and F156 at Tainan areaJ Chinese Agron. J, 1996(6):4356.12 Amo, A. Montero, J. Cutello, V.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全培训教务工作素材内容课件
- 2025春季上海建工集团校园招聘正式启动考前自测高频考点模拟试题有答案详解
- 2025北京市延庆区教育委员会第二批招聘教师87人考前自测高频考点模拟试题含答案详解
- 2025福建亿力集团有限公司所属单位生招聘98人第三批模拟试卷及参考答案详解一套
- 茶田茶叶的订购合同5篇
- H3R-antagonist-6-生命科学试剂-MCE
- 2025年甘肃省临夏州临夏德雅高级中学春季教师招聘19人模拟试卷及答案详解1套
- 广度安全培训课件
- 2025年合肥高新美城物业有限公司招聘21人考前自测高频考点模拟试题及完整答案详解
- 工程验收合同示例
- 康复医学科关于无效中止康复训练的制度与流程
- GB/T 13460-2016再生橡胶通用规范
- 《矩阵论》研究生教学课件
- 中国荨麻疹诊疗指南(2022版)
- 北京市统一医疗服务收费标准
- 陈明伤寒论经方加减治疗脾胃病陈明
- 简明新疆地方史赵阳
- 基础观感验收自评报告
- 班级管理(第3版)教学课件汇总全套电子教案(完整版)
- 公路桥梁工程施工安全专项风险评估报告
- T∕ACSC 02-2022 中医医院建筑设计规范
评论
0/150
提交评论