判别分析案例_第1页
判别分析案例_第2页
判别分析案例_第3页
判别分析案例_第4页
判别分析案例_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析——判别分析统计研一苏旸2007100196判别分析案例判别分析——把对象归到已知类中人们常说:——“像诸葛亮那么神机妙算”——“像泰山那么稳固”——“像钻石那么坚硬”一些判别标准都是有原型的,虽然这些判别的标准并不那么精确或严格,但大都是根据一些现有的模型得到的。判别分析案例判别分析的方法距离判别法Fisher判别法Bayes判别法逐步判别法判别分析案例距离判别法假设有两个总体G1和G2,如果能够定义点x到它们的距离D(x,G1)和D(x,G2),则如果D(x,G1)<D(x,G2),则x∈G1如果D(x,G2)<D(x,G1),则x∈G2如果D(x,G1)=D(x,G2),则待判。距离判别法的不足之处:判别方法与总体各自出现的的概率大小无关;判别方法与错判之后所造成的损失无关。判别分析案例Fisher判别法所谓Fisher判别法,就是一种先投影的方法,把高维空间中的点向低维空间进行投影。主要思想是通过将多维数据投影到某个合适的方向上。而投影的原则是将总体与总体之间尽可能的分开,然后选择合适的判别规则,进行分类判别。判别分析案例Bayes判别法当每个分类的观察值不同时,最好用Bayes判别。因为每个分类的观察值不同时,每类出现的机会是不同的,而Fisher判别法忽视了这个问题。具体方法是:对每一个样品先计算出判别分数D,然后根据先验概率和D的条件概率,计算出该样品被判为每一类的后验概率,哪

类的后验概率最大,则判为哪一类。判别分析案例逐步判别法逐步判别法就是在前面的方法中加入变量选择功能。有时,一些变量对于判别没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。逐步判别的思想是先用少数变量进行判别,然后一边判别,一边引进判别能力最强的变量,同时淘汰判别能力不强的的变量。主要利用一些检验来判断变量的判别能力。判别分析案例

大纲数据介绍SPSS实现结果分析R语言实现disc.sav,disc.txt判别分析案例数据介绍——disc.sav数据来源:吴喜之——《统计学:从数据到结论》。数据介绍:某专家编出一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。共有8个指标,如下页表格所示。有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别,找出分类标准,并对没分类的企业进行分类。判别分析案例变量描述变量名称涵义描述group表示类别。group-1代表上升,group-2代表稳定,group-3代表下降。is表示企业规模。se表示服务。sa表示雇员工资比例。prr表示利润增长。ms表示市场份额。msr表示市场份额增长。cp表示流动资金比例。cs表示资金周转速度。判别分析案例数据展示该数据disc.sav共有90个样本,其中30个属于上升型,30个属于稳定性,30属于下降型。这个已知类别的数据称为一个“训练样本”。group表示类别8个用来建立判别标准的变量判别分析案例SPSS实现——数据读入File

Open→

Data

“Disc.sav”判别分析案例SPSS实现——数据编辑VariableView→“Group”变量Decimals:“2”→“0”;

Label:添加变量名称,便于识别;“Group”变量Value:添加组别。判别分析案例SPSS实现——数据分析Analyze

Classify→

Discriminant判别分析案例SPSS实现——模块介绍Grouping

Variable:选入分类变量“Group”,Define

Range被激活。点击弹出Range对话框,分别输入分类变量最小值和最大值,本例为“1”和“3”。Independents:选入自变量。本例选入变量“is—cs”。Enter

independents

together:所有自变量同时进入方程。Use

stepwise

method:逐步判别法。按自变量贡献大小,逐个引入和剔出变量,直到没有新的有显著作用的自变量可以引入,也没有无显著作用的自变量可以从方程内删除为止。选此项后,激活Method按钮。SelectVariable:挑选观察单位。框内选入变量后(不能选入分类变量和自变量中已选入的变量),Value按钮被激活,填入数值。自己符合该数值的的观察单位才参与判别分析;若不选此项,则所有观察单位都参与判别分析。判别分析案例SPSS实现——选择变量的方法两种变量选择方法自变量同时进入方程逐步判别法判别分析案例SPSS实现——变量选择group选入分组变量is-cs选入自变量选择自变量同时进入方程的方法判别分析案例SPSS实现——Statistics模块Descriptives:描述性统计量。Means:均数估计。Univariate

ANOVAs:单变量方差分析。Box’s

M:组间协方差齐性检验。Matrices:矩阵Within-groups

correlation:合并组内相关阵。Within-groups

covariance:合并组内协方差阵。Separate-groups

covariance:各组协方差阵。Totalcovariance:总协方差阵。Function

Coefficients:函数系数。Fisher’s:Fisher函数系数——Bayes判别函数系数。Unstandardized:非标准化函数系数——Fisher判别函数系数。判别分析案例SPSS实现——Statistics模块选择Means进行均数估计选择Box’s

M进行各组协方差阵相等检验生成Bayes判别方程系数和Fisher判别方程系数。选择ANOVAs进行各组均值相等检验判别分析案例SPSS实现——Classify模块Prior

Probabilities:设定先验概率。All

groups

equal:各组等概率。Compute

from

group

sizes:各组样本量的百分比为先验概率。Display:输出。Casewise

result:每个观察单位判别分析后所属类别。Limit

cases

to

first

[]:前若干观察单位判别分析后所属类别。Summary

table:判别符合率表。Leave-one-out

classification:以剔出某观察单位所建立的判别函数判别该观察单位所属类别。Use

Covariance

Matrix:使用协方差阵。Within-groups:组内协方差阵。Separate-groups:各组协方差阵。判别分析案例SPSS实现——Classify模块Plots:判别图。Combined-groups:各类共同输出在一幅散点图中。Separate-groups:每类单独输出一幅散点图。Territorial

map:分类区域图。Replace

missing

values

with

mean:用均数替代缺失值。选择以样本量百分比为先验概率显示每个单位判别分析后所属类别显示判别符合率表类别显示在同一散点图中以剔出某观察单位所建立的判别函数判别该观察单位所属类别判别分析案例SPSS实现——Save模块Save:存为新变量。Predicted

group

membership:预测观察单位所属类别。Discriminant

scores:判别分。Probabilities

of

group

membership:观察单位属于某一类的概率。在数据中保存判别后数据所属类别在数据中保存数据的判别分判别分析案例结果分析在判别分析主对话框中点击“OK”,生成输出output文件。90个变量100%读入,没有缺失值判别分析案例结果分析各自变量的方差分析及λ统计量说明在3类企业间,各变量均有显著差异λ统计量在0-1之间。越接近0组间差异越显著;越接近1组间差异越不显著。判别分析案例结果分析各组协方差阵相等的检验说明拒绝协方差矩阵相等的假设,即不能认为各组间协方差矩阵相等。从一些统计实践的结果来看,很少有碰到检验不显著的情况。而在一些实践中,比如线性判别分析,即使方差-协方差结构不相等,对于结果的影响也不会有非常大的影响。判别分析案例结果分析——Fisher判别法标准化典型判别函数系数得到2个标准化典型判别方程:需要注意的是:这是标准化后的判别函数,若要将变量带入计算判别分,必须将变量进行标准化处理(即减均值除以标准差)。判别分析案例结果分析——Fisher判别法结构系数矩阵——用来说明判别变量对标准化典型判别方程的相关程度结果说明,前6个变量(*)对方程1贡献比较大,后两个变量对方程2贡献较大。判别分析案例结果分析——Fisher判别法未标准化典型判别函数系数—Fisher判别法得到2个未标准化典型判别方程:可以将原变量值直接代入计算判别分进行分类。判别分析案例结果分析——Fisher判别法生成3个新的变量dis_1表示判别后所属组别的值dis1_1表示样本代入第1个判别函数所得的判别分dis2_1表示样本代入第2个判别函数所得的判别分判别分析案例结果分析——Fisher判别法Fisher判别法得到的分组图各组重心——描述在判别空间每一组的中心位置判别分析案例结果分析——Fisher判别法判别力指数——两个判别函数的作用并不是平等的,判别力指数给出了判别函数的重要程度。说明第一个判别函数的贡献率高达98.8%,第二个判别函数的贡献率仅为1.1%。判别分析案例结果分析——Fisher判别法残余判别力指数——残余判别力的含义是:在以前计算的函数已经提取过原始信息之后,残余的变量信息对于判别分组的能力。λ值越小表示越高的判别力。说明方程1提取了很大的信息量,而残余变量信息对于判别分组的能力很小了。判别分析案例结果分析——Fisher判别法分类结果从表上看,我们的分类函数能够100%的把训练数据的每一个观测值分到其本来的类。该表分成两部分:上面一半是用从全部数据得到的判别函数来判断每一个点的结果;下面一半是对每一个观测值,都用仅缺少该观测值的全部数据得到的判别函数来进行判断的结果。判别分析案例结果分析——Bayes判别法各分类的先验概率先验概率是根据样本出现概率确定的,本例3类企业各有30个,因此先验概率相等都为33.3%。判别分析案例结果分析——Bayes判别法Bayes判别法得到的判别函数系数得到3个判别方程:将观察单位的各个变量分别代入3个判别函数中,可求出3个判别函数值,哪一个最大就属于哪一类。判别分析案例结果分析——Bayes判别法上述结果会生成一个CasewiseStatistics的表格。显示实际分类和预测分类,系统会将分错的样本单位用*标注出来。本例用Bayes判别法判别的正确率为100%。需要指出的是,根据推导出来的分类函数来分类,即使是对训练样本的这些观测值,也不一定总能保证全都被正确划分。本例如果只用少数几个变量进行判别,结果就不一样了。判别分析案例结果分析使用企业规模(ie)、服务(se)和雇员工资比例(sa)三个变量进行判别,得到的分类图。与8个变量进行判别相对比,明显的三类点分的就不那么开了。判别分析案例结果分析基于3个变量的分类结果表结果显示,对于全部数据的判别,有85个点(94.4%)得到正确划分,5个点错判;其中第二类有3个被误判到第一类;有2个被误判到第三类。对于交叉验证的判别,有83个点(92.2%)得到正确划分,有7个点被错判;其中第二类有3个被误判为第一类,4个被误判为第三类。判别分析案例SPSS实现选择逐步判别法Method模块被激活判别分析案例SPSS实现——Method模块Method:逐步判别分析方法Wilks’lambda:Wilks

λ统计量(组内离差平方和/总离差平方和)最小化法。Unexplained

variance:组间不可解释方差和最小化。Mahalanobis

distance:邻近组间马氏距离最大化法。Smallest

F

ratio:任两组间最小F值最大化法。Rao’s

V:Rao

V统计量最大化法。

V-to-enter:V值最小增量值。Criteria:剔选标准Use

F

value:以F值为剔选变量准则。Use

probability

of

F:以F值对应的P值为剔选变量准则。判别分析案例SPSS实现——Method模块Display:输出Summary

of

steps:输出每一步的统计量。F

for

pairwise

distance:输出两组间判别检验的F值及P值。选择Wilks

λ统计量最小化法选择输出每一步统计量当F≧3.84时选入;当F≦2.71时剔出。判别分析案例结果分析经过分析,淘汰了不显著的资金流动比例(cp)变量,当然判别系数也发生相应变化。判别分析案例结果分析虽然判别系数改变,但结果并未改变。判别分析案例R语言实现>w=read.table("disc.txt");attach(w);wV1代表Group。>V1=factor(V1)

#把分组变量变成定性变量。判别分析案例R语言实现>train=sample(1:90,45)

#随即抽取一般样本作训练样本。>table(V1[train])

#显示训练样本中各类的比例。>librar

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论