多元统计分析及spss实现_第1页
多元统计分析及spss实现_第2页
多元统计分析及spss实现_第3页
多元统计分析及spss实现_第4页
多元统计分析及spss实现_第5页
已阅读5页,还剩130页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元统计分析及spss实现数理部 任铭 多元统计分析方法从研究问题的角度可以分为不同的类,相应有具体解决问题的方法。问题 内容 方法 数据或结构性化简 尽可能简单地表示所研究的现象,但不损失很多有用的信息,并希望这种表示能够很容易的解释。 多元回归分析、聚类分析、主成分分析、因子分析、相应分析、多维标度法、可视化分析 分类和组合 基于所测量到的一些特征,给出好的分组方法,对相似的对象或变量分组。 判别分析、聚类分析、主成分分析、可视化分析 变量之间的相关关系 变量之间是否存在相关关系,相关关系又是怎样体现。 多元回归、典型相关、主成分分析、因子分析、相应分析、多维标度法、可视化分析 预测与决策

2、 通过统计模型或最优准则,对未来进行预见或判断。 多元回归、判别分析、聚类分析、可视化分析 假设的提出及检验检验由多元总体参数表示的某种统计假设,能够证实某种假设条件的合理性。 多元总体参数估计、假设检验 多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。本讲重点介绍常用的统计方法。这些方法包括聚类分析、主成分分析、因子分析、判别分析、对应分析、典型相关分析、方差分析、回归分析等。典型统计赛题:葡萄酒评价(2012年A题)葡萄酒评价(2012年A题)内容提纲1、数据处理、数据处理2、描述性统计、描述性统计3、聚类分析、聚类分析4、主成分分析、主成分分析5、因子分析、因子分析6、判

3、别分析、判别分析7、方差分析、方差分析8、回归分析、回归分析一、数据处理SPSS界面介绍界面介绍建立数据文件建立数据文件制图制图一、数据处理SPSS界面介绍界面介绍数据编辑窗口数据编辑窗口一、数据处理SPSS界面介绍界面介绍结果编辑窗口结果编辑窗口一、数据处理建立数据文件建立数据文件定义变量定义变量数据录入数据录入数据文件的保存数据文件的保存数据编辑数据编辑调用其它数据文件调用其它数据文件一、数据处理建立数据文件:定义变量建立数据文件:定义变量 单击数据编辑窗口左下方的单击数据编辑窗口左下方的“Variable View”Variable View”标签或双标签或双击题头(击题头(VarVar

4、),进入变量定义窗口。可定义:),进入变量定义窗口。可定义: 变量名(变量名(NameName) 变量类型(变量类型(TypeType) 变量长度(变量长度(WidthWidth) 小数点位数(小数点位数(DecimalDecimal) 变量标签(变量标签(LabelLabel) 变量值标签(变量值标签(ValuesValues) 缺失值的定义方式(缺失值的定义方式(MissingMissing) 变量的显示宽度(变量的显示宽度(ColumnsColumns) 变量显示的对齐方式(变量显示的对齐方式(AlignAlign) 变量的测量尺度(变量的测量尺度(MeasureMeasure)一、数据

5、处理建立数据文件:定义变量建立数据文件:定义变量 定义变量名(定义变量名(NameName)时,应注意:)时,应注意:(1 1)变量名可为汉字或英文,英文的第一个字符必须为字)变量名可为汉字或英文,英文的第一个字符必须为字母,后面可跟任意字母、数字、句点或母,后面可跟任意字母、数字、句点或 、# #、_ _、$ $等;等;(2 2)变量名不能以句点结尾;)变量名不能以句点结尾;(3 3)定义时应避免最后一个字符为下划线)定义时应避免最后一个字符为下划线“_ _”(因为某(因为某些过程运行时自动创建的变量名的最后一个字符有可能为些过程运行时自动创建的变量名的最后一个字符有可能为下划线);下划线)

6、;(4 4)变量的长度一般不能超过)变量的长度一般不能超过8 8个字符;个字符;(5 5)每个变量名必须保证是唯一的,不区分大小写。)每个变量名必须保证是唯一的,不区分大小写。常用的变量类型(常用的变量类型(TypeType)包括:数值型、字符串型、日期)包括:数值型、字符串型、日期格式变量等。格式变量等。一、数据处理建立数据文件:建立数据文件:数据录入数据录入直接录入直接录入调入数据:调入数据:excelexcel、记事本等、记事本等一、数据处理建立数据文件:建立数据文件:保存保存选择选择“FileFile”菜单的菜单的“SaveSave”命令,可直接保存命令,可直接保存为为SPSSSPSS

7、默认的数据文件格式(默认的数据文件格式(* *. .savsav)。)。选择选择“FileFile”菜单的菜单的“Save AsSave As”命令,弹出命令,弹出“Save Data AsSave Data As”对话框,可选择保存为对话框,可选择保存为ExcelExcel(* *. .xlsxls)等文件格式。)等文件格式。一、数据处理建立数据文件:建立数据文件:数据编辑数据编辑(1 1)数据的排序:)数据的排序: 数据数据排序个案排序个案 数据数据排列变量排列变量 (2 2)数据的转置:)数据的转置: 数据数据转置转置 分割文件、重组、选择个案等分割文件、重组、选择个案等一、数据处理制图

8、制图主要通过主要通过“GraphGraph”菜单中的选项来创建图形菜单中的选项来创建图形二、描述性统计 例例2.1:数据:数据2.1给出了员工代码、性别、起始薪金、给出了员工代码、性别、起始薪金、当前薪金等信息:当前薪金等信息:1.利用频率计算当前薪金的描述性统计量,并绘制利用频率计算当前薪金的描述性统计量,并绘制带正态检验的直方图;带正态检验的直方图;2.利用探索性分析不同性别员工当前薪金情况;利用探索性分析不同性别员工当前薪金情况;3.用比率分析比较不同性别员工的薪金增长率是否用比率分析比较不同性别员工的薪金增长率是否有较大差异;有较大差异;4.用用P-P图和图和Q-Q图检验当前薪金是否符

9、合正态分布图检验当前薪金是否符合正态分布二、描述性统计1.利用频率计算当前薪金的描述性统计量,并绘制带正态利用频率计算当前薪金的描述性统计量,并绘制带正态检验的直方图检验的直方图二、描述性统计1.利用频率计算当前薪金的描述性统计量,并绘制带正态利用频率计算当前薪金的描述性统计量,并绘制带正态检验的直方图检验的直方图二、描述性统计 2.利用探索性分析不同性别员工当前薪金情况利用探索性分析不同性别员工当前薪金情况 单击单击“分割文件分割文件”按钮,将按钮,将“性别性别”指定为分组方式,指定为分组方式,选中选中“比较组比较组”,单击,单击“确定确定”分析分析描述统计描述统计描述,将描述,将“当前薪金

10、当前薪金”指定为变量,指定为变量,单击单击“选项选项”按钮,选中所需统计量,单击按钮,选中所需统计量,单击“继续继续”,单击单击“确定确定”分析分析描述统计描述统计探索,将探索,将“当前薪金当前薪金”指定为因变量,指定为因变量,将将“性别性别”指定为因子,单击指定为因子,单击“绘制绘制”,选定,选定“直方直方图图”,单击,单击“继续继续”,单击,单击“确定确定”二、描述性统计 2.利用探索性分析不同性别员工当前薪金情况利用探索性分析不同性别员工当前薪金情况p值小于值小于0.05,通过,通过正态性检验,即认为正态性检验,即认为当前薪金分布服从正当前薪金分布服从正态分布态分布二、描述性统计3.用比

11、率分析比较不同性别员工的薪金增长率是否用比率分析比较不同性别员工的薪金增长率是否有较大差异有较大差异分析分析描述统计描述统计比率,将比率,将“当前薪金当前薪金”指定为分子,指定为分子,将将“起始薪金起始薪金”指定为分母,将指定为分母,将“性别性别”指定为组变量,指定为组变量,单击单击“统计量统计量”,选中:均值、置信区间、,选中:均值、置信区间、AADAAD、PRDPRD、CODCOD,单击,单击“继续继续”,单击,单击“确定确定”二、描述性统计3.用比率分析比较不同性别员工的薪金增长率是否用比率分析比较不同性别员工的薪金增长率是否有较大差异有较大差异二、描述性统计 4.用用P-P图和图和Q-

12、Q图检验当前薪金是否符合正态分布图检验当前薪金是否符合正态分布 Q-Q Q-Q图是一种散点图图是一种散点图, ,对应于正态分布的对应于正态分布的QQQQ图图, ,就是由标准就是由标准正态分布的分位数为横坐标正态分布的分位数为横坐标, ,样本值为纵坐标的散点图样本值为纵坐标的散点图. . 要利要利用用QQQQ图鉴别样本数据是否近似于正态分布图鉴别样本数据是否近似于正态分布, ,只需看只需看QQQQ图上的点图上的点是否近似地在一条直线附近是否近似地在一条直线附近, ,而且该直线的斜率为标准差而且该直线的斜率为标准差, ,截截距为均值距为均值. . 用用QQQQ图还可获得样本偏度和峰度的粗略信息图还

13、可获得样本偏度和峰度的粗略信息. . P-P P-P图是根据变量的累积比例与指定分布的累积比例之间图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过的关系所绘制的图形。通过P-PP-P图可以检验数据是否符合指定图可以检验数据是否符合指定的分布。的分布。当数据符合指定分布时,当数据符合指定分布时,P-PP-P图中各点近似呈一条直图中各点近似呈一条直线。线。如果如果P-PP-P图中各点不呈直线,但有一定规律,可以对变量图中各点不呈直线,但有一定规律,可以对变量数据进行转换,使转换后的数据更接近指定分布。数据进行转换,使转换后的数据更接近指定分布。 P-P P-P图和图和Q-QQ

14、-Q图的用途完全相同,只是检验方法存在差异图的用途完全相同,只是检验方法存在差异聚类分析就是分析如何对样品(或变量)进行量化分类的问题。 通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理;R型聚类是对变量进行分类处理。三、聚类分析聚类分析的概念及分类 在聚类之前,要首先分析样品(变量)间的相似性。p样品相似性度量(距离):即两个样品间相似程度就可用p维空间中的两点距离公式来度量。p变量相似性度量(夹角余弦、相关系数)p相对于数据的大小,我们更关心变量的方向及相关性三、聚类分析相似性度量三、聚类分析相似性度量 几种距离1、闵式距离闵式距离 11( )()nqqijikjkkdqx

15、x 绝对距离(绝对距离(q=1)欧氏距离()欧氏距离(q=2)切比雪夫距离()切比雪夫距离(q=) 欧氏距离是常用的距离,欧氏距离是常用的距离,但但在解决多元数据的分析问题时,欧氏距离就在解决多元数据的分析问题时,欧氏距离就显示出了它的不足之处。一是它没有考虑到总体的变异对“距离”远近显示出了它的不足之处。一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,既使它们的的影响,显然一个变异程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的

16、处理是不利的。为了克服这方面的不足,可用“马氏距离”的概念。据的处理是不利的。为了克服这方面的不足,可用“马氏距离”的概念。 三、聚类分析相似性度量三、聚类分析相似性度量3距离选择的原则距离选择的原则 一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时,应注意距离公式的选择。通常选择距离公式应注意遵循以下的基本原则:(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚

17、类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。变量相似性度量变量相似性度量 1、夹角余弦、夹角余弦 cosijijijxxx x 2、相关系数、相关系数 12211()()()()pikijkjkijppikijkjkkxxxxrxxxx 三、聚类分析相似性度量 无论是夹角余弦还是相关系数,它们的

18、绝对值都小于1,作为变量近似性的度量工具,我们把它们统记为cij。 当 cij = 1时,说明变量Xi与Xj完全相似; 当 cij 近似于1时,说明变量Xi与Xj非常密切; 当 cij = 0时,说明变量Xi与Xj完全不一样; 当 cij 近似于0时,说明变量Xi与Xj差别很大。 据此,我们把比较相似的变量聚为一类,把不太相似的变量归到不同的类内。在实际聚类过程中,为了计算方便,我们把变量间相似性的度量公式作一个变换为 dij = 1 cij 或者 dij2 = 1 cij2 来表示变量间的距离远近,小则先聚成一类,这比较符合人们的一般思维习惯。三、聚类分析相似性度量 A)系统聚类法 B)K均

19、值聚类法三、聚类分析常见聚类方法A)系统聚类法 系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 系统聚类过程是:假设总共有n个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n 1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n 2类;,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。为了直观地反映以上的系统聚类过程,可以把整个分类系统画成一张

20、谱系图。所以有时系统聚类也称为谱系分析。三、聚类分析常见聚类方法系统聚类法与聚类步骤流程图初始分类: ;,2211nnxGxGxGnk 若 与 距离最小,合并为一类iGjG1 nkmk no输出分类结果yesB)K均值聚类 系统聚类法需要计算出不同样品或变量的距离,还要在聚类的每一步都要计算“类间距离”,相应的计算量自然比较大;特别是当样本的容量很大时,需要占据非常大的计算机内存空间,这给应用带来一定的困难。而K均值法是一种快速聚类法,采用该方法得到的结果比较简单易懂,对计算机的性能要求不高,因此应用也比较广泛。 K均值法是麦奎因(MacQueen,1967)提出的,这种算法的基本思想是将每一

21、个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤:1将所有的样品分成K个初始类;2通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标;3重复步骤2,直到所有的样品都不能再分配时为止。三、聚类分析常见聚类方法K-均值聚类法步骤流程图寻找k个凝聚点:12,iiikxxx若 则 ;得1( ,) min ( , )limlijj kd x xd x x 0lmxG00012,kG GG计算各类的重心:12,kx xx若 则 ;得1( ,) min ( , )lmljj kd x xd x x klGx 12,kG GG计算各类的重心:12,kx

22、xx重心改变输出分类结果yesnoMatlab聚类分析工具箱:cluster三、聚类分析Matlab聚类分析工具箱三、聚类分析SPSS实现例例3.13.1:(数据:(数据3.13.1)已知全国)已知全国3131个省市的城市小康水平个省市的城市小康水平衡量指标值,现要分析各省市城市水平情况及相似程度,衡量指标值,现要分析各省市城市水平情况及相似程度,采用聚类分析法将采用聚类分析法将3131个省市分为个省市分为3 3类,并用判别分析法分类,并用判别分析法分析城市水平划分所依据的主要变量,并验证聚类分析所析城市水平划分所依据的主要变量,并验证聚类分析所划分类别是否合理。划分类别是否合理。三、聚类分析

23、SPSS实现三、聚类分析SPSS实现三、聚类分析SPSS实现四、主成分分析主要目的多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。主成分分析的主成分分析的数学模型数学模型是,设是,设p个变量构成的个变量构成的p维随机向量为维随机向量为X = (X1,Xp)。对。对X作正交变换,令作正交变换,令Y = TX,其中,其中T为正交阵,为正交阵,要求

24、要求Y的各分量是不相关的,并且的各分量是不相关的,并且Y的第一个分量的方差是最大的第一个分量的方差是最大的,第二个分量的方差次之,的,第二个分量的方差次之,等等。为了保持信息不丢,等等。为了保持信息不丢失,失,Y的各分量方差和与的各分量方差和与X的各分量方差和相等。的各分量方差和相等。四、主成分分析数学模型主成分的性质主成分的性质 性质性质 1:主成分的协方差矩阵是对角阵。主成分的协方差矩阵是对角阵。 性质性质 2:主成分的总方差等于原始变量的总方差;:主成分的总方差等于原始变量的总方差; 性质性质 3:主成分主成分kY与原始变量与原始变量iX的相关系数为的相关系数为(,)kkikiiiYXt

25、 并称之为因子负荷量(或因子载荷量) 。并称之为因子负荷量(或因子载荷量) 。 性质性质 4 kpiiiikXY12),(, (, (pk, 2 , 1) 。) 。 四、主成分分析主成分的性质 主成分分析的目的是减少变量的个数,所以一般不会主成分分析的目的是减少变量的个数,所以一般不会使用所有使用所有p个主成分的,忽略一些带有较小方差的主成分个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称将不会给总方差带来太大的影响。这里我们称 1pkkkk为第为第k个主成分个主成分kY的贡献率的贡献率; 11pmmkkkk()mp为主成分为主成分1,mYY的累计贡献的累计贡献

26、率,累计贡献率表明率,累计贡献率表明1,mYY综合综合12,pXXX的能力。的能力。通常取通常取m,使得累计贡献率达到一个较高的百分数(如,使得累计贡献率达到一个较高的百分数(如85以上) 。以上) 。 四、主成分分析累计贡献率四、主成分分析具体步骤四、主成分分析综合评价四、主成分分析SPSS实现例例4.14.1:(数据:(数据4.14.1)汽车参数,用主成分分析和因子分析)汽车参数,用主成分分析和因子分析方法处理该数据。方法处理该数据。四、主成分分析SPSS实现四、主成分分析SPSS实现该表给出了主成分该表给出了主成分分析从每个变量提分析从每个变量提取的信息,可以看取的信息,可以看出,所有变

27、量都提出,所有变量都提取了取了70%70%以上的信息。以上的信息。四、主成分分析SPSS实现 该表为各主成分解释原始变量总方差的情况,该表为各主成分解释原始变量总方差的情况,默认保留了特征值大于默认保留了特征值大于1 1的主成分,前两个主成的主成分,前两个主成分累积解释了分累积解释了82.057%82.057%的方差,效果比较好。的方差,效果比较好。四、主成分分析SPSS实现该表为成分矩阵,即主成该表为成分矩阵,即主成分与标准化原始变量之间相分与标准化原始变量之间相关系数矩阵;关系数矩阵;标准化原始变量可用所得标准化原始变量可用所得主成分近似线性表示,同时主成分近似线性表示,同时0.8640.

28、8642 2+ +(-0.351-0.351)2 2=0.869=0.869即第一个变量被提取的信息即第一个变量被提取的信息的比例。的比例。第一列数据的平方和为第第一列数据的平方和为第1 1主成分的特征值。主成分的特征值。四、主成分分析SPSS实现本例分析从相关矩阵本例分析从相关矩阵出发求主成分,该表出发求主成分,该表中的系数为将原始变中的系数为将原始变量标准化后表示主成量标准化后表示主成分的系数。分的系数。标准化主成分标准化主成分1=0.158X1=0.158X引擎引擎+0.131X+0.131X马力马力+(-0.154-0.154)X X油耗油耗五、因子分析因子分析(factor anal

29、ysis)也是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。 例如,在商业企业的形象评价中,消费者可以通过一系列指标构成的一个评价指标体系,评价百货商场的各个方面的优劣。但消费者真正关心的只是三个方面:商店的环境、商店的服务和商品的价格。这三个方面除了价格外,商店的环境和服务质量,都是客观存在的、抽象的影响因素,都不便于直接测量,只能通过其它具体指标进行间接反映。因子分析就是一种

30、通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。五、因子分析 因子分析的内容非常丰富,常用的因子分析类型是 Q型因子分析和R型因子分析。Q型因子分析是对样品作因子分析,R型的因子分析是对变量作因子分析。侧重讨论R型因子分析。五、因子分析五、因子分析五、因子分析五、因子分析(二)(二)Q Q 型因子分析型因子分析 类似地,类似地,Q Q 型因子分析的数学模型可表示为:型因子分析的数学模型可表示为: 1122iiiimmiXa Fa Fa F, (1,2,in) (7.3) Q Q 型因子分析与型因子分析与 R R 型因子分析模型的差异体现在,型因子分析模型的差异体现在,nXXX

31、,21表示的是表示的是n个样品。个样品。 五、因子分析前面的因子分析模型中出现了一个概念叫因子载荷矩阵,实际上因子载荷矩阵存在明显的统计意义。为了对因子分析过程和计算结果做详细的解释,我们对因子载荷矩阵的统计意义加以说明。 五、因子分析五、因子分析五、因子分析五、因子分析五、因子分析五、因子分析具体步骤在实际应用中,因子分析的具体步骤可以归纳为:在实际应用中,因子分析的具体步骤可以归纳为:12p1 12puuu1、将原始数据进行标准化处理;、将原始数据进行标准化处理;2、建立变量的相关系数矩阵、建立变量的相关系数矩阵R;3、计算初等载荷矩阵、计算初等载荷矩阵 ,其中相关系数矩阵其中相关系数矩阵

32、R的特征值的特征值 ; 和对应的特征向量和对应的特征向量 ;11122,u ppuu 4、选择、选择 个主因子。根据初等载荷矩阵计算各个公共因子的个主因子。根据初等载荷矩阵计算各个公共因子的贡献率,并选择贡献率,并选择m个主因子个主因子5、因子旋转(正交变换法)、因子旋转(正交变换法) ,其中,其中T为正交阵;为正交阵;6、计算因子得分(因子得分估算公式、计算因子得分(因子得分估算公式 )。)。 m()mp 1T 1RFX 五、因子分析SPSS实现 可以看出,除马力和轴距两个变量的相关系数较小外,可以看出,除马力和轴距两个变量的相关系数较小外,其余各变量的相关系数都大于其余各变量的相关系数都大

33、于0.30.3,各变量相关性较强。,各变量相关性较强。五、因子分析SPSS实现KMO=0.873KMO=0.873,该值越接近,该值越接近1 1,意味着变量间的相关性越强,适合,意味着变量间的相关性越强,适合于因子分析:于因子分析:0.90.9,非常适合;(,非常适合;(0.8,0.90.8,0.9)内,适合:)内,适合:(0.7,0.80.7,0.8)内,一般;()内,一般;(0.6,0.70.6,0.7)内,适合度较低,)内,适合度较低,0.60.6,适合度很低。适合度很低。BartlettBartlett的球形度检验,小于的球形度检验,小于0.010.01,即变量间存在相关惯性系,即变量

34、间存在相关惯性系,适合做因子分析。适合做因子分析。五、因子分析SPSS实现五、因子分析SPSS实现第一个因子主要由引擎、马力、油耗第一个因子主要由引擎、马力、油耗3 3个变量决定,这个变量决定,这3 3个变量在第一个主个变量在第一个主因子上的载荷均在因子上的载荷均在0.80.8以上,该因子代表汽车的动力情况,与汽车所能达到以上,该因子代表汽车的动力情况,与汽车所能达到的最大行驶速度有关。第二个因子主要由轴距、长度两个变量决定,这两的最大行驶速度有关。第二个因子主要由轴距、长度两个变量决定,这两个变量在该因子上的载荷均在个变量在该因子上的载荷均在0.90.9以上,表明该因子代表汽车的外形特征。以

35、上,表明该因子代表汽车的外形特征。五、因子分析SPSS实现表5.1是研究消费者对购买牙膏偏好的调查数据。通过市场的拦截访问,用7级量表询问受访者对以下陈述的认同程度(1表示非常不同意,7表示非常同意)。V1:购买预防蛀牙的牙膏是重要的;V2:我喜欢使牙齿亮泽的牙膏;V3:牙膏应当保护牙龈;V4:我喜欢使口气清新的牙膏;V5:预防坏牙不是牙膏提供的一项重要利益;V6:购买牙膏时最重要的考虑是富有魅力的牙齿。 五、因子分析SPSS实现表表5.1 牙膏属性评分得分表牙膏属性评分得分表五、因子分析SPSS实现五、因子分析SPSS实现将表5.1中的数据通过SPSS进行因子分析,得到相关结果是:1. 特征

36、根和累计贡献率 表表5.2 方差贡献率表方差贡献率表 五、因子分析SPSS实现从表5.2可以看出,提取两个因子累计方差贡献率就达到82%,第三个特征根相比下降较快,因此我们选取两个公共因子。2.因子的含义为了得到意义明确的因子含义,我们将因子载荷阵进行方差最大法旋转,得到旋转后的因子载荷矩阵如下表5.3。 表表5.73 旋转后因子载荷矩阵旋转后因子载荷矩阵 五、因子分析SPSS实现 从因子载荷阵可以看出:因子1与V1(预防蛀牙),V3(保护牙龈),V5(预防坏牙)相关性强,其中V5的载荷是负数,是由于这个陈述是反向询问的;因子2与V2(牙齿亮泽),V4(口气清新),V6(富有魅力)的相关系数相

37、对较高;因此,我们命名因子1为“护牙因子”,是人们对牙齿的保健态度;因子2是“美牙因子”,说明人们“通过牙膏美化牙齿影响社交活动”的重视。从这两方面分析,对牙膏生产企业开发新产品都富有启发意义。判别分析问题,即根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。这类问题用数学语言来表达,可以叙述如下:设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)G1,G2, ,Gk中的某一类,且它们的分布函数分别为F1(x),F2(x), ,Fk(x)。我们希望利用这些数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不

38、同类别的样本点尽可能地区别开来,并对测得同样p项指标(变量)数据的一个新样本,能判定这个样本归属于哪一类。六、判别分析判别分析内容很丰富,方法很多。判别分析按判别的总体数来区分:两个总体判别分析、多总体判别分析;按区分不同总体所用的数学模型来分:有线性判别、非线性判别;按判别时所处理的变量方法不同:逐步判别、序贯判别;判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍距离判别法六、判别分析分类距离判别法的基本思想方法:将新样品判别给与其距离最近

39、的总体六、判别分析距离判别法马氏距离(马哈拉诺比斯马氏距离(马哈拉诺比斯MahalanobisMahalanobis, 1936, 1936)问问题题:设设有有k个个总总体体kGGG,21,其其均均值值和和协协方方差差矩矩阵阵分分别别是是k,21和和k,21,而而且且k21。对对于于一一个个新新的的样样品品X,要要判判断断它它来来自自哪哪个个总总体体。 计计算算新新样样品品X到到每每一一个个总总体体的的距距离离,即即 21( ,)()()DGXXX 111122()CX X X X XI X (4.8) 这这里里I1,121C,k, 2 , 1。 六、判别分析距离判别法其中其中()()()()

40、1()()niiiSXXXX,k, 2 , 1 六、判别分析距离判别法从上节看距离判别法虽然简单,便于使用。但是该方法也有它明显的不足之处。第一,判别方法与总体各自出现的概率的大小无关;第二,判别方法与错判之后所造成的损失无关。六、判别分析距离判别法Matlab判别分析工具箱:classify六、判别分析Matlab判别分析工具箱七、方差分析单因素方差分析单因素方差分析多因素方差分析多因素方差分析七、方差分析单因素方差分析单因素方差分析 例例7.17.1:(数据:(数据7.17.1)为检验)为检验3 3家工厂生产的机器加工家工厂生产的机器加工一批原料所需的平均时间是否相同,某化学公司得一批原料

41、所需的平均时间是否相同,某化学公司得到了关于加工原料所需时间的数据,利用这些数据到了关于加工原料所需时间的数据,利用这些数据检验检验3 3家工厂加工一批原料所需平均时间是否相同。家工厂加工一批原料所需平均时间是否相同。工厂工厂1 12 23 3加工时间加工时间202028282020262626261919242431312323222227272222232328282121222229292020各厂的加工效率是否存在差异?各厂的加工效率是否存在差异?哪个厂的加工时间最短?哪个厂的加工时间最短?七、方差分析单因素方差分析单因素方差分析方差分析就是通过对水平之间的方差(组间方差)方差分析就是

42、通过对水平之间的方差(组间方差)和水平内部的方差(组内方差)进行比较,做出拒和水平内部的方差(组内方差)进行比较,做出拒绝还是不能拒绝原假设的判断。绝还是不能拒绝原假设的判断。方差分析通常要有以下两个假定:方差分析通常要有以下两个假定: 1.各样本的独立性,即各组观察数据是从相互各样本的独立性,即各组观察数据是从相互独立的总体中抽取的。独立的总体中抽取的。 2.要求所有观察值都是从正态总体中抽取的,要求所有观察值都是从正态总体中抽取的,且方差相等。且方差相等。七、方差分析单因素方差分析单因素方差分析因素A的水平观察值1A2AkA11x12x11nx21x22x22nx1kx2kxkknx数据类

43、型数据类型七、方差分析单因素方差分析单因素方差分析步骤:步骤:提出假设提出假设构造检验的统计量构造检验的统计量 显著性检验显著性检验得到结论得到结论七、方差分析单因素方差分析单因素方差分析提出假设:提出假设: 在单因素方差分析中,要检验因素在单因素方差分析中,要检验因素A A的的k k个水平(总体)的均值是否相等,个水平(总体)的均值是否相等,因此提出假设的一般形式为:因此提出假设的一般形式为:原假设:原假设: 对立假设:对立假设:kH210:112:,kH不 全 相 等七、方差分析单因素方差分析单因素方差分析 由于样本均值由于样本均值 可以作为总可以作为总体均值体均值 的估计,所以可以借助样

44、本的估计,所以可以借助样本均值粗略估计一下总体均值的情况。均值粗略估计一下总体均值的情况。符号说明:符号说明:总样本容量总样本容量第第i水平的样本均值水平的样本均值总样本均值总样本均值 ixiknnnn21injijiixnx11 kiiikinjijxnnxnxi11111七、方差分析单因素方差分析单因素方差分析 当 时,有 , rnnnk21rjijixrx11kiiixnkx11三组的样本均值各不相等,能否说明三三组的样本均值各不相等,能否说明三组的总体均值有明显差异?组的总体均值有明显差异?为什么观察值之间存在差异?这些差异为什么观察值之间存在差异?这些差异是由哪些原因造成的?是由哪些

45、原因造成的?如何来衡量各组之间的差异大小呢?如何来衡量各组之间的差异大小呢?七、方差分析单因素方差分析单因素方差分析 所有观察值几乎各不相等,它们的分散程所有观察值几乎各不相等,它们的分散程度可以用度可以用总平方和总平方和来度量。观察值之间的差异越大,来度量。观察值之间的差异越大,S ST T 越大。越大。 在单因素实验中,造成观察值差异的原因在单因素实验中,造成观察值差异的原因有两个:一个是由随机误差引起的,不可避免;有两个:一个是由随机误差引起的,不可避免;另一个就是由因素的不同水平造成的。另一个就是由因素的不同水平造成的。 211inkTijijSxx 七、方差分析单因素方差分析单因素方

46、差分析 我们定义组间平方和我们定义组间平方和来度量各组之间的差异。来度量各组之间的差异。 定义组内平方和定义组内平方和来度量组内随机误差引起的偏差。可以证明:来度量组内随机误差引起的偏差。可以证明: 21kAiiiSnxx 211inkEijiijSxx TAESSS 七、方差分析单因素方差分析单因素方差分析按照构造统计量的基本原则按照构造统计量的基本原则:统计量具有一定的实际意义统计量具有一定的实际意义统计量要服从某已知分布统计量要服从某已知分布可以构造单因素方差分析的统计量:可以构造单因素方差分析的统计量:服从自由度为服从自由度为 的的F F分布。分布。/ (1)/ ()AESkFSNk

47、), 1(kNk七、方差分析单因素方差分析单因素方差分析 对给定的显著性水平对给定的显著性水平 ,当,当时,应拒绝原假设时,应拒绝原假设H0,即认为各水平之间,即认为各水平之间有明显差异;否则应接受原假设有明显差异;否则应接受原假设H0,即认,即认为各水平之间无明显差异。为各水平之间无明显差异。kNkFF, 1七、方差分析单因素方差分析单因素方差分析七、方差分析单因素方差分析单因素方差分析p值为值为0.836,在显著性水平,在显著性水平0.05的前期下,通过了方差齐性的前期下,通过了方差齐性检验,即不同厂的加工时间被检验,即不同厂的加工时间被认为是来自于相同方差的不同认为是来自于相同方差的不同

48、总体,满足方差分析的前提。总体,满足方差分析的前提。七、方差分析单因素方差分析单因素方差分析表中的表中的“*”表示在显著性水平表示在显著性水平0.05的情况下,相应的两组均值的情况下,相应的两组均值之间存在显著差异。之间存在显著差异。七、方差分析单因素方差分析单因素方差分析p值近似为值近似为0,远小于显著性水,远小于显著性水平平0.05,因此有理由拒绝原假,因此有理由拒绝原假设,认为不同工厂对加工时间设,认为不同工厂对加工时间产生了显著影响。产生了显著影响。七、方差分析多因多因素方差分析素方差分析 例例7.27.2:(数据:(数据7.27.2)某电器公司想知道某产品销)某电器公司想知道某产品销

49、售量与销售方式及销售地点是否有关,随机抽样得售量与销售方式及销售地点是否有关,随机抽样得到以下资料,以到以下资料,以0.050.05的显著性水平进行检验。的显著性水平进行检验。 地点一地点二地点三地点四地点五方式一7786818883方式二9592789689方式三7176688174方式四8084797082七、方差分析多因多因素方差分析素方差分析 以下根据平方和分解的思想来给出检验以下根据平方和分解的思想来给出检验用的统计量的计算公式。先引入下述记号用的统计量的计算公式。先引入下述记号: : 其中其中 i=1,2,r ;j=1,2,s ; 总样本容量总样本容量 n=r s m 1111rs

50、mijkijkyyN111smiijkjkyysm111rmjijkikyyrm11mijijkkyym七、方差分析多因多因素方差分析素方差分析 总偏差平方和总偏差平方和S ST T、因素、因素A A的效应平方和的效应平方和S SA A、因、因素素B B的效应平方和的效应平方和S SB B、交互效应平方和、交互效应平方和S SA AB B以及以及误差平方和误差平方和S SE E的计算公式如下:的计算公式如下:七、方差分析多因多因素方差分析素方差分析七、方差分析多因多因素方差分析素方差分析七、方差分析多因多因素方差分析素方差分析 例例7.27.2:某电器公司想知道某产品销售量与销售方:某电器公司

51、想知道某产品销售量与销售方式及销售地点是否有关,随机抽样得到以下资料,式及销售地点是否有关,随机抽样得到以下资料,以以0.050.05的显著性水平进行检验。的显著性水平进行检验。 地点一地点二地点三地点四地点五方式一7786818883方式二9592789689方式三7176688174方式四8084797082七、方差分析多因多因素方差分析素方差分析七、方差分析多因多因素方差分析素方差分析七、方差分析多因多因素方差分析素方差分析销售方式的销售方式的p值为值为0.003,表明对,表明对销售量的影响存在显著差异,销销售量的影响存在显著差异,销售地点不存在显著差异。售地点不存在显著差异。七、方差分

52、析多因多因素方差分析素方差分析该均衡子集表中,第一均衡子集包含方式该均衡子集表中,第一均衡子集包含方式3和方式和方式4,两均值比较的概率,两均值比较的概率p值为值为0.162,表明销售方式表明销售方式3和销售方式和销售方式4的销售量均值的销售量均值之间无明显差异。之间无明显差异。八、回归分析变量与变量的关系:变量与变量的关系:确定性关系确定性关系U=IRv=gt变量与变量的关系:变量与变量的关系:非确定性关系非确定性关系(具有统计规律)(具有统计规律)Y=f(x1, x2, , xn)+ 八、回归分析八、回归分析一元线性回归一元线性回归回归分析中的两类主要变量主要变量解释变量(因变量Depen

53、dent variable)记为Y被解释变量(自变量Independent )记为X1,X2,Xn。回归分析回归分析 一元回归分析被解释变量只有一个多元回归分析被解释变量有一个以上八、回归分析一元线性回归一元线性回归可以用相关分析或非线性回归分析画出两个变量X和Y的散点图由X的变化引起的Y的线性变化部分a+bX Y=a+bX+由于其他随机因素引起的Y的变化部分,N(0,2) 观察散点是否呈直线趋势是否建立一元线性回归模型:Y=a+bX+如何建立方程?最小二乘法根据距离观测值的各点平方和最小原则确定参数的方法称为最小二乘法 八、回归分析一元线性回归:最小二乘法一元线性回归:最小二乘法最小二乘法就

54、是使实际观测值的参数的最小二乘估计参数的最小二乘估计iyiixbayba, 与之间的差的平方和取最小值,即要选择的参数应满足使残差平方和 ESS 21()niiiyy21()niiiyabx 取最小值。令112()02()0nEiiinEiiiiSSyabxaSSyabx xb= -= = -= 整理得方程组: 112111nniiiinnniiiiiiinabxyaxbxx y=+=+=邋邋正规方程组xyxxSbSaybx=- ii11111()()nnnnxyiiiiiiiiSxxyyx yxyn=-=-邋邋其中,解此正规方程组得 2221i 111()()nnnxxiiiiiSxxxxn

55、=-=-邋2221111()()nnnyyiiiiiiSyyyyn=-=-邋八、回归分析一元线性回归:最小二乘法一元线性回归:最小二乘法21()nTiiSSyy=-21()nRiiSSyy=-21()nEiiiSSyy总离差平方和回归平方和剩余平方和TRESSSSSS离差平方和的分解八、回归分析一元线性回归:最小二乘法一元线性回归:最小二乘法八、回归分析一元线性回归:统计检验一元线性回归:统计检验F F对回归模型的显著性检验对回归模型的显著性检验t t对回归系数的显著性检验对回归系数的显著性检验样本决定系数样本决定系数R R2 2模型拟合优度检验模型拟合优度检验对一元线性回归来说,三种检验的等

56、价的,对一元线性回归来说,三种检验的等价的,但对多元的则不同。但对多元的则不同。八、回归分析一元线性回归:统计检验一元线性回归:统计检验1、回归方程的拟合优度检验回归方程的拟合优度检验 检验检验2 1RETTSSSSRSSSS 判决系数公式R2越接近于1,回归方程对实际观测值的拟合优度越高;R2越接近于0,回归方程对实际观测值的拟合优度越低。 2R八、回归分析一元线性回归:统计检验一元线性回归:统计检验2、回归方程的显著性检验回归方程的显著性检验FF检验检验H0:线性关系不显著 H1:线性关系显著当H0为真时,检验统计量 )2/(1/nSSSSFERF(1,n-2) 给定显著性水平,查表确定临

57、界点)2, 1 (nF确定拒绝域:(1,2)FFna-,列出方差分析表 八、回归分析一元线性回归:统计检验一元线性回归:统计检验方差来源平方和自由度均方差F值回归平方和剩余平方和SSRSSE1n-2VR=SSRVE=SSE/n-2F=VR/VE总平方和SSTn-1方差分析表八、回归分析一元线性回归:统计检验一元线性回归:统计检验3、回归系数的显著性检验、回归系数的显著性检验t检验检验 回归系数的显著性检验是检验自变量X对因变量Y的影响是否显著。 如果回归系数b=0,总体回归直线是一条水平线,表明自变量X的变化对因变量Y没有影响。因此,回归系数的显著性检验就是检验回归系数b与0之间是否有显著差异

58、。八、回归分析一元线性回归:统计检验一元线性回归:统计检验(1) 提出假设 H0:b=0 H1:b0。(2) 构造检验统计量。当H0为真时,检验统计量为: (2)xxbtSt n(3) 给定显著性水平,查表确定临界点)2(2nt(4) 确定拒绝域: 2(2)ttna-(5) 做出统计决策 t检验步骤八、回归分析一元线性回归:预测一元线性回归:预测预测就是指通过自变量X的取值估计或预测因变量Y的取值。 点预测:对于自变量X的一个新的给定值x0,根据估计回归方程得到因变量Y的一个估计值。预测区间预测:就是对于自变量X的一个新的给定值x0,根据估计回归方程得到因变量Y的一个置信水平为1-的置信区间:00yabx=+2002()

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论