多元统计分析及实现_第1页
多元统计分析及实现_第2页
多元统计分析及实现_第3页
多元统计分析及实现_第4页
多元统计分析及实现_第5页
已阅读5页,还剩129页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元统计分析及实现第1页,共134页,2022年,5月20日,23点1分,星期二 多元统计分析方法从研究问题的角度可以分为不同的类,相应有具体解决问题的方法。问题 内容 方法 数据或结构性化简 尽可能简单地表示所研究的现象,但不损失很多有用的信息,并希望这种表示能够很容易的解释。 多元回归分析、聚类分析、主成分分析、因子分析、相应分析、多维标度法、可视化分析 分类和组合 基于所测量到的一些特征,给出好的分组方法,对相似的对象或变量分组。 判别分析、聚类分析、主成分分析、可视化分析 变量之间的相关关系 变量之间是否存在相关关系,相关关系又是怎样体现。 多元回归、典型相关、主成分分析、因子分析、相

2、应分析、多维标度法、可视化分析 预测与决策 通过统计模型或最优准则,对未来进行预见或判断。 多元回归、判别分析、聚类分析、可视化分析 假设的提出及检验检验由多元总体参数表示的某种统计假设,能够证实某种假设条件的合理性。 多元总体参数估计、假设检验 第2页,共134页,2022年,5月20日,23点1分,星期二多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。本讲重点介绍常用的统计方法。这些方法包括聚类分析、主成分分析、因子分析、判别分析、对应分析、典型相关分析、方差分析、回归分析等。典型统计赛题:葡萄酒评价(2012年A题)第3页,共134页,2022年,5月20日,23点1分,

3、星期二葡萄酒评价(2012年A题)第4页,共134页,2022年,5月20日,23点1分,星期二内容提纲1、数据处理2、描述性统计3、聚类分析4、主成分分析5、因子分析6、判别分析7、方差分析8、回归分析第5页,共134页,2022年,5月20日,23点1分,星期二一、数据处理SPSS界面介绍建立数据文件制图第6页,共134页,2022年,5月20日,23点1分,星期二一、数据处理SPSS界面介绍数据编辑窗口第7页,共134页,2022年,5月20日,23点1分,星期二一、数据处理SPSS界面介绍结果编辑窗口第8页,共134页,2022年,5月20日,23点1分,星期二一、数据处理建立数据文件

4、定义变量数据录入数据文件的保存数据编辑调用其它数据文件第9页,共134页,2022年,5月20日,23点1分,星期二一、数据处理建立数据文件:定义变量 单击数据编辑窗口左下方的“Variable View”标签或双击题头(Var),进入变量定义窗口。可定义: 变量名(Name) 变量类型(Type) 变量长度(Width) 小数点位数(Decimal) 变量标签(Label) 变量值标签(Values) 缺失值的定义方式(Missing) 变量的显示宽度(Columns) 变量显示的对齐方式(Align) 变量的测量尺度(Measure)第10页,共134页,2022年,5月20日,23点1分

5、,星期二一、数据处理建立数据文件:定义变量 定义变量名(Name)时,应注意:(1)变量名可为汉字或英文,英文的第一个字符必须为字母,后面可跟任意字母、数字、句点或、#、_、$等;(2)变量名不能以句点结尾;(3)定义时应避免最后一个字符为下划线“_”(因为某些过程运行时自动创建的变量名的最后一个字符有可能为下划线);(4)变量的长度一般不能超过8个字符;(5)每个变量名必须保证是唯一的,不区分大小写。常用的变量类型(Type)包括:数值型、字符串型、日期格式变量等。第11页,共134页,2022年,5月20日,23点1分,星期二一、数据处理建立数据文件:数据录入直接录入调入数据:excel、

6、记事本等第12页,共134页,2022年,5月20日,23点1分,星期二一、数据处理建立数据文件:保存选择“File”菜单的“Save”命令,可直接保存为SPSS默认的数据文件格式(*.sav)。选择“File”菜单的“Save As”命令,弹出“Save Data As”对话框,可选择保存为Excel(*.xls)等文件格式。第13页,共134页,2022年,5月20日,23点1分,星期二一、数据处理建立数据文件:数据编辑(1)数据的排序: 数据排序个案 数据排列变量 (2)数据的转置: 数据转置 分割文件、重组、选择个案等第14页,共134页,2022年,5月20日,23点1分,星期二一、

7、数据处理制图主要通过“Graph”菜单中的选项来创建图形第15页,共134页,2022年,5月20日,23点1分,星期二二、描述性统计 例2.1:数据2.1给出了员工代码、性别、起始薪金、当前薪金等信息:1.利用频率计算当前薪金的描述性统计量,并绘制带正态检验的直方图;2.利用探索性分析不同性别员工当前薪金情况;3.用比率分析比较不同性别员工的薪金增长率是否有较大差异;4.用P-P图和Q-Q图检验当前薪金是否符合正态分布第16页,共134页,2022年,5月20日,23点1分,星期二二、描述性统计1.利用频率计算当前薪金的描述性统计量,并绘制带正态检验的直方图第17页,共134页,2022年,

8、5月20日,23点1分,星期二二、描述性统计1.利用频率计算当前薪金的描述性统计量,并绘制带正态检验的直方图第18页,共134页,2022年,5月20日,23点1分,星期二二、描述性统计 2.利用探索性分析不同性别员工当前薪金情况 单击“分割文件”按钮,将“性别”指定为分组方式,选中“比较组”,单击“确定”分析描述统计描述,将“当前薪金”指定为变量,单击“选项”按钮,选中所需统计量,单击“继续”,单击“确定”分析描述统计探索,将“当前薪金”指定为因变量,将“性别”指定为因子,单击“绘制”,选定“直方图”,单击“继续”,单击“确定”第19页,共134页,2022年,5月20日,23点1分,星期二

9、二、描述性统计 2.利用探索性分析不同性别员工当前薪金情况p值小于0.05,通过正态性检验,即认为当前薪金分布服从正态分布第20页,共134页,2022年,5月20日,23点1分,星期二二、描述性统计3.用比率分析比较不同性别员工的薪金增长率是否有较大差异分析描述统计比率,将“当前薪金”指定为分子,将“起始薪金”指定为分母,将“性别”指定为组变量,单击“统计量”,选中:均值、置信区间、AAD、PRD、COD,单击“继续”,单击“确定”第21页,共134页,2022年,5月20日,23点1分,星期二二、描述性统计3.用比率分析比较不同性别员工的薪金增长率是否有较大差异第22页,共134页,202

10、2年,5月20日,23点1分,星期二二、描述性统计 4.用P-P图和Q-Q图检验当前薪金是否符合正态分布 Q-Q图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图. 要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值. 用QQ图还可获得样本偏度和峰度的粗略信息. P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过P-P图可以检验数据是否符合指定的分布。当数据符合指定分布时,P-P图中各点近似呈一条直线。如果P-P图中各点不呈直线,但有一定规律,可以

11、对变量数据进行转换,使转换后的数据更接近指定分布。 P-P图和Q-Q图的用途完全相同,只是检验方法存在差异第23页,共134页,2022年,5月20日,23点1分,星期二聚类分析就是分析如何对样品(或变量)进行量化分类的问题。 通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理;R型聚类是对变量进行分类处理。三、聚类分析聚类分析的概念及分类第24页,共134页,2022年,5月20日,23点1分,星期二 在聚类之前,要首先分析样品(变量)间的相似性。样品相似性度量(距离):即两个样品间相似程度就可用p维空间中的两点距离公式来度量。变量相似性度量(夹角余弦、相关系数)相对于数据的大

12、小,我们更关心变量的方向及相关性三、聚类分析相似性度量第25页,共134页,2022年,5月20日,23点1分,星期二三、聚类分析相似性度量几种距离第26页,共134页,2022年,5月20日,23点1分,星期二三、聚类分析相似性度量第27页,共134页,2022年,5月20日,23点1分,星期二三、聚类分析相似性度量3距离选择的原则 一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时,应注意距离公式的选择。通常选择距离公式应注意遵循以下的基本原则:(1)要考虑所选择的距离公式在实际应用

13、中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。第28页,共134页,2022年,5月20日,23点1分,星期二三、聚类分析相似性度量第29页,共134页,2022

14、年,5月20日,23点1分,星期二 无论是夹角余弦还是相关系数,它们的绝对值都小于1,作为变量近似性的度量工具,我们把它们统记为cij。当cij= 1时,说明变量Xi与Xj完全相似;当cij近似于1时,说明变量Xi与Xj非常密切;当cij = 0时,说明变量Xi与Xj完全不一样;当cij近似于0时,说明变量Xi与Xj差别很大。 据此,我们把比较相似的变量聚为一类,把不太相似的变量归到不同的类内。在实际聚类过程中,为了计算方便,我们把变量间相似性的度量公式作一个变换为 dij = 1 cij 或者 dij2 = 1 cij2 来表示变量间的距离远近,小则先聚成一类,这比较符合人们的一般思维习惯。

15、三、聚类分析相似性度量第30页,共134页,2022年,5月20日,23点1分,星期二 A)系统聚类法 B)K均值聚类法三、聚类分析常见聚类方法第31页,共134页,2022年,5月20日,23点1分,星期二A)系统聚类法系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。系统聚类过程是:假设总共有n个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n 1类;第三步将“

16、距离”最近的两个类进一步聚成一类,共聚成n 2类;,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。为了直观地反映以上的系统聚类过程,可以把整个分类系统画成一张谱系图。所以有时系统聚类也称为谱系分析。三、聚类分析常见聚类方法第32页,共134页,2022年,5月20日,23点1分,星期二系统聚类法与聚类步骤流程图初始分类:若 与 距离最小,合并为一类no输出分类结果第33页,共134页,2022年,5月20日,23点1分,星期二B)K均值聚类系统聚类法需要计算出不同样品或变量的距离,还要在聚类的每一步都要计算“类间距离”,相应的计算量自然比较大;特别是当样本的容量很大时,需要占据非

17、常大的计算机内存空间,这给应用带来一定的困难。而K均值法是一种快速聚类法,采用该方法得到的结果比较简单易懂,对计算机的性能要求不高,因此应用也比较广泛。K均值法是麦奎因(MacQueen,1967)提出的,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤:1将所有的样品分成K个初始类;2通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标;3重复步骤2,直到所有的样品都不能再分配时为止。三、聚类分析常见聚类方法第34页,共134页,2022年,5月20日,23点1分,星期二K-均值聚类法步骤流程图寻找k个凝聚点:若

18、 则 ;得计算各类的重心:若 则 ;得计算各类的重心:重心改变输出分类结果yesno第35页,共134页,2022年,5月20日,23点1分,星期二Matlab聚类分析工具箱:cluster三、聚类分析Matlab聚类分析工具箱第36页,共134页,2022年,5月20日,23点1分,星期二三、聚类分析SPSS实现例3.1:(数据3.1)已知全国31个省市的城市小康水平衡量指标值,现要分析各省市城市水平情况及相似程度,采用聚类分析法将31个省市分为3类,并用判别分析法分析城市水平划分所依据的主要变量,并验证聚类分析所划分类别是否合理。第37页,共134页,2022年,5月20日,23点1分,星

19、期二三、聚类分析SPSS实现第38页,共134页,2022年,5月20日,23点1分,星期二三、聚类分析SPSS实现第39页,共134页,2022年,5月20日,23点1分,星期二三、聚类分析SPSS实现第40页,共134页,2022年,5月20日,23点1分,星期二四、主成分分析主要目的多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。第41

20、页,共134页,2022年,5月20日,23点1分,星期二主成分分析的数学模型是,设p个变量构成的p维随机向量为X = (X1,Xp)。对X作正交变换,令Y = TX,其中T为正交阵,要求Y的各分量是不相关的,并且Y的第一个分量的方差是最大的,第二个分量的方差次之,等等。为了保持信息不丢失,Y的各分量方差和与X的各分量方差和相等。四、主成分分析数学模型第42页,共134页,2022年,5月20日,23点1分,星期二四、主成分分析主成分的性质第43页,共134页,2022年,5月20日,23点1分,星期二四、主成分分析累计贡献率第44页,共134页,2022年,5月20日,23点1分,星期二四、

21、主成分分析具体步骤第45页,共134页,2022年,5月20日,23点1分,星期二四、主成分分析综合评价第46页,共134页,2022年,5月20日,23点1分,星期二四、主成分分析SPSS实现例4.1:(数据4.1)汽车参数,用主成分分析和因子分析方法处理该数据。第47页,共134页,2022年,5月20日,23点1分,星期二四、主成分分析SPSS实现第48页,共134页,2022年,5月20日,23点1分,星期二四、主成分分析SPSS实现该表给出了主成分分析从每个变量提取的信息,可以看出,所有变量都提取了70%以上的信息。第49页,共134页,2022年,5月20日,23点1分,星期二四、

22、主成分分析SPSS实现 该表为各主成分解释原始变量总方差的情况,默认保留了特征值大于1的主成分,前两个主成分累积解释了82.057%的方差,效果比较好。第50页,共134页,2022年,5月20日,23点1分,星期二四、主成分分析SPSS实现该表为成分矩阵,即主成分与标准化原始变量之间相关系数矩阵;标准化原始变量可用所得主成分近似线性表示,同时0.8642+(-0.351)2=0.869即第一个变量被提取的信息的比例。第一列数据的平方和为第1主成分的特征值。第51页,共134页,2022年,5月20日,23点1分,星期二四、主成分分析SPSS实现本例分析从相关矩阵出发求主成分,该表中的系数为将

23、原始变量标准化后表示主成分的系数。标准化主成分1=0.158X引擎+0.131X马力+(-0.154)X油耗第52页,共134页,2022年,5月20日,23点1分,星期二五、因子分析因子分析(factor analysis)也是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。 例如,在商业企业的形象评价中,消费者可以通过一系列指标构成的一个评价指标体系,评价百货商场的各个方面的优

24、劣。但消费者真正关心的只是三个方面:商店的环境、商店的服务和商品的价格。这三个方面除了价格外,商店的环境和服务质量,都是客观存在的、抽象的影响因素,都不便于直接测量,只能通过其它具体指标进行间接反映。因子分析就是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。第53页,共134页,2022年,5月20日,23点1分,星期二五、因子分析 因子分析的内容非常丰富,常用的因子分析类型是 Q型因子分析和R型因子分析。Q型因子分析是对样品作因子分析,R型的因子分析是对变量作因子分析。侧重讨论R型因子分析。第54页,共134页,2022年,5月20日,23点1分,星期二五、因子分析第

25、55页,共134页,2022年,5月20日,23点1分,星期二五、因子分析第56页,共134页,2022年,5月20日,23点1分,星期二五、因子分析第57页,共134页,2022年,5月20日,23点1分,星期二五、因子分析第58页,共134页,2022年,5月20日,23点1分,星期二五、因子分析前面的因子分析模型中出现了一个概念叫因子载荷矩阵,实际上因子载荷矩阵存在明显的统计意义。为了对因子分析过程和计算结果做详细的解释,我们对因子载荷矩阵的统计意义加以说明。 第59页,共134页,2022年,5月20日,23点1分,星期二五、因子分析第60页,共134页,2022年,5月20日,23点

26、1分,星期二五、因子分析第61页,共134页,2022年,5月20日,23点1分,星期二五、因子分析第62页,共134页,2022年,5月20日,23点1分,星期二五、因子分析第63页,共134页,2022年,5月20日,23点1分,星期二五、因子分析第64页,共134页,2022年,5月20日,23点1分,星期二五、因子分析具体步骤在实际应用中,因子分析的具体步骤可以归纳为:1、将原始数据进行标准化处理;2、建立变量的相关系数矩阵R;3、计算初等载荷矩阵 ,其中相关系数矩阵R的特征值 ; 和对应的特征向量 ;4、选择 个主因子。根据初等载荷矩阵计算各个公共因子的贡献率,并选择m个主因子5、因

27、子旋转(正交变换法) ,其中T为正交阵;6、计算因子得分(因子得分估算公式 )。 第65页,共134页,2022年,5月20日,23点1分,星期二五、因子分析SPSS实现 可以看出,除马力和轴距两个变量的相关系数较小外,其余各变量的相关系数都大于0.3,各变量相关性较强。第66页,共134页,2022年,5月20日,23点1分,星期二五、因子分析SPSS实现KMO=0.873,该值越接近1,意味着变量间的相关性越强,适合于因子分析:0.9,非常适合;(0.8,0.9)内,适合:(0.7,0.8)内,一般;(0.6,0.7)内,适合度较低,0.6,适合度很低。Bartlett的球形度检验,小于0

28、.01,即变量间存在相关惯性系,适合做因子分析。第67页,共134页,2022年,5月20日,23点1分,星期二五、因子分析SPSS实现第68页,共134页,2022年,5月20日,23点1分,星期二五、因子分析SPSS实现第一个因子主要由引擎、马力、油耗3个变量决定,这3个变量在第一个主因子上的载荷均在0.8以上,该因子代表汽车的动力情况,与汽车所能达到的最大行驶速度有关。第二个因子主要由轴距、长度两个变量决定,这两个变量在该因子上的载荷均在0.9以上,表明该因子代表汽车的外形特征。第69页,共134页,2022年,5月20日,23点1分,星期二五、因子分析SPSS实现表5.1是研究消费者对

29、购买牙膏偏好的调查数据。通过市场的拦截访问,用7级量表询问受访者对以下陈述的认同程度(1表示非常不同意,7表示非常同意)。V1:购买预防蛀牙的牙膏是重要的;V2:我喜欢使牙齿亮泽的牙膏;V3:牙膏应当保护牙龈;V4:我喜欢使口气清新的牙膏;V5:预防坏牙不是牙膏提供的一项重要利益;V6:购买牙膏时最重要的考虑是富有魅力的牙齿。 第70页,共134页,2022年,5月20日,23点1分,星期二五、因子分析SPSS实现表5.1 牙膏属性评分得分表第71页,共134页,2022年,5月20日,23点1分,星期二五、因子分析SPSS实现第72页,共134页,2022年,5月20日,23点1分,星期二五

30、、因子分析SPSS实现将表5.1中的数据通过SPSS进行因子分析,得到相关结果是:1. 特征根和累计贡献率 表5.2 方差贡献率表 第73页,共134页,2022年,5月20日,23点1分,星期二五、因子分析SPSS实现从表5.2可以看出,提取两个因子累计方差贡献率就达到82%,第三个特征根相比下降较快,因此我们选取两个公共因子。2.因子的含义为了得到意义明确的因子含义,我们将因子载荷阵进行方差最大法旋转,得到旋转后的因子载荷矩阵如下表5.3。 表5.73 旋转后因子载荷矩阵 第74页,共134页,2022年,5月20日,23点1分,星期二五、因子分析SPSS实现 从因子载荷阵可以看出:因子1

31、与V1(预防蛀牙),V3(保护牙龈),V5(预防坏牙)相关性强,其中V5的载荷是负数,是由于这个陈述是反向询问的;因子2与V2(牙齿亮泽),V4(口气清新),V6(富有魅力)的相关系数相对较高;因此,我们命名因子1为“护牙因子”,是人们对牙齿的保健态度;因子2是“美牙因子”,说明人们“通过牙膏美化牙齿影响社交活动”的重视。从这两方面分析,对牙膏生产企业开发新产品都富有启发意义。第75页,共134页,2022年,5月20日,23点1分,星期二判别分析问题,即根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。这类问题用数学语言来表达,可以叙述如下:设有n个样

32、本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)G1,G2, ,Gk中的某一类,且它们的分布函数分别为F1(x),F2(x), ,Fk(x)。我们希望利用这些数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来,并对测得同样p项指标(变量)数据的一个新样本,能判定这个样本归属于哪一类。六、判别分析第76页,共134页,2022年,5月20日,23点1分,星期二判别分析内容很丰富,方法很多。判别分析按判别的总体数来区分:两个总体判别分析、多总体判别分析;按区分不同总体所用的数学模型来分:有线性判别、非线性判别;按判别时所处理的

33、变量方法不同:逐步判别、序贯判别;判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍距离判别法六、判别分析分类第77页,共134页,2022年,5月20日,23点1分,星期二距离判别法的基本思想方法:将新样品判别给与其距离最近的总体六、判别分析距离判别法马氏距离(马哈拉诺比斯Mahalanobis, 1936)第78页,共134页,2022年,5月20日,23点1分,星期二六、判别分析距离判别法第79页,共134页,2022年,5月20日,23

34、点1分,星期二六、判别分析距离判别法第80页,共134页,2022年,5月20日,23点1分,星期二从上节看距离判别法虽然简单,便于使用。但是该方法也有它明显的不足之处。第一,判别方法与总体各自出现的概率的大小无关;第二,判别方法与错判之后所造成的损失无关。六、判别分析距离判别法第81页,共134页,2022年,5月20日,23点1分,星期二Matlab判别分析工具箱:classify六、判别分析Matlab判别分析工具箱第82页,共134页,2022年,5月20日,23点1分,星期二七、方差分析单因素方差分析多因素方差分析第83页,共134页,2022年,5月20日,23点1分,星期二七、方

35、差分析单因素方差分析 例7.1:(数据7.1)为检验3家工厂生产的机器加工一批原料所需的平均时间是否相同,某化学公司得到了关于加工原料所需时间的数据,利用这些数据检验3家工厂加工一批原料所需平均时间是否相同。工厂123加工时间202820262619243123222722232821222920各厂的加工效率是否存在差异?哪个厂的加工时间最短?第84页,共134页,2022年,5月20日,23点1分,星期二七、方差分析单因素方差分析方差分析就是通过对水平之间的方差(组间方差)和水平内部的方差(组内方差)进行比较,做出拒绝还是不能拒绝原假设的判断。方差分析通常要有以下两个假定: 1.各样本的独

36、立性,即各组观察数据是从相互独立的总体中抽取的。 2.要求所有观察值都是从正态总体中抽取的,且方差相等。第85页,共134页,2022年,5月20日,23点1分,星期二七、方差分析单因素方差分析因素A的水平观察值数据类型第86页,共134页,2022年,5月20日,23点1分,星期二七、方差分析单因素方差分析步骤:提出假设构造检验的统计量 显著性检验得到结论第87页,共134页,2022年,5月20日,23点1分,星期二七、方差分析单因素方差分析提出假设: 在单因素方差分析中,要检验因素A的k个水平(总体)的均值是否相等,因此提出假设的一般形式为:原假设: 对立假设:第88页,共134页,20

37、22年,5月20日,23点1分,星期二七、方差分析单因素方差分析 由于样本均值 可以作为总体均值 的估计,所以可以借助样本均值粗略估计一下总体均值的情况。符号说明:总样本容量第i水平的样本均值总样本均值 第89页,共134页,2022年,5月20日,23点1分,星期二七、方差分析单因素方差分析 当 时,有 , 三组的样本均值各不相等,能否说明三组的总体均值有明显差异?为什么观察值之间存在差异?这些差异是由哪些原因造成的?如何来衡量各组之间的差异大小呢?第90页,共134页,2022年,5月20日,23点1分,星期二七、方差分析单因素方差分析 所有观察值几乎各不相等,它们的分散程度可以用总平方和

38、来度量。观察值之间的差异越大,ST 越大。 在单因素实验中,造成观察值差异的原因有两个:一个是由随机误差引起的,不可避免;另一个就是由因素的不同水平造成的。 第91页,共134页,2022年,5月20日,23点1分,星期二七、方差分析单因素方差分析 我们定义组间平方和来度量各组之间的差异。 定义组内平方和来度量组内随机误差引起的偏差。可以证明:第92页,共134页,2022年,5月20日,23点1分,星期二七、方差分析单因素方差分析按照构造统计量的基本原则:统计量具有一定的实际意义统计量要服从某已知分布可以构造单因素方差分析的统计量:服从自由度为 的F分布。第93页,共134页,2022年,5

39、月20日,23点1分,星期二七、方差分析单因素方差分析 对给定的显著性水平 ,当时,应拒绝原假设H0,即认为各水平之间有明显差异;否则应接受原假设H0,即认为各水平之间无明显差异。第94页,共134页,2022年,5月20日,23点1分,星期二七、方差分析单因素方差分析第95页,共134页,2022年,5月20日,23点1分,星期二七、方差分析单因素方差分析p值为0.836,在显著性水平0.05的前期下,通过了方差齐性检验,即不同厂的加工时间被认为是来自于相同方差的不同总体,满足方差分析的前提。第96页,共134页,2022年,5月20日,23点1分,星期二七、方差分析单因素方差分析表中的“*

40、”表示在显著性水平0.05的情况下,相应的两组均值之间存在显著差异。第97页,共134页,2022年,5月20日,23点1分,星期二七、方差分析单因素方差分析p值近似为0,远小于显著性水平0.05,因此有理由拒绝原假设,认为不同工厂对加工时间产生了显著影响。第98页,共134页,2022年,5月20日,23点1分,星期二七、方差分析多因素方差分析 例7.2:(数据7.2)某电器公司想知道某产品销售量与销售方式及销售地点是否有关,随机抽样得到以下资料,以0.05的显著性水平进行检验。 地点一地点二地点三地点四地点五方式一7786818883方式二9592789689方式三7176688174方式

41、四8084797082第99页,共134页,2022年,5月20日,23点1分,星期二七、方差分析多因素方差分析 以下根据平方和分解的思想来给出检验用的统计量的计算公式。先引入下述记号: 其中 i=1,2,r ;j=1,2,s ; 总样本容量 n=r s m 第100页,共134页,2022年,5月20日,23点1分,星期二七、方差分析多因素方差分析 总偏差平方和ST、因素A的效应平方和SA、因素B的效应平方和SB、交互效应平方和SAB以及误差平方和SE的计算公式如下:第101页,共134页,2022年,5月20日,23点1分,星期二七、方差分析多因素方差分析第102页,共134页,2022年

42、,5月20日,23点1分,星期二七、方差分析多因素方差分析第103页,共134页,2022年,5月20日,23点1分,星期二七、方差分析多因素方差分析 例7.2:某电器公司想知道某产品销售量与销售方式及销售地点是否有关,随机抽样得到以下资料,以0.05的显著性水平进行检验。 地点一地点二地点三地点四地点五方式一7786818883方式二9592789689方式三7176688174方式四8084797082第104页,共134页,2022年,5月20日,23点1分,星期二七、方差分析多因素方差分析第105页,共134页,2022年,5月20日,23点1分,星期二七、方差分析多因素方差分析第10

43、6页,共134页,2022年,5月20日,23点1分,星期二七、方差分析多因素方差分析销售方式的p值为0.003,表明对销售量的影响存在显著差异,销售地点不存在显著差异。第107页,共134页,2022年,5月20日,23点1分,星期二七、方差分析多因素方差分析该均衡子集表中,第一均衡子集包含方式3和方式4,两均值比较的概率p值为0.162,表明销售方式3和销售方式4的销售量均值之间无明显差异。第108页,共134页,2022年,5月20日,23点1分,星期二八、回归分析变量与变量的关系:确定性关系函数关系U=IRv=gt变量与变量的关系:非确定性关系统计相关(具有统计规律)Y=f(x1, x

44、2, , xn)+回归分析方法第109页,共134页,2022年,5月20日,23点1分,星期二八、回归分析第110页,共134页,2022年,5月20日,23点1分,星期二八、回归分析一元线性回归回归分析中的两类主要变量解释变量(因变量Dependent variable)记为Y被解释变量(自变量Independent )记为X1,X2,Xn。回归分析 一元回归分析被解释变量只有一个多元回归分析被解释变量有一个以上第111页,共134页,2022年,5月20日,23点1分,星期二八、回归分析一元线性回归可以用相关分析或非线性回归分析画出两个变量X和Y的散点图由X的变化引起的Y的线性变化部分a

45、+bX Y=a+bX+由于其他随机因素引起的Y的变化部分,N(0,2) 观察散点是否呈直线趋势是否建立一元线性回归模型:Y=a+bX+如何建立方程?最小二乘法根据距离观测值的各点平方和最小原则确定参数的方法称为最小二乘法 第112页,共134页,2022年,5月20日,23点1分,星期二八、回归分析一元线性回归:最小二乘法最小二乘法就是使实际观测值的参数的最小二乘估计与之间的差的平方和取最小值,即要选择的参数应满足使残差平方和 取最小值。令第113页,共134页,2022年,5月20日,23点1分,星期二整理得方程组: 正规方程组解此正规方程组得 八、回归分析一元线性回归:最小二乘法第114页

46、,共134页,2022年,5月20日,23点1分,星期二总离差平方和回归平方和剩余平方和离差平方和的分解八、回归分析一元线性回归:最小二乘法第115页,共134页,2022年,5月20日,23点1分,星期二八、回归分析一元线性回归:统计检验F对回归模型的显著性检验t对回归系数的显著性检验样本决定系数R2模型拟合优度检验对一元线性回归来说,三种检验的等价的,但对多元的则不同。第116页,共134页,2022年,5月20日,23点1分,星期二八、回归分析一元线性回归:统计检验1、回归方程的拟合优度检验 检验R2越接近于1,回归方程对实际观测值的拟合优度越高;R2越接近于0,回归方程对实际观测值的拟

47、合优度越低。 第117页,共134页,2022年,5月20日,23点1分,星期二八、回归分析一元线性回归:统计检验2、回归方程的显著性检验F检验H0:线性关系不显著 H1:线性关系显著当H0为真时,检验统计量 F(1,n-2) 给定显著性水平,查表确定临界点确定拒绝域:,列出方差分析表 第118页,共134页,2022年,5月20日,23点1分,星期二八、回归分析一元线性回归:统计检验方差来源平方和自由度均方差F值回归平方和剩余平方和SSRSSE1n-2VR=SSRVE=SSE/n-2F=VR/VE总平方和SSTn-1方差分析表第119页,共134页,2022年,5月20日,23点1分,星期二八、回归分析一元线性回归:统计检验3、回归系数的显著性检验t检验 回归系数的显著性检验是检验自变量X对因变量Y的影响是否显著。 如果回归系数b=0,总体回归直线是一条水平线,表明自变量X的变化对因变量Y没有影响。因此,回归系数的显著性检验就是检验回归系数b与0之间是否有显著差异。第120页,共134页,2022年,5月20日,23点1分,星期二八、回归分析一元线性回归:统计检验(1) 提出假设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论