版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第八章类别变量与尺度变量关系的假设检验,8.1方差分析的原理 8.2一元方差分析 8.3二元方差分析,第一节 方差分析的原理,一、方差分析及其有关术语 1、什么是方差分析 方差分析通过分析数据的误差判断各总体均值是否相等来检验多个总体均值是否相等,从而研究分类型自变量对数值型因变量的影响。 根据自变量的多少,方差分析可分分为单因素方差、双因素方差分析和多因素方差分析。 2、因素或因子 因素或因子是指所要检验的对象。 3、水平或处理 水平或处理是指因子的不同表现。,第一节 方差分析的原理,4、观察值 观察值是指在每个因素水平下得到的样本数据。 二、方差分析的基本思想和原理 1、基本思想 方差分析
2、通过对数据误差来源的分析判断不同总体的均值是否相等。 2、基本原理 两类误差 随机误差 因素的同一水平(总体)下,由随机因素的影响造成的样本各观察值之间的差异称为随机误差。,第一节 方差分析的原理,系统误差 因素的不同水平(不同总体)下由系统性因素造成的样本各观察值之间观察值的差异称为系统误差。 误差平方和ss 数据的误差用平方和(sum of squares)表示,分为组内平方和和组间平方和。 组内平方和 组内平方和是指因素的同一水平下数据误差的平方和,组内平方和只包括随机误差。 组间平方和 组间平方和是指因素的不同水平之间数据误差的平方和,组间平方和既包括随机误差,也包括系统误差。,第一节
3、 方差分析的原理,均方ms 均方是指平方和除以相应的自由度。 基本原理 若原假设(自变量对因变量没有影响)成立,组间均方与组内均方的数值就应该很接近,它们的比值就会接近1;若原假设不成立,组间均方会大于组内均方,它们之间的比值就会大于1。当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,即自变量对因变量有影响。 三、方差分析的基本假定 1、每个总体都应服从正态分布,自变量对因变量没有影响,则没有系统性误差,组间平方和中只有随机误差。,第一节 方差分析的原理,对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本。 2、各个总体的方差必须相同 各组观察数据是从具有相同方差
4、的总体中抽取的。 3、观察值是独立的 四、问题的一般提法 1、设因素有m个水平,每个水平的均值分别用1 , 2,, m表示 2、要检验m个水平(总体)的均值是否相等,需要提出如下假设: h0 : 1 2 m h1 : 1 , 2 , ,m 不全相等,第二节:单因素方差分析/一元方差分析,一、数据结构,第二节:单因素方差分析/一元方差分析,二、分析步骤 1、提出假设 h0 :1 = 2 = m 自变量对因变量没有显著影响 h1 :1 ,2 , ,k不全相等 自变量对因变量有显著影响 注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等 2、构造检验的统计量 水平的均值
5、,第二节:单因素方差分析/一元方差分析,假定从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体的样本均值为该样本的全部观察值总和除以观察值的个数。计算公式:,式中: ni为第 i 个总体的样本观察值个数,xij 为第 i 个总体的第 j 个观察值。,计算全部观察值的总均值 用全部观察值的总和除以观察值的总个数,计算公式:,第二节:单因素方差分析/一元方差分析,计算总误差平方和tss 总误差平方和 tss是全部观察值 与总平均值 的离差平方和,反映全部观察值的离散状况,其计算公式为:,计算组间平方和bss,组间平方和是各组平均值,组间平方和是各组平均值 与总平均值 的离差平方和,反映各总
6、体的样本均值之间的差异程度,计算公式为:,第二节:单因素方差分析/一元方差分析,计算组内平方和rss 组内平方和是每个水平或组的各样本数据与其组平均值的离差平方和,该平方和反映的是随机误差的大小,计算公式为:,三个平方和的关系,tss = bss + rss,第二节:单因素方差分析/一元方差分析,计算均方ms 各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差。均方由误差平方和除以相应的自由度求得,三个平方和对应的自由度分别是: tss 的自由度为n-1,其中n为全部观察值的个数 bss的自由度为m-1,其中m为因素水平(总体)的
7、个数 rss 的自由度为n-m,组间方差msb:,组内方差msr:,第二节:单因素方差分析/一元方差分析,3、计算检验统计量 f,4、统计决策 将统计量的值f与给定的显著性水平的临界值f进行比较,作出对原假设h0的决策。,例(参见教材376页例1、383页例2)为了研究职业对家庭赡养人数的影响,研究者抽查了某企业41名员工的家庭赡养人数(如下表),试判断职业对家庭赡养人数是否有影响。,第二节:单因素方差分析,变量间关系的强度用自变量平方和(bss) 占总平方和(tss)的比例大小来反映,自变量平方和占总平方和的比例记为r2 ,即:,其平方根r就可以用来测量两个变量之间的关系强度。,三、关系强度
8、的测量 拒绝原假设表明因素(自变量)与观测值之间有显著关系,组间平方和(bss)度量了自变量(行业)对因变量(投诉次数)的影响效应。只要组间平方和bss不等于0,就表明两个变量之间有关系(只是是否显著的问题) 。当组间平方和比组内平方和(sse)大,而且大到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系就越弱。,第三节 双因素方差分析/二元方差分析,一、二元方差分析的数学模型 二元方差又称双因素方差分析,用来分析两个因素(行因素row和列因素column)对试验结果的影响。 设两个自变量a和b
9、作用于总体,其中自变量a有a种取值:a1,a2,aa,自变量b有b种取值:b1,b2,bb。变量a的取值为ai 、变量b的取值为bj 时因变量y的取值为yij 无交互作用的二元方差分析模型 如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的二元方差分析称为无交互作用的二元方差分析或无重复二元方差分析(two-factor without replication) 。,因变量y与自变量a、b之间的关系可以表达为以下模型:,ij相互独立,并且服务正态分布:,有交互作用的二元方差分析模型,如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生
10、一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析 (two-factor with replication )。,因变量y与自变量a、b之间的关系可以表达为以下模型:,ijk相互独立,并且服务正态分布:,k=1,2,r r为自变量a和b每种搭配的重复数,二、无交互作用的二元方差分析 提出假设,2、构造检验统计量,几个基本概念,自变量y1j,y2j , ,yaj,观测一次取平均的,因此可以认为变量a的影响已经相互抵消,所以行平均值 反映的是自变量b对因变量y的影响。,自变量yi1,yi2 , ,yib,观测一次取平均的,因此可以认为变量b的影响已经相互抵消,
11、所以行平均值 反映的是自变量a对因变量y的影响。,变量a的离差平方和bssa,变量b的离差平方和bssb,tss=bssa+bssb+rss,剩余平方和rss,离差平方和之间的关系,计算均方,其中a-1是自由度,其中a-1是自由度,其中(a-1)、(b-1)是自由度,构造检验统计量,用excel进行方差分析 (excel分析步骤),第1步:选择“数据 ”下拉菜单 第2步:选择【数据分析】选项 第3步:在分析工具中选择【单因素方差分析】 , 然后选择【确定】 第4步:当对话框出现时 在【输入区域 】方框内键入数据单元格区域 在【】方框内键入0.05(可根据需要确定) 在【输出选项 】中选择输出区
12、域,确定临界值,并与检验统计量进行比较,得出结论:,例 三个地区家庭人口数的抽样调查如下表所示,试问这三地区的平均家庭人口有没有显著差异?,三、有交互作用的二元方差分析 提出假设,几个基本概念,总平均值,总平均值是对全部观测值求平均,行平均值,行平均值是对行号相同的全部观测值求平均,列平均值,列平均值是对列号相同的全部观测值求平均,格平均值,格平均值是对行号和列号都相同的全部观测值求平均,总离差平均和tss,列间平均和bssa,列间平方和bssa反映了由变量a解释掉的误差,行间平均和bssb,行间平方和bssb反映了由变量b解释掉的误差,交互作用,自变量a、b在每一格所能解释的全部误差bss,
13、剩余误差rss,总离差平方和、行间平方和、列间平方和、交互作用、剩余误差之间的关系,平方和的自由度,总平方和tss的自由度,总平方和tss是围绕着均值计算的,独立变化的取值只有abr-1,所以总平方和tss的自由度为abr-1,列间平方和bssa的自由度,列间平方和bssa是 围绕着均值计算的,存在 的约束,所以列间平方和bssa的自由度为a-1,列间平方和bssb的自由度,列间平方和bssb是 围绕着均值计算的,存在 的约束,所以列间平方和bssa的自由度为b-1,剩余平方和rss的自由度,剩余平方和bss是围绕着各格aibj的均值计算的,所以剩余平方和bss的自由度为abr-ab,自由度之
14、间存在与平方和之间同样的关系式:,abr-1,a-1,b-1,abr-ab,?,交互作用iab的自由度,交互作用iab的自由度=(abr-1)-(a-1)-(b-1)-(abr-ab)=(a-1)(b-1),交互作用显著性的检验,提出假设 h0:,i=1,2,a j=1,2,b,h1:,i=1,2,a j=1,2,b,构造检验统计量,确定临界值:,比较临界值与检验统计量,得出结论:,4、交互作用不显著情况下,自变量a、b显著性的检验,交互作用不显著,则交互作用的平方和iab合并到误差项rss中,作为总误差trss,自由度也相应地合并:abr-a-b+1,自变量a的检验,检验统计量:,根据给定的
15、显著性水平,查出临界值 。如果 , 则不拒绝原假设。否则,拒绝原假设。,自变量b的检验,检验统计量:,根据给定的显著性水平,查出临界值 。如果 , 则不拒绝原假设。否则,拒绝原假设。,5、交互作用显著情况下,自变量a、b显著性的检验,交互作用显著情况下,自变量a、b的检验方法要根据变量a和b的性质来确定。如果某变量的取值是固定的,则该变量属于固定变量。如果变量所涉及的测试个体是随机选择的,则该变量属于随机变量。根据a、b性质的不同,可以分为三种模型:,固定模型:a、b都是固定变量,对于固定模型,f检验分母项就用剩余误差项(rss)的均方,变量a的检验,检验统计量:,根据给定的显著性水平,查出临界值 。如果 , 则不拒绝原假设。否则,拒绝原假设。,变量b的检验,检验统计量:,根据给定的显著性水平,查出临界值 。如果 , 则不拒绝原假设。否则,拒绝原假设。,混合模型:a和b中有一个固定变量,另一个是随机变量,以a为固定变量,b为随机变量为例,固定变量a的检验,f检验分母项用交互误差项(iab)的均方,检验统计量:,根据给定的显著性水平,查出临界值 。如果 , 则不拒绝原假设
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- MT/T 1274-2025煤矿井下用无水全合成难燃液压液
- GB/Z 41283.2-2026声学声景观第2部分:数据收集和报告要求
- 四川省达州铁中2026年初三下学期期末考试语文试题理试题(A卷)含解析
- 四川省自贡市富顺二中学2025-2026学年初三下第8周测试题含解析
- 江苏省泰州市泰州中学2026年高一年级第二学期期末调研英语试题含解析
- 山东省济南市历城区重点名校2026年初三第二次诊断性考试提前模拟语文试题试卷含解析
- 新乡市重点中学2026届初三模拟(最后一次)语文试题含解析
- 湖北省随州市重点名校2025-2026学年初三全真英语试题模拟试卷(2)含解析
- 四川省渠县市级名校2025-2026学年初三语文试题第18周复习试题含解析
- 山东省重点中学2025-2026学年初三5月阶段性检测试题(三模)数学试题含解析
- 《如何有效组织幼儿开展体能大循环活动》课件
- 石油化工蒸汽管道保温材料及选用技术规定
- 2024年龙岩鑫达彩印有限公司招聘笔试参考题库附带答案详解
- 人教PEP版英语六年级下册《Unit 2 Part B 第2课时》课堂教学课件公开课
- QCSG1204009-2015电力监控系统安全防护技术规范
- 2024年辽宁大连中远海运川崎船舶工程有限公司招聘笔试参考题库含答案解析
- 【电动汽车车架设计10000字(论文)】
- 统编版语文四年级下册第四单元教材解读解读与集体备课课件
- 六七十岁老人的回忆录 70岁的回忆录(5篇)
- 海洋海洋空间资源与国家安全
- 电路分析基础-河南理工大学中国大学mooc课后章节答案期末考试题库2023年
评论
0/150
提交评论