社会统计学(卢淑华版)_第1页
社会统计学(卢淑华版)_第2页
社会统计学(卢淑华版)_第3页
社会统计学(卢淑华版)_第4页
社会统计学(卢淑华版)_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2021/3/101 第八章类别变量与尺度变量关系的假设检验方差分析 8.1方差分析的原理 8.2一元方差分析 8.3二元方差分析 2021/3/102 第一节 方差分析的原理 一、方差分析及其有关术语一、方差分析及其有关术语 1、什么是方差分析、什么是方差分析 方差分析通过分析数据的误差判断各总体均值是 否相等来检验多个总体均值是否相等,从而研究 分类型自变量对数值型因变量的影响。 根据自变量的多少,方差分析可分分为单因素方 差、双因素方差分析和多因素方差分析。 2、因素或因子、因素或因子 因素或因子是指所要检验的对象。 3、水平或处理、水平或处理 水平或处理是指因子的不同表现。 2021/

2、3/103 第一节 方差分析的原理 4、观察值、观察值 观察值是指在每个因素水平下得到的样本数据。 二、方差分析的基本思想和原理方差分析的基本思想和原理 1、基本思想、基本思想 方差分析通过对数据误差来源的分析判断不同总 体的均值是否相等。 2、基本原理、基本原理 两类误差 随机误差 因素的同一水平(总体)下,由随机因素的影响造成 的样本各观察值之间的差异称为随机误差。 2021/3/104 第一节 方差分析的原理 系统误差 因素的不同水平(不同总体)下由系统性因素造成的样 本各观察值之间观察值的差异称为系统误差。 误差平方和SS 数据的误差用平方和(sum of squares)表示,分为组

3、内 平方和和组间平方和。 组内平方和 组内平方和是指因素的同一水平下数据误差的平方和, 组内平方和只包括随机误差。 组间平方和 组间平方和是指因素的不同水平之间数据误差的平方 和,组间平方和既包括随机误差,也包括系统误差。 2021/3/105 第一节 方差分析的原理 均方MS 均方是指平方和除以相应的自由度。 基本原理 若原假设(自变量对因变量没有影响)成立,组 间均方与组内均方的数值就应该很接近,它们的 比值就会接近1;若原假设不成立,组间均方会大 于组内均方,它们之间的比值就会大于1。当这个 比值大到某种程度时,就可以说不同水平之间存 在着显著差异,即自变量对因变量有影响。 三、方差分析

4、的基本假定三、方差分析的基本假定 1、每个总体都应服从正态分布、每个总体都应服从正态分布 自变量对因变量没有 影响,则没有系统性 误差,组间平方和中 只有随机误差。 2021/3/106 第一节 方差分析的原理 对于因素的每一个水平,其观察值是来自服从正态 分布总体的简单随机样本。 2、各个总体的方差必须相同、各个总体的方差必须相同 各组观察数据是从具有相同方差的总体中抽取的。 3、观察值是独立的、观察值是独立的 四、问题的一般提法四、问题的一般提法 1、设因素有m个水平,每个水平的均值分别用 1 , 2,, m表示 2、要检验m个水平(总体)的均值是否相等,需要提 出如下假设: H0 : 1

5、 2 m H1 : 1 , 2 , ,m 不全相 等 2021/3/107 第二节:单因素方差分析/一元方差分析 一、数据结构一、数据结构 2021/3/108 第二节:单因素方差分析/一元方差分析 二、分析步骤二、分析步骤 1、提出假设、提出假设 H0 :1 = 2 = m 自变量对因变量没有显著影响 H1 :1 ,2 , ,k不全相等 自变量对因变量有 显著影响 注意:拒绝原假设,只表明至少有两个总体的均值 不相等,并不意味着所有的均值都不相等 2、构造检验的统计量、构造检验的统计量 水平的均值 2021/3/109 第二节:单因素方差分析/一元方差分析 假定从第i个总体中抽取一个容量为n

6、i的简单随机样本,第i 个总体的样本均值为该样本的全部观察值总和除以观察值 的个数。计算公式: ),2 ,1( 1 ki n x x i n j ij i i 式中: ni为第 i 个总体的样本观察值个数,xij 为第 i 个总 体的第 j 个观察值。 计算全部观察值的总均值 用全部观察值的总和除以观察值的总个数,计算公式: m m i ii m i n j ij nnnn n xn n x x i 21 1 11 式中: 2021/3/1010 第二节:单因素方差分析/一元方差分析 计算总误差平方和TSS 总误差平方和 TSS是全部观察值 与总平均值 的离差平方和,反映全部观察值的离散状况,

7、其 计算公式为: x m i n j ij i xxTSS 11 2 计算组间平方和BSS ix x 组间平方和是各组平均值 组间平方和是各组平均值 与总平均值 的离差平方和, 反映各总体的样本均值之间的差异程度,计算公式为: k i ii m i n j i xxnxxBSS i 1 2 11 2 2021/3/1011 第二节:单因素方差分析/一元方差分析 计算组内平方和RSS 组内平方和是每个水平或组的各样本数据与其组 平均值的离差平方和,该平方和反映的是随机误 差的大小,计算公式为: m i n j iij i xxRSS 11 2 三个平方和的关系 TSS = BSS + RSS 2

8、021/3/1012 第二节:单因素方差分析/一元方差分析 计算均方MS 各误差平方和的大小与观察值的多少有关,为消除观 察值多少对误差平方和大小的影响,需要将其平均, 这就是均方均方,也称为方差。均方由误差平方和除以相 应的自由度求得,三个平方和对应的自由度分别是: TSS 的自由度为n-1,其中n为全部观察值的个数 BSS的自由度为m-1,其中m为因素水平(总体)的个数 RSS 的自由度为n-m 组间方差MSB: 1 m BSS MSB组内方差MSR: mn RSS MSR 2021/3/1013 第二节:单因素方差分析/一元方差分析 3、计算检验统计量、计算检验统计量 F ), 1( /

9、 1/ mnmF MSR MSB mnMSR mBSS F 4、统计决策统计决策 将统计量的值F与给定的显著性水平的临界值F进行比较, 作出对原假设H0的决策。 例(参见教材例(参见教材376页例页例1、383页例页例2)为了研究职业对家庭赡养 人数的影响,研究者抽查了某企业41名员工的家庭赡养人数(如 下表),试判断职业对家庭赡养人数是否有影响。 家庭赡养人数 职 业 管理人员35 054 423132 3 3 2 4 2 6 1 工人13 446 234352 4 技术员64 223 053121 2021/3/1014 第二节:单因素方差分析 变量间关系的强度用自变量平方和(BSS) 占

10、总平方和(TSS) 的比例大小来反映,自变量平方和占总平方和的比例记为 R2 ,即: )( )( 2 总平方和 组间平方和 TSS BSS R 其平方根R就可以用来测量两个变量之间的关系强度。 三、关系强度的测量三、关系强度的测量 拒绝原假设表明因素(自变量)与观测值之间有显著关系,组间平 方和(BSS)度量了自变量(行业)对因变量(投诉次数)的影响效应。 只要组间平方和BSS不等于0,就表明两个变量之间有关系(只是 是否显著的问题) 。当组间平方和比组内平方和(SSE)大,而且 大到一定程度时,就意味着两个变量之间的关系显著,大得越 多,表明它们之间的关系就越强。反之,就意味着两个变量之 间

11、的关系不显著,小得越多,表明它们之间的关系就越弱。 2021/3/1015 第三节第三节 双因素方差分析双因素方差分析/二元方差分析二元方差分析 一、二元方差分析的数学模型一、二元方差分析的数学模型 二元方差又称双因素方差分析,用来分析两个因素 (行因素Row和列因素Column)对试验结果的影响。 设两个自变量A和B作用于总体,其中自变量A有a种 取值:A1,A2,Aa,自变量B有b种取值:B1, B2,Bb。变量A的取值为Ai 、变量B的取值为Bj 时因 变量y的取值为yij 无交互作用的二元方差分析模型无交互作用的二元方差分析模型 如果两个因素对试验结果的影响是相互独立的,分别 判断行因

12、素和列因素对试验数据的影响,这时的二元 方差分析称为无交互作用的二元方差分析或无重复二 元方差分析(Two-factor without replication) 。 2021/3/1016 因变量y与自变量A、B之间的关系可以表达为以下 模型: ijjiij y ij相互独立,并且服务正态分布: 2 , 0N ij 都是未知参数,且有:及、 2 ji 0 1 a i i 0 1 b j j 有交互作用的二元方差分析模型 如果除了行因素和列因素对试验数据的单独影响外,两 个因素的搭配还会对结果产生一种新的影响,这时的双 因素方差分析称为有交互作用的双因素方差分析或可重 复双因素方差分析 (Tw

13、o-factor with replication )。 2021/3/1017 因变量y与自变量A、B之间的关系可以表达为以下 模型: ijkijjiijk y ijk相互独立,并且服务正态分布: 2 , 0N ijk 都是未知参数,且有:及、 2 ijji 0 1 a i i 0 1 b j j K=1,2,r r为自变量A和B每种搭配的重复数 0 1 b j j 0 1 a i i 2021/3/1018 二、无交互作用的二元方差分析二、无交互作用的二元方差分析 提出假设提出假设 bjaiH ji , 2 , 1 0 , 2 , 1 0: 0 bjaiH ji , 2 , 1 0 , 2

14、 , 1 0: 1 不全为不全为 2、构造构造检验统计量检验统计量 几个基本概念 j y.行平均值 j a i ijj T a y a y . 1 . 11 自变量y1j,y2j , ,yaj,观测一次取平均的,因此可以认为 变量A的影响已经相互抵消,所以行平均值 反映的是自 变量B对因变量y的影响。 是把值按行加总求平均。由于行平均值是把观测 ij y j y. 2021/3/1019 . i y列平均值 . 1 . 11 i b j iji T b y b y 自变量yi1,yi2 , ,yib,观测一次取平均的,因此可以认为 变量B的影响已经相互抵消,所以行平均值 反映的是自 变量A对因

15、变量y的影响。 是把值按行加总求平均。由于列平均值是把观测 . i y y总平均值 b j j a i i a i b j ij y b y a T ab y ab y 1 . 1 . 11 1111 变量A的离差平方和BSSA a i b j iA yyBSS 11 2 . 2021/3/1020 TSS总离差平方和 a i b j ij yyTSS 11 2 变量B的离差平方和BSSB a i b j jB yyBSS 11 2 . TSS=BSSA+BSSB+RSS 剩余平方和RSS a i b j jiij a i b j jiij yyyyyy yyyyRSS 11 2 . 11 2

16、 . )-(-)-(-)( 的总误差 观测值 ij y 释的误差 解变量A 释的误差 解变量A 离差平方和之间的关系 2021/3/1021 计算均方 ABSSA的平均离差平方和变量 11,1 11/ 1/ baaF baRSS aBSS RSS BSS F A A A 其中a-1是自由度 BBSSB的平均离差平方和变量 1 b BSS BSS B B 其中a-1是自由度 RSS平均剩余误差平方和 11 ba RSS RSS 其中(a-1)、(b-1) 是自由度 构造检验统计量 11,1 11/ 1/ babF baRSS bBSS RSS BSS F A B B 1 a BSS BSS A

17、A 2021/3/1022 的作用显著,则变量如果 的作用显著,则变量如果 、,确定临界值根据给定的显著性水平 BF AF BB AA BA 用Excel进行方差分析 (Excel分析步骤) 第第1步:步:选择“数据数据 ”下拉菜单 第第2步:步:选择【数据分析数据分析】选项 第第3步:步:在分析工具中选择【单因素方差分析单因素方差分析】 , 然后选择【确定确定】 第第4步:步:当对话框出现时 在【输入区域输入区域 】方框内键入数据单元格区域 在【】方框内键入0.05(可根据需要确定) 在【输出选项输出选项 】中选择输出区域 确定临界 值,并与检 验统计量进 行比较,得 出结论: 2021/3

18、/1023 例 三个地区家庭人口数的抽样调查如下表所示, 试问这三地区的平均家庭人口有没有显著差异? 地区 甲地乙地丙地 家庭人口数 262 641 443 1313 581 827 4121 614 52 2 2021/3/1024 三、有交互作用的二元方差分析三、有交互作用的二元方差分析 提出假设提出假设 , 2 , 1 , 2 , 1 0 , 2 , 1 0 , 2 , 1 0 : 0 bjai bj ai H ij j i 0: 1 对应的参数不全为H 几个基本概念几个基本概念 总平均值 . y abr T y abr y a i b j r k ijk . 111 . 1 总平均值是

19、对全部观测值求平均 2021/3/1025 行平均值 . j y ar T y ar y j a i r k ijkj . 11 . 1 行平均值是对行号相同的全部观测值求平均 列平均值 列平均值是对列号相同的全部观测值求平均 .i y br T y br y i b j r k ijki . 11 . 1 格平均值格平均值是对行号和列号都相同的全部观测 值求平均 .ij y r T y r y ij r k ijkij . 1 . 1 2021/3/1026 总离差平均和TSS a i b j r k ijk ijk a i b j r k ijk abr T yyyTSS 111 2 .

20、2 111 2 . 列间平均和BSSA 列间平方和BSSA反映了由 变量A解释掉的误差 a i b j r k iA yyBSS 111 2 . 行间平均和BSSB 行间平方和BSSB反映了由 变量B解释掉的误差 a i b j r k jB yyBSS 111 2 . 2021/3/1027 BA I 交互作用 a i b j r k jiijBA yyyyI 111 2 . 自变量A、B在每一格所能解释的全部误差BSS a i b j r k ij yyBSS 111 2 . 剩余误差RSS 总离差平方和、行间平方和、列间平方和、交互作用、 剩余误差之间的关系 a i b j r k ij

21、ijk yyRSS 111 2 . RSSIBSSBSSTSS BABA 2021/3/1028 平方和的自由度 总平方和TSS的自由度 总平方和TSS是围绕着均值计算的,独立变化的取值只有 abr-1,所以总平方和TSS的自由度为abr-1 列间平方和BSSA的自由度 列间平方和BSSA是 围绕着均值计算的,存在 的 约束,所以列间平方和BSSA的自由度为a-1 0 1 a i i 列间平方和BSSB的自由度 列间平方和BSSB是 围绕着均值计算的,存在 的约 束,所以列间平方和BSSA的自由度为b-1 0 1 b j j 剩余平方和RSS的自由度 剩余平方和BSS是围绕着各格AiBj的均值

22、计算的,所以 剩余平方和BSS的自由度为abr-ab 2021/3/1029 自由度之间存在与平方和之间同样的关系式: RSSIBSSBSSTSS BABA abr-1a-1 b-1abr-ab ? 交互作用IAB的自由度 交互作用IAB的自由度=(abr-1)-(a-1)-(b-1)-(abr-ab)=(a-1)(b-1) 交互作用显著性的检验交互作用显著性的检验 提出假设 H0: 0 ij i=1,2,a j=1,2,b H1: 0不全为 ij i=1,2,a j=1,2,b 2021/3/1030 构造检验统计量 1,11 1 / 11 rabbaF rab RSS ba I F BA

23、BA BA ,确定临界值根据给定的显著性水平 确定临界值: 比较临界值与检验统计量,得出结论: 否则不显著,则交互作用显著如果,F BABA 4、交互作用不显著情况下,自变量交互作用不显著情况下,自变量A、B显著性的检验显著性的检验 交互作用不显著,则交互作用的平方和IAB合并到误差 项RSS中,作为总误差TRSS,自由度也相应地合并:abr- a-b+1 2021/3/1031 自变量A的检验 0 , 2 , 1 0 10 不全为: ii HaiH 检验统计量: 1,1 1 / 1 baabraF baabr TRSS a BSS F A A A R RF 根据给定的显著性水平,查出临界值

24、。如果 , 则不拒绝原假设。否则,拒绝原假设。 自变量B的检验 0 , 2 , 1 0 10 不全为: jj HbjH 检验统计量: 1,1 1 / 1 baabrbF baabr TRSS b BSS F B B 根据给定的显著性水平,查出临界值 。如果 , 则不拒绝原假设。否则,拒绝原假设。 B B BF 2021/3/1032 5、交互作用显著情况下,自变量、交互作用显著情况下,自变量A、B显著性的检验显著性的检验 交互作用显著情况下,自变量A、B的检验方法要根据变 量A和B的性质来确定。如果某变量的取值是固定的,则 该变量属于固定变量。如果变量所涉及的测试个体是随 机选择的,则该变量属于随机变量。根据A、B性质的不 同,可以分为三种模型: 固定模型:A、B都是固定变量 对于固定模型,F检验分母项就用剩余误差项(RSS)的均方 1 rab RSS RSS 变量A的检验 0 , 2 , 1 0 10 不全为: ii HaiH 检验统计量: 1,1 1 / 1 rabaF rab RSS a BSS F A A 2021/3/1033 根据给定的显著性水平,查出临界值 。如果 , 则不拒绝原假设。否则,拒绝原假设。 A A AF 变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论