版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章 估计与假设检验,当代国际最著名的统计学家之一 C.R劳: 在终极的分析中,一切知识都是历史; 在抽象的意义下,一切科学都是数学; 在理性的世界里,所有的判断都是统计学。,2,第一节 统计推断,一、统计推断 统计推断包括参数估计和假设检验,即通过样本统计量来估计和检验总体的参数。 统计推断的目的在于认识未知的总体参数及其分布特征。,3,总体,选择个体,样本,观测样本,样本观察值,(数据),数据处理,样本有关结论,推断总体性质,统计量,统计推断的一般步骤,抽样分布是统计推断的理论基础,4,二、抽样分布,区别以下分布: 总体分布(population distribution):总体内个体数
2、值的次数分布。 样本分布(sample distribution):样本内个体数值的次数分布。 抽样分布(sampling distribution):根据所有可能的样本观察值计算出来的某一种统计量的观察值的概率分布。,5,从总体分布到抽样分布,总体X的概率分布 这是一个均匀分布(uniform distribution)总体,6,总体X的概率分布图,7,总体平均数和总体方差,8,样本(n=2)的所有可能结果,9,样本(n=2)的平均数的抽样分布,10,样本(n=2)的平均数的抽样分布图,11,抽样分布:从一个给定的总体中抽取(不论是否有放回)容量(或大小)为n的所有可能的样本,对于每一个样本
3、,计算出某个统计量(如样本均值或标准差)的值,不同的样本得到的该统计量的值是不一样的,由此得到这个统计量的分布,称之为抽样分布。 例如:如果特指的统计量是样本均值,则此分布为均值的抽样分布。类似的有标准差、方差、中位数、比例的抽样分布。,12,抽样误差:某个样本的统计量和总体参数之间的差异 抽样误差的性质:通常用抽样分布的标准差表示,标准差越小,抽样分布越集中,样本代表总体的可靠性就越大,不同总体情况下平均数的抽样分布,示意图,14,三、抽样分布原理,基本符号: 总体A=a1,a2,aN,|A|=N 从总体中抽取n个对象构成样本,共有k个样本,设样本的符号为 A1,A2,Ak, (有放回),|
4、Ai|=n, i=1,2,k 每一个样本Ai的分布平均数是 ,标准差是si 这些平均数 构成总体A的一个平均数抽样分布。用 表示它的平均数, 是标准差抽样平均数的平均误差。,15,(一)被抽样的总体服从正态分布,样本的抽样分布具有下列性质: 1、从正态分布的总体中抽样,其分布依然是正态分布; 2、从正态分布的总体中抽样,样本平均数的平均数 等于总体平均数; 3、从正态分布的总体中抽样,抽样分布的标准差小于总体的标准差 ;样本容量越大,平均误差越小。,抽样分布的原理,16,样本平均数(均值)的标准差的计算公式,当总体为有限总体无放回抽样时,其样本均值标准差为: 如果总体为无限总体的或抽取是有放回
5、的,其样本均值标准差为:,为有限总体修正系数,可省略修正系数,17,(二)被抽样的总体不服从正态分布,非正态总体样本平均数的分布又如何 1、中心极限定理可以解决上述问题: 一个具有任意函数形式的总体,其样本平均值和方差 有限。在对该总体进行抽样时,随着样本容量n的增大,由这些平均样本算出的平均数的抽样分布将近似服从平均数为和方差为 的正态分布。,18,2、样本容量究竟该多大才能使抽样分布逼近于正态分布? 中心极限定理说明了不仅从正态总体抽取样本时,样本平均数这一统计量要服从正态分布,即使是从非正态总体进行抽样,只要是大样本(容量n30),样本平均数也趋向于正态分布。,19,第二节 点估计,一、
6、点估计 估计某一个总体参数的具体值,20,二、点估计量优劣的判别标准,衡量一个估计量好坏的标准通常有以下3个:,(1) 无偏性,(2) 一致性,(3) 有效性,(4) 充分性,21,4. 几种总体参数的点估计量,22,第三节 区间估计,某种意义上说:点估计称:“池中有XXX条鱼”,几乎没法评价,又几乎非错不可,换一个人再估计也未必能准确。 换一种提法 区间估计:指出未知参数在一定概率(可靠程度)下,可能在的范围。,23,一、置信区间与置信度,则称 1为置信度(或置信水平);,置信度与置信区间的关系,当完成任务的期限比较宽松时,能完成任务的把握就越大;反之,完成任务的期限就很紧,在限期内完成任务
7、的承诺也变得不那么可靠,25,置信度越大,则置信区间越长,反之亦然。若要同时使置信度尽可能的大和置信区间尽可能的小,只有提高样本容量n。,置信度与置信区间的关系:,n,1,n,nn,26,太大、太小的置信区间都是不可取的 20世纪30年代美籍波兰统计学家J 奈曼提出处理置信区间和置信度之间关系的原则:在保证可靠性的基础上尽量提高精确度。,27,第四节 假设检验,一、hypothesis test的意义、基本假设 又称statistic test,显著性检验等 先假设总体具有某些统计特性,再根据样本的统计特性,验证总体是否具有这些特征,28,例1:根据2009年的统计资料,某地女性新生儿的平均体
8、重为3190克。为判断该地2010年的女性新生儿体重与2009年相比有无显著差异,从该地2010年的女性新生儿中随机抽取30人,测得其平均体重为3210克。 从样本数据看,2010年女新生儿体重比2009年略高,但这种差异可能是由于抽样的随机性带来的,也许这两年新生儿的体重有着显著差异。究竟是否存在显著差异?可以先假设这两年新生儿的体重没有显著差异,然后利用样本信息检验这个假设能否成立。 这是一个关于总体均值的假设检验问题。,29,例2:某公司进口一批钢筋,根据要求,钢筋的平均拉力强度不能低于2000克,而供货商强调其产品的平均拉力强度已达到了这一要求,这时需要进口商对供货商的说法是否真实作出
9、判断。 进口商可以先假设该批钢筋的平均拉力强度不低于2000克,然后用样本的平均拉力强度来检验假设是否正确。 这也是一个关于总体均值的假设检验问题。,30,实际中的假设检验问题,1.产品自动生产线工作是否正常; 2.某种新生产方法是否会降低产品成本; 3.治疗某疾病的新药是否比旧药疗效更高; 4.厂商声称产品质量符合标准,是否可信; 5.学生考试成绩是否服从正态分布, 假设检验事先作出关于总体参数、分布形式、相互关系等的命题(假设),然后通过样本信息来判断该命题是否成立(检验) 。,31,原假设与备择假设的组合情况,32,例:以下问题均适用假设检验方法 (1)某社区下岗居民的平均年龄是38.7
10、岁 (2)某法院审结案件中,提出上诉的比例是23.5% (3)截至2002年4月底,某市应届大学毕业生的签约率低于40%,解:(1)原假设H0:0=38.7,某社区下岗居民的平均年龄是38.7; 备择假设H1:038.7,某社区下岗居民的平均年龄不是38.7。,(2)原假设Ho: 0=23.5%;备择假设H1: 023.5%,(3)原假设Ho: 040%;备择假设H1: 040%,33,二、显著水平 1、假设检验的基本原理 经过抽样分析,如果小概率事件发生,原假设检验的假设的正确性将受到怀疑,2、显著水平significance level 是一个很小的值,是检验者判断小概率事件是否发生的标准
11、,3、假设检验的三种情况 双侧检验和两种单侧检验,34,双侧检验的情形 H0:k H1:k,35,也有单侧情形:,H0: k,H1: k,或,H0: k,H1: k,36,三、假设检验的步骤,1、 提出假设,H0和H1是两个相反的假设,包括原假设H0和备择假设H1。其所有可能的结果都应包含在这两个假设的范围内,它们的提出确定了所要检验的对象。,37,2、建立统计量Z,构造一个检验统计量,要求这个统计量包含着待检验的参数,除此之外,其余的参数(检验统计量所包含的参数)必须是已知的。,3、确定 (显著性水平) 下的拒绝域,根据是双侧检验还是单侧检验,确定取还是/2;在单侧检验时注意应用于左侧还是右
12、侧。,38,4、计算置信区间的上下限,在决定是否拒绝H0时,我们自然希望作出的决策是正确的,尽量减少犯错误的概率,在选定水平后,如果检验统计量的值落入拒绝域内,我们就拒绝原假设,即因为H0不成立,否则就不拒绝H0 。,5、判断,作出决策(结论)并加以解释,39,例:设总体服从标准差为50的正态分布,从该总体抽出某容量为25的随机样本,得出样本平均值为70,试以=0.05的显著水平检验原假设0=90。,解:由题意,已知 n=25, =50,0=90,H0: = 90,H1: 90,检验统计量:,计算,40,查表得,拒绝域为:, 计算结果为:, 拒绝H0, 也就是说有95%的把握否定原假定。,=
13、-1.96,2,z =,41,ANOVA 由英国统计学家R.A.Fisher首创,为纪念Fisher,以F命名,故方差分析又称 F 检验 (F test)。用于推断多个总体均数有无差异,第五节 方差分析,42,实例一 消费者与供应厂商间经常出现纠纷。纠纷发生后,消费者经常会向消费者协会投诉。消协对以下几个行业分别抽取几家企业,统计最近一年中投诉次数,以确定这几个行业的服务质量是否有显著的差异。结果如下表:,43,44,实例二,有四个品牌的彩电在五个地区销售,为分析彩电的品牌(品牌因素)和销售地区(地区因素)对销售量是否有影响,对每个品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的
14、销售量是否有显著影响?(=0.05),45,一、方差分析原理 1、概念 方差是描述变异的一种指标 方差分析是一种假设检验的方法。方差分析也就是对变异的分析。推断两个或两个以上的样本是否取自同一个总体。 2、前提:正态分布;相同的方差2 3、基本原理,46,47,列举存在的变异及意义,1、全部的23个数据之间大小不等,与总体均数也不同,这种变异称为总变异。 2、四个组均数不等,与总体均数也不相同,存在变异:反映不同行业的效果和随机误差。 3、四个组内个体间数据不同,与所在组的均数也不相同:反映了观察值的随机误差。,48,(二)相关概念:方差分析简称ANOV(Analysis of Varianc
15、e),该统计分析方法能一次性地检验多个总体均值是否存在显著差异。 H0: H1: 不全等。,49,1、因素 因素又称因子,是在实验中或在抽样时发生变化的“量”,通常用A、B、C、表示。方差分析的目的就是分析因子对实验或抽样的结果有无显著影响。如果在实验中变化的因素只有一个,这时的方差分析称为单因素方差分析;在实验中变化的因素不只一个时,就称多因素方差分析。双因素方差分析是多因素方差分析的最简单情形。,50,2、水平,因子在实验中的不同状态称作水平。如果因子A有r个不同状态,就称它有 r个水平,可用Ar表示。我们可以针对该因素的不同水平,进行实验或抽取样本,以便了解因子的影响。,51,3、交互影
16、响 当方差分析的影响因子不唯一时,必须注意这些因子间的相互影响。如果因子间存在相互影响,我们称之为“交互影响”;如果因子间是相互独立的,则称为无交互影响。交互影响有时也称为交互作用,是对实验结果产生作用的一个新因素,分析过程中,有必要将它的影响作用也单独分离开来。,52,(三)方差分析的原理 1、方差的分解。样本数据波动就有两个来源:一个是因子影响,一个是随机波动。样本数据的波动,可通过离差平方和来反映,这个离差平方和可分解为组间方差与组内方差两部分。组间方差反映出不同的因子对样本波动的影响;组内方差则是不考虑组间方差的纯随机影响。,53,离差平方和的分解是我们进入方差分析的“切入点”,这种方
17、差的构成形式为我们分析现象变化提供了重要的信息。 如果组间方差明显高于组内方差,说明样本数据波动的主要来源是组间方差,因子是引起波动的主要原因,可以认为因子对实验的结果存在显著的影响; 反之,如果波动的主要部分来自组内方差,则因子的影响就不明显,没有充足理由认为因子对实验或抽样结果有显著作用。,54,2、均方差与自由度 因素或因素间“交互作用”对观测结果的影响是否显著,关键要看组间方差与组内方差的比较结果。 当然,产生方差的独立变量的个数对方差大小也有影响,独立变量个数越多,方差就有可能越大;独立变量个数越少,方差就有可能越小。 为了消除独立变量个数对方差大小的影响,我们用方差除以独立变量个数
18、,得到“均方差(Mean Square)”,作为不同来源方差比较的基础。引起方差的独立变量的个数,称作“自由度”。,55,检验因子影响是否显著的统计量是一个F统计量: F统计量越大,越说明组间方差是主要方差来源,因子影响越显著;F越小,越说明随机方差是主要的方差来源,因子的影响越不显著。,二、单因素方差分析,试以=0.05的显著水平检验不同行业最近一年接受投诉次数的是否相等?,57,二、单因素方差分析,(一)数据结构如下:,58,总离差平方和 SST=SSA+ SSE,(二)因素作用显著性的检验 自由度的确定: SST是由于样本的波动引起的方差,但是,这里所有的nr个变量并不独立,它们满足一个
19、约束条件, 真正独立的变量只有nr-1个,自由度是nr-1。 SSA是因子在不同水平上的均值变化而产生的方差。但是,r个均值并不是独立的,它们满足一个约束条件,因此也丢失一个自由度,它的自由度是r-1。 SSE是由所有的样本在各因素水平上围绕均值波动产生,它们满足的约束条件一共nr个,失去了r个自由度,所以SSE的自由度是nr-r。 SST、SSA和SSE的自由度满足如下关系:nr-1=(r-1)+(nr-r),60,检验统计量是:,式中:,61,F值越大,越说明在总的方差波动中,组间方差是主要部分,有利于拒绝原假设接受备选假设;反之,F值越小,越说明随机方差是主要的方差来源,有利于接受原假设
20、,有充分证据说明待检验的因素对总体波动有显著影响。因此,检验的拒绝域安排在右侧。,62,H0: H1: 不全等。,消协对不同行业最近一年接受投诉次数的统计表,64,投诉问题的解,65,结论:拒绝原假设HO,66,三、双因素方差分析,有四个品牌的彩电在五个地区销售,为分析彩电的品牌(品牌因素)和销售地区(地区因素)对销售量是否有影响,对每个品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的销售量是否有显著影响?(=0.05),三、双因素方差分析,(一)无交互影响的数据结构:,68,数据的离差平方和分解形式为: SST=SSA+SSB+SSE,69,SSA表示的是因素A的组间方差总和,
21、SSB是因素B的组间方差总和,都是各因素在不同水平下各自均值差异引起的;SSE仍是组内方差部分,由随机误差产生。各个方差的自由度是:SST的自由度为nr-1,SSA的自由度为r-1,SSB的自由度为n-1,SSE的自由度为nr-r-n+1=(r-1)(n-1)。,70,各个方差对应的均方差是: 对因素A而言: 对因素B而言: 对随机误差项而言:,71,我们得到检验因素A与B影响是否显著的统计量分别是:,72,实例,有四个品牌的彩电在五个地区销售,为分析彩电的品牌(品牌因素)和销售地区(地区因素)对销售量是否有影响,对每个品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的销售量是否有
22、显著影响?(=0.05),73,双因素方差分析(例题分析),提出假设 对品牌因素提出的假设为 H0: 1=2=3=4 (品牌对销售量没有影响) H1: i (i =1,2, , 4) 不全相等 (品牌对销售量有影响) 对地区因素提出的假设为 H0: v1=v2=v3=v4=v5 (地区对销售量没有影响) H1: vj (j =1,2,5) 不全相等 (地区对销售量有影响),74,双因素方差分析,结论: FR18.10777F3.4903,拒绝原假设H0,说明彩电的品牌对销售量有显著影响 FC2.100846 F3.2592,不拒绝原假设H0,不能认为销售地区对彩电的销售量有显著影响,(二)有交互影响的数据结构:,76,离差平方和分解形式: SST=SSA+SSB+SSAB+SSE,77,上式中,rn-r-n+1=(r-1)(n-1),rmn-rn=r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Q-ZBDX 005-2025 半固态熔体制备及注射挤压铸造成型工艺规范
- 九年级数学第28章 锐角三角函数导学案15
- 东方网页建设方案
- 教学三个助手实施方案
- 焊接工艺实施方案
- 云南宣威市民族中学、第七中学2025-2026学年八年级下学期期中数学试题(含答案)
- 规范高耗能企业建设方案
- 中学劝返工作实施方案
- 转型实施方案
- 装配式建筑施工现场安全监督方案
- 浙江日报采编笔试内容
- DB42∕T 2523-2026 党政机关办公用房面积核定工作规范
- 林业造林工程监理规划方案
- 广东省湛江市2026年普通高考测试(一)语文试题及参考答案
- 综治研判会议制度
- 2026年兰考三农职业学院单招职业技能考试题库含答案详解(完整版)
- 世界各地高中教育体系比较
- 原料不合格处置管理培训
- 2026年中考语文专题复习:标点符号 讲义
- 常见病小儿推拿培训
- 政务颁奖礼仪培训
评论
0/150
提交评论