




已阅读5页,还剩51页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章 抽样误差与假设检验,第一节 均数的抽样误差与标准误差,参数估计和假设检验,随机原则,总体,样本,总体参数,统计量,推断估计,参数估计,检验,假设检验,一、抽样误差,从总体当中随机抽取一份样本,计算均数。 这个均数不同于总体的均数。为什么?,再从该总体中随机抽取一份样本,再计算均数。 前后两个均数不等。为什么?,抽样误差!,例:某市1999年18岁男生身高服从=167.7cm、 =5.3cm正态分布,从该总体中随机抽样。,每次抽取10人,得到一个样本均数记为,一共抽取100次,就得到了100本样本的均数,将上述100个样本均数看成新变量值,这100个样本 均数构成了一个新的分布。,抽样分布:,某一统计量所有可能的样本的取值形成的分布。,样本均数抽样分布具有如下特点:,1、各样本均数未必等于总体均数; 2、各样本均数间存在差异; 3、样本均数围绕总体均数呈正态分布; 4、样本均数变异范围较原变量变异范围大大缩小, 这100个样本均数的均数为167.69cm,标准差为 1.69cm。,在非正态分布总体中可进行类似抽样。,可得到如下结论:,若变量服从正态分布,则各样本均数也服从正态 分布。,若变量不服从正态分布,当样本量足够大时,各 样本均数近似服从正态分布,当样本量很小时, 则样本均数为非正态分布。,样本均数的总体均数为,而样本均数的标准差比 原来个体值的标准差要小,为区别两者,我们用 来表示,其计算公式为,(标准误),反映样本均数间的离散程度。,(标准误的估计值),例1 2000年某研究所随机调查某地健康成年 男子27人,得到血红蛋白的均数为125g/L,标准 差为15g/L 。试估计该样本均数的抽样误差。,标准差与标准误的区别与联系,标准差:描述个体值间的变异,标准差较小,表 示观察值围绕均数的波动较小,说明样本均数的代 表性就越好。,标准误:描述样本均数的抽样误差,标准误较小, 表示样本均数与总体均数较接近。说明样本均数的 可靠性。,用途,标准差:表示变量值离散程度的大小,结合均数估计 参考值范围。,标准误:表示抽样误差的大小,估计总体均数的可信 区间。,与样本含量的关系,标准差:随样本含量的增多,逐渐趋于稳定,标准误:随样本含量的增多逐渐减小。,联系,1、标准差与标准误都是变异指标,说明个体值之间 差异是用标准差,说明样本均数之间差异时用标准 误。,2、当样本含量不变时,标准差越大,标准误越大。,标准差和标准误的区别,随机变量X N(m,s2),标准正态分布 N(0,12),Z变换,标准正态分布 N(0,12),均数,Student t分布 自由度:n-1,t 分布,一、t分布的概念,从正态总体N(,2)中进行无数次样本含量为n的随机抽样,每次均可得到一个 和一个S,通过 公式转换,可得无数个t值,t值的分布即为含量为n的t值的总体或称t-分布。,t值的分布与自由度 有关(实际是样本含量n不同)。 t 分布的图形不是一条曲线,而是一簇曲线。,t分布曲线是单峰分布,以0为中心,左右两侧对称 曲线的中间比标准正态曲线(Z分布曲线)低,两侧翘得比标准正态曲线略高。 t分布曲线随自由度而变化,当样本含量越小(严格地说是自由度 =n-1越小),t分布与Z分布差别越大;当逐渐增大时,t分布逐渐逼近于Z分布,当 =时,t分布就完全成正态分布 。 t分布曲线是一簇曲线,而不是一条曲线。 t分布下面积分布规律:查t分布表。 t-分布曲线下面积为1,二、t 分布的图形和t 分布表,t分布曲线特点:,同标准正态分布曲线一样,统计应用中最为关心的是t分布曲线下的尾部面积(即概率p)与横轴t值间的关系。,为使用方便,统计学家编制了不同自由度v下的t界值表(附表2)。,在t界值表中,横标目为自由度v,纵标目为概率p。表中数字表示当v和p确定时,对应的t临界值(critical value)。,t 分布表,该表中分别给出了单侧概率和两侧尾部面积之和的双侧概率所对应的t临界值。,单侧概率相对应的t临界值用符号 表示。,双侧概率相对应的t临界值用符号 表示。,例如:,当单侧概率p=0.05时,v=16,单侧,当双侧概率p=0.05时,v=16,双侧,/ 2,单双侧t分布示意图,T为单侧临界值,T/2为单侧临界值,在相同自由度时, 值越大,概率p越小;,从t界值表中亦可看出:,而在相同t值时,双侧概率p为单侧概率p的两倍。,即:,第四章 抽样误差与假设检验,第一节 均数的抽样误差与标准误差,统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。,第二节 总体均数的估计,一、参数估计的概念,,即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L 。,1.点估计: 用样本统计量直接作为总体参数的估计值。 例如 于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L,试估计其总体均数。,按预先给定的概率(1)估计总体参数的可能范围,该范围就称为总体参数的1可信区间。,可信区间由两个数值即可信限构成,其中最小值称为下限,最大值称为上限。严格讲,可信区间不包括上下限两个端点值。,2、 区间估计,预先给定的概率(1)称为可信度,常取95%或99%。如无特别说明,一般取双侧95%。,可信区间的含义是:有(1-)的把握认为总体参数位于该区间内。而不是总体参数落在该范围的可能性为。,从总体中作随机抽样,根据每个样本可以算得一个置信区间。95%的置信区间,意味着作100次抽样,算得100个置信区间,平均有95个置信区间包括了总体均数,只有5个不包括。5%是小概率事件,在一次试验中出现的可能性很小。因此就认为总体均数在算得的置信区间内,可信度是95%,犯错误的概率是5%。,总体均数可信区间的计算,1.未知且样本例数n较小时,按t分布原理:,t/2, 是按自由度=n-1,由附表2查得的t值。,99%的双侧置信区间:,95%的双侧置信区间:,例2 已知某地27例健康成年男性血红蛋白量的均数为 ,标准差S=15g/L ,试问该地健康成年男性血红蛋白量的95%和99%置信区间。,95%CI:,99%CI:,本例n=27,S=15,2.已知,按标准正态分布原理计算,Z/2为标准正态变量,Z/2相当于按=时及P取,由附表2查的的t界值。,95%的双侧置信区间:,99%的双侧置信区间:,3.若未知,但样本例数n足够大(n50)时,由t分布可知,自由度越大,t分布越逼近标准正态分布,此时t曲线下有95%的t值约在1.96之间,即,99%的双侧置信区间:,95%的双侧置信区间:,例3 某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,,试估计该地19岁健康男大学生的身高的95%置信区间。,该市19岁健康男大学生的身高的95%置信区间(171.3,173.1)cm,可信区间的确切含义,95%的可信区间的理解:,1、所要估计的总体参数有95%的可能在我们所估计的 可信区间内。,3、但在实际工作中,只能根据一次试验结果估计可 信区间,我们就认为该区间包含了总体均数。,意义: 95%的参考值范围是指同质总体内包括95%个体值的估计范围。若总体为正态分布,常按 计算。 95%的可信区间是指按95%的置信度估计的总体参数的所在范围。若为大样本,按 计算。 计算上: 置信区间用标准误,参考值范围用标准差。,思考!,均数置信区间与参考值范围的区别,思考!,均数置信区间与参考值范围的区别,计算上:置信区间用标准误,参考值范围用标准差。,第四章 抽样误差与假设检验,第一节 均数的抽样误差与标准误差,一、假设检验的概念: 一般科研程序:假说-验证-对假说作出结论,统计上的假设检验: 假设检验亦称为显著性检验,是先对总体的参数或分布作出某种假设,然后用适当的方法,根据样本对总体提供的信息,推断此假设应当被拒绝或不拒绝。,什么是假设检验?,3.特点 (1)采用逻辑上的反证法 (2)依据统计上的小概率原理,1.概念 事先对总体参数或分布形式作出某种假设然后利用样本信息来判断原假设是否成立,2.类型 (1)参数假设检验 (2)非参数假设检验,两均数两率不等,假设检验的基本原理,抽样误差所致 (来自同一总体),P0.05=,?,假设检验回答,P0.05=,环境条件影响 (来自不同总体),反证法,小概率思想,先对总体的参数或分布作出某种假设,再用适当的方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。,如果第一种可能性较小时,可以拒绝它而接受后者,统计上称差异有统计学意义。,本例两个均数不等有两种可能性:,山区成年男子的脉搏总体均数与一般健康成年男子的脉搏总体均数是相同的,差别仅仅由于抽样误差所致,来自同一总体;,受山区某些因素的影响,两个总体的均数是不相同的,有本质性区别,不是来自同一总体。,如果第一种可能性较大时,可以接受它,统计上称差异无统计学意义;,如何作出判断呢?按照逻辑推理:,假设检验的基本步骤:,检验水准(亦称显著性水准)符号为,是一个预先给定概率值。,1建立检验假设、确定检验水准和单双侧,检验假设,无效假设,备择假设,符号为H0:12,符号为H1:12,即假设均数来自同一总体,它们的总体均数相同,样本均数间无本质的不同,差别仅由抽样误差引起;,即假设均数来自不同总体,它们之间的差别存在本质的不同,并非仅由抽样误差引起。,确定检验水准:亦称为显著性水准,符号为,是预先给定的概率值。是判定样本指标与总体指标或两样本指标间的差异有无统计学显著性意义的概率水准,在实际工作中, 常取0.05。 可根据不同的研究目的给予不同的设置,如方差齐性检验,正态性检验常取0.1或0.2。,双侧检验与单侧检验 (假设的形式),H1的内容反映出检验的单双侧。,2、选定检验方法和计算检验统计量,(1)根据资料的类型、设计类型、检验方法的适用 条件等选择检验方法,(2)不同的检验方法要用不同的公式计算检验统计 量,(3)不同的设计类型要用不同的公式,( t值、u值、2值等 ),4、确定P值和作出推断结论,(1)P值:指从H0所规定的总体中进行随机抽样, 抽得等于及大于(或等于及小于)现有样本获得的 检验统计量值(如t值或u值)的概率。,(2)方法: 查表 将P与预先规定的概率(检验水准)比较 作出结论,若P结论:按所取检验水准,拒绝H0,接 受H1,有统计学意义(差异有显著性),可认为 不同或不等(高于或低于);,若P结论:按按所取检验水准,不拒绝H0, 无统计学意义(差异无显著性),还不能认为不同 或不等。,注意:下结论时,对H0只能说拒绝或不拒绝;对H1 只能说接受H1。,作出推断结论 当: t 0.05 ( 差异无显著性 ) t 0.01() t t 0.05() 0.01 按所取检验水准不拒绝H0 P 按所取检验水准拒绝H0,1、表示均数抽样误差大小的统计指标是( ) A、标准差 B、方差
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全域无废城市建设的概念与发展背景
- 2025至2030年中国玻化砖颜料行业投资前景及策略咨询报告
- 2025至2030年中国照相机机架行业投资前景及策略咨询报告
- 关于幼儿园课程改革的论文
- 2025至2030年中国油压钻孔机行业投资前景及策略咨询报告
- 2025至2030年中国水力按摩设备行业投资前景及策略咨询报告
- 2025至2030年中国柴油滤清器外壳行业投资前景及策略咨询报告
- 2025至2030年中国服装电子商务网站工程行业投资前景及策略咨询报告
- 新粤沪版物理8年级上册全册教学课件(新版教材)
- 强化社会治理人才培养的策略及实施路径
- 2024年山东高压电工题库电工高级工考试题库(全国版)
- 内镜下硬化剂治疗护理
- 三公经费违规的主要表现及防范措施
- 高中英语外研版(2019)选择性必修第一册各单元主题语境与单元目标
- 游艇运营方案
- 人教版八年级下学期音乐期末考试试卷(含答案)
- 给小学生科普人工智能
- 以青春之名励青春之志
- 思维导图(高分作文写作)
- 业主业主委员会通用课件
- 品质部安全培训课件
评论
0/150
提交评论