抽样误差和统计推断.ppt_第1页
抽样误差和统计推断.ppt_第2页
抽样误差和统计推断.ppt_第3页
抽样误差和统计推断.ppt_第4页
抽样误差和统计推断.ppt_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 抽样误差与统计推断,第一节 抽样研究与抽样误差,抽样误差:抽样造成的这种样本均数与样本均数之间、样本均数与总体均数之间的差异 标准误:用于表示均数抽样误差大小的指标,也叫样本均数的标准差,它反映了样本均数之间的离散程度。,均数的分布及其标准误,数理统计的中心极限定理和大数定理表明: 从正态总体N(,2)中随机抽取含量为n的样本,其样本均数服从正态分布;即使从偏态总体中随机抽样,当n足够大时(如n30),样本均数也近似正态分布; 从均数为,标准差为的总体中随机抽取含量为n的样本,则样本均数的均数也为,样本均数的标准差为。,例3-1 某地随机抽取20岁健康男性20名,求得其血中葡萄糖样本均

2、数=39.5mg/100ml,标准差S=0.69mg/100ml, 问其抽样误差是多少? 本例:s=0.69mg/100ml,n=20,将其代入公式得 即该研究的抽样误差为0.15mg/100ml。,t值的分布与自由度 有关(实际是样本含量n不同)。t 分布的图形不是一条曲线,而是一簇曲线。,t 分布的图形有如下特征: 单峰分布,以0为中心,左右对称,类似于标准正态分布。 自由度 越小,则越大,t值越分散,曲线的峰部越矮,尾部越高; 随着自由度 逐渐增大,t分布逐渐逼近标准正态分布;当 趋于 时,t分布就完全成为标准正态分布,故标准正态分布是t分布的特例。,统计学家将t分布曲线下的尾部面积(即

3、概率P)与横轴t值间的关系编制了不同自由度 下的t界值表(附表2)。 t界值表:横标目为自由度 ,纵标目为概率P。 t临界值:表中数字表示当 和P 确定时,对应的值。 单侧概率 (one-tailed probability):用t,表示 双侧概率 (two-tailed probability):用t/2,表示,例如, 当 =16,单侧概率P =0.05时,由表中查得单侧t0.05,16=1.746;而当 =16,双侧概率P =0.05时,由表中查得双侧t0.05/2,16=2.120。按t分布的规律,理论上有 单侧:P(t t0.05,16)=0.05 和 P(t t0.05,16)=0.

4、05 双侧:P(t t0.05/2,16)P(t t0.05/2,16)=0.05,更一般的表示方法如图(a)和(b)中阴影部分所示为: 单侧:P(t t, )= 和 P(t t, )= 双侧:P(t t/2, )P(t t/2, )=,统计推断,统 计 推 断 statistical inference,如:样本均数 样本标准差S 样本率 P,如:总体均数 总体标准差 总体率,内容: 参数估计(estimation of parameters) 包括:点估计与区间估计 2. 假设检验(test of hypothesis),参数估计,参数估计的概念 参数估计:指用样本指标(统计量)估计总体指

5、标(参数)。 参数估计有 点估计(point estimation) 区间估计(interval estimation),参数估计,点估计:用样本统计量直接作为总体参数的点估计值,即直接用随机样本的样本均数作为总体均数 的点估计值, 用样本频率p作为总体概率 的点估计值 缺点:没有考虑抽样误差,无法评价其可信度估计值它与真值之间的差距。,参数估计,95%CL:125 2.056 =(119.06,130.94) g /L 99%CL:125 2.779 =(116.98,133.02)g /L 该市健康成年男子血红蛋白平均含量: 95%置信区间为(119.06, 130.94)g /L,99%

6、置信区间为(116.98, 133.02)g /L。,二、假设检验的基本步骤,1建立检验假设、确定检验水准 检验假设有两种:一种是无效假设(null hypothesis),符号为H0,即假设均数来自同一总体,它们的总体均数相同,样本均数间无本质的不同,差别仅由抽样误差引起; 另一种是备择假设(alternative hypothesis),符号为H1,即假设均数来自不同总体,它们之间的差别存在本质的不同,并非仅由抽样误差引起。 检验水准(size of a test)亦称显著性水准(significance level),符号为。,2.选择和计算统计量 根据统计推断的目的和资料的性质、特点选

7、择合适的 检验统计量。 3确定P值 P值是指由H0所规定的总体中随机抽样,获得等于及 大于(或等于及小于)现有样本所获得的检验统计量值 的概率。求得检验统计量后,一般可通过特别的统计表 直接查出P值。例如t值可查t界值表,u值可查u界值表,4判断结果 当P时,结论为按所取检验水准拒绝H0,接受H1,两均数差别有统计意义(或称显著性意义),即它们之间存在着本质的不同(数学上认为小概率事件在一次实验中不可能发生。P,即被推断为小概率事件);当P时,结论为按所取检验水准尚不能拒绝H0,可认为两均数差别无统计意义,即它们之间无本质的不同,差别仅由抽样误差引起。,三、t检验,概念:选用检验统计量t进行假

8、设检验的方法,称t检验。 用途: 样本均数与总体均数的比较 配对计量资料的比较 两样本均数的比较 应用条件:正态分布:当样本含量较小时,要求样本来自正态总体。 方差齐性:两样本均数比较时,要求两总体方差相等。,、单个样本均数的t检验,目的:推断样本所代表的未知总体均数与已知总体均数0是否相等。 例经产科大量调查得知某市婴儿体重均数为3.20kg,今随机测得25名难产儿平均出生体重为3.42kg,标准差为0.42kg。问该市难产儿出生体重与一般婴儿是否不同?,配对类型: 配在对子的同对受试对象分别给予两种不同处理; 同一受试对象分别接受两种不同处理; 同一受试对象处理前后的比较。 目的:推断某种

9、处理有无作用或两种处理效应有无差别,即推断样本差值的总体均数d是否等于零。,配对资料的比较,四、u检验,概念:选用检验统计量u值进行假设检验的方法称u检验。 用途:同t检验。 应用条件:大样本(如n50); 小样本,已知且样本来自 正态总体。 检验目的:同t检验。 统计量的计算公式:,五、两类错误,假设检验是以样本推断总体,作出的结论是概率性的,并非绝对正确,可能发生两类错误: 1)如果无效假设H0为真,拒绝了它,称第一类错误或型错误(type error). 2)如果无效假设H0不真,不拒绝它,称第二类错误或型错误(type error)。,两类错误的关系图,六、假设检验注意事项,1假设检验的前提是要有严密的抽样设计,保证样本是从同质总体中随机抽取。并且,组间的均衡性和资料的可比性应予特别注意

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论