5+抽样与统计.ppt_第1页
5+抽样与统计.ppt_第2页
5+抽样与统计.ppt_第3页
5+抽样与统计.ppt_第4页
5+抽样与统计.ppt_第5页
已阅读5页,还剩139页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、非概率抽样和概率抽样 :部分调查根据其抽取调查单位的准则不同,可分非概率抽样和概率抽样。,抽取调查单位的原则是根据主观判断或其它操作上的方便。 基本方法:立意抽样法、偶遇抽样法、定额抽样法。 优点:成本低、花时短、回答率高。 缺点:不能做统计推论 非概率抽样的结果是否有代表性与主观本身的水平有很大关系。,1、非概率抽样,2概率抽样 抽取调查单位的原则是随机原则:在抽选调查对象时,规定了一定的程序,以保证每一个单位都有同等入选的机会,从而避免了主观因素的影响。 优点:可以作统计推论。,如图:,参数值 统计量 X, ,2相关 X,s,s2 相关系 系数 数等 N n 随机原则 总体 样本 推断

2、,二、抽样的历程:一般来说要依据下面5个步骤。,1.界定总体。 即清楚地说明全部研究对象的范围,包括时间、地点和人物。总体的界定越清楚越好。 2.搜集全部名单。 根据总体的界定,收集一份全部个案的名单,这份名单,称为抽样构架。抽样构架的完整性与准确性要审核。,3.决定样本大小。 在决定样本的大小时,必须同时考虑抽样误差和研究代价这两个因素。 4.设计抽样方法。 不同的抽样方法所犯的抽样误差会不同,但所需求的研究代价也不相同。 5.评估样本的正误。 一般是根据一些在总体与样本中都能容易找到的资料来评估样本的正误。如果总体的资料分布与样本的资料分布基本上一致,则对样本代表性有较大的信心;如果总体的

3、资料分布与样本的资料分布差异很大,则要放弃样本或在报告中特别指出样本的偏差。,5评估样本的正误,例如:农村青年调查中,以年龄作为标准来评估样本的正误。假定资料的分布如下:,如果总体与样本在愈多标准上相近,我们对样本愈有信 心。能够采用多少样本,要视在总体内能够找到多少在样本 中也具有的资料。,三、抽样调查方法,1.简单随机抽样:按照随机原则,直接从总体N个单位中,抽取几个单位作为样本,保证总体中每个单位在抽选时都有同等的机会被选中。 分为: 简单重复抽样; 简单不重复抽样。,简单不重复抽样:把总体抽取出来的单位不再放回原有的总体,连续进行n次抽样构成一个样本。,这样的样本,由于第一次抽选结果影

4、响下次抽选,因此,每个单位中选的概率名次是不同的。但仍满足抽样随机原则。 例:总体N=4个单位:A、B、C、D。 现用不重复抽样从中抽出2个单位(n=2),构成一个样本,全部可能的样本为:AB、AC、AD、BC、BD、CD。在所有可能出现的样本中,A、B、C、D出现次数都是3次,因此每个单位被抽中机会相等。不仅如此,上述6种样本出现的概率也相同。 当总体很大,N1时,这种连续进行的n次抽取,可近似地看作简单重复抽样。,2.等距抽样(机械抽样,系统抽样),先将总体按某一因素排列,然后依固定的间隔,每间隔若干单位抽出一个构成等距抽样。 例如:总体单位为N,样本容量为n,则样本间隔为:k=N/n,抽

5、样时,先在第一个间隔中随机抽取一个单位,假定为a,然后从a单位开始,每间隔K单位都将是入选的单位。 优点:简化了抽取过程; 缺点:可能出现周期性偏差。 等距抽样仍不失抽样的随机原则,总体中每个单位被抽中的概率可看作都是1/k。,3分层抽样(类型抽样、分类抽样),分层抽样是先将总体按与研究内容密切有关的主要因素分类或分层,然后在各层中按随机原则抽选一定单位构成样本。 分层的目的,在于减少层内差异,增加抽样调查样本的代表性。,例如:某工厂有20名工人,他们的工资如下:,40,80,70,40,50,50,80,70,50,40 70,40,70,50,40,80,40,80,50,50 粗看起来,

6、工资水平似乎很分散,但细分起来,实际只有4档:40,50,70,80。 分层抽样适用于层内差异小,层与层间差异大的总体。,分层抽样根据各层抽取比例是否相等,可分作分层定比抽样和分层异比抽样:,分层定比抽样 样本中各层抽取的比例是相同的。例如总体单位N=20000,样本容量n=500,则抽样比例:,设总体按老、中、青三代分层,于是根据总体中三代人的总人数,就可确定三代人的抽样人数:,分层异比抽样,当总体中某一层人数过少,但又具有较高的研究价值,这时可增大这一层的抽样比例。但这样做的结果,统计分析时要做适当修正。,4整群抽样(集体抽样),在整群抽样中,总体被分为很多“群”,这些群是抽样的单位。随机

7、抽取若干群,被选入样本的群中的全部个案都进入样本。 整群抽样适用于群间差异小,而群内差异大的总体,这点正好和分类抽样相反。,5阶段抽样,在多级抽样中,每一级都可看作是一次整群抽样,每一个抽中的群体,又可看作是由若干子群所组成,从入样的群体中,再随机抽取若干子群组成子群。如: 第一步:从全国的省直辖市中抽取若干省和直辖市; 第二步:从入选的省和市中抽取县级单位; 第三步:从县级单位中抽出乡和镇; 第四步:从乡和镇中确定调查对象。,例:设某村有5户人家,以下是总体家庭人口的统计表,表1.某村家庭人口统计表 1/5 4 5 6 7 8 图1,则有:,总体均值,总体方差,总体标准差 =1.4,现从总体

8、(N=5)中,作样本容量n=2的简单随机抽样,它可能选出的样本有55=25种,结果如表:,经过整理,得出样本平均家庭人口数的抽样分布如下表:,比较图1与图2,可知 的分布与总体分布有很大不同,总体分布是等概率的, 分布已呈现出对称的,接近正态的非等概率分布。,平均家庭人口数的概率分布图,p 4 5 6 7 8 x,样本的平均值仍等于总体平均值6,可见,样本的均值平均数=,样本均值的方差,(所有可能出现样本均值的方差),结论:,设有均值,方差2 的分布总体,如随机抽取所有可能容量为n的样本,则样本平均数的抽样分布将随着n的增大而渐渐接近于以下正态分布 N(, ) n30为大样本 n30为小样本,

9、抽样误差问题:,我们所说的统计抽样误差是指平均误差 ,它等于样本均值的标准差,即: (这是重复抽样) 不重复抽样 SE= 社会学研究中,一般样本比较大,因此,例1,随机抽取某大学的学生100名,平均体重,根据过去材料知道大学生体重的标准差为10kg,求抽样误差为多少? 解:已知n=10030 =10,例2,某学院1000名学生,其平均身高是168cm,标准差为22.5cm,现从学生中随机抽出100名,求其样本平均数大于1.70m的概率。,解:=168cm,=22.5,n=100,X=170cm p(x170)= = 答:样本平均数大于 1.70m的概率为 18.67%。,抽样分布总结:,如果样

10、本相当大,N30,不管原分布如何,抽样分布接近正态分布; 抽样分布的均值就是总体的均值; 抽样误差就是抽样均值的标准差。 抽样分布的均值两旁,包括多少个样本均值呢?,下图:,在社会学研究中,下面几项数值常用,值得注意。,有90%在1.65SE; 95%在1.96SE 即在这个范围外的样本概率为5%; 98%在2.33SE; 99%在2.58SE。,二项抽样分布亦可以用多角线图来表示:如果当N=5时:,P 0.3 0.031 0 1 2 3 4 5,二项抽样分 (N=样本大小;r=成功数),有二项特质要注意:,从图中可看到,当P=Q=1/2的二项分布是对称的(从表中也可以看到这一点); 各个机率

11、是可以相加的。 例如:N=5时,得到4个或5个成功的机会时: P(4、5)=P(4)+P(5)=0.156+0.031=0.187; 得到两个或以下是成功的机会时: P(2)=P(0)+P(1)+P(2)=0.031+0.156+0.313=0.500; 一个也不成功的机会是P(0)=0.031。,上面介绍的二项分布是假定P=Q=1/2,其实,只要是P+Q=1,P与Q可以是任何数值: 0 不成功 X(e)= 随机变量 1 成功,如下:,有:,如下:,成数抽样误差:,注意:,P=Q=1/2,n30服从正态分布,P、Q差异愈大,n值愈大才能服从正态分布。 二项分布为离散型分布,在独立试验次数为n时

12、,二项分布共有n+1个取值(例投硬币4次,正面出现的可能情况有5种) P=Q=1/2 时,二项分布图形是对称的 二项分布的数学期望值等于nP,(接上),二项分布的方差等于nPQ 二项分布的一般式B(n,P),n和P是二项分布的两个参数,当n和p确定后,二项分布是唯一的。n表示独立试验的次数。P表示所研究事件A在每次试验中所出现的概率。,例1,某地资料,女性能活到75岁的概为0.45,今随机抽取200名女性,问有半数以上活到75岁的概率是多少?,解:P=0.45,n=200,nP远大于5,所以样本服从正态分布: 答:有半数以上活到75岁概率是0.076,即在1000次抽样中,有半数以上达到75岁

13、的有76次。,例2某人事部门估计职员的潜在能力,认为能够向更高一级发展的人员占26%,现随机抽取100人,问有潜在能力的人员低于30人的概率是多少?,统计推论,统计推论就是根据局部资料(样本资料)对总体的特征进行推断。 统计推论所要介绍的是如何正确处理样本和总体之间的数量关系,从而实现从样本正确推论到总体。 统计推论的理论基础是概率论。,统计推论的特点:,1.由于样本资料来源于总体,因此,样本资料的特性在某种程度上能反映总体的特性。 2.由于社会资料的随机性,抽样的结果不是唯一的,一次抽样结果不一定恰好就等于总体结果,而且当总体参数未知时,即便等于,我们也不知道。,参数估计与假设检验的逻辑区别

14、,参数估计,通俗的讲,就是根据抽样结果来合理地、科学地猜一猜总体的参数大概是多少?或者在什么范围?参数估计的逻辑是先看样本的情况,再问总体的情况。 假设检验:先假设总体的情况,再以一个随机样本的统计值来检验这个假设是否正确。换言之,要先构思总体情况,才进行抽样和分析样本的资料。,统计推论分为两大类:,1.参数估计,即通过样本对总体的未知参数进行估计。 2.假设检验,即通过样本对总体的某种假设进行检验。,参数估计有两种做法,点值估计(或称点估计); 间距估计(或称区间估计)。 二者都要求样本是以随机方法抽取的。,点值估计,就是根据样本资料以一个最适当的样本统计值来代表总体的参数值。 优缺点:简单

15、明确,但不能说明估计结果的抽样误差和把握程度。 点估计是区间估计的基础。,点估计的基本含义,一、总体参数的点估计公式,1.样本均值 2.样本方差 3.样本成数 即用样本的 ,作为总体的参数的点估计值。,例1. 根据抽样调查,以下是8名同学“社会统计学”考试得分,求:总体的均值、方差、标准差的点估计值。,解:,根据抽样调查,可以求出样本X ,样本S2和样本S。 因此,总体均值的点估计值为74;方差的点估计值为8.29,标准差的点估计值为2.88。,例2:,工会为了解春游期间需租用几辆公共汽车,在全厂10000名职工中进行了共100人的简单随机抽样调查。统计结果,其中有20名愿意外出春游。设每辆可

16、载乘客50名,问估计要预备多少辆公共汽车?,解:根据抽样调查愿意外出春游的样本成数为:,以P作为愿意外出春游总体成数的点估计,则全厂估计将有:100000.2=2000人参加春游,又因每辆公共汽车可容乘客50人,因此有: 辆,即估计预租40辆公共汽车,可满足全厂春游的需要。,回答问题: 第一,我们为什么以这一个而不是那一个统计量来估计某个总体参数?,第二,如果有两个以上的统计量可以用来估计某个总体参数,其估计结果是否一致?是否一个统计量要优于另一个?,估计值的衡量标准:无偏性、有效性、一致性,二、衡量点估计值好坏的标准,设为待估计的总体参数,为样本统计量,则的优良标准为:,若,则称为比更有效的

17、估计量(有效性),若,则称为的无偏估计量(无偏性),若越大越小,则称为的一致估计量(一致性),学生 成绩 30 40 50 60 70 80 90,按随机原则抽选出名学生,并计算平均分数和中位分数。,有效性,中位数的抽样分布,平均数的抽样分布,有效性,有偏,无偏,无偏性,一致性,学生 成绩 30 40 50 60 70 80 90,按随机原则抽选出5名学生,并计算平均分数。,n=4时 的抽样分布,n=5时 的抽样分布,为的无偏、有效、一致估计量; 为的无偏、有效、一致估计量; 为的无偏、有效、一致估计量。,从估计值的优良标准看点估计,一、有关区间估计的几个概念,1.区间估计:就是以两个数值之间

18、的间距来估计参数值。 2.置信区间(可信间距):两个数值之间的间距,称为置信区间。 例:我们用作为未知参数Q的估计值,那么区间为 区间的大小,反映了估计值的准确性,置信度(可信度)或称作置信概率或置信系数,它表示用置信区间估计的可靠性,即置信区间内包含参数Q的概率。即: 置信性水平(),它表示用置信区间估计不可靠的概率。 置信度与显著性水平之和为1。,3.置信度与置信性水平,置位区间与置信度之间的关系,在样本容量一定情况下,置信区间和置信度是相互制约的。 置信度愈大(即估计的可行性愈大),则相应的置信区间也愈宽(估计的值愈不精确),精确度越高,置信度愈小,置信区间愈窄。,包括总体均值的区间数为

19、21个,占全部可能样本数35个的60%。,包括总体均值的区间数为33个,占全部可能样本数35个的94.29%。,二、正态总体的均值的区间估计,如果总体分布满足N(,2 ),根据方差是否已知分为以下两种情况: 1总体方差( 2 )为已知 根据抽样分布的讨论,统计量均值的标准分满足标准正态分布:,对于的双侧置信区间为:,置信度(把握度)为1- /2 /2 -Z/2 Z/2,有,当置信度为1-=0.95时,置信区间为: 当置信度为1-=0.99时,置信区间为,0.6827,区间估计原理,落在范围内的概率为68.27%,0.9545,区间估计原理,落在范围内的概率为95.45%,0.9973,区间估计

20、原理,落在范围内的概率为99.73%,以样本统计量为中心,以抽样平均误差为距离单位,可以构造一个区间,并可以一定的概率保证待估计的总体参数落在这个区间之中。区间越大,则概率保证程度越高。,区间估计原理,已知:,对于给定的显著性水平,有:,抽样极限误差,计算样本统计量,计算抽样平均误差,计算抽样极限误差,确定置信区间,(以估计 为例):,区间估计步骤,SE,E,由532名商业周刊订阅者组成的样本表明,其每周使用因特网的平均时间为6.7小时。如果总体标准差为5.8小时,求该周刊订阅者总体每周平均花费在因特网上时间的95置信区间。,则:该置信区间为:,正态总体均值的区间估计举例,例,某工厂妇女从事家

21、务劳动时间服从正态分布N(,0.662),根据36人的随机抽样调查,每天平均从事家务劳动时间为=2.65小时,求的双侧量信区间(置信度1-=0.95)。,解:,2总体方差(2 )未知,当总体满足正态分布,但2 未知的情况,统计量的标准分满足自由度为K=n-1的t分布,有,t=(n-1) /2 /2,例:设某社区受教育程度服从正态分布(, 2), 2 未知,根据25人的随机抽样调查,平均受教育年限和标准差S分别为11.5年和3.6年求的双侧置信区间,一、大样本总体均值的区间估计,式中: X为样本均值 1-为置信度(可信度,把握程度) 为显著性水平 s 为总体标准差的点估计值,为正态分布双侧区间的

22、分位点,注意:,大样本区间估计公式不要求总体为正态分布。 不要求总体方差 2 (或)为已知量,由于样本容量n50,无论用或S,其分布都将是正态分布。,例:设某区受教育程度的总体分布,方差均未知,现进行了50人的抽样调查,得知均值=11.5,S=3.6。,求置信度为0.99的双侧置信区间。 解:依题意,总体分布形式未知,但样本容量n=50,所以可采用大样本区间估计公式,置信度1-=0.99,查表得有,二、总体成数(二项总体参数P)的估计,(一)总体成数P的点估计 如果在样本容量为n的简单随机抽样中,对于所需研究的A共出现m次,则样本成数 : =m/n,(二)大样本总体成数P的区间估计,例:设根据

23、某地100户的随机抽查,其中有60户拥有电冰箱,求该地拥有电冰箱成数P的置信区间(置信区间为0.95),得 所以该地拥有电冰箱成数P的置信区间(1-=0.95)为0.504,0.696 结论:根据抽样调查,该地拥有电冰箱的居民所占比例在0.504到0.696之间,这个估计的把握程度为95%。,三、大样本二总体均值差的区间估计,设: 第一个总体的参数1, 12 第二个总体的参数2, 22 现从两个总体中独立地各抽取一个随机样本: 来自第一总体的样本:X1,S12 来自第二总体的样本:X2,S22 于是样本均值差: - 可以作为总体的均值差1-2 的点估计值。,X1-X2的分布也将趋向正态分布,它

24、的数学特征为E( )=1-2,当 12 、 22 未知的情况下,可用样本方差S12 和S22 代表: 12S12 , 22 S22,例:为了解甲、乙两地中学生毕业成绩的差别,两地作了抽样调查,结果有: 甲地: =520分,S1=40分,n1=800名 乙地: =505分,S2=50分,n2=1000名 求置信度为0.95两地平均成绩差的区间。,解:根据题意,即两地平均成绩差估计在95%的把握程度下为10.845与19.16之间,四、大样本二总体成数差的区间估计,当样本分别满足n1P15,n2P25时,P1和P2都将趋向正态分布,因此P1-P2的分布也将趋向正态分布,它的数学特征为: E( )=

25、P1-P2,因此,大样本二总体成数差P1-P2, 的区间估计公式为:,例:甲、乙两地各作1000户抽样调查。其中甲地拥有电视机825户,乙地拥有电视机为760户,求置信度为0.95两地电视机拥有成数差的置信区间。,带入区间估计公式,所以,置信度为0.95的两地拥有电视机成数差区间估计为:0.03,0.1,数据类型,双样本,单样本,单样本? 双样本?,定类(参数P),单样本? 双样本?,定距(参数 ),单样本,双样本,样本容量,估计P值,样本容量,样本容量,样本容量,估计P1-P2值,估计值,估计1- 2 值,区间估计总结,n是否为大样本,是否已知,是否正态总体,是否已知,用S 估计,用S 估计

26、,增大样本容量到30以上,推断方法的选择总结(以均值为例),五、积矩相关系数r(见课本114-115),根据统计学家的推算,用下面的公式把r值转化为Z值,才会得到正态分布(注意:Z不同于Z),例:如果在随机样本中发现X与Y的积矩相关系数值是r=0.602,而样本的大小是N=150,则在总体中的相关系数值是多少?(置信度为95%),则:,Z的区间估计值为Z-e,Z+e=0.6963-0.1617,0.6963+0.1617 =0.5346,0.8580,查表附4 r的区间估计为:0.489R0.695,样本容量,调查误差,调查费用,小样本容量节省费用但调查误差大,大样本容量调查精度高但费用较大,

27、找出在规定误差范围内的最小样本容量,找出在限定费用范围内的最大样本容量,确定样本容量的意义,确定样本容量的准则,在能够付出的研究代价的限度内,选取最大的样本。 此外,尚有两个准则可供参考: 1.允许误差为多大?允许的误差愈小,要求样本愈大。 2.研究个案之间的相互差异有多大?如果研究的个案之间的差异愈大,则样本就要愈大。,一、均值估计必要抽样数目的确定,2不重复抽样,通常的做法是先确定置信度,然后确定抽样允许误差。, 或 S 必须事先知道,但通常未知。一般按以下方法确定其估计值: a 以前类似样本的S; b 试验调查样本的S; c 四分之一估计全距。,计算结果通常向上进位,估计均值时的样本容量

28、(以重复抽样为例),E,E,例:某地硕士研究生毕业第一年年薪的标准差大约为2000元人民币。如果以95%的置信度估计其平均年薪,并且希望抽样允许误差分别不超过500元和100元,样本容量应为多少?,二、成数必要抽样数目,2.不重复抽样,通常的做法是先确定置信度,然后确定抽样允许误差。,P 或 p 必须事先知道,但通常未知。一般按以下方法确定其估计值: a 以前类似样本的p; b 试验调查样本的p ; c 取p=0.5。,计算结果通常向上进位,估计成数时的样本容量(以重复抽样为例),某网站一个由400名使用者组成的样本表明,该网站的使用者中26的使用者为女性。在95的置信度下,若希望将抽样极限误

29、差控制在3,则样本容量应当为:,估计成数时的样本容量计算,例:调查一批机械零件的合格比率,依据过去资料,合格率曾有过99%,97%和95%三种情况 ,现要求允许误差不超过1%,要求推行把握程度为95%,问需抽查多少零件?,作业,1.某学校准备采用抽样调查了解学生平均每周用于文体活动的时间。置信度为99%,允许误差要求控制在1(小时)之内,求所需的样本容量?(已知=5小时) 2.根据居民区100户的抽样调查,居民用于食品费用占总收入的比例,平均为75%,比例的标准误差为20%。求食品费用占居民总收入比例的区间估计(置信度为95%)。,3.根据某大学100名学生的调查,每月平均用于购买书籍的费用为

30、4.5元,标准差为5元,求大学生每月用于购买书籍费用的区间估计(置信度为99%)。 4.电视台为了解戏曲节目的收看率,拟进行一次抽样调查。根据50户的试调查,收看率为68%。现要求抽样调查的结果,误差不超过5%,置信度为0.95,求所需的样本容量?,一、什么是假设检验,所谓假设检验,就是先成立一个关于总体情况的假设,然后抽取一个随机样本,以样本的统计值来验证对总体的假设。 假设检验的意义:由于我们难以完全知道所关心的总体的数量特征与变化情况,因此常常需要对其进行假设,而假设是否成立,需要进行检验。,假设在社会科学中可以用于不同的层次。最高层次是理论假设,而理论层次的假设一般是无法加以直接验证的

31、。为了能从理论上证实这些假设,必须概念操作化,把理论假设转变为可操作的经验性假设。再通过社会调查证明原有的假设是否合理。 如果收集资料的范围仅是总体的一部分,是一个样本(随机样本),那么这种和抽样手段联系在一起、并且依靠抽样数据进行验证的假设,就称作统计假设。也就是说,如果不采用抽样技术的话,也就不存在统计假设。 例:根据以往资料,某地女青年的平均初婚年龄=20岁,但根据100名女青年的随机抽样调查,x=21岁,问能否认为该地女青年的初婚年龄比以往已有所推迟?,假设检验与参数估计,假设检验与参数估计是不同的。 假设检验与参数估计有着不可分割的联系。参数区间估计可以转化为假设检验,假设检验也可以

32、转化为参数区间估计。 假设检验可以看作区间估计中置信区间的另一种表达方式:即可以用区间估计的技术来处理假设检验问题。,二、假设检验的基本原理,在大量观察中频频出现的事件具有较大的概率,出现次数较小的事件,具有小的概率。 在日常生活中,人们习惯于把概率很小的事件,当作在一次观察中是不可能出现的事件,这个原理称作小概率原理。 举例说,我们几乎每天从电视、报纸、甚至街头广告牌上都能看到交通事故的统计,但人们绝不因此而放弃交通工具的使用 ,可见,在日常生活中,人们是在不自觉运用小概率原理。 统计假设检验的基本原理是小概率原理。,小概率原理可以归纳为两个方面: 可以认为小概率事件在一次观察中是不可能出现

33、的。 如果在一次观察中出现了小概率事件,那么,合理的想法是否定原有事件具有小概率的说法(或称假设)。,假设检验的思想可以描述如下: 经过抽样获得一组数据,即一个来自总体的样本;如果根据样本计算的某个统计量(或几个统计量)表明在原假设HO成立的条件下几乎是不可能发生的,就拒绝或否定这个原假设,并继而接受它的对立面研究假设,反之,如果在原假设HO成立的条件下,根据样本所计算的某个统计量,发生的可能性不是很小的话,那么就接受原假设。 即直接检验H0,间接检验H1。,小概率 原理:,如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次

34、试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。,总 体 (某种假设),抽样,样 本 (观察结果),检验,(接受),(拒绝),小概率事件 未 发 生,小概率事件 发 生,三、假设检验的基本形式,假设一般包括两部分:虚无假设HO和研究假设H1。 虚无假设HO:又称原假设、零假设;是一种无差别假设,是一种已有的,具有稳定性的经验看法,没有充分根据,是不会被轻易否定的。 研究假设H1:又称备择假设;是研究者所需证实的假设。,虚无假设HO如前面所举女青年初婚年龄=20。原假设在研究中是稳定、受到保护的,但另一方面也并不表示永远不会被否定,否则也就失去其研究意义。当经过抽样调查,当实际数据

35、否定了原有假设H0时,就产生了需要接受其逻辑的研究假设。 以:H0=20岁为例,当=20被否定后,可采用的研究假设有:20,20;H0:=20,H1:20;H0:=20,H1:20。其中和称作单边检验,称作双边检验。,H0虚无假设, H1研究假设,两端检验:H0:=0,H1:0,一端检验:H0:0,H1:0 H0:0,H1:0,假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。,假设检验的基本形式,显著性水平,显著性水平,一般是指在原假设成立条件下,统计检验中所规定的小概率的标准,即规定小概率的数量界线,常用的标准有=0.10,=0.05或=0.

36、01(即否定域或拒绝域在整个抽样分布中所占的比例)。,临界值、接受域和拒绝域,当统计量确定后,根据原假设H0成立的条件,可以画出统计量的分布。不妨设被确定的统计量满足Z(正态)分布,来研究如何确定临界值,接受域和拒绝域。,是临界值,|Z| 的概率为小概率。,根据统计检验的小概率原理,如果抽样所获数据(样本)计算的统计量值ZS大于Z,Zs ,则应拒绝原假设H0;反之,如果抽样所获数据(样本)计算统计量ZS小于 ,则应接受H0。因此,以| |临界值,- , 称为接受域,-Z/2,Z/2的左右边称作拒绝域。,两端检验,又称双边检验,双尾检验。 当我们关心的是是否存在差异,而不问差异的方向时,用两端检

37、验。 两端检验的假设形式如下: H0:=0 H1:0,一端检验,又称单边检验,单尾检验。 如果我们关心的是不仅存在差异,而且还有差异的方向,就要选用一端检验。 一端检验可分作右端检验和左端检验: H0:0,H1:0(左端检验) H0:0,H1:0(右端检验),右端检验与左端检验,右端检验:临界值和显著性水平有如下的关系式: P(ZZ)= 左端检验:临界值和显著性水平有如下关系式: P(Z-Z)= 注意:相同的情况下,一端检验比二端检验功效高些,也就是说二端检验更难否定研究假设。,否定域,否定域,Z,-Z,接受域,接受域,确定检验规则,检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝H0;反之,差异不显著,接受H0。,差异,临界点,拒绝H0,接受H0,c,c,判断,两类错误,接受或拒绝H0,都可能犯错误,I类错误弃真错误, 发生 的概率为,II类错误纳伪错误,发生 的概率为,检验决策 H0为真 H0非真,拒绝H0 犯I类错误() 正确,接受H0 犯II类错误() 正确,怎样确定c?,四、假设检验的检验规则,甲种误差,甲种误差,又称第一类错误。 所谓甲种误差,是指H0为真,但小概率事件发生了,拒绝了H0,即把真的当成了假的,它是在拒绝了原假设时出现的错误。 犯

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论