第14章样本容量的确定_第1页
第14章样本容量的确定_第2页
第14章样本容量的确定_第3页
第14章样本容量的确定_第4页
第14章样本容量的确定_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、v 1.1.概率抽样中样本容量的确定概率抽样中样本容量的确定n样本容量样本容量n含义:样本容量又称含义:样本容量又称“样本数样本数”。指一个样本的必。指一个样本的必要抽样单位数目。要抽样单位数目。n在组织抽样调查时在组织抽样调查时, ,抽样误差的大小直接影响样本指标代表抽样误差的大小直接影响样本指标代表性的大小性的大小, ,而必要的样本单位数目是保证抽样误差不超过某一而必要的样本单位数目是保证抽样误差不超过某一给定范围的重要因素之一。因此给定范围的重要因素之一。因此, ,在抽样设计时在抽样设计时, ,必须决定样必须决定样本单位数目本单位数目, ,因为适当的样本单位数目是保证样本指标具有充因为适

2、当的样本单位数目是保证样本指标具有充分代表性的基本前提。分代表性的基本前提。n1.1.可支配预算可支配预算n例如:例如:一个品牌经理如果有一个品牌经理如果有4000040000美元预算可用于某项美元预算可用于某项市场研究,那么除去其他项目成本(如调查方案和问卷的市场研究,那么除去其他项目成本(如调查方案和问卷的设计数据的处理分析等)后,余下的那部分预算才决定着设计数据的处理分析等)后,余下的那部分预算才决定着被调查的样本容量的大小。如果可支配资金太少,可以确被调查的样本容量的大小。如果可支配资金太少,可以确定的样本量太小,管理者就必须做出决策是补充更多的资定的样本量太小,管理者就必须做出决策是

3、补充更多的资金还是放弃这一项目。金还是放弃这一项目。n2.经验法则经验法则n “一种强烈的感觉”,认为某一特定的样本容量是必要的或合适的。n 以“经验性”为幌子,认为样本容量应该是“为保证精度,一般至少应该是总体的5%”n 例如关于鞋子的调查:1万名铁人三项运动员;耐克对“飞人乔丹”进行调查,200万名潜在的篮球鞋购买者n 简单易行,但不是一种高效率、经济的方法,经验法则方法忽略了抽样的精确度问题。n3.拟分析的“子群数”n 子群数:总体样本的各个子群体的数目n 在其他条件相同的情况下,所要分析的子群数目越大,所需的总样本容量也就越大,一般认为样本量要足够大,以便每个子群的容量至少为100 而

4、每个次子群的容量至少也有20-50。 n 例如:从整体上看样本容量为400很符合要求,但若要分别分析男性和女性被调查者,并且要求男性与女性的样本各占一半,那么每个子群的容量仅为 200 。这个数字是否符合要求,能使分析人员对两组的特征做出预期的统计推断吗?再如,要按年龄和性别分析调研结果,问题就变得更复杂了。假设要按以下方式将总体样本划分为四组:n 35岁以下男性n 35岁以上男性n 35岁以下女性n 35岁以上女性n 如果预计每组约占样本的25%,那么子群容量仅有100。随着样本容量的缩小,抽样误差增加,会出现这样一个问题,那就是调研人员很难辨别依据现象所得到的两组间的差别是真正意义上的差别

5、还是由于抽样误差引起的差别。n 4.4.传统的统计方法传统的统计方法n 总体标准差的估计值总体标准差的估计值n 抽样的允许误差范围抽样的允许误差范围n 抽样结果在实际总体值的特定范围(抽样结果抽样结果在实际总体值的特定范围(抽样结果+(-)抽样误差)内的置信水平)抽样误差)内的置信水平u正态分布重要的原因正态分布重要的原因u许多变量的概率分布趋于正态分布。爱吃快餐的人平许多变量的概率分布趋于正态分布。爱吃快餐的人平均每月吃快餐的次数,每星期看电视的小时数,男性均每月吃快餐的次数,每星期看电视的小时数,男性身高的分布等。身高的分布等。u中心极限定理中心极限定理对于任何总体,不论其分布如何,对于任

6、何总体,不论其分布如何,随着样本容量的增加,抽样平均数的分布趋近于正态随着样本容量的增加,抽样平均数的分布趋近于正态分布分布v 2.2.正态分布正态分布如果多数回答都接近于同一个数字,而且大多数的回答者都集中在某一小范围内,则差异性小;反之,则差异性就大 差异性 差异性的基本概念就是指回答的相似程度。差异性小意味着回答相当相似,差异性大表示回答很不相似。 如果答案曲线图显示十分集中或呈“尖峰”状态,则差异性小。如果曲线图显示受访者在各种可能的答案选项间平均分布,则差异性大。 测量差异性的指标标准差1ixxn n2i=1(- )标 准 差 =将两个样本的标准差进行比较,以判定相关的差异性。 比较

7、两个图形,可以得出结论: 在1955年汽车拥有者的驾驶里程较少(平均),而且差异性也不大(标淮差),但现在的车主们年平均驾驶里程较多,差异性也较大。 正态分布的特征(根据以上图形)正态分布呈钟形且只有一个众数关于均值对称,集中趋势的三个衡量标准(平均数、众数、中位数)相等一个正态分布的特殊性由其均值和标准差决定1. 正态曲线下方的面积等于1,它包括了所有观测值5正态曲线下方任意两个变量值之间的面积,等于在这一范围内随机抽取一个观察对象的概率6在均值的给定比例标准差范围内的概率为固定值。即所有的正态分布在平均数+-1个标准差之间的面积相同,都占曲线下方面积的68.26%,或者说占全部调查总体结果

8、的68.26%。这叫正态分布的比例性。xxfx,e21)(22212f(x) = 随机变量 X 的频数 = 正态随机变量X的均值 = 正态随机变量X的方差 = 3.1415926; e = 2.71828x = 随机变量的取值 (- x )正态分布2( ,)xN 标准正态分布 任何正态分布都可以转化为标准正态分布 均值等于0 标准差等于1u正态分布的任一变量值正态分布的任一变量值X通过一个简单的转化公通过一个简单的转化公式就能变成相应的标准正态分布中的式就能变成相应的标准正态分布中的Z值值变量标准差变量平均值变量值-Z-XZ u总体分布:是总体中全部单位的频率分布,总体分布:是总体中全部单位的

9、频率分布,这一频率分布的平均数,通常用希腊字母这一频率分布的平均数,通常用希腊字母表示,标准差用希腊字母表示,标准差用希腊字母表示表示u样本分布:是单个样本中所有单位的频率样本分布:是单个样本中所有单位的频率分布,样本分布的平均数常用分布,样本分布的平均数常用 表示,标表示,标准差用准差用S表示表示_Xv 3.3.总体分布、样本分布总体分布、样本分布u样本平均数的抽样分布:样本平均数的抽样分布:是指从一个总体是指从一个总体中抽取一定数量的样本,由样本平均数构成的中抽取一定数量的样本,由样本平均数构成的概率分布。概率分布。u首先,要从特定的总体中抽取一定的样本,计算各样首先,要从特定的总体中抽取

10、一定的样本,计算各样本的平均数,并排列出频率分布本的平均数,并排列出频率分布u每个样本由样本单位数不同的子集构成,因此,样本每个样本由样本单位数不同的子集构成,因此,样本平均数不会完全相同平均数不会完全相同v 4.4.抽样分布抽样分布 如果样本是随机的且容量足够大,则样本均值的分布近似于正态分布 理论基础是中心极限定理:随着样本容量的增加,从任一总体中抽取的大量随机样本平均数的分布接近服从正态分布。 其均值为 ,且标准差等于: n为样本容量, 为总体的标准差xSn2( ,)xNn 平均数的标准误差:平均数的标准误差:实际总体值与所预期的典实际总体值与所预期的典型样本结果的差距。型样本结果的差距

11、。 平均数标准误差,即平均数标准误差,即样本均值的标准差样本均值的标准差(抽样误抽样误差)。差)。 由于总体标准差是未知的,一般由样本标准差s代替。 例如:驾驶里程调查中,样本容量n是100名驾驶者,标准差是3000公里,则平均数标准误差=300。211()nNCxiniNSxXCnu基本概念基本概念u一位调查人员以在最近一位调查人员以在最近3030天内至少吃过一次快餐天内至少吃过一次快餐的所有顾客为总体,从中抽取了的所有顾客为总体,从中抽取了1000 1000 组容量为组容量为200200的简单随机样本,调查目的是要估计平均一个的简单随机样本,调查目的是要估计平均一个月内,这些人吃快餐的平均

12、次数,计算出每一组月内,这些人吃快餐的平均次数,计算出每一组的平均数,按相关值确定区间,整理后便得到表的平均数,按相关值确定区间,整理后便得到表中的频率分布图,中的频率分布图, 而图以直方图的形式表示这些而图以直方图的形式表示这些频率,直方图上方还可见到一条正态曲线,直方频率,直方图上方还可见到一条正态曲线,直方图十分接近正态曲线的形状,如果选取足够的容图十分接近正态曲线的形状,如果选取足够的容量为量为200200的样本,计算每组的平均数,整理排列后的样本,计算每组的平均数,整理排列后所得的分布就是正态分布。图正态曲线就是这项所得的分布就是正态分布。图正态曲线就是这项调查中平均数的抽样分布调查

13、中平均数的抽样分布 平均数的实际抽样分布 u 大样本平均数的抽样分布有以下特征:大样本平均数的抽样分布有以下特征:u 是正态分布是正态分布 u 分布的平均数等于总体平均数分布的平均数等于总体平均数u 分布有标准差,称为平均数的标准误差,分布有标准差,称为平均数的标准误差,它等于总体标准差除以样本容量的平方它等于总体标准差除以样本容量的平方根根 :u 根据单个样本做出推断根据单个样本做出推断u通过任一简单的随机样本对总体均数进行的估计,其估计值在总体平均值 1个标准误差内的概率究竟为多大?根据表14-1可知,概率为 68%,因为所有样本平均数有 68%都在此范围内, 而通过简单随机样本对总体做的

14、估计为实际总体平均值 2 倍标准误差范围内的概率为 95%,在实际总体平均值 3 倍标准误差范围内的概率为 99.7 。点估计和区间估计点估计和区间估计点估计:把样本平均值作为总体平均数的估计值没有给出估计值接近总体参数程度的信息,没有给出可信程度区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差 而得到的根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在7585之间,置信水平是95% nxv 置信区间与置信水平v 在给定置信度下,总体参数可能落入的区域的大小是置信区间;而置信度则是置信区间包含总体参数的概

15、率。v 平均数的区间估计:从总体中抽出一定量的随机样本,计算出样本平均数,可知这个样本平均数存在于所有样本平均数的抽样分布中,但是确切位置不知道。这个样本平均数在实际总体平均值+-一个标准误差范围内的概率是68.26%。所以实际值减去或加上1个标准误差的置信度为68.26%。即:XXX11X比例的抽样分布比例的抽样分布 特征:近似于正态分布特征:近似于正态分布 所有比率抽样的平均值等于总体比率所有比率抽样的平均值等于总体比率 比率抽样分布的标准误差计算公式:比率抽样分布的标准误差计算公式: Sp表示抽样比率分布的标准误差,表示抽样比率分布的标准误差,p表示总体比率的估表示总体比率的估计值,计值

16、,n表示样本单位数表示样本单位数v 例如:例如:如果需要估计一下最近如果需要估计一下最近90天内曾在网上购天内曾在网上购物的所有成年人的百分比,那么就想要得到平均数物的所有成年人的百分比,那么就想要得到平均数的抽样分布一样,要从成年人总体中选出的抽样分布一样,要从成年人总体中选出1000组容组容量为量为200的随机样本,计算出的随机样本,计算出1000组样本中所有在组样本中所有在最近最近90天内曾在网上购物的人数的比率,这些值排天内曾在网上购物的人数的比率,这些值排列将形成一个趋近于正态分布的频率分布。列将形成一个趋近于正态分布的频率分布。n 平均值问题(在单个参数、已知均值的情境下,平均值问题(在单个参数、已知均值的情境下,确定样本容量)确定样本容量)n 在确定了理想的置信区间后,接下来根据均值的标准在确定了理想的置信区间后,接下来根据均值的标准化公式来确定样本容量:化公式来确定样本容量:n 得到样本容量公式:得到样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论