第14章样本容量的确定.ppt_第1页
第14章样本容量的确定.ppt_第2页
第14章样本容量的确定.ppt_第3页
第14章样本容量的确定.ppt_第4页
第14章样本容量的确定.ppt_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第14章样本量的确定,14.1概率抽样中的样本量14.2正态分布14.3一般分布,样本分布14.4抽样分布14.5样本量的确定14.6统计功效,学习目标1。学习财务和统计知识以确定样本量。确定样本量的方法3。熟悉正态分布。了解人口、样本和样本群。区分点估计和区间估计。找出取样方法和比例中的问题。确定概率抽样的样本量。样本量的意思是:样本量也叫“样本数”。指样品所需的取样单位数。组织抽样调查时,抽样误差直接影响抽样指标的代表性,而必要的抽样单位数量是保证抽样误差不超过给定范围的重要因素之一。因此,在抽样设计中,必须确定样本单位的数量,因为适当的样本单位数量是保证样本指标具有充分代表性的基本前提。

2、1.可支配预算例如,如果一个品牌经理的预算为40,000美元,可用于某项市场调查,则只有在除去其他项目成本(如调查方案的处理和分析以及问卷的设计数据等)后,剩余的预算才能决定待调查样本的规模。)。如果可支配资金太少,样本量太小,管理者必须决定是补充更多资金还是放弃项目。经验法则“强烈的感觉”,即特定的样本量是必要的或适当的。在“经验”的幌子下,认为样本量应该是“为了保证准确性,它应该至少占总数的5%。”例如,鞋类调查:10,000名铁人三项运动员;耐克公司对“飞人乔丹”进行了一项调查,发现200万潜在的篮球鞋购买者是简单可行的,但这并不是一个有效和经济的方法,经验法则法忽略了抽样的准确性。3。

3、“子组号”待分析的子组号:总样本的每个子组号。在其他条件相同的情况下,待分析的子组号越多,所需的总样本容量就越大。一般认为,样本量应该足够大,使得每个子组的容量至少为100,每个子组的容量至少为20-50。例如,总体而言,400个样本的规模符合要求,但如果我们要分别分析男性和女性受访者,并要求男性和女性样本各占一半,那么每个分组的容量只有200个。这个数字是否满足要求,并使分析师能够对这两个群体的特征做出预期的统计推断?另一个例子,按年龄和性别分析调查结果,问题变得更加复杂。假设整个样本应分为如下四组:35岁以下的男性、35岁以上的男性、35岁以下的女性和35岁以上的女性。如果每组约占样本的2

4、5%,则子组容量仅为100。随着样本量的减少和采样误差的增加,将会出现一个问题,即研究者很难区分两组基于现象的差异是真实的差异还是由采样误差引起的差异。4。传统统计方法:总体标准差估计值抽样的允许误差范围;采样结果在实际总值特定范围内的置信水平(采样结果(-)采样误差);正态分布重要的原因;许多变量的概率分布趋于正态分布。快餐食客每月吃快餐的次数、每周看电视的时间以及男性身高的分布。中心极限定理适用于任何总体,无论其分布如何,随着样本量的增加,抽样平均值的分布趋于正态分布。2.正态分布,如果大部分答案都接近相同的数字,并且大部分被调查者都集中在一个很小的范围内,差异就很小;相反,差别很大,差别

5、的基本概念是答案的相似性。小差异意味着答案非常相似,而大差异意味着答案非常不同。如果答案图表显示了一个非常集中或“峰值”的状态,差别很小。如果图表显示受访者平均分布在不同人群中测量差异指数的标准差,并比较两个样本的标准差来判断相关差异。将这两个数字进行比较,可以得出这样的结论:1955年,车主的平均行驶里程较少,差异不大,但现在车主的平均行驶里程更多,差异更大。正态分布的特征(根据上图)正态分布是钟形的,只有一种模式关于平均值对称。集中趋势的三个度量(平均值、模式和中位数)是相等的。正态分布的特殊性是由其均值和标准差决定的。正常曲线下的面积等于1,包括所有观察值。5法线曲线下任意两个变量值之间

6、的面积等于在此范围内随机选择一个观察对象的概率。6是平均值的给定比例。也就是说,所有正态分布在平均值和一个标准偏差之间有相同的面积,这占曲线下面积的68.26%,或整个调查结果的68.26%。这叫做正态分布的比例。f(x)=随机变量的频率x=正态随机变量的平均值x=正态随机变量的方差x=3.1415926E=2.71828 x=随机变量的值(-x),正态分布,标准正态分布任何正态分布都可以转换成平均值等于0,标准差等于1的标准正态分布。正态分布的任何变量值x都可以通过一个简单的转换公式转化为标准正态分布中相应的Z值,其中x是变量值、平均值和变量的标准差。总体分布:指人口中所有单位的频率分布。这

7、种频率分布的平均值通常用希腊字母表示,标准差用希腊字母表示。它是单个样本中所有单位的频率分布。样本分布的平均值通常用S. 3表示,标准差用s . 3表示。总体分布、样本分布、样本平均值的样本分布:指由样本平均值组成的概率分布。首先,我们需要从特定人群中提取特定样本,计算样本的平均数量,并列列出频率分布。每个样本由具有不同样本单元的子集组成,因此样本的平均数量不会完全相同。4.抽样分布,如果样本是随机的并且容量足够大,样本均值的分布类似于正态分布。理论基础是中心极限定理:随着样本容量的增加,来自任意总体的大量随机样本的平均数分布接近正态分布。平均值为,标准偏差等于: n,即样本容量、总体标准偏差

8、和平均值的标准误差:实际总体值和预期典型样本结果之间的差异。平均标准误差,即样本平均值的标准偏差(抽样误差)。因为总体标准偏差未知,所以通常用样本的标准偏差代替。例如,在行驶里程调查中,如果样本量n为100名驾驶员,标准偏差为3000公里,平均标准误差=300。基本概念一名调查人员将过去30天内至少吃过一次快餐的所有顾客作为一个整体,抽取了1000组容量为200的简单随机样本。调查的目的是估计这些人平均一个月内吃快餐的平均次数,计算每组的平均次数,根据相关值确定间隔时间,整理后得到表中的频率分布图,该图以直方图的形式表示这些频率。直方图上方还可以看到一条正常曲线,它非常接近正常曲线的形状。如果

9、选择了足够的容量为200的样本,并计算每组的平均值,则排列后得到的分布为正态分布。图中的正态曲线是本次调查中平均值的抽样分布,实际抽样分布是平均值,而大样本平均值的抽样分布具有以下特征:正态分布的平均值等于总体平均分布的标准差,这称为平均值的标准误差,等于总体标准差除以样本容量的平方根: 根据单个样本,通过任何简单的随机样本进行推断并估计总体平均值,估计值在总体平均值的一个标准误差范围内的概率是多少? 根据表14-1,概率为68%,因为所有样本平均值的68%在此范围内,而通过简单随机样本估计总体的概率在实际总体平均值两倍的标准误差范围内为95%,在实际总体平均值三倍的标准误差范围内为99.7%

10、。点估计和区间估计点估计:将样本平均值作为总体平均值的估计值并不能给出估计值接近总体参数的信息,也不能给出置信水平。区间估计:在点估计的基础上,给出总体参数估计的区间范围。基于样本统计的抽样分布是通过从样本统计中添加和减去抽样误差而获得的,它可以给出样本统计和总体参数之间的接近度的概率度量。例如,一个班级的平均分数在7585分之间,置信度为95%。给出了置信区间和置信水平,总体参数可能下降的区域大小为置信区间;置信水平是置信区间包含总体参数的概率。平均值的区间估计:从总体中抽取一定数量的随机样本,计算样本平均值。可以知道,这个样本平均值存在于所有样本平均值的样本分布中,但是确切的位置是未知的。样本平均值在实际总体平均值的标准误差范围内的概率为68.26%。因此,实际值减去或加上一个标准误差的置信度为68.26%。即比例的抽样分布特征:近似正态分布,所有比例样本的平均值等于总体比例抽样分布的标准误差计算公式:Sp代表抽样比例分布的标准误差,P代表总体比例的估计值,N代表样本单位数。例如,如果你需要估计所有成年人在过去90天内网上购物的百分比,你希望得到相同的平均抽样分布。有必要从成年人口中随机选择1000组容量为200的样本,并计算在过去90天

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论