




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十二章抽样估计和样本量的确定抽样估计的基本思想市场调查的目的是通过样本数据来估计总体参数从而估计总体特征。例如,如果我们想知道人口的平均值,我们可以用样本的平均值来估计它。用样本均值代替总体均值是点估计。然而,尽管点估计的计算很简单,但它只在极少数情况下是完全正确的,所以人们更喜欢区间估计。所谓的区间估计是为了推断总值落入某个范围内的可能性。例:道路和工作日总日流量的估计值为771356,95%概率保证下的区间估计值为726235 816478;非工作日流动总人数估计值为712,113人,区间估计值为652,891 771,335人,95%概率保证。要实现对总体的估计,必须知道一些基本信息,
2、包括总体的标准差、置信水平、抽样分布等。接下来,我们以总体均值的估计为研究对象,对这些基础知识进行了简要的回顾。1.正态分布重要的统计分布正态分布是相对于其平均值对称的钟形连续分布。正态分布的统计特征如下:1 .只有一种模式。2.相对于平均值的对称性。3.正态分布是由其均值和标准差唯一决定的。4.正态分布曲线下的总面积等于1,正态分布曲线下任意两个变量值之间的面积等于观察值位于这两个变量值之间的概率。5.任何正态分布都可以通过简单的变换转化为标准正态分布。转换公式为、正态分布具有良好的统计性质。如果一个变量符合正态分布,它可以很容易地被估计。例如,标准正态分布用于区间估计:假设待估计的总体参数
3、为,并且假设样本的平均值符合标准正态分布,则、正态分布在统计推断中起着特别重要的作用。原因如下:1 .许多变量的概率分布接近正态分布,例如消费者消费软饮料的数量,以及喜欢快餐的人每个月去快餐店的平均次数。2.正态分布在理论上很重要。根据中心极限定理,无论任何总体的分布是什么,随着样本量的增加,样本的平均值接近正态分布。人口分布、样本分布和抽样分布。人口分布是人口中所有单位的频率分布。人口分布有多种形式,但通常不为人知。总体分布的平均值用表示,总体分布的标准差用表示。样本分布是单个样本的所有单位的频率分布。样本的分布是已知的。样本的平均值用表示,标准差用s表示。样本平均值的抽样分布是从特定人群中
4、抽取的给定容量的所有可能样本的平均值的概率分布。总体分布和样本分布可能不是正态分布,但根据中心极限定理,样本均值的抽样分布必须是正态分布。对于正态分布,管是曲线的位置,管是曲线的粗细。不同样本大小确定的样本平均值的抽样分布是不同的,因此大样本平均值的抽样分布更“集中”,对于指定的置信区间误差较小;另一方面,如果确定了误差,则大样本平均值的置信度更高。计算总体均值的区间估计就是得到样本均值分布的和,然后根据置信水平确定置信区间,再根据点估计确定区间估计。示例:从500人的人口中,通过简单的随机抽样选择10人的样本,每个抽样单位的年龄如下表所示。计算s计算点的估计值:=(21 26 47)/10=
5、34.4 2。计算抽样方差的估计值:计算每个人的年龄与其平均值之间的差异;计算偏差的平方;将离差的平方和除以样本量减1作为总体方差的估计值(64.27);抽样方差的估计值(6.4)是用样本量的总体方差的估计值获得的。3.标准偏差是抽样方差的平方根(2.5)。4.95%置信度下的误差极限为1.96*2.5=4.9 5。置信区间为(34.4-4.9,34.4-4.9),即(29.5,39.3)。在确定概率抽样样本量的过程中,样本量的确定涉及金融、统计和统计学。在其他条件相同的情况下,样本量越大,抽样误差越小。但是样本越大,花费的钱就越多。此外,尽管采样成本随着样本量的增加而线性增加(样本量增加一倍
6、,成本也增加一倍),但是采样误差仅在等于相应样本量增加的平方根的速度下减小。换句话说,如果样本量增加到4倍,数据收集成本也会增加到4倍,但采样误差只会减少1/2。最后,样本量的确定还必须考虑管理问题:估计精度(抽样误差)有多高?样本量、调查误差、调查成本,小样本量节约成本但调查误差大,大样本量调查精度高但成本高,在规定的误差范围内找出最小样本量,确定样本量的显著性,并在有限的成本范围内找出最大样本量。确定样本量的方法:根据经验、传统统计方法、影响样本量的因素,在可支配预算中要分析的子群数量,1。错误限制2。总体变化度3。总体规模(如果样本规模占总规模的比例很小,那么影响也很小)4。抽样设计5。
7、调查答复率,给定平均精度,计算简单随机抽样的样本量,总体方差的计算公式是:对于简单随机样本,S2是无偏的。对于简单随机抽样,可以证明样本均值的抽样方差公式为:当总体方差未知时,可以用下面的公式来估计:设e为误差,其中z取决于置信水平,可以从上面的公式中求解:在正常情况下,总体规模比较大,所以上面的计算公式可以简化为:如果不使用简单随机抽样,可以通过设计来计算;如果响应率小于100%,响应率也可以调整。给定估计率的精度,计算简单随机抽样的样本量。对于二元指数总体,其总体方差的估计与给定的均值相同,样本量的计算公式为:如果总体N较大,则计算公式可简化为:当P=0.5时,很容易观察到总体方差有一个最
8、大值。因此,在计算样本量时,如果总体方差未知,可以基于统计稳健性来计算保守样本量。一个杂志出版商想得到读者对杂志的综合满意度的估计。通过邮件调查,出版商可以联系所有2500个订户,但由于时间限制,出版商决定使用简单的随机抽样进行电话调查。出版商希望实际总体比例在总体比例样本估计值的正负0.1以内;预计估计值的置信度为0.95;预期回复率为65%。然后:请计算样本量。分析:因为事先没有估计顾客满意的比例,为了留有余地,拜访应该取最大值,即P=0.5。计算的样本大小为n1=92。因为采用简单随机抽样,所以不需要调整答案就可以得到n=92/0.65=142。确定样本量的“信息值”法和置信区间法是计算样本量的传统统计方法。这种方法在市场研究中有明显的缺点:它不能区分公司拿自己的未来去冒险的研究和只花少量钱的研究,不能区分新产品的研究和老产品的研究,也不能区分每次观察花费200美元的项目和以后的项目计算中不包括研究成本和决策价值等因素。信息价值的方式是面向决策的,与“问题解决”研究相结合是最合适的。为什么信息是有价值的,信息的价值在于它能使管理者做出更正确的决策,从而提高公司的整体利润。信息价值的相关因
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论