版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1营销调研Marketing Research2第二章第二章 抽样调查抽样调查3小案例小案例 下表是某学院教师所生子女的性别分布情况,下表是某学院教师所生子女的性别分布情况,请问男、女教师子女的性别构成有何差异?请问男、女教师子女的性别构成有何差异? - 子女性别子女性别 父母性别父母性别 - 男男 女女 合计合计 性别比性别比 - 男男 8 4 12 2.00 女女 4 6 10 0.33 合计合计 12 10 22 1.20 -4第一节第一节 抽样调查概述抽样调查概述一、抽样调查的基本概念一、抽样调查的基本概念抽样抽样(sampling):是根据一定的规则和程序,从研究是根据一定的规则和程
2、序,从研究总体中抽取其中的一部分样本的过程。总体中抽取其中的一部分样本的过程。原因在于原因在于(1)研究成本和总体大小)研究成本和总体大小(2)普查工作量较大,而且并非必要)普查工作量较大,而且并非必要抽样调查:抽样调查:抽样调查是从研究对象的整体中选出一部抽样调查是从研究对象的整体中选出一部分代表加以调查研究,然后用得出的结论推断和说明分代表加以调查研究,然后用得出的结论推断和说明总体的特性。总体的特性。51、总体、总体 (N) 总体总体(population)是为研究计划的目的所是为研究计划的目的所规定的研究对象全体。规定的研究对象全体。目标总体目标总体(target population
3、)是按照内容、范围是按照内容、范围和时间三重标准定义的全部个体的集合。和时间三重标准定义的全部个体的集合。 抽样总体抽样总体(sampling population)从中实际抽取样从中实际抽取样本的所有个体的集合。本的所有个体的集合。 讨论:广州地铁顾客满意度研究的目标总体与讨论:广州地铁顾客满意度研究的目标总体与抽样总体?抽样总体?62、样本、样本 (n) 能够代表总体情况的总体的子集。从总能够代表总体情况的总体的子集。从总体中抽取的部分个体所组成的小总体。体中抽取的部分个体所组成的小总体。3、抽样单元、抽样单元 研究中最基本的被调查对象。指样本抽研究中最基本的被调查对象。指样本抽取过程中的
4、单位形式。样本单位从抽样取过程中的单位形式。样本单位从抽样单位中产生。单位中产生。74、抽样框、抽样框 抽样框架抽样框架(sampling frame)用以代表总用以代表总体,并从中选样本的一个框架(清单)。体,并从中选样本的一个框架(清单)。 在编制抽样框架时常见的问题如下在编制抽样框架时常见的问题如下: 遗漏遗漏部分样本单位;遗漏遗漏部分样本单位; 聚堆缺乏个体样本单位信息;聚堆缺乏个体样本单位信息; 重复同一样本单位重复出现;重复同一样本单位重复出现; 混杂抽样框架中包括部分非样本总体成员。混杂抽样框架中包括部分非样本总体成员。 例:例:调查广州市所有的西饼店,用黄页的工商调查广州市所有
5、的西饼店,用黄页的工商业名单作抽样框业名单作抽样框8二、抽样调查的特征二、抽样调查的特征 1、经济性、经济性 2、准确性、准确性 登记性误差登记性误差 代表性误差:代表性误差:总体的异质性和样本与总体范围的总体的异质性和样本与总体范围的差异性,在用样本的统计值去推算总体的参数值时总差异性,在用样本的统计值去推算总体的参数值时总会出现误差,这种误差叫作抽样误差。会出现误差,这种误差叫作抽样误差。 决定抽样误差的因素决定抽样误差的因素 (1)抽样的方法)抽样的方法 (2)样本的大小)样本的大小 3、高效性、高效性9三、抽样调查的程序三、抽样调查的程序一)确定调查总体一)确定调查总体1、定义总体、定
6、义总体 对目标总体含糊不清的描述转化为能将目标对目标总体含糊不清的描述转化为能将目标总体从别的总体中分离出来的明确的人口统计总体从别的总体中分离出来的明确的人口统计特征或其他特征。特征或其他特征。 总体描述可以由以前的研究确定,也可以是总体描述可以由以前的研究确定,也可以是长期迎合特定市场主体需要的营销决策者的集长期迎合特定市场主体需要的营销决策者的集体智慧的结晶。体智慧的结晶。2、获得总体的名单、获得总体的名单10二)选取抽样框二)选取抽样框 抽样框误差:抽样框误差: 目录清单与目标总体的差异性。目录清单与目标总体的差异性。 调研人员应该判断抽样框潜在的误调研人员应该判断抽样框潜在的误差量。
7、差量。11三)设计和抽取样本三)设计和抽取样本 样本大小样本大小 抽样的方法抽样的方法(随机、非随机)(随机、非随机)样本容量的确定样本容量的确定关于样本容量的几个判断:关于样本容量的几个判断:1、唯一完全精确的样本是普查、唯一完全精确的样本是普查2、概率抽样总会有误差(样本误差)、概率抽样总会有误差(样本误差)3、概率抽样样本容量越大越精确、概率抽样样本容量越大越精确4、概率抽样的精确度能用公式计算,用、概率抽样的精确度能用公式计算,用+n%表示表示5、使用相同容量的样本重复抽样,在一定误差范围内,会发现比较类似的结果、使用相同容量的样本重复抽样,在一定误差范围内,会发现比较类似的结果6、概
8、率抽样中,概率抽样的精确度独立于总体的数量、概率抽样中,概率抽样的精确度独立于总体的数量7、概率抽样中的样本容量可能只占总体很小比重,但是它仍然是很精确、概率抽样中的样本容量可能只占总体很小比重,但是它仍然是很精确8、概率抽样中的样本容量取决于调研委托者要求的精确度和数据收集的成本、概率抽样中的样本容量取决于调研委托者要求的精确度和数据收集的成本12四)收集样本资料,计算样本指标四)收集样本资料,计算样本指标五)推断调查总体指标五)推断调查总体指标13第二节第二节 随机抽样随机抽样一、简单随机抽样一、简单随机抽样 (simple random sampling) 简单随机抽样简单随机抽样是最基
9、本的概率抽样是最基本的概率抽样方法。该抽样方法保证每一抽样单位都方法。该抽样方法保证每一抽样单位都有相同的非零抽中概率,并给出总体参有相同的非零抽中概率,并给出总体参数的自加权估计值。数的自加权估计值。 若总体为若总体为N,样本量为,样本量为n,则每一抽,则每一抽样单位的抽中概率:样单位的抽中概率: p = n/N14二、系统(等距)抽样二、系统(等距)抽样 系统(等距)系统(等距) 抽样抽样(systematic sampling)是确是确定一个随机起点作为第一个样本,然后每个一个恒定定一个随机起点作为第一个样本,然后每个一个恒定的间隔选出其他样本的抽样方法。的间隔选出其他样本的抽样方法。就
10、是随机抽取第一就是随机抽取第一个样本单位,然后每隔个样本单位,然后每隔k个单位抽取一个。个单位抽取一个。 系统抽样时每个样本单位抽中的概率相同,为系统抽样时每个样本单位抽中的概率相同,为1/k,通过系统抽样也可获得总体参数的自加权估计,通过系统抽样也可获得总体参数的自加权估计值。值。 系统抽样具有简单且成本较低的有点,但相对于系统抽样具有简单且成本较低的有点,但相对于简单随机抽样来说,其代表性较低,并且对抽样框的简单随机抽样来说,其代表性较低,并且对抽样框的要求较高。要求较高。 讨论:什么时候应避免采用系统抽样?讨论:什么时候应避免采用系统抽样?15三、分层抽样三、分层抽样(stratifie
11、d sampling) 分层抽样是将总体按某些重要特征分分层抽样是将总体按某些重要特征分为数个层,各层之间既不能有重复也不为数个层,各层之间既不能有重复也不能有遗漏,然后用简单随机抽样或系统能有遗漏,然后用简单随机抽样或系统抽样的办法从每层中抽取一定数量的样抽样的办法从每层中抽取一定数量的样本。本。 比例分层抽样比例分层抽样 非比例分层抽样非比例分层抽样 16非比例分层抽样非比例分层抽样 如果总体在一个或多个分类因素上如果总体在一个或多个分类因素上具有偏斜分布,调研人员将子总体称为具有偏斜分布,调研人员将子总体称为层层,然后对每一层进行随机抽样的抽样,然后对每一层进行随机抽样的抽样方法;对于方
12、法;对于偏态分布的总体偏态分布的总体,抽样时多,抽样时多采用加权方法。采用加权方法。17偏态分布总体的抽样偏态分布总体的抽样大学学位的重大学学位的重要性?要性?18讨论讨论如果某校有如果某校有1000名本科生,名本科生,200名普名普通硕士生和通硕士生和300名名MBA学生,若要比学生,若要比较不同学生之间的平均可支配收入,应较不同学生之间的平均可支配收入,应采用哪种抽样方法?其总的平均收入应采用哪种抽样方法?其总的平均收入应如何计算如何计算?19四、整群抽样四、整群抽样 整群抽样整群抽样(cluster sampling)是将总体分为不同的是将总体分为不同的群组,然后随机抽取一定数量的群组作
13、为样本。整群群组,然后随机抽取一定数量的群组作为样本。整群抽样可分为:抽样可分为: 一级整群抽样在抽中群组中抽取所有个体;一级整群抽样在抽中群组中抽取所有个体; 二级整群抽样在抽中群组中抽取部分个体。二级整群抽样在抽中群组中抽取部分个体。 多级抽样将总体分为多级群组,逐级抽样。多级抽样将总体分为多级群组,逐级抽样。 抽样框被分作同质性较高的若干群,其中一个或抽样框被分作同质性较高的若干群,其中一个或几个作为样本的抽样方法。几个作为样本的抽样方法。 区域抽样是其代表区域抽样是其代表 整群抽样对子群之间的同质性要求比较高!整群抽样对子群之间的同质性要求比较高!20第三节第三节 非随机抽样(非概率抽
14、样)非随机抽样(非概率抽样)非概率样本设计非概率样本设计(nonprobability sample design) p218 事先并不确定每个样本单位被抽中的概事先并不确定每个样本单位被抽中的概率。这种样本设计往往无法排除研究人员偏好率。这种样本设计往往无法排除研究人员偏好对抽样的影响,也无法估算样本估计值的抽样对抽样的影响,也无法估算样本估计值的抽样误差。误差。21非随机抽样的应用非随机抽样的应用该方法通常用于下列情况:该方法通常用于下列情况: 样本量规模很小时;样本量规模很小时; 探索性研究或研究的初始阶段;探索性研究或研究的初始阶段; 目标总体成员很少或很难寻找;目标总体成员很少或很难
15、寻找; 无法采用概率样本时。无法采用概率样本时。 例:百事可乐的免费品尝促销例:百事可乐的免费品尝促销22一、任意非随机抽样一、任意非随机抽样 任意非随机抽样任意非随机抽样是根据调查者的方便程度是根据调查者的方便程度任意地抽选样本的方式。也叫任意地抽选样本的方式。也叫便利抽样便利抽样,按,按照访谈员的方便程度进行抽样。照访谈员的方便程度进行抽样。 目标总体单位差异小时具有代表性目标总体单位差异小时具有代表性 适用于探索性调查适用于探索性调查23任意非随机抽样任意非随机抽样例例在入户调查中,调查员选择家中有人的住户;在入户调查中,调查员选择家中有人的住户;没有认定被调查者身份的拦截式访问;没有认
16、定被调查者身份的拦截式访问;利用客户的名单进行调查;利用客户的名单进行调查;将问卷登在宣传媒体上,被调查者自填后寄回。将问卷登在宣传媒体上,被调查者自填后寄回。特点特点方便选样方便选样样本的信息不适用于总体参数的推断。样本的信息不适用于总体参数的推断。24二、判断非随机抽样二、判断非随机抽样 根据访谈员在专业知识和经验基础上的判根据访谈员在专业知识和经验基础上的判断进行抽样。断进行抽样。 调研人员使用自己的判断或请其他有相关调研人员使用自己的判断或请其他有相关知识的人来判断那些成员应该被抽取。存在主知识的人来判断那些成员应该被抽取。存在主观性,总体中某些成员被选中的机会比另一些观性,总体中某些
17、成员被选中的机会比另一些成员少。成员少。25 调研者(通常是该领域的专家)根据调研者(通常是该领域的专家)根据主观经验和判断,从总体中选择主观经验和判断,从总体中选择“平均平均”的或认为有代表性的同时又容易取得的的或认为有代表性的同时又容易取得的个体作为样本。个体作为样本。 当当总体差异较大,而样本容量又不可总体差异较大,而样本容量又不可能大能大时,判断抽样有可能比概率抽样提时,判断抽样有可能比概率抽样提供更为准确的估计。供更为准确的估计。 判断抽样的精度主要取决于抽样者的判断抽样的精度主要取决于抽样者的经验,与样本量关系不大。经验,与样本量关系不大。 缺点是不能获得估计值的精度。缺点是不能获
18、得估计值的精度。26三、配额非随机抽样三、配额非随机抽样 为各类将要采访的个体确定一个具体的配为各类将要采访的个体确定一个具体的配额。额。 调研人员确定配额特征(例如人口统计特调研人员确定配额特征(例如人口统计特征或产品使用因素),并利用它们为每类受访征或产品使用因素),并利用它们为每类受访者确定配额。者确定配额。配额大小由调研人员认为的总体配额大小由调研人员认为的总体中每类受访者的相应数量确定。中每类受访者的相应数量确定。配额抽样通常配额抽样通常用来确保便利抽样方法能从不同种类的受访者用来确保便利抽样方法能从不同种类的受访者中抽取要求的比例。中抽取要求的比例。27配额非随机抽样配额非随机抽样
19、第一阶段第一阶段,给调查员指定不同类型的配额,给调查员指定不同类型的配额例按例按性别、年龄、职业、收入性别、年龄、职业、收入等指标确定每类中等指标确定每类中的被调查者配额。的被调查者配额。第二阶段第二阶段,调查员按方便抽样或判断抽样选取样本,调查员按方便抽样或判断抽样选取样本单位。单位。优点:优点:不用抽样框,以费用较低费用获得与总体特不用抽样框,以费用较低费用获得与总体特征分布相似的样本。征分布相似的样本。缺点:缺点:不能获得估计的精度。不能获得估计的精度。28四、滚雪球非随机抽样四、滚雪球非随机抽样 先抽取少量的样本,然后通过滚雪球的方式先抽取少量的样本,然后通过滚雪球的方式扩大。扩大。
20、应答者推荐其他有资格应答者的名单。应答者推荐其他有资格应答者的名单。 受访者要求推荐一些像他们那样符合条件的受访者要求推荐一些像他们那样符合条件的人的姓名或身份。那些不为人熟悉、人们不喜欢人的姓名或身份。那些不为人熟悉、人们不喜欢或看法与别人不一致的受访者被选中的机会较小。或看法与别人不一致的受访者被选中的机会较小。 29滚雪球非随机抽样滚雪球非随机抽样 先选择一些调查对象,访问这些调查者之先选择一些调查对象,访问这些调查者之后,再请他们提供另外一些属于所研究的目标后,再请他们提供另外一些属于所研究的目标总体的调查对象,对这些调查对象调查后,再总体的调查对象,对这些调查对象调查后,再由他们按相
21、同的要求提供新的调查对象,将这由他们按相同的要求提供新的调查对象,将这种过程不断继续下去,直到完成规定的样本容种过程不断继续下去,直到完成规定的样本容量为止。量为止。 适用于对稀少群体的调查(如私人汽车拥适用于对稀少群体的调查(如私人汽车拥有者)有者) 优点:优点:能有效地找到符合要求的被调查者。能有效地找到符合要求的被调查者。30例:某市的市民评议例:某市的市民评议某市政府为了让市民对各政府部门工作某市政府为了让市民对各政府部门工作给予评估,决定在地方报纸上刊登调查给予评估,决定在地方报纸上刊登调查表表, 然后根据寄回的调查表对各部门进行然后根据寄回的调查表对各部门进行排名。排名。 请问这种
22、做法可能带来哪些问题?请问这种做法可能带来哪些问题?31 第四节第四节 抽样误差抽样误差一、抽样误差的概念及种类一、抽样误差的概念及种类1、登记性误差:、登记性误差:工作误差工作误差2、代表性误差:、代表性误差:抽样误差(以部分推算总体)抽样误差(以部分推算总体) -系统性误差系统性误差(偏差,未按随机原则,人为主(偏差,未按随机原则,人为主观因素)观因素) -随机误差随机误差(偶然误差)(偶然误差)32二、影响抽样误差的因素二、影响抽样误差的因素1、总体各单位之间差异程度越大,、总体各单位之间差异程度越大, 分布越分散,抽样误差越大分布越分散,抽样误差越大2、抽样数目(样本容量)越多,误差越
23、少、抽样数目(样本容量)越多,误差越少3、抽样方式、抽样方式33三、抽样误差计算三、抽样误差计算 抽样平均误差抽样平均误差(Sampling average error)是抽)是抽样平均数(或抽样成数)的标准差,它反映抽样平均样平均数(或抽样成数)的标准差,它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平数(或抽样成数)与总体平均数(或总体成数)的平均差异程度。由于从一个总体可能抽取多个样本,因均差异程度。由于从一个总体可能抽取多个样本,因此抽样指标(如平均数、抽样成数等),就有多个不此抽样指标(如平均数、抽样成数等),就有多个不同的数值,因而对全体指标(如总体平均数、总体成同的数
24、值,因而对全体指标(如总体平均数、总体成数等)的离差也就有大有小,这就必需用一个指标来数等)的离差也就有大有小,这就必需用一个指标来衡量抽样误差的一般水平。衡量抽样误差的一般水平。 抽样平均数的平均数等于总体平均数,抽样成数抽样平均数的平均数等于总体平均数,抽样成数的平均数等于总体总数,因而抽样平均数(或抽样成的平均数等于总体总数,因而抽样平均数(或抽样成数)的标准差实际上反映了抽样平均数(或抽样成数)数)的标准差实际上反映了抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均差异程度。与总体平均数(或总体成数)的平均差异程度。34抽样平均误差的计算抽样平均误差的计算(一)样本平均数的平均
25、误差(一)样本平均数的平均误差 以以x表示样本平均数的平均误差,表示总表示样本平均数的平均误差,表示总体的标准差。根据定义:体的标准差。根据定义:1、当抽样方式为重复抽样时,样本标志值是相互、当抽样方式为重复抽样时,样本标志值是相互独立的,样本变量独立的,样本变量x与总体变量与总体变量X同分布。所以得:同分布。所以得: (1)35 它说明在重复抽样的条件下,抽样平它说明在重复抽样的条件下,抽样平均误差与总体标准差成正比,与样本容均误差与总体标准差成正比,与样本容量的平方根成反比。量的平方根成反比。 例例1:有有5个工人的日产量分别为(单个工人的日产量分别为(单位:件):位:件):6,8,10,
26、12,14,用重,用重复抽样的方法,从中随机抽取复抽样的方法,从中随机抽取2个工人的个工人的日产量,用以代表这日产量,用以代表这5个工人的总体水平。个工人的总体水平。则抽样平均误差为多少?则抽样平均误差为多少?36解:解:根据题意可得:根据题意可得: (件件)总体标准差总体标准差 (件件) 抽样平均误差抽样平均误差 (件件)372、当抽样方式为不重复抽样时,样本标、当抽样方式为不重复抽样时,样本标志值不是相互独立的,根据数理统计知志值不是相互独立的,根据数理统计知识可知:识可知: (2)当总体单位数当总体单位数N很大时,这个公式可近很大时,这个公式可近似表示为:似表示为: (3)38 与重复抽
27、样相比,不重复抽样平均误差与重复抽样相比,不重复抽样平均误差是在重复抽样平均误差的基础上,再乘是在重复抽样平均误差的基础上,再乘以以 ,而,而 总是小于总是小于1,所以不重复抽样的平均误差也,所以不重复抽样的平均误差也总是小于重复抽样的平均误差。如前例,若总是小于重复抽样的平均误差。如前例,若改用不重复抽样方法,则抽样平均误差为:改用不重复抽样方法,则抽样平均误差为: (件件) 在计算抽样平均误差时,通常得不到总在计算抽样平均误差时,通常得不到总体标准差的数值,一般可以用样本标准差来体标准差的数值,一般可以用样本标准差来代替总体标准差。代替总体标准差。39二)成数指标的抽样误差二)成数指标的抽
28、样误差 抽样成数的平均误差抽样成数的平均误差 总体成数总体成数P可以表现为总体是非标志可以表现为总体是非标志的平均数。即的平均数。即E(X)P,它的标准差,它的标准差 。 根据样本平均误差和总体标准差的关根据样本平均误差和总体标准差的关系,可以得到样本成数的平均误差的计算系,可以得到样本成数的平均误差的计算公式。公式。40 1)重复抽样重复抽样的条件下:的条件下: 2)不重复抽样不重复抽样的条件下:的条件下: 当总体单位数当总体单位数N很大时,可近似地写成:很大时,可近似地写成:(4) (5) (6)当总体成数未知时,可以用样本成数来代替。当总体成数未知时,可以用样本成数来代替。41例例2:某
29、企业生产的产品,按正常生产经某企业生产的产品,按正常生产经验,合格率为验,合格率为90%,现从,现从5000件产品件产品中抽取中抽取50件进行检验,求合格率的抽样件进行检验,求合格率的抽样平均误差。平均误差。42解:解:根据题意,在重复抽样条件下,合根据题意,在重复抽样条件下,合格率的抽样平均误差为:格率的抽样平均误差为: 在不重复抽样条件下,合格率的抽样在不重复抽样条件下,合格率的抽样平均误差为:平均误差为: 43抽样误差的控制措施抽样误差的控制措施抽样误差则是不可避免的,但可以减少,其措施有:抽样误差则是不可避免的,但可以减少,其措施有: 1、增加样本个案数。、增加样本个案数。 2、适应选
30、择抽样方式。、适应选择抽样方式。 不重置抽样,样本平均值的标准差为修正系数。不重置抽样,样本平均值的标准差为修正系数。 A、无限总体,按照重置抽样计算、无限总体,按照重置抽样计算 B、有限总体:、有限总体:N比较大,比较大,n/N大于等于大于等于5%,修正系数简化为修正系数简化为1-n/N;N比较大,比较大,n/N小于小于5%,按重置抽样计算按重置抽样计算 44第五节第五节 样本容量的确定样本容量的确定一、影响样本容量大小的因素一、影响样本容量大小的因素 1、所研究指标在总体中变异程度、所研究指标在总体中变异程度 2、总体大小、总体大小总体所起的作用视它规模的大小而有所差异总体所起的作用视它规
31、模的大小而有所差异 小规模总体的大小将起重要作用小规模总体的大小将起重要作用 对于中等规模的总体,其作用中等重要对于中等规模的总体,其作用中等重要 大总体的规模对样本容量确定则不起作用大总体的规模对样本容量确定则不起作用453、调查估计值所能允许的误差的大小、调查估计值所能允许的误差的大小 估计量的抽样方差较小,估计值是精确的估计量的抽样方差较小,估计值是精确的 估计值的精度越高,所需的样本容量就越大估计值的精度越高,所需的样本容量就越大 调查估计值所希望达到的精度调查估计值所希望达到的精度,影响精度的影响精度的因素也同样影响着样本容量的大小因素也同样影响着样本容量的大小4、不同抽样组织方式和
32、抽样方法、不同抽样组织方式和抽样方法 样本设计和所使用的估计量样本设计和所使用的估计量 无回答率无回答率46 客户提供的经费能支持多大容量的样本客户提供的经费能支持多大容量的样本 整个调查持续的时间有多长整个调查持续的时间有多长 调查需要多少访员调查需要多少访员 能招聘到的访员有多少能招聘到的访员有多少 除了估计值的精度以外,调查实际操作的限除了估计值的精度以外,调查实际操作的限制条件也许是影响样本容量的最大因素。制条件也许是影响样本容量的最大因素。47二、确定概率抽样的样本量二、确定概率抽样的样本量样本容量不能决定代表性,但可影响结果的精度。样本容量不能决定代表性,但可影响结果的精度。样本的
33、精度样本的精度样本的统计量(如对一特定问题回答的平均数)与其所代样本的统计量(如对一特定问题回答的平均数)与其所代表的总体的值的接近程度。表的总体的值的接近程度。大样本比小样本更精确,但是没有成倍的关系。大样本比小样本更精确,但是没有成倍的关系。财务和统计问题财务和统计问题一般原则一般原则: 样本越大,抽样误差越小样本越大,抽样误差越小 样本大,耗费的成本也高样本大,耗费的成本也高抽样成本随样本容量直线递增,抽样误差却只是以样本量抽样成本随样本容量直线递增,抽样误差却只是以样本量增长速度的平方根递减增长速度的平方根递减 财务、统计、管理财务、统计、管理48样本容量的确定通常是介于理论上的完善方
34、样本容量的确定通常是介于理论上的完善方案与实际上可行方案之间的一个折中方案案与实际上可行方案之间的一个折中方案教条式方法教条式方法以以“经验性经验性”为幌子,认为样本容量应该是为幌子,认为样本容量应该是“为保证精度,一般至少应该是总体的为保证精度,一般至少应该是总体的5%”简单易行,但不是一种高效率、经济的方法,简单易行,但不是一种高效率、经济的方法,教条式方法忽略了抽样的精确度问题。教条式方法忽略了抽样的精确度问题。49约定式方法约定式方法认为某一个认为某一个“约定约定”或某一个数量就是正确或某一个数量就是正确的样本容量。的样本容量。样本容量是一个恒量,不受总体容量的影响,样本容量是一个恒量
35、,不受总体容量的影响,但也是其缺点,总体容量可能少于恒量;精但也是其缺点,总体容量可能少于恒量;精度的要求也会发生变化度的要求也会发生变化50成本基础法成本基础法将成本作为确定样本容量的基础。将成本作为确定样本容量的基础。样本容量的确定不是将调查所获得的信息的价值作样本容量的确定不是将调查所获得的信息的价值作为首要考虑因素,而是把预算作为考虑因素,通常为首要考虑因素,而是把预算作为考虑因素,通常会忽视调查结果对管理决策的价值。会忽视调查结果对管理决策的价值。思考思考:如何才能在不考虑成本的情况下确定样本容量?如何才能在不考虑成本的情况下确定样本容量?51传统统计方法传统统计方法运用以下概念来创
36、见一个有效的样本。运用以下概念来创见一个有效的样本。 总体标准差的估计值总体标准差的估计值 抽样误差的允许范围抽样误差的允许范围 抽样结果在特定范围内的预期置信度抽样结果在特定范围内的预期置信度52 由于我们将在某一给定误差界限下,阐述由于我们将在某一给定误差界限下,阐述样本容量确定的过程,所以有必要复习一下样本容量确定的过程,所以有必要复习一下置信区间的概念。置信区间的概念。 对于具有正态分布的估计量来说,对于具有正态分布的估计量来说,95%的的置信区间置信区间意味着在同样的条件下,反复抽样意味着在同样的条件下,反复抽样100次所得的次所得的100个样本中,有个样本中,有95个样本的估个样本
37、的估计值所确定的区间包含总体真值,这个区间计值所确定的区间包含总体真值,这个区间以样本的估计值为中心,以样本的估计值为中心,半径为半径为1.96倍倍的标的标准误差准误差。1置信区间置信区间532 2误差界限误差界限 误差界限是标准误差的倍数误差界限是标准误差的倍数z t 标准误差是估计量抽样方差的平方根标准误差是估计量抽样方差的平方根 乘数因子取决于在调查估计中所希望乘数因子取决于在调查估计中所希望 达到的置信水平(或称置信度达到的置信水平(或称置信度/概率度)概率度)54对于估计值对于估计值 t, 在给定其标准误差在给定其标准误差 t的情况下的情况下, 置置信区间的公式可以表示为:信区间的公
38、式可以表示为:(t-z t t+z t) 这里这里 z t是误差界限,是误差界限, z是对应于某一置是对应于某一置 信水平的标准正态分布的分位点值信水平的标准正态分布的分位点值 该该z值可从标准正态分布表中查得,大多值可从标准正态分布表中查得,大多 数统计学教材中都附有这样的统计表数统计学教材中都附有这样的统计表55常用的常用的z z值包括值包括v 对于对于 90% 的置信度,对应的的置信度,对应的z z值为值为 1.64v 对于对于 95% 的置信度,对应的的置信度,对应的z z值为值为 1.96v 对于对于 99% 的置信度,对应的的置信度,对应的z z值为值为 2.5656 3 3多大的
39、抽样方差是可接受的多大的抽样方差是可接受的 调查估计值能容忍多大的不确定性?调查估计值能容忍多大的不确定性? 常用的常用的95%的置信度、的置信度、5%的误差界限对我们的调查目的误差界限对我们的调查目标是否适宜标是否适宜 估计值是否需要更高(或更低)精度估计值是否需要更高(或更低)精度 如果调查结果将用于进行一项有重大意义或有较大风险如果调查结果将用于进行一项有重大意义或有较大风险的决策,那么,估计值可能需要较高的精度;的决策,那么,估计值可能需要较高的精度; 如果我们只是简单地希望取得所研究总体某个特征的感如果我们只是简单地希望取得所研究总体某个特征的感性认识,那么,稍低一点的精度就可以满足
40、要求了性认识,那么,稍低一点的精度就可以满足要求了 57多大抽样方差是可以接受多大抽样方差是可以接受 是否需要对调查的子总体(或称作域)进行估计?是否需要对调查的子总体(或称作域)进行估计? 调查结果可能需要包括一些细分的数据调查结果可能需要包括一些细分的数据 这些数据称为子总体估计值(或域估计值)这些数据称为子总体估计值(或域估计值) 为使数据满足调查要求,应该确定合适的精度为使数据满足调查要求,应该确定合适的精度 与调查估计值有关的抽样方差有多大?与调查估计值有关的抽样方差有多大?58 对于不同的子总体,对精度的要求可能有所不同对于不同的子总体,对精度的要求可能有所不同 例如,在一次全国范
41、围的抽样调查中,对国家层例如,在一次全国范围的抽样调查中,对国家层次的数据,调查主办者可能需要次的数据,调查主办者可能需要3%的误差界限;的误差界限;但对于省级层次的估计值,但对于省级层次的估计值,5%的误差界限可能就的误差界限可能就可以满足要求;可以满足要求; 而对于省级以下层次的估计值,而对于省级以下层次的估计值,10%的误差界的误差界限可能就足够了。限可能就足够了。59 在这种情况下,通常对每个研究域都进行分层,在这种情况下,通常对每个研究域都进行分层, 并单独计算各层的样本容量并单独计算各层的样本容量 将各个研究域中所有层的样本容量相加,便得到将各个研究域中所有层的样本容量相加,便得到
42、 了调查所需的总样本容量了调查所需的总样本容量60调查估计值有关的抽样方差有多大调查估计值有关的抽样方差有多大v 为达到调查结果要求的精度,最小的调查估计为达到调查结果要求的精度,最小的调查估计值是什么?假设我们进行比例估计。其中,一些值是什么?假设我们进行比例估计。其中,一些指标的比例可能是指标的比例可能是P=50%或更高,但是其它指标或更高,但是其它指标的比例则可能较低,如的比例则可能较低,如P=5% 或者或者 P=10% v 事实上,事实上,P可以是可以是P=0 到到 P=1.0之间的任一数之间的任一数值。在确定调查估计值所需的精度时,应该考虑值。在确定调查估计值所需的精度时,应该考虑当
43、某个既定精度达到时所得的最小估计值。如果当某个既定精度达到时所得的最小估计值。如果最小的估计值是最小的估计值是 P=5%,那么误差界限就应该小那么误差界限就应该小于于5%。61例如:例如: 某公司决定,如果公司所在的地区中,至少有某公司决定,如果公司所在的地区中,至少有P=4%的人群对某一种产品存在需求,那么该公司的人群对某一种产品存在需求,那么该公司就决定生产这种产品。因此,该公司的市场调研部就决定生产这种产品。因此,该公司的市场调研部准备对当地的居民一项调查,以便估计他们在这种准备对当地的居民一项调查,以便估计他们在这种产品上的消费需求。产品上的消费需求。 对于对于P=4%5%水平左右的调
44、查估计值就不太水平左右的调查估计值就不太合适,应规定更小的误差界限,如小于或等于合适,应规定更小的误差界限,如小于或等于0.01、 0.02等,这时候置信区间应该是(等,这时候置信区间应该是( 0.05 0.01) 或(或( 0.05 0 .02)。)。62最佳的解决办法最佳的解决办法 不应为追求最小的误差界限而选择最大可能的样本不应为追求最小的误差界限而选择最大可能的样本 可以接受一个较大的误差界限,同时有效地利用现有资源可以接受一个较大的误差界限,同时有效地利用现有资源 在此基础上,获得具有相对较高精度的估计结果在此基础上,获得具有相对较高精度的估计结果 采用一个较小的样本而不是大样本而节
45、省下来的费用,采用一个较小的样本而不是大样本而节省下来的费用, 可以用来修正其它影响调查结果精度的因素可以用来修正其它影响调查结果精度的因素 例如减少无回答率(如回访拒答者、实施小型的试点调查、例如减少无回答率(如回访拒答者、实施小型的试点调查、 培训访员,等等),这样做可能更有效率培训访员,等等),这样做可能更有效率63 计算样本容量时,通常假定采用的抽样方式计算样本容量时,通常假定采用的抽样方式为简单随机抽样为简单随机抽样(SRS)。所以,如果样本容量计算所以,如果样本容量计算公式假定为简单随机抽样。公式假定为简单随机抽样。 4 4样本设计和估计量样本设计和估计量v 分层抽样得到的估计值通
46、常比相同规模的简分层抽样得到的估计值通常比相同规模的简单随机抽样更精确,或者至少单随机抽样更精确,或者至少 一样精确。一样精确。v 整群抽样得到的估计值,其精度通常低于使整群抽样得到的估计值,其精度通常低于使用同一估计量进行估计时的简单随机抽样的估用同一估计量进行估计时的简单随机抽样的估计值的精度计值的精度64设计效果因子设计效果因子 一般来说,当样本容量的计算公式假定为简单随机一般来说,当样本容量的计算公式假定为简单随机抽样抽样SRS,但使用的是更复杂的选样方式时,达到既定但使用的是更复杂的选样方式时,达到既定精度所需的样本容量应该乘以设计效果因子。精度所需的样本容量应该乘以设计效果因子。设
47、计效果设计效果=对于同样规模的样本容量,给定样本设计下对于同样规模的样本容量,给定样本设计下 估计量的抽样方差对简单随机抽样估计量的估计量的抽样方差对简单随机抽样估计量的 抽样方差的比率。抽样方差的比率。q 对于简单随机抽样设计,设计效果对于简单随机抽样设计,设计效果 = 1 q 对于分层抽样设计,设计效果对于分层抽样设计,设计效果 1 q 对于整群抽样设计,设计效果对于整群抽样设计,设计效果 1 65 5 5回答率回答率 所有的调查都会遇到无回答的困扰即:所有的调查都会遇到无回答的困扰即: 由于某些原因,不能获得被抽中样本单位的信息由于某些原因,不能获得被抽中样本单位的信息 当一个被调查单位
48、的所有或几乎所有的数据都缺当一个被调查单位的所有或几乎所有的数据都缺 失时,我们就称之为完全无回答(或称单位无回答)失时,我们就称之为完全无回答(或称单位无回答) 某次调查的回答率是用调查得到的有效问卷数占某次调查的回答率是用调查得到的有效问卷数占 预期样本容量的一个百分比来表示的预期样本容量的一个百分比来表示的 完全无回答会减少有效样本的数量,从而会增加完全无回答会减少有效样本的数量,从而会增加 抽样误差,并进而降低估计值的精度抽样误差,并进而降低估计值的精度6653375. 0400n例如,如果初始样本容量是例如,如果初始样本容量是400,而通过,而通过上述途径估计的回答率为上述途径估计的
49、回答率为75%,那么选,那么选择的样本容量就应该为:择的样本容量就应该为:根据预计的回答率调整样本容量根据预计的回答率调整样本容量67一个最简单的例子一个最简单的例子没有无回答的简单随机抽样样本容量的计算公式没有无回答的简单随机抽样样本容量的计算公式简单随机抽样下,通常使用误差界限和简单随机抽样下,通常使用误差界限和估计量的标准误来确定所需的样本容量。估计量的标准误来确定所需的样本容量。 68nSNny)1 ( 在无放回在无放回(非重复非重复)简单随机抽样情况下简单随机抽样情况下总体均值估计量的标准误差的表达式总体均值估计量的标准误差的表达式其中,其中,S 是总体的标准差是总体的标准差69nS
50、Nnze)1(NSzeSzn22222如果如果误差界限设为误差界限设为e,那么:那么:解解n,得:得:这里这里Z是对应于某一置信水平的标准正态分布的分位点值是对应于某一置信水平的标准正态分布的分位点值。70 其中,总体方差其中,总体方差S2是最不容易得到的,通常需要根是最不容易得到的,通常需要根据过去对类似总体所做的研究作近似计算。据过去对类似总体所做的研究作近似计算。为确定为确定n n,需要知道需要知道 期望的误差界限期望的误差界限e 置信水平置信水平(对应的标准正态分布的分位点值对应的标准正态分布的分位点值 )Z 总体规模总体规模 N 总体方差总体方差 S271求比例求比例(成数成数)样本
51、容量的确定样本容量的确定 下面用一个例子,说明估计比例问题时样本容量的确下面用一个例子,说明估计比例问题时样本容量的确定过程。定过程。 在这一例子中,所需的精度是根据误差界限确定的,在这一例子中,所需的精度是根据误差界限确定的,所研究的指标取两个值所研究的指标取两个值,即即P和和1-P。 )1 (2PPSNPPzePPzn)1 ()1 (222在这种情况下,对于大总体,且估计量服从正态在这种情况下,对于大总体,且估计量服从正态分布时,分布时,P的总体方差为:的总体方差为:72 若总体真值已知,那么直接将它代入上面的等式若总体真值已知,那么直接将它代入上面的等式 就可以得到样本容量就可以得到样本
52、容量 若总体真值未知,而且也没有以前的信息可以利若总体真值未知,而且也没有以前的信息可以利 用,那么可以用,那么可以P=0.5 用,因为这时的方差最大,用,因为这时的方差最大, 可以求得一个比较保守的样本容量可以求得一个比较保守的样本容量73计算比例估计样本容量的详细步骤计算比例估计样本容量的详细步骤 先计算初始样本容量,然后根据总体的大小、设计先计算初始样本容量,然后根据总体的大小、设计效果和回答率分别对它进行调整,最后求得最终的样本效果和回答率分别对它进行调整,最后求得最终的样本容量。容量。74221)1 (ePPzn第第1 1步:计算初始样本容量步:计算初始样本容量注意,公式(注意,公式
53、(1)使用了有限总体校正因子)使用了有限总体校正因子n/N,对对总体规模进行校正。如果忽略这个因子,初始样本总体规模进行校正。如果忽略这个因子,初始样本容量容量n1就可以按下列公式计算:就可以按下列公式计算:如果如果e 和和 P都不用比例表示,而用百分数表示,都不用比例表示,而用百分数表示, n1 的计算公式的计算公式同样成立。同样成立。75112nNNnn第第2 2步:使用下列等式对总体的大小进行调整步:使用下列等式对总体的大小进行调整7623Bnn 第第3 3步:设计效果调整样本容量步:设计效果调整样本容量如果样本设计不是采用简单随机抽样,如果样本设计不是采用简单随机抽样,那么可以使用下列
54、公式,即用抽样设计那么可以使用下列公式,即用抽样设计效果对样本容量进行调整效果对样本容量进行调整 :其中,是设计效果,并且有:其中,是设计效果,并且有: 在简单随机抽样设计下,在简单随机抽样设计下,B = 1, 在分层抽样设计下,在分层抽样设计下, B 1, 在整群抽样设计下,在整群抽样设计下, B 1。77rnn3根据无回答再次进行调整,以确定最终的样本容量根据无回答再次进行调整,以确定最终的样本容量n n其中,其中, r = 估计的回答率。估计的回答率。 第第4 4步:无回答调整样本容量步:无回答调整样本容量78样本容量确定的例子样本容量确定的例子下面用实例说明样本容量的计算过程下面用实例
55、说明样本容量的计算过程 。 例例 1. 某杂志出版商希望得到读者对该杂志综合满意某杂志出版商希望得到读者对该杂志综合满意程度的估计值。通过邮寄调查,出版商可以联系到程度的估计值。通过邮寄调查,出版商可以联系到所有的所有的2500个订户。但是,由于时间的限制,出版个订户。但是,由于时间的限制,出版商决定使用简单随机抽样进行电话调查。请问应访商决定使用简单随机抽样进行电话调查。请问应访问多少个读者问多少个读者 ?79v 如果真实的总体比例落在总体比例的样本估计值的如果真实的总体比例落在总体比例的样本估计值的 0.10范围内,则该出版商将感到满意。换句话说,范围内,则该出版商将感到满意。换句话说,误
56、差界限误差界限e为为0.10 。v 出版商希望调查估计值的置信度为出版商希望调查估计值的置信度为95%,这就意味,这就意味着着20次抽样中只有次抽样中只有1次,所得的样本估计值确定的次,所得的样本估计值确定的置信区间不包含总体真值置信区间不包含总体真值P,而且,而且,Z=1.96。v 使用简单随机抽样使用简单随机抽样SRS。v 估计回答率为估计回答率为65% ,即,即r =0.65。v 由于事先没有关于顾客满意度真实比例由于事先没有关于顾客满意度真实比例P 的可利用的可利用的信息,因此,我们假定方差取最大的情况,即假的信息,因此,我们假定方差取最大的情况,即假设设 P=0.5。假假 设设801
57、00)10. 0()50. 0)(50. 0()96. 1 ()1 (22221ePPzn样本容量的计算步骤样本容量的计算步骤 第第 1 1步:计算初始样本容量步:计算初始样本容量n n1 1 注意,随着注意,随着P 趋向趋向0.50,P(1-P) 的值将达到的值将达到最大值,因此选择最大值,因此选择P=0.5,可得到最保守的可得到最保守的n1的估计值。的估计值。8196)1002500(2500100112nNNnn第第 2 2步:调整初始样本容量步:调整初始样本容量将总体的大小这一影响样本容量确定的因素也考虑将总体的大小这一影响样本容量确定的因素也考虑进来进来 。(记住,这一步只适于小规模
58、总体以及中等规模的总体记住,这一步只适于小规模总体以及中等规模的总体)8296223nBnn第第3 3步:步: 根据抽样设计效果来调整样本容量根据抽样设计效果来调整样本容量对这个例子来说,由于假设使用简单随机抽样设计,所以取对这个例子来说,由于假设使用简单随机抽样设计,所以取 B= 1。8314865. 0963rnn第第4 4步:根据无回答情况进行调整步:根据无回答情况进行调整 确定最终的样本容量确定最终的样本容量n n84例例 2. 2. 现准备实施一项民意调查,以决定赞成建立一个公现准备实施一项民意调查,以决定赞成建立一个公园的居民的比例。总体由所有在两个城市和一个农村地园的居民的比例。
59、总体由所有在两个城市和一个农村地区居住的、年龄在区居住的、年龄在1818岁及以上的居民组成。通过从每个岁及以上的居民组成。通过从每个城市或农村中各抽取一个简单随机样本,可以得到一个城市或农村中各抽取一个简单随机样本,可以得到一个分层随机样本。分层随机样本。 问问: :每一层需要多大的样本容量?每一层需要多大的样本容量?85总体的单位数为总体的单位数为 657,500 657,500 总体在各层的分布情况如下:总体在各层的分布情况如下:H层层总体(总体(Nh)1城市城市1400,0002城市城市2250,0003农村地区农村地区7,500合计合计657,500所需要的样本容量取决于调查对数据的具
60、体要求,所需要的样本容量取决于调查对数据的具体要求,为此,可以考虑以下两个方案。为此,可以考虑以下两个方案。 86方案一方案一 假设不需要得到各个层估计值的精度,而且假设不需要得到各个层估计值的精度,而且如果整个地区的估计值达到如果整个地区的估计值达到95%的置信度、的置信度、5%的误差界限,就认为估计值足够可靠了。由于没的误差界限,就认为估计值足够可靠了。由于没有整个地区赞成建立省级公园居民比例的真值,有整个地区赞成建立省级公园居民比例的真值,所以我们假设所以我们假设P=0.5,预计回答率为预计回答率为50%。87384)05. 0()50. 0)(50. 0()96. 1 ()1 (222
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年上海市东方公证处招聘公证员助理、辅助人员备考题库完整答案详解
- 3D打印个性化缝合导板的设计与应用
- 2型糖尿病社区综合管理路径优化
- 2025年工作地在合川备考题库重庆一国企招聘及答案详解1套
- 2025年枫亭镇中心卫生院招聘编外工作人员备考题库及答案详解一套
- 2025年第十师北屯面向社会公开引进高层次事业编工作人员备考题库及答案详解一套
- 2025年资阳市人才发展集团有限公司诚聘3名项目人员备考题库带答案详解
- 灰色时尚商务总结汇报模板
- 2025年个旧市医共体卡房分院招聘备考题库及1套参考答案详解
- 2025年广州南沙人力资源发展有限公司招聘公办幼儿园编外工作人员备考题库及1套完整答案详解
- 编制竣工图合同范本
- 新22J01 工程做法图集
- 智慧树知到《艺术与审美(北京大学)》期末考试附答案
- 2024-2025学年上海市长宁区初三一模语文试卷(含答案)
- 钢管支撑强度及稳定性验算
- 全国医疗服务项目技术规范
- 人教版六年级数学下册全册教案
- 医院公共卫生事件应急处理预案
- 智慧校园云平台规划建设方案
- 机械制图公开课课件
- 内镜下治疗知情同意书
评论
0/150
提交评论