抽样设计社会经济问卷调查(PPT 95页).ppt_第1页
抽样设计社会经济问卷调查(PPT 95页).ppt_第2页
抽样设计社会经济问卷调查(PPT 95页).ppt_第3页
抽样设计社会经济问卷调查(PPT 95页).ppt_第4页
抽样设计社会经济问卷调查(PPT 95页).ppt_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、打开几扇窗户看世界 -如何做抽样设计,知识目录 抽样过程与选择 抽样方法 抽样的基本条件* (选讲) 抽样误差 抽样容量,目录 抽样过程与选择 抽样方法 抽样条件 抽样误差 案例研究,提问:生活中个人决策使用小样本例子?,2020/9/28,5,名词库:抽样的專有名詞概念,母体:研究调查对象。 基本单位:母体中的个别单位。 样本:母体的一部分。 参数:母体某一属性或变量数值。 统计量:根据样本数据求得,用以估计参数的数值 抽样框:可得之抽样单位名册。 抽样偏误:抽到特殊特征之单位。 抽样误差:减损样本代表性。,Lapin 1978 (一)经济性 (二)时效性 (三)母体过大 (四)母体中某些基

2、本单位难以接触 (五)破坏性调查 (六)正确性,抽样的原因,2020/9/28,7,抽样的过程,定义同质总体,选择资料收集方法,购置抽样框,选择抽样方法,决定样本量,建立和详细 选择样本的 可操作性计划,执行可操作性 的样本计划,评估抽样结果,2020/9/28,8,二、抽样框(Yates 1953) (一)足夠 (二)完整 (三)不重複 (四)正確 (五)便利,目 录 抽样概论 抽样方法 抽样条件 抽样误差 案例研讨,2020/9/28,10,抽样方法,2020/9/28,11,请辨别下列的抽样设计: 200个娱乐场光顾者的名单是上月娱乐场光顾者的名单中抽出来的,对他们进行问卷调查 电台节目

3、主持人请听众打电话进来,就禁止核武器问题以“是”“否”的方式发表意见。 一个狗食制造商想测试一个狗食新产品,他决定选择100个用罐装食品喂养狗的狗主人,选择100个使用干食喂养的狗主人和100个用半湿食品喂养狗的狗主人,进行调查。 就对退休老人的生活询问了在公园散步的老人,在通过他们推荐,进行调查。,2020/9/28,12,抽样方法总论,随机抽样,2020/9/28,13,抽样方法总论,非随机抽样,2020/9/28,14,抽样方法分论,一、简单随机抽样Simple random Sampling 实施方法 优缺点 适用情境,(Boyed Jr ., Westfall , & Stasch

4、1985 ) 1. 成本高 2. 详细完备的最新抽样框 3. 统计效率低 4. 管理困难 (补)5。无法排除极具代表性的样本 (Boyed Jr ., Westfall , & Stasch 1985 ) 1. 母体小 2. 有适当的抽样框 3. 单位访问成本不受距离影响 4. 无其它有关母体的信息,2020/9/28,15,手把手教你随机数表依机率抽取。,假定由名调查对象,以随机数表随机抽取名样本,其抽样步骤如下: ()将名调查对象,由编至等个连续编号。 ()由随机数表,利用抽签方法选取号码开始点。例如选取为第十五行第四列。 ()由设定之起始点,选取号码,选取号码以调查对象之编号位数相同:即

5、,有效号码样本以下。 ()若抽样单位与随机数表抽样号码条件相同即为样本,大于调查编号,跳过不取。 ()若逢重复号码,亦应跳过。 ()依上述方法,连续采用个号码,即为完成样本选用。,2020/9/28,16,抽样方法分论,(二)机械抽样 实施方法 优缺点 适用情境,限制: 1. 抽样偏误 2. 随机偏误 适用情境: 抽样单位以随机次序编列,2020/9/28,17,抽样方法分论,(二)机械抽样 实施方法 优缺点 适用情境,限制: 1. 抽样偏误 2. 随机偏误 适用情境: 抽样单位以随机次序编列,2020/9/28,18,抽样方法分论,(三)分层抽样 实施方法,【圖示】:分層抽樣方法,母 體,樣

6、 本,* * * * *,* * *,抽 樣,第一層,第二層,第三層,2020/9/28,19,抽样方法分论,(三)分层抽样 优缺点,優點: 1. 可靠性高 2. 利於比較,2020/9/28,20,抽样方法分论,(三)分层抽样Stratified Sampling 关注要素,分层基础 层级数目 不超过六层(Cochran 1963) 3. 等比例或不等比例样本,2020/9/28,21,2020/9/28,22,抽样方法分论,(四)整群抽样Cluster Sampling 实施方法(图示),*,*,*,*,*,*,*,抽 樣,*,*,*,2020/9/28,23,案例:歌曲著作權使用費的分配

7、,美国作曲家组织(ASCAP)每年向广播电台收取播曲权利金$ 435百万(每年播放53百万小时歌曲),将分配给作曲家会员。 。 将所有电台依小区种类(都会区、乡村等) 、地区(新英格兰、太平洋等)及付出权利金额度(反应电台听众数)等特性分成432层。 每层随机选几台随机录音数小时,共录音60,000小时。由专家辨认所有歌曲的作曲作词者,记录后依比例分配权利金。,2020/9/28,24,抽样方法分论,(四)整群抽样 优缺点(图示),優點: 1. 經濟 2. 簡便 缺點:抽樣偏差,2020/9/28,25,(五)多级抽样,2020/9/28,26,非概率抽样,方便抽样(任意抽样) 任意抽样又称为

8、便利抽样法。它是调查人员按工作的方便,随意抽选样本的一种抽样方法。运用任意抽样技术进行抽样,一般由调研人员从工作方便出发,在调研对象范围内随意抽选一定数量的样本进行调查。“街头拦人法”和“空间抽样法”是任意抽样的两种最常见的方法,2020/9/28,27,任意抽样技术简便易行,可以及时取得所需的资料,节约时间和费用。这种方法适用于探测性调查,或调查前的准备工作。一般在调查总体中每一个体都是同质时,才能采用此类方法。但是,实践中并非所有总体中每一个体都是相同的,所以抽样结果偏差较大,可信程度较低,它的样本没有足够的代表性。,2020/9/28,28,判断抽样 判断抽样又称为目的抽样法。这是一种根

9、据调查人员的经验或某些有见解的专家选定样本的抽样方法。,2020/9/28,29,判断抽样法具有简便、易行、及时,符合调查目的和特殊需要,可以充分利用调查样本的已知资料,被调查者配合较好,资料回收率高等优点。但是,这种方法易发生主观判断产生的抽样误差,同时由于判断抽样中各个调查个体被抽取的概率不知道,因而无法计算抽样误差和可信程度。如果调查者的经验丰富,知识面广,判断能力强,抽取的样本代表性就大,反之则小。,2020/9/28,30,(三)配额抽样 配额抽样是按照一定标准,分配样本数额,然后在规定数额内由调查人员任意抽选样本的一种抽样方法。 配额抽样是非概率抽样中最流行的一种。运用配额抽样技术

10、进行抽样,要按照一定标准分配样本数额,并在规定数额内由调查人员任意抽选样本。,2020/9/28,31,案例分析,在某项调查中,确定样本总数为180个,可单独选择消费者收人、年龄、性别三个标准中的一个进行抽样。按独立控制配额抽样,其各个标准样本配额比例及配额数如表所示。,2020/9/28,32,最终配额表格,2020/9/28,33,相互控制配额抽样对每一个控制特性所需分配的样本数都做了具体规定,调查者必须按规定在总体中抽取调查个体,由于调查面较广,从而克服了独立控制配额抽样的缺点,提高了样本的代表性。七天连锁酒店,2020/9/28,34,4、滚雪球抽样 滚雪球抽样的主要目标是分析调研总体

11、的稀有特征。 滚雪球技术的主要优点表现在,通过对调研总体设定期望的特征,从而增强了样本个体的相似性。因此,采用这种方法所产生的抽样误差比较小,成本比较低。,2020/9/28,35,走向实践:央视收视率网的建设,1999年,央视索福瑞公司为建立一个收视率调查网(人员测量仪技术),需要调查一个有代表性的n=2000户的样本,采用了分层多级pps整群抽样技术。根据以往研究,知道非农业人口的比例是一个显著影响指标。 因此将电视观众分为三大区域: (1)城市域:行政区划中的所有地级市(只含非农业人口在50%的市辖区的家庭户) (2)中间域:行政区划中的所有地级市(只含非农业人口在50%的市辖区的家庭户

12、) (3)农村域:行政区划中的所有县和县级市的家庭户,2020/9/28,36,走向实践:央视收视率网的建设,然后,按对收视率有显著影响的六大指标进行聚类分析,将城市区域分成6小层,中间域分成4小层,农村域分为10小层。 分层指标分别为:人口规模,0-14岁少儿的比例,65岁以上老人的比例,非农业人口的比例,识字率和年平均气温。七天连锁酒店,2020/9/28,37,动手实践,厦门商业银行,厦门商业银行在厦门市的各个区和街道设立了分支机构。这家银行提供了全方位的金融服务。厦门市有112,500人使用的白鹭信用卡。从最初的申请开始,银行致力于搜集客户的个人信息,包括姓名、地址、邮政编码、电话号码

13、、收入、文化程度和资产等。厦门商业银行对信用持有卡在信用卡上的花费和其人口统计特征之间是否有关联感兴趣,例如在厦门某个地方,客户是否是信用卡最频繁的使用者?他们的个人收入与信用卡的使用是否有关系?,2020/9/28,38,动手实践,厦门商业银行,问题: 对于这样的问题,你将如何定义总体? 你将在这个研究中使用什么样的抽样框? 在选择抽样框中,你将采取什么样的步骤进行简单随机抽样? 在这样情况下,分成抽样有意义么?为什么?如何设计一个分层抽样程序? 你能使用你设计的抽样框抽出一个整群样本么?为什么? 你将选择哪种概率抽样法?为什么?,2020/9/28,39,思考,简单随机抽样极少采取挨家挨户

14、访谈法,为什么?那种概率抽样法可以使用挨家挨户法? 假定电话号码簿是某项研究可接受的抽样框,你能发现从电话号码簿中抽取等距样本有什么问题么? 给下列的情况列举概率抽样框 a 读来读往吧的顾客 b 便携式电脑持有者 c 苍蝇拍的持有者 d 在去年去过一个或多个欧洲国家的人 e 居住在厦门少于两年的移民 f 长粉刺的人,2020/9/28,40,抽样方法选择,选择概率抽样和非概率抽样的条件 基本抽样方法的优缺点比较 应用抽样方法应考虑的因素,2020/9/28,41,随机抽样与非随机抽样的比较,一、 样本效度 (一)正确性 (二)精确性 二、 抽样方法的比较 (一)估计值的可信性 机率抽样 (二)

15、统计效率之评估 机率抽样 (三) 母体信息 机率抽样 (四) 经验技巧 非机率抽样 (五) 时间 非机率抽样 (六) 成本 非机率抽样,2020/9/28,42,2020/9/28,43,实践:美国282家企业抽样方法的应用,参考消息:市场调查的管理要点先锋企管中心市场调查小组译犬田充着 台北先锋企业管理发展中心 出版 注:单纯随机抽样简单随机抽样 集团抽样群集抽样,2020/9/28,44,教你一招:电话访问抽样方法,一、 电话号码簿抽样法 (一)传统抽样方法 (二)改良抽样方法 1. 加一抽样法 2. 加十抽样法 3. 两位随机数字法 4. 倒数抽样法 二 、 随机数字拨号法,目录 抽样概

16、论 抽样方法 抽样条件(补充) 抽样误差与容量 案例研讨,2020/9/28,46,温故知新:抽样样本使用方式,重复调查(Repeated Survey) 每次调查均重新抽样,使用新样本(Fresh Survey)进行同样调查,是最常用之方法。 同样本调查(Panel Survey) 利用同一样本作长期的观念调查,以集中力量于样本变化研究上。又称追纵调查(Logitudiual Survey)。研究消费者品牌忠诚度或消费者购买行为,多使用此一方式。 轮换样本调查(Rotating Pauel Survey) 每次换取部份样本,以代表母体变化;维持部份样本的连续性及稳定性又降低成本。 分裂调查(

17、Split Pauel Survery) 一部份每次均采用新样本(重复调查);一部份均用相同样本(同样本调查)。,2020/9/28,47,自习思考题,为什么随机抽样能实现对总体参数的估计?而非随机抽样则不行? (自习课本第五章和第六章),2020/9/28,48,基本符号及含义,2020/9/28,49,总体分布、样本分布和抽样分布,2020/9/28,50,大数定律和中心极限定理,2020/9/28,51,中心极限定理central limit theorem,即使从非正态总体中抽取样本,所得均数分布仍近似呈正态。 随着样本量的增大, 样本均数的变异范围也逐渐变窄。,2020/9/28,5

18、2,小结,从正态总体中随机抽样,其样本均数服从正态分布; 从任意总体中随机抽样,当样本含量足够大时,其样本均数的分布逐渐逼近正态分布; 样本均数之均数的位置始终在总体均数的附近; 随着样本含量的增加,样本均数的离散程度越来越小,表现为样本均数的分布范围越来越窄,其高峰越来越尖。,2020/9/28,53,(1)xN(, 2) 则 N(, 2/n) x是偏态总体,n30 近似正态 (2) 的总体均数为, 标准差 =/,2020/9/28,54,正态分布与标准正态分布,2020/9/28,55,正态分布的特点,呈钟形且只有一个众数 关于平均值对称 一个正态分布的特殊性是由平均数和标注差决定的 正态

19、曲线下方的面积等于1,表明它包括的所有的调查结果 正态分布下方在任意两个变量值之间的面积,等于在这个范围内随机抽取一个观察对象的概率。 所有的正态分布在平均数 个标准差之间的面积相等,都占曲线下方面积的68.26%,或者是占全部调查对象总体结果的68.26%。这称为正态分布的比例性。这是统计推断的基础。,2020/9/28,56,随机变量X N(m,s2),标准正态分布 N(0,12),Z变换,均数,标准正态分布 N(0,12),Student t分布 自由度:n-1,t 分布(t-distribution),2020/9/28,57,抽样推断,总体均数的点估计(point estimatio

20、n)与区间估计(interval estimation),参数的估计,点估计:由样本统计量 直接估计 总体参数,区间估计:在一定可信度(Confidence level) 下,同时考虑抽样误差,按预先给定的概率(1), 确定一个包含未知总体参数的范围。这一范围称为参数的可信区间或置信区间(confidence interval,CI),2020/9/28,58,可信区间的定义,按一定的概率或可信度(1-)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confidence interval,CI),预先给定的概率(1-)称为可信度或者置信度(confidence

21、level),常取95%或99%。 可信区间(CL, CU )是一开区间 CL、CU 称为可信限,2020/9/28,59,可信区间的两个要素,可信度(Confidence):准确性,可靠性,即1-。 一般取90%,95,可人为控制 精确性(Precision):区间的大小,越小越好。 必须二者兼顾,2020/9/28,60,95%可信区间的含义,按这种方法构建的可信区间,理论上平均每100次,有95次可以估计到总体参数。,2020/9/28,61,当总体方差2已知时总体均值的区间估计 对于给定的显著性水平,可以构造均值的置信区间为:,2020/9/28,62,总体方差未知时(小样本)总体均值

22、的区间估计 对于给定的显著性水平,总体均值的置信区间为:,2020/9/28,63,走进实践,从某地区5000名消费者中随机拍出100名,对其生活费支出进行调查,抽样调查结果为平均生活费支出为200元,平均抽样误差为5元。要求在95.45%的概率保证下,推算出全部消费者的生活费支出总额。,2020/9/28,64,问题,简述标准差和标准误的区别和联系 简述参考值范围与均数的可信区间的区别和联系,目录 抽样概论 抽样方法 抽样条件 抽样误差 样本容量的确定 案例研讨,2020/9/28,66,认识一组名词,精确度(Precision)与 准确度(Validity) 精确度乃用以衡量估计值精确可依

23、赖的程度,如在物价统计中,经济家若认为物价如上升0.02将影向经济决策,则精确度即须订在0.02。 准确度乃衡量母全体特性与实际母全体特性间之差异。两者之差异愈小,代表准确度愈高。 抽样误差(Sampling error) 因为抽样时样本可能会偏离母群体,其间的差距称为抽样误差。抽样误差可用统计方法估计。 置信水平(Confidence level) 以样本估计数推论母群体大小时,正确估计的概率有多少。信赖水准是,即正确估计概率为,调查者以此来表示其正确估计程度。 可允许误差(Tolerated erro) 在抽样调查时,调查者所要求的精确度不是百分之百,而是在设定母群体平均数上下各多少百分点

24、作为误差容忍范围,称为容忍误差。,2020/9/28,67,抽样误差,由于随机抽样的偶然周素使样本各单位的结构对总体各单位结构的代表性差别,而引起的抽样指标和全及指标之间的绝对离差。如抽样平均数与总体平均数的绝对离差,抽样成数与总体成数的绝对离差等等。必须指出,抽样误差是抽样所特有的误差。凡进行抽样就一定会产生抽样误差,这种误差不可避免的,但可以控制,又称为可控制误差。 抽样误差与另外两种误差不同。一种是调查误差,即在调查过程中,由于观察测量、登记、计算上的差错所引起的误差:另一种是系统偏误,即由于违反随机原则,有意地选择较好或较差单位进行调查,造成样本代表性不足所引起的误差。这两种误差是可防

25、止和避免的。,2020/9/28,68,影响抽样误差大小的因素,总体单位的标志值的差异程度。 样本单位数的多少。 抽样方法。七天连锁酒店 抽样调查的组织形式。,2020/9/28,69,重复抽样,当总体为N,样本容量为n时,抽样平均误差公式为:,非重复抽样,抽样的平均误差,成数的抽样平均误差,2020/9/28,70,2020/9/28,71,抽样极限误差,抽样平均误差说明某一抽样方案总的误差情况,但在实际进行抽样调查时,只抽取一个样本。那么这个样本的误差,可能大于或小于平均误差。对于该项抽样调查,一定会要求有一个允许误差的范围。这一允许误差的范围,就称作极限误差。抽样结果的抽样指标与总体指标

26、之间的离差,可能是正或是负。因此允许误差的范围采取绝对值形式,用表示,即:,2020/9/28,72,非抽样误差之避免,此种误差只有细心设计抽样过程及正确认真执行抽样工作,方可减为最低. 、未能回受问卷或填答项目不完整,遗漏数据。 、测量不准:由测量方法及测量工具不良所导致。其主要原因之乃: 设计错误:对于问题的了解不够深入,导致观念及推理逻辑偏离主题,整个抽样设计错误,所测量对象并非母群体真正参数。 问题偏激或隐匿事实,易造成受访者不安或压力,不愿给予正面答案。 更换样本:抽样访问对象与原来计划不同。 访问员之错误,误解问题或加入自己意见。 方法影向答案。即访问者本身影向被访问者状况。 、数

27、据处理错误:如程序设计错误,资料牏入错误。,2020/9/28,73,a. 为弥补遗漏数据采用加权调整法加以弥补。至于问卷没有回收,问项答不完整。采用设算法加以弥补。 b. 利用手提微电脑进行实地访问;计算机辅助电话访问(CATI)。 c. 统计分析利用计算机处理;抽样调查的结果经由计算机通讯网路直接传送结使用者。,目录 抽样概论 抽样方法 抽样条件 抽样误差 样本容量的确定 案例研讨,2020/9/28,75,走向实践:学校记者团的烦恼,厦门理工学院是厦门市办大学,在校学生有1.5万人,分别住在拥有160万人口和40万人口的城区里。学校记者团正努力增加广告收入,广告人员希望运用宣传工具,是这

28、座城市的商人们相信这所大学对这个城市有着经济上的影响。作为主要研究的一部分,需要调查一个学生样本以确定这些学生在这个学校中每个月的消费额,调查所得的结果,将用来估计全体学生的消费额。调研者面临的任务是选取一个相当大的样本,使其能够对总体值提供一个比较精确的的估计,但是他们不愿意将调查资金浪费在一个太大而实际又没有必要的样本上。 那么要抽取多少个学生?50?200?1000?3000?,2020/9/28,76,样本容量的影响因素_定性,定性因素,2020/9/28,77,样本容量的影响因素定量,定量因素,2020/9/28,78,定量因素,2020/9/28,79,确定样本容量的方法,教条式的

29、方法 约定式的方法 成本基础法 统计分析法 置信区间法,2020/9/28,80,教条式方法以“经验性”为前提,认为样本容量应该是“为保证精确,样本至少应该是总体的5%”。但是,教条式方法忽略了抽样的精确度问题。而且,当被研究的总体很大时,这绝非时一种经济的方法。 约定式方法认为某一个约定或者数量就是正确的样容量。但是,约定式确定样本容量的方法忽略了与所要进行的研究相关的情况,而且采用约定的样本容量进行研究所需的费用可能比用正确的样本容量进行研究高许多。,2020/9/28,81,成本基础法将成本作为确定样本容量的基础。 成本将不是确定样本容量的唯一考虑因素,但在确定样本容量时也应予必要的考虑

30、。 统计分析用于分析样本中的各个子集。在对子集进行观察时有必要将每个子集视为一个单独的总体,并为每一个子集确定样本容量,同时运用恰当的方法以及其他特定的方式以从子集中获取信息。一旦完成了上述工作,就可以将所有的子集合并起来组成一个大的集合,以获得对整个团体的描述。,2020/9/28,82,置信区间法,置信区间法:运用差异性置信区间、样本分布以及平均数标准误差或百分率标准误差等概念来创建一个有效的样本。,2020/9/28,83,复习:一组概念,差异性 标准差 置信区间 抽样分布 平均数或者百分率标准误差的概念,2020/9/28,84,样本容量的确定方法,2020/9/28,85,确定样本大

31、小时实际操作案例讲解,(一)如何估计总体的差异性 调研人员就必须考虑所有与差异性有关的信息,甚至还可能需要进行导向性研究,一在确定最终样本容量之前,对总体的性质有更好的理解。 (二)如何确定期望精确度的值 营销项目主管的任务是选取营销决策人员允许误差的可接受范围,以满足其决策所需。,2020/9/28,86,(三)如何计算期望置信度 通常的方法是运用99%或95%的标准置信区间。换算成z分别是2.58和1.96。 (四)特殊的确定样本容量情况 1、从小总体中抽样 小总体情况是指在其样本超过总体总容量的5% 如果是小总体,则样本容量的公式就需要用有限乘数来进行调整。有限乘数是指近似于不包括样本的总体比率的平方根的一个调整因素。,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论