已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第12章 数据的基础分析:描述统计,教学目标: 1. 了解数据整理的目的和过程 2. 了解问卷检查和编辑方法 3. 讨论不合格问卷的处理方法 4. 描述问卷的编码问题 5. 描述数据的列表分析 6. 描述数据的分析与解释,2019/6/8,1,第12章数据的基础分析:描述统计,了解数据整理的目的和过程 了解问卷检查和编辑方法 讨论不合格问卷的处理方法 描述问卷的编码问题 描述数据的列表分析 描述数据的分析与解释,2019/6/8,2,2019/6/8,3,开篇案例:卷烟市场数据分析,零点研究咨询集团2008年12月中旬完成了一项城市居民2009年消费信心和消费预期的系列调查. 关于卷烟消费的调查结果显示: 1)近八成烟民未来一年不会降低卷烟花费,卷烟消费呈稳字当先特点; 2)但考虑到目前的经济状况,有20%左右的烟民表示会降低卷烟消费; 3)低收入人群是卷烟消费的易感人群; 4)减少抽烟数量是降低卷烟花费的主要途径,吸烟档次不会有有明显变化。,2019/6/8,4,卷烟消费,稳中略降,在问及未来一年卷烟花费的变化时,无论是自己抽烟的花费还是购买礼品烟的花费,均有超过75%的消费者表示不会减少。充分显示了卷烟消费的不易替代性特点,稳定会是未来一年卷烟市场的主要基调。但我们也看到,考虑到目前的经济状况,有20%左右的烟民在未来一年会减少卷烟消费支出。 研究人员认为,经济寒流中卷烟消费依然能够稳字当先,与卷烟消费的独特性密不可分。 首先,卷烟消费具有生理上的成瘾性,一般人在吸烟后都会形成一定程度的依赖性,表现在对卷烟口味偏好,吸烟时间和数量的相对稳定性等方面。 其次,卷烟消费具有重要的社会功能,香烟扮演着社交工具的重要角色,起着拉近彼此距离和润滑关系的重要作用。见面递烟早已成为中国人约定成俗社交礼节。 再次,缓解不良情绪、舒缓压力、提神醒脑也是消费者消费卷烟的重要原因。,2019/6/8,5,2019/6/8,6,低收入者是降低香烟消费的主要群体,当经济寒流袭来时,低阶层人群由于各方面资源都比较匮乏,往往最先感受到“寒意”,对经济状况的担忧使得他们尽量节省开支以应对经济上的巨大压力。 本次调查结果显示,不同收入水平的烟民在未来卷烟花费变化上有显著差异。在表示未来一年会减少卷烟花费的烟民中,月平均收入在2000元以下的消费者比例明显高于总体样本中该收入段群体的比例。,2019/6/8,7,资料来源:零点研究咨询集团08年12月13日完成的“城市居民09年消费信心和消费预期”系列调查,附图 预计削减卷烟消费的消费者和如何削减卷烟花费(N=256),2019/6/8,8,抽烟的档次15.9%,两者都降32.6%,抽烟的数量51.5%,2019/6/8,9,选择减少吸烟量的影响因素,卷烟消费整体呈现稳字当先的特点,这充分体现了卷烟消费的强大抗压性,卷烟作为一种特殊的嗜好品在人们生活中的地位可见一斑。 但是,在金融危机未来影响并不明朗的情况下,对不同类型消费者消费心理和行为的持续关注尤为必要。 对于烟草行业来说,只有深入了解和准确把握消费者在经济不景气情况下的消费心理和行为变化,在此基础上有针对性的采取措施积极应对,才能保持卷烟市场的稳定健康发展,更好的维护国家利益和消费者利益。,2019/6/8,10,数据的整理,编辑 编码 数据由计算机处理之编码明细单,2019/6/8,11,编辑,编辑是对数据进行筛选,即发现并挤出搜集起来的营销研究数据中的“水分”,选用真正有用的数据。 编辑通常分实地编辑和办公室编辑两步进行。,2019/6/8,12,实地编辑,实地编辑是初步编辑。 主要任务:发现数据中非常明显的遗漏和错误,帮助控制和管理实地调查队伍,及时调整调研方向、程序,帮助消除误解及有关特殊问题的处理。 应在问卷或其他的数据收集形式实施后尽快执行,以便问卷能在数据收集人员解散之前得到校正。 实地编辑对数据检查的项目主要有以下几项:完整性、清楚性、内容一致性、明确性、单位统一性。,2019/6/8,13,完整性:所搜集的数据是否完整和有无遗漏的书页、所有应问及应答的问题是否都已询问或回答等。 清楚性:被调查者送回的问卷、调研员的访问报告或观察记录的字迹是否清楚,字体是否易懂。如果发现无法辨认,必须尽快想办法澄清,否则舍弃不用。 内容的一致性:即所给的答案是否一致?是否有互相矛盾、前后不一致的地方?如有不一致之处,应设法澄清,或将矛盾的答案舍弃。 明确性:即答案的意义是否明确?开放题的答案常难以理解,答案中的某些用词如“这个”、“那个”、“他们”,常令人不知所指。如有含糊不清的答案要设法弄楚。 单位的统一性:以统一的单位记录答案是非常重要的。,2019/6/8,14,办公室编辑,在实地编辑之后进行。 主要任务:更完整、确切地审查和校正回收上来的全部数据。 为了保证数据的一致性,最好由一个人来处理所有的材料或者将该工作进行分割,由每名审核员对每一份问卷从头审到尾。 主要存在的问题是:不完全回答、明显的错误答案、由于被访人缺乏兴趣而作的搪塞回答以及对于开放性问题的打乱顺序的回答等。,不完整答卷的对策 大面积的无回答,或相当多的问题无回答 个别问题无回答 相当多的问对同一个问题(群)无回答 明显错误答案的对策 明显的错误答案是指那些前后不一致的答案,或其他答非所问的答案 根据全卷的答案内在逻辑联系对某些前后不一致的地方进行修正,其他不能修正情况按“不详值”对待。,2019/6/8,15,无兴趣答卷的对策 如果这种缺乏兴趣的回答仅属个别问卷,当彻底抛弃; 倘若这种答卷有一定的数目,且集中出现在同一个问题(群)上,就应该把这些问卷作为一个相对独立的子样本看待,在数据分析时给予适当注意。 对于最后判定按“不详值”处理的答案,审核员要用记号笔明确注明“不详值”字样或其代码。 纠正对开放性问题的打乱顺序的回答 在回答开放性问题时,被访人在答开放性问题A时顺口把将要在该问题之后某处才会出现的问题B的答案也带了出来,造成了答卷上B问题后的空白。 在办公室编辑中,如果发现上述情况,就应该把提前给出的答案照抄到它应该出现的地方,填补空白。,2019/6/8,16,2019/6/8,17,对次级数据的审核,(1)对著述性文献和行会文献的审核 清楚作者或编纂者的身份和背景; 对客观性相对较差的文献要持保留态度,尽可能引用客观性较强的文献; 注意文献的编写时间,这对记叙历史事件的文献尤为重要。 (2)对统计数据的审核 注意指标口径和数据分组问题; 指标口径系指指标的内涵、外延、计量单位、空间或时间等因素的总和。 次级数据的分组与调研设计不一致时,不能直接引用,而需要重新分组。 区分直接整理的数据和多次整理的数据。,2019/6/8,18,编码,编码就是对一个问题的不同回答进行分组和确定数字代码的过程。 编码有事前编码和事后编码。 全部封闭问题都是事前编码;开放式问题只能是在数据收集好后,根据受访者答复来编码。,2019/6/8,19,事后编码的基本步骤,(1)列出答案。 (2)将所有有意义的答案列成频数分布表。 (3)确定可以接受的分组数。 (4)根据拟定的分组数,对在第(2)步频数分布表中整理出来的答案进行挑选归并。 (5)为所确定的分组选择正式的描述词汇。 (6)根据分组结果制订编码规则。 (7)对全部回收问卷的该开放式问题答案进行编码。,2019/6/8,20,数据由计算机处理之编码明细单,编码明细单(codebook)是一份说明问卷中各个问题(即变量)及其答案,与计算机数据文件中的字段、数码位数及数码之间一一对应关系的文件。 在制订编码明细单时,需要注意以下几个问题: 所有的数据都必须转换成数值,不允许使用字母或其他字符。 每一个数值码占据一列,要为每个变量留出足够的列数。 对无信息的答案赋予标准代码。例如可以用“8”表示“不知道”,“9”表示“无回答”,“O”表示“不适合”。 每条记录的第一个字段都为被调查人序号码,即问卷编号。,2019/6/8,21,数据的初步分析列表,数据的列表(tabulation):把调查数据按照一定的目的、用表格的形式展现出来。 基本方法:计数变量值的出现次数。 单向列表(oneway tabulation):仅计数一个变量的不同数值的出现次数; 交叉列表(crosstabulation):同时计数两个或多个变量的不同数值联合出现的次数。,2019/6/8,22,单因素表格化分析,单向列表可以用于以下几个目的: 弄清无回答现象的程度; 弄清编误(blunder)发生于何处; 弄清飞点(outlier)发生于何处; 弄清变量的经验分布; 计算主要的描述指标。,2019/6/8,23,“无回答”,“缺省值”(missing value):在数据编码和登录时,用来表示“无回答”的数字。 对于缺省值通常有以下几种对策供选择: 保留下来作为单独的一组。 临时排除含有缺省值的记录。 以其他数值替补缺省值。 算术平均数适合用来替补区间尺度和比率尺度所测得的缺省值; 中位数可以用来替补顺序尺度所测得的缺省值; 众数可以用来替补类别尺度所测得的缺省值; 对于两点式问题的缺省值,可以按随机原则指定其答案属于“是”或“否”; 对于多项单选式问题的缺省值,可以按业已取得的有效答案的分布比率来指定替补值。,2019/6/8,24,编误与飞点,编误:在作单向列表时,可能发现一些不正常的数值,经查对原值并非如此,像这种发生在数据编码和登录过程中的误差称为“编误”。 飞点:与编误性质不同,飞点是经过查对能够确认的特殊的观测值,只是与其他的观察值相比,它们特别大或者特别小。 飞点是真实的观测值,所以不能被“纠正”,只能在列表和数据分析中作为特例来对待。 绘制箱索图(boxandwhisker)有助于发现飞点。,2019/6/8,25,频数分布表,当有飞点和其他极端值存在时,对变量分组时宜采用不等组距,并设立开口组。 经过试分组,确定组距。,2019/6/8,26,单向列表的主要描述量,众数:总体中各单位按照在某一标志上出现次数最多的变量值。 中位数:总体中各单位按其在某一标志上数值的大小顺序排列的,居于中间位置的变量值。 平均数:总体中各单位数值的和除以标准值项数得到的数值。 标准差:各个离差平方的算术平均数的平方根。,2019/6/8,27,多因素列表分析,交叉列表分析是同时将两个或两个以上具有有限类目数和确定值的变量,按照一定顺序对应排列在一张表中,从中分析变量之间的相关关系,得出科学结论的技术。 变量之间的分项必须交叉对应,从而使交叉表中每个结点的值反映不同变量的某一特征。,2019/6/8,28,双向交叉列表,双向交叉列表是同时有两个变量参加交叉分组的频数分布表,这种频数分布表称为列联表。 下面以“汽车保有量”为例。 问题:家庭收入在平均数之上的家庭是否比收入在平均数之下的家庭拥有更多的汽车? 操作:以中位数17 500美元作为选定的平均数,将全部家庭划分成低收入组(17 500美元)和高收入组(17 500美元)两组; 再按汽车保有量将全部家庭划分成2组,拥有汽车1辆之内的家庭为一组,1辆以上的家庭归为另一组。,2019/6/8,29,家庭收入与汽车保有呈交叉分组额数,表8-9家庭收入与汽车保有量交叉分组行组百分比,2019/6/8,30,表8-10家庭收入与汽车保有量交叉分组行组百分比,2019/6/8,31,表89与表810的对比,表89表明汽车保有量受收入水平的影响,41的高收入家庭拥有1辆以上的汽车,然而只有11的低收入家庭拥有1辆以上汽车。 表810表明64的拥有不超过1辆汽车的家庭属于低收入组,36的拥有不超过l辆汽车的家庭属于高收入组,这样的表述给人以汽车保有量主动影响收入水平的印象,显然是不合逻辑的。 为此,交叉列表一般都将自变量沿横向展开,将因变量沿纵向展开,相对频数计算行百分比。这种行百分比在总体上实质是一种条件概率。,2019/6/8,32,表8-11家庭规模与汽车保有量交叉分组,2019/6/8,33,从表8一11的数据来看,规模较小家庭拥有少辆汽车的比率为90拥有多辆汽车的比率为10;规模较大家庭拥有多辆汽车的比率为77,拥有少辆汽车的比率为23 。这表明家庭规模对汽车保有量有一定的影响。,三向交叉列表,第一步,先把其中一个自变量稳定在其各种量值之中的一个量值上,然后对另一自变量与因变量作双向交叉分组; 第二步,再将第一个自变量稳定在下一个量值上,作另外两个变量的交叉列表,依次类推,直至穷尽第一个自变量的所有量值; 第三步,最后列出没有第一个自变量介入的另外两上变量的交叉列表。,2019/6/8,34,三向交叉列表,2019/6/8,35,上表(表8-12)是把家庭规模作为第一个自变量,将收入作为另一个自变量,研究它们对于汽车保存有量的影响。,表8-13 家庭收入、家庭规模与汽车保有量交叉分组频数,2019/6/8,36,表8一14 按家庭收入和家庭规模交叉分组的拥有l辆以上汽车的家庭百分比,2019/6/8,37,家庭收入与家庭规模哪一个对汽车保有量影响力更大?,通过算术加权平均法求得不论家庭规模大小与否,单纯提升某户收入水平,该户拥有1辆以上汽车的机会所增加的百分点。 算式是: (0.1578+0.4322)(78+22)=021 对不同的收入水平综合起来考虑,家庭规模的扩大将使某户拥有1辆以上汽车的机会增加: (0.4654+0.7446)(54+46)=0.59 通过以上两步,可知家庭规模对汽车保有量的影响远比家庭收入水平的影响大。,2019/6/8,38,2019/6/8,39,数据的分析与解释,分析是以某种有意义的形式或次序把收集的数据重新展现出来。即回答“每组数据里有些什么信息?” 解释是在数据分析的基础上找出信息之间或手中信息与其他已知信息的联系,目的是从所收集的数据中获得结论。 数据的分析与解释是相互联系、相互依赖的。 分析和解释中任何一个不适当都会影响到研究结果的正确性。,数据的解释,在解释数据时没有一个统一的模式可循,但下面两个方面是必须注意的: 一是要理解归纳和演绎的推理方法; 二是要保证形成结论时的客观性。,2019/6/8,40,归纳和演绎的推理方法,归纳和演绎方法常被用来从数据中获得结论推断。 演绎推理方法是从一般的前提推到个别的结论的方法。 演绎推理的结论取决于前面的两个前提;而归纳法则是把一系列分离的事实或观察到的现象放在一起从而得出规律、法则。,2019/6/8,41,归纳推理方法在市场营销调研中的应用,归纳方法中,任何结论都是基于从调查、实验或观察中得出的证据。 市场营销研究中使用的通过对大量个体(或样本)的研究得出一般性结论的方法就是归纳法。 例如某个汽车方面的调查表明,100个汽车用户中有60个声称将来更换在新汽车时,很可能或绝对会买东风汽车。根据这60个个别发现,得出下面的结论:大部分汽车用户(60%
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025神经内科主治医师考试基础复习题及答案
- SOP内部培训资源整合方案
- 企业供应链管理信息系统方案
- 足浴场所卫生处置方案
- 面料后工艺制度
- 公司IT基础设施建设方案
- 2026广东佛山市顺德区高层次教育人才招聘13人备考题库(编制)及答案详解(易错题)
- 四川省南充市2026年度引进高层次人才备考题库附答案详解(完整版)
- 2026南方财经全媒体集团粤港澳新闻中心招聘记者实习生4人备考题库有完整答案详解
- 2026山东济宁市鱼台县应急局派驻双合煤矿专业技术人员招聘1人备考题库附答案详解(模拟题)
- 水利建设工程文明标准化工地创建指导手册
- 书法茶艺基础知识培训课件
- 工笔花鸟画教学课件
- 涵洞施工安全风险及应对措施
- 2025年海南辅警考试题库
- 中国的气候高中课件
- (高清版)DB11∕T 1455-2025 电动汽车充电基础设施规划设计标准
- 智能建筑危险性较大分部分项工程清单及安全措施
- 2025年贵州省中考理科综合(物理化学)试卷真题(含答案详解)
- 北京市海淀区2024-2025学年七年级下学期期中地理试题(解析版)
- 河南省部分名校2024-2025学年高二下学期4月期中联考政治试题(解析版)
评论
0/150
提交评论