已阅读5页,还剩72页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第15章基础数据分析 描述统计学 经济管理系杜丕烈 2 本章学习目标了解数据压缩的概念及其四种功能理解营销调研中统计分析的五种基本类型适用惯常用于描述数据的中心趋势法和发散法利用视窗SPSS学习掌握描述统计学 3 从业人员见解 绝大多数营销调研者会告诉你 他们总是在收集数据 但是只有成功的研究者知道如何利用那些数据去解决疑难的营销问题 明白分析什么 如何分析 如何解释结论 从而使你的研究有价值 懂得统计分析基础知识对于一名营销调研领域的成功者来说是必须的 在本章 你将学习营销调研的统计数据分析基础知识 你将知道该用什么数据 如何准备用于分析的数据 如何决定采用哪种类型分析法 及如何运用统计分析软件包视窗SPSS对你的数据进行描述分析 杰克 努南SPSS总裁 4 5 随着有线电视与卫星电视频道节目的猛烈进攻 以及能方便了解世界的英特网的入侵 报纸是否真的濒临灭亡了 6 在一项为 美国周末 所做的调查中 扬克洛维基 Yankelovich 公司有如下发现 60 的美国人读报 很多 72 读报最多的人是大学毕业 40 的 X代人 读报 而其中50岁 59岁的又占了69 83 的人在决定购物时觉得报纸广告很有用 61 的人在市场里买东西时关注报纸广告 经过分析 读者可分为五种类型 对他们的描述见表15 1 7 网络工作者 Networkers 专业工作人员 富裕 受过良好的教育 能控制他们的生活 交际人员 Interfacers 富裕 受过教育 事故 喜好娱乐 多民族 怀旧的一族 Retroactives 年纪较大 多已退休 不太富裕 大多为白人女性 新潮的一族 Neo bytes 年纪较轻 随和 有创造力 冲动 易于接受新事物 其余 Disconnecteds 受教育较少 退休或蓝领工人 守旧 8 表15 1对各种读者类的报纸用途的描述 9 本章将讨论营销调研者采用的各种统计技术 你不久就会了解到 它们的确是把杂乱的数据变成有意义信息的措施 正如在上面这个例子中对报纸行业所做的统计那样 10 编码数据与数据编码手册 当问卷筛选过和对其他问题处理后 研究者就可以进入数据分析过程的数据录入 dataentry 阶段 数据录入是指计算机文件的建立 这些文件收集了从认为适于分析的问卷中得到的原始数据 11 12 有多种数据录入方式 从每一个 每一段数据的键盘录入到计算机扫描系统 后者能把所有的问卷全部扫描进来 并在数分钟之内将其转化为数据文件 13 14 实际上 完善的问卷设计与分析软件程序包括计算机扫描操作功能 15 16 17 18 数据录入需要一种叫做数据编码 datacoding 的操作 它是关于在问卷上每一问题可能回答的代码的确定技术 典型的情况是 这些代码以数字表示 因为数字输入很便捷 而且计算机处理数字的效率远高于它们处理字母代码的效率 19 20 在大型项目中 特别是在数据录入由子承包者执行时 研究者们需要使用数据编码手册 datacodebook 数据编码手册确定了所有的变量名 组成数据集的各个问题的每一种可能回答的数字 有一本描述数据文件的代码手册 任何研究者都能在数据集上工作 不管研究者是否参与了研究项目的早期阶段的工作 21 数据压缩 数据矩阵 datamatrix 是调查中的原始数据经过编码后得到的 当面对一个数据矩阵时 营销调研者将面临的任务是数据压缩 数据压缩 datareduction 是指通过计算较少的数据集合中的数量来描述数据的过程 数据压缩浓缩了数据矩阵 同时 保留了足够的信息使得委托人能充分想象出它的突出特征 22 数据压缩的四种功能 数据压缩至少有四种功能 即概括 概念化 沟通 内推 下面是对它们的简要说明 23 由于我们在处理一个典型数据矩阵中 发现大量信息不一定对说明问题有用 所以凭借某种方法来概括信息是有必要的 概括 summarization 是将原始数据转变成一些有意义的计算结果的过程 当你被告知在10分制下 马自达公司的马爱德 Miata 轿车的平均得分是8 2分时 你已得到对该轿车欢迎程度的概括 概括 24 大多数统计量建立在某种假设的基础上 一旦你学会这些假设 它们就会成为想象信息方法的基础 概念化 conceptualization 是统计量所表达内容的想象 概念化意味着对统计量的表达内容的洞察 当你得知最近的一次营销调研测试的分数范围是从72 86 那么 你就能想象出一些关于你的同学在考试中的成绩 而如果范围是从25 98 你的想想就有很大的不同 概念化 25 营销调研者在某种程度上真可谓是多面手 当管理者或客户非常细心时 他或她必须充分地了解统计分析的细微差别 正如我们在第4章所讨论的 统计人员与管理者没有共同的知识背景时 就是营销调研者作为中介人的时候 沟通 communication 是一种翻译过程 这种过程将统计分析结果变成一种可理解的形式 沟通 26 一个数据矩阵中所包含的信息在许多方面是有用的 但其最重要的用途是把它用到目标总体上 内推 interpolation 这个概念的含义是极其广泛的 这里我们特指用来描述和刻画总体样本的数据矩阵模型或特征的度的估计数的内推 当研究者发现由1000名户主组成的样本中70 的人认为 垃圾 邮件是浪费纸张 这儿就有证据说明所有的户主中大部分赞同这一观点 因此 我们将从样本数据中得到的发现添加到总体上 这样我们就能了解到总体的特征 偏好等等内容 内推 27 应用于营销调研的统计分析类型 营销调研者应用五种基本数据分析类型 描述分析 推理分析 差别分析 联合分析和预测分析 见表15 2 每一种都在数据分析过程中担当着独特的角色 而且 通常联合成一种完整的信息分析方法 以满足研究的目的 28 表15 2营销调研者使用的五种统计分析 29 描述分析 诸如均值 众数 标准差或极差是描述分析 descriptiveanalysis 的形式 营销调研者用它们描述样本数据矩阵 来描绘出典型的被访问者与揭示回答的一般模式 描述法在分析过程早期经常用到 而且成为随后分析的基础 30 推理分析 推理分析是在样本数据的基础上推导出关于总体特征的结论 营销调研者把样本所得结果推广到样本代表的目标总体上去 此过程被称为推理分析 inferentialanalysis 推理分析包括假设检验和在样本信息基础上估计真的总体值 我们将在第16章中讲述基本的统计推理 31 差别分析 偶尔 营销调研者需要确定两组数据是否有差异 例如 研究者可能正在调查信用卡的用途 想看看 在经常使用美国运通卡 AmericanExpress 方面 高收入者与低收入者相比是否有所不同 32 33 研究者可以进行统计以比较高收入消费者对低收入消费者的年均用美国运通卡结算的美元消费 重要的市场细分信息可能来自此种分析 34 通过试验 看几种可选择的广告主题中哪一种能给被测试观众的代表留下最深刻的印象 为了帮助管理者对选择哪种广告主题作出正确的决定 研究者运用差别分析 differencesanalysis 来确定总体中真实存在的总的差异程度 35 统计差别分析包括对于组与组之间显著差别的t检验法与方差分析法 我们将在第16章中定义和讨论它们 36 联合分析 其他的统计技术被研究者用来确定变量之间的系统相关性 联合分析 associativeanalysis 审查两个变量是否相关和如何相关 例如 广告宣传的响应得分与打算购买已做过广告的品牌一定有关系吗 对激起购买欲的花费与购买欲望的表现肯定有联系吗 依靠做过的统计 分析结果可以指出给定研究问卷中两个问题的联系强度与方向 我们将在第17章说明交叉表与相关性 它们是营销调研中所用的基本的联合分析法 37 预测分析 帮助营销调研者对未来事件进行预测的统计步骤与模型是可以得到的 而这些从属于预测分析 predictiveanalysis 一类 回归分析或时间序列分析通常被营销调研者用来增强预测能力 由于营销经理们特别关心在特定情况下 如涨价 未来会发生什么事 因而预测是非常令人向往的 预测分析的深入介绍将在第18章中进行 38 我们现在来分析研究者从被访问者样本中获得数据后 用来分析描述的几种工具 通过描述分析理解数据 39 设想你是营销调研者 遇到了像表15 3提供的数据矩阵 这些数据来自于汽车用途和合成汽油对常规汽油引起费用变化后的研究 与常规汽油相比 引擎合成汽油不会产生危害环境的影响 40 41 42 Explanationsofvariables A RespondentIDnumberB User 1 vs nonuser 0 C Premium 1 vs regulargasoline 0 D paidforlasttune upE MilesdrivenlastmonthF Gallonsofgasinlastfill upG Payswithcreditcard 1 orcash 0 H AgeofrespondentI RecreationalmilesdrivenlastweekJ WorkmilesdrivenlastweekK LastthreedigitsofzipcodeL Genderofrespondent male 1 orfemale 2 43 变量说明 A 被访问者身份号 B 合成汽油用户 记1 非用户 记0 C 初次用 记1 常用者 记0 D 由于最近一次价格调整后付的款 E 最近一个月行驶的里程数 F 最近一次加汽油的加仑数 G 用信用卡支付 记1 用现金支付 记0 H 被访问者的年龄 I 上一周的行驶里程 J 上一周工作行驶的里程 K 邮编的最后3个数 L 被访问者的性别 男 记1 女 记2 44 数据压缩的第一步是找寻能体现每个变量变化模式的参量 我们必须找到一些便利的方法对每一列的数字进行概括 同时要尽可能地按数字集的属性来表达 45 两组数量广泛地用于描述同一个样本所办含的信息 第一组包括关于 中心趋势 的数量或者说描述 典型 的被访问者或回答的数量 第二组包括关于 变化性 的数量或者说是描述被访问者或反映同 典型 的被访问者或反映如何相似 不相似 的数量 其他类型的数量像偏斜量或峰度值也可以得到 但是它们对于中心趋势和与其变化性帮助不大 实际上 它们很少报告给营销调研的委托人 46 中心趋势量 数据压缩包含所有中心趋势量 measuresofcentraltendency 的基本目标是给出对一个问题最典型的回答 中心趋势量可用于一种典型的或经常性响应的测量之中 有三个这样的中心趋势量通常用作数据压缩工具 它们是众数 中位数与均值 我们依次来描述它们 47 众数 mode 是一种描述统计量 是一串数字中出现次数最多的值 换句话说 当你扫视数据矩阵中一片区域的数字时 众数是出现次数比别的数多的那个数字 例如 表15 3中在标记为B的用户这一列下 0出现了17次 1出现了13次 这意味着众数是零 它代表了不用合成汽油的用户 48 你一定注意到众数是关于中心趋势的一个相对量 因为它不需要多数回答 相反 它仅是指出现最频繁的那个值 例如 在表15 3中 F列下关于最近购买的加仑数8是所有数字中出现频率最高的 所以这列众数为8 但8显然不是大多数 在这一列里共有30个数 49 找出众数有一种简单的方法 先把每个数字在串中的频数或分布百分率列成表 然后研究者可以查找出发生率最大者 或者可使用直方图帮助获得 50 中心趋势的另一个表示量是中位数 median 它表示了一组有序值的列里居中的那个值 也就是说 这个值是这样的 其余值中一半要大于这个值 而剩余的一半要小于这个值 所以 中位数告诉了我们在一列或一串按升序或降序排列的数字中大致的中间点 如果是奇数个值 中位数会落在某一个值上 如果是偶数个值 则中位数会落在两个相邻的值中间 51 为了确定中位数 研究者对于按升序或降序排列的一串数字建立了出现次数或出现百分率 除原始的百分率外 他 她计算累计百分率 而且通过这些来找出50 50之间的转折点 52 我们就以表15 3的最初5位被访问者为例 在D列中这些值为150美元 105美元 50美元 40美元 20美元 这里由于2个值 150美元与105美元 在50美元之前 又有两个值 40美元与20美元 在50美元之后 所以中位数为50美元 53 你一定注意到了中位数比众数提供了更多的信息 因为众数可以出现在数字串中的任意位置 而中位数肯定处在中间位置上 54 第三个关于中心趋势的量是均值 均值 mean 是刻画一组数字的算术平均值 它不同于众数与中位数 因为确定算术平均值要经过计算 均值计算要通过下面这个公式 算术平均值式中 n为一组中的个数 为各个数值 为值的累加 55 正如你看到的 n个数字组成的数列里的所有成员 每一个标为 求出它们的总和 然后除以项数 其结果就是均值 这个量指出那些值的中心趋势 它在数列中接近于典型值 56 举例说 让我们来计算表15 3中E列下合成汽油数据集中30位被提问者最近一个月行驶的里程均值 这30个数字之和是50062 这个和被30除 得到1668 7 57 由于均值计算公式把数字集合中每一个都考虑到了 故而它比中位数提供了更多的信息 58 变化性的量 尽管中心趋势量极其有用 但在描述一组特定的数字集合中的值的变化时还是不够的 也就是说 它们没有指出对一个特定问题回答的差异性 而且也不能指出调查中被访问者的一些特征上的差异性 59 为获得对值的差异性或变化性的敏感度 营销调研者必须求助于变化性的量 所有变化性的量 measuresofvariability 都是关于描述一组值中 值与值之间 典型 的差异 这里有三种关于变化性的量 频率分布 极差和标准差 60 频率分布 频率分布 frequencydistribution 是一套特定的数值集合中每一个不同的值出现的次数表 61 频率本身是原始计数 通常把这些频率转化为百分率以便于比较 这个转化就是用观察的样本个体总数去除每个值的出现频率 结果转化为百分数 就是百分率分布 percentagedistribution 62 举例讲 在使用的汽油方面 我们说有17名被访问者提出他们不是合成汽油的用户 而有13名被访问者说他们是合成汽油的用户 这些数字是对每一类型用户的出现频率的计数 用分析过的对象总数 本例中为30 去除频率 分别得到的百分数是56 7 与43 3 63 极差 极差 range 表示出一个有序值集合中最低值 最小值 与最高值 最大值 之间的距离 64 极差没有提供像频率分布那样多的信息 但是它指明了分布中所产生的间隔 极差也未告诉你最大值与最小值出现多少次 但它通过指出极值之间的间隔多远 提供了一些关于分散性的信息 65 举例来说 你在查看表15 3中F列下关于最近一次购买汽油加仑数字时 你会发现最小的数字是3 而最大的是14 所以极差是从3加仑到14加仑 或者说是11加仑 66 标准差 标准差 standarddeviation 指出了变化的程度或者说是值的多样性 这些值在一定意义上可以转化成正态分布或钟型曲线分布 67 标准差的公式如下 标准差 式中 n是样本容量 是样本第i个应答者的答案值 是答案的平均值 68 我们用合成汽油
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环境设计毕业设计初稿
- 协调的评估与训练
- 基本营养物质化学
- 仿写句子的方法
- 2025【毕业生就业协议书范本】劳动合同范本版
- 2025版脑出血常见症状及护理守则培训
- 日常运动安全教育
- 餐饮月季度员工大会
- 银行防范化解金融风险策略
- 派驻江西江铜华东铜箔有限公司劳务派遣人员模拟试卷含答案
- 小学1-6年级数学公式大全(表格速记)
- 供电企业设备维修保养规范
- 临床医学三基三严培训
- 如何提升护理人员教学能力
- 湘豫名校联盟2026届高三上学期秋季入学摸底考试英语试卷(含答案无听力原文及音频)
- 宾馆娱乐内城装饰工程施工组织设计方案
- 猴痘预防知识培训课件
- 机动车查验相关知识培训课件
- 临床中心静脉导管冲管及封管专家共识
- 管理层财务基础知识培训
- 常见急诊急救处理规范
评论
0/150
提交评论