




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
任务6 市场调查数据分析6.1 常用的统计方法1、变量类型在编码时我们已经提到过,问卷的每一个题目都可以看做是一个变量,由于所提问题的性质不同,对应的变量类别就不一样,变量的类别由低到高依次为:定类变量、定序变量、定距变量(定比变量)。(1)定类变量:变量的不同取值仅仅代表了不同类的事物,这样的变量叫定类变量。问卷的人口特征中最常使用的问题,而调查被访对象的“性别”,就是定类变量。对于定类变量,加减乘除等运算是没有实际意义的。(2)定序变量:变量的值不仅能够代表事物的分类,还能代表事物按某种特性的排序,这样的变量叫定序变量。问卷的人口特征中最常使用的问题“教育程度”,以及态度量表题目等都是定序变量,定序变量的值之间可以比较大小,或者有强弱顺序,但两个值的差一般没有什么实际意义。(3)定距变量:变量的值之间可以比较大小,两个值的差有实际意义,这样的变量叫定距变量。有时问卷在调查被访者的“年龄”和“每月平均收入”,都是定距变量。定比变量与定距变量在市场调查中一般不加以区分,它们的差别在于,定距变量取值为“0”时,不表示“没有”,仅仅是取值为0。定比变量取值为“0”时,则表示“没有”。上面举的“年龄”、“每月平均收入”也是定比变量,因为它们的“0”值都表示“没有”。而像“温度”这样的变量中的“0”值并不表示“没有”,而是表示“0”这一特定温度,这样的变量是定距变量,但不是定比变量。在统计分析时,对不同类型的变量要选用不同的方法。一般的原则是适于较低类别变量的统计方法也可用于较高类别的变量,反之则不行。比如适用于定类变量的分析方法,同时也可用于其他类别的变量,反过来适于定距变量的分析方法,一般不能用于其他类别的变量。由于市场调查中的定类、定序变量较多,为了能够使用更多的统计方法,常常将有些定类和定序变量通过某些转换变成定距变量或近似看成定距变量,这样只适用于定距变量的统计方法,就可以用于这些定类和定序变量了。对于缺失值的处理在数据整理中,经常会碰到缺失值的问题,缺失值的数量过多的话,说明数据收集过程中存在着严重的问题。可以接受的标准是,缺失值的数量在10%以下。处理缺失值的方法有下面4种:(1)用一个样本统计量的值代替缺失值缺失值可以使用一个样本的统计量去代替,最典型的做法就是使用该变量的样本平均值。由于该变量的平均值保持不变,其他的统计量如标准差、相关系数等都不会受到影响。如在收入或者年龄问题中出现缺失值,可以使用收入、年龄的平均值代替缺失值。 (2)用从一个统计模型计算出来的值去代替缺失值另一种缺失值的处理方法就是利用由某些统计模型计算得到的比较合理的值代替,常使用的模型有回归模型、判别模型等等。如“个人收入”、“ 年龄”与“品牌的选择”可能存在关系,利用这三个问题的被访者问答数据,可能构造出一个回归方程。根据这个回归方程,对于没有回答“品牌选择”的被访者,可以根据“个人收入”和“年龄”的选项,利用回归方程式,计算出品牌选择的值。(3)将有缺失值的个案删除将有缺失值的个鞍删除的方法,结果可能会导致样本量的减少,如果调查在收集过程中控制得不是很好,被访对象多多少少都会出现一些问题没有回答的情况,删除个案的方法,会导致大量的样本减少。(4)将有缺失值的个案保留,仅在相应的分析中做必要的删除将有缺失值的个案保留,仅在相应的分析中做必要的排除的方法,会使分析中不同计算的样本量不同,也有可能导致不适宜的结果。调查的样本量比较大,缺失值的数量又不是很多,而且变量之间也不存在高度的相关的情况下,市场研究者经常采用这种方式处理缺失值。2、统计方法根据研究的目的与要求,要选择不同的统计方法。如果是对一个变量取值的归纳整理及对其分布形态的研究,用频数分析(计算百分比等)、众数、中位数、均值和标准差等方法或统计量来描述;对两个变量的相关性分析,可以用卡方分析、单因素方差分析、简单相关系数、一元线性回归分析等方法;对多个变量间的相关性分析,可以用多元线性回归、判别分析、聚类分析、因子分析等方法。在学习掌握这些统计方法的同时,还应该会熟练使用相关的统计软件,因为很多统计方法靠手工计算是难以完成的。现在普遍使用的统计软件是SPSS、SAS。下面我们分单变量的分析、两个变量的相关分析、多个变量的相关分析三部分,介绍一些常用的统计方法,主要介绍如何应用这些方法,并列举模拟的例子,给出相应的用SPSS统计软件分析的结果,使读者能够较快地学会使用这些方法。6.2 单变量分析1、频数和百分比所谓频数(Frequencies),时变量某一个去值的个案数;所谓百分比(Percentage),是表示该取值的个案数占总样本的比例,即频数/样本量100%。将变量所有取值的频数和百分比列在一个表中,这种表叫频数表,从中可以看出变量各个取值的分布情况。频数表分析方式一般适用于定序变量和定类变量,对定距变量,必须先将变量的取值进行分组,每一个分组作为一个新的选项,然后对这些新的选项进行频数表的计算。【例如】表中第一列是“变量标签”,是对变量取值的说明(现在使用的SPSS软件虽然是英文版,但是已经可以兼容中文,变量标签可以使用中文表示)。第二列是“变量取值”,即:“1”至“5”分别代表了“非常不好”到“非常好”,其中“.”代表缺失值,即有些人没有回答此题;第三列是“频数”,对应的数值表示各个取值的个案数,这里认为“非常好”有16样本、认为“好”的有216个样本、认为“一般”的有193人、认为“不好”的有10个样本、认为“非常不好”的有1个人,而没回答此题约有65人。第四列是“百分比”,是频数对样本量(501人)的比率。第五列是“有效百分比”,是频数对有效个案数(所谓有效个案数,即样本量减去缺失个案数)的比例,这里有效个案数是436人。第六列是“累计百分比”,是对有效百分比的逐行累加的结果。从对该题的频数分析的结果来看,对A品牌广告的评价总的来说还是倾向于比较好的,所有的样本中,认为“不好”或者“非常不好”的比例合计只有2.5%,即占样本2.5%的人不喜欢A品牌的广告。频数和百分比计算中,百分比大小比较是一个相对的概念,频数大小则是绝对的数值,在市场分析报告中,经常利用百分比来说明结果,但是有时也需要频数进一步的说明之间的差异。在比较两个公司的营业额的增长幅度时,A公司和B公司的经营规模差异巨大的情况下,虽然A公司的增长幅度没有B公司快,这是因为A公司的实际规模可能是B公司的几十倍,在这种情况下,也需要比较增长的实际数额,才能全面的说明问题。2、指数指数(Index)的计算方法很多,最常用的一种方法是,将一些待比较的数字中的一个特定的数字定为基数100,计算其他数字相对于基数的百分数。用各种指数来描述和比较一些特定的市场的问题,既方便又直观。定义适当的指数不但可以进行横向(不同空间)的比较,还可以进行纵向(不同时间)的比较。为了说明20多年来广告的发展情况,可以1978广告营业额作为基数,计算以后每年广告经营额与基数的百分比,如果小于100的指数表明广告经营额的负增长,如果大于100的指数,代表增长,而且还能够计算出来增长的幅度。指数的使用和计算方法多种多样,在使用时要注意几个问题:首先,自定义指数时,应以简便的、合理的描述研究结果为原则;在自定义指数时,在考虑定义的合理性和科学性的基础上,还需要考虑其计算是否方便可行。因此使用指数进行比较时,首先应该查阅和参考那些已经明确定义的、使用广泛的指数,避免重复制造。其次,在应用这些指数的概念时,还必须详细了解其定义和计算方法,以便正确的使用。目前国内的中国统计年鉴和各个省市的统计年鉴中,指数使用已经非常平常。包括价格指数、消费指数、收入指数等,同时类似于房地产价格指数、股票价格指数等在相应的专业领域里使用的也是非常广泛。最后,指数定义的基数一定要与研究目的紧密结合,根据调查的目的,确定是进行横向比较,还是进行纵向比较更为有效,从而确定基数的订立基准。3、众数、中位数、均值和标准差用于描述一组市场调查数据或资料的中心的常用的统计量有三种:众数、中位数和平均数。所谓众数(Mode),是表示一组数据中出现次数最多或最常见的数值。在市场调查的数据中,众数代表了典型的个案,或者是分布的高峰所对应的变量取值。变量的所有取值中频数最大的取值,如在消费者的教育程度问题里,初中学历程度选项最多,所以初中相对应的变量编码,就是众数。众数适于描述定序和定类变量,对于定距变量,可先将数据分组,分组后频数最大的那一组的组中值,被近似的认为是该变量的众数。 中位数(Median)表示一组数据按照大小的顺序排列时,中间位置的那个数值,即针对某个变量,有50%的个案的取值在中位数以下。通俗的讲,样本的所有观测值中,有一半数比中位数大,有一半数比中位数小。中位数的计算时会面临两种情况:当样本数(n)是奇数时,将样本的所有观测值按由小到大(或由大到小)的顺序排列,排在中间位置上的数值即为中位数;当样本为偶数时,排在中间两个位置上的数值的平均值即为中位数。中位数适用于定序变量,对于定距变量,还是首先对观测值进行分组,简单的方法就是用中间那一组的组中值作为变量的中位数。平均数(Mean)也叫均值,等于样本的所有n个观测值之和除以样本量。假设n个观测值用x1,x2,x n表示,均值用 x 表示,均值的公式为:这里公式(2)是针对分组的数据而言,其中X表示某变量的取值,f 表示变量落在某一组中的频数, 表示对所有的值求和(或者对所有的组求和)。平均数是最典型也是最常用的统计量,适用于定距变量和定比变量。平均数也是最有“意义”的统计量,它可以看作是数据的“平衡点”或“重心”位置所在。因为中位数在计算时,使用到了所有的数据,所以与众数和中位数相比,所包含的信息量最大。但是平均数受受极端值的影响很大,个别的极端值会直接影响平均数的熟知的变化,不如中位数和众数稳定。因此当调查的数据分布比较规则,不存在什么极端值,或数据对中心的偏离不是很大的情况下,平均数是很好的描述统计量;如果存在极端值或分布步偏离比较大时,还必须使用众数和中位数的来补充描述。众数、中位数、均值都是对变量分布中心的描述,其中均值最为常用。对变量的分布形状的描述,最常用的统计量是方差或标准差。所谓方差(Variance)或标准差(Standard variance)是表示分布对平均数的偏离程度或伸展程度的度量。计算公式是:标准差 ,标准差的大小反映了数据对均值的离散程度,标准差越小,表明数据越集中于均值附近
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学生外出旅游安全协议书5篇
- 新解读《GB-T 32622-2016社会保险征缴稽核业务规范》
- 2025防盗门工程承包合同2篇
- 高级房屋售卖合同范本
- 赠予车位合同范本
- 河南高层工程施工方案
- 简易办公租房合同范本
- 石材购销合同范本
- 的消防合同范本
- 承建喷泉工程合同范本
- 苏州大学介绍
- 水淹车培训课件
- 液压与气压传动技术 第四版 习题参考答案 徐钢涛 -00绪论-08气压传动
- 2024-2030全球内部人才市场行业调研及趋势分析报告
- 2024-2025学年度第二学期人教版八年级数学下册暑假作业含答案(共21天)
- 院感知识:手卫生
- 希沃录制知识胶囊操作指南
- (完整)新部编人教版八年级上册历史复习提纲
- 篮球特色课程说课模板
- 中西医治疗心血管病
- 全国风压及雪压基本值表
评论
0/150
提交评论