




已阅读5页,还剩38页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章 定性数据的 检验,对定性指标的基本分析方法是按照它的变动范围进行分类,调查机构按照某种设计方案发放问卷,从回收的问卷中可统计出各种属性的计数结果,如喜欢某种商品包装设计的人数,这种数据称为频数。由此可以计算出不同分类的频数分布,为深入分析这些定性资料奠定基础。本章的目的是提高定性资料的分析水平,主要介绍定性数据的列联表分析和 检验在实际统计分析中的应用。,3.1 多项分布与 分布,收集分类数据的目的是分析在每个类中数据的分布。例如,我们为了估计消费者中喜欢三种牙膏中每一种的比例,则统计购买者三种牙膏的顾客购买每一种的人数。在这里仅仅是根据牙膏的种类来分类,我们称之为一维分类或一向分类。下面通过例子来介绍一向分类数据的分析。,例3.1 某超市为了研究顾客对三种矿泉水的 喜好比例,以便为下一次进货提供决策,随机 观察了150名购买者,并记录下他们所买的品 牌,统计出购买三种品牌的人数,如下表所示: 顾客购买喜好调查 这些数据是否说明顾客对这三种矿泉水的喜好 确实存在差异?,解:由于该问题有甲、乙、丙三类,所以这个分布称为多项 概率分布,简称多项分布。 多项分布是二项分布的推广,可以看成多项实验得到的分 布。多项试验有如下一些性质: 1.多项试验由n个相同的实验组成; 2.每个实验的结果落在k组的某一组中; 3.某个实验的结果落在某一特定组,比如说组 中的概率为 且在试验之间保持不变,且有 4.实验是独立的; 5.实验者关心 ,这里 等于实验 结果落在组 中的数目。注意: 在多数试验中,当 时,就得到二项分布。 在多数实际情况下,k个可能结果的概率 通常是未知的,我们的目的就是对他们进行推断。,对于例3.1,我们希望去检验顾客对三种矿泉 水品牌的喜好是否存在差异,考虑检验零假设 为对三种品牌的喜好没有差异,对立假设为对 三种品牌的喜好存在差异。 令 p1=所有顾客中喜欢品牌甲的比例 p2=所有顾客中喜欢品牌甲的比例 p3=所有顾客中喜欢品牌甲的比例 则我们所要检验的假设为: H0: p1= p2= p3=1/3 H1: 至少一个比例超过1/3,假设三类的观察次数分别为 和 , 。如果H0成立,我们希望在样本中喜欢每一品牌的顾客差不多1/3的比例。或者说对n个顾客中喜欢第一种品牌的顾客的人数的期望值应为: 同理 于是对某一次抽样来说, 和 的差距在H0成 立时比较小;反之,如 和 的差距比较大,则有 理由拒绝H0。为此考虑如下统计量:,如果 值很大,则有理由拒绝H0,拒绝域为: 由假设检验的一般原理知,c的值可由给定的显 著性水平 确定,即c满足 关于统计量 的分布,英国统计学家Karl Pearson 给出下面的定理: 设总体中的每一个个体属于且只属 ,k个类之一。总体中属于k个类的比例为 。先从总体中随机抽查n个,其中属于 类有 个 。,定义统计量 则当n充分大时, 统计量遵从自由度为k-1的 分布 一般要求n应较大,使得每一类中的期望值个数 不少于5。 由以上定理知,当n充分大时, ,从而 对例3.1来说, ,当 时,,由于 ,因此拒绝零假设。 即认为顾客对这三种品牌矿泉水的喜好确实存 在差异。 利用统计分析软件SPSS13.0可以大大简 化计算过程,下面用统计软件对例3.1进行分析。,1.按要求录入数据; 2.选择 对数据进行加权; 3.选择 进行非参数检验 例3.1 1.录入数据,2.打开 对话框,将 放入 ,单击OK。,3.打开 对话框,把 选入 栏中,单击OK。,得到如下分析结果 从输出结果可以看出, ,且p值(sig)为0.038小于 ,检验结果与上述计算结果一致,故有理由拒绝原假设,认为顾客顾客对三种品牌矿泉水的喜好确实是有差异的。 例3.2见课本,方法完全相同。,3.2 列联表分析,问卷调查中常涉及对某个问题两个或多个不同特征的分类。如:房地产商考虑顾客选择房子设计的类型与职业的关系,所调查的每个顾客都有两个特性,一个是选择房子的类型,一个是职业。例子中我们通常关心的是按照两个特性进行的分类的方法之间是否相互依赖,或者说是否相互独立。 列联表(contingency table) 设有两个特性,特性A有c类,特性B有r类,属于Aj和Bi的个体数目为 nij (i=1,2,r;j=1,2,c)。,列联表,上表中, 称同时属于 和 类的概率,称为联合概率;最后一行相应的概率 为以特性A分类的一向多项概率分布,称为边际概率分布。同样,最后一列也是边际概率。 类似的,对应表3-3的 列联表的多项概率分布见表3-4. (P49),例3.3 一个建筑装饰公司对一个城市三个地区的乔迁居民喜好地板的比例感兴趣,目的是决定对这些地区应采取何种营销策略。这个公司的调研部进行了一项调查,结果见表3-5.这些数据是否提供证据证明该城市不同地区的居民对地板喜好的比例确有不同?( ),解:设不同地区居民对地板喜好的比例如下表 设H0:居民对地板的喜好与地区无关 H1:居民对地板的喜好与地区有关 记:A=居民来自地区1,B =居民喜好地板,则 ,如果H0成立,则A与B独立,于是 ,而 , ,从而,H0成立,必须有 ;同理有 等等 故上面假设可以表达成 H0: H1:上述等式至少有一个不成立 为了检验上述假设,我们借助于与一维多项分布检 验类似的方法。首先计算在零假设成立时每一类中的 期望的个数。例如: H0成立时, ,从而 由于 和 未知,故用样本比例 , 来估计,于是,同理 根据样本观察数据,得到,每一类的观察频数与期望频数见下表 然后根据前面分类数据的 统计量来比较每一类的观察频数和估计得期望频数。,将数据代入上式,得到 统计量近似遵从 分布,自由度为(r-1)(c-1),其中r和c分别为列联表的行数和列数。本例中自由度为(2-1)(3-1)=2,这样,对 ,如果 则拒绝零假设。 对于本例, ,故有充分理由拒绝零假设。,利用SPSS进行分析,1、按要求录入数据 2、选择 3、选择 将变量放入相应的位置,单击 ,选 择 ,按 ;单击 ,选 择 ,按 ,点OK。,实例演示例3.3,1、录入数据,2、选择 ,打开 对话框,把freq放入Frequency栏中,单 击OK。,3、选择,从表中可以看出,p=0.039a=0.05,拒绝原假 设,认为居民对地板的喜好程度在不同的地区 是不一样的。 例3.4与3.5的做法与此相同,见课本p54-57,3.3 一致性检验,一致性 检验与独立性 检验之间是有差别的,它们所用的抽样程序不同;推算预期频数时的根据不同;对结果的解释不同。 在做独立性 检验时,典型的抽样程序是从一个总体抽出一个样本,然后根据两种分类准则对样本实体进行交叉分类。在进行一致性检验时,我们先把两个或多个感兴趣的总体等同起来,并从每一个总体各抽选一个样本,然后将这些样本的实体放到一个感兴趣变量的各种不同类目中去。,在列联表分析中,推算预期频数的根据是n个 事件协同出现的概率。对于一致性检验,推算 预期频数的根据是建立在这样一个假定的基础 上的:如果n个被抽样总体是一致的,我们就 能通过将n个适当的样本联合起来的方法,来 求得某一给定总体的某个个体落在感兴趣变量 的某一给定类目中的概率的最佳估计值。 例如:假定两个被抽样总体是某企业的男职 工和女职工,而感兴趣的变量则为对待管理的 态度。假定这个变量有两个类目对管理满 意和对管理不满意。再假定在一个由100名男,子组成的样本中,有30人对管理满意;而在由110 名妇女组成的另一个一个样本中,有45人满意.如 果男职工和女职工如我们假设的那样对管理的态度 是一致的,那么就而我们感兴趣的变量而言,可以 将两个样本联合起来,并把它们视作来自同一总体 的一个样本。然后利用联合样本的信息,求出对管 理感到满意的男子和妇女的真正比 例:(30+45)/(100+110)=0.3571 将这一比例数用于100名男子的样本,给出对管理 满意的男子的期望频数为100*0.3571=35.71。将 这一比例数用于110名女职工的样本,给出对管理满意的女职工的期望频数为110*0.3571=39.28。,例3.6 一个广告公司想知道n组年龄不同的人所喜欢的电视节目是否相同。他们在不同年龄的三组人中各抽选了一个随机样本,并请求样本中的每一个人回答在三类电视节目中他或她喜欢哪一类。调查结果如下表,括号内是预期频数。,解:表中的预期频数是运用一致性检验中的推理根据算出来的。如果就对节目的喜欢来说三个被抽样总体是一致的,则在每一个年龄小组中,喜欢A类节目者的真正比例的最佳估计值应为140/400=0.35。对每一个样本合计数乘以0.35,便得出每一年龄小组中喜欢A类节目者的预期频数。于是有200*0.35=70,100*0.35=35,100*0.35=35。表中另外两列的预期频数可用类似的方法得出。 H0:就所喜欢的电视节目类型而言三个年龄组是一致的 H1:三个年龄组不一致,当给定 时, 由于 ,故我们拒绝零假设。 将表中数据按照例3.3的步骤得到输出结果如下:,前一表中列出了每一类估计得期望频数,与给出的结果基本一致(在四舍五入上略有差别)。后一表中可以看出p=0.00,因此有充分的理由拒绝零假设,与上述计算结果一致。,3.4 拟合优度检验,用 检验进行列联表分析是一个有力的工具,实际上, 检验也可用于总体的分布检验。 用 检验进行总体的分布检验,关键是将总体的取值进行分类。如果总体只取有限个值,则就去每一个值作为一类。如果总体取无限个离散值,则通过适当合并,变成只取有限个值的类。 合并的原则是使合并类中的每一类的实际数等于或超过5,如果总体是一连续总体,则将总体的取值范围分成有限个类,分类的原则仍然是使每一类中的期望频数等于或超过5。通过分类,将分布检验问题转变成分类数据的检验问题。,例3.7 某宾馆为了研究每日注销的房间数所遵从的分布规律,管理人员观察在为期300天的时间内预订和注销房间的格局,他们将所观察到的注销结果列于下表。这些数据是否同“每日注销的房间数遵从泊松分布”这一假设相容?设 在这里主要给出SPSS的操作过程。其他过程见课本P6162,将合并后的项目数和观察频数输入数据表中,如下表,变量Cancel表示注销房间数,在此1和11分别代表合并后的两组数据;变量Days表示观察到的天数。,选择 ,打开 对话框。把Days放入Frequency栏中,单击OK 。,从 打开Chi-Squaretest对话框,把C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 铸轧工设备点检考核试卷及答案
- 2025年度南阳开元学校高中部招聘教师10人模拟试卷有完整答案详解
- PDE1-IN-9-hydrochloride-生命科学试剂-MCE
- 2025广东广州市筑业城建有限公司招聘工作人员、人员模拟试卷参考答案详解
- 报社行政笔试试题及答案
- 2025年天津近代历史题库及答案
- 景观工程质量控制与安全管理方案
- 2025年临沂面试真题题目及答案
- 西藏2025自考行政管理公共政策分析模拟题及答案
- 机械检验考试试题及答案
- 大学生职业生涯规划与就业指导全套教学课件
- 5KW储能电源作业指导书
- (2024版)小学六年级数学考试命题趋势分析
- 中级注册安全工程师-其他安全历年真题
- 小学生自己修改作文能力的培养研究课题结题报告.文档
- CREO基础培训教程
- 食品保质期检测记录表
- 诗化小说示范课
- (17)-第三节 反抗外国武装侵略的斗争
- 04质量奖(现场)评审报告
- 《罗织经》全文及翻译
评论
0/150
提交评论