《定性数据》ppt课件_第1页
《定性数据》ppt课件_第2页
《定性数据》ppt课件_第3页
《定性数据》ppt课件_第4页
《定性数据》ppt课件_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、定性数据统计分析 Categorical Data Analysis 教学内容 第一章 定性数据 第二章 分类数据的检验 第三章 四格表 第四章 二维列联表 第五章 高维列联表 第六章 逻辑斯蒂回归模型 第七章 对数线性模型 第八章 列联表的对应分析 第一章 定性数据 什么是定性数据? 数据的类型 根据数据的取值来分: 1.计量数据(Continuous Data) : 身高、体重等; 取值为恣意实数 2.计数数据(Counts) : 职工人数、成交股票数 等; 取值为非负整数 3.名义数据(Nominal Data) : 性别、婚姻情况 等; 取值为属性编码 4.有序数据(Ordinal D

2、ata) : 文化程度、称心 度等; 取值为可排序的属性编码 第一章 定性数据 定性数据的描画性统计 方法有表格法、图示法、数值法 1、表格法 【例】向50个被访者调查“他最喜欢喝的饮 料,得到表1.1。 以上数据经按类别整理后,可得到频数分 布表,见表1.2。 制造有序数据的频数分布表时,还可以统 计累积频数和累积频率,见表1.3。 第一章 定性数据 假设我们想调查这些饮料受欢迎程度与性 别的关系,可以制造饮料与性别的交叉分 组表,见表1.4。 显然,这种表有利于我们进一步发现受欢 迎程度与性别之间的关系。 类似地有三种、或更多种方式分组的交叉 表,即列联表contingency table

3、。 第一章 定性数据 2、图示法 包括条形图、圆形图表1.4、陈列图等 其中的陈列图,又叫帕累托图,是按照发生 频率大小顺序绘制的条形图; 表示有多少结果是由已确认类型或范畴的缘 由所呵斥; 将出现的质量问题和质量改良工程按照重要 程度依次陈列而采用的一种图表; 可以用来分析质量问题,确定产生质量问题 的主要要素。 帕累托图(Pareto Chart) 通常用双坐标系表示,左边纵坐标表示频数,右边纵坐标 表示频率,分析线表示累积频率; 横坐标表示影响质量的各项要素,按影响程度的大小(即出 现频数多少)从左到右陈列; 通常将累积频率080%之间的要素以为是影响质量的主要 要素。见附录1 第一章

4、定性数据 3、数值法 即用代表性的数值描画定性数据的统计分布 特征。 代表性的数值有两类: 描画定性数据的中心位置 描画定性数据的离散程度 中心位置:众数、中位数、百分位数 离散程度:异众比率、G-S指数、熵 众数 数据中出现频数最高的数据值,记为Mo 如上例中,“可口可乐是众数; 适用于定性名义数据中心位置的量度; 众数的性质略。 中位数 将数据按一定顺序陈列后位于中间的数值, 记为Me; 例:游客对效力态度的评价 % ) 适用于定性有序数据中心位置的量度。 百分位数 百分位数是对数据位置的量度,但不一定 是中心位置; 普通地,第p百分位数是指,至少有p%的数 据项小于等于这个值,且至少有(

5、100-p) %的 数据项大于等于这个值; 第25百分位数称为下四分位数,记为QL, 第50百分位数就是中位数,第75百分位数称 为上四分位数,记为QU ; 异众比率 用于定性名义数据离散程度的度量,记为V: 离异比率越小,阐明数据越集中; 此外,还可以利用随机变量来描写定性数据的离 散程度; 比如,随机变量 ,可以取 等不同的值, 相应的概率为 即: mo mo f n nn V 1 k aaa、 21 k ppp、 21 kiaPp ii , 2 , 1)(, Gini-Simpson指数 基尼-辛卜生指数简称G-S指数 随机变量的G-S指数记为G-S() G-S指数越小,阐明随机变量的分

6、布越集中; G-S指数越大,那么分布越分散。 当k=2, 时,G-S指数到达最大 值 ,即均匀分布时指数到达最大 见附录2。 2 1 ( )1 k i i GSp 12 0.5pp (1 1/ ) k 熵 随机变量的熵(entropy)记为H(): 在 的条件下,衡量给定分布与均 匀分布接近的程度。 越接近于均匀分布,越处于平衡形状,即 离散程度越大,熵的取值越大,最大值 为 ;反之也反。 (见附录2) 1 ( )ln k ii i Hpp 1 1 k i i p lnk 定性数据离散程度的测度 【例】最喜欢的饮料的频数分布表 1、用离异比率测度: 假设将数据稍作调整为: 那么 饮料频数频率

7、可口可乐 苹果汁 橘子汁 百事可乐 杏仁露 25 6 5 5 9 50 12 10 10 18 合计50100 (50 17)/5066%V (5025)/5050%V 定性数据离散程度的测度 2、用G-S指数测度: 调整前, 调整后, 3、用熵测度: 调整前, 调整后, 5 222222 1 G-S11 (0.340.160.140.140.22 )0.77 i i p 5 222222 1 G-S11(0.50.120.10.10.18 )0.68 i i p 5 1 ln(0.34 ln0.340.16 ln0.16)1.54 ii i Hpp 5 1 ln(0.5 ln0.50.12 ln0.12)1.37 ii i Hpp 定性数据离散程度的测度 假设前例中每种饮料的频数一样,那么各 自的G-S指数和熵分别为多少呢?

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论