第2章_统计数据的描述.ppt_第1页
第2章_统计数据的描述.ppt_第2页
第2章_统计数据的描述.ppt_第3页
第2章_统计数据的描述.ppt_第4页
第2章_统计数据的描述.ppt_第5页
已阅读5页,还剩149页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、华南理工大学精品课程,统计学,统计数据的描述,第二章,华南理工大学精品课程,第二章 统计数据的描述,京东苏宁价格大战 2012年8月,京东商城CEO刘强东在微博称,京东所有大家电将在未来三年内保持零毛利,并将派员进驻苏宁国美店面。苏宁易购随后跟进表示,其所有产品价格将低于京东。如此京东苏宁价格大战拉开了序幕。 下面收集了8月15号当天,46款冰箱分别在苏宁和京东的价格。,引例:,华南理工大学精品课程,第二章 统计数据的描述,引例:,华南理工大学精品课程,第二章 统计数据的描述,有人就认为苏宁的平均冰箱价格比京东的低,因为苏宁的平均冰箱价格为4987.88元(这里是算术平均数),比京东的为508

2、8.83元低;而有些人却不那么认为,两者价格没有显著差异,因此他们认为苏宁冰箱价格的中位数为2843元,众数为1199元,对应地与京东冰箱价格的中位数2899元和众数1299元相差不大。那究竟哪个对呢?,引例:,华南理工大学精品课程,5,引例提问,京东和苏宁哪个的平均价格低?,Q1,Q2,Q3,统计学怎样对数据进行有效分析?,怎样理解不同统计量对总体描述的影响?,华南理工大学精品课程,6,本章学习内容,1.统计数据的类型 2.统计数据的来源 3.如何评价数据质量 4.如何对获取的数据进行整理 5.数据分布的集中趋势和离散程度 6.非正态总体的分布偏态和峰度 7.统计表及统计图,华南理工大学精品

3、课程,7,本章学习目标,了解统计数据的类型 了解统计数据的来源和数据的质量要求 掌握数值型数据的整理方法 掌握数据集中趋势和离散程度的测度方法 掌握茎叶图和箱线图的制作方法 了解非正态总体的分布偏态和峰度 掌握统计表和统计图的使用,华南理工大学精品课程,8,第一节 统计数据的描述,2.1,2.2,2.3,2.4,2.5,第二章具体章节结构,第二节 统计数据的来源,第三节 统计数据的质量,第四节 统计数据的整理,第五节 分布集中趋势的测度,华南理工大学精品课程,9,第六节 分布离散程度的测度,2.6,2.7,2.8,第七节 分布偏态与峰度的测度,第八节统计表与统计图,第二章具体章节结构,第一节

4、统计数据的描述,什么是统计数据? 统计数据是表示某一地理区域自然经济要素特征、规模、结构、水平等指标的数据,是定性、定位和定量统计分析的基础数据。,华南理工大学精品课程,10,第一节 统计数据的描述,华南理工大学精品课程,11,统计数据的分类:,分类数据(categorical data) 对事物进行分类的结果 数据表现为类别,用文字表述或数值标识 如,人口按性别分为男、女两类,用0、1标识 顺序数据(ordinal data) 对事物类别顺序的测度 数据表现为类别,用文字来表述 如,产品分为一等品、二等品、三等品等,华南理工大学精品课程,12,一、按计量尺度划分,华南理工大学精品课程,13,

5、3.等距型数据(interval data) 对事物间隔的精确测度 结果表现为具体的数值 如:20到18之差与10到8之差都相差2; 0表示某一个数值,不表示“没有”或“无” 适合于“+,-”运算 4.等比型数据(ratio data) 对事物比值的精确测度 结果表现为具体的数值 如: 0表示“没有”或“无” 适合于“+,-,”运算,华南理工大学精品课程,14,四种计量尺度的比较,“”表示该尺度所具有的特性,表2-1 四种计量尺度的比较,二、按收集方法划分,华南理工大学精品课程,15,观测数据(observational data) 通过调查或观测而收集到的数据 在没有对事物人为控制的条件下而

6、得到的 有关社会经济现象的统计数据几乎都是观测数据 实验数据(experimental data) 在实验中控制试验对象而收集到的数据 如,对一种新药疗效的试验,对一种新的农作 物品种的试验等 医学、自然科学领域的数据大多都为实验数据,三、按时间状况划分,华南理工大学精品课程,16,截面数据(cross-sectional data) 在相同或近似相同的时间点上收集的数据 描述现象在某一时刻的变化情况 如, 2010年中国各省自治区直辖市特别行政区的国民生产总值数据 时间序列数据(time series data) 在不同时间上收集到的数据 描述现象随时间变化的情况 如2005-2011年中国

7、各省自治区直辖市特别行政区的国民生产总值数据,华南理工大学精品课程,17,本节提问,数据的计量尺度分为哪几种?,Q1,Q2,Q3,不同计量尺度各有什么特点?,按收集方法可划分为哪几种类型?,按时间状况可划分为哪几种类型?,Q4,华南理工大学精品课程,第二节 统计数据的来源,统计数据来源于直接组织的调查、观察和科学试验,我们称之为第一手数据或直接的数据;或者来源于已有的数据,我们称之为第二手数据或间接的数据。,一、间接获取的数据 二、直接获取的数据,华南理工大学精品课程,19,一、间接取得的数据,统计部门和政府部门公布的有关资料,如各类统计年鉴 各类经济信息中心、信息咨询机构、专业调查机构等提供

8、的数据 各类专业期刊、报纸、书籍所提供的资料 各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料 从互联网或图书馆查阅到的相关资料,华南理工大学精品课程,20,提供统计数据的部分网站,表2-3 提供统计数据的部分网站,华南理工大学精品课程,21,提供统计数据的部分网站,表2-3 提供统计数据的部分网站(续表),提供统计数据的部分网站,华南理工大学精品课程,22,表2-3 提供统计数据的部分网站(续表),华南理工大学精品课程,23,二、直接取得的数据:普查 (census),为特定目的专门组织的非经常性全面调查 通常是一次性或周期性的 一般需要规定统一的标准调查时间 数据的

9、规范化程度较高 应用范围比较狭窄,华南理工大学精品课程,24,二、直接取得的数据:抽样调查 (sampling survey),1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法 2.具有经济性、时效性强、 适应面广、准确性高 等特点 3.根据样本抽取原则的不同,抽样方法有概率抽样和非概率抽样,二、直接取得的数据:统计报表(statistical report forms),统计报表是以国家有关法规为准则,按照统一的表式、统一的指标、统一的报送时间和报送程序,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。,华南理工大学精品课程,2

10、5,华南理工大学精品课程,26,本节提问,简要说明统计数据的来源?,Q1,Q2,获取直接统计数据的渠道主要有哪些?,第三节 统计数据的质量,质量评价标准 1)精度,即最低的抽样误差或随机误差; 2)准确性,即最小的非抽样误差或偏差; 3)关联性,即满足用户决策、管理和研究的需要; 4)及时性,即在最短的时间里取得并公布数据; 5)一致性,即保持时间序列的可比性; 6)最低成本,即在满足以上标准前提下以最经济的方式取得数据。,华南理工大学精品课程,27,华南理工大学精品课程,第三节 统计数据的质量,统计数据的误差:,一、登记性误差 二、代表性误差,华南理工大学精品课程,29,一、登记性误差,由于

11、调查者或被调查者的人为因素所造成的误差 调查者所造成的登记性误差主要是由调查方案中有关的规定或解释不明确导致的填报错误、抄录错误、汇总错误等引起的。 被调查者造成的登记性误差主要是由故意虚报或瞒报引起的。 理论上讲,登记性误差是可以消除的。,华南理工大学精品课程,30,二、代表性误差,用样本推断总体时,样本单位不能完全反映总体的性质,它同总体的实际指标有一定的差异。 代表性误差按照产生的原因可分为随机误差和系统误差。 代表性误差即抽样误差的客观存在和不可避免性,并不意味着可以任其存在或对其无所作为,相反,对抽样误差的控制是十分必要的。,华南理工大学精品课程,31,误差的控制,正确制定调查方案,

12、力求调查的范围明确、调查项目解释清楚、方法科学适用; 加强调查人员培训,提高调查技术水平; 做好思想教育工作,坚持实事求是,加强法律观念; 严格要求调查人员认真细致,多加审查及时更正; 完善各种计量、测量工具; 调查过程进行控制,对调查结果进行检验、评估,现场调查人员进行奖惩的制度。,华南理工大学精品课程,32,本节提问,简要说明登记性误差和代表性误差?,Q1,Q2,误差的控制有哪些途径?,华南理工大学精品课程,第四节 统计数据的整理,一、统计数据整理的概述 二、统计分组 三、分配数列 四、洛伦茨曲线,华南理工大学精品课程,34,统计数据整理的概述,统计数据整理是根据统计研究任务的要求,对统计

13、调查阶段所收集到的大量原始资料进行加工与汇总,使其系统化、条理化、科学化,最后形成能够反映现象总体综合特征的统计资料的统计工作过程。,统计数据整理的概述,统计数据整理的程序: 1)统计资料的审核 2)进行统计分组 3)进行加工汇总,编制分配数列 4)编制统计表和绘制统计图 5)统计数据资料的积累、保管和公布,华南理工大学精品课程,35,统计分组,统计分组是根据统计研究的需要,按照某种标志将统计总体区分为若干性质不同而又有联系的几个部分的一种统计方法。 统计分组的种类: (1)按照分组标志的多少可分为简单分组和复合分组。 (2)按分组标志的性质可分为品质分组和变量分组。,华南理工大学精品课程,3

14、6,统计分组,穷尽原则 总体中的每一个单位都有组可归,无一遗漏。 互斥原则 总体中的任何一个单位只能归属于某一组,而不能同时归属于几个组。,华南理工大学精品课程,37,统计分组,分组标志的注意问题 1)根据统计研究的目的进行选择 2)若干个标志中,要选择最能反映事物本质特征的标志作为分组标志,华南理工大学精品课程,38,统计分组,统计分组的方法 1)品质分组的方法 2)变量分组的方法 单项式分组:一个数值作为一组,如按家庭人口数进行分组 组距式分组:一个区间作为一组 等距分组与不等距分组。 组限与组中值。,华南理工大学精品课程,39,分配数列,分配数列也称次数分布或次数分配,是统计资料经过对某

15、一标志分组后按一定的分组顺序,列出各组的总体单位,形成一个反映总体单位在各组间分配情况的统计数列,分布在各组的总体单位数叫次数,又称频数;各组次数与总次数之比称为频率。,华南理工大学精品课程,40,分配数列,按选用的分组标志性质不同可分为品质数列和变量数列。 变量数列的编制方法 第一步,将原始资料按数字大小依次进行排列。 第二步,确定定量的类型和分组的方法(如单项式或组距式分组)。 第三步,确定组数和组距。 第四部,确定组限及其表示方法。 第五步,汇总各组的次数,并计算频率。,华南理工大学精品课程,41,华南理工大学精品课程,42,案例分析 次数分配表的编制,【例】 2011年全国各省区人均G

16、DP数如下(单位:万元),请编制各省区市人均GDP数列。 5.88 4.70 5.03 4.74 5.05 5.67 6.10 1.61 1.90 1.96 2.99 2.88 2.02 2.54 2.54 2.87 2.90 2.60 2.61 8.65 3.79 3.47 3.42 3.03 3.08 8.04 3.26 3.27 3.32 8.26 3.37,华南理工大学精品课程,43,案例分析 次数分配表,表2-6 2011年全国31个省区市人均GDP统计表,华南理工大学精品课程,44,次数分配的类型,图2-2 几种常见的频数分布,华南理工大学精品课程,45,洛伦茨曲线,20世纪初美国

17、经济学家、统计学家洛伦茨(M.E. Lorentz)根据意大利经济学家巴雷特(V. Pareto)提出的收入分配公式绘制而成 描述收入和财富分配性质 的曲线,分析该国家或地区 分配的平均程度,累积的人口百分比,绝对公平线,累积的收入百分比,华南理工大学精品课程,46,基尼系数,20世纪初意大利经济学家基尼(G. Gini)根据洛伦茨曲线给出了衡量收入分配平均程度的指标 A表示实际收入曲线与绝对平均线之间的面积 B表示实际收入曲线与绝对不平均线之间的面积 如果A=0,则基尼系数=0,表示收入绝对平均,华南理工大学精品课程,47,基尼系数,5.如果B=0,则基尼系数=1,表示收入绝对不平均 6.基

18、尼系数在0 和1之间取值 7.一般认为: 基尼系数若小于0.2,表明分配平均; 基尼系数在0.2至0.4之间是比较适当的, 即一个社会既有效率又没有造成极大的分配不公; 基尼系数在0.4被认为是收入分配不公平的警戒线, 超过了0.4应该采取措施缩小这一差距。,华南理工大学精品课程,48,本节提问,描述次数分配表的编制过程。,Q1,Q2,Q3,解释洛伦茨曲线及其用途。,说明基尼系数的含义和用途。,华南理工大学精品课程,第五节 分布集中趋势的测度,一、众数 二、中位数 三、算术平均数 四、调和平均数 五、几何平均数 六、众数、中位数和均值的比较 七、四分位数 八、切尾均值,华南理工大学精品课程,5

19、0,众数 (mode),一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据,华南理工大学精品课程,51,众数 (不惟一性),无众数原始数据: 11 3 7 12 9 8,一个众数原始数据: 7 4 6 13 4 4,多于一个众数原始数据: 17 15 15 33 24 24,众数,组距分组数据的众数: 设众数组的频数为 f,众数组前一组的频数为 f-1 ,众数组后一组的频数为f+1,从众数组直方图的两个顶角向相邻两组直方图的两个顶角引直线,再由交叉点向横轴引垂线,与横轴相交的点即为众数。,华

20、南理工大学精品课程,52,众数组距分组的众数,华南理工大学精品课程,53,华南理工大学精品课程,54,中位数 (median),1.排序后处于中间位置上的值 2.不受极端值的影响 3.主要用于顺序数据,也可用数值型数据,但不能用于分类数据 4.当次数分布偏态时,中位数的代表性会受到影响 5.缺乏敏感性,华南理工大学精品课程,55,中位数 (位置的确定),对于未分组的原始资料:,由分组资料确定中位数,华南理工大学精品课程,56,中位数 (位置的确定),中位数 中位数所在组下限 中位数所在组上限 中位数所在组的次数 总次数 中位数所在组的组距 中位数所在组以下的累计次数 中位数所在组以下的累计次数

21、,华南理工大学精品课程,57,案例分析 (9个数据的算例),【例】 9个家庭的人均月收入数据 原始数据: 1400 750 760 1050 870 950 2100 1450 1540 排 序: 750 760 870 950 1050 1400 1450 1540 2100 位 置: 1 2 3 4 5 6 7 8 9,中位数 = 1050,华南理工大学精品课程,58,案例分析 (10个数据的算例),【例】 10个家庭的人均月收入数据 排 序: 635 690 770 820 930 1078 1230 1450 1690 2150 位 置: 1 2 3 4 5 6 7 8 9 10,案例

22、分析 (分组数据),例:计算50名工人日加工零件数的中位数。,华南理工大学精品课程,59,根据中位数公式得:,华南理工大学精品课程,60,案例分析 (分组数据),华南理工大学精品课程,61,算术平均数,集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数据,不能用于分类数据和顺序数据,华南理工大学精品课程,62,简单均值 (simple mean),设一组数据为: x1 ,x2 , ,xn,总体均值,样本均值,华南理工大学精品课程,63,加权均值 (weighted mean),设一组数据为: x1 ,x2 , ,xn 相应的频数为: f1 ,f

23、2 , ,fk,总体均值,样本均值,华南理工大学精品课程,64,案例分析,【例】某天某省全部电影院各自平均电影价格资料如表2-11。那么全省平均电影价格多少? 表2-11 某企业班组工人日产量统计表,加权均值,组距数列计算加权算术平均数 用来计算平均数时,从理论上讲,应先计算各组的平均数,再以各组平均数乘以相应的权数,计算加权算术平均数。但实际工作中,很少计算组平均数,而是用各组的组中值近似代替各组平均数,再用式(2-4)来计算加权算术平均数。,华南理工大学精品课程,65,案例分析,【例】某公司100名员工的月工资资料如表2-13。 表2-13 某公司100名员工月工资资料,华南理工大学精品课

24、程,66,华南理工大学精品课程,67,算术平均数(数学性质),1. 各变量值与均值的离差之和等于零 2. 各变量值与均值的离差平方和最小,调和平均数,1)调和平均数是指标志值倒数的算术平均数的倒数,所以又称倒数平均数。 2)根据掌握的资料不同,在计算时可以分为简单调和平均数和加权调和平均数两种形式。,华南理工大学精品课程,68,简单调和平均数,华南理工大学精品课程,69,案例分析(简单调和平均数),例:市场上某种蔬菜的早市价格1.0元/斤,午市价格0.8元/斤,晚市价格0.5元/斤,如果早、中、晚各买1元钱的蔬菜,则平均每斤的价格为:,华南理工大学精品课程,70,加权调和平均数,加权调和平均数

25、适应于已分组的资料。,华南理工大学精品课程,71,例:假定有某公司员工的月加班费工资资料如表214。 表214 某公司员工加班费情况表,华南理工大学精品课程,72,案例分析(加权调和平均数),加权调和平均数和加权算术平均数的关系,加权调和平均数实际上只是加权算术平均数的一种变形,它只适应于处理适当类型的分组资料。,华南理工大学精品课程,73,华南理工大学精品课程,74,几何均值 (geometric mean),N 个变量值乘积的 n 次方根 适用于对比率数据的平均 主要用于计算平均增长率,几何均值,简单几何平均数,华南理工大学精品课程,75,加权几何平均数,华南理工大学精品课程,76,案例分

26、析(简单几何平均数),【例】 一位投资者购持有一种股票,在1997年、1998年、1999年和2000年收益率分别为 4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率,平均收益率103.84%-1=3.84%,例:某工商银行某项投资年利率是按复利计算的。20年的利率分配如表2-15,计算20年的平均年利率。 表2-15 投资年利率分组表,华南理工大学精品课程,77,案例分析(加权几何平均数),几何均值,几何平均数特点: 1)几何平均数受极端值的影响较算术平均数小。 2)如果变量值有负值,计算出的几何平均数就会成为负数或虚数。 3)它仅适用于具有等比或近似等比关系的数据

27、。 4)几何平均数的对数是各变量值对数的算术平均数,华南理工大学精品课程,78,华南理工大学精品课程,79,众数、中位数和均值的关系,图2-4 众数、中位数和均值的关系,华南理工大学精品课程,80,众数、中位数、均值的特点和应用,众数 -不受极端值影响 -具有不惟一性 -数据分布偏斜程度较大时应用 中位数 -不受极端值影响 -数据分布偏斜程度较大时应用 均值 -易受极端值影响 -数学性质优良 -数据对称分布或接近对称分布时应用,华南理工大学精品课程,81,四分位数 (quartile),1.排序后处于25%和75%位置上的值 2.不受极端值的影响 3.主要用于顺序数据,也可用于数值型数据,但不

28、能用于分类数据,华南理工大学精品课程,82,四分位数 (位置的确定),原始数据:,分组数据:,华南理工大学精品课程,83,案例分析 (四分位数7个数据的算例),原始数据: 23 21 30 32 28 25 26 排 序: 21 23 25 26 28 30 32 位 置: 1 2 3 4 5 6 7,QL= 23,QU = 30,N+1,华南理工大学精品课程,84,案例分析(四分位数10个数据的算例),【例】 10个家庭的人均月收入数据 排 序: 500 650 760 780 940 1060 1350 1680 1790 1900 位 置: 1 2 3 4 5 6 7 8 9 10,统计

29、函数QUARTILE,华南理工大学精品课程,85,切尾均值 (trimmed Mean),去掉大小两端的若干数值后计算中间数据的均值 在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用 计算公式为:,n 表示观察值的个数;表示切尾系数,,华南理工大学精品课程,86,案例分析 切尾均值,【例】某次求职面试中共有11名评委,对某位求职者的给分分别是:,经整理得到顺序统计量值为,去掉一个最高分和一个最低分,取1/11,小结,红色为该数据类型最适合用的测度值,华南理工大学精品课程,88,本节提问,一组数据的分布特征可以从哪几个方面进行测度?,Q1,Q2,Q3,怎样理解均值在统计学中

30、的地位?,对于比率数据的平均,为什么采用几何平均?,简述众数、中位数和均值的特点和应用场合。,Q4,华南理工大学精品课程,第六节 分布离散程度的测度,一、极差 二、内距 三、平均差 四、方差和标准差 五、变异系数,华南理工大学精品课程,90,极差 (range),一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布,计算公式为:,R = max(xi) - min(xi),华南理工大学精品课程,91,内距 (Inter-Quartile Range,IQR),也称四分位差 上四分位数与下四分位数之差 内 距 = Q3 Q1 反映了中间50%数据的离散程度 不受

31、极端值的影响 可用于衡量中位数的代表性,华南理工大学精品课程,92,案例分析 四分位差,【例】 根据表中的数据,计算甲城市家庭对住房满意状况评价的四分位差,解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 已知 QL = 不满意 = 2 QU = 一般 = 3 四分位差: QD = QU = QL = 32 = 1,表2-6 甲城市家庭对住房状况评价的频数分布,平均差(Mean Deviation),华南理工大学精品课程,93,1.是总体各单位标志对其算术平均数的离差绝对值的算术平均数。 2.反映了总体各单位标志值的变动程度。 3.平均差越大,则表示标志变动度越大,反

32、之则表示标志变动度越小。 4.在资料未分组的情况下,平均差的计算公式为:,5.在资料已分组的情况下,要用加权平均差公式:,华南理工大学精品课程,94,方差和标准差(Variance and Standard deviation),1.离散程度的测度值之一 2.最常用的测度值 3.反映了数据的分布 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或总体标准差;根据样本数据计算的,称为样本方差或样本标准差,华南理工大学精品课程,95,总体方差和标准差 (Population variance and Standard deviation),未分组数据:,方差的计算公式,标准差的计算

33、公式,未分组数据:,组距分组数:,组距分组数:,华南理工大学精品课程,96,案例分析 总体标准差计算过程及结果,【例】根据表中的数据,计算工人日加工零件数的标准差,表2-7 某车间50名工人日加工零件标准差计算表,华南理工大学精品课程,97,样本方差和标准差 (simple variance and standard deviation),方差的计算公式,标准差的计算公式,未分组数据:,未分组数据:,组距分组数据:,组距分组数据:,华南理工大学精品课程,98,样本方差 自由度(degree of freedom),1.一组数据中可以自由取值的数据的个数 2.当样本数据的个数为 n 时,若样本均

34、值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 4.样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,华南理工大学精品课程,99,案例分析 样本方差,样本方差与标准差,原始数据: 10 5 9 13 6 8,华南理工大学精品课程,100,变异系数(coefficient o

35、f variation),1.标准差与其相应的均值之比 对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响 4.用于对不同组别数据离散程度的比较 5.计算公式为:,华南理工大学精品课程,101,案例分析 变异系数,【例】某公司抽查了所属的8家超市,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,表2-8 某公司所属8家超市的产品销售数据,华南理工大学精品课程,102,案例分析 离散系数,结论: 计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度,小结,为该数据类型最适合的用的测度值,华南理工大学精品课程,104,本节提问,为什么要计算离散系数?,Q1,华

36、南理工大学精品课程,第七节 分布偏态与峰度的测度,一、偏态及其测度 二、峰度及其测度,华南理工大学精品课程,106,偏态与峰度分布的形状,偏态,峰度,图2-5 偏态与峰度分布的形状,华南理工大学精品课程,107,偏态(SK:skewness),1、偏态:衡量频数分配不对称程度,或偏斜程度的指标。 2、未分组数据计算公式:,3、若组距数据,计算公式为:,华南理工大学精品课程,108,当SK=0时,左右完全对称,为正态分布;当 SK0时为正偏斜;当SK0时为负偏斜。,图2-6 偏态示意图,偏态,华南理工大学精品课程,109,案例分析 偏态,【例】已知1997年我国农村居民家庭按纯收入分组的有关数据

37、如表。试计算偏态系数,表2-9 1997年农村居民家庭纯收入数据,华南理工大学精品课程,110,案例分析 偏态与峰度从直方图上观察,按纯收入分组(元),结论: 1. 为右偏分布 2. 峰度适中,图2-7 农村居民家庭村收入数据的直方图,华南理工大学精品课程,111,案例分析 偏态系数(计算过程),表2-10 农村居民家庭纯收入数据偏态及峰度计算表,华南理工大学精品课程,112,案例分析 偏态系数 (计算结果),根据上表数据计算得,将计算结果代入公式得,结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较

38、大,SK=,华南理工大学精品课程,113,峰度(K:kurtosis),1、峰度:用以衡量频数分配的集中程度,即分布曲线的尖峭程度的指标。 2、未分组数据计算公式:,3、若组距数据计算公式:,华南理工大学精品课程,114,峰度,峰度指标CK=0,分布为正态峰度,当峰度指标CK0时,表示频数分布比正态分布更集中,分布呈尖峰状态,CK0时表示频数分布比正态分布更分散,分布呈平坦峰。如图所示:,图2-8 峰度示意图,华南理工大学精品课程,第八节 统计表与统计图,统计表和统计图是显示统计数据的两种方式 统计表把杂乱的数据有条理地组织在一张简明的表格内; 统计图把数据形象地显示出来 。,统计表,华南理工

39、大学精品课程,116,资料来源:国家统计局网站,行标题,表2-19 2011年城乡居民家庭收入抽样调查资料,附加,表头,统计表的种类,1)按主词加工方法不同分为简单表、分组表和复合表。 2)按宾词指标设计的不同分为: (1)宾词不分组设计 (2)宾词简单分组设计 (3)宾词复合分组设计,华南理工大学精品课程,117,华南理工大学精品课程,118,统计表设计的一般要求,1.要合理安排统计表的结构 2.总标题内容应满足3W要求 3.数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明 4.表中的上下两条横线一般用粗线,其他线用细线 5.通常情况下,统计表的左右两边不封口

40、,华南理工大学精品课程,119,6.表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的为数应统一 7.对于没有小数点的单元,一般用“-”表示 8.必要时可在表的下方加上注释,统计表设计的一般要求,华南理工大学精品课程,120,统计图,常见的统计图: 直方图、茎叶图和箱线图 折线图、条形图和圆形图、 环行图、雷达图等等 统计图的基本要素: 1)图式 2)图题 3)图例 4)标目 5)文字说明,华南理工大学精品课程,121,定类数据的图示条形图(条形图的制作),条形图是用宽度相同的条形的高度或长短来表示数据变动的图形。 条形图有单式、复式等形式。 在表示定类数据的分布时,是用条形图的高

41、度来表示各类别数据的频数或频率。 绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图。,华南理工大学精品课程,122,定类数据的图示-条形图,由 Excel 绘制的条形图,图2-12 我国20072011年国内生产总值条形图,定类数据的图示圆形图(圆形图的制作),华南理工大学精品课程,123,1.也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形。 2.主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。 3.在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的。,定类数据的图示圆形

42、图,华南理工大学精品课程,124,由 Excel 绘制的圆形图,图2-13 我国20072011年国内生产总值GDP圆形图,1、也称折线图 2、用曲线(一般用折线)的升降起伏来说明别研究对象的发展变化、分配趋势等情况的一种图形。,华南理工大学精品课程,125,定类数据的图示曲线图,华南理工大学精品课程,126,定类数据的图示曲线图,由 Excel 绘制的曲线图,图2-14 我国20072011年国内生产总值GDP折线图,根据累积频数或累积频率,可以绘制累积频数或频率分布图。,华南理工大学精品课程,127,定序数据的图示累积频数分布图,定序数据图示累计频数分布图,华南理工大学精品课程,128,图

43、2-19 甲城市家庭对住房状况评价的累积频数分布,由 Excel 绘制的累计频数分布图,定序数据的图示环形图(环形图的制作),华南理工大学精品课程,129,1.环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示 2.环形图与圆形图类似,但又有区别 圆形图只能显示一个总体各部分所占的比例 环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环 3.环形图可用于进行比较研究 4.环形图可用于展示定类和定序的数据,品质数据的图示环形图,华南理工大学精品课程,130,由 Excel 绘制的环形图,图2-16 甲城市对某电视台电视节目评价的环形图,分组数据直方图,1、直方图是用

44、直方形的宽度和高度来表示频数分布的图形。 2、在平面直角坐标中,横轴表示各组组限,纵轴表示频数或频率。 3、以各组组距为条形宽度、次数为条形高度。,华南理工大学精品课程,131,华南理工大学精品课程,132,分组数据直方图,图2-17 某车间工人日加工零件数的直方图,分组数据折线图(折线图的制作),华南理工大学精品课程,133,1.折线图也称频数多边形图(Frequency polygon) 2.是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。 3.折线图的两个终点要与横轴相交,具体做法是 第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴

45、,最后一个矩形顶部中点与其竖边中点连接到横轴。 折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。,华南理工大学精品课程,134,分组数据折线图(折线图的制作),图2-18 某车间工人日加工零件数的折线图,华南理工大学精品课程,135,未分组数据茎叶图(stem-and-leaf display),用于显示未分组的原始数据的分布 由“茎”和“叶”两部分构成,其图形由数字组成 以该组数据的高位数值作树茎,低位数字作树叶 树叶上只保留一位数字 茎叶图类似于横置的直方图,但又有区别: -直方图可观察一组数据的分布状况,但没有给出具体的数值 -茎叶图既能给出数据的分布状况,又能给出

46、每一个原始数值,保留了原始数据的信息,未分组数据茎叶图,例:下面是广东省2010年1月至2010年12月城市居民消费价格指数(上年=100)(数据来源于中经网统计数据库)。下面我们用茎叶图表示它们。 99.7 103.4 102 102.8 103.5 103.3 103.3 103.1 103.5 104.1 104.1 104.3,华南理工大学精品课程,136,表2-29 茎叶图,华南理工大学精品课程,137,未分组数据箱线图 (box plot),用于显示未分组的原始数据的分布 箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成 箱线图的绘制方法 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU) 连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接,华南理工大学精品课程,138,未分组数据箱线图 (箱线图的构成),华南理工大学精品课程,139,分布的形状与箱线图,图2-13 不同分布的箱线图,例:下面表2-30是上海、江苏、浙江、福建从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论