已阅读5页,还剩110页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章统计数据的描述,2.1统计数据的整理2.2分布集中趋势的测度2.3分布离散程度的测度2.4分布偏态与峰度的测度2.5统计表与统计图本章小结,2.1统计数据的整理,根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把数据分别列入不同的组内。,一、统计数据的分组,1、概念,2、原则,穷尽原则互斥原则,例1:从业人员按文化程度分组,分组一:小学毕业中学毕业(含中专)大学毕业,分组二:文盲或识字不多小学毕业中学毕业(含中专)大专毕业大学及大学以上,统计数据的分组,3、种类,统计数据分组,品质标志分组,数量标志分组,性别(男、女)(1,0)民族(汉族、满族、蒙古族)(1,2,3)行政区划职业专业五级记分制(优、良、中、及格、不及格)产品等级(一等品、二等品、三等品)满意度(很满意、满意、一般、不满意、很不满意),百分制记分(60、70、85、95)温度(-1、0、20)今天最高温度比昨天上升2,表示差值年龄产量(件、只、台)收入(元)重量(吨、千克)利润(万元、百万元)价格(元),例2某班学生的不同分组,分组一:按性别分组,分组二:按成绩分组,以上两种分组都属于按品质标志分组。,分组三:按年龄分组,按年龄分组是按数量标志分组,次数分配,就是观察值按其分组标志分配在各组内的次数。,二、次数分配(频数分布),1、概念,2、类型,单项式频数分布组距式频数分布(等组距、不等组距),例3,某车间30名工人每周加工某种零件的件数如表所示,对30名工人的周加工零件数进行分组。,频数分布表,下限,上限,组距为10,等距,闭口组,分组时遵循上组限不在内的原则,3、分组的几个概念,下限、上限5060组距、组中值组距本组上限本组下限(10)组中值(上限下限)/255开口组、闭口组50以下506060以上,频数分布表,频数分布表可以反映数据分布的规律;如果变量值较少,可采用单项式频数分布表;如果变量值较多,变化范围很大,可采用组距式频数分布表;分组数一般在5-15组之间;分组时遵循上组限不在内的原则,累积频数和频率表,向上累积和向下累积表,向上累积:表明各组上限以下的各组次数之和;向下累积:表明各组下限以上的各组次数之和;,向上累积和向下累积折线图,向上累积,向下累积,总结:次数分布表的编制次序,1、排序并求出全距(最大值-最小值);2、确定组距:h(每一个组内包含的间距)和组数:m;3、列出上、下组限;4、归组并计算出各组的次数;5、显示或打印出次数分布表。,练习题,练习题1,P52;练习题2,P53;,直方图,三、次数分配直方图,某车间工人周加工零件直方图,从图中看出什么?,直方图,在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(histogram);直方图下的总面积等于1;用Excel直方图分析工具绘制直方图;该分析工具遵循上组限在内的原则,设置组限时注意调整直方图可以更直观地反映数据分布的规律。,数据分析作直方图,在“工具数据分析”中选择【直方图】;输入原始数据;确定各组上组限;作图;按要求修改。,折线图frequencypolygon,折线图也称次(频)数多边形图;把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉;折线图的两个终点要与横轴相交,具体的做法是:第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴;当观察次数增多,组距变小时,折线图会变光滑,最后变成一条曲线。,折线图与直方图下的面积相等!且都等于1!,某车间工人周加工零件折线图,几种常见的次数分布曲线,供给曲线,需求曲线,死亡率曲线,洛伦茨曲线基尼系数G=A/A+B国际警戒线0.4,绝对平均线G=0,实际洛伦茨曲线,A,B,绝对不平均线G=1,课堂练习,练习题3,课堂练习,1某连续变量数列,其首组为50以下。又知其邻近组的组中值为75,则首组的组中值为()A.24B.25C.26D.272.在全距一定的情况下,组距的大小与组数的多少成()A、正比B、反比C、无比例关系D、有时成正比有时成反比3.按某一标志分组的结果表现为()A、组内同质性,组间同质性B、组内同质性,组间差异性C、组间差异性,组间同质性D、组间差异性,组间差异性,2.2分布集中趋势的测度,众数是将数据按大小顺序排队形成次数分配后,在统计分布中具有明显集中趋势点的数值,是数据一般水平代表性的一种。正态分布和一般的偏态分布中,分布最高峰点所对应的数值即众数。,一、众数(mode),1、概念,一组数据中出现次数最多的变量值;适合于数据量较多时使用;不受极端值的影响;一组数据可能没有众数或有几个众数。,2、特点,众数(不唯一性),不分组数据:无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:252828364242,分组数据,众数通常采用下面的近似公式计算:,3、公式(分组数据),M0:表示众数L:表示众数组的下组限或上组限:表示众数组次数与前一组次数之差:表示众数组次数与后一组次数之差i:表示众数组的组距,下限公式,上限公式,例4计算周加工零件数的众数,根据上表按公式计算得:,众数组,众数组下组限,中位数(median)是数据排序后,位置在最中间的数值。,二、中位数(median),1、概念,不受极端值的影响各变量值与中位数的离差绝对值之和最小,即,2、特点,3、位置,对不分组数据来说,数据个数为奇数时数据个数为偶数,中位数应在第n/2个数值和第n/2+1个数值之间,中位数是两数值的平均值。,例59个家庭的人均月收入数据,原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,中位数1080,例610个家庭的人均月收入数据,排序:66075078085096010801250150016302000位置:12345678910,分组数据,中位数值近似公式(下组限):,分组数据,中位数值近似公式(上组限):,例7计算周加工零件数的中位数,根据上表按公式计算得:,中位数是将统计分布从中间分成数据个数相等的两部分,与中位数性质相似的还有四分位数(quartile)、十分位数(decile)和百分位数(percentile)。四分位数就是将数据分布4等分的三个数值,其中中间的四分位数就是中位数。十分位数和百分位数分别是将数据分布10等分和100等分的数值。,三、分位数,四分位数(quartile),排序后处于25%、50%和75%位置上的值,Me,位置的确定,分组数据第一、三个四分位数计算公式:,例8计算周加工零件数的第一、三个四分位数,根据上表按公式计算得:,均值是全部数据的算术平均,也称为算术平均数;均值在统计学中具有重要的地位,是集中趋势的最主要测度值;根据数据表述形式的不同,均值有不同的计算公式。,四、均值,简单均值(simplemean),简单算术平均值,加权均值(weightedmean),设每组数据的组中值为:x1,x2,xk相应的频数为:f1,f2,fk加权算术平均值:样本均值不仅受组中值影响,也受各组频率(权重)的影响,例9计算周加工零件数的平均数,开口组组中值如何计算,组中值(上限下限)/2开口组、闭口组50以下50-10/2=4550605560以上60+10/2=65,均值的数学性质,各变量值与其均值的离差之和等于零,即各变量值与其均值的离差平方和最小,即,几何平均数是N个变量值乘积的N次方根,计算公式为:式中:G表示几何平均数,为连乘符号为各期发展速度或各个比率。,五、几何平均数,适用于对比率数据的平均主要用于计算平均增长率可看作是均值的一种变形,例10国内生产总值的平均发展速度,将表2.14中的数据代入公式(2.6),得公式(2.6)还可简化为:,切尾均值(trimmedmean)是去掉大小端的若干数值后计算中间数据的均值。在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用。计算公式:式中:n表示观察值的个数;表示切尾系数,六、切尾均值,例11:11名评委,对某位歌手的给分:,,则代入公式(2.7),得,七、众数、中位数和均值的比较,收入分布众数小于平均数,均值移向偏度的方向,众数、中位数和均值的特点和应用场合,众数是一组数据分布的峰值,是一种位置代表值;不受极端值影响;具有不唯一性;数据分布偏斜程度较大时应用。,中位数是一组数据中间位置上的代表值;不受数据极端值的影响;对于具有偏态分布的数据,中位数的代表性要比均值好。,均值是实际中应用最广泛的集中趋势测度值;易受极端值影响;数学性质优良;数据对称分布或接近对称分布时应用。,1当数据呈对称分布或接近对称分布时,应选择()作为集中趋势的代表值。A众数B均值C.中位数D几何平均数2.在某班随机抽取10名学生,期末统计学成绩分别为:68,73,66,76,86,74,63,90,65,89,该班考试分数的中位数是()A、72.5B、73C、73.5D、74.53.洛伦兹曲线是根据()绘制的。A人口与收入的累积百分比B人口与收入的次数C.人口与收入的累积次数D.人口与收入的百分比4.若实际收入曲线与绝对不平均线之间的面积为0,则基尼系数为()。A.0B.0.2C.0.5D.1,2.3分布离散程度的测度,集中趋势反映的是各变量值向中心值聚集的程度;离散程度反映的是各变量值远离其中心值的程度;集中趋势的测度值代表了数据的一般水平,其代表性取决于离散程度;离散程度越小,集中趋势的测度值代表性就越好。看下列三组数据:1、2、3、4、5、6、72、3、4、4、4、5、63、4、4、4、4、4、5,2.3分布离散程度的测度,也称全距,一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为,一、极差(range),也称四分位差上四分位数与下四分位数之差内距=Q3Q1=QUQL反映了中间50%数据的离散程度不受极端值的影响可用于衡量中位数的代表性四分位差值大,说明数据不集中,中位数代表性差,二、内距(Inter-QuartileRange,IQR),方差是各变量值与其均值离差平方的平均值方差的平方根称为标准差反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差根据样本数据计算的,称为样本方差或标准差最常用的离散程度的测度值反映了数据的分布,三、方差和标准差,总体方差和标准差(PopulationvarianceandStandarddeviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差和标准差(samplevarianceandstandarddeviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差自由度(degreeoffreedom),一组数据中可以自由取值的数据的个数;当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值。,标准差与其相应的均值之比,计算公式为对数据相对离散程度的测度;消除了数据水平高低和计量单位的影响;用于对不同组别数据离散程度的比较。,四、离散系数,或,总体,样本,例12,某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度。,解:,结论:计算结果表明,v10时,为尖峰分布;K0,说明我国农村居民家庭纯收入的分布为尖峰分布,低收入的家庭比重较大。,2.5统计表与统计图,统计表和统计图是显示统计数据的两种基本方式。统计表是把杂乱的数据有条理地组织在一张简明的表格内;统计图是把数据形象地显示出来。正确地使用统计表和统计图是做好统计分析的最基本技能。,统计表的结构,一、统计表,表头,列标题,行标题,数字资料,附加,统计表的结构,统计表一般由四个主要部分组成,即表头、行标题、列标题和数字资料,此外,必要时可以在统计表的下方加上表外附加;行标题和列标题通常安排在统计表的第一列和第一行,它所表示的主要是所研究问题的类别名称和指标名称,通常也被称为“类”,如果是时间数列数据,行标题和列标题可以是时间,当数据较多时,通常将时间放在行标题的位置;表的其余部分是具体的数字资料;表外附加通常放在统计表的下方,主要包括资料来源、指标的注释等内容。,设计统计表要注意的问题,总体上看,统计表的设计应符合科学、实用、简练、美观的要求。具体来说,要注意以下几点:首先,要合理安排统计表的结构。其次,表头一般应包括表号、总标题和表中数据的单位等内容。再次,表中的上下两条横线一般用粗线,中间的其他线要用细线。最后,在使用统计表时,必要时可在表的下方加上必要的注释。查看统计年鉴。,统计图的作用,统计图用更加直观和形象的形式将复杂的统计数据表现出来。在数据分析中,一张好的统计图,往往胜过冗长的文字表述。通过统计图,可以直观地看出数量变化的特征和规律。统计图的类型有很多,多数统计图除了可以绘制二维平面图外,还可以绘制三维立体图。图形的制作均可由计算机来完成。,二、统计图,用于显示未分组的原始数据的分布;由“茎”和“叶”两部分构成,其图形是由数字组成的;以该组数据的高位数值作树茎,低位数字作树叶;树叶上只保留最后一位数字。,1、茎叶图,例15用表2.7的数据制作的茎叶图表,茎叶图表,由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的,反映原始数据分布的图形,称为箱线图(boxplot)。箱线图是由一个箱子和两条线段组成。其绘制方法是:首先找出一组数据的5个特征值,即数据的最大值、最小值、中位数和两个四分位数;然后连接两个四分位数画出箱子;再将两个极值点与箱子相连接。,2、箱线图,简单箱线图,最小值,最大值,中位数,下四分位数,上四分位数,例16,从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表2.18所示。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征。,8门课程考试成绩的Median/Quart./Range箱线图,11名学生8门课程考试成绩的Median/Quart./Range箱线图,不同分布的箱线图,线图,线图是在平面坐标上用折线表现数量变化特征和规律的统计图。线图主要用于显示时间数列数据,以反映事物发展变化的规律和趋势。绘制线图时应注意以下几点:第一,时间一般绘在横轴上,指标数据绘在纵轴上。第二,图形的长宽比例要适当,一般应给成横轴略大于纵轴的长方形,其长宽比例大致为10:7。第三,一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大,可以采取折断的符号将纵轴折断。,城乡居民家庭人均收入,条形图,条形图是用宽度相同的条形的高度或长短来表示数据变动的图形。条形图可以横置或纵置,纵置时也称为柱形图。条形图还有单式、复式等形式。与线图类似,绘制条形图时也需要注意图形的长宽比例。,1997年城乡居民家庭人均消费支出,圆形图和环形图,圆形图也称饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。圆形图主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示。圆形图只能显示一个总体各部分所占的比例,而环形图则可以同时绘制多个数据系列,每一个数据系列为一个环。,1997年国内生产总值的产业结构,1997年城乡居民家庭人均消费支出,课后手写练习与计算机结果相比较,练习题7;练习题8;练习题11;练习题12;练习题14,本章小结,描述统计是对数据的直接处理和分析,目的是计算数据的特征值,发现其数量规律性,进而用样本统计量(即样本数据的特征值)推断未知总体的参数。作为统计推断的基础,本章的重点是“分布集中趋势的测度”和“分布离散程度的测度”。在集中趋势的6个统计量中,均值是重点。均值和方差是互相联系的,对立统一的,在整个统计学中都处于核心的位置。对于非正态总体,有时也要计算偏斜的程度和高耸的程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生鲜蔬菜买卖合同范本
- 甲乙小型承包合同协议
- 砍伐树木修路合同范本
- 紧密型联营合同协议书
- 自驾租车合同协议模板
- 艺术留学培训合同范本
- 茶叶贴牌生产合同范本
- 正协调签订解协议书
- 淘宝分销平台协议书
- 立项方签建筑合同范本
- 心电中心运营方案
- xx医院检验科室内质控月总结报告
- 2025年秋青岛版(五四学制)(新教材)小学数学三年级上册(全册)教学设计(附目录P129)
- 【《复杂场景下的运动目标跟踪算法分析》开题报告4200字】
- 2025新疆交通投资(集团)有限责任公司所属公司招聘26人笔试历年典型考点题库附带答案详解2套试卷
- 2025榆林镇北台、红石峡景区招聘(26人)考试笔试模拟试题及答案解析
- 广东5年(2021-2025)高考生物真题分类汇编:专题04 遗传的基本规律(原卷版)
- 村干部考入事业编面试真题(含答案)
- 2025-2030律师事务所行业战略联盟与协同发展研究报告
- 铝锭贸易专业知识培训课件
- 2025年及未来5年中国建筑劳务行业投资潜力分析及行业发展趋势报告
评论
0/150
提交评论