下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2023/2/27《统计学》第2章数据的描述2-1统计学第二章孟彦菊
2023/2/27《统计学》第2章数据的描述2-2第2章数据的描述2.1数据的计量与分类2.2数据的收集2.3数据的整理2.4集中趋势的度量2.5离散程度的度量2.6分布偏态与峰度2.7统计表2023/2/27《统计学》第2章数据的描述2-3【引例2.0】统计数据2009年7月9日随机抽查了某大学50名任课教师的年龄,原始数据(周岁)如下:
3339452724353044524745424046684847463960464751295947295043293530293433456446446730272944533155414347
这一大堆数据可能使你眼花缭乱,也许你并不能够一下就记住所有数据。
假如我们感兴趣的是教师年龄的分布,那么,你认为对上述数据应该怎样分组才能显示教师年龄的分布特征?教师年龄的集中趋势如何?离散程度怎样?分布的偏态及峰度又应该如何测定呢?
2023/2/27《统计学》第2章数据的描述2-42.1
数据的计量与分类
数据的计量尺度数据的类型2023/2/27《统计学》第2章数据的描述2-5四种计量尺度定类尺度定序尺度定距尺度定比尺度数据的计量尺度2023/2/27《统计学》第2章数据的描述2-6列名尺度
(Nominalscale)也称名义尺度或分类尺度计量层次最低对事物进行平行的分类各类别可以指定数字代码表示使用时必须符合类别穷尽和互斥的要求数据表现为“类别”具有=或的数学特性2023/2/27《统计学》第2章数据的描述2-7顺序尺度
(Ordinalscale)也称定序尺度对事物分类的同时给出各类别的顺序比定类尺度精确未测量出类别之间的准确差值数据表现为“类别”,但有序具有>或<的数学特性2023/2/27《统计学》第2章数据的描述2-8间隔尺度
(Intervalscale)也称间隔尺度对事物的准确测度比定序尺度精确数据表现为“数值”没有绝对零点 具有+或-的数学特性 2023/2/27《统计学》第2章数据的描述2-9比率尺度
(Ratioscale)也称比率尺度对事物的准确测度与定距尺度处于同一层次数据表现为“数值”有绝对零点具有或
的数学特性 2023/2/27《统计学》第2章数据的描述2-10四种计量尺度的比较四种计量尺度的比较定类尺度定序尺度定距尺度定比尺度
分类(=,≠)
排序(<,>)
间距(+,-)
比值(×,÷)√√√√√√√√√√计量尺度数学特性“√”表示该尺度所具有的特性2023/2/27《统计学》第2章数据的描述2-11四种尺度计量结果,形成三种数据:分类数据、顺序数据和数值型数据。分类数据(categoricaldata)——是定类尺度对现象计量的结果。例如人口按性别分类,则“男”、“女”即为分类数据。数据的类型2023/2/27《统计学》第2章数据的描述2-12顺序数据顺序数据(rankdata)——是定序尺度对现象计量的结果。例如:人口按受教育程度分为“小学”、“初中”、“高中”、“大学及以上”组,则这里的“小学”、“初中”、“高中”、“大学及以上”即为顺序数据。分类数据和顺序数据合称为定性数据。2023/2/27《统计学》第2章数据的描述2-13数值型数据数值型数据(metricdata)——是定距尺度和定比尺度对现象计量结果。例如学生的考试成绩70分、工人的月收入2000元均为数值型数据。数值型数据通常称为定量数据。2023/2/27《统计学》第2章数据的描述2-14问题讨论前面例子中涉及的“性别”、“经济类型”、“受教育水平”、“考试成绩”、“月收入”能看作数据吗?如果它们不能看作数据,那么应该怎样正确理解这些概念?2023/2/27《统计学》第2章数据的描述2-152.2
数据的收集2.2.1数据的间接来源2.2.2数据的直接来源2023/2/27《统计学》第2章数据的描述2-162.2.1数据的间接来源间接来源的数据我们称之为第二手数据。可从各种公开出版物(如统计年鉴等)、报纸、杂志、图书、网络、新闻媒体等获取。2023/2/27《统计学》第2章数据的描述2-17间接取得的数据Internethttp//WWW.中国统计年鉴2001中国人口统计年鉴中国市场统计年鉴世界发展报告世界经济年检工业普查数据中国统计出版社统计部门和政府部门公布的有关资料,如各类统计年鉴各类经济信息中心、信息咨询机构、专业调查机构等提供的数据各类专业期刊、报纸、书籍所提供的资料各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料从互联网或图书馆查阅到的相关资料2023/2/27《统计学》第2章数据的描述2-18提供统计数据的部分政府网站中国政府及相关机构
网址数据内容国家统计局
统计年鉴、统计月报等国务院发展研究中心信息网
宏观经济、财经、货币金融等中国经济信息网
经济信息及各类网站华通数据中心
国家统计局授权的数据中心中国决策信息网
决策知识及案例三农数据网
三农信息、论坛及相关网站2023/2/27《统计学》第2章数据的描述2-19提供统计数据的部分政府网站美国政府机构
网址数据内容人口普查局
人口和家庭等联邦储备局
货币供应、信誉、汇率等预算编制办公室
财政收入、支出、债券等商务部
商业、工业等2023/2/27《统计学》第2章数据的描述2-202.2.2数据的直接来源直接来源的数据我们称为第一手数据,主要依赖统计调查得到。2023/2/27《统计学》第2章数据的描述2-211.按调查单位的范围大小分为非全面调查全面调查一次性调查经常性调查统计报表专门调查2.按调查时间是否连续分为3.按调查的组织方式不同分为普查抽样调查典型调查重点调查2023/2/27《统计学》第2章数据的描述2-22
1)概念:普查是为了某种特定目的而专门组织的一次性的全面调查。
2)特点:a、全面调查、内容详细;
b、必须规定统一标准、统一进行;
c、工作量大,需花费大量人力物力。1、统计报表2、普查2023/2/27《统计学》第2章数据的描述2-231)概念:是在总体中选择个别或部分重点单位进行调查,借以了解总体基本情况的一种非全面调查。
3、重点调查——标志值在总体标志总量中占有较大比重,能基本反映总体情况的单位。特点:能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料。但只有客观存在重点单位才能使用。重点单位2023/2/27《统计学》第2章数据的描述2-241)概念:是在对总体全面分析的基础上,有意识地选择其中有代表性的典型单位进行深入细致的调查,借以认识事物的现状和发展变化规律的一种非全面调查方法。
2)适用情况:
a、研究尚未充分发展、处于萌芽状况的新生事物或某种倾向性的社会问题;
b、分析事物的不同类型及其差别和相互关系。——最充分、最集中体现总体某方面共性的单位。典型单位4、典型调查2023/2/27《统计学》第2章数据的描述2-251)抽样调查的概念按照随机原则从总体中抽取样本单位;以样本指标为依据推断总体;抽样调查的误差可以事先计算并加以控制。5、抽样调查你不必吃完整头牛,才知道肉是老的2)抽样调查的特点2023/2/27《统计学》第2章数据的描述2-26总体单位调查单位报表制度可以全面调查,但通常是调查限定规模以上的总体单位统计调查的组织方式2023/2/27《统计学》第2章数据的描述2-27总体单位调查单位普查统计调查的组织方式对全部单位进行调查2023/2/27《统计学》第2章数据的描述2-28总体单位调查单位重点调查只调查重点单位(单位数不多但其标志量占标志总量比重较大的单位)统计调查的组织方式2023/2/27《统计学》第2章数据的描述2-29总体单位调查单位典型调查对典型单位进行调查,典型单位的选择并不一定按规模统计调查的组织方式2023/2/27《统计学》第2章数据的描述2-30总体单位调查单位抽样调查按随机原则选择调查单位,各单位被选中的机会相同。统计调查的组织方式2023/2/27《统计学》第2章数据的描述2-312.3数据的整理2.3.1分类数据和顺序数据的整理2.3.2数值型数据的整理2023/2/27《统计学》第2章数据的描述2-322.3.1分类数据和顺序数据的整理对分类数据和顺序数据,我们可以计算出每一类别出现的频数或频率,通过频数分布表和图形来展示。2023/2/27《统计学》第2章数据的描述2-331.用频数分布表展示分类数据
和顺序数据用表格的形式将分类数据或顺序数据各分组极其相应的频(次)数全部罗列出来,就是频数分布表(或次数分布表)。分布在各组的单位数称为频数(frequency),也叫次数,各组次数与总次数之比称为频率,也叫比重(例)(proportion)。一组资料中,各组频率之和等于100%(或1)。2023/2/27《统计学》第2章数据的描述2-34射击射击体操体操乒乓球举重乒乓球羽毛球举重乒乓球羽毛球举重举重跳水跳水跳水乒乓球跳水射击体操羽毛球柔道柔道举重田径羽毛球跆拳道中国体育代表团在悉尼奥运会上获金牌的项目2023/2/27《统计学》第2章数据的描述2-35获金牌项目
金牌数占总数比例跳水5枚0.1786举重5枚0.1786乒乓球4枚
0.1429羽毛球4枚
0.1429体操3枚
0.1071射击3枚
0.1071柔道2枚
0.0714田径1枚
0.0357跆拳道1枚0.0357品质数列次数(频数)f频率f/∑f2023/2/27《统计学》第2章数据的描述2-36【例2.1】
——频数分布表的编制(数据文件为example2.1)对某高校经济系30名教师性别及职称登记结果,如表2.1所示,试用SPSS分别编制教师性别及职称的频数分布表。2023/2/27《统计学》第2章数据的描述2-37【例2.1】
——频数分布表的编制表2.1某高校30名教师性别及职称情况统计表序号性别职称序号性别职称序号性别职称1男讲师11男教授21男副教授2女助教12女副教授22女副教授3女副教授13女副教授23男讲师4女副教授14男讲师24女助教5男助教15男讲师25男副教授6男教授16男副教授26男讲师7女教授17女讲师27女教授8男讲师18男助教28男讲师9女副教授19女副教授29男副教授10男教授20女副教授30女教授原始数据:2023/2/27《统计学》第2章数据的描述2-38【例2.1】
——频数分布表的编制解:首先将教师性别用代码0、1表示;将教师职称用代码2、3、4、5表示,然后在数据文件的VaribleView窗口Values栏定义变量值标签:
0表示女性,1表示男性;2表示助教,3表示讲师,4表示副教授,5表示教授。2023/2/27《统计学》第2章数据的描述2-39【例2.1】
——频数分布表的编制SPSS操作步骤:File→open→Data→example2.1→Analyze→DescriptiveStatistics→Frequencies→将“性别”选入Variable框→OK。输出结果如表2.2及表2.3所示:表2.2某高校30名教师性别分组频数分布表
FrequencyPercentValidPercentCumulativePercentValid0女1446.746.746.7
1男1653.353.3100.0
Total30100.0100.0
2023/2/27《统计学》第2章数据的描述2-40表2.3某高校30名教师职称分组频数分布表
FrequencyPercentValidPercentCumulativePercentValid2助教413.313.313.3
3讲师826.726.740.0
4副教授1240.040.080.0
5教授620.020.0100.0
Total30100.0100.0
表2.2及表2.3中,Frequency为频数,Percent为各组频数占总数的百分比,ValidPercent为各组频数占总数的有效百分比,CumulativePercent为各组频数占总数的累积百分比。【例2.1】
——频数分布表的编制2023/2/27《统计学》第2章数据的描述2-412.用图形展示分类数据
和顺序数据适合分类数据和顺序数据的图形有条形图、饼图等。条形图:是用条形高度来表示数据多少的图形。饼图:又称圆图,它是以整个圆代表总体,按总体各部分占总体比重的大小将圆面积分割成若干扇形,从而用圆内扇形面积来直观反映各部分在总体中的比例。2023/2/27《统计学》第2章数据的描述2-42【例2.2】
——条形图的绘制(数据文件为example2.2)根据表2.3资料,用SPSS绘制条形图。解:SPSS操作步骤:File→open→Data→example2.2→Graphs→Bar→选中Simple,选中Summariesforgroupsofcases→单击Define→选中OtherSummaryfunction→将“人数”选入Variable(纵轴),将“职称分类”选入CategoryAxis(横轴)→OK。输出结果如图2.1所示:2023/2/27《统计学》第2章数据的描述2-43【例2.2】
——条形图的绘制输出结果:图2.130名教师职称分布条形图2023/2/27《统计学》第2章数据的描述2-44【例2.3】
——饼图的绘制(数据文件为example2.2)根据表2.3资料,用SPSS绘制饼图。解:SPSS操作步骤:File→open→Data→example2.2→Graphs→Pie→选中Valuesofindividualcases→单击Define→将“人数”选入SlicesRepresent栏,将“职称分类”选入Variable栏→OK。输出结果如图2.2所示:
2023/2/27《统计学》第2章数据的描述2-45【例2.3】
——饼图的绘制
输出结果:图2.230名教师职称分布饼图2023/2/27《统计学》第2章数据的描述2-462.3.2数值型数据的整理用频数分布表(变量数列)展示数值型数据用图示展示数值型数据频数分布的类型2023/2/27《统计学》第2章数据的描述2-471.用频数分布表(变量数列)展示
数值型数据将数值型数据进行统计分组,就可以形成频数分布表(变量数列)。制作频数分布表时可用单变量值分组,也可用组距分组。单变量值分组通常适用于离散变量,且变量值变动幅度不大时;组距分组通常适用于变量值较多、且变动范围较大的离散型或连续型变量。2023/2/27《统计学》第2章数据的描述2-48【例2.4】
——单变量值分组
某班学生按年龄(周岁)分组的结果如表2.4所示:
表2.4某班学生按年龄(周岁)分组情况表按年龄分组(周岁)学生人数(人)比重(%)181920212236127210.0020.0040.0023.336.67合计30100.002023/2/27《统计学》第2章数据的描述2-49★组距分组的基本概念组限各组两端变量值上限各组最大值下限各组最小值组距各组上下限之差全距数列中最大变量值与最小变量值之差组中值各组上下限和的一半2023/2/27《统计学》第2章数据的描述2-50某地区100个百货商店月销售额与流通费用情况销售额(万元)商店数(个)每百元商品销售额中支付的流通费(元)50以下50~100100~200200~300300以上102030251514.211.4上组限U下组限L如:组距d=U-L=100-50=50(万元)如:组中值x=(U+L)/2=(100+200)/2=150(万元)2023/2/27《统计学》第2章数据的描述2-51等距分组异距分组60分以下60—70分70—80分80—90分90分以上组中值为(60+50)÷2=55组中值为(90+100)÷2=95各组组距相等的分组称为等距分组。各组组距不全相等的分组称为异距分组。上限不在内原则2023/2/27《统计学》第2章数据的描述2-52组距分组的步骤第一,确定组数。
可以按斯特格斯的经验公式确定组数:
第二,确定各组的组距。
实际中先确定组数或先确定组距均可:
第三,整理成频数分布表。2023/2/27《统计学》第2章数据的描述2-53【例2.5】
——组距分组
2009年7月9日随机抽查了某大学50名任课教师的年龄,原始数据(周岁)如下:
3339452724353044524745424046684847463960464751295947295043293530293433456446446730272944533155414347
试对数据进行组距分组。
2023/2/27《统计学》第2章数据的描述2-54【例2.5】
——组距分组解:此处采用先确定组距的方式。根据本例的数据水平及全距大小,组距拟定为10。确定组数:组数=全距/组距
=(68-24)÷10=4.45(组)对原始数据分组,整理成频数分布表如表2.5所示:2023/2/27《统计学》第2章数据的描述2-55【例2.5】
——组距分组分组结果:表2.550名教师年龄分组频数分布表按年龄分组(周岁)人数(人)比重(%)20~3030~4040~5050~6060~708112164162242128合计501002023/2/27《统计学》第2章数据的描述2-56【例2.5】
——组距分组本例还可采用间断式组距形式分组,如表2.6所示:表2.650名教师年龄分组频数分布表按年龄分组(周岁)人数(人)比重(%)20~2930~3940~4950~5960~698112164162242128合计501002023/2/27《统计学》第2章数据的描述2-57【例2.5】
——组距分组本例还可采用开口组形式分组,如表2.7所示:表2.750名教师年龄分组频数分布表按年龄分组(周岁)人数(人)比重(%)30以下30~4040~5050~6060以上8112164162242128合计501002023/2/27《统计学》第2章数据的描述2-58统计分组的程序与原则选择分组标志确定分组体系总体单位归类科学性:组间差异大,组内差异小。完备性和互斥性:每个单位均能且只能归到某个组中。2023/2/27《统计学》第2章数据的描述2-59
从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。向上累计向下累计
从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。累计次数与累计频率2023/2/27《统计学》第2章数据的描述2-60
销售额(百万元)商店数频率(﹪)累计次数累计频率(﹪)5以下5~1010~1515~2020~2525以上410161343820322686合计501002023/2/27《统计学》第2章数据的描述2-61
销售额(百万元)商店数频率(﹪)累计次数累计频率(﹪)向上累计向上累计5以下5~1010~1515~2020~2525以上41016134382032268641430434750828608694100合计50100——2023/2/27《统计学》第2章数据的描述2-62
销售额(百万元)商店数频率(﹪)累计次数累计频率(﹪)向上累计向下累计向上累计向下累计5以下5~1010~1515~2020~2525以上410161343820322686414304347505046362073828608694100100927240146合计50100————2023/2/27《统计学》第2章数据的描述2-632.用图形展示数值型数据适合数值型数据的图形有:直方图(histogram)箱线图(boxplots)
线图(linecharts)茎叶图(stem-and-leafdisplay)
…………2023/2/27《统计学》第2章数据的描述2-64直方图直方图(histogram)是用矩形的宽度和高度来表示频数分布的图形。若是等距数列,一般用横坐标表示数据分组,而纵坐标表示次数或频数;若是不等距数列,则应按频数密度绘制直方图。2023/2/27《统计学》第2章数据的描述2-65【例2.7】
——直方图沿用【例2.5】教师年龄原始数据,用SPSS绘制的直方图如下:图2.3某大学50名教师年龄直方图2023/2/27《统计学》第2章数据的描述2-66箱线图箱线图(boxplots)是用一组数据的五个特征值即最大值、最小值、中位数、上四分位数、下四分位数来表示频数分布状况的图形,它由一个箱子和两条线段组成。每个箱子的中间横线是数据的中位数。根据不同资料,可绘制简单箱线图或多批箱线图。2023/2/27《统计学》第2章数据的描述2-67【例2.8】
——简单箱线图沿用【例2.5】教师年龄原始数据,用SPSS绘制的简单箱线图如下:图2.550位教师年龄箱线图2023/2/27《统计学》第2章数据的描述2-68【例2.9】
——多批箱线图现有某大学9名大一新生英语、语文、数学的考试成绩如表2.11所示,试绘制多批箱线图,比较9名学生的各科成绩。表2.119名大一新生英语、语文、数学考试成绩学生编号考试成绩(分)英语语文数学123456789706589346678809356568033698587625078675498787080698575合计———2023/2/27《统计学》第2章数据的描述2-69解:用SPSS16.0绘制的多批箱线图如图2.6所示:
图2.69名学生各科成绩的箱线图2023/2/27《统计学》第2章数据的描述2-70线图线图(linecharts)是用线条的延伸和波动来表明现象变动情况的图形,它主要用于表示现象在不同时间上的变化趋势。2023/2/27《统计学》第2章数据的描述2-71【例2.10】
——线图
1998~2008年我国农村居民人均纯收入及城镇居民人均可支配收入资料如表2.12所示,试用SPSS绘制线图。表2.121998~2008年我国农村居民人均纯收入及城镇居民人均可支配收入时间(年)农村居民人均纯收入(元)城镇居民人均可支配收入(元)1998199920002001200220032004200520062007200821602210225323662476262229363255358741404761542558546280686077038472942210493117591378615781合计2023/2/27《统计学》第2章数据的描述2-72解:用SPSS16.0绘制的线图如图2.7所示:图2.71998~2008年我国农村居民人均纯收入及城镇居民人均可支配收入线图2023/2/27《统计学》第2章数据的描述2-73茎叶图茎叶图(stem-and-leafdisplay)又称“枝叶图”,它是将数组中变化不大的高位数作为一个主干(茎),将变化大的低位数作为分枝(叶),列在主干的后面,来表示频数分布的。茎叶图与直方图相类似,但又与直方图不同。茎叶图保留了原始资料的信息,而直方图则无原始资料的信息。2023/2/27《统计学》第2章数据的描述2-74【例2.11】
——茎叶图根据【例2.5】某大学50名教师年龄原始数据绘制的茎叶图如图2.8所示:树茎树叶数据个数2345647799999
07801235904788112164图2.8某大学50名教师年龄茎叶图2023/2/27《统计学》第2章数据的描述2-75如果茎叶图显得过于拥挤,还可以把它扩展,将每个数茎分成两段,尾数0~4的在数茎后以“*”表示;尾数5~9的在数茎后以“·”表示。如将图2.8扩展后,便形成如图2.9所示的扩展的茎叶图:图2.9某大学50名教师年龄扩展的茎叶图树茎树叶数据个数2*2·3*3·4*4·5*5·6*6·47799999000133455990123344455566667777780123590478177481342222023/2/27《统计学》第2章数据的描述2-76若用SPSS16.0绘制茎叶图,则如图2.10所示:图2.10某大学50名教师年龄的茎叶图教师年龄Stem-and-LeafPlotFrequencyStem&Leaf1.002.47.002.77999997.003.00013344.003.55998.004.0123344413.004.55566667777784.005.01232.005.592.006.041.006.71.00Extremes(>=68)Stemwidth:10Eachleaf:1case(s)2023/2/27《统计学》第2章数据的描述2-77象形图
是直方图的变形,用其他图形取代柱型,以期更能吸引视线。上海成都2023/2/27《统计学》第2章数据的描述2-78怎样把图画好?一定要在标示和说明里表示清楚,图里面画的是什么,单位是什么,以及资料来源。要让数据很醒目。抓住看图者注意力的是数据本身,而不是标示、格子,也不是背景的图样。你是在画一个呈现数据的图,而不是在从事艺术创作。要注意实际上眼睛会捕捉到什么。避免用象形图和三维空间,而且要小心选择刻度。2023/2/27《统计学》第2章数据的描述2-79不同的刻度2023/2/27《统计学》第2章数据的描述2-80图形的改善2023/2/27《统计学》第2章数据的描述2-81多余的笔墨2023/2/27《统计学》第2章数据的描述2-82多余的笔墨2023/2/27《统计学》第2章数据的描述2-8350年前现在A国B国A国B国惊人的人口增长2023/2/27《统计学》第2章数据的描述2-843.频数分布的类型常见的频数分布类型主要有钟形分布、J形分布和U形分布,如图2.11所示:
图2.11几种常见的频数分布(a)正态分布(b)右偏分布(c)左偏分布(d)正J形分布(e)反J形分布(f)U形分布2023/2/27《统计学》第2章数据的描述2-85钟形分布钟形分布的特点是靠近中间的变量值分布的次数多,靠近两端的变量值分布的次数少,即“两头小、中间大”。钟形分布又分正态分布、右偏分布和左偏分布,如图2.12所示:图2.12钟形分布(a)正态分布(b)右偏分布(c)左偏分布2023/2/27《统计学》第2章数据的描述2-86J形分布及U形分布J形分布其分布图象像英文字母“J”字,包括正J形分布和反J形分布两种类型。U形分布的特点是靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,即“两头大、中间小”。(d)正J形分布(e)反J形分布(f)U形分布图2.13J形分布与U形分布2023/2/27《统计学》第2章数据的描述2-872.4集中趋势的度量2.4.1均值2.4.2几何平均数2.4.3调和平均数2.4.4众数2.4.5中位数2.4.6四分位数2.4.7众数、中位数和均值的比较2023/2/27《统计学》第2章数据的描述2-88平均数概述平均数概念平均数又称平均指标,它是将一个同质总体各单位之间量的差异抽象化,用一个指标来代表总体各单位的一般水平,是对总体分布集中趋势或中心位置的度量。数据集中区变量x2023/2/27《统计学》第2章数据的描述2-89平均数的种类
数值平均数和位置平均数数值平均数——根据统计数列的所有各项数据计算的平均数。位置平均数——根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的平均数。2023/2/27《统计学》第2章数据的描述2-902.4.1
均值均值(mean)是全部数据的算术平均,也称算术平均数。根据掌握的资料不同,均值有简单均值与加权均值两种计算形式。2023/2/27《统计学》第2章数据的描述2-911、简单算术平均数计算公式2023/2/27《统计学》第2章数据的描述2-92
例:
6名学生的考试成绩(分)分别为:79、82、87、60、95、91,他们的平均成绩是多少?2023/2/27《统计学》第2章数据的描述2-93例:工人日产量(件)工人人数(人)工人人数比重(%)1011121314701503801501008.7518.7047.5018.7512.50合计800100.002023/2/27《统计学》第2章数据的描述2-94
总产量:2023/2/27《统计学》第2章数据的描述2-952、加权算术平均指标公式:按频数按频率2023/2/27《统计学》第2章数据的描述2-96均值的数学性质各变量值与均值的离差之和等于零各变量值与均值的离差平方和最小2023/2/27《统计学》第2章数据的描述2-972.4.2
几何平均数几何平均数(geometricmean)是个变量值乘积的次方根,记作。适用范围:变量值本身是比率(速度),而且各比率(速度)的乘积等于总的比率(速度),需计算平均比率或平均速度时使用。2023/2/27《统计学》第2章数据的描述2-98几何平均数公式分组数据2023/2/27《统计学》第2章数据的描述2-99例:
某企业生产某种产品要经过三道工序,各工序的合格品率分别为95%、96%和98%。该产品三道工序的平均合格品率为多少?2023/2/27《统计学》第2章数据的描述2-100【例2.16】
——加权几何平均数某笔投资的年利率资料如表2.14所示:表2.14某笔投资的年利率资料年利率(%)年数2457813642已知年利率按复利计算。要求:求该笔投资的平均年利率。2023/2/27《统计学》第2章数据的描述2-101【例2.16】
——加权几何平均数解:平均年利率=平均年本利率-12023/2/27《统计学》第2章数据的描述2-102例:某地区1995年至2000年六年间工业总产值增长率分别为9.8%,8.8%,7.8%,6.8%,8.8%,10.8%。求该地区六年工业总产值平均增长率。G=6109.8%……110.8%=108.8%∴该地区工业总产值平均每年增长8.8%2023/2/27《统计学》第2章数据的描述2-1032.4.3
调和平均数调和平均数也称“倒数平均数”,它是对变量值的倒数求算术平均,然后再取倒数而得的平均数,记作。根据资料不同,分为简单调和平均与加加权调和平均两种计算形式。
2023/2/27《统计学》第2章数据的描述2-104例:某供销社分三批收购某种农副产品,其收购单价及各批收购额如下,求该农副产品的平均单价。批次单价(元)收购额(元)12.40600022.251200032.152150合计~20150xfx2023/2/27《统计学》第2章数据的描述2-105调和平均数2023/2/27《统计学》第2章数据的描述2-106简单调和平均数计算公式:2023/2/27《统计学》第2章数据的描述2-107加权调和平均数计算公式2023/2/27《统计学》第2章数据的描述2-108【例2.17】
——简单调和平均数菜场上有一种蔬菜,价格分别为:早市2.5元/公斤;午市2元/公斤;晚市1元/公斤。若早、中、晚各花1元钱买蔬菜,则一天中买到蔬菜的平均价格为:2023/2/27《统计学》第2章数据的描述2-109【例2.18】
——加权调和平均数沿用【例2.17】资料,若早、中、晚分别花7.5元、4元和1元钱买蔬菜,则一天中买到蔬菜的平均价格为:2023/2/27《统计学》第2章数据的描述2-110问题讨论简单调和平均数是否有独立应用的意义?加权调和平均数与加权算术平均数之间有何联系?2023/2/27《统计学》第2章数据的描述2-111
——是指总体中出现次数最多或频率最大的变量值(数据)。众数也是一种位置平均数,且也不受极端值的影响。众数2.4.4
众数2023/2/27《统计学》第2章数据的描述2-112未分组数据求众数例如数据集2,5,4,5,5,6,5,7,8,5
中,众数为5,5大体上可代表这组数据的平均水平。2023/2/27《统计学》第2章数据的描述2-113组距数列求众数对于组距分组数据,可用比例插值法推算众数的近似值:
式中:2023/2/27《统计学》第2章数据的描述2-114【例2.19】
——组距数列求众数沿用表2.5教师年龄的分组资料,求教师年龄的众数。解:教师年龄的众数为:或:2023/2/27《统计学》第2章数据的描述2-115众数小结众数是一个位置平均数。众数的优点是计算简便、意义明显,不受极端值的影响。众数的缺点:未使用所有变量值计算,因而灵敏度比较低。众数通常只适宜于变量数列的分布次数比较多,而且具有明显集中趋势的总体。2023/2/27《统计学》第2章数据的描述2-116——是根据变量值的位置来确定的平均数。将变量值按大小顺序排序,处于中间位置的变量值(或数据)即中位数。中位数2.4.5
中位数2023/2/27《统计学》第2章数据的描述2-117中位数的确定方法未分组资料
1、将标志值按大小顺序排列
2、当n为奇数,中位数为第(n+1)/2项,即中间一项所对应的标志值;
3、当n为偶数,中位数为中间两项的算术平均数。2023/2/27《统计学》第2章数据的描述2-118例3.16:网球选手玛丽在最近13个赛季中发球直接得分的次数如下:992232333939424952586570中位数6个6个2023/2/27《统计学》第2章数据的描述2-119分组资料
1、计算累计频数,确定中位数组
2、根据公式计算中位数:下限公式(按由小到大累计):上限公式(按由大到小累计):2023/2/27《统计学》第2章数据的描述2-120例:某公司职工按月工资分组月工资职工人数(人)向上累计次数(人)500以下208208500-600314522600-700382904700-800456
1360800-9003051665900-100023719021000-11007819801100以上202000合计2000—2023/2/27《统计学》第2章数据的描述2-121中位数小结中位数的优点也是计算简便、意义明显,当数据的分布为偏态时,中位数不受极端值的影响,它是一个位置代表值(位置平均数),具有较高的稳健性。局限性主要是中位数不是根据所有变量值计算出来的,因此它作为一般水平的代表值灵敏度也较差。2023/2/27《统计学》第2章数据的描述2-1222.4.6
四分位数四分位数(quartile):将一组数据由小到大(或由大到小)排序后,用三个点将全部数据分为四等分,每份有25%的数据,每个点上的数值称为四分位数。处于第50%位置的数值就是中位数,处于第25%位置的数值称为下四分位数,记为,处于第75%位置的数值称为上四分位数,记为。未分组数据和分组数据均可计算四分位数。2023/2/27《统计学》第2章数据的描述2-123未分组数据求四分位数在资料未分组的情况下,下四分位数的位置可由(n+1)/4来确定,上四分位数的位置可由3(n+1)/4来确定。数据个数为奇数或偶数两种情况下均可计算四分位数。2023/2/27《统计学》第2章数据的描述2-124【例2.21】
——未分组资料求四分位数有9个家庭的人均月收入分别为950、1080、1120、1350、1500、1550、1690、1830、2000元,则可求得下四分位数的位置在第2个与第3个数值之间,于是下四分位数为:上四分位数的位置在第7个与第8个数值之间,于是上四分位数为:
2023/2/27《统计学》第2章数据的描述2-125【例2.22】
——未分组资料求四分位数有10个家庭的人均月收入分别为875、950、1080、1120、1350、1500、1550、1690、1830、2000元,则下四分位数的位置为:(10+1)/4=2.75,偏向第三个数值,这时下四分位数为:上四分位数的位置为:3(10+1)/4=8.25,偏向第八个数值,这时上四分位数为:
2023/2/27《统计学》第2章数据的描述2-126组距数列求四分位数在组距数列中求四分位数时,可用以下公式求近似值:2023/2/27《统计学》第2章数据的描述2-127(一)数值平均数和位置平均数的比较(二)算术平均数与众数、中位数的比较XfXfXf(对称分布)正偏态分布(右)负偏态分布(左)2.4.7
众数、中位数和均值的比较2023/2/27《统计学》第2章数据的描述2-128球员薪水(万元)球员薪水(万元)奥尼尔1710哈柏210布赖恩特1180格林200霍利500乔治100莱斯450肖100费希尔430萨利80福克斯420卢70奈特310赛莱斯30洛杉矶湖人队2000年球员薪水2023/2/27《统计学》第2章数据的描述2-129房地产年收入约15000美元纳税委员会年收入约3500美元
精心挑选的平均数2023/2/27《统计学》第2章数据的描述2-130一名统计学家遇到一位数学家,统计学家调侃数学家:你们不是说若X=Y且Y=Z,则X=Z吗!那么想必你若是喜欢一个女孩,那么那个女孩喜欢的男生你也会喜欢罗!?”
数学家想了一下反问道:那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均不过是五十度而已!”2023/2/27《统计学》第2章数据的描述2-131购货代理商定期向两个不同的供货商订货,两家供货商都表示大约需要10个工作日交付订货。若干个月后:两家交付订货时间的平均数都是10天下图是交货时间频数分布图愿意选择哪一家供货商?2023/2/27《统计学》第2章数据的描述2-1322023/2/27《统计学》第2章数据的描述2-1332.5
离散程度的度量2.5.1极差2.5.2四分位差2.5.3方差和标准差2.5.4变异系数2023/2/27《统计学》第2章数据的描述2-134
极差(全距)
即最大的变量值与最小的变量值之差,用表示。2.5.1极差2023/2/27《统计学》第2章数据的描述2-135极差的特点计算简便,涵义直观,运用方便仅仅取决于两个极端值的水平,不能反映其间的变量分布情况受个别极端值的影响过于显著对于组距式数据只能求近似值。2023/2/27《统计学》第2章数据的描述2-1362.5.2四分位差
四分位差(inter-quartilerang):指一组数据中上四分位数与下四分位数之差,。计算公式:它反映了中间50%数据的离散程度。同时也可反映中位数对一组数据的代表性大小。2023/2/27《统计学》第2章数据的描述2-137四分位差【例2.21】:有9个家庭的人均月收入分别为950、1080、1120、1350、1500、1550、1690、1830、2000元,上、下四分位数分别为1760和1100。四分位差=1760-1100=660(元),表明有一半家庭的人均月收入在1100~1760之间,它们之间的最大差距为660元。2023/2/27《统计学》第2章数据的描述2-138方差和标准差是测度标志变异最重要,最常用的指标。未分组
分组2.5.3方差和标准差2023/2/27《统计学》第2章数据的描述2-139样本方差样本方差计算公式未分组数据:
分组数据:
2023/2/27《统计学》第2章数据的描述2-140【例2.23】
——未分组数据求方差求样本测量值3,7,2,1,8的方差。解:首先求出样本均值:然后计算方差如下:2023/2/27《统计学》第2章数据的描述2-141【例2.24】
——未分组数据求标准差试对例2.23中的数据求标准差。解:标准差标准差等于3.11,表明数据集中的每个数值与它们的均值4.2相比,平均相差3.11。2023/2/27《统计学》第2章数据的描述2-142【例2.25】
——由分组数据求方差及标准差沿用表2.5教师年龄资料,求教师年龄的方差和标准差。解:首先列计算表如表2.15所示:表2.1550位教师年龄的方差和标准差计算表按年龄分组(周岁)组中值人数(人)20~3030~4040~5050~6060~7025354555658112164302.7654.766.76158.76510.762422.08602.36141.96952.562043.04合计—50—6162.002023/2/27《统计学》第2章数据的描述2-143【例2.25】
——由分组数据求方差及标准差解:根据表2.15资料,教师年龄的方差和标准差计算如下:结果表明,每个教师的年龄与他们的平均年龄相比,平均相差11.21岁。2023/2/27《统计学》第2章数据的描述2-144性质1、方差和标准差具有“平移不变”的特性。若a为任意常数,则变量y=x+a的方差和标准差与原变量相同,即有:
2、将原变量乘以一个任意常数b,则新变量y=bx的方差和标准差分布为原来的b2倍和|b|倍,即有:2023/2/27《统计学》第2章数据的描述2-1453、在总体分组的条件下,变量的总方差可以分解为组内方差平均数和组间方差两部分,即有:其中:——组内方差平均数
——组间方差2023/2/27《统计学》第2章数据的描述2-146其他指标的局限:有计量单位,需要换算;变量值水平不相同的情况下,难以衡量;变量性质不同时,难以衡量2.5.4变异系数2023/2/27《统计学》第2章数据的描述2-1472023/2/27《统计学》第2章数据的描述2-148
例子:甲、乙两车间工人平均日产量分别为8件和12件,标准差分别为2.2件和2.7件。哪个车间工人的平均日产量更稳定?
仅从标准差来看,甲车间标准差小于乙车间,似乎甲车间工人平均日产量更稳定;但事实上V甲
=2.2/8=0.275V乙
=2.7/12=0.225
甲车间标准差系数大于乙车间,乙车间工人平均日产量稳定。2023/2/27《统计学》第2章数据的描述2-1492.6
分布偏态与峰度2.6.1偏态及其测定2.6.2峰度及其测定2023/2/27《统计学》第2章数据的描述2-1502.6.1偏态及其测定偏态(skewness)一词是由统计学家皮尔逊于1895年首次提出的,它是对数据分布偏斜程度的测度。测度偏斜的程度需要计算偏态系数,记为。判断标准:2023/2/27《统计学》第2章数据的描述2-151由组距数列计算偏态系数计算公式:2023/2/27《统计学》第2章数据的描述2-152【例2.27】
——偏态系数
已知2007年我国农村居民家庭按纯收入分组的有关数据如表2.16所示,试计算偏态系数。表2.162007年我国农村居民家庭按纯收入分组的数据按纯收入分组(百元)户数(户)10以下10~2020~3030~4040~5050以上299396561337911940912421098合计68190注:本表为我国农村居民家庭收入抽样调查资料。资料来源:《中国统计年鉴2008》,本表对原始数据作了分组整理,抽样户数根据比重推算得。2023/2/27《统计学》第2章数据的描述2-153【例2.27】
——偏态系数首先列计算表如表2.17所示:表2.172007年我国农村居民家庭纯收入偏态及峰度计算表按纯收入分组(百元)组中值户数(户)10以下10~2020~3030~4040~5050以上51525354555299396561337911940912421098-92837889.49-94897693.41-19926084.39-34187.665762980.37135325118.782916966487.662032708592.32227555883.8448546.4849446371.562514340706.35合计—68190-66607755.807741066588.212023/2/27《统计学》第2章数据的描述2-154【例2.27】
——偏态系数根据表2.5数据计算均值及标准差如下:将上述结果代入偏态系数公式,得2023/2/27《统计学》第2章数据的描述2-155【例2.27】
——偏态系数由计算结果可看出,偏态系数为负值,但与零的差距不大,说明2007年我国农村居民家庭纯收入分布为轻微左偏分布,收入较高的家庭占有一定的比例,但偏斜程度不大。2023/2/27《统计学》第2章数据的描述2-1562.6.2峰度及其测定峰度(kurtosis)一词是由统计学家皮尔逊于1905年首次提出的,它是对数据分布平峰或尖峰程度的测定。对峰度的测度需要计算峰度系数,记为。判断标准:2023/2/27《统计学》第2章数据的描述2-157由分组数据计算峰度系数计算公式:2023/2/27《统计学》第2章数据的描述2-158【例2.28】
——峰度系数沿用【例2.27】数据,计算峰度系数。解:将表2.17相关数据代入峰度系数公式,得:
峰度系数为负值,说明2007年我国农村居民家庭纯收入分布为平峰分布,高收入家庭占一定比例,但高收入区域的集中程度并不很高。2023/2/27《统计学》第2章数据的描述2-1592.7
统计表统计表的结构设计统计表应注意的事项2023/2/27《统计学》第2章数据的描述2-160统计表的结构统计表通常由四个主要部分组成,即:表头、行标题、列标题和数字资料。有的统计表下方还有表外附加。2023/2/27《统计学》第2章数据的描述2-161按三次产业分国内生产总值(亿元)百分比(%)第一产业1445717.7第二产业4041849.3第三产业2703633.0合计81911100.0例2.9中国1999年国内生产总值主词宾词行标题列标题表头2023/2/27《统计学》第2章数据的描述2-162统计表的分类按主词是否分组及分组标志的多少:
1、简单表:未经整理分组的统计表
2、分组表:按一个标志分组的统计表
3、复合表:按两个以上标志分组的统计表2023/2/27《统计学》第2章数据的描述2-163按三次产业分国内生产总值(亿元)百分比(%)第一产业1445717.7第二产业4041849.3第三产业2703633.0合计81911100.0例2.10中国1999年国内生产总值2023/2/27《统计学》第2章数据的描述2-164
交叉分组列表是一种可以同时概括两个变量的数据的方法。复合表:交叉分组列表表格的左边和上边分别表示:两个变量的分组情况。2023/2/27《统计学》第2章数据的描述2-165
居住状态口味感觉1 长住者味道好2 长住者味道好3 长住者味道不好4 暂住者味道不好5 长住者味道好6 长住者味道好7 暂住者味道好8 暂住者味道不好9 暂住者味道不好10 长住者味道好
居住状态口味感觉11暂住者味道好 12暂住者味道好 13长住者味道好 14长住者味道好 15长住者味道不好16暂住者味道不好17暂住者味道好 18暂住者味道好 19长住者味道不好20长住者味道不好 某饭店顾客满意情况调查2023/2/27《统计学》第2章数据的描述2-1662023/2/27《统计学》第2章数据的描述2-167统计表的编制规则1、统计表一般左右两端不封闭;2、统计表的标题要力求简明、确切;3、内容简明,不要罗列太多和过于庞杂;4、统计表栏数较多时,须加编号;5、数字填写规则;6、计量单位填写规则;7、应注明注解或资料来源。2023/2/27《统计学》第2章数据的描述2-168本章小结本章主要介绍数据的搜集、整理方法以及如何用图表及一些特征值来概括数据的特征。数据的计量尺度有四种,即定类尺度、定序尺度、定距尺度和定比尺度,其中定类尺度计量结果形成分类数据,定序尺度计量结果形成顺序数据,定距尺度和定比尺度计量结果形成数值型数据。数据的收集渠道有直接来源及间接来源。直接来源主要靠统计调查得到,常用的调查方式有统计报表、普查、抽样调查、重点调查、典型调查等。2023/2/27《统计学》第2章数据的描述2-169本章小结对分类数据、顺序数据及数值型数据,既可以用频数分布表来展示,也可用图形来展示。频数分布的类型主要有三种:钟形分布、J形分布和U形分布。数据整理完毕后,针对原始数据以及分组数据,可以用一些特征值来概括其特征。包括集中趋势、离散程度、分布偏态与峰度三个方面。2023/2/27《统计学》第2章数据的描述2-170本章小结对数据分布的集中趋势,我们可用均值、几何平均数、调和平均数、众数、中位数、四分位数等来测度。对数据分布的离散程度,我们可用极差、四分位差、方差和标准差以及离散系数等来测度。对于一组数据,我们还可用偏态系数刻画数据分布的偏斜程度,用峰度系数刻画数据分布的尖峰或扁平程度。2023/2/27《统计学》第2章数据的描述2-171案例:王斌求职(数据文件为case-study2)某小厂欲招工人一名,王斌应征而来,厂长告诉他:“我们这里报酬不错,平均工资水平是每月3000元。”王斌工作一段时间后,找到厂长说:“你骗我,多数工人的工资水平没有超过每月2000元,”这时,一名领工过来说:“王斌,厂长说得没错,其实我们厂有一半人达到或超过中等工资水平即每月2500元,不止每月2000元的!不信,看看这张工资表。”2023/2/27《统计学》第2章数据的描述2-172案例:王斌求职职工工资原始数据:1000200020002000200020002000200020002000200025002500250025002500250030003000300030003000
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子厂安全生产奖惩制度
- 病历处方点评奖惩制度
- 监理单位内部奖惩制度
- 督促女朋友减肥奖惩制度
- 社会治理成绩奖惩制度
- 社区工作奖惩制度范本
- 突发性事件考评奖惩制度
- 精准扶贫贫困户奖惩制度
- 维修公司员工奖惩制度
- 网格化环境监管奖惩制度
- 2026云南楚雄市司法局第一批司法协理员招聘10人考试参考试题及答案解析
- 2025年02月陕西省国际信托股份有限公司2025年招考笔试历年常考点试题专练附带答案详解试卷2套
- 2026年阜新高等专科学校单招职业技能测试题库必考题
- GB/T 5973-2026起重机械钢丝绳绳端固接接头
- 中央预算资金34个细分领域资金分布比例及项目申报实操
- 2026马年春节开学第一课课件:用英语讲述我的中国年
- 2026年南京机电职业技术学院单招职业适应性测试题库附答案解析
- 蒲公英介绍教学课件
- 2026青海海东公安招录32名人民警察备考题库及答案详解(夺冠系列)
- 2026北森测评试题及答案
- 2026西藏自治区教育考试院招聘非编工作人员11人备考考试题库及答案解析
评论
0/150
提交评论