本科“统计学”-第二章 统计数据的描述_第1页
本科“统计学”-第二章 统计数据的描述_第2页
本科“统计学”-第二章 统计数据的描述_第3页
本科“统计学”-第二章 统计数据的描述_第4页
本科“统计学”-第二章 统计数据的描述_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章统计数据的描述第一节数据的计量与类型第二节品质数据的整理与显示第三节数值型数据的整理与显示第四节统计表学习目标了解数据的计量尺度与数据的类型掌握品质数据整理与显示的方法掌握数值型数据整理与显示的方法用Excel作频数分布表和图形总体、个体、特征与数据总体:所研究对象的全体个体或成分:组成总体的元素——研究总体是对其个体的某些特征(当然也是总体的特征)感兴趣;我们决不会研究没有任何特征信息的空洞的个体或总体。变量或指标:表征总体或个体特征的量指标向量或变量向量:用以联合考察总体或个体的多个特征变量值(指标值)或数据:在研究一个总体时,所要研究的每个特征(指标或变量)、在每个个体上的具体描述(可以是数字,也可以是文字)第一节数据的计量与类型一.数据的计量尺度二.数据的类型和分析方法三.统计指标及其类型数据的计量尺度数据的直观分类:定性型数据定量型数据四种计量尺度数据的计量尺度定类尺度定序尺度定距尺度定比尺度定类尺度

(列名尺度_NominalScale)计量层次最低对事物进行平行的分类各类别可以指定数字代码表示使用时必须符合类别穷尽和互斥的要求数据表现为“类别”——名义级数据具有=或的数学特性——例:性别分类,民族分类等定序尺度

(顺序尺度_OrdinalScale)对事物分类的同时给出各类别的顺序比定类尺度精确未测量出类别之间的准确差值数据表现为“类别”,且有序——序次级数据(允许顺序中出现循环的情况)具有>或<的数学特性——例:学历等级,体育比赛中的循环制等定距尺度

(间隔尺度_IntervalScale)1. 对事物的准确测度2. 比定序尺度精确,且杜绝了出现循环顺序的可能数据表现为“数值”——刻度级数据没有绝对零点——零点人为制定具有+或-的数学特性——如:某些省市高考计分中所采用的标准分、智力测验的得分等。定比尺度

(比例尺度_RatioScale)1. 对事物的准确测度:某件事情的发生率(或百分比)是比仅仅对发生次数做计数更为有效的度量。2. 与定距尺度处于同一层次,差别很小,有些学者将其归为一类数据表现为“数值”——刻度级数据有绝对零点——零点不是人为制定的,如长度的0米,热力学的0度等5. 具有或的数学特性四种计量尺度的比较四种计量尺度的比较定类尺度定序尺度定距尺度定比尺度

分类(=,≠)排序(<,>)

间距(+,-)比值(×,÷)√√√√√√√√√√计量尺度数学特性“√”表示该尺度所具有的特性数据类型和分析方法在统计分析中,不同测度类型的数据扮演的角色不同。如:定类数据通常是样本分类的依据;定序数据可以用来计算等级相关系数;定距数据可以用来计算均值;定比数据可以用来做回归分析;等一般来说,等级高的数据,可以兼有等级低的数据的功能;而等级低的数据,不能兼有等级高的数据的功能。数据的不同类型,也决定了变量的不同类型。数据类型与统计方法数据类型与统计方法定类数据定序数据品质数据(定性数据)数量数据(定量数据)定距数据定比数据参数方法非参数方法第二节品质数据的整理与显示一.定类数据的整理与显示二.定序数据的整理与显示一、定类数据的整理与显示定类数据的整理与显示

(基本问题)必须弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的对定类数据和定序数据主要是做分类整理对定距数据和定比数据则主要是做分组整理适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据定类数据的整理

(基本过程)1. 列出各类别2.计算各类别的频数3.制作频数分布表4.用图形显示数据定类数据的整理

(可计算的指标)1.频数:落在各类别中的数据个数2.比例:某一类别数据占全部数据的比值3.频率(百分比):将对比的基数作为100而计算的比例值4.比率:不同类别数值的比值EXCEL工具:对定类数据的频数统计可用COUNT()函数(数值)或COUNTIF()函数(文本)定类数据整理—频数分布表

(实例)【例2.1】为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?”1.金融广告;2.服务广告;3.商品广告;4.房地产广告;5.招生招聘广告;6.其他广告。表2-1某城市居民关注广告类型的频数分布

广告类型人数(人)比例频率(%)金融广告服务广告商品广告房地产广告招生招聘广告其他广告951112161020.0450.2550.5600.0800.0500.0104.525.556.08.05.01.0合计2001100问题:频数与频率的表达效果哪个好?定类数据的图示—柱(条)形图

(由Excel绘制的柱形图)图2-1某城市居民关注不同类型广告的人数分布问题:该柱图显示数据服从正态分布吗?注意:

正态分布只适用于连续型的数量数据

定类数据的图示—圆形图

(由Excel绘制的圆形图)

其他广告1.0%

房地产广告8.0%

商品广告56.0%

金融广告4.5%

服务广告25.5%

招生招聘广告5.8%图2-2某城市居民关注不同类型广告的人数构成定类数据的图示—圆形图

(圆形图的制作)也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用在绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的例如,关注服务广告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为3600×25.5%=91.80,其余类推练习一研究机构统计出了美国电视历史上收视率最高的50个节目,并整理了制做这些节目的电视网。通过下列数据,分析在提供收视率最高的电视节目方面,ABC、CBS、NBC等电视网哪个做得最好?NetworkABCABCABCNBCCBSABCCBSABCABCNBCNBCNBCCBSABCNBCCBSABCCBSNBCABCCBSNBCNBCCBSNBCCBSCBSCBSNBCNBCFOXCBSCBSABCNBCABCABCCBSNBCNBCNBCCBSNBCCBSCBSABCCBSABCNBCABC定序数据的整理与显示定序数据的整理

(可计算的指标)1.频数:落在各类别中的数据个数2.比例:某一类别数据占全部数据的比值3.频率(百分比):将对比的基数作为100而计算的比例值4.比率:不同类别数值的比值1.累计频数:将各类别的频数逐级累加2.累计频率:将各类别的频率(百分比)逐级累加定序数据频数分布表

(实例)【例2.2】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?

1.非常不满意;

2.不满意;

3.一般;

4.满意;

5.非常满意。

表2-2甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积

向下累积

户数(户)百分比(%)户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————定序数据频数分布表

(实例)表2-3乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积

向下累积

户数(户)百分比(%)户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合计300100.0————定序数据的图示—累计频数分布图

(由Excel绘制的累计频数分布图)243001322252700100200300400

非常不满意

不满意

一般

满意

非常满意累积户数(户)(a)向上累积27616830300750100200300400

非常不满意

不满意

一般

满意

非常满意累积户数(户)(b)向下累积图2-3甲城市家庭对住房状况评价的累积频数分布品质数据的图示—环形图

(由Excel绘制的环形图)8%36%31%15%7%33%26%21%13%10%

非常不满意

不满意

一般

满意

非常满意

图3-4甲乙两城市家庭对住房状况的评价品质数据的图示—环形图

(作业:环形图的制作)环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图可用于进行比较研究环形图可用于展示定类和定序的数据第三节数值型数据的整理与显示一.数据的分组二.数值型数据的图示三.频数分布的类型频数分布表的编制编制频数分布表的步骤确定组数编制频数分布表的步骤确定组距计算频数编制表格频数分布表的编制

(实例)【例2.3】某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。

单变量值分组:(1)将数据输入单元格范围H4:Q8(2)先确定分组数目和每组的上限值,然后将”每组上限值“输入H14:H45(3)用鼠标选定I14:I45(放运算结果用),键入“=FREQUENCY(H4:Q8,H14:H45)”(4)按Ctrl+Shift+Enter组合键,即可在I14:I45得到相应的频数。117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121分组方法分组方法等距分组异距分组单变量值分组组距分组单变量值分组

(要点)1.将一个变量值作为一组2.适合于离散变量适合于变量值较少的情况注意:如果变量值过多,单值分组反而会掩盖数据内在的规律性。单变量值分组表

(实例)表2-4某车间50名工人日加工零件数分组表零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)107108110112113114115117118121211133119120121122123124125126127121443223128129130131133134135137139211122112组距分组

(要点)将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组~~~~~组距分组

(步骤)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges

提出的经验公式来确定组数K确定各组的组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即

组距=(最大值-最小值)÷组数

根据分组整理成频数分布表

注意:(1)组距大小必须适当,否则会掩盖数据内在的规律性。(2)分组一般控制在5-15组的范围内,最多不超过20组。组距分组

(几个概念)1.下限:一个组的最小值2.上限:一个组的最大值3.组距:上限与下限之差4.组中值:下限与上限之间的中点值下限值+上限值2组中值=等距分组表

(上下组限重叠)表2-5某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合计50100等距分组表

(上下组限间断)表2-6某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~109110~114115~119120~124125~129130~134135~139358141064610162820128合计50100等距分组表

(使用开口组)表2-7某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110~114115~119120~124125~129130~134135以上358141064610162820128合计50100一般采用等距分组原则——不等距分组必须考虑特殊变换以表现频数分布上的差异等距分组(即:各组数据的上界与下界之差相等)各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况分组数据—直方图

(直方图的制作)用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数(或频率),各组与相应的频数(或频率)就形成了一个矩形,这一图形即为频数(或频率)直方图(Histogram)用Excel作直方图(需在Excel“工具”菜单中选“加载宏”调用“分析工具库”)以下图形均由计算机绘制!ExcelSTATISTICA绘制直方图:(1)选择“工具=》数据分析=》直方图”(2)在“输入区域”框中选择原数据所在区域H4:Q8(2)在“接受区域”框中选择组上限所在区域H14:H45(3)在“输出区域”框中选择输出数据所在区域I14:I45(放运算结果用)(4)单击确定使用Excel频数函数(FREQUENCY)Excel的“直方图”工具的缺陷是:频数分布和直方图没有与数据联系起来,这样,如果你改变任何一个数据,频数分布表和直方图不会跟着改变使用Excel中的统计函数“FREQUENCY”来创建频数分布表和直方图,可解决这一问题。创建频数分布表的步骤是:确定输入数据所在的单元格范围确定分组数目和每组的上限值,并将“组上限值”输入作为接受区域选择与接受区域相临近的单元格区域,作为频数分布表输出的区域选择统计函数中的“FREQUENCY”函数在对话框Date-array后输入数据区域,在Bins-array后输入接受区域同时按下ctrl-shift-Enter组合键,即得到频数分布,然后作柱图依据频数分布,可用公式将其转换为频率分布统计函数—FREQUENCY分组数据—直方图

(直方图的绘制)频数(人)1512963105110115120125130135140日加工零件数(个)图3-5某车间工人日加工零件数的直方图我一眼就看出来了,大多数人的日加工零件数在120~125之间!分组数据—直方图

(直方图与条形图的区别)直方图与条形图的本质差异在于:直方图要对数据分组(或者说,按照一定的刻度范围,把相邻的数据并为一组;条形图不对数据分组,要想达到直方图的效果,必须借助于Excel频数函数(FREQUENCY)条形图可以被视为直方图的特例:即,只要区间足够小,使得每个不重复的样本值处于不同的区间中,这时的直方图,就是条形图。一般而言,条形图更适用于分类数据,而直方图更适用于刻度级数据。原始数据探索——茎叶图

(直方图与茎叶图的区别)茎叶图与直方图一样可以展现数据的分布特征,其主要的区别在于:直方图要对数据分组,而分组后,原始数据的信息大量损失;茎叶图在保留原始数据完整性的基础上,来展现数据的分布特征,主要用于对原始数据的初步探索。树茎树叶7880223477788890012222333344466777889013344579910111213数据个数3132410茎叶图类似横置的直方图未分组数据—茎叶图

(茎叶图的制作)图3-7某车间工人日加工零件数的茎叶图未分组数据—茎叶图

(扩展的茎叶图)树茎树叶10s10.11*11t11f11s11.12*12t12f12s12.13*12t13f13s13.78802234577788890012222333344455667778890133445799树茎树叶10*10.11*11.12*12.13*13.78802234577788890012222333344455667778890133445799图3-8图3.7扩展后的茎叶图时间序列数据—线图

(线图的制作)绘制线图时应注意以下几点时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断时间序列数据—线图

(实例)【例3.5】已知1991~1998年我国城乡居民家庭的人均收入数据如表3-11。试绘制线图¥$

表3-111991~1998年城乡居民家庭人均收入年份城镇居民农村居民199119921993199419951996199719981700.62026.62577.43496.24283.04838.95160.35425.1708.6784.0921.61221.01577.71926.12091.12162.0时间序列数据

(由Excel绘制的线图)020004000600019911992199319941995199619971998城镇居民农村居民收入

(元)

图3-14城乡居民家庭人均收入雷达图(RadarChart)是显示多个变量的常用图示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度多变量数据—雷达图设有n组样本S1,S2,…Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的雷达图,其具体做法是多变量数据—雷达图

(雷达图的制作)先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图多变量数据—雷达图

(实例)【例3.6】1997年我国城乡居民家庭平均每人各项生活消费支出数据如表3-12。试绘制雷达图。今天的主食是面包表3-121997年城乡居民家庭平均每人生活消费支出项

目城镇居民农村居民食品

衣着

家庭设备用品及服务

医疗保健

交通通讯

娱乐教育文化服务

居住

杂项商品与服务1942.59520.91316.89179.68232.90448.38358.64185.65

890.28109.4185.4162.4553.92148.18233.2334.27合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论