第4章数据的统计描述_第1页
第4章数据的统计描述_第2页
第4章数据的统计描述_第3页
第4章数据的统计描述_第4页
第4章数据的统计描述_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据的统计描述第4章内容提要4.1连续变量的统计描述4.2分类变量的统计描述4.3多选题的统计描述4.4统计图的呈现统计描述描述性统计分析:用少量数字(即描述指标)概括大量原始数字,对数据进行描述;推断性统计分析:从样本信息回推总体特征。统计描述中可用的工具各种初步汇总描述方法:分组汇总、百分位数刻画各种统计描述指标:均数、标准差、四分位数间距、百分比等;统计表:将统计指标组成表格,可同时呈现多种统计指标,并进行复杂的样本分组、合并计算;统计图:按照统计指标的大小将其绘制成一张图形,对于连续变量数据,常用直方图、箱图加以展示,对于分类变量,常用条图、饼图加以展示。变量的类型Nominal变量(名义型)分类变量Ordinal变量(定序型)可视作分类变量,也可处理后视作连续变量Scale变量(定距定比型)连续变量4.1连续变量的统计描述5(一)集中趋势的描述统计量集中趋势是指一组数据向某一中心值靠拢的倾向,是关于中心位置的描述。在统计学中,关于数据分布的中心位置的统计量被称为位置统计量(LocationStatistic)。常用的位置统计量有:均数——适用于正态分布和对称分布资料;中位数——适用于所有分布类型的资料。众数——适用于所有分布类型的资料。1.算术均数算术均数(ArithmeticMean)是最常用的描述数据分布的集中趋势的统计量。总体均数用μ表示,样本均数用X表示。均数的最重要意义在于它高度浓缩了数据,使大量的观测数据变为一个代表性数值。但它掩盖了各个观测数据之间的差异性,且对极端值比较灵敏,在某些情况下也有一定欺骗性。均数适用范围:单峰和基本对称的分布情况下适用于描述集中趋势。严格讲均数只适用于定距变量,但有时对于定序变量,求平均等级也可使用均数。2.中位数中位数(Median)是将总体各单位的标志值按大小顺序排列,处于中间位置的那个标志值。剩下的值一半比它大,一半比它小。中位数是位置平均数,因此不受极端值的影响。中位数适用范围:非基本对称的分布情况下可使用于中位数描述集中趋势。中位数对于定序变量、连续变量都可以使用。中位数只考虑居中位置,因此用于描述连续变量会损失很多信息。所以对于对称分布的资料,往往优先考虑均数。3.众数众数(Mode)是样本数据中出现频次最大的那个数字。众数不受极端值影响,但对资料的使用不完全,使用众数反映连续变量会损失很多信息。

当数据为对称分布或接近对称分布时:应选择均值作为集中趋势的代表值,因为此时均值与众数和中位数的差异很小,而又是全部数据的综合,因此具有很好的代表性。当数据为偏斜度较大的非对称分布时:

均值此时受极端值的影响,而偏离数据的集中点;此时应选择众数和中位数来代表。正偏或右偏分布负偏或左偏分布对称分布(一)集中趋势的描述统计量4.截尾均数由于均数较易受极端值的影响,因此可以考虑将数据排序后,按一定比例去掉两端的数据,只使用中部的数据来求均数,即截尾均数。如果截尾均数和原均数相差不大,则说明数据不存在极端值,或者两侧极端值的影响正好抵消;反之,则说明数据中有极端值,此时截尾均数能更好地反映数据的集中趋势。

常用的截尾均数有5%截尾均数,即两端各去掉5%的数。(二)离散趋势的描述统计量离散趋势是指一组数据远离其中心值的程度,是关于数据波动范围的描述。在统计学中,关于数据离散趋势的统计量被称为尺度统计量(ScaleStatistic)。常用的尺度统计量有:全距——适用于所有分布类型的资料标准差、方差——适用于正态分布资料四分位数间距——适用于所有分布类型的资料1.全距(Range)全距又称为极差,是一组数据中最大值(Maximum)与最小值(Minimum)之差.极差衡量的是变量分布的变异范围或离散幅度。它仅仅取决于两个极端值的水平,不能反映其间的变量分布。它容易受个别极端值的影响,并不稳定。全距一般只用于预备性检查,目的是大体上了解数据的分布范围。2.方差(Variance)和标准差(Std.Deviation)方差:即平均了每个数据的离均差的平方值。可用于不同含量样本数据分布离散程度的比较。方差越大,数据分布的离散程度越大。标准差:将方差开方得到标准差。标准差度量了偏离平均数的大小,相当于平均偏差,可直接地、概括地、平均地描述数据变异的大小。标准差越小,表明数据越整齐,变异程度越小。标准差越大,表明数据分布越分散,变异程度越大。方差和标准差的适用范围:由于方差和标准差的计算涉及到每一个变量值,所以它们反映的信息在离散指标中是最全面、最可靠的变异描述指标。由于涉及每一个变量值,方差和标准差也会受极端值的影响,当数据中有明显的极端值时不宜使用。只有均数能反映集中趋势时才能使用方差和标准差来反映离散趋势。因此,方差和标准差的适用范围应当是正态分布。2.方差(Variance)和标准差(Std.Deviation)3.百分位数、四分位数和四分位数间距百分位数(Percentile)是一种位置指标,用Px表示。一个百分位数将一组观察值分为两部分,理论位置有x%的观察值比它小,(100-x)%的观察值比它大。四分位数即三个数据的总称,分别是P25、P50和P75分位数。这三个分位数将全部总体单位按标志值的大小等分为四部分。分别记为Q1、Q2和Q3。

四分位数间距即(Q3—Q1)3.百分位数、四分位数和四分位数间距四分位数间距(Q3-Q1)的适用范围:四分位数间距包括了中间50%的观察值,因此既排除了两端极端值的影响,又能够反映较多数据的离散程度,是当方差、标准差不适用时较好的离散程度描述指标。四分位数间距越大表明中间的数据越分散,越小表明中间的数据越集中,在描述数据的离散程度上比极差的稳定性要高。(三)分布形态的描述统计量数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡缓程度等。在统计学中,关于数据分布形态的统计量被称为分布统计量(DistributionStatistic)。常用的分布统计量有:偏度系数峰度系数1.偏度系数(Skewness)偏度系数是描述变量取值分布形态对称性的统计量。当分布为对称分布时,正负总偏差相等,偏度值等于0;当分布为不对称分布时,正负总偏差不相等,偏度值大于0或小于0;偏度值大于0表示正偏差值大,为正偏或右偏,直方图中有一条长尾拖在右边;偏度小于0表示负偏差数值大,为负偏或左偏,直方图中有一条长尾拖在左边;正偏态说明数据多集中在偏低的一端,但存在较大的极端值;负偏态说明数据多集中在偏高的一端,但存在较小的极端值。偏度绝对值越大,表示数据分布形态的偏斜程度越大。2.峰度系数(Kurtosis)峰度系数是描述变量取值分布形态的陡缓程度的统计量。当数据分布与标准正态分布的陡缓程度相同时,峰度值等于0;峰度大于0表示数据的分布比标准正态分布更陡峭,为尖峰分布;峰度小于0表示数据的分布比标准正态分布平缓,为平峰分布。尖峰分布说明集中在众数附近的数值多,两侧数值少;平峰分布说明集中在众数附近的数值少,两侧数值多。(四)正态分布与标准化数据正态分布:在自然现象和社会现象中,大量的随机变量都服从或近似服从正态分布,也叫高斯分布。正态分布的特征:正态分布曲线是一条对称曲线,关于均数对称;曲线是单峰,在均值处达到最高点;正态分布曲线的矮阔与尖峭与标准差有关。标准差越大,个体差异越大,正态曲线也越矮阔;反之,标准差越小,个体差异越小,正态曲线也越尖峭。曲线无论向左或向右延伸,都越来越接近横轴,但不会与横轴相交,以横轴为渐近线。(四)正态分布与标准化数据正态曲线下的面积:约68%的个体的取值与平均数的距离在1个标准差(μ±σ)之内,或者说1个标准差范围内的曲线下面积为68%;约95%的个体的取值与平均数的距离在1.96个标准差(μ±1.96σ)之内;约99.7%个体的取值与平均数的距离在3个标准差(μ±3σ)之内。3个标准差之外的值通常看作异常值。(四)正态分布与标准化数据标准正态分布即将原始数据进行标准化变换,也被称为Z分布。通过标准化可得到一系列的变量值,通常称为标准化值,或Z分数。标准化值反映的是变量值与变量均值的差是几个标准差单位。如果标准化值等于0,则表明该变量值等于变量均值;如果标准化值大于0,则表明该变量值大于变量均值;如果标准化值小于0,则表明该变量值小于变量均值;异常值的判断将数据标准化后分为三组:Z≤-3,-3<Z<3,Z≥3如果数据在第一组或第三组的比例大于理论值0.3%,则可认为存在异常值。(五)连续变量的统计描述——FrequenciesFrequencies过程即频数分析,是最基本的数据分析过程。主要功能:既可用于连续变量,也可用于分类变量生成频数表计算各种基本统计量,可计算百分位数对于连续变量可绘制带正态曲线的直方图对于分类变量可绘制饼图、条图等【案例4.1】频数分析针对数据“住房状况调查”分析户主的“从业情况”和“房屋产权情况”,绘制频数表和条图针对“家庭收入”和“现住面积”计算均数、标准差、中位数以及P5、P95,并绘制带正态曲线的直方图;比较本地户口和外地户口的人均住房面积情况。分析人均住房面积是否存在不均衡现象。【案例4.1】频数分析I.使用Frequencies过程绘制频数表和条图(Charts选项卡)。可同时选入多个需要描述的变量,系统依次进行分析确定是否在结果中输出频数表。连续变量通常不输出频数表。【案例4.1】频数分析集中趋势选项组百分点数值选项组按某一数值等分输入给定位置的百分点离散趋势选项组分布选项组偏度峰度II.使用Frequencies过程计算统计量(Statistics)并绘制直方图(Charts选项卡)。【案例4.1】频数分析条图指统计图数值给出频数或百分比饼图直方图II.使用Frequencies过程计算统计量(Statistics)并绘制直方图(Charts选项卡)。【案例4.1】频数分析III.先用SplitFile将数据进行拆分,然后使用Descriptives过程计算统计量。结果说明:本市户口的人均面积均值低于外地户口。但外地户口的标准差高于本地户口。因此相对于本市户口,外地户口的住房面积离散程度更高。人均住房面积的分布均呈右偏分布,且本市户口的右偏程度更大,说明本市户口的人均住房面积主要集中在数值较低的一端。人均住房面积的分布均呈尖峰分布,且本市户口的峰态更高,说明本市户口的人均住房面积在众数附近的分布更密集。【案例4.1】频数分析IV.(1)取消数据拆分,使用Descriptives过程将数据标准化。将标准化后的变量值作为一个新变量保存在数据集中。(2)将标准化后的Z值进行排序(SortCases),看是否存在绝对值大于3的Z值,即为异常值。(3)用Recode命令将Z值分组,计算异常值组的百分比,与理论值0.3%相比较判断是否存在不均衡现象。(六)连续变量的统计描述——DescriptivesDescriptives过程通常用于输出连续变量的基本描述统计量。主要功能:只可用于连续变量。计算各种基本统计量,但与Frequencies相比,不可计算分位数、中位数、众数等。重要功能在于将数据标准化。(七)连续变量的统计描述——ExploreExplorer过程可用于输出将变量分类后的连续变量的基本描述统计量。主要功能:用于连续变量统计量与统计图的输出。可指定分类变量,功能相当于拆分数据文件。可输出异常值、计算截尾均数。可输出茎叶图、盒须图。可输出判断正态性的P-P图、Q-Q图。【案例4.2】数据探测——Explore过程根据“住房状况调查.sav”,根据“从业状况”对“现住面积”进行数据探测。选入需要分析的连续变量选入按某种因素分组的分类变量【案例4.2】数据探测——Explore过程输出描述性统计量,指定置信区间极端值,输出5个最大值,5个最小值。输出5%、10%、25%、50%、75%、95%分位数箱图茎叶图直方图绘制正态分布图,进行变量是否符合正态分布的检验【案例4.2】数据探测——Explore过程结果说明:数据探测之描述性统计量集中趋势指标离散趋势指标分布特征指标去除5%极端值的截尾均数95%的置信区间参数估计【案例4.2】数据探测——Explore过程结果说明:数据探测之直方图【案例4.2】数据探测——Explore过程结果说明:数据探测之茎叶图对样本量较小的情形,直方图会损失一部分信息,此时可以使用茎叶图来进行更精确的描述。茎叶图(Stem-and-LeafGraph)的形状与功能与直方图非常相似,是一种文本化的图形。茎叶图的生成:Explore——Plots现住面积Stem-and-LeafPlotfor从业状况=大专院校科研单位FrequencyStem&Leaf1.00Extremes(=<10)

1.001.8

1.002.0

5.003.46679

14.004.00045555555779

23.005.00000001222234444557889

30.006.000000000001223333455555556778

24.007.000000000023333555567899

18.008.000000000244667799

9.009.000356788

9.0010.000000048

5.0011.035682.00Extremes(>=120)Stemwidth:10.00Eachleaf:1case(s)【案例4.2】数据探测——Explore过程结果说明:数据探测之箱图(盒须图)箱图也称箱线图、盒须图。和直方图一样用于考察连续变量的分布情况。直方图侧重对一个连续变量的分布情况进行详细考察,箱图注重勾勒出统计上的主要信息箱图也可通过Graphs—Boxplot输出中位数上限:1.5(Q3-Q1)下限:1.5(Q3-Q1)Q3:第75个百分点Q1:第25个百分点离群值:与四分位数值的距离超过1.5倍四分位数间距的值极值:与四分位数值的距离超过3倍四分位数间距的值用*表示【案例4.2】数据探测——Explore过程结果说明:数据探测之箱图(盒须图)箱图可同时反映出中位数(集中趋势)和四分位数(离散趋势)的位置;中位数距离方框边界和最值边界是否对称则直接体现了数据分布的对称性;异常值对统计分析有较大的影响,箱图可直接标示出统计上认为可疑的离群值和极端值。箱图主要是对以百分位数为基础的信息进行呈现,因此当百分位数不稳定时,箱图并不适用。即当样本量太少,或者相同数值过多时,不宜使用箱图。此时茎叶图或条图是更好的选择。【案例4.2】数据探测——Explore过程结果说明:数据探测之正态性检验【案例4.2】数据探测——Explore过程结果说明:数据探测之正态性检验(1)正态概率图正态概率图是在统计图中描绘比较变量的实际累积概率以及所考察分布类型的理论累积概率符合程度,以判断资料是否服从所考察的分布类型。如果变量服从正态分布,则实际累积概率与理论累积概率应基本一致。如果数据呈正态分布,则图中数据点和理论直线(对角线)基本重合实际(观测)概率值理论(期望)概率值【案例4.2】数据探测——Explore过程结果说明:数据探测之正态性检验(2)偏离正态图偏离正态图是根据变量的实际分位数与理论分布进行绘图,并据此判断变量是否服从特定的分布。Explorer—Plots—NormalityPlotswithtest如果数据呈正态分布,则图中数据点应较均匀地分布在y=0这条直线的上下。实际值按正态分布计算的理论值4.2分类变量的统计描述45(一)分类变量的统计描述指标体系频数分布情况的描述频数:在一张频数表中,描述各个类别的样本数;百分比:本类别出现的次数占总次数的比例;累积频数:本类别及较低类别出现的次数之和;累积频率(累积百分比):本类别及较低类别出现的次数之和占总次数的百分比。累积指标适用于描述分类有序变量。例如学历调查:高中及以下;2.大专;3.大学;4.研究生及以上。(一)分类变量的统计描述指标体系集中趋势的描述可以使用众数来描述它的集中趋势。众数只反映了频数最多的类别的情况,而浪费了其他所有的信息。只有集中趋势显著时,才使用众数作为总体的代表值。使用相对数进行深入描述比(Ratio)指两个有关指标之比A/B,用于反映这两个指标在数量/频数上的大小关系。如:两个电视台相同时段收视份额之比。构成比(Proportion):百分比和累积百分比率(Rate)用于说明某个时期内某个事件发生的频率或强度。(一)分类变量的统计描述指标体系分类变量的联合描述频数表:可以描述一个分类变量的数值分布情况。对财经类节目的喜爱程度频数表FrequencyPercentValidPercentCumulativePercentValid很喜欢3225.625.625.6一般6048.048.073.6不喜欢3326.426.4100.0Total125100.0100.0(一)分类变量的统计描述指标体系分类变量的联合描述列联表:当一共有两个分类变量时,这种因分类变量的类别交叉而成的复合频数表被称为行×列表,也称列联表。对财经类节目的喜欢程度与受教育水平的列联表CountfavorTotal很喜欢一般不喜欢edu高205328中10201040低2352057Total326033125(一)分类变量的统计描述指标体系分类变量的联合描述行百分比:每一单元格的频数占所在行的单元格取值之和的百分比。列百分比:每一单元格的频数占所在列的单元格取值之和的百分比。行、列百分比选择的通常原则自变量为行变量,则选择行百分比!自变量为列变量,则选择列百分比!(一)分类变量的统计描述指标体系对财经类节目的喜欢程度与受教育水平的列联表favorTotal很喜欢一般不喜欢edu高Count205328%withinedu71.4%17.9%10.7%100.0%中Count10201040%withinedu25.0%50.0%25.0%100.0%低Count2352057%withinedu3.5%61.4%35.1%100.0%TotalCount326033125%withinedu25.6%48.0%26.4%100.0%(二)分类变量的统计描述——CrosstabsAnalyze→DescriptiveStatistics→Crosstabs显示分组的条形图单击打开统计量对话框单击打开单元格对话框单击打开表格格式对话框加入层变量可得到三维交叉列联表4.3多选题的统计描述53(一)多选题的统计描述指标应答人数:是指选择了本选项的人数,或者说就是原始频数。应答人数百分比(PercentofCases):选择该项的人占总人数的比例。应答人数百分比可以反映该选项在人群中的受欢迎程度。应答次数百分比(PercentofResponses):在做出的所有选择中,选择该项的次数占总次数(总反应数)的比例。应答次数百分比可以用于不同选项受欢迎程度的比较。【案例4.3】多选题的统计描述根据数据“上网行为调查.sav”分析多选题:4、您上网的主要目的是(可多选):

(1)玩网络游戏(2)聊天或交友(3)看动漫、电影、下载音乐等(4)获取信息(5)学习或工作(6)通讯或联络(7)其它第一步:定义多选题变量集【案例4.3】多选题的统计描述第一步:定义多选题变量集。选入多选题的对应变量二分法输入答案为“是”的代码多重分类法$q4FrequenciesResponsesPercentofCasesNPercent上网的主要目的a玩网络游戏473917.7%77.6%聊天或交友375414.0%61.5%看动漫、电影、下载音乐等278510.4%45.6%获取信息24329.1%39.8%学习或工作332412.4%54.4%通讯或联络410315.3%67.2%其他568621.2%93.1%Total26823100.0%439.4%a.Dichotomygrouptabulatedatvalue0.【案例4.3】多选题的统计描述第二步:对变量集进行分析——频数分析Analyze——MultipleResponse——Frequencies应答次数百分比应答人数百分比【案例4.3】多选题的统计描述第三步:对变量集进行分析——交互分析Analyze——MultipleResponse——Crosstabs设置自变量的取值范围设置单元格输出指标【案例4.3】多选题的统计描述第三步:对变量集进行分析——交互分析Analyze——MultipleResponse——Crosstabs设置单元格输出指标输出行列百分比输出应答人数百分比输出应答次数百分比【案例4.3】多选题的统计描述q1*$q4Crosstabulation上网的主要目的aTotal玩网络游戏聊天或交友看动漫、电影、下载音乐等获取信息学习或工作通讯或联络其他你的性别男Count21761992151013631852223729273184%withinq168.3%62.6%47.4%42.8%58.2%70.3%91.9%女Count25631762127510691472186627592921%withinq187.7%60.3%43.6%36.6%50.4%63.9%94.5%TotalCount47393754278524323324410356866105Percentagesandtotalsarebasedonrespondents.a.Dichotomygrouptabulatedatvalue0.结果说明:(1)通讯联络、网络游戏和聊天交友是男性和女性上网最主要的三大目的。(2)除网络游戏外,男性在聊天交友、学习工作、通讯联络、获取信息以及看动漫电影下载音乐等上网目的上均高于女性。4.4统计图的呈现61常用描述性统计图饼图条图线图直方图茎叶图箱图(一)饼图饼图用于表示各类别某种特征的构成比情况。圆形总面积为100%,扇形面积的大小表示事物内部各部分的百分比。一般以12点为起点,各部分按习惯顺序或数值大小顺时针排列。Graphs——LegacyDialogs——Pie注:只有当分类数的百分比之和为100%时,饼图才适用。(二)条图条图用等宽的直条长短代表相互独立的各指标数值大小,该指标可以是连续变量的汇总指标,也可是分类变量的频数或百分比。条图的纵轴从0开始,各部分按大小或自然顺序排列。Graphs——LegacyDialogs——BarSimple——简单条图Clustered——复式条图Stacked——堆积条图简单条图:用于单变量Graphs——LegacyDialogs——Bar——SummariesofGroupsofCases(二)条图指定直条代表的意义指定分类轴变量(通常为横轴)指定第二分类变量(直条组变量)可指定第三分类变量(层变量)输出行或列条图个案分组汇总模式(SummariesofGroupsofCases)下的条形图。(二)条图分组条图:两个以上变量(二)条图分段条图:两个以上变量(二)条图单个变量汇总模式(Summariesof

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论