版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、样本数据的基本特征(一)频次与频率1.频次频次是指在有限的样本数据集合中,同样的数据值或样本值出现的次数,也称为频数。数据值的频次越大,表示其出现越频繁。对比率级数据、间距级数据、序次级数据和名义级数据,我们都可以考虑同样的数据出现的次数问题,即都可以计算数据的频次。对于序次级数据、间距级数据和比率级数据,在一组依大小顺序排列的数据值中,当按一定的组距将其分组时,出现在各组内的数据值的数目,也称为落在各组中的数据的频次。频数数值越大,表明该组数据值对总体水平所起的作用也越大,反之,频数数值越小,表明该组数据值对总体水平所起的作用越小。下一页返回一、样本数据的基本特征2.频率频率是指两次事件出现的时间间隔的倒数。在相同的条件下,进行了n次试验,在这n次试验中,事件A发生的次数nA称为事件A发生的频次。比值nA/n称为事件A发生的频率,并记为fn(A)。需要说明的是,频率是大量试验的结果,它是一个随着试验次数变化而变化的数值。对于序次级数据、间距级数据和比率级数据,在一组依大小顺序排列的数据值中,当按一定的组距将其分组时,出现在各组内的数据值的数目与数据总数目之比,也称为落在各组中的数据的频率。(1)当重复试验的次数n逐渐增大时,频率fn(A)呈现出稳定性,逐渐稳定于某个常数,这个常数就是事件A的概率。这种“频率稳定性”也就是通常所说的统计规律性。上一页下一页返回一、样本数据的基本特征(2)频率不等同于概率。A发生的概率p(A)是该事件出现的可能性大小的度量,其数值在0与1之间。在一定条件下进行试验,如果事件A不可能发生,则p(A)=0;如果事件A必然发生,则p(A)=1。由伯努利大数定理,当n趋向于无穷大的时候,频率fn(A)在一定意义下接近于概率p(A)。(二)累积频率对于序次级数据、间距级数据和比率级数据,设样本数据集合中不重复的样本值x1<x2<…<xm,其中m≤n,n是样本数据集合中样本值的总个数。若把小于等于xi的所有样本值的频率累加起来,所得到的结果称为小于等于xi的累积频率。上一页下一页返回一、样本数据的基本特征(三)样本数据基本特征的图形表达除了用文字和表格表达外,还可以用图形直观地表达样本数据的基本特征。下面我们结合实例介绍几种样本数据基本特征的图形表达方法。1.饼图用饼图可以表示样本数据的频次与频率,并且适合于所有测度类型的数据。但要求不重复的样本值的个数不能太多。否则,难以在有限的纸张上,把不同样本值的频次与频率表达清楚。饼图表示样本值频次与频率的基本原理如下:(1)画一个大小适度的圆圈,给每个不重复的样本值一个与其频次或频率相当的圆心角,就像切割了的一块饼;(2)每个不重复的样本值所占据的圆心角的大小由下式计算:某样本值相应的圆心角大小=该样本值的频率×360°上一页下一页返回一、样本数据的基本特征2.条形图表示频次和频率的条形图的构成:(1)横坐标表示样本数据的不同取值;(2)纵坐标表示样本值出现的频次或频率。3.茎叶图(1)茎叶图的基本概念。按照某种规则,把所有的样本值分“茎”和“叶”两部分,“茎”在左,“叶”在右,“茎”与“叶”之间用小数点隔开,并且按“茎”的大小进行排序。这就是所谓的茎叶图。(2)茎叶图的基本作法。作茎叶图的基本步骤是:1)依据样本值数据的特征,确定“茎”和“叶”的数字位;上一页下一页返回一、样本数据的基本特征2)把所有的样本值分成“茎”和“叶”两个部分;3)把所有“茎”从小到大,从上到下纵向排列,并在“茎”后标出纵向对齐的小数点;4)把所有的样本值按照从小到大的顺序,从左向右把其“叶”的值写在茎的右边,直到把所有的样本值处理完为止。4.直方图(1)直方图的基本概念。条形图和饼图要求不重复的样本值的个数不能太多。因为不重复的样本值太多会使图形过于密集,反而让人看不清样本值集合的数据结构。因此,为了处理不重复的样本值个数太多的数据集合,我们需要引入直方图。上一页下一页返回一、样本数据的基本特征(2)直方图的基本作法。由直方图的概念,我们很容易知道直方图的基本作法。作直方图的基本步骤如下:1)选择恰当的区间长度,按样本值的大小,对所有样本值进行分组;2)统计所有组内样本值的频次或频率;3)按顺序,用横坐标表示不同的分组;用竖立的矩形条表示各分组内样本值的频次或频率。上一页返回二、样本数据的集中特征为了进一步推断与决策,我们不仅要对样本数据的分布变化规律有直观的了解,而且还要用几个既简洁又能充分描述数据分布特征的统计量将样本数据的分布变化规律性地表示出来。这些统计量包括数据集中趋势的测度、离散程度的测度、偏度的测度及峰度的测度等。这一节主要介绍数据集中特征的统计量。(一)均值样本均值适用于比率级数据。样本均值x又称为样本算术平均数。它是把所有样本值累加起来,然后再除以样本容量所得到的结果。其计算公式如下:下一页返回二、样本数据的集中特征(二)中位数将所有样本值排序后为x1,x2,…,xn,其位置处于正中间的样本值即为中位数,用Me代表。如果样本容量为奇数,则中位数数值恰为(n+1)/2位置上的数值;如果数据个数为偶数,则中位数为最中间位置上两个数值的均值,即(xn/2+xn/
2+1)/2。中位数比均值的计算简单,且不受极端值的影响,具有稳健性,是数据集中趋势测度的另一个较好的统计量。(三)众数一个样本值集合中出现频次最多的样本值,叫众数。简单地说,就是一组数据中占比例最多的那个数。在很多情况下,一个样本值集合中出现频次最高的样本值只有一个,这时众数只有一个,称为单一众数。上一页下一页返回二、样本数据的集中特征(四)几何均值几何均值又称为几何平均数,主要应用于指数和平均发展速度的计算,用Mg表示,其计算公式如下:(五)调和均值调和均值是指样本值的倒数的平均数的倒数,故也称为倒数平均数。它广泛用于指数的计算中,用Mh表示,其计算公式如下:上一页下一页返回二、样本数据的集中特征(六)截尾均值截尾均值又称“切尾均值”,是指在一个数列中,去掉两端的极端值后所计算的算术平均数。截尾均值是综合了均值和中位数两种统计量优点的一种新的对集中趋势的测度。截尾均值现已广泛应用于电视大奖赛、体育比赛及需要由人们进行综合评价的竞赛项目。我们在电视中经常所听到的“去掉一个最高分,去掉一个最低分,最后得分是×分”,这个“最后得分”就是一种截尾均值,其计算公式如下:上一页返回三、样本数据的离散特征要把握样本数据集合中的数量变化规律,仅仅有集中趋势的测度是不够的,与集中趋势相对应的,还要了解数据的离散程度。对样本值离散特征的描述可分为样本离散特征的点状描述、区间描述和统计值描述等三大类。(一)样本离散特征的点状描述1.极值样本值集合中的最小值,称为极小值;样本值集合的最大值,称为极大值。对样本值集合的极大值与极小值描述适用于序次级以上的数据类型。对于按由小到大排序后的样本值集合,位于第一位的即为极小值,位于最后一位的即为极大值。下一页返回三、样本数据的离散特征2.四分位数(1)四分位数的概念。由前面的叙述可知,中位数把排序后的样本值集合分成包括相同样本个数的左右两部分。由此可以给下四分位数下一个直观的概念:下四分位数把排序后的样本值集合分成左右两部分,左边部分包含25%的样本个数,右边部分包含75%的样本个数。下四分位数用Q1表示。同理,上四分位数把排序后的样本值集合分成左右两部分,左边包含75%的样本个数,右边包含25%的样本个数。上四分位数用Q3表示。(2)四分位数的位置。我们用Qp1表示下四分位数的位置,Qp3表示上四分位数的位置,Qp2表示中位数的位置,n表示样本容量。上一页下一页返回三、样本数据的离散特征(3)四分位数的计算。当Qp1和Qp3为整数时,相应整数位置上的样本值就是Q1和Q3值。当Qp1和Qp3不为整数时,Q1和Q3的值由以下公式计算:Q1=Qp1左边的样本值+(Qp1右边的样本值-Qp1左边的样本值)×Qp1的小数部分Q3=Qp3左边的样本值+(Qp3右边的样本值-Qp3左边的样本值)×Qp3的小数部分3.百分位数与上下四分位数类似,我们可以给出上下百分位数的概念。下百分位数P10把由小到大,从左至右排序后的样本值集合分成左右两部分,左边部分包含10%的样本数,右边部分包含90%的样本数。上一页下一页返回三、样本数据的离散特征上百分位数P90把由小到大,从左至右排序后的样本值集合分成左右两部分,左边部分包含90%的样本数,右边部分包含10%的样本数。上下百分位数在一定程度上反映了样本数据的离散情况。对有些样本数据而言,用上下百分位数反映样本值的离散情况更好些。在SPSS中我们可定义任意的百分位数,用来反映样本值的离散情况。(二)样本离散特征的区间描述1.极差极差是指样本值集合中的极大值与极小值的差,又称全距或范围误差。它反映的是变量分布的变异范围和离散幅度,在总体中任何两个单位的标准值之差都不能超过极差。同时,它能体现一组数据波动的范围。在统计中常用极差来刻画一组数据的离散程度。上一页下一页返回三、样本数据的离散特征极差的计算公式如下:2.四分位距四分位距是指样本数据上、下四分位数之差,用Iqr表示。它反映了样本值集合中,处于中间大小的1/2的样本值个数的分布范围。四分位距的计算公式如下:上一页下一页返回三、样本数据的离散特征3.样本离差样本离差是指每个样本值xi与样本均值x之差,又称为样本中心化数据。样本离差的计算公式如下:(三)样本离散特征的统计值描述1.方差样本方差s2是指样本离差平方和(Δ2xi)与n-1的比值。样本方差的计算公式如下:上一页下一页返回三、样本数据的离散特征2.标准差样本标准差s是样本方差的平方根,其计算公式如下:3.变异系数用样本方差或样本标准差反映数据相对平均值的离散情况,没有剔除度量单位的影响,具有不同度量单位的样本方差或标准差之间无法进行比较。例如3mm的标准差对于汽车发动机的转轴来说已经很大了,但是,对于房屋的高度来说可能就是比较小的了。为了消除度量单位的影响,我们引入变异系数的概念。上一页返回四、数据特征的综合表达有一种综合表达样本值集中特征和离散特征的图形方法叫箱形图法。箱形图能够简明地表达样本数据集中特征与离散特征,却没有茎叶图和直方图详细。由于箱形图要用到区间的概念,所以它仅适用于间距级数据和比率级数据。(一)箱形图的结构箱形图由一个矩形和向上下延伸的细线,加上一条刻度尺构成,如图8-7所示。刻度尺用以表示样本值的分布范围。矩形体的上下缘分别表示样本值的上下四分位数。矩形的长度表示四分位距。样本值集合中有50%的数据从小到大,从下到上分布在矩形体内。矩形体中的一条横线表示样本值的中位数。矩形体的上下各有一条细线,下边细线的下端点表示样本值的极小值,样本值集合中有25%的较小的值分布在这条细线上;上边细线的上端点表示样本值的极大值,样本值集合中有25%的较大的值分布在这条细线上。下一页返回四、数据特征的综合表达(二)修正的箱形图我们把处于延伸线上、离箱体的距离大于1.5倍四分位距的样本值称为奇异值;把处于延伸线上、离箱体的距离大于1.5倍四分位距,但小于等于3倍四分位距的样本值称为近奇异值;把处于延伸线上、离箱体的距离大于3倍四分位距的样本值称为远奇异值或极端值。修正的箱形图下延伸线下端点是非外围值范围内的最小值,即箱体下边1.5倍四分位距范围内的最小值。修正的箱形图上延伸线上端点是非外围值范围内的最大值,即箱体上边1.5倍四分位距范围内的最大值。修正的箱形图不改变原来的箱体,只是把延伸线变短了。修正箱形图的结构示意图如图8-8所示。上一页返回五、SPSS在描述性分析中的应用(一)频次分析模块的使用频次分析模块能够统计出样本值的均值、中位数、众数、极大值、极小值、上下四分位数、极差、方差、标准差、均值标准差以及斜度、峰度等数据。此外,还能作出条形图、饼图、直方图等统计图。下面详细介绍频次分析模块的使用。在读入数据后:1.单击Analyze®DescriptiveStatistics®Frequencies,系统弹出如图8-11所示的频次分析模块对话框。2.单击左框中想要分析的变量名(可以选多个变量),单击向右的箭头,把选中的变量输入右框中。下一页返回五、SPSS在描述性分析中的应用3.选取左框下边的“Displayfrequencytables”选项(系统默认为选定状态)。4.单击窗口右上角的“Statistics”按钮,系统弹出如图8-12所示的频次分析模块统计对话框。5.在图8-12中,单击“Continue”按钮,回到频次分析对话框。单击对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《分子生物学检验技术》课程标准
- 深度解析(2026)《GBT 35780.2-2017顾客联络服务 第2部分:使用顾客联络中心服务的委托方要求》
- 深度解析(2026)《GBT 35716-2017全封闭电动机-压缩机用热保护器》
- 深度解析(2026)《GBT 35596-2022硼硅酸盐玻璃吹制耐热器具》
- 《DLT 1033.2-2006电力行业词汇 第2部分:电力系统》(2026年)合规红线与避坑实操手册
- 历史(中国古代史)题库及答案
- 财务工作思路及计划书
- 学校档案员岗位职责
- 水利工程(水工结构)试卷及分析
- 云安全认证题库及详解
- 支委会召开流程
- 部队个人酒驾安全预案
- 政务服务工作汇报课件
- 心脏骤停后恢复过程护理查房
- T-GDWHA 0020-2025 一体化泵闸设计制造安装及验收规范
- 涉台教育主题班会课件
- 生成式AI与高中英语写作教学的有效融合
- 肠内营养管路维护与护理
- 教师职业技能训练教学课件
- T/CGAS 025-2023城镇燃气系统智能化评价规范
- (高清版)DGJ 08-98-2014 机动车停车场(库)环境保护设计规程
评论
0/150
提交评论