版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章 数据分布特征的度量(测度)3.1 集中趋势的度量3.2 离中趋势(离散程度)的度量3.3 偏态与峰度的度量 数据的分布特征可以从三个方面进行侧度和描述:集中趋势:位置的度量、数据集中的位置;离散程度:反映数据远离其中心值的趋势;偏态和峰度:反映数据分布的形状3.1 集中趋势的测度 指一组数据向某一中心值靠拢的倾向。测度集中趋势就是要寻找数据一般水平的代表值或中心值。众数(Mode)中数(Median)平均数(均值)(Mean)简单平均数(Simple mean)加权平均数(Weighted mean)调和平均数(Harmonic mean)几何平均数(Geometric mean)3.
2、1.1 众数 众数是一组数据中出现次数最多的变量值。用Mo表示。主要用于测度定类数据的集中趋势,也适用于定序、定距和定比数据的集中趋势的测度值。 (1)定类、定序数据求众数Mo=Coke Classic(2)数值型数据(定距、定比)求众数当数据未分组时,出现次数最多的变量值即为众数;当数据经过分组整理后,众数的数值与其相邻的频数分布有一定关系。Mo其中:L为众数组的下限值;i为中数组的组距;f-1为前一组的频数;f+1为后一组的频数;f为众数组的频数。ff+1 f-1L众数是一个位置代表值,它不受数据中极端值影响。 将全部数据排序后,如果项数是奇数,则正中央的那一项即为中位数;如果项数是偶数,
3、则正中央的那两项的平均值即为中位数。 例 3.1 (1)32,42, 46,46,54 Me=46 (2)48,75,80,84,88,90,95,100 Me=(84+88/2=86 课堂练习求出下列两组数据的中数: (1) 2, 15, 8, 3, 4, 1, 3, 9, 4, 3, 5(2)2, 3, 4, 4, 5, 6, 7, 9, 11, 21计算第m百分位步骤:第一步:从小到达排列原始数据;第二步:计算指数i i=(m/100)n, n为项数,m为所求的百分位的位置。第三步:若i不是整数,将i向上取整;若i是整数,则第m百分位数是第i项与第(i+1)项数据的平均值。例3.2 有1
4、2个职员薪金的数据,求第85和第50百分位数。解:(1)将12个数据从小到大排序如下: 2210 2225 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825 (2) i=(m/100)n=(85/100) 12=10.2 (3) 由于i=10.2不是整数, 向上取整,所以第85百分位数对应的是第11项, 其值为2630。 同理,计算第50百分位(中位数)。i=(50/100) 12=6,是整数,第50百分位数是第6项和第7项的平均值,即 (2390+2420)/2=2405。百分位数分数和百分等级分数百分位分数:次数分布中对应于某个特定百分点的
5、原始分数。第m个百分点就是这样一个点,次数分布中有m%的数据小于等于这个数,有(100m)%的数据大于等于这个数。记为Pm百分等级分数:次数分布中低于某个原始分数的次数百分比,用PR表示。百分位分数是先确定某个百分点m,然后去求相应的百分位分数Pm 。而求百分等级分数正好相反,事先知道次数分布中的一个原始分数,再求该分数在分布中所处的相对位置。分数分组次数累积次数累积百分数90-9458-8980-8475-7970-7465-6960-6455-5950-5445-4940-4435-3930-3425-2920-2415-1910-145-90-4132751709813413112514
6、9136134126138139147151982671900188718601809173916411507137612511102966832706568429282131337100.0099.3297.8985.2191.5386.3779.3272.4265.8458.0050.8443.7937.1629.8922.5814.846.891.740.37课堂练习:1、(1) m=50, Pm=? (2) m=75, Pm=?2、(1) x=60, PR=? (2) x=52, PR=?算术平均值的优点:反应灵敏;确定严密;简明易解;计算简单;符合代数方法进一步演算;较少受抽样变动的
7、影响;算术平均数的缺点:易受极端值的影响;若出现模糊不清的数据时,无法计算算术平均数;适用算术平均数的条件要求:数据必须是同质的,即同一种测量工具所测量的某一特质;数据取值必须明确;数据离散不能太大。2、加权均值(Weighted mean):用于组距分组数据 设原始数据被分成K组,各组的组中值分别为X1,X2,XK,各组变量值出现的频数分别为F1,F2,FK,则均值为:均值的两个性质:(1)各变量值与其均值离差之和等于零。即(2)各变量值与其均值的离差平方和最小,即3、调和平均数:定比数据总量一定时,求平均值。如路程一定,速度不同,求平均速度。例3.2 上行速度为30公里/小时,下行速度为4
8、5公里/小时,求全程的平均速度?4、几何平均数(Geometric mean):定比数据N个变量值相乘积的N次方根。几何平均数用于计算平均发展速度、平均增长率、学习记忆的平均进步率、学校经费平均增加率、平均人口出生率等等。例3.3 三种股票,1996-1999年的收益率分别为4.5%, 2.0%, 3.5%, 5.4%, 计算四年内的平均年收益率。解:平均年收益率为GM-1=103.84%-100%=3.84%若涉及到的数据为, X0为初始(基数)值, N为年份数, XN为最后年份的数值, 则平均年增长率为例3.4 1949年中国人口为4.7亿,1994年为12亿, 求人口的年增长率。年增长率
9、为2.10483%2、众数、中数、均值的特点与应用场合众数是一组数据分布的峰值所对应的随机变量的值,它是一种位置代表值,不受极端值的影响。缺点是不具有唯一性。它主要用于定类数据的集中趋势度量;中位数是一组数据中间位置上的代表值,特点是不受数据极端值的影响。主要适合于定序数据的集中趋势的测度值;均值是对于数值型数据计算的,而且利用了全部数据信息,它具有良好的数学性质,应用比较广泛。缺点是易受极端数据的影响,对于偏态分布数据,均值代表性较差。当数据为偏态分布,特别是偏度较大时,应选择众数或中位数等位置代表值。表3.2 数据的类型和所使用的集中趋势测度值*表示该数据类型最适合用的测度值3.2.1 四
10、分位差 四分位差(Quartile deviation)是上四分位数与下四分位数之差的一半,用QD表示,QD=(QU-QL)/2 四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;反之,越分散。四分位差的大小在一定程度上说明了中位数对一组数据的代表程度。 四分位差适用于测度定序数据的离散程度。3.2.2 极差和平均差1、极差(range)也称全距,是一组数据的最大值与最小值之差。 R=max(Xi)-min(Xi)2、平均差(Mean deviation)也称平均离差,是各变量值与其均值离差绝对值的平均数,用MD表示。计算公式为:平均差的数学性质不是最优的,在实际应用中
11、应用较少。3.2.3 方差(Variance)和 标准差(Standard deviation)方差是各变量值与其均值离差平方和的平均数,是测度定距、定比数据离散程度的最主要方法。 离差:也叫离均差, 离差平方和(SS):1、总体方差和标准差方差(2): 未分组数据: 组距分组数据:标准差:方差的平方根 未分组数据: 组距分组数据: 例3.3 未分组数据求方差和标准差:2=10/6 =1.67 , =1.29 用原始数据直接求方差和标准差:上例中课堂练习1、分别求下列各组数据的方差、标准差(1)15,16,13,11,12,10,11(2)5,6,3,1,2,0,1(3)10,12,6,2,4
12、,0,2方差、标准差的性质:(1)若y=x+c , x和y是随机变量,c为常数, 则 (2)若y=cx, c为常数, 则2、样本方差与标准差方差:未分组组距分组标准差:未分组:组距分组:样本方差为什么要除以(n1)与自由度(degrees of freedom)有关。 自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。计算样本方差时, n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n1)个“离均差”表示,所以只有(n1)个独立的“离均差”。因此只有(n1)个自由度。课堂练习下列数据是从某个总体中抽取的一个随机样本,求该样本数据的方差和标准差。10,8,8,6,7,5,9,5,4,6样本方差与总体方差的区别:(1)在计算上,总体方差是用数据个数或总频数去除离差平方和,而样本方差则用样本数据个数或总频数减一去除离差平方和;(2)样本方差是统计量,用S2表示;总体方差是总体参数,用2表示。(3)当n很大时,S2与2相差很小,前者是后者的无偏估计。3、方差与标准差的意义方差与标准差是表示一组数据离散程度的最好的指标。其值越大,说明离散程度大,其值小说明数据比较集中。具有以下优点
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 有机试剂工安全宣贯考核试卷含答案
- 光学计量员安全技能测试模拟考核试卷含答案
- 2026年新科教版初中九年级语文上册第一单元中考语文基础专题卷含答案
- 醋酸乙烯和乙烯共聚物装置操作工成果强化考核试卷含答案
- 2026年新科教版初中八年级语文下册第一单元议论文论证方法分析卷含答案
- 井下作业工具工岗前任职考核试卷含答案
- 2026年新科教版初中八年级地理下册第三单元南方地区特征发展卷含答案
- 纤维板铺装工岗前保密考核试卷含答案
- 塑料制品成型制作工班组管理考核试卷含答案
- 铜管乐器制作工操作能力竞赛考核试卷含答案
- 2025基层党务工作培训知识竞赛试题(附参考答案)
- 技校招聘考试题型及答案
- 河北省邢台市2025年中考一模道德与法治试卷(含答案)
- 2025中铝铝箔有限公司面向中铝集团内部开展招聘80人(云南)备考练习题库及答案解析
- 自吸泵维修培训
- 典当行管理规章制度及执行细则
- APQP先期产品质量策划第3版
- 景区索道改造方案(3篇)
- 2024海康威视ZD-WG系列无线控制器网关用户手册
- 医疗护理员考试100题库及答案
- 2026届高考语文《登快阁》理解性默写练习(含答案)
评论
0/150
提交评论