




已阅读5页,还剩8页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
补充材料:累计求和运算规则求和算子定义:对于T个观测值,x1, x2, , xT,求和可以简化地表示为x1 + x2 + + xT = 其中称作求和算子。求和算子的运算规则如下: 变量观测值倍数的和等于变量观测值和的倍数。 = k 两个变量观测值和的总和等于它们分别求总和后再求和。 = + T个常数求和等于该常数的T倍。 = kT其中k是常数。 定义双重求和为 = xi1 + xi 2 + + xiT) = (x11 + x12 + + x1T) + (x21 + x22 + + x2T) + + (xT1 + xT2 + + xTT) 两个变量和的双重求和等于它们各自双重求和的和。 = + 两个不同单下标变量积的双重求和等于它们各自求和的乘积。 = () ()证:= = () ()第3章 统计资料的综合(Data Summarization)用频数分布表与统计图可以展示数据分布的大概特征。为更准确的描述数据的特征,有必要用一些数值描述一组数据的特征,称这些数值为特征数。特征数分三类:(1)表示集中位置;(2)表示分散程度;(3)表示偏斜程度;(4)相关程度。 3.1 表示集中位置的特征数: (1)平均数;(算术平均数,几何平均数,调和平均数) (2)中位数; (3)众数; (4)百分位数; 3.1.1 平均数(1)算术平均数(Arithmetic mean) 对于不分组数据算术平均数定义:一组数据,(x1, x2, , x n),容量为n,则算术平均数表示为= = (1)例1:5个学生的英语考试分数是80, 70, 85, 90, 82。则平均考试分数= 81.4算术平均数的性质:观测值的和等于其平均数与观测值个数的乘积。对(1)式两侧同乘n得,= n说明有代表性。若不考虑xi的差异。用代替xi,并乘n,则总和相等。所以人们常用描述数据。如平均年龄,平均工资等。一组观测值与其平均数的离差和等于零。= 0证: = - n= 0(利用性质)此性质以后常常用到。xi与某一定值 A的离差平方和- A)2以A =时为最小。证:- A)2 =+ (- A) 2 =2 + 2 (- A) + =+ 可见只有当= A时,方程左端的值才最小。当数据为分组形式时, =(f1x1 + f2 x2 + + fk xk ) (2)其中:k为分组数;x i 为第i组的组中值;fi 为观测值落入第i组的频数;n 为观测值总个数,n = f1 + f2 + + fk。分组数据形式下求得的平均数,只是用原始数据计算的的近似值。只有当各组中值与相应组内观测值的平均值全相等时,(1)、(2)式的计算结果才相等。因此,只要条件允许,应该用原始数据直接计算。当n很大时,由(2)式计算的的误差会减小。例2:见30页例2。例2:见第2章例2,婴儿体重分组数据分布表如下:体重(克) 频数 组中值24002700 以下2255027003000 以下3285030003300 以下8315033003600 以下5345036003900 以下23750 = 3180若用原始数据直接计算(见第2章例2,北京妇产科医院新生儿体重分布) = 3149(2)几何平均数(Geometric mean) 当数据是以环比形式给出时,应该用几何平均数求该数据的平均递增率。 定义:一组环比数据r1, r2, , rn(容量为n),则几何平均数 G = (3)例3:有天津市“六五”期间工农业总产值环比指数如下年份环比指数19801.00019811.05919821.06919831.08219841.11619851.157 G = = 1.096即19801985期间年平均年增长率为9.6%。 注意:开方数n不要用错。几何平均数的性质: 1 r1 r2 rn = G G G(共n个)对于环比数据,几何平均数G有代表性。若r0期观测值为x0,则 x0 r1 r2 rn = x0 G nn个G与x0相乘与r1 r2 rn与x0相乘的值相等。(3)调和平均数(Harmonic mean)当一组数据表示不同比率时,若求平均变化率应该用调和平均数。它是各观测值倒数的算术平均数的倒数。调和平均数定义:设有一组n个观测值 x1, x2, , x n ,则调和平均值H定义如下: H = = (4)注意:这里各数据所赋的权相等。例4:市场上某种蔬菜早晨价格为X1 = 0.25元/斤,中午X2 = 0.2元/斤,晚上X3 = 0.1元/斤。若早、中、晚各买1元钱的该种蔬菜,求这批蔬菜平均价格。解:要求平均价格应先知共花了多少钱,共买了多少菜。显然共花了3元钱,共买了19斤菜(早晨买1/0.25 = 4斤,中午买1/0.2 = 5斤,晚上买1/0.1=10斤)。H = = = 0.158元/斤2中位数(Median)算术平均数虽然有代表性,但当数据分布不均匀时,这种代表性显得很差。如观察班上5名学生的考试成绩如下:93,90,85,82,0,显然 = = 70 没有代表性。因为这五个数据中,有四个值都大于70,说明受0这个极端值影响太大。若没有0这个值,平均数应该是87.5。为避免这种影响,引出中位数的概念。中位数定义(1):一组n个观测值,按数值大小排列如下。x1, x2, , xn,处于中央位置的数值称为中位数。用Md表示(Median) x(n+1)/2 n为奇数 Md = (5) xn / 2 + x(n / 2)+1 / 2 n为偶数例5:对5名学生的考试分数(n为奇数),则中位数Md = 85,(比70更有代表性)。 93,90,85,82,0 (因有5个数值,5为奇数。)例6:设有一组数据如下(n为偶数) x1, x2, x3, x4, x5, x6, (n = 6) 10 12 14 17 41 66则 Md =( x 6 / 2 + x (6 / 2) + 1) =( x3 + x4) = 15.5例7:一组数据是 3,9,6,1,5。哪个是中位数?按上述要求排序, x1, x2, x3, x4, x5, n = 5为奇数 1 3 5 6 9则Md = x(5+1) / 2 = x3 = 5,即中位数是5。中位数定义(2):对于分组数据,Md的计算公式如下: Md = L + (6)其中:L为中位数所在组的下限值 n1为中位数所在组内,达到中位数所需频数。 n 2为中位数所在组内,观测值总个(频)数。 h为该中位数所在组组距。例8:把第2章例2中20个新生儿体重数据按从小到大顺序排列如下: 2440,2620,2700,2880,2900,3000,3020,3040,3080,3100,3180,3200,3200,3300,3420,3440,3500,3500,3600,3860,求: Md(中位数),解:1. 当数据不分组时,因为20是偶数,Md = (X20 / 2 + X(20 / 2) + 1)/2 = (X10 + X11) /2 = (3100+ 3180) / 2 = 31402. 作频数分布表图,把数据分成5组分组频数fiX i24002700以下2255027003000以下3285030003300以下8315033003600以下5345036003900以下23750合计2020 / 2 = 10, 中位数在第3组,组频数= 8。Md = L+= 3000+= 3187例9:1987年1%抽样调查全国人口,数据与分布图如下。年龄(岁)人数(万人)累计人数0-10以下 195.2781195.278110-20以下 248.1611443.432920-30以下 195.8780639.317230-40以下 161.080440-50以下 99.6183050-60以下 85.6192060-70以下 56.1877070-80以下 27.3803080-90以下 6.55840090-100以下 0.359300100-110以下 0.009900合 计1067.9307数据的特点是分布不均。年轻人人数多,年老人人数少。平均年龄是28.8岁。显然这个特征数偏高,不能十分满意地反映数据的特征。计算中位数如下。Md落在第3组。Md = 20 +10 = 20 +10 = 24.6(岁)= 第3组下限+(未足数/第3组频数)第3组距。比平均数28.8岁更有代表性。中位数性质:(1) 当观测值出现重复的现象不很多时,中位数意味着比它小的观测值个数有一半,比它大的有一半。若有2万农户的年家庭收入数值的中位数为2000元,则知有一万户收入低于2000元,有一万户收入高于2000元。(2) xi与某一定值A的绝对离差和|xi - A|以A = Md时取值最小,即|xi - Md|取最小值。 (3) 中位数不受极端值影响。 (4) 中位数可看作是调整平均数的一种特殊形式。计算平均数时,排除了中间位置1或2个观测值以外的所有值。注意:(1) 中位数指的是数据值(在横轴上),而不是观测值的频数,也不是秩数。(2) 求中位数之前,应先将观测值按大小排列。3众数(Mode)众数定义:在一组数据中,对应频数最大的那个观测值叫众数,用Mo表示。若为分组时,则只能说出众数所在组。例9:某班40名学生的年龄统计如下: 人数年龄(岁)人数1932024218225合计40 年龄因为变量值20所对应的频数最大,Mo = 20。对于分组数据,MO = L + (7)其中L是众数所在组下限值;是众数所在组频数与前一组频数差;是众数所在组频数与后一组频数差;h是组距。以例8“20个新生儿体重数据”为例,可见“众数”在第3组。有MO = 3000 +300 = 3187.5注意:(1)众数指变量值,而不是频数。(2)若频数分布只有一个峰值,则分布是单峰的,若有两个,则分布是双峰的。有时对峰值的分析很有意义(见34页图3.2)。4百分位数(Percentile):百分位数概念是中位数概念的推广。百分位数定义:一组n个观测值按数值的大小顺序排列(由小到大)如下, x1, x2, , xn处于第p%位置的观测值为第p百分位数。所以中位数是第50百分位数。第p百分位数的秩数是第n p %位数(如不是整数,取大于它的最小整数)。例10:求一组数据10,12,14,17,41,66的第20百分位数。先求百分位数的序数。这6个数值中的第20百分位数,即第6 20% = 1.2位的数值。因1.2不是整数,取2。所以第二位数,即12是第20百分位数。实际意义:设第p百分位数为xk则说明有p %的观测值大于xk。注意:(1)25倍数的百分位数称为四分位数。(2)可用类似于求中位数的方法求分组数据的百分位数。3.2 表示分散程度的特征数。 表示分散程度的特征数有极差(全距),平均差,方差,标准差,变异系数等。对于一组数据,只用表示集中位置的特征数描述是不够的,先通过一个例子来说明。设有如下二组数据(9,9.5,10,10.5,11)(8, 9, 10 ,11,12)显然二组数据的算术平均数相等,但二组数据的分布却有很大差异,显然只用表示集中位置的特征数来描述数据是不够的,还应引入一些表示分散程度的特征数。(1) 极差(Range)(全距):极差定义:设一组数据为(x1, , xn),则全距(用R表示) R = x max - x min (8)其中 x max , x min 分别表示该数据中的极大和极小值。极差表示取值范围。以上列二数据为例:R1 = 11- 9 = 2,R2 = 12 - 8 = 4。优点:极差计算简便。缺点:没有考虑到中间各值的分布情况。例:股市收市时所报的最高值和最低值。实际给出了极差值。(2) 平均差(Mean absolute deviation):用MD 表示。定义: MD = |xi -| (不分组数据) (9) MD = |xi -| (分组数据) (10)其中fi 组频数,xi 组中值。MD的意义:表示数据的平均离散程度。为什么要取离差的绝对值呢?因为离差和= 0。 优点:考虑到每个数据得分布情况。缺点:取绝对值不便于运算。(3)方差(Variance)方差用 S 2 表示,对于不分组数据定义: S 2 = (11)方差的意义是数据对平均数的平均离差平方和。实际计算公式是: S 2 = = = (12) 例11:有下列一组数据,4, 4.2, 4.8, 5, 7, 求和S2, (或见38页例)= = 5S2 = = (4-5) 2 + (4.2-5) 2 + (4.8-5) 2 + (5-5) 2 + (7-5) 2 = 1.42对于分组数据定义:S 2 = (13)其中:fi 组频数,xi 组中值。与公式(12)的推导相似,实际计算公式是S 2 = (14)例12:有分组数据如下。求, S2 (或见39页例)观测值频数fi组中值xi0211244346356837合计n = 11= = (11+34+53+73)= 4.45 S2 = = 1 (1-4.45)2 + 4 (3 - 4.45)2 + 3 (5 - 4.45) 2 + 3 (7 - 4.45)2 = = 4.07 S2 = = = 259-217.8)= 4.1例13:数据见例8,求方差。解:1. 数据不分组时S2 = = 34922. 对于分组数据 S2 = = 3362(s2 = 3272)对于不分组总体数据定义方差为观测值平方的均值减去其均值的平方。 Var(xt) = = 证明: = -2xt +2) = -2+ = -22 +2 = 为什么总体方差和样本方差的计算公式不一样?请见“点估计”一章。检查对方差概念的理解:对于生产产品来说,希望产品参数方差大,还是方差小?仪仗队人员身高值,和某班学生的身高值,那个方差大?(4)标准差(Standard Deviation):标准差定义:s = (15)为什么还要定义标准差?因为标准差的量纲与原数据一样,而方差为原量纲的平方。而原量纲的平方让人们听起来很不习惯。计算器可以计算平均数、方差、标准差。(5)变异系数(Coefficient of Variation)变异系数定义:C = 100, (16)其中:S,标准差;,平均数。这是一个无量纲的量,特别适用于具有不同平均水平的数据间的比较。例14:有两个工厂,工人的劳动生产率资料如下。工厂平均劳动生产率()标准差(S)C =100甲厂16,0006003.75乙厂8,0004005.00初看起来甲厂工人劳动生产率数据的标准差大于乙厂。则甲的代表性比乙 差。但是甲,乙悬殊相差。所以不能只依靠标准差下结论。这里用变异系数比较合理。因C甲 = 3.75,C乙 = 5.00。因为C甲 C乙。甲厂的比乙厂的更有代表性,(C乙大)。3.3 表示偏斜程度和陡峭程度的特征数(只适用于单峰情形)给出两个描述偏倚程度的统计量。(1)Pearson偏斜系数(Pearsons coefficient of skewness)PS = (17)PS = 0时,分布为对称型;PS 0时,分布为右偏倚。(2)三阶矩偏度(skewness)和峰度(kurtosis,峭度)的定义。对于时间序列(y1, y2, , yT),偏度S定义为, f (yt) 右偏倚 S 0 (18) 众数 中位数 平均数 yt其中表示yt的平均数,s 表示yt的标准差。这是yt的一个三阶矩。偏度表示观测值(数据)分布的不对称程度。由公式知,若分布是以对称的,则偏度为零。所以若yt服从正态分布,则偏度为零;若分布是右偏倚的,则偏度S 0;若分布是左偏倚的,则偏度S 3 (19) yt其中表示yt的平均数,s 表示yt的标准差。这是yt的一个四阶矩。描述分布曲线的陡峭程度。正态分布的峭度为3。如果一个分布的两侧尾部比正态分布的两侧尾部“胖”,则该分布的峭度K 3,反之则K 3。 注意:对于样本数据,上述三个公式中的s 应换成样本标准差S。研究观测值频数分布偏斜性的一个方法是比较众数、中位数、算术平均数的相对位置。绘出三种频数分布类型如下:(单峰情形) a b c Md Mo = Md = Mo MO Md (a) 分布为左偏态,有 Md Mo(b) 分布为对称态,有= Md = Mo(c) 分布为右偏态,有MO Md 注意:为什么(b)分布是左偏,(c)分布是右偏呢?因为偏斜不是对频数曲线形状来说,而是对观测值分布来说的。以(b)分布为例,观测值落在MO以右很远情景不多,但落在Mo左边很远的情形很多,所以叫左偏态。同理(c)为右偏态。你能举出一些对称态,左偏态,右偏态分布的实例吗?(1) 一些物理的测量值的分布常为对称态。如:生产线与产品的重量,长度等指标。 (2) 单位里,高级职称人员的年龄分布。学生考试分数得分布(特别当考题偏易时)。人口寿命值分布等情况均为左偏态。(3) 单位里初级职称人员的年龄分布。职工月工资,居民年收入的分布。我国现人口分布等情况均为右偏态。 (4)双峰分布。如春节、五一节期间中国日客流量人数分布。 3.4 表示变量相关程度的特征数3.4.1 协方差两个随机变量的协方差等于它们乘积的均值减去它们均值的乘积。 Cov(xt, yt) = (yt ) = -3.4.2 相关系数相关系数r = =例15:见例8,求Pearson 偏斜系数。解:1. 数据不分组时PS = = = 0.082. 对于分组数据,已知= 3180,Md = 3187,S = 336,PS = -0.06例16:天津市建委系统1988年中级、初级职称人才年龄分布如下: 分 组中级人才数(fi)XiXi-Fi (XI-)2助级人才数(fi)Xi-Fi (XI-)220258 22.525.6 5243 848915.4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 焊工安全知识培训课件书
- 2025年事业单位工勤技能-广东-广东铸造工五级(初级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-广东-广东汽车驾驶与维修员一级(高级技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-安徽-安徽水文勘测工二级(技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-北京-北京兽医防治员五级(初级工)历年参考题库含答案解析
- 烹调基础知识培训总结课件
- 2025年职业技能鉴定-铁路职业技能鉴定-铁路职业技能鉴定(铁路连结员)初级历年参考题库含答案解析(5套)
- 2025年职业技能鉴定-石雕工-石雕工(高级技师)历年参考题库含答案解析(5套)
- 2025年职业技能鉴定-灭火救援专业士兵-灭火救援专业士兵(高级)历年参考题库含答案解析(5套)
- 2025年职业技能鉴定-劳动关系协调员-劳动关系协调员高级技师(一级)历年参考题库含答案解析(5套)
- (2025年标准)职工转岗协议书
- 2026年色彩流行趋势报告
- 2025年江苏劳动保障协理员招聘考试(劳动保障相关业务知识)历年参考题库含答案详解(5套)
- 电梯转让协议书范本
- 2025年火电电力职业技能鉴定考试-风力发电运行检修员历年参考题库含答案解析(5套典型题)
- 2025湖南省低空经济发展集团有限公司招聘12人(第二次)笔试参考题库附带答案详解(10套)
- 医患沟通技巧试题及答案
- 牛仔裤廓形趋势报告
- 年产2000吨电子级超高纯石英晶体材料制造项目环评报告表
- 2025重庆对外建设集团招聘41人笔试参考题库附带答案详解(10套)
- 2025年秋季开学第一次全体教师大会上校长讲话-:想为、敢为、勤为、善为
评论
0/150
提交评论