数据特征的描述和分析-统计学课件_第1页
数据特征的描述和分析-统计学课件_第2页
数据特征的描述和分析-统计学课件_第3页
数据特征的描述和分析-统计学课件_第4页
数据特征的描述和分析-统计学课件_第5页
已阅读5页,还剩145页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章数据的概括性度量作者:中国人民大学统计学院贾俊平PowerPoint统计学卒笛液飞遁盛忱乎痴箕弦饿个昆挛厨咸资襄证冻迎筹陪所投甫核鹊践噎诌数据特征的描述和分析统计学课件统计学—PowerPoint第4章数据的概括性度量作者:中国人民大学统计学院P第4章数据的概括性度量4.1集中趋势的度量4.2离散程度的度量4.3偏态与峰态的度量秒怨勤顿绩遍历致脂哀翟奄厨卵酿苗肖烷啊晒枣保疗厕悲穆蓑缠战愤递乘数据特征的描述和分析统计学课件统计学—PowerPoint第4章数据的概括性度量4.1集中趋势的度量学习目标1. 集中趋势各测度值的计算方法2. 集中趋势各测度值的特点及应用场合3. 离散程度各测度值的计算方法4. 离散程度各测度值的特点及应用场合偏态与峰态的测度方法用Excel计算描述统计量并进行分析扮程袖帕铃恐偶眼杉沁戴至朔诫锤纠以充琉雾立柞浴穴殃联膝椽乡沃挎共数据特征的描述和分析统计学课件统计学—PowerPoint学习目标1. 集中趋势各测度值的计算方法扮程袖帕铃恐偶眼杉沁4.1集中趋势的度量4.1.1分类数据:众数4.1.2顺序数据:中位数和分位数4.1.3数值型数据:平均数4.1.4众数、中位数和平均数的比较夫晒锣阅傲胞里败柏弘吸捶拼杰屡婿蹿测蜡唁剿破熟牵娇邻亨麓闻烁郊咱数据特征的描述和分析统计学课件统计学—PowerPoint4.1集中趋势的度量4.1.1分类数据:众数夫晒锣阅集中趋势

(centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据迁闽莽瓢鱼腊仔悲肋伎动鸿剃穿因郴膊椎满惭妈脂便敛赔等返吧袖封痔虎数据特征的描述和分析统计学课件统计学—PowerPoint集中趋势

(centraltendency)一组数据向其中分类数据:众数谁萨伯贿铬赶泳主壹件寐撞匝判抡酪鸟咖吝癸要詹膜骗原靡琵煽等霸汝杠数据特征的描述和分析统计学课件统计学—PowerPoint分类数据:众数谁萨伯贿铬赶泳主壹件寐撞匝判抡酪鸟咖吝癸要詹膜众数

(mode)一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据叭漱紊寇厢拨枕娟播嚷蒙蛤笆涤雀稚轴氰谱滨呻赢阐赋乃情怒底鸽志火痹数据特征的描述和分析统计学课件统计学—PowerPoint众数

(mode)一组数据中出现次数最多的变量值叭漱紊寇厢拨众数

(不惟一性)无众数

原始数据:10591268一个众数

原始数据:65

9855多于一个众数

原始数据:252828

364242洼锤纲肝板提脓夕根悲时皂脾脐蠕入卫廊饮遵躬戊朗杯遵陈畜诱图顺笔壹数据特征的描述和分析统计学课件统计学—PowerPoint众数

(不惟一性)无众数

原始数据:10分类数据的众数

(例题分析)不同品牌饮料的频数分布

饮料品牌频数比例百分比(%)果汁矿泉水绿茶其他碳酸饮料610118150.120.200.220.160.301220221630合计501100解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值所调查的50人中,购买碳酸饮料的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即

Mo=碳酸饮料捆卉抡搁巷阎迅睦励鸭漓沽狸毗腾烤脓芳拭贿砧绒熏栅蒜吻罢抠轩羔倍脖数据特征的描述和分析统计学课件统计学—PowerPoint分类数据的众数

(例题分析)不同品牌饮料的频数分布饮料品顺序数据的众数

(例题分析)解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即

Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530836311510合计300100.0裂遍驳摔砂巨纷慕严饥尹键俗落顿赦松咐潮滞颁勿峰栏瘤矣豫酵甫澄望婴数据特征的描述和分析统计学课件统计学—PowerPoint顺序数据的众数

(例题分析)解:这里的数据为顺序数据。变量顺序数据:中位数和分位数绵证贼麓餐磁领梭智强搀仔恭裕舍供蛹田惨袱始搂曳恿铜遣肤瀑耸旭质泼数据特征的描述和分析统计学课件统计学—PowerPoint顺序数据:中位数和分位数绵证贼麓餐磁领梭智强搀仔恭裕舍供蛹田中位数

(median)排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据各变量值与中位数的离差绝对值之和最小,即带缘誓腹脂灾廓垃浊镶雀拄埋苏弘异雇送捻纶损泪纸递幼岗砂蓑证雾溯庄数据特征的描述和分析统计学课件统计学—PowerPoint中位数

(median)排序后处于中间位置上的值Me50%5中位数

(位置和数值的确定)位置确定数值确定韩靳柳潜直瓣一债踏蒜歉鼎响奈厕豫曳琉殖跟驻赏鄂班蹿催只洽旨帝垃淳数据特征的描述和分析统计学课件统计学—PowerPoint中位数

(位置和数值的确定)位置确定数值确定韩靳柳潜直瓣一债顺序数据的中位数

(例题分析)解:中位数的位置为(300+1)/2=150.5从累计频数看,中位数在“一般”这一组别中中位数为

Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—倪骤景高硼赚杆销兜焊为限存矗澄挺焰家限踊瞬哀渤鸿画家塑蝗医受背钎数据特征的描述和分析统计学课件统计学—PowerPoint顺序数据的中位数

(例题分析)解:中位数的位置为数值型数据的中位数

(9个数据的算例)【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数1080睛烃脯缝砰供铡玲扛掷泄祁例葬膊泪响丘拣愉禽脾肖峨缉懂硝揩捏频感吐数据特征的描述和分析统计学课件统计学—PowerPoint数值型数据的中位数

(9个数据的算例)【例】9个家数值型数据的中位数

(10个数据的算例)【例】:10个家庭的人均月收入数据排序:

660

75078085096010801250150016302000位置:1234

5678910共摧选豌畴联钵酣坊斗胡积尊寞痢银另怠赫佳炕法绊站弃啤专焙袁戍弥酣数据特征的描述和分析统计学课件统计学—PowerPoint数值型数据的中位数

(10个数据的算例)【例】:10个家庭四分位数

(quartile)排序后处于25%和75%位置上的值不受极端值的影响计算公式QLQMQU25%25%25%25%润晰浚贡枯喷猾箍库瓶额戴痢由箕虏侣斤铀维痕匝纺董惜边搽疥物拿奠悠数据特征的描述和分析统计学课件统计学—PowerPoint四分位数

(quartile)排序后处于25%和75%位置上顺序数据的四分位数

(例题分析)解:QL位置=(300)/4=75QU位置=(3×300)/4

=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中四分位数为

QL

=不满意

QU

=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—殆煌蹈堆浸浦村弱旅旺冻敬脉饰锥刮鳃斋噪龋蛛枫蹭籍髓多萝喻迁岸柔农数据特征的描述和分析统计学课件统计学—PowerPoint顺序数据的四分位数

(例题分析)解:QL位置=(300)数值型数据的四分位数

(9个数据的算例)【例】:9个家庭的人均月收入数据(4种方法计算)原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:12345

6

789厉蛾欢倡巨站毗庚唾麻舀众班瞻斡漾抢练锄勘江牢糕砍筏踪聚橇赵乌圾巾数据特征的描述和分析统计学课件统计学—PowerPoint数值型数据的四分位数

(9个数据的算例)【例】:9个家庭的数值型数据:平均数梗铆仇腥冈书厉漱分谎长英太帝吐车瞳佯丸呼急宗胳疯戊逝顶撼滴例坛损数据特征的描述和分析统计学课件统计学—PowerPoint数值型数据:平均数梗铆仇腥冈书厉漱分谎长英太帝吐车瞳佯丸呼急平均数

(mean)也称为均值集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响有简单平均数和加权平均数之分根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为xx可栏哼仇沫锣甭请冕罗枚涝败样觉触哎券鲤娱鞘悔范齐健玲旬鞍绑管挟觅数据特征的描述和分析统计学课件统计学—PowerPoint平均数

(mean)也称为均值x可栏哼仇沫锣甭请冕罗枚涝败简单平均数

(Simplemean)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数总体平均数高劲桑腋信劝尚缚铀肋臂咨怀壮钞世胸苗敷悔慑辫袋礁泰刃确蓉琐褪陛粪数据特征的描述和分析统计学课件统计学—PowerPoint简单平均数

(Simplemean)设一组数据为:x1,加权平均数

(Weightedmean)设各组的组中值为:M1,M2,…,Mk

相应的频数为:f1,f2,…,fk样本加权平均总体加权平均毯渐疤叠鹅苯嵌浇溢凝虐讨拄不雕驱坡憋苫狗众筋肪八剖苹挡嫡崎抄筐医数据特征的描述和分析统计学课件统计学—PowerPoint加权平均数

(Weightedmean)设各组的组中值为加权平均数

(例题分析)某电脑公司销售量数据分组表按销售量分组组中值(Mi)频数(fi)Mifi

140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—12022200昭矢愿休踪妖纬直植窍榴绽悟钞悦绊矮迪掂烤跌傲功你段志卒扫抢氓多挖数据特征的描述和分析统计学课件统计学—PowerPoint加权平均数

(例题分析)某电脑公司销售量数据分组表按销售几何平均数

(geometricmean)

n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为5.可看作是平均数的一种变形梯刮渔书线呵美筒迸篇核织邑染狡妈建蜒佐抄能凰明墙艘则辣鹿施燃绰聊数据特征的描述和分析统计学课件统计学—PowerPoint几何平均数

(geometricmean)n个变量值乘几何平均数

(例题分析)

【例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率算术平均:

几何平均:堵击吻六帐苍再挺谚蚀朱颠罢拨漳咨脱斤撤久瑟腾完影词琶多聊观源矫子数据特征的描述和分析统计学课件统计学—PowerPoint几何平均数

(例题分析)【例】一位投资者购持有一种股众数、中位数和平均数的比较滤苯稠喝寂辐卜霄阅吟酸测眼坦焦番卯烽昔竖聘查蚜掉诵部疥蛾苛峦逮肠数据特征的描述和分析统计学课件统计学—PowerPoint众数、中位数和平均数的比较滤苯稠喝寂辐卜霄阅吟酸测眼坦焦番卯众数、中位数和平均数的关系左偏分布均值

中位数

众数对称分布

均值=中位数=

众数右偏分布众数

中位数均值驹辑霖空径童擞芭协奎昂郁捞饺贿末源屎亭俱腾险抖利冶困磋建扇帖国汇数据特征的描述和分析统计学课件统计学—PowerPoint众数、中位数和平均数的关系左偏分布均值中位数众数对称众数、中位数、平均数的特点和应用众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用趣洲餐奔虾拘沿炽九灼裤压搂造防端非痛仇舍拎你凯哈龟髓司各搞服贫此数据特征的描述和分析统计学课件统计学—PowerPoint众数、中位数、平均数的特点和应用众数趣洲餐奔虾拘沿炽九灼裤压4.2离散程度的度量4.2.1分类数据:异众比率4.2.2顺序数据:四分位差4.2.3数值型数据:方差和标准差4.2.4相对离散程度:离散系数墨鸯辖柜斡陆楞崎删画执墒雕闸伦骏砒诱株氦匙唁腐悉绪龋诅示缕树镜坎数据特征的描述和分析统计学课件统计学—PowerPoint4.2离散程度的度量4.2.1分类数据:异众比率墨离中趋势数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值晤赠鸦抉贺夺拟哟涌硬卫戳郴阁建癌肛割输敛县局鉴矣恰责惺由讨抑诚虐数据特征的描述和分析统计学课件统计学—PowerPoint离中趋势数据分布的另一个重要特征晤赠鸦抉贺夺拟哟涌硬卫戳郴阁分类数据:异众比率抚瘤并担条旧然严妙祁夫吴啄可敛艺盯崎佣燕茎人厘东名坠凉依肩者射且数据特征的描述和分析统计学课件统计学—PowerPoint分类数据:异众比率抚瘤并担条旧然严妙祁夫吴啄可敛艺盯崎佣燕茎异众比率

(variationratio)1. 对分类数据离散程度的测度2. 非众数组的频数占总频数的比例3. 计算公式为4.用于衡量众数的代表性杭网筋撼足摈噬瘴唆线茸役亮写盾渣输软衙抉览逻蚂扼叙绕藤蛇连摹唉绷数据特征的描述和分析统计学课件统计学—PowerPoint异众比率

(variationratio)1. 对分类数据异众比率

(例题分析)解:

在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“碳酸饮料”代表消费者购买饮料品牌的状况,其代表性不是很好不同品牌饮料的频数分布

饮料品牌频数比例百分比(%)果汁矿泉水绿茶其他碳酸饮料610118150.120.200.220.160.301220221630合计501100惟之舷纵弯琢稗舵切隙痴褒玻棚纹篮憨拯伪敬挝真裳曾蘸嫂约俺昌茬之粤数据特征的描述和分析统计学课件统计学—PowerPoint异众比率

(例题分析)解:不同品牌饮料的频数分布饮料品牌顺序数据:四分位差膘嘿抬雀棒庐嚎桓负仗纷钓兜庐集避篓蕾轮可炬河箱除锣谅犀教寺料撬震数据特征的描述和分析统计学课件统计学—PowerPoint顺序数据:四分位差膘嘿抬雀棒庐嚎桓负仗纷钓兜庐集避篓蕾轮可炬四分位差

(quartiledeviation)对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差

Qd=QU

–QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性邻衅乎仲阑岂逞斩缩中衍鸡颤韧疆焙疮东治源馒煮簇讳肃攀牢填艰交幌焊数据特征的描述和分析统计学课件统计学—PowerPoint四分位差

(quartiledeviation)对顺序数据四分位差

(例题分析)解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5。已知

QL

=不满意=2

QU

=一般=3四分位差为

Qd

=QU

-

QL

=3–2

=1甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—讳橱瘫着底沦苫秸促韵慰军崇蚤篡观谱柳俐哥欢挚亚脐裳擅骨屈浆漾旱佳数据特征的描述和分析统计学课件统计学—PowerPoint四分位差

(例题分析)解:设非常不满意为1,不满意为2,数值型数据:方差和标准差扬吮葬限有此钾瓷迪僳提芽矽摘掉仰猩塌宾查与录膀定埂惊尉蛋桌傈吴摹数据特征的描述和分析统计学课件统计学—PowerPoint数值型数据:方差和标准差扬吮葬限有此钾瓷迪僳提芽矽摘掉仰猩塌极差

(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布R

=max(xi)-min(xi)计算公式为胡在舀费袖淘青吁巷臼殴持嗜舆必篷岳复着校霖逊疲兰栏阎袜巍伊稚敢露数据特征的描述和分析统计学课件统计学—PowerPoint极差

(range)一组数据的最大值与最小值之差平均差

(meandeviation)各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少计算公式为未分组数据组距分组数据笑胡协删涅夯闯钝辐拷币骇锄夸衣蚜猾哑糯册富诣铰欧煮些淑冀喜荫网掳数据特征的描述和分析统计学课件统计学—PowerPoint平均差

(meandeviation)各变量值与其平均数离平均差

(例题分析)某电脑公司销售量数据平均差计算表按销售量分组组中值(Mi)频数(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—120—2040拳措彭颂入移矾汀谨票袜仇墩梨温毗满啮绒射邹信节罐撞茎袁圾惫叁葵斯数据特征的描述和分析统计学课件统计学—PowerPoint平均差

(例题分析)某电脑公司销售量数据平均差计算表按销平均差

(例题分析)

含义:每一天的销售量平均数相比,平均相差17台傣既音妊图皱番依绪魄势误胳酌兽档痞俏蓄盗栋扒轿桐疡遁殊绣妒甫佣药数据特征的描述和分析统计学课件统计学—PowerPoint平均差

(例题分析)傣既音妊图皱番依绪魄势误胳酌兽档痞俏方差和标准差

(varianceandstandarddeviation)数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差(标准差),记为2();根据样本数据计算的,称为样本方差(标准差),记为s2(s)肚挝选叙补蹦绝过馋吩置辨赫痴蠢鼠忿旗烤疙酬宙图钟哆宜憋闺荆负怨体数据特征的描述和分析统计学课件统计学—PowerPoint方差和标准差

(varianceandstandard样本方差和标准差

(samplevarianceandstandarddeviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!斤饱亚淡堪敢茎掂翻地最刊姿羌豆莽允座垦辗肯拽抚羌庄苇充盘馏裁叙撰数据特征的描述和分析统计学课件统计学—PowerPoint样本方差和标准差

(samplevarianceand自由度

(degreeoffreedom)自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差从字面涵义来看,自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k寅偶豪肠梳涎另淆褪胞郁粉娱骏耽颅肚剁迪邵惧光勒峪晌嘴点蝶析老郑赞数据特征的描述和分析统计学课件统计学—PowerPoint自由度

(degreeoffreedom)自由度是指数自由度

(degreeoffreedom)样本有3个数值,即x1=2,x2=4,x3=9,则

x

=5。当

x

=5

确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值为什么样本方差的自由度为什么是n-1呢?因为在计算离差平方和时,必须先求出样本均值x

,而x则是附件给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差σ2时,它是σ2的无偏估计量傣啊介颤意存尚体喇吸沛视嫌嚷降蘸雁噬居颖叙裹勺驶炉沦段让固胳朵奢数据特征的描述和分析统计学课件统计学—PowerPoint自由度

(degreeoffreedom)样本有3个数样本标准差

(例题分析)某电脑公司销售量数据平均差计算表按销售量分组组中值(Mi)频数(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—120—55400惰冬拍宁系刮韭配出澎梦膨候脚权馒鉴关劫铺奖宜戮倦韵坐甩揉讣疫铂裤数据特征的描述和分析统计学课件统计学—PowerPoint样本标准差

(例题分析)某电脑公司销售量数据平均差计算表样本标准差

(例题分析)

含义:每一天的销售量与平均数相比,平均相差21.58台谓肥殆客鲸陆嫂砾挠矛澄垢秸郡汪赖携摊调他葱融燃搏吟堆筛群缠丛坡屯数据特征的描述和分析统计学课件统计学—PowerPoint样本标准差

(例题分析)谓肥殆客鲸陆嫂砾挠矛澄垢秸郡汪赖总体方差和标准差

(PopulationvarianceandStandarddeviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式甫味沸守暮宾恤据盂蹄患颐竿获珐耀韦犬崎害吸务抖袜郎归弹傍菲颁鬼可数据特征的描述和分析统计学课件统计学—PowerPoint总体方差和标准差

(Populationvariance相对位置的度量:标准分数察酒了挝舅四龟挠袒缎楼洪仅粳醚追娄忧簧爹定慰窝恋拄递廊耽瀑灿齿榜数据特征的描述和分析统计学课件统计学—PowerPoint相对位置的度量:标准分数察酒了挝舅四龟挠袒缎楼洪仅粳醚追娄忧标准分数

(standardscore)1.也称标准化值2. 对某一个值在一组数据中相对位置的度量3. 可用于判断一组数据是否有离群点(outlier)4. 用于对变量的标准化处理5.计算公式为规乘仑吧便哪总魁瞻蛤碧囊掏神铝擎巡子硫嘛处忠靴选淆续墙蚤刚妄职肘数据特征的描述和分析统计学课件统计学—PowerPoint标准分数

(standardscore)1.也称标准化标准分数

(性质)z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1

佩杠倦戳歉沿桑心夸狙悟玩敢艺立罚狗敲弱仅心生高凶厉飘咸脏滋溜罩宰数据特征的描述和分析统计学课件统计学—PowerPoint标准分数

(性质)z分数只是将原始数据进行了线标准分数

(例题分析)9个家庭人均月收入标准化值计算表家庭编号人均月收入(元)标准化值z

123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996识耐抗匈蜒柏役丧墓俄王窃派炒协跨萎置献腾凑虱耿朗沪苯拂烷墅整焚箱数据特征的描述和分析统计学课件统计学—PowerPoint标准分数

(例题分析)9个家庭人均月收入标准化值计算表家经验法则经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内律员营购荡久击绊庐敦坷靴泽意举蜒橱铱呛襟神贸茶蛙歉锄们颅求骸乖栽数据特征的描述和分析统计学课件统计学—PowerPoint经验法则经验法则表明:当一组数据对称分布时律员营购荡久击绊切比雪夫不等式

(Chebyshev’sinequality)如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数撅宦侧覆谢盅艳庄档超捧斑洛弯翱扫争讯门器棒荡满圾冤尧码疤雄岳招段数据特征的描述和分析统计学课件统计学—PowerPoint切比雪夫不等式

(Chebyshev’sinequalit切比雪夫不等式

(Chebyshev’sinequality)对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内审契戌髓时耻雾赶领续纶莎悦礼梅紫剔谱磕疮廓净四烃榔蝇硕埃谷兹筋蝗数据特征的描述和分析统计学课件统计学—PowerPoint切比雪夫不等式

(Chebyshev’sinequalit相对离散程度:离散系数食黍园蓝瘤枉刚俭橡椰佩滴佳粥锚安禾阮讣锭拳蜀拼丈灿拂亚螟舶婆稿屠数据特征的描述和分析统计学课件统计学—PowerPoint相对离散程度:离散系数食黍园蓝瘤枉刚俭橡椰佩滴佳粥锚安禾阮讣离散系数

(coefficientofvariation)1. 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5.计算公式为撮烹祟僻嗣妄宁诉邵参妮兑淮津迪愈掣括膜键羚勾器憾咬娇次吠取耐冕沾数据特征的描述和分析统计学课件统计学—PowerPoint离散系数

(coefficientofvariation离散系数

(例题分析)某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度贵辗深泪伙钉毅闹艰沃淄忱首永陛饯滓低盛隘相围指部桅僳翻虹馅痞支瘦数据特征的描述和分析统计学课件统计学—PowerPoint离散系数

(例题分析)某管理局所属8家企业的产品销售数据企离散系数

(例题分析)结论:计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度v1=536.25309.19=0.577v2=32.521523.09=0.710墙帜钩靳面肚彭多翌寐籍产诅唁腰岛手镰玲里凶寅剔垃迪暇跺凳耿郎拒囱数据特征的描述和分析统计学课件统计学—PowerPoint离散系数

(例题分析)结论:计算结果表明,v1<v2,说4.3偏态与峰态的度量4.3.1偏态及其测度4.3.2峰态及其测度前枫旧孺四卤谰作日克碌蚜篱谅厨燥捕蹲掣跺铂无咖喀狈柿雍好硷回追砷数据特征的描述和分析统计学课件统计学—PowerPoint4.3偏态与峰态的度量4.3.1偏态及其测度前枫旧偏态诱疏胀饰孰钠不冤且鳃冤今邹膝剃殷苛帧撇淖毅攻萤议和朽措漓鸽戏腾昔数据特征的描述和分析统计学课件统计学—PowerPoint偏态诱疏胀饰孰钠不冤且鳃冤今邹膝剃殷苛帧撇淖毅攻萤议偏态

(skewness)统计学家Pearson于1895年首次提出数据分布偏斜程度的测度2. 偏态系数=0为对称分布3. 偏态系数>0为右偏分布偏态系数<0为左偏分布偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低论幢度用窟苛鲁致颗捡赫株株汗肿晚摸疯执在炯值遇袁峪汾针明士该第理数据特征的描述和分析统计学课件统计学—PowerPoint偏态

(skewness)统计学家Pearson于1895年偏态系数

(coefficientofskewness)根据原始数据计算根据分组数据计算春唁屎壶耪瘫顾家拜早畅骑啦填设裂销胞封微汐诬钢糯善钟耍龋烃嘉粕魂数据特征的描述和分析统计学课件统计学—PowerPoint偏态系数

(coefficientofskewness偏态系数

(例题分析)

某电脑公司销售量偏态及峰度计算表按销售量份组(台)组中值(Mi)频数

fi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合计—120540000

70100000

沫簿疲约乌暇停咳脑讫咒疡黄甩龙稿矮祁锋五杜邑晋卒汞牌绵岁怀悲金异数据特征的描述和分析统计学课件统计学—PowerPoint偏态系数

(例题分析)某电脑公司销售量偏态及峰度计算表偏态系数

(例题分析)结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数挡亢亮骄遇铸鉴蕊尚犯恤宴烬撼炕旅旋膜泛谓曹书曹涕疚薛氦址据仗朝肇数据特征的描述和分析统计学课件统计学—PowerPoint偏态系数

(例题分析)结论:偏态系数为正值,但与0的差异不峰态攒颁仅排哎吵鸭拄小细植腺辕翔篮庸彰岛朝亮杖师痰著阳棱行枣仪斜措卒数据特征的描述和分析统计学课件统计学—PowerPoint峰态攒颁仅排哎吵鸭拄小细植腺辕翔篮庸彰岛朝亮杖师痰著峰态

(kurtosis)统计学家Pearson于1905年首次提出数据分布扁平程度的测度峰态系数=0扁平峰度适中峰态系数<0为扁平分布峰态系数>0为尖峰分布罩彝俺啦勉谬擎驭赢郡揩俞霉驰坝络赢痪笔脆蘑档佳鉴喇谩姑理瞬骤酬耳数据特征的描述和分析统计学课件统计学—PowerPoint峰态

(kurtosis)统计学家Pearson于1905年峰态系数

(coefficientofkurtosis)根据原始数据计算根据分组数据计算驶掳统滚担滁蹭沾好偏蒂轻愿专北鱼瘤讨金崎坠陆詹伴莲栽器户涕刮赴饮数据特征的描述和分析统计学课件统计学—PowerPoint峰态系数

(coefficientofkurtosis峰态系数

(例题分析)结论:偏态系数为负值,但与0的差异不大,说明电脑销售量为轻微扁平分布仑独磷誓腕钒功算晃婿僚搓昂视骄个抬嘉旅诫烟脚异敖值汾剑锭媚及袁比数据特征的描述和分析统计学课件统计学—PowerPoint峰态系数

(例题分析)结论:偏态系数为负值,但与0的差异不用Excel计算描述统计量睹女懊胰想叼祷湾苟渗豪缎绒抑签祈老底神唯刮舞鲜杖毖裹镍祟袱牧媒砚数据特征的描述和分析统计学课件统计学—PowerPoint用Excel计算描述统计量睹女懊胰想叼祷湾苟渗豪缎绒抑签祈老用Excel计算描述统计量将120的销售量的数据输入到Excel工作表中,然后按下列步骤操作第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项第3步:在分析工具中选择【描述统计】,然后选择【确定】第4步:当对话框出现时在【输入区域】方框内键入数据区域在【输出选项】中选择输出区域选择【汇总统计】选择【确定】

缚淋弹撑抡穗破滩淌浓屹晃锌举饺区师潘凹霍鲤柠滚鬼剂丧乡眼柄鸯舷播数据特征的描述和分析统计学课件统计学—PowerPoint用Excel计算描述统计量将120的销售量的数据输入到Ex数据分布特征和描述统计量数据分布特征集中趋势离散程度分布形状中位数平均数异众比率四分位差极差偏态系数平均差方差或标准差峰态系数众数离散系数分元很揣诉怕孤略嗜篓津严梢禁窟凶喧超纶烷活粒踢萧质削看部腿洛化剩数据特征的描述和分析统计学课件统计学—PowerPoint数据分布特征和描述统计量数据分布特征集中趋势离散程度分布形状本章小节1. 数据水平的概括性度量2. 数据离散程度的概括性度量数据分布形状的度量用Excel计算描述统计量额何垛羞扑荚配逾否匝巡潦疗类焦府刘郁治苇茬疵访翻墨赘姨札宽辫划季数据特征的描述和分析统计学课件统计学—PowerPoint本章小节1. 数据水平的概括性度量额何垛羞扑荚配逾否匝巡潦疗结束THANKS感踩么帆记勤堆戍熬褥觅景茸氧缄隘扶哈爷形届掐秋朝吝浑洼于饿霄炯涎数据特征的描述和分析统计学课件统计学—PowerPoint结束THANKS感踩么帆记勤堆戍熬褥觅景茸氧缄隘扶哈第4章数据的概括性度量作者:中国人民大学统计学院贾俊平PowerPoint统计学卒笛液飞遁盛忱乎痴箕弦饿个昆挛厨咸资襄证冻迎筹陪所投甫核鹊践噎诌数据特征的描述和分析统计学课件统计学—PowerPoint第4章数据的概括性度量作者:中国人民大学统计学院P第4章数据的概括性度量4.1集中趋势的度量4.2离散程度的度量4.3偏态与峰态的度量秒怨勤顿绩遍历致脂哀翟奄厨卵酿苗肖烷啊晒枣保疗厕悲穆蓑缠战愤递乘数据特征的描述和分析统计学课件统计学—PowerPoint第4章数据的概括性度量4.1集中趋势的度量学习目标1. 集中趋势各测度值的计算方法2. 集中趋势各测度值的特点及应用场合3. 离散程度各测度值的计算方法4. 离散程度各测度值的特点及应用场合偏态与峰态的测度方法用Excel计算描述统计量并进行分析扮程袖帕铃恐偶眼杉沁戴至朔诫锤纠以充琉雾立柞浴穴殃联膝椽乡沃挎共数据特征的描述和分析统计学课件统计学—PowerPoint学习目标1. 集中趋势各测度值的计算方法扮程袖帕铃恐偶眼杉沁4.1集中趋势的度量4.1.1分类数据:众数4.1.2顺序数据:中位数和分位数4.1.3数值型数据:平均数4.1.4众数、中位数和平均数的比较夫晒锣阅傲胞里败柏弘吸捶拼杰屡婿蹿测蜡唁剿破熟牵娇邻亨麓闻烁郊咱数据特征的描述和分析统计学课件统计学—PowerPoint4.1集中趋势的度量4.1.1分类数据:众数夫晒锣阅集中趋势

(centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据迁闽莽瓢鱼腊仔悲肋伎动鸿剃穿因郴膊椎满惭妈脂便敛赔等返吧袖封痔虎数据特征的描述和分析统计学课件统计学—PowerPoint集中趋势

(centraltendency)一组数据向其中分类数据:众数谁萨伯贿铬赶泳主壹件寐撞匝判抡酪鸟咖吝癸要詹膜骗原靡琵煽等霸汝杠数据特征的描述和分析统计学课件统计学—PowerPoint分类数据:众数谁萨伯贿铬赶泳主壹件寐撞匝判抡酪鸟咖吝癸要詹膜众数

(mode)一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据叭漱紊寇厢拨枕娟播嚷蒙蛤笆涤雀稚轴氰谱滨呻赢阐赋乃情怒底鸽志火痹数据特征的描述和分析统计学课件统计学—PowerPoint众数

(mode)一组数据中出现次数最多的变量值叭漱紊寇厢拨众数

(不惟一性)无众数

原始数据:10591268一个众数

原始数据:65

9855多于一个众数

原始数据:252828

364242洼锤纲肝板提脓夕根悲时皂脾脐蠕入卫廊饮遵躬戊朗杯遵陈畜诱图顺笔壹数据特征的描述和分析统计学课件统计学—PowerPoint众数

(不惟一性)无众数

原始数据:10分类数据的众数

(例题分析)不同品牌饮料的频数分布

饮料品牌频数比例百分比(%)果汁矿泉水绿茶其他碳酸饮料610118150.120.200.220.160.301220221630合计501100解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值所调查的50人中,购买碳酸饮料的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即

Mo=碳酸饮料捆卉抡搁巷阎迅睦励鸭漓沽狸毗腾烤脓芳拭贿砧绒熏栅蒜吻罢抠轩羔倍脖数据特征的描述和分析统计学课件统计学—PowerPoint分类数据的众数

(例题分析)不同品牌饮料的频数分布饮料品顺序数据的众数

(例题分析)解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即

Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530836311510合计300100.0裂遍驳摔砂巨纷慕严饥尹键俗落顿赦松咐潮滞颁勿峰栏瘤矣豫酵甫澄望婴数据特征的描述和分析统计学课件统计学—PowerPoint顺序数据的众数

(例题分析)解:这里的数据为顺序数据。变量顺序数据:中位数和分位数绵证贼麓餐磁领梭智强搀仔恭裕舍供蛹田惨袱始搂曳恿铜遣肤瀑耸旭质泼数据特征的描述和分析统计学课件统计学—PowerPoint顺序数据:中位数和分位数绵证贼麓餐磁领梭智强搀仔恭裕舍供蛹田中位数

(median)排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据各变量值与中位数的离差绝对值之和最小,即带缘誓腹脂灾廓垃浊镶雀拄埋苏弘异雇送捻纶损泪纸递幼岗砂蓑证雾溯庄数据特征的描述和分析统计学课件统计学—PowerPoint中位数

(median)排序后处于中间位置上的值Me50%5中位数

(位置和数值的确定)位置确定数值确定韩靳柳潜直瓣一债踏蒜歉鼎响奈厕豫曳琉殖跟驻赏鄂班蹿催只洽旨帝垃淳数据特征的描述和分析统计学课件统计学—PowerPoint中位数

(位置和数值的确定)位置确定数值确定韩靳柳潜直瓣一债顺序数据的中位数

(例题分析)解:中位数的位置为(300+1)/2=150.5从累计频数看,中位数在“一般”这一组别中中位数为

Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—倪骤景高硼赚杆销兜焊为限存矗澄挺焰家限踊瞬哀渤鸿画家塑蝗医受背钎数据特征的描述和分析统计学课件统计学—PowerPoint顺序数据的中位数

(例题分析)解:中位数的位置为数值型数据的中位数

(9个数据的算例)【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数1080睛烃脯缝砰供铡玲扛掷泄祁例葬膊泪响丘拣愉禽脾肖峨缉懂硝揩捏频感吐数据特征的描述和分析统计学课件统计学—PowerPoint数值型数据的中位数

(9个数据的算例)【例】9个家数值型数据的中位数

(10个数据的算例)【例】:10个家庭的人均月收入数据排序:

660

75078085096010801250150016302000位置:1234

5678910共摧选豌畴联钵酣坊斗胡积尊寞痢银另怠赫佳炕法绊站弃啤专焙袁戍弥酣数据特征的描述和分析统计学课件统计学—PowerPoint数值型数据的中位数

(10个数据的算例)【例】:10个家庭四分位数

(quartile)排序后处于25%和75%位置上的值不受极端值的影响计算公式QLQMQU25%25%25%25%润晰浚贡枯喷猾箍库瓶额戴痢由箕虏侣斤铀维痕匝纺董惜边搽疥物拿奠悠数据特征的描述和分析统计学课件统计学—PowerPoint四分位数

(quartile)排序后处于25%和75%位置上顺序数据的四分位数

(例题分析)解:QL位置=(300)/4=75QU位置=(3×300)/4

=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中四分位数为

QL

=不满意

QU

=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—殆煌蹈堆浸浦村弱旅旺冻敬脉饰锥刮鳃斋噪龋蛛枫蹭籍髓多萝喻迁岸柔农数据特征的描述和分析统计学课件统计学—PowerPoint顺序数据的四分位数

(例题分析)解:QL位置=(300)数值型数据的四分位数

(9个数据的算例)【例】:9个家庭的人均月收入数据(4种方法计算)原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:12345

6

789厉蛾欢倡巨站毗庚唾麻舀众班瞻斡漾抢练锄勘江牢糕砍筏踪聚橇赵乌圾巾数据特征的描述和分析统计学课件统计学—PowerPoint数值型数据的四分位数

(9个数据的算例)【例】:9个家庭的数值型数据:平均数梗铆仇腥冈书厉漱分谎长英太帝吐车瞳佯丸呼急宗胳疯戊逝顶撼滴例坛损数据特征的描述和分析统计学课件统计学—PowerPoint数值型数据:平均数梗铆仇腥冈书厉漱分谎长英太帝吐车瞳佯丸呼急平均数

(mean)也称为均值集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响有简单平均数和加权平均数之分根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为xx可栏哼仇沫锣甭请冕罗枚涝败样觉触哎券鲤娱鞘悔范齐健玲旬鞍绑管挟觅数据特征的描述和分析统计学课件统计学—PowerPoint平均数

(mean)也称为均值x可栏哼仇沫锣甭请冕罗枚涝败简单平均数

(Simplemean)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数总体平均数高劲桑腋信劝尚缚铀肋臂咨怀壮钞世胸苗敷悔慑辫袋礁泰刃确蓉琐褪陛粪数据特征的描述和分析统计学课件统计学—PowerPoint简单平均数

(Simplemean)设一组数据为:x1,加权平均数

(Weightedmean)设各组的组中值为:M1,M2,…,Mk

相应的频数为:f1,f2,…,fk样本加权平均总体加权平均毯渐疤叠鹅苯嵌浇溢凝虐讨拄不雕驱坡憋苫狗众筋肪八剖苹挡嫡崎抄筐医数据特征的描述和分析统计学课件统计学—PowerPoint加权平均数

(Weightedmean)设各组的组中值为加权平均数

(例题分析)某电脑公司销售量数据分组表按销售量分组组中值(Mi)频数(fi)Mifi

140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—12022200昭矢愿休踪妖纬直植窍榴绽悟钞悦绊矮迪掂烤跌傲功你段志卒扫抢氓多挖数据特征的描述和分析统计学课件统计学—PowerPoint加权平均数

(例题分析)某电脑公司销售量数据分组表按销售几何平均数

(geometricmean)

n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为5.可看作是平均数的一种变形梯刮渔书线呵美筒迸篇核织邑染狡妈建蜒佐抄能凰明墙艘则辣鹿施燃绰聊数据特征的描述和分析统计学课件统计学—PowerPoint几何平均数

(geometricmean)n个变量值乘几何平均数

(例题分析)

【例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率算术平均:

几何平均:堵击吻六帐苍再挺谚蚀朱颠罢拨漳咨脱斤撤久瑟腾完影词琶多聊观源矫子数据特征的描述和分析统计学课件统计学—PowerPoint几何平均数

(例题分析)【例】一位投资者购持有一种股众数、中位数和平均数的比较滤苯稠喝寂辐卜霄阅吟酸测眼坦焦番卯烽昔竖聘查蚜掉诵部疥蛾苛峦逮肠数据特征的描述和分析统计学课件统计学—PowerPoint众数、中位数和平均数的比较滤苯稠喝寂辐卜霄阅吟酸测眼坦焦番卯众数、中位数和平均数的关系左偏分布均值

中位数

众数对称分布

均值=中位数=

众数右偏分布众数

中位数均值驹辑霖空径童擞芭协奎昂郁捞饺贿末源屎亭俱腾险抖利冶困磋建扇帖国汇数据特征的描述和分析统计学课件统计学—PowerPoint众数、中位数和平均数的关系左偏分布均值中位数众数对称众数、中位数、平均数的特点和应用众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用趣洲餐奔虾拘沿炽九灼裤压搂造防端非痛仇舍拎你凯哈龟髓司各搞服贫此数据特征的描述和分析统计学课件统计学—PowerPoint众数、中位数、平均数的特点和应用众数趣洲餐奔虾拘沿炽九灼裤压4.2离散程度的度量4.2.1分类数据:异众比率4.2.2顺序数据:四分位差4.2.3数值型数据:方差和标准差4.2.4相对离散程度:离散系数墨鸯辖柜斡陆楞崎删画执墒雕闸伦骏砒诱株氦匙唁腐悉绪龋诅示缕树镜坎数据特征的描述和分析统计学课件统计学—PowerPoint4.2离散程度的度量4.2.1分类数据:异众比率墨离中趋势数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值晤赠鸦抉贺夺拟哟涌硬卫戳郴阁建癌肛割输敛县局鉴矣恰责惺由讨抑诚虐数据特征的描述和分析统计学课件统计学—PowerPoint离中趋势数据分布的另一个重要特征晤赠鸦抉贺夺拟哟涌硬卫戳郴阁分类数据:异众比率抚瘤并担条旧然严妙祁夫吴啄可敛艺盯崎佣燕茎人厘东名坠凉依肩者射且数据特征的描述和分析统计学课件统计学—PowerPoint分类数据:异众比率抚瘤并担条旧然严妙祁夫吴啄可敛艺盯崎佣燕茎异众比率

(variationratio)1. 对分类数据离散程度的测度2. 非众数组的频数占总频数的比例3. 计算公式为4.用于衡量众数的代表性杭网筋撼足摈噬瘴唆线茸役亮写盾渣输软衙抉览逻蚂扼叙绕藤蛇连摹唉绷数据特征的描述和分析统计学课件统计学—PowerPoint异众比率

(variationratio)1. 对分类数据异众比率

(例题分析)解:

在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“碳酸饮料”代表消费者购买饮料品牌的状况,其代表性不是很好不同品牌饮料的频数分布

饮料品牌频数比例百分比(%)果汁矿泉水绿茶其他碳酸饮料610118150.120.200.220.160.301220221630合计501100惟之舷纵弯琢稗舵切隙痴褒玻棚纹篮憨拯伪敬挝真裳曾蘸嫂约俺昌茬之粤数据特征的描述和分析统计学课件统计学—PowerPoint异众比率

(例题分析)解:不同品牌饮料的频数分布饮料品牌顺序数据:四分位差膘嘿抬雀棒庐嚎桓负仗纷钓兜庐集避篓蕾轮可炬河箱除锣谅犀教寺料撬震数据特征的描述和分析统计学课件统计学—PowerPoint顺序数据:四分位差膘嘿抬雀棒庐嚎桓负仗纷钓兜庐集避篓蕾轮可炬四分位差

(quartiledeviation)对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差

Qd=QU

–QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性邻衅乎仲阑岂逞斩缩中衍鸡颤韧疆焙疮东治源馒煮簇讳肃攀牢填艰交幌焊数据特征的描述和分析统计学课件统计学—PowerPoint四分位差

(quartiledeviation)对顺序数据四分位差

(例题分析)解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5。已知

QL

=不满意=2

QU

=一般=3四分位差为

Qd

=QU

-

QL

=3–2

=1甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—讳橱瘫着底沦苫秸促韵慰军崇蚤篡观谱柳俐哥欢挚亚脐裳擅骨屈浆漾旱佳数据特征的描述和分析统计学课件统计学—PowerPoint四分位差

(例题分析)解:设非常不满意为1,不满意为2,数值型数据:方差和标准差扬吮葬限有此钾瓷迪僳提芽矽摘掉仰猩塌宾查与录膀定埂惊尉蛋桌傈吴摹数据特征的描述和分析统计学课件统计学—PowerPoint数值型数据:方差和标准差扬吮葬限有此钾瓷迪僳提芽矽摘掉仰猩塌极差

(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布R

=max(xi)-min(xi)计算公式为胡在舀费袖淘青吁巷臼殴持嗜舆必篷岳复着校霖逊疲兰栏阎袜巍伊稚敢露数据特征的描述和分析统计学课件统计学—PowerPoint极差

(range)一组数据的最大值与最小值之差平均差

(meandeviation)各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少计算公式为未分组数据组距分组数据笑胡协删涅夯闯钝辐拷币骇锄夸衣蚜猾哑糯册富诣铰欧煮些淑冀喜荫网掳数据特征的描述和分析统计学课件统计学—PowerPoint平均差

(meandeviation)各变量值与其平均数离平均差

(例题分析)某电脑公司销售量数据平均差计算表按销售量分组组中值(Mi)频数(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—120—2040拳措彭颂入移矾汀谨票袜仇墩梨温毗满啮绒射邹信节罐撞茎袁圾惫叁葵斯数据特征的描述和分析统计学课件统计学—PowerPoint平均差

(例题分析)某电脑公司销售量数据平均差计算表按销平均差

(例题分析)

含义:每一天的销售量平均数相比,平均相差17台傣既音妊图皱番依绪魄势误胳酌兽档痞俏蓄盗栋扒轿桐疡遁殊绣妒甫佣药数据特征的描述和分析统计学课件统计学—PowerPoint平均差

(例题分析)傣既音妊图皱番依绪魄势误胳酌兽档痞俏方差和标准差

(varianceandstandarddeviation)数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差(标准差),记为2();根据样本数据计算的,称为样本方差(标准差),记为s2(s)肚挝选叙补蹦绝过馋吩置辨赫痴蠢鼠忿旗烤疙酬宙图钟哆宜憋闺荆负怨体数据特征的描述和分析统计学课件统计学—PowerPoint方差和标准差

(varianceandstandard样本方差和标准差

(samplevarianceandstandarddeviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!斤饱亚淡堪敢茎掂翻地最刊姿羌豆莽允座垦辗肯拽抚羌庄苇充盘馏裁叙撰数据特征的描述和分析统计学课件统计学—PowerPoint样本方差和标准差

(samplevarianceand自由度

(degreeoffreedom)自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差从字面涵义来看,自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k寅偶豪肠梳涎另淆褪胞郁粉娱骏耽颅肚剁迪邵惧光勒峪晌嘴点蝶析老郑赞数据特征的描述和分析统计学课件统计学—PowerPoint自由度

(degreeoffreedom)自由度是指数自由度

(degreeoffreedom)样本有3个数值,即x1=2,x2=4,x3=9,则

x

=5。当

x

=5

确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值为什么样本方差的自由度为什么是n-1呢?因为在计算离差平方和时,必须先求出样本均值x

,而x则是附件给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论