




已阅读5页,还剩67页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,哪名运动员的发挥更稳定?,在奥运会女子10米气手枪比赛中,每个运动员首先进行每组10枪共4组的预赛,然后根据预赛总成绩确定进入决赛的8名运动员。决赛时8名运动员再进行10枪射击,再将预赛成绩加上决赛成绩确定最后的名次。在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表,.,2,最会的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩492.3环夺得金牌,预赛排在第1名的俄罗斯运动员纳塔利娅帕杰林娜以总成绩489.1环获得银牌,预赛排在第4名的格鲁吉亚运动员妮诺萨卢克瓦泽以总成绩487.4环的成绩获得铜牌,而预赛排在第3名的蒙古运动员卓格巴德拉赫蒙赫珠勒仅以479.6环的成绩名列第8名.由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥是否稳定呢?通过本章内容的学习就能很容易回答这样的问题。,哪名运动员的发挥更稳定?,.,3,第三章数据分布特征的描述,.,4,数据集中区,数据,一组数据向其中心值聚集或靠拢的倾向和程度;测度集中趋势就是寻找数据一般水平的代表值或中心值;不同类型的数据用不同的集中趋势测度值;低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据;选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定。,集中趋势(centraltendency),.,5,第一节集中趋势的测定,一、分类数据:众数二、顺序数据:中位数和分位数三、数值型数据:平均数四、众数、中位数和平均数的比较,.,6,一、分类数据:众数,1、众数的定义(mode),一组数据中出现次数最多的变量值,用表示主要用于分类数据,也可用于顺序数据和数值型数据;一般情况下,只有在数据量较大的情况下,众数才有意义;是一种位置平均数,.,7,【例1】计算饮料品牌的众数,【例2】计算某城市居民关注广告类型的众数,.,8,【例3】计算甲乙两城市对住房状况满意程度评价的众数,【例4】在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元)。要求计算人均月收入的众数。,750780108085010802000108016301250,.,9,无众数原始数据:10591268,一个众数原始数据:659855,多于一个众数原始数据:252828364242,2、众数的特点不惟一性,是一个位置代表值正态分布或一般的偏态分布中,一组数据最高峰点所对应的数值即为众数不受极端值的影响一组数据可能没有众数或有几个众数,.,10,数值型分组数据众数的确定,1、众数的值与相邻两组频数的分布有关,该公式假定众数组的频数在众数组内均匀分布,2、相邻两组的频数相等时,众数组的组中值即为众数,3、相邻两组的频数不相等时,众数采用下列近似公式计算,.,11,【例5】计算50名工人日加工零件数的众数。,【例6】计算某车间30名工人加工零件数的众数。,分布的形状越偏,众数值偏离众数组的组中值的程度越大,.,12,二、顺序数据:中位数和分位数,1、中位数的定义(median),(一)中位数,数据排序后处于中间位置上的变量值,适宜于开口组资料和某些不能用数字测定的事物;间断数列无中位数主要用于顺序数据,也可用数值型数据,但不能用于分类数据是一种位置平均数,各变量值与中位数的离差绝对值之和最小,即,.,13,位置确定,数值确定,2、中位数的求解,组距分组数据:,.,14,【例7】计算甲乙两城市对住房状况满意程度评价的中位数,2、中位数的求解,.,15,【例8】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,中位数1080,10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:12345678910,2、中位数的求解,.,16,1、根据位置公式确定中位数所在的组2、采用下列近似公式计算:,该公式假定中位数组的频数在该组内均匀分布。,组距分组数据:,下限公式(向上累积时用),式中:L表示中位数所在组的下限;中位数所在组的次数;中位数所在组以前各组的累积次数;d中位数所在组的组距;,上限公式(向下累积时用),2、中位数的求解,.,17,【例9】计算50名工人日加工零件数的中位数,.,18,不受极端值的影响,具有稳健性;,数据大量重复某一数值时,中位数未必准确,在解释是特别小心;,研究收入分配时很有用。,(一)中位数,【例】100户家庭,20户2口人,400户3口人,40户4口人,计算人口的中位数。,.,19,1、排序后处于25%和75%位置上的值,2、不受极端值的影响3、主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,四分位数(quartile),(二)分位数,.,20,方法2:较准确算法,方法1:定义算法,四分位数位置的确定方法:,(二)分位数,.,21,方法3:其中表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上方法4:Excel给出的四分位数位置的确定方法如果位置不是整数,则按比例分摊位置两侧数值的差值,(二)分位数,.,22,【例10】计算甲乙两城市对住房状况满意程度评价的四分位数,QL位置=(300)/4=75,QU位置=(3300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“满意”这一组别中,故四分位数为QL=“不满意”QU=“满意”,解:QL位置=(300)/4=75,QU位置=(3300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中,故四分位数为QL=“不满意”QU=“一般”,.,23,【例11】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,方法1,方法2,.,24,平均数(mean)也称为均值集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响不适用于分类数据和顺序数据根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x,三、数值型数据:平均数,.,25,设一组数据为:x1,x2,xn(总体数据xN),样本平均数,总体平均数,【例12】某售货小组5个人,某天的销售额分别为520元、600元、480元、750元、440元,求平均每人日销售额。,1、简单平均数未分组数据(Simplemean),.,26,设分组数据各组的组中值为:M1,M2,Mk相应的频数为:f1,f2,fk,2、加权平均数-分组数据(Weightedmean),.,27,【例13】计算电脑公司销售量的平均数,【例14】计算50名工人日加工零件数的平均数,.,28,权数对算数平均数的影响,加权算术平均数其数值的大小,不仅受各组变量值大小的影响,而且受各组变量值出现的频数即权数大小的影响。如果某一组的权数大,说明该组的数据较多,那么该组数据的大小对算术平均数的影响就越大,反之,则越小。,起到权衡轻重的作用,决定平均数的变动范围,.,29,均值的数学性质,1、各变量值与均值的离差之和等于零,2、各变量值与均值的离差平方和最小,.,30,3、几何平均数(geometricmean),n个变量值乘积的n次方根适用于计算比率的平均,通常主要用于计算现象的平均增长率当数据中出现0或负值时不宜计算几何平均数计算公式为,可看作是算数平均数的一种变形,.,31,【例16】一位投资者购持有一种股票,在2008、2009、2010和2011年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率。,最初投入10000元,2012年的本利总和应为,当所平均的各比率数值差别不大时,算数平均和几何平均的结果相差不大,如果各比率的数值相差较大时,二者的差别就很明显!,3、几何平均数(geometricmean),.,32,均值的另一种表现形式易受极端值的影响用于数值型数据,用这种形式时,变量的取值不能为0。计算公式为,4、调和平均数(Harmonicmean),.,33,【例15】设市场上某种蔬菜早、中、晚所购金额不同,求平均采购价格。,4、调和平均数(Harmonicmean),.,34,四、众数、中位数和平均数的比较,.,35,众数不受极端值影响具有不惟一性数据较多时有意义,且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响利用了全部数据信息,数学性质优良数据对称分布或接近对称分布时应用较好当要用样本信息对总体进行推断时,平均数就更显示出它的各种优良特性,众数、中位数、平均数的特点和应用场合,.,36,红色为该数据类型最适合用的测度值,数据类型与集中趋势测度值,.,37,离散程度(离中趋势),数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值,.,38,第二节离散程度的测定,一、分类数据:异众比率二、顺序数据:四分位间距三、数值型数据:方差和标准差四、相对离散程度:离散系数,.,39,例如,百得便利超市公司50家门店按区域划分的众数是A区域,该组的次数是20家,所以异众比率为60%,这说明50家门店按区域划分的离散程度比较大,众数的代表性较差。,一、分类数据,(variationratio),.,40,一、分类数据,【例】计算异众比率,众数的代表性不是很好!,.,41,概念计算公式特点,四分位差(内距,四分间距),上四分位数与下四分位数之差,避免了数列中极端值的影响,但去头弃尾,丢失大量的原始数据,反映了上下四分位数之间(即中间的50%数据)的离散程度或变动范围。四分位差越大,说明中间这部分数据越分散,而四分位差越小,则说明中间这部分数据越集中。四分位差在一定程度上可用于衡量中位数的代表程度。,二、顺序数据,(quartiledeviation),.,42,【例17】计算甲乙两城市对住房状况满意程度评价的四分位差,解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5已知QL=不满意=2QU=一般=3四分位差:QD=QU=QL=32=1,.,43,数值型未分组数据的四分位差(7个数据的算例),原始数据:23213032282526排序:21232526283032位置:1234567,.,44,三、数值型数据,.,45,三、数值型数据,(meandeviation),平均绝对离差,.,46,含义:每一天的销售量与平均数相比,平均相差17台。,.,47,三、数值型数据,(varianceandstandarddeviation),.,48,通俗点说,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来了,自由度少一个了。自由度的设定是出于这样一个理由:在总体平均数未知时,用样本平均数去计算离差(常用小s)会受到一个限制要计算标准差(小s)就必须先知道样本平均数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。至于有的自由度是n2什么的,都是同样道理。,自由度(degreeoffreedom),.,49,自由度(degreeoffreedom),1、自由度是指附加给独立的观测值的约束或限制的个数2、从字面涵义来看,自由度是指一组数据中可以自由取值的个数3、当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值4、按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k5、样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,它是2的无偏估计量。,.,50,原始数据:10591368,样本方差,样本标准差,三、数值型数据,.,51,含义:每一天的销售量与平均数相比,平均相差21.58台,.,52,相对位置的度量:标准分数(standardscore),三、数值型数据,.,53,标准化值或z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1。,相对位置的度量:标准分数(standardscore),.,54,经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内,在平均数加减3倍标准差的范围之外的数据,在统计上称为离群点。,切比雪夫不等式,对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内,相对位置的度量:标准分数(standardscore),.,55,【例】某班学生的平均成绩是80分,标准差是10分,如果已知该班学生的考试分数为对称分布,可以判断成绩在60-100分之间的学生大约占?70-90分之间的大约占多少?,【例】某班学生的平均成绩是80分,标准差是10分,如果已知该班学生的考试分数为非对称分布,可以判断成绩在60-100分之间的学生至少占多少?,【例】在某公司进行的计算机水平测试中,新员工的平均得分是80分,标准差是5分,假设新员工得分的分布是未知的,则得分在65-95分的新员工至少占?,相对位置的度量:标准分数(standardscore),.,56,四、相对离散程度:离散系数,(coefficientofvariation),.,57,可比,可比,身高的差异水平:cm,体重的差异水平:kg,.,58,【例】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小。,解:,因为,所以一班平均成绩的代表性比二班大。,四、相对离散程度:离散系数,离散系数是相对统计量,其作用主要是用于比较不同样本的离散程度。离散系数大,说明数据的离散程度也大!,.,59,*为该数据类型最适用的测度值,第二节离散程度的测定,.,60,第三节偏态与峰态的测定,一、偏态及其测度二、峰态及其测度,数据分布的形状是否对称、偏斜的程度以及分布的扁平程度。,.,61,偏态与峰态分布的形状,偏态,峰态,.,62,统计学家Pearson于1895年首
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水土保持工程项目保证体系及保证措施
- 公司战略合作协议与实施
- 校园里的那棵大树写景散文(4篇)
- 冬季施工水源保障措施
- 机场跑道维修应急处置预案与应急措施
- 农民专业合作社入社合作协议
- 城市便民服务站点建设合作协议
- 协同信息共享平台-洞察及研究
- 农业合作网络构建合同
- 2025年小学语文毕业升学考试模拟试卷:语文综合实践活动设计课程目标试题
- 《企业的可持续发展》课件
- 咨询服务承揽合同范本
- 施工期间交通导行方案
- 《酒店客户关系管理 》课件-项目三 酒店客户关系管理制度
- 八年级学生入学教育课件
- 河南中州水务笔试内容
- 《中长跑课件》课件
- 2025版高考化学一轮复习第九章有机化合物1甲烷乙烯苯煤石油天然气的综合利用强化训练1含解析新人教版
- 《数学(第8版 上册)》 课件 第1章 运算与方程
- 《预制装配式混凝土综合管廊工程技术规程》
- 幼小衔接-认识人体-课件
评论
0/150
提交评论