




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章数据的概括性度量,4.1集中趋势的度量4.2离散程度的度量4.3偏态与峰态的度量本章小结,学习目标,掌握度量不同类型数据集中趋势和离散程度的基本方法掌握数据的偏态与峰态的度量方法,4.1集中趋势的度量,一、众数二、中位数和分位数三、平均数四、众数、中位数和平均数的比较,众数,众数(mode),一组数据中出现次数最多的变量值,用Mo表示.不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据.是一种位置代表值,应用场合有限,一般在数据量较大的情况下有意义.,众数(不惟一性),无众数原始数据:10591268,一个众数原始数据:659855,多于一个众数原始数据:252828364242,中位数,中位数(median),数据排序后处于中间位置上的值,用Me表示.中位数位置的确定:n+1/2当n为奇数时,中位数值即处于n+1/2位置上的数值;当n为偶数时,中位数值即处于n+1/2和n+2/2位置上的数值的平均值,数值型数据的中位数(9个数据的算例),【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,中位数1080,数值型数据的中位数(10个数据的算例),【例】:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:12345678910,中位数的特性,1.中位数将数据分成两半,一半比中位数大,一半比中位数小.2.主要用于顺序数据,也可用数值型数据,但不能用于分类数据3.不受极端值的影响4.当数据大量重复时,中位数未必准确,四分位数,四分位数(quartile),数据排序后处于25%和75%位置上的值,不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,四分位数(位置的确定),数值型数据的四分位数(9个数据的算例),【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,平均数(均值),简单平均数(simplemean),数据的算术平均值可以进行数学运算,是集中趋势的最常用测度值3.易受极端值的影响4.用于数值型数据,不能用于分类数据和顺序数据,简单平均数计算方法,设一组数据为:x1,x2,xn,均值,加权平均数,1.根据分组数据计算的平均数称为加权平均数2.计算方法:设数据组中值为:x1,x2,xn相应的频数为:f1,f2,fk,加权平均数,加权平均数(例题分析),均值的数学性质,1.各变量值与均值的离差之和等于零,因此均值是一组数据的均衡点所在,2.各变量值与均值的离差平方和最小,几何平均数,几何平均数(geometricmean),n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为,5.可看作是均值的一种变形,众数、中位数和平均数的比较,众数、中位数和均值的关系,众数、中位数、均值的特点和应用,众数不受极端值影响具有不惟一性中位数不受极端值影响均值利用了全部数据信息易受极端值影响可进行代数计算,众数、中位数、均值的特点和应用,1.均值表示数据的一般水平;中位数表示数据的中等水平;众数表示数据的多数水平.2.选择特征数表示一组数据的集中趋势时,用得最多的是均值3.当数据中存在少数极端数据时,用均值代表数据的集中趋势不准确4.若一组数据中众数的频数比较大,并且与其他数据的频数相差较大时,一般选用众数代表数据的集中趋势,例题,有一群游客在某风景区游玩。已知他们年龄如下:(单位:岁)65、63、10、14、15、14、13、17、15、14。请写出这组数据的平均数、中位数和众数,并想一想,哪种特征数符合这组数据的大致特征?平均数:24中位数:14.5众数:14,4.2离散程度的度量,离散程度的度量:引例,某市体委从甲、乙两名运动员中选拔1人参加全运会,每人打靶5次,打中的环数如右表:你认为谁参加全运会比较合适?,离散程度的度量,一、异众比率二、四分位差三、极差四、平均差五、方差和标准差六、离散系数,异众比率(variationratio),1.是指非众数组的频数占总频数的比例,用Vr表示。2.计算公式见P963.异众比率越大,众数的代表性越差。4.主要适用于分类数据离散程度的测度,也可以用于顺序数据和数值型数据。,四分位差(quartiledeviation),也称内距或四分间距是上四分位数与下四分位数之差,用Qd表示.Qd=QUQL反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中。不受极端值的影响主要适用于顺序数据离散程度的测度,也可以用于数值型数据。,极差(range),一组数据的最大值与最小值之差,用R表示.离散程度的最简单测度值易受极端值影响未考虑数据的分布,R=max(xi)-min(xi),计算公式为,平均差(meandeviation),1.又称平均绝对离差,是各变量值与其平均数离差绝对值的平均数,用Md表示.2.计算公式:见P97-P983.反映了每个数据与平均数的平均差异程度,全面准确地反映了一组数据的离散程度.4.平均差越大,数据的离散程度越大.5.计算公式中用到绝对值,给计算带来不便,实际中较少应用.,方差和标准差(VarianceandStandarddeviation),1.方差是各变量值与其平均数离差平方的平均数,标准差是方差的正平方根。2.反映了各变量值与均值的平均差异,是最常用的离散程度测度值。3.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差。,总体方差和标准差的计算,未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差和标准差的计算,未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,自由度(degreeoffreedom),当以样本的统计量来估计总体的参数时,样本中可以自由取值的数据的个数,称为自由度在样本容量为n的样本中,当样本均值x确定后,只有n-1个数据可以自由取值,因此自由度为n-13.样本方差用自由度去除,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量。,标准分数,1.变量值与其平均数的离差除以标准差后的值称为标准分数.2.通过计算一组数据中各个数值的标准分数,可以测度每个数据在该组数据中的相对位置,并判断该组数据是否有离群数据.3.标准分数小于零,则变量值小于均值;标准分数的绝对值越大,则说明变量值与均值的差越大.4.标准分数具有均值为0,标准差为1的特性.,标准分数,5.数据的标准化处理只是将原数据进行了线性变换,既没有改变数据的相对位置,也没有改变数据的分布.6.对于对称分布的数据,标准分数绝对值大于3的为离群数据;对于非对称分布的数据,标准分数绝对值大于4的为离群数据.,离散系数(coefficientofvariation),1.标准差与其相应的均值之比,又称为变异系数.是对数据相对离散程度的测度,离散系数越大,说明数据的离散程度越大.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为,离散系数(例题分析),【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数(例题分析),结论:计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度,4.3偏态与峰态的度量,偏态及其测度峰态及其测度,偏态及其测度,偏态是对数据分布对称性的测度常用偏态系数对偏态进行测度,记为SKSK的计算公式见P105SK为正值,表明数据为右偏分布;SK为负值,表明数据为左偏分布;SK的绝对值越大,表明偏斜程度越大,SK为零则表明数据分布是对称的.5.若偏态系数的绝对值在0.5至1之间,称为中等偏态分布;若偏态系数的绝对值大于1,称为高度偏态分布.,峰态及其测度,1.峰态是对数据分布平峰或尖峰程度的测度。2.常用峰态系数对峰态进行测度,记为K.峰态通常是与标准正态分布相比较而言.峰度系数计算公式见P106K大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新质生产力标杆工厂
- 镰状细胞贫血的临床护理
- 认识螃蟹小班
- 篮球赛前培训
- 重症肌无力样综合征的临床护理
- 小学四年级家长会学生代表发言稿模版
- 《绩效管理原理与实践》课件
- 物流后勤工作总结模版
- 梭状芽孢杆菌伤口感染的临床护理
- 学校防灾减灾教育活动总结模版
- 滨海县陈涛镇污水处理厂(500m3-d)入河排污口设置论证报告
- 装修公司的章程范本
- 幼儿园反恐防暴课件
- DB31∕T 875-2015 人身损害受伤人员休息期、营养期、护理期评定准则
- 《工业用正丙醇》
- 水质监测与预警平台构建-洞察分析
- 水利工程建设重大、一般危险源清单、作业条件危险性评价法、风险空间分布图、事故隐患排查治理统计表、应急装备和物资台账
- 猴子的课件教学课件
- 小学人教版数学五年级下册《数学广角-找次品》数学教学设计
- 主数据管理规划设计方案
- 水利水电枢纽工程毕业设计
评论
0/150
提交评论