《数据的概括性度量》PPT课件.ppt_第1页
《数据的概括性度量》PPT课件.ppt_第2页
《数据的概括性度量》PPT课件.ppt_第3页
《数据的概括性度量》PPT课件.ppt_第4页
《数据的概括性度量》PPT课件.ppt_第5页
已阅读5页,还剩118页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

用统计量描述数据,第一节 水平的度量 第二节 差异的度量 第三节 分布形状的度量,学习目标,1.水平的度量各测度值的计算方法 2.水平的度量不同测度值的特点和应用场合 3.差异的度量各测度值的计算方法 4.差异的度量不同测度值的特点和应用场合 5.分布形状的度量方法 6.用Excel计算描述统计量并进行分析,数据分布的特征,数据分布的特征和测度,第一节 水平的度量,一. 分类数据:众数 二. 顺序数据:中位数和分位数 三. 数值型数据:均值 四. 众数、中位数和均值的比较,数据特征分布的和测度 (本节位置),水平的度量 集中趋势,一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据一般水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值,一、分类数据:众数 (Mode),众数,集中趋势的测度值之一 出现次数最多的变量值 不受极端值的影响 可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据,Types of Mode 众数的种类,No mode无众数 data: 10 5 9 12 6 8 Mode:一个众数 data: 6 5 9 8 5 5 Bimodal:双众数 data: 25 28 28 36 42 42 Multimodal:多众数 data:32 32 32 33 34 34 34 35 36 36 36,The modal class 众数组,For large data sets the modal class is much more relevant than the a single-value mode. 对于大的数据集来说,众数组比单个众数更合适。,有时众数是一个合适的代表值,比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。,分类数据的众数,【例】计算众数,解:这里的变量为“饮料类型”,这是个分类变量,不同类型的饮料就是变量值。我们看到,在所调查的50人当中,喝“碳酸饮料”的人数最多,为15人,占总被调查人数的30%,因此众数为“碳酸饮料”这一品牌,即 Mo碳酸饮料,顺序数据的众数,【例】计算众数,解:这里的数据为顺序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,数值型分组数据的众数,1. 众数的值与相邻两组频数的分布有关,4. 该公式假定众数组的频数在众数组内均匀分布,2. 相邻两组的频数相等时,众数组的组中值即为众数,3. 相邻两组的频数不相等时,众数采用下列近似公式计算,117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121,【例】某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。,数值型分组数据的众数,数值型分组数据的众数,【例】计算50名工人日加工零件数的众数,二、顺序数据:中位数和分位数,中位数 median,集中趋势的测度值之一 排序后处于中间位置上的值,不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于定类数据 各变量值与中位数的离差绝对值之和最小,即,中位数 (位置的确定),未分组数据:,组距分组数据:,未分组数据的中位数 (计算公式),顺序数据的中位数,【例】计算甲城市家庭对住房满意状况评价的中位数,解:中位数的位置为: 300/2150 从累计频数看,中位数的在“一般”这一组别中。因此 Me一般,数值型未分组数据的中位数 (5个数据的算例),原始数据: 24 22 21 26 20 排 序: 20 21 22 24 26 位 置: 1 2 3 4 5,中位数 22,数值型未分组数据的中位数 (6个数据的算例),原始数据: 10 5 9 12 6 8 排 序: 5 6 8 9 10 12 位 置: 1 2 3 4 5 6,根据位置公式确定中位数所在的组 采用下列近似公式计算:,3. 该公式假定中位数组的频数在该组内均匀分布,数值型分组数据的中位数,数值型分组数据的中位数,【例】计算50 名工人日加工零件数的中位数,四分位数 (Quartiles ),1. 集中趋势的测度值之一 2. 排序后处于25%和75%位置上的值,3. 不受极端值的影响 4. 主要用于定序数据,也可用于数值型数据,但不能用于定类数据,四分位数 (位置的确定),未分组数据:,组距分组数据:,顺序数据的四分位数,【例】计算甲城市家庭对住房满意状况评价的四分位数,解:下四分位数(QL)的位置为: QL位置(300)/475 上四分位数(QL)的位置为: QU位置(3300)/4225 从累计频数看, QL在“不满意”这一组别中; QU在“一般”这一组别中。因此 QL 不满意 QU 一般,数值型未分组数据的四分位数 (7个数据的算例),原始数据: 23 21 30 32 28 25 26 排 序: 21 23 25 26 28 30 32 位 置: 1 2 3 4 5 6 7,N+1,QL= 23,QU = 30,数值型未分组数据的四分位数 (6个数据的算例),原始数据: 23 21 30 28 25 26 排 序: 21 23 25 26 28 30 位 置: 1 2 3 4 5 6,QL= 21+0.75(23-21) = 22. 5,QU = 28+0.25(30-28) = 28.5,数值型分组数据的四分位数 (计算公式),下四分位数:,数值型分组数据的四分位数,QL位置50/412.5,QU位置350/437.5,【例】计算50 名工人日加工零件数的四分位数,一名统计学家遇到一位数学家,统计学家调侃数学家说道:“你们不是说若且,则吗!那么想必你若是喜欢一个女孩,那么那个女孩喜欢的男孩你也会喜欢喽!?” 数学家想了一下反问道:“那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均的温度不过是五十度而已!”,统计学家与数学家,如果你的脚已经踩在炉子上,而头却在冰箱里,统计学家会告诉你,平均而言,你相当舒服。,调侃统计学家,三、定距和定比数据 (数值型数据):均值(Mean),均值,1. 集中趋势的测度值之一 2. 最常用的测度值 3. 一组数据的均衡点所在 4. 易受极端值的影响 5. 用于数值型数据,不能用于定类数据和定序数据,均值 (计算公式),设一组数据为:x1 ,x2 , ,xN 简单均值的计算公式为,设分组后的数据为:M1 ,M2 , ,MN 相应的频数为: f1 , f2, ,fN 加权均值的计算公式为,简单均值 Simple Mean,原始数据: 10 5 9 13 6 8,加权均值( Weighted Mean),【例】计算电脑销售额的平均数 见Excel,权数与加权,权数与加权,权数与加权,权数与加权,权数与加权,算术平均数的计算取决于变量值和权数的共同作用: 变量值决定平均数的范围; 权数则决定平均数的位置,均值 (数学性质),1. 各变量值与均值的离差之和等于零,2. 各变量值与均值的离差平方和最小,离差的概念,-1,-1,-2,1,3,调和平均数 (Harmonic Mean),1. 集中趋势的测度值之一 2. 均值的另一种表现形式 3. 易受极端值的影响 4. 不能用于定类数据和定序数据,原来只是计算时使用了不同的数据!,例:小王早上买了3元钱的菜,1元的白菜, 1元的芹菜、1元的菠菜,其中白菜0.5元/斤, 菠菜0.8元/斤,芹菜0.9元/斤,问平均每斤 的价格?,解:,解:,例:晚上白菜0.3元/斤,菠菜0.5元/斤,芹 菜0.6元/斤,小王买了2元白菜,3元菠菜, 4元芹菜,问平均每斤菜的价格?,【例】 设X=(2,4,6,8),则计算其调和平均数,是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数,调和平均数,A. 简单调和平均数,适用于总体资料未经分组整理、尚为原始资料的情况,调和平均数的计算方法,B. 加权调和平均数,适用于总体资料经过分组整理形成变量数列的情况,调和平均数的计算方法,当己知各组变量值和标志总量时,作为算术平均数的变形使用。,调和平均数的应用,若只知 x 和xf ,而f 未知,则不能使用加权算术平均方式,只能使用其变形即加权调和平均方式。,苹果 单价 购买量 总金额 品种 (元)(公斤) (元) 红富士 2 3 6 青香蕉 1.8 5 9,计算该企业该日全部工人的平均日产量。,调和平均数的应用,几何平均数 (Geometric Mean),1. 集中趋势的测度值之一 2. N 个变量值乘积的 N 次方根 3. 适用于特殊的数据 4. 主要用于计算平均发展速度 5. 计算公式为,6. 可看作是均值的一种变形,几何平均数,【例】一位投资者持有一种股票,2005年、2006年、2007年和2008年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。,平均收益率103.84%-1=3.84%,【例】某金融机构以复利计息。近12年来的年利率有4年为3,2年为5,2年为8,3年为10,1年为15。求平均年利率。,数值平均数均源于一个通式,四、众数、中位数和均值的比较,众数、中位数和均值的关系,众数、中位数、平均数的特点和应用,众数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 平均数 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用,数据类型与集中趋势测度值,第二节 差异的度量,一. 分类数据:异众比率 二. 顺序数据:四分位差 三. 数值型数据:方差及标准差 四. 相对离散程度:离散系数,差异的度量(离散程度)(离中趋势),数据分布的另一个重要特征 离中趋势的各测度值是对数据离散程度所作的描述 反映各变量值远离其中心值的程度,因此也称为离中趋势 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值,数据的特征和测度 (本节位置),一、分类数据:异众比率,异众比率 (Variation Ratio),1. 离散程度的测度值之一 2. 非众数组的频数占总频数的比率 3. 计算公式为,4. 用于衡量众数的代表性,fm众数组频数,异众比率 (算例),【例】见Excel(分类数据的众数) 计算异众比率,二、顺序数据:四分位差 Quartile Deviation,四分位差,1.离散程度的测度值之一 2.也称为内距或四分间距 3.上四分位数与下四分位数之差 QD = QU - QL 4.反映了中间50%数据的离散程度 5.不受极端值的影响 6.用于衡量中位数的代表性,四分位差,【例】计算甲城市家庭对住房满意状况评价的四分位差,解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 已知 QL = 不满意 = 2, QU = 一般 = 3 四分位差: QD = QU = QL = 3 2 = 1,三、 定距和定比数据(数值型): 方差和标准差,极差 (Range),1. 一组数据的最大值与最小值之差 2. 离散程度的最简单测度值 3. 易受极端值影响 4. 未考虑数据的分布,未分组数据 R = max(Xi) - min(Xi),5. 计算公式为,平均差 (Mean Deviation),1. 离散程度的测度值之一 2. 各变量值与其均值离差绝对值的平均数 3. 能全面反映一组数据的离散程度 4. 数学性质较差,实际中应用较少,5. 计算公式为,未分组数据,组距分组数据,平均差,【例】计算电脑销售量的平均数,方差和标准差 (Variance and standard deviation),1. 离散程度的测度值之一 2. 最常用的测度值 3. 反映了数据的分布 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,总体方差和标准差 (计算公式),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,总体标准差,【例】计算电脑销售量的标准差,样本方差和标准差 (计算公式),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差 自由度(degree of freedom),一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,样本方差,原始数据: 10 5 9 13 6 8,样本标准差,样本标准差,原始数据: 10 5 9 13 6 8,方差 (简化计算公式),样本方差,总体方差,方差,各变量值对均值的方差小于对任意值的方差 设X0为不等于X 的任意数,D2为对X0的方差,则,标准化值,1. 也称标准分数 2. 给出某一个值在一组数据中的相对位置 3. 可用于判断一组数据是否有离群点 4. 用于对变量的标准化处理 5. 计算公式为,标准分数 (例题分析),Indicate that x1 is 0.695 standard deviations greater than the sample mean. 表示家庭人均收入与平均数相比高0.695个标准差。,Indicate that x2 is 1.042 standard deviations less than the sample mean. 表示家庭人均收入与平均数相比低1.042个标准差。,Observations in two different data sets with the same standard score can be said to have the same relative location in terms of being the same number of standard deviations from the mean. 两个不同的数据集若标准分数相同,则表明它们有相同的相对位置。,标准分数没有改变一个数据在该组数据中的 位置,也没有改变该组数据分布的形状,只 是使该组数据的均值为0,标准差为1。,Standard score,The empirical rule can be used to determine the percentage of data values that must be within a specified number of standard deviation of the mean. 经验法则用于确定在特定的平均数与标准差的范围内数据所占的百分比。,Empirical Rule经验法则,经验法则用于确定在特定的平均数与标准差的范围内数据所占的百分比。 如果一组数据对称分布时, 约有68%的数据在平均数加减1个标准差的范围内。 约有95%的数据在平均数加减1个标准差的范围内。 约有99%的数据在平均数加减1个标准差的范围内。,Empirical Rule经验法则,The measurements falling out of 3 are called the Outlier. 落在3个标准差以外的数据称为异常值。,The Interval 用区间表示,m-3s,m-2s,m-1s,m,m+1s,m+2s,m+3s,Outlier,Outlier,Chebyshevs theorem: For any set of observations, the minimum proportion of the values that lie within k standard deviations of the mean is at least: 对任意分布形态的数据,落在k个标准差之内的数据至少有: where k is any constant greater than 1. K是大于1的常数。,Chebyshevs Theorem 切比雪夫定理,相对离散程度:离散系数 Coefficient of Variation,离散系数 (概念要点和计算公式),1. 标准差与其相应的均值之比 2. 消除了数据水平高低和计量单位的影响 3. 测度了数据的相对离散程度 4. 用于对不同组别数据离散程度的比较 5. 计算公式为,离散系数 (实例和计算过程),【例4.14】某管理局抽查了所属的8家企业,其产品销售数据如表4.7。试比较产品销售额与销售利润的离散程度,离散系数 (计算结果),结论: 计算结果表明,V1V2,说明产品销售额的离散程度小于销售利润的离散程度,数据类型与离散程度测度值,第三节 分布形状的度量,一. 偏态及其测度 二. 峰度及其测度,数据的特征和测度 (本节位置),偏 态,偏态与峰度分布的形状,偏态,峰度,偏态 (Skewness),1. 数据分布偏斜程度的测度 2. 偏态系数=0为对称分布 3. 偏态系数 0为右偏分布 4. 偏态系数 0为左偏分布 5. 计算公式为,偏态 (实例),【例4.17】已知1997年我国农村居民家庭按纯收入分组的有关数据如表4.9。试计算偏态系数,农村居民家庭村收入数据的直方图,偏态与峰度 (从直方图上观察),按纯收入分组(元),结论:1. 为右偏分布 2. 峰度适中,偏态系数 (计算过程),偏态系数 (计算结果),根据上表数据计算得,将计算结果代入公式得,结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大,峰 度,峰度 (概念要点),1. 数据分布扁平程度的测度 2. 峰度系数=3扁平程度适中 3. 偏态系数3为尖峰分布 5. 计算公式为,峰度系数系数 (实例计算结果),代入公式得,【例4.18】根据表4-10中的计算结果,计算农村居民家庭纯收入分布的峰度系数,结论:由于=3.43,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重,由Excel输出的描述统计量,本章小节,1. 集中趋势各测度值的含义、计算方法、特点和应用场合 2. 离散程度各测度值的含义、计算方法、特点和应用场合 偏态及峰度的测度方法 用Excel计算描述统计量,结 束,Case 1:“Old F

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论