统计学第四章-数据的概括性度量.ppt_第1页
统计学第四章-数据的概括性度量.ppt_第2页
统计学第四章-数据的概括性度量.ppt_第3页
统计学第四章-数据的概括性度量.ppt_第4页
统计学第四章-数据的概括性度量.ppt_第5页
免费预览已结束,剩余98页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据的概括性度量 4 1集中趋势度量4 2离散程度的度量4 3偏态与峰态的度量 数据分布的特征 4 1集中趋势的度量 4 1 1 分类数据 众数4 1 2 顺序数据 中位数和分位数4 1 3 数值型数据 均值4 1 4 众数 中位数和均值的比较 Mode众数 MedianandQuartiles中位数和分位数 Mean平均数 Outline概要 4 1 1 分类数据 众数 Mode 1 集中趋势的测度值之一2 出现次数最多的变量值3 不受极端值的影响4 可能没有众数或有几个众数5 主要用于分类数据 也可用于顺序据和数值型数据 1 众数的概念 The odeisthevalueoftheobservationthatappearsmostfrequently 众数是观察值中出现得最多的变量值 用Mo表示 Inasetofmeasurements themodeclassistheclassthatoccurswithgreatestfrequency 在数据集中 众数组是出现频率最高的一组 Setofdatamayhaveonemode ormodalclass ortwoormoremodes ormodalclass 数据集可能有一个众数 组 或两 多 个众数 组 Mode众数 Themodalclass众数组 Forlargedatasetsthemodalclassismuchmorerelevantthantheasingle valuemode 对于大的数据集来说 众数组比单个众数更合适 TypesofMode众数的种类 Nomode无众数data 10591268Mode 一个众数data 659855Bimodal 双众数data 252828364242Multimodal 多众数data 3232323334343435363636 有时众数是一个合适的代表值 比如在服装行业中 生产商 批发商和零售商在做有关生产或存货的决策时 更感兴趣的是最普遍的尺寸而不是平均尺寸 2 分类数据的众数 算例 例 根据第三章表3 3中的数据 计算 饮料类型 的众数 解 这里的变量为 饮料品牌 这是个分类变量 不同类型的饮料就是变量值 我们看到 在所调查的50人当中 喝 碳酸饮料 的人数最多 为15人 占总被调查人数的30 因此众数为 碳酸饮料 这一品牌 即Mo 碳酸饮料 3 顺序数据的众数 算例 例 根据第三章例3 5表3 10中的数据 计算众数 解 这里的数据为顺序数据 变量为 回答类别 甲城市中对住房表示不满意的户数最多 为108户 因此众数为 不满意 这一类别 即Mo 不满意 4 数值型分组数据的众数 要点及计算公式 1 众数的值与相邻两组频数的分布有关 4 该公式假定众数组的频数在众数组内均匀分布 2 相邻两组的频数相等时 众数组的组中值即为众数 3 相邻两组的频数不相等时 众数采用下列近似公式计算 117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121 例4 1 某生产车间50名工人日加工零件数如下 单位 个 试采用单变量值对数据进行分组 数值型分组数据的众数 算例 数值型分组数据的众数 算例 例4 1 计算50名工人日加工零件数的众数 4 2 2 顺序数据 中位数和分位数MedianandProperties 1 中位数 概念要点 1 集中趋势的测度值之一2 排序后处于中间位置上的值 3 不受极端值的影响4 主要用于顺序数据 也可用数值型数据 但不能用于定类数据5 各变量值与中位数的离差绝对值之和最小 即 2 中位数位置的确定 未分组数据 组距分组数据 3 顺序数据的中位数 算例 例3 2 根据第三章表3 4中的数据 计算甲城市家庭对住房满意状况评价的中位数 解 中位数的位置为 300 2 150从累计频数看 中位数的在 一般 这一组别中 因此Me 一般 4 数值型未分组数据的中位数 计算公式 数值型未分组数据的中位数 5个数据的算例 原始数据 2422212620排序 2021222426位置 12345 中位数 22 数值型未分组数据的中位数 6个数据的算例 原始数据 10591268排序 56891012位置 123456 1 根据位置公式确定中位数所在的组2 采用下列近似公式计算 3 该公式假定中位数组的频数在该组内均匀分布 5 数值型分组数据的中位数 要点及计算公式 数值型分组数据的中位数 算例 例4 3 根据例4 1中的数据 计算50名工人日加工零件数的中位数 6 四分位数 Quartiles 1 集中趋势的测度值之一2 排序后处于25 和75 位置上的值 3 不受极端值的影响4 主要用于定序数据 也可用于数值型数据 但不能用于定类数据 四分位数 位置的确定 未分组数据 组距分组数据 顺序据的四分位数 算例 例4 4 根据第三章表3 10中的数据 计算甲城市家庭对住房满意状况评价的四分位数 解 下四分位数 QL 的位置为 QL位置 300 4 75上四分位数 QL 的位置为 QU位置 3 300 4 225从累计频数看 QL在 不满意 这一组别中 QU在 一般 这一组别中 因此QL 不满意QU 一般 数值型未分组数据的四分位数 7个数据的算例 原始数据 23213032282526排序 21232526283032位置 1234567 N 1 QL 23 QU 30 数值型未分组数据的四分位数 6个数据的算例 原始数据 232130282526排序 212325262830位置 123456 QL 21 0 75 23 21 22 5 QU 28 0 25 30 28 28 5 数值型分组数据的四分位数 计算公式 上四分位数 下四分位数 数值型分组数据的四分位数 计算示例 QL位置 50 4 12 5 QU位置 3 50 4 37 5 例4 6 根据例4 1中的数据 计算50名工人日加工零件数的四分位数 4 1 3 定距和定比数据 数值型数据 均值 Mean 一名统计学家遇到一位数学家 统计学家调侃数学家说道 你们不是说若 且 则 吗 那么想必你若是喜欢一个女孩 那么那个女孩喜欢的男孩你也会喜欢喽 数学家想了一下反问道 那么你把左手放到一锅一百度的开水中 右手放到一锅零度的冰水里想来也没事吧 因为它们平均的温度不过是五十度而已 统计学家与数学家 如果你的脚已经踩在炉子上 而头却在冰箱里 统计学家会告诉你 平均而言 你相当舒服 调侃统计学家 1 均值的概念与性质 1 集中趋势的测度值之一2 最常用的测度值3 一组数据的均衡点所在4 易受极端值的影响5 用于数值型数据 不能用于定类数据和定序数据 一 均值 算术平均数 2 均值计算公式 设一组数据为 x1 x2 xN简单均值的计算公式为 设分组后的数据为 M1 M2 MN相应的频数为 f1 f2 fK加权均值的计算公式为 简单均值SimpleMean 原始数据 10591368 加权均值 WeightedMean 例4 7 根据第三章表3 9中的数据 计算电脑销售量的平均数 表4 3某电脑公司销售量数据平均数计算表 加权均值 权数对均值的影响 甲乙两组各有10名学生 他们的考试成绩及其分布数据如下甲组 考试成绩 X 020100人数分布 F 118乙组 考试成绩 X 020100人数分布 F 811 权数与加权 权数与加权 权数与加权 权数与加权 算术平均数的计算取决于变量值和权数的共同作用 变量值决定平均数的范围 权数则决定平均数的位置 3 均值的数学性质 1 各变量值与均值的离差之和等于零 2 各变量值与均值的离差平方和最小 例 设X 2 4 6 8 则其调和平均数可由定义计算如下 再求算术平均数 求各标志值的倒数 再求倒数 是总体各单位标志值倒数的算术平均数的倒数 又叫倒数平均数 二 调和平均数harmean harmonicmean 例 某种蔬菜早上0 4元 斤 中午0 25元 斤 晚上0 20元 斤 某人各买1斤 求平均价格 算术平均法 例 类似地某人早 中 晚各买1元 求平均价格 1 简单调和平均数 各变量值均为一个单位时使用 式中 x代表各个变量值 n代表变量值项数 二 加权调和平均数 适用于总体资料经过分组整理形成变量数列的情况 式中 为第组的变量值 为第组的标志总量 解 例 晚上白菜0 3元 斤 菠菜0 5元 斤 芹菜0 6元 斤 小王买了2元白菜 3元菠菜 4元芹菜 问平均每斤菜的价格 算术平均数与调和平均数的适用前提 A 已知基本公式母项资料用算术平均数计算 子项资料未知 B 已知基本公式子项资料用调和平均数计算 母项资料未知 调和平均数是算术平均数的变形 原来只是计算时使用了不同的数据 三 几何平均数 GeometricMean 1 集中趋势的测度值之一2 N个变量值乘积的N次方根3 适用于特殊的数据4 主要用于计算平均发展速度5 计算公式为 6 可看作是均值的一种变形 几何平均数 例3 8 一位投资者持有一种股票 1996年 1997年 1998年和1999年收益率分别为4 5 2 0 3 5 5 4 计算该投资者在这四年内的平均收益率 平均收益率 103 84 1 3 84 4 1 4 众数 中位数和均值的比较 1 众数 中位数和均值的关系 2 众数 中位数 平均数的特点和应用 1 众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用 2 中位数不受极端值影响数据分布偏斜程度较大时应用 3 平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用 数据类型与集中水平测度值 4 2离散程度的度量 4 2 1 分类数据 异众比率4 2 2 顺序数据 四分位差4 2 3数值型数据 方差及标准差4 2 4相对离散程度 离散系数 4 2 1 分类数据 异众比率 异众比率 VariationRatio 1 离散程度的测度值之一2 非众数组的频数占总频数的比率3 计算公式为 4 用于衡量众数的代表性 fm众数组频数 异众比率 算例 例4 9 根据第三章表3 3中的数据 计算异众比率 二 顺序数据 四分位差QuartileDeviation 四分位差 1 离散程度的测度值之一2 也称为内距或四分间距3 上四分位数与下四分位数之差QD QU QL4 反映了中间50 数据的离散程度5 不受极端值的影响6 用于衡量中位数的代表性 四分位差 例4 10 根据第三章表3 10中的数据 计算甲城市家庭对住房满意状况评价的四分位差 解 设非常不满意为1 不满意为2 一般为3 满意为4 非常满意为5已知QL 不满意 2 QU 一般 3四分位差 QD QU QL 3 2 1 4 2 3 定距和定比数据 数值型 方差和标准差 1 极差 Range 1 一组数据的最大值与最小值之差2 离散程度的最简单测度值3 易受极端值影响4 未考虑数据的分布 未分组数据R max Xi min Xi 5 计算公式为 2 平均差 MeanDeviation 1 离散程度的测度值之一2 各变量值与其均值离差绝对值的平均数3 能全面反映一组数据的离散程度4 数学性质较差 实际中应用较少 5 计算公式为 未分组数据 组距分组数据 平均差 例4 11 根据第三章表3 13中的数据 计算电脑销售量的平均数 3 方差和标准差 Varianceandstandarddeviation 1 离散程度的测度值之一2 最常用的测度值3 反映了数据的分布4 反映了各变量值与均值的平均差异5 根据总体数据计算的 称为总体方差或标准差 根据样本数据计算的 称为样本方差或标准差 总体方差和标准差 计算公式 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 总体标准差 例3 14 根据第三章表3 13中的数据 计算电脑销售量的标准差 4 样本方差和标准差 计算公式 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 样本方差自由度 degreeoffreedom 1 一组数据中可以自由取值的数据的个数当样本数据的个数为n时 若样本均值 x确定后 只有n 1个数据可以自由取值 其中必有一个数据则不能自由取值2 例如 样本有3个数值 即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值 另一个则不能自由取值 比如x1 6 x2 7 那么x3则必然取2 而不能取其他值3 样本方差用自由度去除 其原因可从多方面来解释 从实际应用角度看 在抽样估计中 当用样本方差去估计总体方差 2时 它是 2的无偏估计量 样本方差 原始数据 10591368 样本标准差 样本标准差 原始数据 10591368 方差 简化计算公式 样本方差 总体方差 方差 各变量值对均值的方差小于对任意值的方差设X0为不等于 X的任意数 D2为对X0的方差 则 5 标准化值 1 也称标准分数2 给出某一个值在一组数据中的相对位置3 可用于判断一组数据是否有离群点4 用于对变量的标准化处理5 计算公式为 标准分数 例题分析 Indicatethatx1is0 695standarddeviationsgreaterthanthesamplemean 表示家庭人均收入与平均数相比高0 695个标准差 Indicatethatx2is1 042standarddeviationslessthanthesamplemean 表示家庭人均收入与平均数相比低1 042个标准差 Observationsintwodifferentdatasetswiththesamestandardscorecanbesaidtohavethesamerelativelocationintermsofbeingthesamenumberofstandarddeviationsfromthemean 两个不同的数据集若标准分数相同 则表明它们有相同的相对位置 标准分数没有改变一个数据在该组数据中的位置 也没有改变该组数据分布的形状 只是使该组数据的均值为0 标准差为1 Standardscore Theempiricalrulecanbeusedtodeterminethepercentageofdatavaluesthatmustbewithinaspecifiednumberofstandarddeviationofthemean 经验法则用于确定在特定的平均数与标准差的范围内数据所占的百分比 EmpiricalRule经验法则 经验法则用于确定在特定的平均数与标准差的范围内数据所占的百分比 如果一组数据对称分布时 约有68 的数据在平均数加减1个标准差的范围内 约有95 的数据在平均数加减2个标准差的范围内 约有99 的数据在平均数加减3个标准差的范围内 EmpiricalRule经验法则 Themeasurementsfallingoutof3arecalledtheOutlier 落在3个标准差以外的数据称为异常值 TheInterval用区间表示 m 3s m 2s m 1s m m 1s m 2s m 3s Outlier Outlier Chebyshev stheorem Foranysetofobservations theminimumproportionofthevaluesthatliewithinkstandarddeviationsofthemeanisatleast 对任意分布形态的数据 落在k个标准差之内的数据至少有 wherekisanyconstantgreaterthan1 K是大于1的常数 Chebyshev sTheorem切比雪夫定理 6 相对离散程度 离散系数CoefficientofVariation 离散系数 概念要点和计算公式 1 标准差与其相应的均值之比2 消除了数据水平高低和计量单位的影响3 测度了数据的相对离散程度4 用于对不同组别数据离散程度的比较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论