




已阅读5页,还剩70页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章 数据的概括性度量 四种基本分布特征 数据分布特征的测度 4 1集中趋势的度量 分类数据 众数顺序数据 中位数和分位数数值型数据 平均数众数 中位数和平均数的比较 集中趋势 centraltendency 一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据 但高层次数据的测度值并不适用于低层次的测量数据 众数 mode 一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据 也可用于顺序数据和数值型数据 众数 不惟一性 无众数原始数据 10591268 一个众数原始数据 659855 多于一个众数原始数据 252828364242 分类数据的众数 例题分析 解 这里的变量为 饮料品牌 这是个分类变量 不同类型的饮料就是变量值所调查的50人中 购买碳酸饮料的人数最多 为15人 占总被调查人数的30 因此众数为 可口可乐 这一品牌 即Mo 碳酸饮料 顺序数据的众数 例题分析 解 这里的数据为顺序数据 变量为 回答类别 甲城市中对住房表示不满意的户数最多 为108户 因此众数为 不满意 这一类别 即Mo 不满意 中位数 median 排序后处于中间位置上的值 不受极端值的影响主要用于顺序数据 也可用数值型数据 但不能用于分类数据各变量值与中位数的离差绝对值之和最小 即 中位数 位置和数值的确定 位置确定 数值确定 顺序数据的中位数 例题分析 解 中位数的位置为 300 1 2 150 5从累计频数看 中位数在 一般 这一组别中中位数为Me 一般 数值型数据的中位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 数值型数据的中位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 四分位数 quartile 排序后处于25 和75 位置上的值 不受极端值的影响计算公式 顺序数据的四分位数 例题分析 解 QL位置 300 4 75QU位置 3 300 4 225从累计频数看 QL在 不满意 这一组别中 QU在 一般 这一组别中四分位数为QL 不满意QU 一般 数值型数据的四分位数 9个数据的算例 例 9个家庭的人均月收入数据 4种方法计算 原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 平均数 mean 也称为均值集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响有简单平均数和加权平均数之分根据总体数据计算的 称为平均数 记为 根据样本数据计算的 称为样本平均数 记为 x 简单平均数 Simplemean 设一组数据为 x1 x2 xn 总体数据xN 样本平均数 总体平均数 加权平均数 Weightedmean 设各组的组中值为 M1 M2 Mk相应的频数为 f1 f2 fk 样本加权平均 总体加权平均 加权平均数 例题分析 几何平均数 geometricmean n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为 5 可看作是平均数的一种变形 几何平均数 例题分析 例 一位投资者购持有一种股票 在2000 2001 2002和2003年收益率分别为4 5 2 1 25 5 1 9 计算该投资者在这四年内的平均收益率 算术平均 几何平均 众数 中位数和平均数的比较 众数 中位数和平均数的关系 众数 中位数 平均数的特点和应用 众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用 思考题 某大学新聘一位数学教授 给15位研究生上课 期末考试成绩如下 Z 72 81 90 85 76 90 80 83 78 75 63 73 30 82 90 成绩上报后 学院主管教学的院长说 该教授出的考题太容易 因为得90分的就有3个 但系主任则认为该教授出的考题偏难 因为平均成绩只有76 5分 然而该教授认为他的考题是适宜的 因为从总体来看 80分有代表性的 因为多于80分或少于80分的人数相等 那么 究竟谁的话有道理呢 使用建议 应同时使用平均数 中位数和众数刻画数据的中心位置 因为这三个数可以从不同的角度表达数据的中心位置 还可以对数据得分布情况给出一个大致的描述 例如某企业职工收入的平均数为5700元 中位数为3000元 众数为2000元 说明企业收入2000元的人最多 半数职工的收入低于3000元 平均数5700元大于中位数3000元 说明有些职工工资特别高 4 2离散程度的度量 分类数据 异众比率顺序数据 四分位差数值型数据 方差和标准差相对离散程度 离散系数 离散趋势 数据分布的另一个重要特征反映各变量值远离其中心值的程度 离散程度 从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值 异众比率 variationratio 1 对分类数据离散程度的测度2 非众数组的频数占总频数的比例3 计算公式为 4 用于衡量众数的代表性 5 主要用于度量分类数据的离散程度 也适用于顺序数据集数值型数据 异众比率 例题分析 解 在所调查的50人当中 购买其他品牌饮料的人数占70 异众比率比较大 因此 用 碳酸饮料 代表消费者购买饮料品牌的状况 其代表性不是很好 四分位差 quartiledeviation 对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差Qd QU QL反映了中间50 数据的离散程度不受极端值的影响用于衡量中位数的代表性主要用于测度顺序数据的离散程度 对于数值数据也适用 不适用分类数据 四分位差 例题分析 解 设非常不满意为1 不满意为2 一般为3 满意为4 非常满意为5 已知QL 不满意 2QU 一般 3四分位差为Qd QU QL 3 2 1 数值型数据 方差和标准差 极差 range 一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布 R max xi min xi 计算公式为 平均差 meandeviation 各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差 实际中应用较少 计算公式为 未分组数据 组距分组数据 平均差 例题分析 平均差 例题分析 含义 每一天的销售量平均数相比 平均相差17台 方差和标准差 varianceandstandarddeviation 数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的 称为总体方差 标准差 记为 2 根据样本数据计算的 称为样本方差 标准差 记为s2 s 样本方差和标准差 samplevarianceandstandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 自由度 degreeoffreedom 自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差从字面涵义来看 自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时 若样本平均数确定后 则附加给n个观测值的约束个数就是1个 因此只有n 1个数据可以自由取值 其中必有一个数据不能自由取值按着这一逻辑 如果对n个观测值附加的约束个数为k个 自由度则为n k 自由度 degreeoffreedom 样本有3个数值 即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值 另一个则不能自由取值 比如x1 6 x2 7 那么x3则必然取2 而不能取其他值为什么样本方差的自由度为什么是n 1呢 因为在计算离差平方和时 必须先求出样本均值 x 而 x则是附件给离差平方和的一个约束 因此 计算离差平方和时只有n 1个独立的观测值 而不是n个样本方差用自由度去除 其原因可从多方面解释 从实际应用角度看 在抽样估计中 当用样本方差s2去估计总体方差 2时 它是 2的无偏估计量 样本标准差 例题分析 计算14只低风险共同基金年回报的方差和标准差 样本标准差 例题分析 样本标准差 例题分析 含义 每一天的销售量与平均数相比 平均相差21 58台 总体方差和标准差 PopulationvarianceandStandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 总体方差和标准差 PopulationvarianceandStandarddeviation 总体方差标准差的其它计算公式 相对位置的度量 标准分数 标准分数 standardscore 1 也称标准化值2 对某一个值在一组数据中相对位置的度量3 可用于判断一组数据是否有离群点 outlier 4 用于对变量的标准化处理5 计算公式为 标准分数 性质 z分数只是将原始数据进行了线性变换 它并没有改变一个数据在该组数据中的位置 也没有改变该组数分布的形状 而只是使该组数据均值为0 标准差为1 标准分数 例题分析 经验法则 经验法则表明 当一组数据对称分布时约有68 的数据在平均数加减1个标准差的范围之内约有95 的数据在平均数加减2个标准差的范围之内约有99 的数据在平均数加减3个标准差的范围之内 切比雪夫不等式 Chebyshev sinequality 如果一组数据不是对称分布 经验法则就不再适用 这时可使用切比雪夫不等式 它对任何分布形状的数据都适用切比雪夫不等式提供的是 下界 也就是 所占比例至少是多少 对于任意分布形态的数据 根据切比雪夫不等式 至少有1 1 k2的数据落在平均数加减k个标准差之内 其中k是大于1的任意值 但不一定是整数 切比雪夫不等式 Chebyshev sinequality 至少有75 的数据落在平均数加减2个标准差的范围之内至少有89 的数据落在平均数加减3个标准差的范围之内至少有94 的数据落在平均数加减4个标准差的范围之内 相对离散程度 离散系数 离散系数 coefficientofvariation 1 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4 用于对不同组别数据离散程度的比较5 计算公式为 离散系数 例题分析 例 两只股票A B 假设前五个星期的平均价格分别为A 57 68 64 71 62 B 12 17 8 15 13 试比较两个股票的风险大小 离散系数 例题分析 例 某管理局抽查了所属的8家企业 其产品销售数据如表 试比较产品销售额与销售利润的离散程度 离散系数 例题分析 结论 计算结果表明 v1 v2 说明产品销售额的离散程度小于销售利润的离散程度 4 3偏态与峰态的度量 4 3 1偏态及其测度4 3 2峰态及其测度 偏态 分布频数曲线 对称左偏 负偏 右偏 正偏 偏态 skewness 统计学家Pearson于1895年首次提出数据分布偏斜程度的测度3 偏态系数 0为对称分布4 偏态系数 0为右偏分布偏态系数 0为左偏分布偏态系数大于1或小于 1 被称为高度偏态分布 偏态系数在0 5 1或 1 0 5之间 被认为是中等偏态分布 偏态系数越接近0 偏斜程度就越低 偏态系数 coefficientofskewness 根据原始数据计算根据分组数据计算 偏态系数 例题分析 偏态系数 例题分析 结论 偏态系数为正值 但与0的差异不大 说明电脑销售量为轻微右偏分布 即销售量较少的天数占据多数 而销售量较多的天数则占少数 峰态 峰态 kurtosis 统计学家Pearson于1905年首次提出数据分布扁平程度的测度峰态系数 0扁平峰度适中峰态系数0为尖峰分布 峰态系数 coefficientofkurtosis 根据原始数据计算根据分组数据计算 峰态系数 例题分析 结论
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园音乐讲座活动方案策划
- 天津成套钢支撑施工方案
- 无人机驾驶员岗位操作技能考核试卷及答案
- 咨询公司的方案部
- 幕墙设计咨询方案模板
- 幼儿职业绘画活动方案策划
- 洋湖移动咨询方案
- 奶茶甜品店营销计划方案
- 草莓节事活动策划方案
- 拼多多线下活动方案策划
- 《禁骑电动自行车》班会课件
- 秋收活动方案
- 物流地产发展前景分析
- 三年个人成长路线图:高中数学名师工作室
- 子宫动脉栓塞护理查房
- 基于机器学习的异常检测与预警机制
- 大气道狭窄的护理查房
- 粮油品质检验与分析(第二版) 课件全套 第0-10章 绪论、粮食的理化特性与品质变化-粮油卫生检验
- ZZ002 植物嫁接赛项正式赛卷(有答案)完整版包括所有附件-2023年全国职业院校技能大赛赛项正式赛卷
- 软装报价单模板
- 水的饱和蒸汽压与温度对应表
评论
0/150
提交评论