




已阅读5页,还剩90页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一些人使用统计就像喝醉酒的人使用街灯柱 支撑的功能多于照明 AndrewLang 第4章数据的概括性度量 统计应用一种测量的平均数比单个的测量更可靠 即使用一种很准确 很可靠的仪器对同一物体进行重复测量 由于一些无法控制的因素的影响 每次得到的结果也不见得一样 美国 国家标准与技术协会 NIST NationalInstituteofStandardsandTechnology 的原子钟非常准确 它的准确程度是每600万年误差1秒 但也并不是百分之百准确世界标准时间是世界协调时间 UniversalCoordinatedTime 它是由位于法国的塞夫尔的国际计量局 BIPM 所 编辑 的 BIPM并没有比NIST更好的钟 它给出的时间是根据世界各地200个原子钟的平均时间得来的 统计应用一种测量的平均数比单个的测量更可靠 下面是NIST的时间与正确时间的10个误差数据 秒 长期来讲 对时间的度量并没有偏差 NIST的秒有时比BIPM的短 有时比BIPM的长 并不是都较短或较长 尽管NIST的测量很准确 但从上面的数字还是可以看出有些差异 世界上没有百分之百可靠的度量 但用多次测量的平均数比只用一次测量的结果可靠程度会更高 这就是BIPM要结合很多原子钟的时间的原因 第4章数据的概括性度量 4 1集中趋势的度量4 2离散程度的度量4 3偏态与峰态的度量 学习目标 1 集中趋势各测度值的计算方法2 集中趋势各测度值的特点及应用场合3 离散程度各测度值的计算方法4 离散程度各测度值的特点及应用场合偏态与峰态的测度方法用Excel计算描述统计量并进行分析 数据分布的特征 4 1集中趋势的度量 4 1 1分类数据 众数4 1 2顺序数据 中位数和分位数4 1 3数值型数据 平均数4 1 4众数 中位数和平均数的比较 集中趋势 centraltendency 一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据 但高层次数据的测度值并不适用于低层次的测量数据 分类数据 众数 众数 mode 一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据 也可用于顺序数据和数值型数据 众数 不惟一性 无众数原始数据 10591268 一个众数原始数据 659855 多于一个众数原始数据 252828364242 分类数据的众数 例题分析 解 这里的变量为 饮料品牌 这是个分类变量 不同类型的饮料就是变量值所调查的50人中 购买可口可乐的人数最多 为15人 占被调查总人数的30 因此众数为 可口可乐 这一品牌 即Mo 可口可乐 顺序数据的众数 例题分析 解 这里的数据为顺序数据 变量为 回答类别 甲城市中对住房表示不满意的户数最多 为108户 因此众数为 不满意 这一类别 即Mo 不满意 统计函数 MODE 顺序数据 中位数和分位数 中位数 median 排序后处于中间位置上的值 不受极端值的影响主要用于顺序数据 也可用数值型数据 但不能用于分类数据各变量值与中位数的离差绝对值之和最小 即 中位数 位置和数值的确定 位置确定 数值确定 顺序数据的中位数 例题分析 解 中位数的位置为 300 1 2 150 5从累计频数看 中位数在 一般 这一组别中中位数为Me 一般 数值型数据的中位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 数值型数据的中位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 统计函数 MEDIAN 四分位数 quartile 排序后处于25 和75 位置上的值 不受极端值的影响主要用于顺序数据 也可用于数值型数据 但不能用于分类数据 四分位数 位置的确定 方法2 较准确算法 方法1 定义算法 四分位数 位置的确定 方法3 其中 表示中位数的位置取整 这样计算出的四分位数的位置 要么是整数 要么在两个数之间0 5的位置上方法4 Excel给出的四分位数位置的确定方法如果位置不是整数 则按比例分摊位置两侧数值的差值 顺序数据的四分位数 例题分析 解 QL位置 300 4 75QU位置 3 300 4 225从累计频数看 QL在 不满意 这一组别中 QU在 一般 这一组别中四分位数为QL 不满意QU 一般 数值型数据的四分位数 9个数据的算例 例 9个家庭的人均月收入数据 4种方法计算 原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 方法1 数值型数据的四分位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 方法2 数值型数据的四分位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 方法3 数值型数据的四分位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 方法4 统计函数 QUARTILE 数值型数据 平均数 平均数 mean 也称为均值集中趋势的最常用测度值一组数据的均衡点所在4 体现了数据的必然性特征5 易受极端值的影响6 有简单平均数和加权平均数之分7 根据总体数据计算的 称为平均数 记为 根据样本数据计算的 称为样本平均数 记为 x 简单平均数 Simplemean 设一组数据为 x1 x2 xn 总体数据xN 样本平均数 总体平均数 加权平均数 Weightedmean 设各组的组中值为 M1 M2 Mk相应的频数为 f1 f2 fk 样本加权平均 总体加权平均 加权平均数 例题分析 加权平均数 权数对均值的影响 甲乙两组各有10名学生 他们的考试成绩及其分布数据如下甲组 考试成绩 x 020100人数分布 f 118乙组 考试成绩 x 020100人数分布 f 811 统计函数 AVERAGE 平均数 数学性质 1 各变量值与平均数的离差之和等于零 2 各变量值与平均数的离差平方和最小 中位数和平均数数学性质的验证 几何平均数 geometricmean n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为 5 可看作是平均数的一种变形 几何平均数 例题分析 例 某水泥生产企业1999年的水泥产量为100万吨 2000年与1999年相比增长率为9 2001年与2000年相比增长率为16 2002年与2001年相比增长率为20 求各年的年平均增长率 年平均增长率 114 91 1 14 91 几何平均数 例题分析 例 一位投资者购持有一种股票 在2000 2001 2002和2003年收益率分别为4 5 2 1 25 5 1 9 计算该投资者在这四年内的平均收益率 算术平均 几何平均 统计函数 GEOMEAN 众数 中位数和平均数的比较 众数 中位数和平均数的关系 众数 中位数 平均数的特点和应用 众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用 数据类型与集中趋势测度值 4 2离散程度的度量 4 2 1分类数据 异众比率4 2 2顺序数据 四分位差4 2 3数值型数据 方差和标准差4 2 4相对离散程度 离散系数 离中趋势 数据分布的另一个重要特征反映各变量值远离其中心值的程度 离散程度 从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值 分类数据 异众比率 异众比率 variationratio 1 对分类数据离散程度的测度2 非众数组的频数占总频数的比例3 计算公式为 4 用于衡量众数的代表性 异众比率 例题分析 解 在所调查的50人当中 购买其他品牌饮料的人数占70 异众比率比较大 因此 用 可口可乐 代表消费者购买饮料品牌的状况 其代表性不是很好 顺序数据 四分位差 四分位差 quartiledeviation 对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差Qd QU QL反映了中间50 数据的离散程度不受极端值的影响用于衡量中位数的代表性 四分位差 例题分析 解 设非常不满意为1 不满意为2 一般为3 满意为4 非常满意为5 已知QL 不满意 2QU 一般 3四分位差为Qd QU QL 3 2 1 数值型数据 方差和标准差 极差 range 一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布 R max xi min xi 计算公式为 平均差 meandeviation 各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差 实际中应用较少 计算公式为 未分组数据 组距分组数据 平均差 例题分析 平均差 例题分析 含义 每一天的销售量平均数相比 平均相差17台 统计函数 AVEDEV 方差和标准差 varianceandstandarddeviation 数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的 称为总体方差或标准差 记为 2 根据样本数据计算的 称为样本方差或标准差 记为s2 s 样本方差和标准差 simplevarianceandstandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 自由度 degreeoffreedom 自由度是指附加给独立的观测值的约束或限制的个数从字面涵义来看 自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时 若样本平均数确定后 则附加给n个观测值的约束个数就是1个 因此只有n 1个数据可以自由取值 其中必有一个数据不能自由取值按着这一逻辑 如果对n个观测值附加的约束个数为k个 自由度则为n k 自由度 degreeoffreedom 样本有3个数值 即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值 另一个则不能自由取值 比如x1 6 x2 7 那么x3则必然取2 而不能取其他值为什么样本方差的自由度是n 1呢 因为在计算离差平方和时 必须先求出样本均值 x 而 x则是附加给离差平方和的一个约束 因此 计算离差平方和时只有n 1个独立的观测值 而不是n个样本方差用自由度去除 其原因可从多方面解释 从实际应用角度看 在抽样估计中 当用样本方差s2去估计总体方差 2时 它是 2的无偏估计量 样本标准差 例题分析 样本标准差 例题分析 含义 每一天的销售量与平均数相比 平均相差21 58台 统计函数 STDEV 总体方差和标准差 PopulationvarianceandStandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 相对位置的度量 标准分数 标准分数 standardscore 1 也称标准化值2 对某一个值在一组数据中相对位置的度量3 可用于判断一组数据是否有离群点 outlier 4 用于对变量的标准化处理5 计算公式为 标准分数 性质 均值等于02 方差等于1 标准分数 性质 z分数只是将原始数据进行了线性变换 它并没有改变一个数据在改组数据中的位置 也没有改变该组数分布的形状 而只是将该组数据变为均值为0 标准差为1 标准分数 例题分析 经验法则 经验法则表明 当一组数据对称分布时约有68 的数据在平均数加减1个标准差的范围之内约有95 的数据在平均数加减2个标准差的范围之内约有99 的数据在平均数加减3个标准差的范围之内 切比雪夫不等式 Chebyshev sinequality 如果一组数据不是对称分布 经验法则就不再适用 这时可使用切比雪夫不等式 它对任何分布形状的数据都适用切比雪夫不等式提供的是 下界 也就是 所占比例至少是多少 对于任意分布形态的数据 根据切比雪夫不等式 至少有1 1 k2的数据落在k个标准差之内 其中k是大于1的任意值 但不一定是整数 切比雪夫不等式 Chebyshev sinequality 对于k 2 3 4 该不等式的含义是至少有75 的数据落在平均数加减2个标准差的范围之内至少有89 的数据落在平均数加减3个标准差的范围之内至少有94 的数据落在平均数加减4个标准差的范围之内 相对离散程度 离散系数 离散系数 coefficientofvariation 1 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4 用于对不同组别数据离散程度的比较5 计算公式为 离散系数 例题分析 例 某管理局抽查了所属的8家企业 其产品销售数据如表 试比较产品销售额与销售利润的离散程度 离散系数 例题分析 结论 计算结果表明 v1 v2 说明产品销售额的离散程度小于销售利润的离散程度 数据类型与离散程度测度值 4 3偏态与峰态的度量 4 3 1偏态及其测度4 3 2峰态及其测度 偏态与峰态分布的形状 偏态 峰态 偏态 偏态 skewness 统计学家Pearson于1895年首次提出数据分布偏斜程度的测度3 偏态系数 0为对称分布4 偏态系数 0为右偏分布5 偏态系数 0为左偏分布6 偏态系数大于1或小于 1 被称为高度偏态分布 偏态系数在0 5 1或 0 5 1之间 被认为是中等偏态分布 偏态系数越接近0 偏斜程度就越低 偏态系数 coefficientofskewness 根据原始数据计算根据分组数据计算 偏态系数 例题分析 偏态系数 例题分析 结论 偏态系数为正值 但与0的差异不大 说明电脑销售量为轻微右偏分布 即销售量较少的天数占据多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年教育培训师专业知识考核试题及答案解析
- 2025年建筑设计师资格考试试题及答案解析
- 2025年化妆师技能考核试题及答案解析
- 2025年会展设计面试模拟题及答案
- 2025年教育师中级面试模拟考试题
- 初中双谱教学课件
- 2025年老年活动中心面试技巧及答案集
- 2025年农机长助理笔试冲刺模拟题
- 2025年燃气储运初级面试bi备知识题
- 希沃白板课件教学
- 高职药学专业《药物化学》说课稿
- 幼教培训课件:《幼儿园如何有效组织幼儿户外自主游戏》
- 立足单元视角 提升核心素养
- 金属非金属露天矿山及尾矿库重大事故隐患判定标准解读
- 股权投资撤资通知书
- 应征公民政治考核表(含各种附表)
- T-CACM 1371.5-2021 中医药真实世界研究技术规范基于证据的中药有效性及安全性评价
- 跨文化沟通障碍原因分析及解决方法
- ±800kV等级及以上高压直流输电系统成套设计规程(修订)
- 2022版义务教育(道德与法治)课程标准(附课标解读)
- 店面业绩倍增内训课件
评论
0/150
提交评论