




已阅读5页,还剩60页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本资料来源 Session2THEME DescriptiveStatistics 一 数据的整理与显示 2 1数据的预处理 数据的审核与筛选 数据的排序 原始数据的审核 完整性 准确性二手数据的审核 适用性和及时性 2 2品质数据的整理与显示 一 数据的整理与显示 定类数据的整理与显示频数与频数分布 1 频数 也称次数 是落在各类别中的数据个数 频数分布 用数据概括表的形式来列示若干个互不重叠分组中每组数据出现的次数 2 2品质数据的整理与显示 例 由购买50台计算机的样本数据得到的频数分布表 2 2品质数据的整理与显示 2 比例 Proportion 总体中各个部分的数量占总体数量的比重 通常用于反映总体的构成或结构 又可以称为相对频数 N1N2N3N4 Nk 比例 Ni N 比例的性质含义 2 2品质数据的整理与显示 3 百分比频数 Precentage 将比例乘以100 用 表示 4 比率 Ratio 各不同类别的数量的比值 比例与比率的区别 2 2品质数据的整理与显示 2 2品质数据的整理与显示 定类数据的图示 1 条形图 Barchart 柱形图 2 2品质数据的整理与显示 2 圆饼图 Piechart 2 2品质数据的整理与显示 定类数据整理与显示知识点 条形图和圆饼图是描述频数或百分比分布已经经过汇总的定类数据的图形方法 组别同数据种类关系一致频数总和与数据集中项目总数相同 相对频数总和为1 00 百分比频数总和为100 条形图 柱形图的长度或高度代表频数 其宽度都相同 2 2品质数据的整理与显示 2 定序数据的整理与显示 累积频数和累积频率1 累积频数 Cumulativefrequencies 就是将各类别的频数逐级累加 向上累加 从类别顺序开始的一方向最后一方累加频数 向下累加 从类别顺序的最后一方向开始一方累加频数 2 2品质数据的整理与显示 甲城市家庭对住房状况的评价 2 2品质数据的整理与显示 2 累积频率或百分比 Cumulativepercentages 就是将各类别的百分比逐级累加起来 分向上和向下累积两种方法 定序数据的图示1 累积频数分布图 2 环形图 2 3数量数据的整理与显示 1 数据的分组 将数据按某种标准化分成不同的组 再进行频数统计 形成频数分布表 单变量值分组 把每一个变量值作为一组 例 某企业10名工人日加工零件数 个 如下 117122107117130115122114118122 排序 107114115117117118122122122130 一 频数分布 2 3数量数据的整理与显示 将上述数据采用单变量分组如下表 零件数 个 频数 人 零件数 个 频数 人 1071114111511172 118112231301 只适用于离散变量且变量值较少的情况 2 3数量数据的整理与显示 组距分组 将全部变量值依次划分若干区间 并将这一区间的变量值作为一组 步骤如下 1 确定互不重叠分组的个数 2 确定每组的组距3 确定组限 建议分组数目 5 20个 2 3数量数据的整理与显示 例 年终审计时间用时 天 14191815151817202722232221332814181613 第一步 确定组数根据数据集大小确定 Sturgesdes的经验公式本例中N 20 可以取组数为5 2 3数量数据的整理与显示 第二步 组距的确定 组距 Classwidth 是一个组上限与下限的差 近似组距 数据最大值 数据最小值 组数 组限 下限 确定分配给该组可能的最小数据值 上限 确定分配给该组可能的最大数据值 2 3数量数据的整理与显示 在本例中 每组的组距近似为 33 12 5 4 2 采用5作为组宽 因此 分组为 10 14 15 19 20 24 25 29 30 34 2 3数量数据的整理与显示 分组中的其他问题 分组的不重不漏原则上组限不在内开口组等距分组和不等距分组频数密度 频数 组距组中值 下限值 上限值 2 均匀分布 2 3数量数据的整理与显示 审计时间数据频数分布 审计时间 天 频数10 14415 19820 24525 29229 341合计20 2 3数量数据的整理与显示 二 相对频数分布和百分比频数分布 每组相对频数 每组的频数 nn是数据的个数 每组的百分比频数 相对频数 100 审计时间 天 相对频数百分比频数10 140 202015 190 404020 240 252525 290 101030 340 055合计1 00100 2 3数量数据的整理与显示 点图直方图 注意区分直方图与条形图的区别 折线图累积分布 2 3数量数据的整理与显示 0 5 10 15 20 25 30 点图 横轴表示数据的值域 数据值打点表示 2 3数量数据的整理与显示 010203040 0 5 0 4 0 3 0 2 0 1 注意 区分条形图与直方图 2 3数量数据的整理与显示 累积频数分布表格显示小于或等于每组上限的数值次数 2 4探索性数据的整理与显示 探索性数据分析技术由简单运算和容易绘制的图形组成 常用技术 茎叶图 例 67891011 89 233566 01123456 12224556 002466 1 2 4探索性数据的整理与显示 交叉 分组 列表 一种同时概括两个变量数据的表格方法 将两个或两个以上具有有限类目数和确定值的变量按一定顺序对应排列在一张表中 分析手段 常常应用行 列的边际分布 2 5交叉分组列表和散点图 300家饭店质量等级和餐价交叉列表分组表 2 5交叉分组列表和散点图 交叉分组列表的优点 提供了变量之间的关系广泛用于调查两个变量之间的问题交叉列表是统计调查报告最常见的形式之一 2 5交叉分组列表和散点图 散点图 12502557314143545454613875638348 商店广告次数与销售额资料广告次数销售额 2 5交叉分组列表和散点图 散点图的类型 练习 PMP考试要求在4小时内回答200个问题 现在将其中20人正确的答题数列在下表 绘制茎叶图并评估结果 P61 36 P62 38 41 123100688010012389901001321161171201158796102 Session2THEME DescriptiveStatistics 一 数据的数值描述方法 主要内容 集中趋势的测度离中趋势的测度探索性数据分析双变量相关关系测度 分布集中趋势的测度值反映的是数据一般水平的代表值 或者是数据分布的中心值 从不同的角度考虑 集中趋势的测度值有多个 主要有 众数 mode 中位数 median 分位数 Quartile 均值 mean 集中趋势的测度 集中趋势的测度 众数 M0 出现频率最高的一个数据值例 当前手机市场分额 诺基亚摩托罗拉三星TCL波导 20 235 716 810 49 6 单项式变量数列 找出出现次数最多的标志值就是众数 组距式变量数列 首先确定众数组 一般最大频数对应组就是众数组 其次求具体的众数值 通常用下面的近似公式计算 3 1 式中 表示众数 L表示众数所在组的下组限 表示众数组与前一组次数之差 表示众数组次数与后 一组次数之差 i表示众数组的组距 众数是一种位置代表值 例如 在农贸市场上某种商品的价格常以众数值为代表 鞋子 帽子等物品的尺码 集中趋势的测度 中位数 一组数据从小到大排序后 处于中间位置上的数据值 用Me表示 如果数据是奇数 中位数处于正中心的一项数据值 如果数据是偶数 中位数是正中心两项的平均值 计算公式 特点 应用场合 数据是已分组的资料 此时原始数值已被隐去 不能直接对其排队求其准确的中位数数值 可用以下的近似公式计算 3 2 式中 表示中位数所在位置 L表示中位数所在组的 下组限 表示中位数所在组以前各组的累积次数 表示中位数所在组的次数 i表示中位数所在组的组距 中位数有这样一个性质 就是数据值与中位数之差的绝对值最小 即 表明数据值与中位数的 距离最短 在工程设计中有应用价值 分位数 中位数是将统计分布从中间分成相等的两部分 与中位数性质相似的还有四分位数 quartiles 十分位数 decile 和百分位数 percentile 显然 四分位数就是将数据分布四等分的三个数值 其中中间的四分位数就是中位数 十分位数和百分位数分别是将数据分布是等分和一百等分的数值 以分位值作集中趋势分析 在西方统计学中讨论和运用较多 在中国较少用到 均值 mean 主要指算术平均数 是数据集中趋势的最主要测度值 任何统计推断和分析都离不开均值 从统计思想看 它反映了一组数据的中心点或代表值 是数据误差互相抵消后 客观事物必然性数量特征的一种反映 从数学公式看 均值有一些非常重要的性质 1数据观察值与均值的离差之和为零 即 2数据观察值与均值的离差平方和最小 3均值是统计分布的均衡点 不论统计分布是对称分布还是偏态分布 只有在均值点上才能支撑这一分布 使其保持平衡 这一均衡点在物理上称为重心 算术平均数 它是最常用的集中趋势描述指标 其原因有二 一是因为它的计算方法 与许多客观现象中的个别现象与总体现象之间存在的数量关系相符合 二是算术平均值作为一种变量值的集中值 不仅考虑到变量值的次数 而且考虑到变量值的大小 变量数列中任何次数和变量值大小的变化都会引起算术平均值的改变 因此它是一个最灵敏的指标 也是对资料所提供信息运用最充分的指标 算术平均数的计算通式 由于所掌握资料条件不同 算术平均值有两种具体计算形式 简单算术平均值和加权算术平均值 简单算术平均数 将被研究标志的各个数值相加 除以具有这个标志的单位数所得之商 就可求出简单算术平均数 即 简单算术平均值的特点是每一变量值出现的次数都等于1 加权算术平均数当变量数列各组次数不等时 计算算术平均值要用加权平均法 这里 权 是指各组的次数或各组次数占总次数的比重 计算公式 x 标志的个别数值n 个别数值的项数 f 各组次数各组次数占总次数比重 实例 单项数列 有三个乡镇企业的工人数及每一企业的月平均工资资料 如何计算所有这些企业共同的月平均工资 表 1999年某地区三个乡镇企业工人工资企业名称工人数 人 月平均工资 元 人 工资总额 元 甲 fxxf甲1500620310000甲2600625375000甲3900635571500合计2000628 71256500所有这三个企业的平均工资为 将计算出来的平均工资乘上工人实际人数 即可得到所有工人的全部实际工资总额 628 7元 人 2000人 1257400元 实例 组距数列 表 某企业1999年工人按工资额分配情况月工资 元 各组平均工资 元 人 工人数 人 工资总额甲xfxf 元 600以下5504022000600 70065010065000700 800750200150000800 900850400340000900 10009504504275001000 120011002502750001200以计元 人 调和平均数 当算术平均数计算公式中的分母项 总体单位数 未知时 算术平均值无法直接算得 这时要用调和平均法计算 但当各变量值对平均数所起的作用不同时 计算式为 若设xf M则 调和平均数 各组变量值 各组变量值重复出现的次数 此计算式从形式上看 是以各变量值的倒数来计算的 故也称倒数平均数 例如有某采购站收购某种药材的资料 见表等级单价 元 斤 收购额 元 收购量 斤 符号xxf一级1 22420二极1 03030三级0 7710合计 6160 已知资料 计算栏 元 斤 简单调和平均数 在所有权数相同或等于1时 按简单调和平均数计算 如将前式中的M 相同的权数 移到的前面 并将分数式化简 可得如下公式 n 个别标志值项数 假设前表中 每种药材等级的收购额均为24元的话 这时求该药材平均价格的计算公式 就可采用简单调和平均法 即 元 斤 几何平均数 GeometricMean 这是与算术平均数不同的另一种平均数 在计算社会经济问题的平均发展速度等方面有很重要的应用 简单几何平均数 如果掌握的资料未分组 应采用简单几何平均法 其计算公式 各项变量值 为各期发展速度或各个比率n变量值的次数 通常利用对数方法简化计算 将上式两边取对数即 实际资料 我国1979 1993年各年的社会总产值为 单位 亿元1979年1980年1981年1982年1983年764285319071996311052求出这几年间社会总产值的平均发展速度 先分别计算1980 1983年各年的发展速度 即1980年1981年1982年1983年111 63 106 33 109 83 110 93 代入公式 即由1979 1983年是社会总产值以平均每年109 86 的速度发展 加权几何平均法 如果掌握的资料已经分组 每个变量值出现的次数 或比重 不相同时 应采用加权几何法 其计算公式如下 次数总和 切尾均值 trimmedmean 是切掉数据大小两端的若干数值后计算中间数据的均值 这种集中趋势测度方法在电视大奖赛 体育比赛及需要人们进行综合评价的竟赛项目中已得到广泛应用 我们在电视中熟悉的 去掉一个最低分 去掉一个最高分 最后得分是 分 就是利用切尾均值方法得到的结果 计算公式 式中 n表示观察值的个数 表示切尾系数 到大形成的顺序统计值 数据两端切去几个数据 通过切尾系数决定 当系数取0和系数接近1 2时 切尾均值公式变成算术平均数和中位数的公式 这是公式的两种特例 是数据 经过排队以后有小 离中趋势测度 对统计分布或次数分配数据规律性的研究 集中趋势表示的是分布的中心位置或一般水平的代表值 离散程度反映的是离中趋势和差异程度 对统计数据的描述和分析正是利用这一对对立统一的代表值展开的 离中趋势测度 全距 极差 range 内距 inter quartilerange IQR 平均绝对差 meanabsolutedeviation MAD 方差 variance 标准差 StandardDeviation 离散系数极差系数平均绝对差系数标准差系数 coefficientofvariation 极差 Range 极差也称全距 是数据最大值减去最小值之差 它是数据离散或差异程度的最简单测度值 即其中R为全距max 和min 分别表示数据中的最大值和最小值 和则是用顺序统计量表示的最大值和最小值 数据的分散程度越大 极差就越大 反之则小 极差的计算很简单 但它易受极端值的影响 内距 inter quartilerange IQR 是两个分位数之差 内距 上四分位数 下四分位数 IQR 它是与集中趋势代表值四分位数相对应的离散程度代表值 平均绝对差 meanabsolutedeviation MAD 是数据值与均值之差绝对值的平均数 即简单式 样本未分组 加权式 样本已分组 平均绝对差实际上是对数据与均值的离差进行平均 根据均值的数学性质 数据值与均值离差之和为0 为避免平均离差数值为0反映不出数据差异的大小 就对离差取了绝对值 平均绝对差越大 离差绝对值就越大 数据差异程度越也就越大 方差和标准差 方差 variance 是离差平方的平均数 总体方差总体标准差样本方差样本标准差S 离散系数 变异系数 极差 内距 平均绝对差 方差和标准差 都是具有其所依据资料相同的计量单位的绝对数 用绝对数表示离中趋势 意义明显 易于理解 但当对两个或两个以上变量数列的均衡性和离散性比较时 如果绝对数变异指标的计量单位不同 或者各个变量数列的平均水平不同 这时就不能直接比较绝对数变异指标 而要采用相对数变异指标 叫离散系数或变异系数 它主要指绝对数变异指标与其算术平均数之间的比率 是一个反映总体某一数量标志变异相对程度的统计指标 极差系数 设为极差系数则 例如有男青年和女青年两个抽样总体 各由125名20岁青年所组成 其平均体重和极差如下 平均体重 公斤 极差 公斤 男青年组55 5218女青年组48 5216单从极差来看 R 男 R 女 但不能就此得出结论说男青年组平均体重的代表性小 需进一步计算极差系数 男青年组女青年组由于男青年组体重的极差系数小于女青年组体重的极差系数 因此 男青年组平均体重的代表性大 六集中趋势离散趋势的应用 资金风险价值的计算 计算资金风险程度 一般计算期望报酬率 标准离差 标准离差率等指标 期望报酬率 是各种可能的报酬率按其概率进行加权平均得到的报酬率 表示在所有各种风险条件下 期望可能得到的平均报酬率 是反映集中趋
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-湖南-湖南工程测量员三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖南-湖南土建施工人员三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北动物检疫员一级(高级技师)历年参考题库典型考点含答案解析
- 农村教育资源配置优化与教育质量监控研究报告
- 2025年事业单位工勤技能-海南-海南环境监测工一级(高级技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-海南-海南无损探伤工二级(技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-浙江-浙江电工五级(初级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-河南-河南水文勘测工二级(技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-河南-河南印刷工一级(高级技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-河北-河北地图绘制员五级(初级工)历年参考题库含答案解析
- 医德医风及行业作风建设培训
- 中国老年患者术后谵妄防治专家共识
- DB14T 1596-2024玉米间作花生机械化栽培技术规程
- 2025-2030坚果炒货市场发展分析及行业投资战略研究报告
- 选矿概论-6 浮选
- 温通刮痧技术操作流程图及考核标准
- 教师如何使用AI开展教学DeepSeek使用指南人工智能 课件
- 《企业竞争情报》课件
- 刑事撤案申请书
- 排水证授权委托书范本
- 《矿山隐蔽致灾因素普查规范》解读培训
评论
0/150
提交评论