




免费预览已结束,剩余42页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章集中趋势和离中趋势 4 1集中趋势的计量4 2离中趋势的计量4 3数据的分布形状 1 简单算术平均数计算公式 它是反映数据集中的主要测度 4 1集中趋势的计算 集中趋势反映一组数据中各数据所具有的共同趋势 即资料中各数据聚集的位置 一 算术平均 也叫均值 算术平均的统计含义 算术平均数是同质总体各数据偶然性 随机性特征互相抵消后的稳定数值 反映数据集中的特征 例某生产班组11个工人的日产零件数分别为 15 17 19 20 22 26 30 求该生产班组工人的平均日产零件数 22 解 算术平均值的性质一 数据观察值与均值的离差值之和为零 此性质表明均值是各数值的重心 算术平均值的性质二 观察值与均值的离差平方和最小 为任意数 故用算术平均值来预测作为估计值 误差平方和最小 数列 1 2 2 3平均数为2 数列 1 2 2 5平均数为2 5 数列 1 2 2 7平均数为3 均值的缺点 均值易受极端值的影响 某个极端大值或极端小值都会影响均值的代表性 同时还影响其对集中趋势测度的准确性 2 加权算术平均数 如果数据是分组资料 经过整理形成了次数分配 由于各组次数不同 要用次数作权数计算加权算术平均数 则均值的计算公式为 其中Xi表示第i组的组中值 fi表示第i组的次数 例 某单位80工人一周生产零件数的分组统计资料如下表 二 中位数 将数据观察值x1 x2 xn按其变量值由小到大的顺序排列 处于数列中点位置的数值就是中位数 Me 中位数的确定方法 如果数据个数为奇数 则处于 n 1 2位置的标志值是中位数 如果数据个数为偶数 则处于n 2 n 2 1的两个标志值的平均数为中位数 如果是组距分组资料 公式为 中位数是n 2位置上的数值 设落在第i组 Li是中位数所在组的下限 fi是中位数所在组的次数 Fi 1是中位数所在组的前一组的累积次数Ui Li是中位数所在组的组距 上限 下限 向上累积 向下累积 某单位80工人一周生产零件数分组统计资料如下 中位数是位置平均数 不受极端值的影响 各个数值相对其中位数的绝对离差之和为最小 不足 中位数确定时只与中间位置的相关数据有关 而不考虑其它数值的大小 缺乏敏感性 计算复杂 三 众数 众数是一组资料中出现次数最多的那个数值 也反映数据集中的程度 M0 未分组资料 M0就是出现次数最多的变量值 20 15 18 20 20 22 20 2320 20 15 19 19 20 19 2510 11 13 16 15 25 8 12 分组资料 在等距分组的情况下 频数最多的组是众数组 在该组内确定众数 设众数在第i组 则 Li是众数所在组的下限 Ui是众数所在组的上限 fi是众数所在组的次数 di Ui Li是中位数所在组的组距 上限 下限 某单位80工人一周生产零件数分组统计资料如下 在Excel中 AVERAGE 计算算术平均数利用SUM 函数和SUMPRODUCT 函数求加权算术平均 MEDIAN 计算中位数MODE 计算众数 四 均值 中位数 众数三者之间的关系 X f X f X f 对称分布 正偏态分布 右 负偏态分布 左 均值是数据分布的平衡点或重心 中位数把这个分布划分为两半 众数正好是分布的顶端 在偏斜不大时 中位数大约位于均值与众数的1 3处 算术平均数适用于定距变量 或数值变量 定量变量 中位数适用于定序变量 众数则适用于定类变量 或定性变量 五 集中趋势的其它测度量 1 分位数 四分位数 十分位数 百分位数 分位数的计算 1 将资料按大小顺序排列 2 求出分位数所在位置i 3 若i为整数 则所求分位数为该位置上的数值 若i为非整数 则取第i与第i 1位置的两个数值的平均数为所求分位数 4 若资料为分组数据 则各分位数可按下式计算 Ki表示第i个K分位数 Li表示第i个K分位数所在组的下限 N表示数据总个数 Fi 1表示第i个K分位数所在组的前一组的累积次数 fi是第i个K分位数所在组的次数 di Ui Li是第i个K分位数所在组的组距 其中 表示中位数的位置取整 这样计算出的四分位数的位置 要么是整数 要么在两个数之间0 5的位置上 四分位数的位置确定方法 方法1 定义算法方法2 以中位数为中心 从两端再计算中位数 公式 方法3Excel给出的四分位数位置的确定方法 无论哪种算法 如果位置是整数 四分位数就是该位置对应的值 如果是在0 5的位置上 则取该位置两侧值的平均数 如果在0 25或0 75位置上 则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值 例 9个家庭的人均月收入数据 3种方法计算 原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789方法1 方法2 所以QL为从最小值数第3个数值 即850元 Qu为从最大值数第3个数值 即1500元 方法3Excel方法 所以QL为第3个数值 即850元 Qu为7个数值 即1500元 可见三种方法计算的四分位数不完全相同 但对他们的解释是一样的 即排序数据中 至少25 的数据小于等于QL 至少75 的数据小于等于Qu 原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 2 几何平均数公式为 用于计算平均比率或平均速度 包括 1 对比率进行平均 2 测定生产或经济变量的时间序列的平均增长率 举例 将一笔钱存入银行 存期10年 以复利计息 10年的利率分配是 第1年至第2年为5 第3年至5年为8 第6年至第8年为10 第9年至第10年12 计算平均年利率 注意 当观测值有一项为0或负值时 不易计算几何平均数 3 调和平均值 调和平均值是观察值倒数之平均数的倒数 也称倒数平均数 用表示 1 具有倒数性质例如某人前10公里以时速50公里行驶 后10公里以30公里时速行驶 这20公里花了0 533小时 所以平均时速 2 总体单位数未知时 例4 11 71 加权调和平均数 应用条件 资料经过分组 各组次数不同 算术平均 几何平均 调和平均三者关系 三者均属于均值体系算术平均值是直接对观测值进行平均 几何平均值是对观察值对数后的平均 调和平均值是对观察值取倒数后平均 一般情况下 有如下关系 在Excel中 QUARTILE 计算四分位数PERCENTILE 计算百分位数GEOMEAN 计算几何平均数HARMEAN 计算简单调和平均数 4 2离中趋势的计算 离中趋势是数据分布的又一特征 它表明变量值的差异或离散程度 离中趋势测度经常用到的指标有 极差 方差和标准差 四分位差等 它们也被称为变异指标 一 极差极差也称为全距 是一组数据的最大值和最小值的差 缺点 易受极端值的影响 全距值越小 数据变动范围越小 平均数的代表性越高 全距值越大 数据数据变动范围越大 平均数的代表性越低 二 平均差1 平均差是指数据值与其均值之差的绝对值的算术平均值 用符号A D表示 计算公式 2 优点 完整地反映了全部数据的分散程度 计算方法简单 缺点 易受极值影响 绝对值计算不方便 分组数据 未分组数据 平均差越大 平均数代表性越低 平均差愈小 平均数代表性越高 三 方差与标准差 总体方差是观察值与其均值离差平方和的均值 总体标准差是总体方差的正平方根 如果计算总体方差的资料是次数分配数据 在计算总体方差时要将各组权数考虑进去 有如下公式 总体方差的另一种表达方式 总体方差愈大 数据的变动程度愈大 总体方差愈小 数据的变动程度愈小 样本方差与样本标准差 当样本数据个数足够大时 样本方差与总体方差很接近在Excel中Max min 计算极差AVEDEV 计算平均差VARP 计算总体方差VAR 计算样本方差STDEVP 计算总体标准差STDEV 计算样本标准差 四 Chebishev定理与经验法则 1 Chebishev定理 对任何一组资料 观测值落于均值左右k个标准差的区间内的比例 至少为 1 1 k2 Chebishev定理适用于任何形状的次数分布资料 但此区间是一个比较保守的估计值 2 经验法则 当资料分布呈对称形状时 有 1 约有68 的观测值落于的区间内 2 约有95 的观测值落于的区间内 3 约有97 的观测值落于的区间内 五 相对离中趋势 变异系数 定义 变异系数又称离散系数 是标准差与均值的比值 公式 对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较 例 从 上看 甲的更具代表性 通过C V 乙不但高 而且各地块产量比甲农场稳定 因此乙的最具有代表性 例 评价哪名运动员的发挥更稳定 发挥比较稳定的运动员是塞尔维亚的亚斯娜 舍卡里奇和中国的郭文珺 发挥不稳定的运动员是蒙古的卓格巴德拉赫 蒙赫珠勒和波兰的莱万多夫斯卡 萨贡 六 离中趋势的其它测度量1 四分位差四分位差是第三个四分位值与第一个四分位值之差的二分之一 用Q D 表示 意义 剔除了极端值 说明50 数据分布的范围 与中位数配合说明数据分布是否对称 若分布对称 则Q2 Q1 Q3 Q2 Q3 Q1 2若不相等 则是非对称的 2 异众比率异众比率指非众数值的次数之和占总次数的比重 用VM0表示 fM0为众数值次数 n为总次数含义 异众比率数值越大 说明众数的代表性越低 即观测值差异较大 异众比率数值越小 说明众数的代表性越高 即观测值差异较小 3 平均差系数 4 3数据的分布形状 一 偏斜度偏斜度是对数据分布在平均数两侧的偏移方向和偏移程度所作的描述 1 Pearson偏态系数偏态系数以平均数与众数之差除以标准差来衡量偏斜程度 用SK表示 其计算公式为 当SK 0时 呈对称分布 当SK 0时 分布是右偏 正偏 的 当SK 0时 分布是左偏 负偏 的 SK 0 SK 0 SK 0 对称分布 正偏态分布 右 负偏态分布 左 2 动差法 矩法 求偏态系数统计学中 矩包括原点矩和中心矩 原点矩的定义是 k为整数 称为k阶原点矩中心矩的定义是 中心矩的两个重要性质 分布对称时 奇数阶中心矩恒为零 当分布为正态分布时 偶数阶中心矩有 k 1 表示从1到k 1点的一切奇数的连乘积 矩法估计就是利用中心矩来衡量分布的偏度 用公式表示为 偏态系数大于1或小于 1 为高
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论