




已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章样本特征数 第一节集中位置量数一 定义 集中位置量数 反映一群性质相同的观察值的平均水平或集中趋势的统计指标 二 集中位置量数的种类 一 众数一组数据中出现频数最多的变量值 称为众数mode Mo表示 众数主要用于测度分类数据的集中趋势 一般情况下载数据量较大的情况下 众数才有意义 例 计算 饮料品牌 的众数 Excel数据 五种不同可乐的比例 xls 二 中位数和分位数1 中位数 1 定义 一组数据排序后处于中间位置上的变量值 称为中位数 median 用Me表示 2 作用 主要用于测度顺序数据或数值型数据的集中趋势 1 计算方法中位数位置 n 1 2若n为奇数时正好是位于正中间的那个变量值 n为偶数时则是正中间那两个变量值得平均值 例 对于数值型数据60 263 563 866 268 168 869 9则 第四个数66 2为中位数 对于数值型数据10 210 3510 8410 6810 9211 0511 2111 38则中位数 10 68 10 92 2 10 8 2 四分位数 1 定义 一组数据排序后处于25 和75 位置上的值 称为四分位数 也称四分位点 2 计算方法 设下四分位数为QL 上四分位数为QU 根据四分位数的定义有 QL位置 n 4QU位置 3n 4例4 1 1 在某城市随机抽取9个家庭 调查得到每个家庭的人均月收入数据如下 单位 元 计算人均月收入的四分位数 数据如下 1500 750 780 1080 850 960 2000 1250 1630首先进行排序 750 780 850 960 1080 1250 1500 1630 2000解 QL位置 n 4 2 25 即QL在第二个数值 780 和第三个数 850 之间0 25的位置上 因此QL 780 850 780 0 25 797 5 QU 3n 4 3 9 4 6 75 即在第六个数值 1250 和第七个数 1500 之间0 75的位置上 因此QL 1250 1500 1250 0 75 1437 5 3 作用在排序数据中 至少有25 的数据将小于QL 至少有75 的数据将小于QU 而至少有25 将大于QU 大约有一半的数据在QL与QU之间 通过四分位数我们可以对数据的分布有一个大概的了解 Excel数据 计算四分位数数据 xls 三 平均数 mean 1 定义 一组数据相加后除以数据的个数而得到的结果 称为平均数 也称均值 意义 平均数在统计学中具有重要的地位 是集中趋势的最主要测度值 只适用于数值型数据 2 种类 简单的平均数 simplemean Excel数据 100名学生1500米成绩 xls 加权平均数 weightedmean 根据分组数据计算平均数 设原始数据被分成k组 各组的组中值分别用M1 M2 Mk表示 各组变量出现的频数分别用f1 f2 fk表示 fi为样本容量 则加权平均数的计算公式为 例 Excel数据 加权平均数的计算 xls 几何平均数 geometricmean 计算公式 作用几何平均数主要用于比率的计算 在实际应用中 几何平均数主要用于计算平均增长率 例4 1 2 某水泥厂生产企业1999年水泥为100万吨 2000年与1999年相比增长率为9 2001年与2000年相比增长率为16 2002年比2001年相比增长率为20 求各年的年平均增长率 解 由公式可得114 91 100 14 91 第二节离中位置量数 集中趋势是数据分布的一个特征 它所反映的是各变量向其中心值的聚集程度 而各变量之间差异程度如何 则需要考察数据的分散程度 数据的分散程度是数据分布的另一个重要特征 它所反映的是各变量值远离其中心值得程度 因此也称离中趋势 一 分类数据 异众比率 定义 非众数组的频数占总频数的比率 称异众比率 variationratio 用Vr表示 异众比的计算公式 Vr fi fm fi 1 fm fi fi表示变量值的总频数 fm表示众数组的频数 例4 2 1 五种不同饮料的异众比 分类数据的整理 xls Vr 50 15 50 0 7 70 说明在调查的50人中购买其他品牌饮料的人数占70 异众比较大 因此 用 可口可乐 来代表消费者购买饮料品牌的状况 其代表性不是很好 二 顺序数据 四分位差 定义 上四分位数与下四分位之差 称为四分位差 quartiledeviation 用Qd表示 计算公式 Qd Qu QL 例4 2 2 利用上述公式计算第一节中家庭人均月收入的四分位差 根据例4 1 1 QL 797 5 Qu 1437 5四分位差为 Qd 1437 5 797 5 640 意义 四分位差反映了中间50 数据的离散程度 其数值越小 说明中间数据越集中 数据越大 说明中间数据越分散 三 数值型数据 方差和标准差 一 极差 定义 一组数据的最大值与最小值之差 称为极差 range 也称全距用R表示 R max xi min xi 二 平均差 定义 各变量值与其平均数离差绝对值的平均数 也称为平均差 meandeviation 用Md表示 计算公式 例4 2 3100名学生1500米成绩 xls 三 方差 定义 各变量值与其平均数离差平方的平均数 称为方差 variance 计算公式 100名学生1500米成绩 xls 标准差方差的平方根 称为标准差 standdeviation 样本标准差的计算计算样本标准差的函数为 STDEV 例4 2 4某电脑公司四个月销售数据 xls 四 相对离散程度 离散系数 定义 一组数据的标准差与其相应的平均数之比 称为离散系数 coefficientofvariation 也称变异系数 用Vs表示 计算公式 例4 2 5 某管理局抽查了所属的8家企业 其产品销售数据如下表 试比较产品销售额与销售利润的离散程度 某管理局所属8家企业的产品销售数据 xls 第三节偏度与峰度的统计度量 导入集中趋势和离散程度是数据分布的两个重要特征 但要全面了解数据分布的特点 还需要知道数据分布的形状是否对称 偏斜的程度以及分布的扁平程度 偏态和峰态就是对分布形状的测度 一 偏态及其测度 定义 数据分布的不对称性 称为偏态 skewness 定义数据分布不对称性的度量值 称为偏态系数 coefficientofskewness 记作SK 计算公式 例4 3 1100名学生1500米成绩 xls 结论 若SK 0则数据分布为对称 若SK 0 则数据分布向平均数右侧偏斜 若SK 0 则数据分布向平均数左侧偏斜 若 0 5 SK 0 5 数据分布 偏斜程度不大 若 11 则数据分布严重偏斜 二 峰态及其测度 定义 数据分布的平峰或尖峰程度称为峰态 kurtosis 定义 对数据分布峰态的统计度量值 称为峰态系数 coefficientofkurtosis 记作K 计算方法 峰态是尖或者是平是通过与标准正态分布对比而言的 当K 0时为尖峰分布 当K 0时为平峰分布 例4 3 2试计算某电脑公司销售分布的峰态 某电脑公司四个月销售数据 xls 数据分析工具 描述统计本章介绍的数据分布特征的各种测度值 其中多数可以通过Excel 数据分析 工具中 描述统计 命令得出计算结果 例4 3 3试用上述命令计算100名学生1500米成绩分布的各种特征测度值 100名学生1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 离婚协议书范本2016
- 税库银三方协议书是什么
- 化妆品零售行业市场分析研究
- 访客免责协议书
- 五月减产协议书
- 餐饮运营协议书
- 活动安全免责协议书
- 2025浙江省农副产品购销合同
- 2025企业劳动派遣劳动合同
- 2025资产委托管理标准合同范本
- 企业融资培训课件
- 2025年抗菌药物合理使用培训
- 杜仲种植深加工项目可行性研究报告-备案立项
- 2025年乡村文化旅游发展报告:文旅融合下的乡村旅游生态旅游规划与实施研究
- 2025-2030智慧养老行业竞争格局分析及投资前景与战略规划研究报告
- 2025-2030中国在线总有机碳(TOC)分析仪行业市场现状供需分析及投资评估规划分析研究报告
- 合伙购买墓地协议书
- 英语教学课件Unit 2 Different families课件9
- 医学综述研究进展汇报
- 2025春 新人教版美术小学一年级下册致敬平凡
- 危险废物分析制度
评论
0/150
提交评论