




已阅读5页,还剩85页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章、数据分布特征的描述,【学习目标】了解测定总体分布集中趋势的意义熟悉测定总体分布集中趋势、离散程度的各种指标的概念、特点、计算方法及其应用熟悉Excel用于以上各种指标的方法,正确解释各项指标计算结果的实际意义,第五章、数据分布特征的描述,第一节、总体分布集中趋势的测定第二节、总体分布离散程度的测定第三节、Excel在数据分布特征分析中的应用,第一节、总体分布集中趋势的测定,通过调查获得、经过整理后展现的数据已经可以反映出被研究对象的一些状态与特征,但认知程度还比较肤浅,反映的精确度不够。为此,我们要使用各类代表性的数量特征值来准确地描述这些数据。对单变量截面数据的特征描述,主要有四个方面:集中趋势、离散程度、偏态与峰度。,集中趋势的现实意义,83名女生的身高,次数分布从两边向某中心值靠拢的程度,集中趋势的分布涵义,一、测定总体分布集中趋势的指标及其作用,数值平均指标的种类,数值平均数,位置平均数,平均数,算术平均数,调和平均数,几何平均数,中位数,众数,基本形式:,例:,直接承担者,(一)算术平均数,二、数值平均数,【注意】分子分母必须属于同一个总体:有一个总体单位就必须有一个标志值与其对应。,式中:为算术平均数;为总体单位总数;为第个单位的标志值。,算术平均数的计算方法,解:平均每人日销售额为:,算术平均数的计算方法,式中:为算术平均数;为第组的次数;为组数;为第组的标志值或组中值。,算术平均数的计算方法,【例】某企业某日工人的日产量资料如下:,计算该企业该日全部工人的平均日产量。,算术平均数的计算方法,解:,算术平均数的计算方法,算术平均数的计算方法,分析:,起到权衡轻重的作用,算术平均数的计算方法,决定平均数的变动范围,当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。,算术平均数的计算方法,算术平均数的计算方法,变量值与其算术平均数的离差之和衡等于零,即:变量值与其算术平均数的离差平方和为最小,即:,算术平均数的主要数学性质,离差的概念,-1,-1,-2,1,3,性质的证明,各变量值与其平均数离差之和等于零,即:证明:,各变量值与其平均数离差平方之和等于最小值,即:证明:设为任意数,c为常数(c0),并令则:因为,所以,即:为最小值。,性质的证明,【例】设X=(2,4,6,8),则其调和平均数可由定义计算如下:,再求算术平均数:,求各标志值的倒数:,,再求倒数:,是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数。,调和平均数,(二)调和平均数,生活中的简单例1:,假如某种蔬菜在早、中、晚市的每市斤的单价分别为0.5元、0.4元、0.2元,若早、中、晚市各买一市斤,其平均价格用简单算术平均数计算,结果是0.37元。但若早、中、晚市各买一元钱,其平均价格是多少?,如果现在早、中、晚市所花钱数不再是一元钱,而是如下表情形,求购进的该种蔬菜的平均价格?,生活中的简单例2:,1.简单调和平均数,适用于总体资料未经分组整理、尚为原始资料的情况,式中:为调和平均数;为变量值的个数;为第个变量值。,调和平均数的计算方法,2.加权调和平均数,适用于总体资料经过分组整理形成变量数列的情况,式中:为第组的变量值;为第组的标志总量。,调和平均数的计算方法,【注】调和平均数是算术平均数的变形,当己知各组变量值和标志总量时,作为算术平均数的变形使用。,因为:,调和平均数的应用,计算该企业该日全部工人的平均日产量。,调和平均数的应用,即该企业该日全部工人的平均日产量为12.1375件。,调和平均数的应用,解:,(一)众数(Mode),不仅可以对定量数据加以计算,而且可以对定性数据加以确定。,众数的优点,具有非常直观的代表意义。例如,说明某次考试学生成绩最集中的水平;说明城镇居民最普遍的生活水平等等。,三、位置平均数,【例A】已知某企业某日工人的日产量资料如下:,众数的确定方法,(单项数列),计算该企业该日全部工人日产量的众数。,组距数列众数公式,众数的确定,(组距数列),【例B】某车间50名工人月产量的资料如下:,计算该车间工人月产量的众数。,众数的原理及应用,83名女生身高原始数据,83名女生身高组距数列,413名学生出生时间分布直方图,众数的原理及应用,(无众数),(双众数),当数据分布呈现出双众数或多众数时,可以断定这些数据来源于不同的总体。,当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(前者无众数,后者为双众数或多众数,也等于没有众数)。,众数的原理及应用,将总体单位数分为相等的两部分;不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。,中位数的作用:,(二)中位数(Median),中位数的位次为:,即第3个单位的标志值就是中位数,中位数的确定,(未分组资料),中位数的位次为:,中位数应为第3和第4个单位标志值的算术平均数,即,中位数的确定,(未分组资料),【例C】某企业某日工人的日产量资料如下:,计算该企业该日全部工人日产量的中位数。,中位数的位次:,中位数的确定,(单项数列),组距数列中位数公式的推导之一,共个单位,共个单位,共个单位,共个单位,L,U,中位数组,组距为d,共个单位,假定该组内的单位呈均匀分布,共有单位数,中位数下限公式为,组距数列中位数公式的推导之二,中位数的确定,(组距数列),【例D】某车间50名工人月产量的资料如下:,计算该车间工人月产量的中位数。,【例D】计算下表中某公司职工人数的平均差,要求列出计算表。,解:,(三)众数、中位数和算术平均数的关系,众数和中位数是位置平均数,不受极端值的影响。算术平均数应用最广泛,但是易受数据极端值的影响。,算术平均值决定尾巴,第二节、总体分布离散程度的测定,一、测定离散程度的指标及其作用二、变异指标的计算方法(一)极差(二)平均差(三)标准差(四)离散系数,单位:分,某班三名同学三门课程的成绩如下:,请比较三名同学学习成绩的差异。,离中趋势的体现,集中趋势弱、离中趋势强,集中趋势强、离中趋势弱,变异指标值越大,平均指标的代表性越小;反之,平均指标的代表性越大,一、测定离散程度的指标及其作用,测定离散程度的变异指标的作用,反映总体各单位标志值分布的离散程度;用来衡量和比较平均数代表性的大小(离散系数);用来反映社会经济活动过程的均匀性和稳定性程度;用来测定变量数列次数分布较正态分布的偏离程度(偏度、峰度)。,测定总体单位变量值变异程度的指标,测定总体次数分布形态(数据是如何分布的)的指标,二、变异指标的种类及计算方法,变异指标种类,离散程度的度量,【例B】某季度某工业公司18个工业企业产值计划完成情况如下:,计算该公司该季度计划完成程度的全距。,优点:计算方法简单、意义明确,易于理解掌握;缺点:易受极端数值的影响,不能全面反映所有标志值差异大小及分布状况,准确程度差。,往往应用于生产过程的质量控制中,全距的特点,离差概念离差:各单位标志值与算术平均数的差。,(二)平均差,变量值与其算术平均数的离差之和衡等于零,即:变量值与其算术平均数的离差平方和为最小,即:,算术平均数的主要数学性质,-1,-1,-2,1,3,1.简单平均差适用于未分组资料,计算公式:,各个数据与其算术平均数的离差绝对值的算术平均数,用表示,平均差,【例A】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的平均差。,解:,即该售货小组5个人销售额的平均差为93.6元。,2.加权平均差适用于分组资料,平均差的计算公式,【例B】计算下表中某公司职工月工资的平均差。,解:,即该公司职工月工资的平均差为138.95元。,【例C】计算下表中某公司职工人数的平均差,要求列出计算表。,解:计算表如下,优点:使用了全部数据,易受极端数值的影响,能够全面反映数据之间的离散程度;缺点:用绝对值的形式消除各标志值与算术平均数离差的正负值问题,不便于作数学处理和参与统计分析运算。,平均差的特点,一般情况下都是通过计算另一种变异指标标准差,来反映总体内部各单位标志值的差异状况.,方差,方差(Variance)是各变量值与其算术平均数离差平方和的平均数,用表示总体的方差;用表示样本的方差。,(三)标准差,1.简单标准差适用于未分组资料,计算公式:,各个数据与其算术平均数的离差平方的算术平均数的开平方根,用来表示;标准差的平方又叫作方差,用来表示。,标准差,【例A】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的标准差。,解:,(比较:其销售额的平均差为93.6元),即该售货小组销售额的标准差为109.62元。,2.加权标准差适用于分组资料,标准差的计算公式,由同一资料计算的标准差的结果一般要略大于平均差。证明:当a,b,c0时,有,标准差的特点,不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数学处理和统计分析运算.,【例B】计算下表中某公司职工月工资的标准差。,解:,(比较:其工资的平均差为138.95元),即该公司职工月工资的标准差为167.9元。,【例C】计算下表中某公司职工人数的标准差,要求列出计算表。,解:计算表如下,标准差的简捷计算,(四)离散系数,极差、平均差和标准差是反映离散程度的绝对指标,而且与平均指标有相同的计量单位,其数值的大小不仅受标志值之间差异程度的影响,而且还受标志值水平高低的影响。,可比,不同数据组(不同总体),平均水平不同,身高的差异水平:cm,体重的差异水平:kg,可比,不同变量,计量单位不同,离散系数(变异系数),极差系数,【例】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小。,解:,一班成绩的标准差系数为:,二班成绩的标准差系数为:,因为,所以一班平均成绩的代表性比二班大。,甲百货公司连续40天的销售额如下(单位:万元)41252947383430384340463645373736454333443528463430374426384442363737493942323635要求:(1)根据以上数据,编制一张组距为5万元的等距频数分配表。(注意:列出频数、频率,保留一位小数)(3)依据你所编制的频数分配表,计算某百货公司的均值及标准差,若乙百货公司同期销售额的均值为45万元,标准差为9万元,比较甲、乙两个百货公司,谁的销售额均值更有代表性?(注意:保留三位小数)(2)计算众数、中位数。结合均值说明该数据分布形态的特征。,练习:,1.依据你感兴趣的客观现实现象或问题,说明以下概念:(1)总体;(2)总体单位;(3)样本;(4)品质标志;(5)数量标志;(6)离散变量;(7)连续变量;(8)总体单位总量(9)总体标志总量;(10)质量指标。2.如果要你针对你感兴趣的专题设计一份统计调查方案,你需要考虑在方案中安排体现哪些要素?举例说明其中的任一要素。根据你的研究专题,你在统计调查方案中准备采用哪些调查方式。,3.下列为经济系100位同学管理学成绩分组资料:,经济系100位同学管理学成绩表,请你:(1)列出计算表并依此计算经济系100位同学管理学成绩的均值、众数、中位数、标准差,说明数据分布形态。(2)若国际贸易系同学管理学成绩的均值是78分,标准差是12分,比较两系谁的均值更具有代表性。,4.抽样调查某地区50户居民的月消费品支出额数据资料(单位:元)如下:96789592197
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 园艺户外休闲服饰创新创业项目商业计划书
- 网络安全漏洞扫描器创新创业项目商业计划书
- 2025年教师招聘之《幼儿教师招聘》考前冲刺练习题库附参考答案详解【达标题】
- 2025年教师招聘之《幼儿教师招聘》考前冲刺练习题及答案详解参考
- 2025年信息化学品生产设备项目合作计划书
- 2025年山西省太原市四十八中语文高三第一学期期末达标检测模拟试题
- 贵州省遵义市航天高中2025-2026学年语文高三第一学期期末质量检测试题
- 教师招聘之《幼儿教师招聘》练习题(含答案详解)
- 恒泰安全培训课件
- 2025年教师招聘之《幼儿教师招聘》通关试卷提供答案解析带答案详解(培优)
- 企业ESG表现与其韧性之间的关联研究:以厚德方能行稳致远为视角的探索分析
- 2025-2030中国魔芋胶行业营销渠道与重点企业发展分析报告
- 小学生书法课件模板
- 公司雨水排放管理制度
- 托育园火灾应急预案(3篇)
- 诈骗分期赔偿协议书
- 外科补液培训
- GB/Z 45463-2025热喷涂涂层孔隙率的测定
- 死亡记录书写规范
- 欧盟职业教育数字素养培育研究
- T-BSRS 128-2024 核医学放射性废液快速处理技术要求
评论
0/150
提交评论