




已阅读5页,还剩150页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学原理,第四章统计数据分布特征的测度SummarizingM3(位置)=3(n+1)/42.定位相应的具体标志值:如果是具体对应的位置就是该个体数值;如果是处于两个个体数值之间的位置,就是该两个个体数值的算术平均数。,组距数列的四分位数计算,1.第一四分位数的计算:式中:M41:四分位数L1:四分位数所在组的下限;Sm11:四分位数所在组以下的累积频率(次数)M1:四分位数所在组的频率(次数)i:四分位数所在组的组距n:总体次数,2.第三四分位数的计算:式中:M43:第三四分位数L3:四分位数所在组的下限;Sm31:四分位数所在组以下的累积频率(次数)M3:四分位数所在组的频率(次数)i:四分位数所在组的组距n:总体次数,未分组资料的四分位数计算,1.对原始资料排序2.然后按照单项数列的计算方法进行计算。,例题(9个数据的算例),【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,例题(10个数据的算例),【例】:10个家庭的人均月收入数据单数列:66075078085096010801250150016302000位置:12345678910,(二)、十分位数的计算,式中:M101:十分位数L1:十分位数所在组的下限;Sm11:十分位数所在组以下的累积频率(次数)M10:十分位数所在组的频率(次数)i:十分位数所在组的组距n:总体次数,数值平均数,当标志的变化有方向且可观测其变化程度时(即定距、定比标志),若存在均衡状态,则变化程度作为一种“作用力”将影响该均衡状态,其理应为“两个方向作用力相等时的标志值”。,一、均值(算术平均数)Mean,1.用于度量数据的集中趋势(CentralTendency)2.是最常见的集中趋势的度量3.如同平衡点(BalancePoint)4.易受极端数值(ExtremeValues)影响,均值的计算,1.它就是总体各单位标志值之和除以总体单位数所得的商。2.计算分为:简单算术平均数加权算术平均数,简单算术平均数,1.把各单位的标志值相加,然后除以总体单位数。2.计算公式:式中:yi:表示总体各单位的标志值;(i1,2,)n:表示总体单位数,加权算术平均数,1.根据分组情况,用各组标志值或者各组组中值乘以各组次数,相加得出总体标志总量,然后除以各组单位数之和。未分组的资料,就是变量值乘以对应的次数,相加得出总体量值,然后除以总体单位数。2.计算公式,均值的数学性质,1.各个标志值与算术平均数的离差和为零。2.各个标志值与算术平均数离差的平方和为最小值。3.算术平均数易受极端数值的影响。4.存在开口组时,确定组距就存在很大的主观性,从而导致最终的平均数值的代表性降低。,下面是某工厂工人的日加工量,请计算工人加工数量的算术平均数。,加权算术平均数(例题分析),某城市50个家庭住房面积算术平均数计算表,组中值(,频数(,二、几何平均数,n个变量值乘积的n次方根适用于比率数据的平均主要用于计算平均增长率可以看成是算术平均数的一种变形,是非线性关系的体现。它包括简单几何平均数和加权几何平均数几何平均数的除或者说开方,就是分配的意思。,社会经济现象应用几何平均数的条件,1.若干个比率或速度的乘积等于总比率或总速度2.相乘的各比率或速度不得为负值或零,简单几何平均数的计算,计算公式:式中:G表示几何平均数y表示变量值n表示变量值的项数,简单几何平均数(例题分析),某企业生产某种产品要经过三个连续作业车间才能完成。若某月份第一车间粗加工产品的合格率为95%,第二车间精加工产品的合格率为93%,第三车间最后装配的合格率为90%,则该产品的企业合格率(即三个车间的平均合格率)为多少?采用简单几何平均法计算:x=95%*93%*90%(开三次方)=92.64%,加权几何平均数的计算,计算公式为:式中:G表示几何平均数y表示变量值f表示各组变量值的次数,某企业贷款利率情况,请计算该企业10年的平均贷款利率。,几何平均数的缺陷,1.受到极端值的影响。2.应用范围狭小。主要用于计算平均比率或者平均速度。,三、调和平均数,1.各个体的数值倒数的算术平均数的倒数,故又称为倒数平均数2.它分为简单调和平均数和加权调和平均数。3.调和平均方法可以解决某些经济现象由于数量(购买量、销售量、产量)未知,无法直接计算加权平均数的困难,如大宗小商品的平均价格、农副产品收购的平均价格等。,简单调和平均数,H:调和平均数;n:总体次数;yi:个体数值,加权调和平均数,H:调和平均数;yi:个体数值;fi:各组的权数。,例题,菜场上有1元钱起售的蔬菜,若某人早上用1元钱买了一种蔬菜共3斤,每斤0.33元;中午降价时又用1元钱买了4斤,每斤0.25元;晚上削价处理时又用1元钱买了5斤,每斤0.2元,试问,某人早中晚各用1元钱购买的蔬菜平均每斤多少钱?这一问题根据不同的资料可用两种方法计算蔬菜的平均价格。,(1)如已知早上买3斤、中午买4斤、晚上买5斤,又知价格分别为0.33元/斤、0.25元/斤、0.2元/斤,则可用加权算术平均数方法计算平均价格:x=xf/f=(0.33*3+0.25*4+0.2*5)/(3+4+5)=0.25(元/斤),(2)若已知早上买1元钱、中午买1元钱、晚上买1元钱,又知价格分别为0.33元/斤、0.25元/斤、0.2元/斤。这时由于每次购买的斤数未知,就不用加权平均方法,而要用调和平均方法计算其平均价格:x=(1+1+1)/(1/0.33+1/0.25+1/0.2)=3/12=0.25(元/斤),切尾均值,切尾均值(trimmedMean),去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用计算公式为,n表示观察值的个数;表示切尾系数,,数值平均数的优缺点,1.优点:它对变量的每一个观察值都加以利用,它比位置平均数可以获得更多的信息。2.缺点:它使用了数据中的每一个观察值,因此计算麻烦,对极端值非常敏感。,众数、中位数和均值的比较,众数、中位数和均值的关系,众数、中位数、均值的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,如果均值与中位数的大小大致相等时,就应选择均值作为平均数。如果二者存在很大差异,就应该选择更为合适的中位数,因为它更实际地描述了数据的中心,第二节分布离散程度的测算,一、极差(range),1.一组数据的最大值与最小值之差,又叫全距2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布,R=max(xi)-min(xi),计算公式为,特点,1.数据分散程度越大,其极差就越大。2.易受极端值的影响。,二、内距(Inter-QuartileRange,IQR),1.也称四分位差2.第三四分位数与第一四分位数之差内距=Q3Q13.反映了中间50%数据的离散程度4.不受极端值的影响5.可用于衡量中位数的代表性,三、平均差(averagedeviation),1.总体中个体的标志值对总体的算术平均数的离差的绝对值的算术平均数。2.反映了总体中个体的变动程度。平均差越大,表明个体差异越大,进而说明平均数的代表性就越差。3.公式:,平均差的计算,1.简单平均法:针对未分组的原始资料;2.加权平均法:根据分组资料进行计算。,简单平均法例题分析,某车间有两个生产组,各有10名工人,其日产量为:第一组:20222325252628262926第二组:14121824302431303330求各组的平均差,并说明其代表性。,解:第一步:求总体的算术平均数第一组的平均数:x1=(20+22+23+25+25+26+28+26+29+26)/10=25第二组的平均数:x2(14+12+18+24+30+24+31+30+33+30)/10=25第二步:求平均差第一组A.D.1=2第二组A.D.2=6.4第二组的个体变异比较大,其平均数的代表性比较差。,加权平均法例题分析,解,第一步:计算组距的组中值:46,54,62,70,78,86,95第二步,计算其加权算术平均数其结果为69.36第三步根据公式计算其平均差:10.27元,平均差的特点,1.它是衡量个体数值到平均数的平均距离的一种方法。2.如果是单项数列,其计算结果就为实际值;如果为组距数列,其计算结果就只能是近似值。,四、方差和标准差(VarianceandStandarddeviation),1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,方差和标准差的种类,1.总体方差和标准差2.样本方差和标准差二者区别就在于自由度的选择:样本方差的自由度为n1。,样本方差自由度(degreeoffreedom),一组数据中可以自由取值的数据的个数当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,样本方差的自由度,自由度取值为n1的原因:1.自由度表明的是个体数值与算术平均数的差异信息,也就是误差的数量。由于个体数值比算术平均数小的误差绝对值和比其大的算术平均数的误差绝对值是相同的,所以有用的误差个数只有n1个。2.从另一个角度来说,在样本均值确定后,n个数据中只有n1个数据可以自由取值。3.从共线性角度分析,样本的算术平均数是样本中个体数值的一个线性组合,因此为了避免共线性,就要去除一个线性组合。,方差的数学性质,1.总体单位标志值与总体算术平均数的方差小于总体单位标志值与任意数值之间的方差。即总体单位标志值对其算术平均数的标准差最小。2.总体单位标志值的方差等于总体单位标志值平方的平均数减总体单位标志值平均数的平方。,方差、标准差的特点,1.方差一般只是用来说明变化程度。它比较难以解释。2.通常大约2/3的观察值落在离均值一个标准差的距离内,几乎所有的观察值落在离均值两个标准差的范围之内。它是最常用的统计观察值离散度的方法。,标准误差,1.多个样本组均值计算得出的标准差。2.它比标准差要小,原因在于均值中和了极端值的影响,而某个单一样本可能会出现很不正常的极端值,因此标准误差是比标准差更为精确的统计量。,五、离散系数(coefficientofvariation),1.离散系数是变异指标与其相应的算术平均数之比,实际它是一种消除平均数后的变异指标。2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较,离散系数的种类,1.极差系数:就是极差与其平均数的相比的相对指标。其公式如下:VR=(R/平均数)1002.内距系数:就是内距与其平均数的相比的相对指标。其公式如下:VM.D.=(M.D./平均数)100,3.平均差系数就是平均差与其平均数的相比的相对指标。其公式如下:VA.D=(A.D./平均数)1004.标准差系数就是标准差与其平均数的相比的相对指标。其公式如下:V=(/平均数)100,标准差与离散系数(有限总体参数)标准差与离散系数(样本估计量),离散系数标准差系数计算(例题分析),【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数(例题分析),结论:计算结果表明,v13,故该地大学生月消费额的分布曲线为尖峰曲线分布。,第四节茎叶图与箱线图,茎叶图(stem-and-leafdisplay),用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上一般只保留一位数字(个位数)茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,茎叶图(例题分析),茎叶图(扩展的茎叶图),箱线图(boxplot),用于显示未分组的原始数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成箱线图的绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(第一四分位数QL和第三四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接,箱线图(箱线图的构成),箱线图(例题分析),未分组数据多批数据箱线图(例题分析),【例】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 笔记本电脑长寿命电池创新创业项目商业计划书
- 水产品智能穿戴设备创新创业项目商业计划书
- 2025年富锦市消防员考试笔试试题(含答案)
- 渔业智能化管理系统升级创新创业项目商业计划书
- 农产品民宿经营创新创业项目商业计划书
- 网站流量提升解决方案创新创业项目商业计划书
- 2025年工业互联网平台微服务架构性能测试与边缘计算资源管理分析
- 2025年物流园区仓储设施节能环保评估报告
- 2025年肿瘤早筛技术在肿瘤患者全程管理中的应用前景报告
- 山东省菏泽市开发区2020-2021学年第一学期五年级科学期中考试试题(含答案)
- 2025年学历类自考专业(学前教育)学前儿童发展-学前教育原理参考题库含答案解析(5套)
- 日本设备销售合同范本
- (2024)大学生宪法知识竞赛题库及答案
- 2025年芜湖市鸠江区医院招聘16名工作人员笔试参考题库附答案解析
- T-CBDA 86-2025 建筑幕墙、采光顶及金属屋面工程质量验收标准
- 厨房消防安全培训
- 小陈 税务风险应对常见指标与答复思路
- 2025云南昭通昭阳区住房和城乡建设局招聘编外工作人员5人笔试备考题库及答案解析
- 2025年《中华人民共和国档案法》知识培训试题及答案
- 新高一数学暑假检测卷(学生版)-2025年新高一数学暑假衔接讲练 (人教A版)
- 2025至2030年中国建筑膜行业市场调查研究及发展趋势预测报告
评论
0/150
提交评论