




已阅读5页,还剩79页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,统计学中的基本术语,平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。平均数主要包括有:,算术平均数(arithmeticmean),中位数(median),众数(mode),几何平均数(geometricmean),调和平均数(harmonicmean),1.资料的代表数,2.表示各种技术措施的效果,3.表示生产性能,4.进行变量间的相互比较,其作用主要体现在:,.,算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。,(一)直接法,主要用于样本含量n30、未经分组资料平均数的计算。,一、算术平均数,设某一资料包含n个观测值:x1、x2、xn,则样本平均数可通过下式计算:,.,其中,为总和符号;表示从第一个观测值x1累加到第n个观测值xn。当其在意义上已明确时,改写为:,【例1】某工厂自动分装机器测得10件物品的重量分别为500、520、535、560、585、600、480、510、505、490(kg),求其平均数。,由于x=500+520+535+560+58+600+480+510+505+49=5285,n=10,得:,即10件物品的平均重量为528.5kg。,.,.,(二)加权法,对于样本含量n30以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:,式中:第i组的组中值;第i组的次数;分组数。,.,第i组的次数fi是权衡第i组组中值xi在资料中所占比重大小的数量,因此将fi称为是xi的“权”,加权法也由此而得名。,【例2】测得生产车间一个月内抽查100件生产物品重量(单位:kg)资料整理成次数分布表如下,求其加权数平均数。,表100件生产物品重量重次数分布表,.,即:100件生产物品重量平均重量为45.2kg。计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算(以各样本的含量为权)。,.,【例3】某牛群有黑白花奶牛1500头,其平均体重为750kg,而另一牛群有黑白花奶牛1200头,平均体重为725kg,如果将这两个牛群混合在一起,其混合后平均体重为多少?此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权,求两个牛群平均体重的加权平均数,即,即两个牛群混合后平均体重为738.89kg。,.,.,(三)平均数的基本性质,1、样本各观测值与平均数之差的和为零,即离均差之和等于零。,可简写成:,或,2、样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。,.,对于总体而言,通常用表示总体平均数,有限总体的平均数为:,式中,N表示总体所包含的个体数。,当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量。统计学中常用样本平均数()作为总体平均数()的估计量,并已证明样本平均数是总体平均数的无偏估计量。,.,二、中位数,将资料内所有观测值从小到大依次排列,位于中间的那个观测值称为中位数(median),记为Md。,当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数。,中位数的计算方法因资料是否分组而有所不同,通常采用不分组的方法学习理解。,.,1、当观测值个数n为奇数时,(n+1)/2位置的观测值,即x(n+1)/2为中位数:,不分组资料中位数的计算方法,对于未分组资料,先将各观测值由小到大依次排列。,2、当观测值个数为偶数时,n/2和(n/2+1)位置的两个观测值之和的1/2为中位数,即:,.,【例4】观察得到9个工人制作同一种农具的天数为:144、145、147、149、150、151、153、156、157,求其中位数。,此例n=9,为奇数,则:,即9个工人制作同一种农具的天数的中位数为150天。,(d),【例5】某猪场发生猪瘟,观察得10只小猎犬出现症状到死亡分别为7、8、8、9、11、12、12、13、14、14天,求其中位数。,此例n=10,为偶数,则:,(d),即10只小猎从出现症状到死亡天数的中位数为11.5天。,.,MEDIAN(数据范围)功能:计算中位数,.,三、几何平均数,n个观测值相乘之积开n次方所得的方根,称为几何平均数(geometricmean),记为G。,它主要应用于畜牧业、水产业的生产动态分析,畜禽疾病及药物效价的统计分析。如畜禽、水产养殖的增长率,抗体的滴度,药物的效价,畜禽疾病的潜伏期等,用几何平均数比用算术平均数更能代表其平均水平。其计算公式如下:,.,为了计算方便,可将各观测值取对数后相加除以n,得lgG,再求lgG的反对数,即得G值,即,【例7】某波尔山羊群19972000年各年度的存栏数见下表,试求其年平均增长率。,表某波尔山羊群各年度存栏数与增长率,.,GEOMEAN()函数用于返回正数数组或数据区域的几何平均值。函数语法语法形式。GEOMEAN(number1,number2,.)。其中,number1,number2,表示需要计算其平均值的130个参数。,.,四、众数,资料中出现次数最多的那个观测值或次数最多一组的组中值,称为众数(mode),记为Mo。,间断性资料由于样本中的各观测值容易集中于某一个数值,所以众数易于确定。连续性资料由于在两个相邻的观测值之间,可有各种数值存在,样本中的观测值不易集中于某一个数值,众数不易确定。在连续性资料的次数分布表中,分布次数最多一组的组中值即为该样本的概约众数。但在实际统计分析过程中,由于分组不同,概约众数亦不同。可用补差法计算众数,其准确性高于众数。公式如下:,.,.,MODE(数据范围)功能:计算众数,.,五、调和平均数,资料中各观测值倒数的算术平均数的倒数,称为调和平均数(harmonicmean),记为H。即,调和平均数主要用于反映分析对象不同阶段的平均增长率或分析对象不同规模的平均规模。,.,【例8】某保种牛群不同世代牛群保种的规模分别为:0世代200头,1世代220头,2世代210头;3世代190头,4世代210头,试求其平均规模。,利用(3-9)式求平均规模:,(头),即保种群平均规模为208.33头。,.,一般,对于同一资料:算术平均数几何平均数调和平均数。上述五种平均数,最常用的是算术平均数。,三组数据平均数均为5,但代表性强弱不同。,.,GEOMEAN()函数用于返回正数数组或数据区域的几何平均值。函数语法:GEOMEAN(number1,number2,.)其中,number1,number2,表示需要计算其平均值的130个参数。,.,平均数的意义,平均数代表平均水平;中位数代表中等水平;众数代表多数水平。上述参数都代表数据的集中趋势。,.,.,.,.,样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息.平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,需要一个统计数字刻画样本数据的离散程度.,.,实际问题:有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:,甲:,乙:,如果你是教练,你应当如何对这次射击作出评价?如果是一次选拔考核,你应该如何做选择?,计算可得,两人射击的平均成绩是一样的.那么两个人的水平就没有什么差异吗?,.,4,5,6,7,8,9,10,环数,频率,0.1,0.2,0.3,(甲),4,5,6,7,8,9,10,0.1,0.2,0.3,0.4,环数,频率,(乙),甲成绩比较分散,乙成绩相对集中,看来,平均数还难以概括样本的实际状态,因此,我们还需要从另外的角度来考察这两组数据.,.,思考:什么样的指标可以反映一组数据变化范围的大小?,可以用一组数据中的最大值减去最小值所得的差来反映这组数据的变化范围。用这种方法得到的差称为极差,极差(全距)最大值最小值,.,甲的环数极差=10-4=6乙的环数极差=9-5=4.,极差对极端值非常敏感,在一定程度上表明样本数据的的波动情况但极差只能反映一组数据中两个极端值之间的差异情况,对其他数据的波动情况不敏感,到底是甲还是乙的数据更加稳定呢?有必要重新找一个对整组数据波动情况更敏感的指标,因此应学习反应一组数据稳定程度的分析,.,常用的几种标志变异指标,概念计算特点,数列中最大值与最小值之差,1极差(R)和内距,R=最大值-最小值,优点:容易理解,计算方便缺点:不能反映全部数据分布状况,2平均差(A、D),各标志值与均值离差绝对值的算术平均,简单:,加权:,优点:反映全部数据分布状况缺点:取绝对值,数字上不尽合理,数列中上下四分位数之差,内距=上四分位数-下四分位数,.,概念计算特点,各标志值与均值离差平方的平均方差的平方根(取正根),3总体方差(2)和标准差()样本方差与标准差(n-1),优点:反映全部数据分布状况,数字上合理。缺点:受计量单位和平均水平影响,不便于比较,4标准差系数(V)离散系数,标准差与均值之商,是无量纲的系数,简单:,加权:,优点:适宜不同数据集的比较缺点:对数据结构变化反应不灵敏,方差(2)和标准差()是应用最广的标志变异指标,.,四分位数间距(inter-quartilerange),(1)四分位数(quartile,Q),下四分位数即第25百分位数,常用QL表示;上四分位数即第75百分位数,常用QU表示。,(2)四分位数间距指上、下四分位数的间距,既QL与QU间的差距,它是从小到大排列后中间一半数据所在的范围。,.,方差,由于离均差的平方和与样本个数有关,只能反应相同样本的离散度,而实际工作中做比较很难做到相同的样本,因此为了消除样本个数的影响,增加可比性,将标准差求平均值,这就是我们所说的方差成了评价离散度的较好指标。,.,.,标准差,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值,相对稳定,即:标准差越高,表示实验数据越离散,也就是说越不精确。,总体标准差公式是根号内除以n样本标准差公式是根号内除以(n-1),.,考虑一个容量为2的样本:,标准差的几何意义,显然,标准差越大,则a越大,数据的离散程度越大;标准差越小,数据的离散程度越小.,标准差用来衡量一批数据的波动大小(即这批数据偏离平均数的大小).,.,STDEV(数据范围)功能:计算标准差,.,标准差的取值范围是什么?标准差为0的样本数据有什么特点?标准差是怎样表现数据的离散程度的?,标准差的取值范围:,0,+),标准差为0的样本数据都等于样本平均数.,标准差表现为:标准差越大,表明数据的离散程度就越大;反之,标准差越小,表明各数据的离散程度就越小。,它用来描述样本数据的离散程度。在实际应用中,标准差常被理解为稳定性。,标准差的作用:,.,例题分析,画出下列四组样本数据的条形图,说明他们的异同点.(1)5,5,5,5,5,5,5,5,5;(2)4,4,4,5,5,5,6,6,6;,.,(3)3,3,4,4,5,6,6,7,7;(4)2,2,2,2,5,8,8,8,8.,.,变异系数,变异系数(coefficientofvariation,CV),变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。,.,一般地,对于一个正态总体(,),数据落在区间()、()、()内的百分比分别为68.3%、95.4%、99.7%,这个原理在产品质量控制中有着广泛的应用。,正态分布,.,在资料服从正态分布的条件下,资料中约有68.26%的观测值在平均数左右一倍标准差(S)范围内;约有95.45%的观测值在平均数左右两倍标准差(2S)范围内;约有99.73%的观测值在平均数左右三倍标准差(3S)范围内。也就是说全距近似地等于6倍标准差,可用(全距/6)来粗略估计标准差。,.,正态分布,正态分布的概念和特征正态曲线下的面积分布规律标准正态分布及其转换正态分布的应用参考值范围的制定,.,正态分布的概念和特征,概念:指变量的频数或频率呈中间最多,两端逐渐对称地减少,表现为钟形的一种概率分布。从理论上说,若随机变量x的概率密度函数为:,则称x服从均数为,标准差为2的正态分布。,.,正态分布的特征,均数处最高以均数为中心,两端对称永远不与x轴相交的钟型曲线有两个参数:均数位置参数,标准差形状(变异度)参数。正态曲线下的面积分布有一定规律正态分布具有可加性,.,正态分布的参数,123,标准差相同、均数不同的正态分布曲线,.,正态分布的参数,均数相同、标准差不同的正态分布曲线,.,正态曲线下面积的分布规律,正态曲线下面积的意义:正态曲线下一定区间内的面积代表变量值落在该区间的概率。整个曲线下的面积为1,代表总概率为1。曲线下面积的求法:定积分法和标准正态分布法,.,标准正态分布与正态分布的转换,标准正态分布:指均数为0,标准差为1的正态分布。常称z分布或u分布。标准正态分布与正态分布的转换公式:,即若x服从正态分布N(,2),则z就服从均数为0,标准差为1的正态分布。,.,标准正态分布,.,正态分布曲线下的面积,范围内的面积为68.27%1.96范围内的面积为95%2.58范围内的面积占99%,.,正态分布的应用,正态分布的判断和检验:经验法和正态性检验描述正态分布资料的频数(频率)分布范围参考值范围的制定质量控制:,.,正态分布的应用,例:从某地随机抽取100名一年级男大学生,测得平均身高为166.2cm,标准差为5.3cm,现欲估计该地身高界于低于160cm,身高高于180cm,以及身高在165cm175cm范围内的一年级男大学生的比例和人数。,.,查标准正态分布表得:(u1)(0.02)0.4920(u2)(1.66)0.04851(u2)+(u1)0.4595,.,参考值范围的制定,正常值范围(或参考值范围):医学上常把绝大多数正常人的某指标值的波动范围称为该指标的正常值范围(或参考值范围)。注意:正常人并非指没有任何疾病的人,而指同质前提下排除了足以影响所测指标的因素的人。,.,正常值范围的确定步骤,选定正常人群,并抽取一定的样本含量(一般大样本)。根据专业知识确定用单侧或双侧范围。根据需要确定可信度。,.,正常值范围的确定步骤,4.按资料特点选定不同方法计算正常值范围上、下限。正态分布法:适于正态分布资料。对数正态分布的资料取对数后可用正态分布法估计。百分位数法:适于偏态分布资料或分布不明类型的资料。所需样本含量较大。,.,表正常值范围的界值,.,频率分布表,【问题】我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.通过抽样调查,获得100位居民2007年的月均用水量如下表(单位:t):,.,3.12.52.02.01.51.01.61.81.91.63.42.62.22.21.51.20.20.40.30.43.22.72.32.11.61.23.71.50.53.83.32.82.32.21.71.33.61.70.64.13.22.92.42.31.81.43.51.90.84.33.02.92.42.41.91.31.41.80.72.02.52.82.32.31.81.31.31.60.92.32.62.72.42.11.71.41.21.50.52.42.52.62.32.11.61.01.01.70.82.42.82.52.22.01.51.01.21.80.62.2,(4.3-0.2)0.5=8.2,思考2:样本数据中的最大值和最小值的差称为极差.如果将上述100个数据按组距为0.5进行分组,那么这些数据共分为多少组?,思考1:上述100个数据中的最大值和最小值分别是什么?由此说明样本数据的变化范围是什么?,.,思考3:以组距为0.5进行分组,上述100个数据共分为9组,各组数据的取值范围可以如何设定?,思考4:如何统计上述100个数据在各组中的频数?如何计算样本数据在各组中的频率?你能将这些数据用表格反映出来吗?,0,0.5),0.5,1),1,1.5),4,4.5.,.,频率分布表,.,思考5:上表称为样本数据的频率分布表,由此可以推测该市全体居民月均用水量分布的大致情况,给市政府确定居民月用水量标准提供参考依据,这里体现了一种什么统计思想?,用样本的频率分布估计总体分布.,.,思考6:如果市政府希望85%左右的居民每月的用水量不超过标准,由此表,你对制定居民月用水量标准(即a的取值)有何建议?,88%的居民月用水量在3t以下,可建议取a=3.,思考7:在实际中,取a=3t一定能保证85%以上的居民用水不超标吗?哪些环节可能会导致结论出现偏差?,分组时,组距的大小可能会导致结论出现偏差,实践中,对统计结论是需要进行评价的.,.,思考8:对样本数据进行分组,其组数是由哪些因素确定的?,思考9:对样本数据进行分组,组距的确定没有固定的标准,组数太多或太少,都会影响我们了解数据的分布情况.数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多.当样本容量不超过100时,按照数据的多少,常分成512组.若以0.1或1.5为组距对上述100个样本数据分组合适吗?,.,思考10:一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?,第一步,求极差.(极差=样本数据中最大值与最小值的差),第二步,决定组距与组数.(设k=极差组距,若k为整数,则组数=k,否则,组数=k+1),第三步,确定分点,将数据分组.,第四步,统计频数,计算频率,制成表格.(频数=样本数据落在各小组内的个数,频率=频数样本容量),.,知识探究(二):频率分布直方图,思考1:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:,.,上图称为频率分布直方图,其中横轴
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广州莱拓的课件助手
- 2025湖南长沙市金海高级中学教师招聘34人考前自测高频考点模拟试题及答案详解(全优)
- 成本控制与预算管理标准化表
- 《初中物理公式记忆法训练课教案》
- 2025湖南怀化市新晃侗族自治县人民医院招聘11人模拟试卷及答案详解(网校专用)
- 2025甘肃嘉陵关市卫生健康委公开招聘公益性岗位人员考前自测高频考点模拟试题及答案详解1套
- 跨境代购售后服务承诺书6篇
- 2025河南济源示范区乡村医生“乡聘村用”招聘7人模拟试卷及答案详解(名校卷)
- 12 我们小点儿声 课件
- 2025贵州铜仁开放大学引进专业技术人才模拟试卷附答案详解
- 2025至2030中国轨道交通行业发展分析及投资前景与战略规划报告
- 2025年福建漳州片仔癀化妆品股份有限公司招聘笔试参考题库含答案解析
- 档案业务技能大赛考试题库500题(含答案)
- 健康教育和健康促进课件
- 出资股权比例协议书
- 2025网约车租赁合同范本
- 大学计算机(WPS Office)课件 刘卫国 第1-6章 计算机与信息社会-WPS电子表格
- 剧本杀门店运营项目方案
- 诉讼费承担合同协议
- 中国LTCC用玻璃陶瓷粉行业市场前景预测及投资价值评估分析报告
- 福海县集中供热基础设施节能升级建设项目环境影响报告表
评论
0/150
提交评论