浅谈正态分布在现实生活中的应用论文doc_第1页
浅谈正态分布在现实生活中的应用论文doc_第2页
浅谈正态分布在现实生活中的应用论文doc_第3页
浅谈正态分布在现实生活中的应用论文doc_第4页
浅谈正态分布在现实生活中的应用论文doc_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浅谈正态分布在现实生活中的应用摘要:无论从理论和实际应用的观点来看,正态分布毫无疑问是概率论和数理统计中的重要分布。它的重要性质是由于实际中遇到的随机变量有许多服从正态分布或近似服从正态分布的。(例如,气象学中的温度、湿度、降雨量,有机体的长度、重量,智能测度的评分,实验中的测量误差,经济学中的众多度量等等)正态分布是许多重要分布的极限分布;许多非正态分布变量是正态分布变量的函数;正态分布的概率密度和分布函数具有各种优良性质等。本文总结分析了正态分布和标准正态分布的性质和特点,然后着重分析了正态分布在医学,岗位测评,试卷命题难度评价,天气预报等实际问题中的应用。关键词:正态分布;标准正态分布;统计量一、 正态分布的有关知识1、正态分布的定义设连续型随机变量具有概率, (1.1)其中(),为常数,则称服从以为参数的正态分布,正态分布又称高斯分布,记为。2、 正态分布的图形特点为了画出正态分布的图形,先对概率密度做几点讨论:(1),即整个概率密度曲线都在轴的上方;(2)令,分别代入,由(1.1)式可得 且 故以为对称轴,并在处达到最大值(3)当时,这说明曲线向左右伸展时越来越贴近以轴,即以轴为渐近线。(4)用求导的方法可以证明为,为的两个拐点的横坐标。综上,即可画出正态分布的概率密度曲线如图1,它是一条关于对称的钟形曲线。 图1为了说明参数对曲线位置形状的影响,请看图2 图2可以看出:决定了图形的中心位置,决定了图形中峰的陡峭程度,当较大时,图形趋于平缓,当较小时,图形趋于陡峭。也就是说,决定了分布的中心位置,反映了分布的分散或集中程度。由(1.1)式得的分布函数为 (1.2)3、标准正态分布当时,相应的正态分布叫做标准正态分布。对标准正态分布,通常用表示概率密度函数,用表示分布函数,即 (1.3)标准正态分布的重要性质在于,任何一个一般的正态分布都可以通过线性变换转化为标准正态分布。定理1 设,则。根据定理1,只要将标准正态分布的分布函数制成表,就可以解决一般正态分布的概率计算问题。至此,我们对正态分布的性质、特点有了初步的了解。从密度函数的图形看,它是一条关于对称的钟形曲线。可以形象地用“两头小,中间大,左右对称”来描述。在自然界和社会领域常见的变量中,很多都有这种性质。4、正态分布的几个定义:设是来自总体的一个样本,是相应的样本值,是样本的函数,若中不包含任何未知参数,则称是一个统计量。下面是几个常用的统计量,设是来自总体的一个样本,是相应的样本值,定义样本均值 ;样本方差 ;样本标准差(样本均方差) ;样本阶(原点)矩 样本阶中心矩 二、 正态分布在现实生活中的应用1、在医学方面的应用某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验中的随机误差,呈现为正态或近似正态分布;有些资料虽为偏态分布,但经数据变换后可成为正态或近似正态分布,故可按正态分布规律处理。(1) 估计正态分布资料的频数分布例1.10 某地1993年抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;分别求、范围内18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。本例,、未知但样本含量n较大,按式(3.1)用样本均数和标准差S分别代替和,求得u值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.1210=12.10%。该地18岁男大学生身高在168cm以下者,约占总数12.10%。其它计算结果见表1。100名18岁男大学生身高的实际分布与理论分布身高范围(cm)实际分布理论分布(%)人数百分数(%)168.69176.716767.0068.27164.84180.569595.0095.00162.35183.059999.0099.00表1(2)制定医学参考值范围:亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有: 正态分布法:适用于正态或近似正态分布的资料。双侧界值:单侧上界:,或单侧下界:对数正态分布法:适用于对数正态分布资料。双侧界值:;单侧上界:,或单侧下界:。常用u值可根据要求由下表2查出。参考值范围(%)单侧双侧800.8421.282901.2821.645951.6451.960992.3262.576表22、 正态分布在岗位测评中的应用假定某公司有50个岗位,应该有50个人,则系数为10以下的岗位数和人数为:50*(10)4618,则岗级系数分布在10的岗位数和人数为:5050*(10)4;根据正态分布的性质,则岗级分布在3的岗位数和人数也应为4;岗级49的岗位数和人数应为42。如果我们称岗级系数为49的人为中等收入者,说明这种岗位分配和收入分配符合正态分布,分布在各岗级系数的人数是合理的,有利于企业的稳定、发展。 同理根据正态分布函数,依次求得各岗级系数的岗位数和人数: ()(9)08461;则系数为9以下的岗位数和人数为:50*(9)42人;则岗级系数分布在9的岗位数为:46424个。 依次求得: (8)07291,则系数为8以下的岗位和人数为:50*(8)36人;即岗级系数分布在8的岗位数为:42366个。 (7)05793,则系数为7以下的岗位和人数为:50*(7)28人;即岗级系数分布在7的岗位数为:36288个。 (6)04207,则系数为6以下的岗位和人数为:50*(6)21人;即岗级系数分布在6的岗位数为:28217个。 (5)02709,则系数为5以下的岗位和人数为:50*(5)14人;即岗级系数为分布在5的岗位数为:21147个。 (4)01539,则系数为4以下的岗位和人数为:50*(4)8人;即岗级系数分布在4的岗位数为:1486个。 (3)00764,则系数为3以下的岗位人数为:50*(3)4人;即岗级系数分布在3的岗位数应为4个。 如下表3和图3: 图3这说明,上述分布符合正态分布,对于一个企业来说,上述分布正是企业经营者所希望的。 各岗级系数的岗位数一旦确定,那么岗位测评中的打分结果就可以从最高到最低排序,定出各岗级的岗位数,相应的人数也就定了,相应的薪酬也就定了。由于计算过程有累计误差,所以相差4人,根据正态分布原理,这4人岗级系数应落在49范围里面,可以根据企业具体情况调整。3 、正态分布规律在试卷命题难度评价中的应用教育评价技术方法中教育测量理论是应用教育统计学方法来实现的,众所周知,正态分布是最常见、应用最广的一种重要分布,按照数理统计学的基本原理,经统计分析(样本数30)93%的考试成绩分布状况在直观上呈现为“中间多,两边少,左右基本对称”的特点,因此被测验对象的学习或某种能力指标和某种能力指标的测验结果可以近似地用正态分布N(),来描述。因而通过样本对总体的某些特征(如均值或方差)推理判断,已成为教育研究中一种较为常见的方法。用统计学原理确定学生成绩的平均分及正态分布曲线,并将其作为对试卷分析评价的基础。 (1)考试成绩的分布形态(规律) 保证考试质量是数学活动中不容忽视的重要组成部分。如何提高考试质量,不仅应在试前对试卷质量进行预测分析,更应结合试后考试成绩分析作出最终评价。用学生的考试成绩可以定量对命题质量进行评价与分析。观察统计学生考试成绩的直方图,其分布大致可分为5种情形单峰且对称、单峰大体对称;单峰但峰值向左移;单峰但峰值向右移;双峰或多峰;大体上可以一个平台型为代表等等。(2)学生成绩正态分布曲线分析 根据教育学与统计学的理论,一次难度适中信度可靠的考试,学生的成绩应接近正态分布。也就是说,当学生的成绩接近于正态分布时,则说明此次考试基本达到了教学要求。判断成绩是否接近正态分布,最直观,最有效的方法是将成绩分布曲线与均值和方差相同的正态分布曲线加以比较。当然,学生成绩呈现正态分布是理想化状态。考试成绩完全呈正态分布有一定的困难,也不现实。但我们要以正态分布为标准模式,加以对比,找出不足。 利用教育统计学研究发现,对于难度适中、客观有效的考试成绩一般都符合正态分布,且平均分在75分左右,标准差在9 5之间。因此,我们有理由使用各种高级统计方法处理考试分数,以挖掘更多的教育信息。考试成绩是考生水平的反映,同时考试成绩分布是否正态分布反映了命题质量。根据正态分布曲线呈现的形态,可以进行考题相对难度分析。 平均成绩的差异引起曲线的水平位置变化,平均成绩偏低,如低于65分说明试卷难度较大;而偏高在90分以上说明试卷难度太小。若学生成绩分布属所示的形态,这表明试卷命题的质量是比较好的.这里又有两种情形:在标准差不变的情况下随着平均分数的增加曲线向右移说明考生答题逐渐轻松;相反,随着平均分数的减小说明考题逐渐变难,学生成绩逐渐降低。在学生和教师工作正常情况下,题目越容易曲线越向右移。在平均分不变的情况下,标准差较小如低于6,成绩分布较集中,正态分布曲线呈陡峭型状态说明试卷区分度太小,表示中等难度试题所占比重太大;标准差较大如大于9,成绩分布较平坦,试卷区分度太大,则表示中等难度试题偏少。 若学生成绩分布属所示形态, 即负偏态分布说明难度较大的试题比例偏高,表明试卷题目偏难;若学生成绩分布属所示的形态, 即正偏态分布说明难度较小的试题比例偏重,则表明试卷题目偏易。若学生成绩分布属或等所示的形态,则表明试卷的命题质量不好,随意性较强,这样的试卷成绩不能很好地测量出学生对所学知识掌握情况。 (3)正态分布应用的结论 考题相对难度是指考题从整体上讲相对考生其难易程度的合理性,用学生成绩的平均分数衡量考题相对难度应是合理、可行的。对于高校结业类型的考试,经统计平均分数在77分附近时,考题相对难度是适中的。通过确定恰当的偏离度等级标准,对试卷做出试题难度相对学生考题合理、考题稍偏易或稍偏难、考题较易或较难、考题过易或过难、考题难度不合理的5个等级判断。 综上所述,考试成绩符合正态分布是说明考题命题合理的条件,也是衡量考试质量的一个客观标准。考试的重要功能之一是信息反馈, 考试分数的分布形态里蕴含着丰富的教学信息。对考试分数的统计处理可以得出大量有价值的教学信息,据以评价教学、改进教学和进行教学研究。进一步分析发现,正态性较弱的课程有这样一些特点:考试分数出现了“极值”(特小值),或者是中间分数段分数的频数太小,或者是尾端频数略高。所以根据正态分布曲线呈现的状态,可以评价试卷的难易程度,为评价试卷命题质量提供数据资料。进而调整教学进度,改进教学方法。 在正常情况下,成绩均服从或近似服从正态分布规律,可认为成绩分布比较理想,命题恰当,难易适中。但是考试成绩呈正态分布也是有生成条件的,当考分出现非正态分布时有下列情况,在统计样本中有弃学逃学学生,如果该类学生有一定比例势必使低分段学生分布密度高于正态分布曲线;在统计样本中有复修该课程而且前期学习较好的考生,否则高分段分布密度过大;考试题是偏难怪的题目。 4、正态分布在天气预报中的应用降水资料(1953-2003年)取自亳州市气象观测站,监测点地理纬度:33o52N、115o46E。(1) 降水概率分布模型及其参数估计降水概率分布模型 降水资料是否服从正态分布或标准正态分布,可利用样本的偏度系数(Cs)进行检验6,Cs的计算式为: (2.1) 其中:为样本的3阶中心矩;为样本标准差。 理论上讲,当Cs=0时,降水资料即服从正态概率分布。事实上,由于观测资料本身存在着随机抽样误差,使计算的Cs 也有一定的误差。因而,实践上认为:-2(6n)1/2Cs+2(6n)1/2 时,降水资料可近似认为服从正态概率分布;否则服从偏态概率分布。文献4、5指出,将气候要素极值变量作适当初等函数变换后,偏度系数会显著减少而能满足正态概率分布,即准正态概率分布。因此,本文采取此方法,对涉及的不同时段的降水要素值(x)进行适当的初等变换,如对数(lnx)变换、平方根(x 1/2 )变换、立方根(x 1/3)变换等,然后,统计分析其Cs,从中选取Cs满足上述标准的变换形式作为求取概率模型的样本资料,进而求取各自的概率分布模型。准正态概率模型参数的估计 准正态概率分布密度函数通式可推导如下,设原始观测记录为连续变量X,经过函数变换后,新变量为y,即有 y=g(x),原变量 x 的分布密度函数 f(z)为 : (2.2)(2.2)式中(y)是变量的概率分布密度函数,据假设条件有: (2.3)则原变量X 的概率密度函数为: (2.4)式(2.4)中和两参数的估算,可利用矩法或极大似然法(本文用此法求取参数)求得分别为(2.5)、(2.6)式: (2.5) (2.6)其准正态概率分布函数为: (2.7)(2)研究结果各时段降水的正态、偏态检验图4 亳州市历年年降水量和汛期降水量图4为19532003年以来亳州市汛期与年降水量的波动图。从图1可见,19532003年以来亳州市汛期与年降水量波动显著,这是当地旱涝灾害年年发生的主要原因。因此,仅从现有监测资料中,通过求解发生频率来获得当地汛期与年降水的概率,显然具有一定局限性,难以满足工程设计和防灾减灾工作的需要。为此需进一步从理论上寻找解决方法。表4给出了亳州市汛期及各月和年降水量的原始资料以及经过初等变换后的偏度系数(Cs)和理论偏度系数(|Cs|)的计算结果。表4从表4可见,各时段降水量原始监测资料的Cs均远大于理论上的偏态系数。特别是6月份的降水量,竟达到1.5763,是理论值的2.3倍。但是,原始资料经过初等变换后,其相应的Cs则显著减少。表4中带有“*”号标志的即为满足上述要求的符合准正态分布的样本。它们分别为汛期和年降水量的对数处理结果、6、7月份的立方根处理结果和8月份的平方根处理结果。这样以来,即可求取各自的概率分布模型。各时段降水的准正态分布模型本文采取极大似然法,按照公式(2.5)、(2.6),分别求取各自准正态概率分布模型的参数。结果见表5所示。 表5将表5中的相应参数,带入公式(2.4),即可求得各自的概率密度。汛期与年降水的概率分布密度见图5所示图5图6为检验各自概率分布模型的模拟效果,分别计算了各时段降水量的经验概率分布与按公式(2.7)求得的理论概率分布。其

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论