




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章概率与概率分布,第一节概率的基本概念一、后验概率二、先验概率第二节随机变量及其概率分布第三节正态分布一、正态分布的特征二、正态分布表三、正态分布表的用法四、正态分布理论的实际应用五、检验分布是否为正态的方法,在语言实验研究中,我们通常选取研究对象的一部分(即样本)加以研究,在此基础上,通过推断统计对所有的研究对象(即总体)的情况作出推断。在进行这种推断时,我们不仅要指出总休可能是什么情况,而且还要指出我们进行这种推断的把握程度有多大,或者总体出现这种情况的可能性有多大,这个“可能性”就是概率。因此,要学好推断统计,就要对概率这一概念有所了解。,第一节概率的基本概念,简而言之,概率就是在某种条件下,某个事件出现的可能性。显然,这个事件可能会出现,也可能不出现,所以通常称之为“随机事件”。概率可分为两类:“后验概率”与“先验概率”。一、后验概率后验概率(或统计概率)是指通过实际观测,根据在总观测次数中某事件所出现的次数来计算该事件出现的概率,这种概率其实是一个相对频率,是实际概率的估计值。,一般用A代表随机事件(例如“全体学生中的男生”),用P代表频率(概率估计值),或用n表示观测的次数,用m表示事件出现的次数,则,(5.1),二、先验概率当可能出现的情况(叫做“基本事件”)是有限的,而且其出现的可能性相等时,所计算的概率称为“先验概率”或“古典概率”(无需经过实际观测)。用n表示基本事件的总数,用m表示事件A所包括的基本事件,用P代表概率,则,(5.2),第二节随机变量及其概率分布,随机变量是指在实验中受随机(或偶然)因素的影响,其取值无法进行准确预测的变量。譬如,我们要随机选取一些学生,来调查其家庭的人口数,“人口数”是一个随机变量,因为它可以取这一个值,也可以取那一个值,究竟取哪一个值完全是偶然的,无法碗切地预测,这要等到实验(实际抽取)之后才能得知。我们可以用某种方法对随机变量可取数值的概率分布进行描述,这就是随机变量的概率分布。,第三节正态分布,正态分布也叫正态曲线,有时也称作高斯分布或高斯曲线。正态分布其实是次数分布的其中一种,但是它在统计学中(尤其是推断统计中)具有特殊的重要性。首先,在自然界、现实生活以及我们的语言研究中,许多现象或特征都是呈正态分布。就统计工作本身来讲,正态分布具有一些特殊的数学特征,使得我们能够预测总体中多大比例的个体将会在一定范围内取正态分布的变量的某些值,此外,一些重要的差异显著性检验也要求所涉及的变量呈正态分布(见第七章)。,一、正态分布的特征正态分布主要具有以下几个特征:(1)其形状如钟,中央点(最高点)为平均数点,整个分布以过该点的垂线左右对称,横坐标代表标准差,即横坐标上各点表示离开平均数的标准差单位数,曲线两端向靠近横坐标处无限延伸,但永远不能与之相交(见图5.1),(2)在正态分布的中央点,平均数、中数与众数相等或重合(见图5.1)。(3)正态曲线完全是由平均数和标准差两个参数碗定的。有了这两个值,就可以利用正态分布的密度函数绘出正态曲线。当随机变量的平均数与标准差的值不同时,正态分布就会呈现不同的形态。在平均数相同的情况下,标准差大的正态曲线低平宽阔,而小的则高尖狭窄。但是我们可以把一个正态分布里的观测值换算成标准分(见第四章),即把原来的随机变量转换成一个标准正态变量,这样就可以把各种不同形态的正态分布转换成标准正态分布。,(4)在曲线下,从任一标准差(整数或小数均可)作垂线,截取的“尾巴”所占总面积的比例都可以精确地计算出来。任一标准差与平均数之间的面积也可以精确地计算出来。任何两个标准差之间的面积也是固定的。正态曲线下的总面积为1,因而任一面积与总面积之比(即该面积本身)可以视为随机变量的值出现的概率。当直方形的宽度(即分组区间)相等时,各直方形的面积与相应的分组区间的数值的次数或频率也是成比例的,而数值出现的次数与总次数之比就是数值出现的概率。,标准差与正态曲线下的面积的对应关系见图5.2,二、正态分布表由于任何形态的正态分布都可以转换成标准正态分布,我们就有可能依据标准正态分布编制一个通用的表,列出与各Z值相对应的正态曲线下的面积(或概率),这就是正态分布表(附表2)。当我们想知道一个正态分布中的某个观测值所对应的面积时,或者已知面积,求相对应的观测值时,就不用一一计算了,只要把观测值换算成标准分,然后查正态分布表即可得到答案。,三、正态分布表的用法1.由Z值查A值(1)查某Z值与平均数之间的面积。先在第一列找到要查的Z值,其后的数值即是该Z值值与平均数之间所夹的面积。例如:,(2)查某Z值以上或以下的面积(即该Z值所截去的尾巴的面积)。由于表中A值为某Z值与平均数之间的面积,而平均数以上或以下(即平均数右侧或左侧)的面积各占曲线下总面积的一半,所以,在按照上述方法查到A值之后,还要进行一些简单的计算:求某Z值以上的面积时,如果Z为正值,用0.5减去A值就可得到,如果Z为负值,则要用A值加上0.5平均数右侧的面积)才能得到;求某Z值以下的面积时,如果Z为正值,用A值加上0.5就可得到,如果Z为负值,则要用0.5平均数左侧的减去值才能得到。,(3)求两个Z值之间的面积。求两个Z值之间的面积时也要进行一些运算。例如:求Z=1.00和Z=2.00之间的面积。查表得:Z=1.00时,A=0.34134,Z=2.00时,则A=0.47725Z=1.00和Z=2.00之间的面积应为0.47725-0.34134=0.135912.由A值查Z值(1)已知平均数与某Z值之间的面积A,查与之对应的Z值。,只要在标有A的一列里找到该面积值,其前的数值即是对应的Z值。如果已知的面积在表里没有列出,则用表里与之最接近的面积值。如果不知道该面积是平均数以上还是以下的面积,则查出的Z值可能是正值,也可能是负值。例如:已知平均数以上的面积A=0.067,Z=0.17(表中面积为0.06749);已知平均数以下的面积A=0.35,Z=-1.04(表中面积为0.35083),(2)已知正态分布两端的面积值,求该面积的分界点的值。由于表中所给面积为平均数与值之间的面积,因而查表时不能直接用两端的面积,而是要用0.5减去两端的面积,然后再查表求Z值。例如:求分布曲线右端面积为0.025的分界点的值:0.5-0.025=0.475,查表得Z=1.96;求分布曲线左端面积为0.05的分界点的Z值:0.5-0.05=0.45,查表得Z=-1.64(表中面积为0.44950)。,(3)已知正态曲线下中央部分的面积,求两侧分界点的值。由于分布曲线是对称的,两侧的Z值其实是一样的,只是符号不同而已,所以只查一侧的Z值即可。由于表中列出的只是平均数与一侧Z值之间的面积,所以查表之前,要先用2去除中央部分的面积。例如:求中央部分面积为0.68的两侧分界点的Z值:0.68/2=0.34,查表得Z=1.00(表中面积为0.34134).,四、正态分布理论的实际应用正态分布理论和正态分布表在语言研究中有着重要的实用份值。下面是一些主要的应用示例。1.选拔与淘汰在包括外语教学在内的各类教育中,我们都面着对学生进行选拔和淘汰的问题,如高考时选拔考生、教学中选拔优等生或淘汰差生等等。在所有这些工作中,正态分布的理论都能给予我们有益的指导。,2.考试后分数的分档在各类教育评估中,都会遇到对分数或能力进行分档的问题,例如在考试后,往往要统计每个分数段的人数。当考生人数比较少时,直接数一数就可以了,但是对于大规模的考试(例如涉及数以千计、数以万计的考生),这一做法显然不太经济有效。这时,如果考试的平均分和标准差已知,利用正态分布表就可以估计出各分数段的人数。该人数为理论值,它与实际人数是比较接近的。,3.等级评定前确定各等级或档次的人数我们在按照某种能力指标、考试分数等对学生评定等级或分档时,为了保证各等级人数分布合理,可以利用正态分布的理论,计算出各等级或档次应该包含的人数。例1如果100个学生的能力服从正态分布,要把他们分成5个等级(A,B,C,D,E),求每个等级应该包含的人数。,分析:求每个等级的人数,首先要计算每个等级在正态分布中的面积或概率,然后乘以总人数即可得到各等级的人数。在讨论正态分布的特征时我们看到,正负三个标准差基本上包括了正态曲线下所有的面积,因此我们可以将6个标准差除以等级的个数5,就可以把整个面积等分成5个部分。计算:第一步:将6个标准差除以等级的个数5,得1.2个标准差,即平均每一等级约包含1.2个标准差或Z分数。这5个等级为:,第二步:查表求对应于每一等级的而积或概率:,第三步:用各等级的面积乘以总人数100,得各等级应该包含的人数(应四舍五入取整数,如果各等级的人数之和与总人数有出入,则在中间一个等级调整):,五、检验分布是否为正态的方法对于一组数据是否为正态分布,可以用多种方法进行检验。方法之一是绘制直力一图或多边图,这样就可以非常直观地看出数据分布的形态是否大休对称或呈单众数分布。方法之二是比较理论分布与实际分布中各标准差之间的而积或概率。方法之三是计算数据分布的偏态值和峰值。如果分布的形态不是对称的,而是偏向一边,称为“偏态”。如果偏向左边,即低数值的次数偏高,称为“正偏态”反之,则称为“负偏态(见图5.3)。,偏态值就是分布的偏刹程度的指标,正值表示分布为正偏态,负值表示分布为负偏态,如果其值为0,则表示分布为正态。峰值表示分布曲线的顶点尖峭的程度,正值表示分布曲线较尖,称“尖峰态”,负值表示分布曲线较平,称为“低峰态”,如果其值为0,则表示分布曲线为正态(见图5.4)计算偏态值与峰值的公式为,方法之四是比较算术平均数、众数与中数。从正态分布的特征可知,在正态分布中这三个数值完全相同,在正偏态分布中,平均数高于中数和众数,而在负偏态分布中,平均数则低于中数和众数,因此通过比较它们的接近程度,就可以知道数据的分布是否呈正态分布。根据三者之间的关系,皮尔逊提出了一个偏态量数公式:,式中SK偏态量数M算术平均数;Mo众数;Md中数。如果SK为正值,则分布为正偏态,如果SK为负值,则分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年三种人考试综合提升测试卷含答案详解(培优B卷)
- 期货从业资格之《期货法律法规》综合练习含答案详解(综合题)
- 2025年辽宁科技大学招聘高层次和急需紧缺人才130人笔试高频难、易错点备考题库带答案详解
- 2023年度特岗教师高分题库含答案详解【模拟题】
- 2025互动式网络安全防护系统采购合同
- 2024-2025学年度施工员测试卷含答案详解【巩固】
- 2025年职业病危害及预防措施试题及参考答案
- 2025年远程协作工具的效率优化研究
- 2023年度医院三基考试模拟试题及参考答案详解(研优卷)
- 2025中考数学总复习《锐角三角函数》每日一练试卷【夺冠】附答案详解
- 政府人员网络安全培训课件
- 湿地巡护员培训课件
- 2025鄂尔多斯市城市建设投资集团招聘92人考试参考题库及答案解析
- 2025年地质实验室技术员综合素质考核试卷及答案解析
- 小班海浪滚滚课件
- 老年痴呆科普课件
- 2025年泉州大队委笔试题目及答案
- GB/T 45906.8-2025变电站二次系统第8部分:电气操作防误
- 义乌市国有资本运营有限公司2025年度员工公开招聘笔试参考题库附带答案详解
- CRT2000 消防控制室图形显示装置-使用说明书-V1.0
- 文旅演艺活动
评论
0/150
提交评论