试验数据及图像的计算机处理1(第一篇1、2、3章).ppt_第1页
试验数据及图像的计算机处理1(第一篇1、2、3章).ppt_第2页
试验数据及图像的计算机处理1(第一篇1、2、3章).ppt_第3页
试验数据及图像的计算机处理1(第一篇1、2、3章).ppt_第4页
试验数据及图像的计算机处理1(第一篇1、2、3章).ppt_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一篇 统计学基本知识,第一章 统计学基本概念,1.1 频率与概率、贝努里定理 频率与概率都是人们用来表征某个事件在一定条件下发生与否的可能性大小的量。但二者具有不同的概念。 频率(frequency):设在n次试验中,某随机事件A出现次数为,则称f(A)=/n为A事件出现的频率。频率的特点为频率的不稳定性。例如抛硬币实验,若抛有限次数,则每次实验正反面出现的次数都不一样,其频率也不一样。 概率(probability):反映随机事件在某个条件下发生与否的可能性大小的客观定值。,可见,随着实验次数n的增加,频率趋向0.5,该值即是抛硬币试验的摡率值。,贝努里定理(Bernoulli theor

2、em) 设为n次试验中事件A出现的次数,P是事件A在每次试验中出现的概率,于是对任意小的正数(0)均有下列关系成立: 这说明在n时,频率/n 与概率P之间的差,小于任意小正数的概率趋近于1,也就是说,当试验无限地做下去时,事件A发生的频率将与它的概率趋于一致。这就是所谓频率稳定性的由来。这条定理是频率与概率之间的联系桥梁。由此,人们实际上往往用频率来代替概率。,概率的基本性质 1.任一事件A的概率P(A)必介于0和1之间,即0P(A)1。 2.必然事件U的概率等于1,即P(U)=1。 3.不可能事件V的概率等于0,P(V)=0。 4.如果任一事件A 发生的概率很小,则称该事件为“小概率事件”。

3、从实验观点看,可以认为小概论事件在一次试验中基本不会出现。反之,对于大概率事件,则可认为在一次实验中总会出现。,1.2 随机变量及其概率分布 1、随机事件(random event) 从实验角度讲,通常把一次独立实验的结果称为一个事件。当我们进行实验时,如果某一事件在实验后有时发生,有时不发生,则称此事件为随机事件。 2、随机变量(random variable) 随机事件数量性的表征称为随机变量。例如投掷正立方体:其随机变量的取值分别为1,2,6,并且随机变量是以1/6的概率来取得每个数值的。 一般设为随机变量,x为的观测值,例x1,x2,xn表示的1,2,n个观测值。,3、随机变量的分类

4、(1)离散型随机变量(random variable of discrete type ) 只在某区间内取有限多个数据者称离散型随机变量;例如投掷正立方体 (2)连续型随机变量(random variable of continuous type) 在某区间内可取任意多个数值者称为连续型随机变量。例如一批电视机的寿命。 注 同一事件往往有不同的随机变量。例,对于出现废品钢锭这一随机事件,将废品钢锭的重量作为一个随机变量,讨论废品钢锭的根数是一种随机变量,讨论废品钢锭某一成分的含量又是一种随机变量。,4、随机变量的概率分布及其描述 随机变量的取值xi与它出现的概率Pi间的关系称为随机变量的概率分

5、布(probability distribution)。 设某连续型随机变量与其概率有如图1.2的关系:则分别称:,曲线的概率分布曲线(probability distribution curve) 曲线方程y=(x)的概率分布密度函数(probability distribution density function) 阴影面积的概率分布函数(probability distribution function),可知,分布函数F(x)实际是连续型随机变量在某个区间出现的概率,是最完善的描述。当知道一个随机变量的分布函数时,不仅知道该变量取哪些值,还可知道它是以什么样的概率取这些值的。,注:区

6、分两类不同随机变量的分布图:,1. 3 随机变量的数字特征,1. 数学期望(mathematical expectation) 表征随机变量在数轴上取值的集中位置,说明xi值大多数在哪里,数学期望可看成是平均值概念在随机变量方面的推广。 (1)离散型随机变量的数学期望 式中:xi离散型随机变量的取值。 Pi该随机变量取值发生的概率。,证:设实验次数N很大,某离散型随机变量取值x1,x2,xn,相应出现的次数分别为m1,m2,mn,其平均值为 ,则有:,当N很大时,频率fi近似地等于值xi发生的概率Pi,因此有:,可见,离散型随机变量的数学期望即是以概率为权的加权平均值,且当试验次数愈多,此式愈

7、正确。,(2)连续型随机变量的数学期望 证:设(x)在区间(-,+)上有定义,取x范围,在(x,x+x)区间上可取任何值,其出现的概率为(x)x,近似地数学期望为: 当x0时,上式便为 连续型 随机变量的数学期望,2. 中值(Medium value) 平分频率曲线所包围面积的垂直线的横坐标称为中值。以符号x50表示之。因为分布曲线所包围的面积为1,所以中值垂线左右两部分面积各等于1/2 ,根据这一性质,当已知随机变量的密度函数(x)时,可按以下条件求出中值x50的大小。,3. 方差(Variance) 表征随机变量围绕数学期望的离散程度。也就是衡量随机变量分布的分散程度的特征值。方差的定义式

8、为: Var ()=E-E()2 (1.3) 即随机变量对它的理论均值E()之差的平方的数学期望。 理解(1.3)式。 设一批数据为x1,x2,x n,每个数据的残差为i= xi - ,取其平方和并用数据个数n除,有: (1.6) 而符号 是平均值的概念, 也是平均值,对于随机变量,均值可理解为数学期望,可见,(1.3)式与(1.6)式具有相同的形式。,(1)离散型随机变量的方差为: 其中:E()的数学期望 Pi值为xi发生的概率 (2) 连续型随机变量的方差为:,当一组随机变量确定以后,数学期望和方差均为常量,二者存在如下关系:,标准差:即方差的平方根 称作随机变量的标准差(standard

9、 deviation)。,第二章 两种常用的概率分布,2.1 随机变量的正态分布 正态分布是数理统计学中最重要的分布,应用非常广泛,诸如材料性能实验,产品寿命研究,化学成分、测量误差、医学检测等等,都可用正态分布加以处理。 1、正态分布的概率分布密度函数: 可知,除随机变量的取值x外,还有两个参量,2。随机变量遵从正态分布,简记为xN(,2)。,(1.8),2正态分布的概率分布函数: 随机变量取值x发生在区间(a,b)的概率为:,3正态分布的概率分布曲线: 具有如下特征: ( 1)曲线的纵坐标恒为非负值; (2)观测值在平均值附近出现的机会最多,故曲线存在一个高峰; (3)曲线有个一对称轴,对

10、称轴两侧的发生概率相等; (4)对称轴两边曲线上 相同位置上各有一拐点。,4正态分布的数学期望, ,令x-=t,dx=dt,x时,t,有:,方括号内第二项为0,又根据概率积分公式,(1.13),可见,正态分布的参数恰好是该分布的数学期望,即对称轴所在的位置,5方差:,6标准正态分布 对于任意正态分布:,(1.15),令,这即为标准正态分布的分布函数,而新变量U称为标准正态变量(standardized normal variable)。标准正态分布的数学期望为E()=0,方差为Var()=1。故随机变量若服从标准正态分布可记为:UN(0,1)。,标准正态分布曲线见图1.5,其密度函数为 UN(

11、0,1),7正态概率密度函数的定积分计算 将任意正态分布经变量置换而形成标准正态分布后,便可作定积分计算。现求(-,xp)范围内的积分。当x=xp时,U=Up,故有:,根据如下级数展开式:,被积函数可展开成,故有,根据上式,给定一个Up值,便可求得相应的F(Up)值,由此建立正态分布数字表。应用正态分布数值表,便可求得标准正态变量U发生在任一区间内的概率值。,正态分布两种建表方法,( ,Up) ( 0,Up ),(1) 对于区间(Up1,Up2),(见图1.6,a),有: PUp1 U Up2 =F(Up2)F(Up1) (1.16),(2) 若Up为负值(Up 0),由图1.6,b,可知:

12、P-U-Up = F(-Up)=1F(Up) (1.17) 因此,正态分布数值表只对正值列出分布函数F(Up)的值。,(3) 对于对称区间(-Up,Up) 有 P-UpU Up=F(Up)F(-Up) =F(Up) 1F(Up)=2F(Up)1 (1.18),(4) 对于任意正态分布N(,2),求在区间 (-Up,+Up ) 内的概率 P (-UpU+Up )=2F(Up)-1,例 求正态随机变量取值x发生在区间(-,+),(-2,+2),(-3,+3)的概率。 P-x+ =2 F(1)1=20.84131=0.6826 P-2x+ =2 F(2)1=20.97721=0.9544 P-2x+

13、 =2 F(3)1=20.99871=0.9974,2.2 离散型随机变量的二项分布,1二项分布的定义: 二项分布是离散型随机变量的一种概率分布模型,它用于计算在n次相同条件的试验中,出现x次“正”(或“反”)的概率B(x;n,p)。 设进行了n次重复试验,若已知某事件发生的概率为P,不发生的概率为q(1P),若发生这一事件的次数为x(x=1,2,3,n)则在这n次试验中出现x次该事件的概率为: (1.19) 式中,x0,1,2,3,n; 称为从n个元素中取出x个元素的组合数。,2.二项分布的基本应用条件及基本特征: 二项分布的基本应用条件: (1) 每次实验只出现两种可能的结果(“正”或“反

14、”),且二者互不相容,即出现“正”就不出现“反”; (2)各次试验之间是相互独立的,即此次试验出现的结果不影响下次试验出现的结果; 二项分布的基本特征为: (1)n次试验共有(n+1)个可能发生的结果,即x0,1,2,3,n。因此当n为偶数时,可能发生的结果为奇数个;当n为奇数时,可能发生的结果为偶数个; (2)当P0.5时,二项分布为对称分布,且(n1)为奇数时,二项分布中有一最大值;(n1)为偶数时,二项分布有两个最大值; (3)n逐渐增大时,偏态的二项分布将逐渐趋于对称,可见,n与P决定了二项分布的形状,故n与P也叫二项分布的参数。,例1.2 某考试题采用选择题形式,每题都有5个选择,设

15、该考卷共有10道题,问学生通过猜题方法答对0,1,2,3,10道题的概率分别是多少? 解:因为每道题都有5个选择,则学生猜对每道题的概率为20,根据1.19式,计算如下:,例1.2题的概率分布图,0 1 2 3 4 5 6 7 8 9 10,0.3020,第三章 随机误差的分布及 实验数据精密度评定,3.1随机误差的正态分布 众所周知,任何一门学科的研究都离不开各种有关的实验。在正确进行实验设计,建立尽可能完善、科学、经济的实验系统后,实验的第一步便是一系列的测量。科技工作者们总是力求使自己测取的结果能尽量反映被测对象的真实状况。但是,由于人们认识能力的不足,科学技术水平的限制,测试条件随环境

16、的变化,被测值常常不可通约(不能用有限数值表示),甚至一些人为的因素,使得实验的观测值与被测对象的真实值并不一致。这种矛盾在数值上的表现即为误差(error)。由于上述原因,我们得出如下误差公理:“误差自始至终存在于一切科学实验的过程中,人们可以减少误差,但不能消除误差”。,1.误差的分类 (1)系统误差(system error) 由于测量仪器不准确,测定方法不合理,测定技术不完善,测量条件(如温度、湿度、压力)的非随机变化以及不同观测者的不同观测习惯等引起的误差;例:高温试验时对测温热电偶未作校准产生的误差;温度显示仪调零不准产生的误差;在无恒温装置的实验室测试金属试件长度时,由于季节不同

17、产生的误差;用读数显微镜测量硬度压痕时由于习惯不同产生的误差等等。为了使试验设备和仪器的系统误差减小到最小,需要将其与一个标准量相比较,这个过程称之为标定(calibration)。任何测试装置只有在经过严格标定以后才能使用。,例 硬度量值的传递系统,(2)过失误差(gross error) 指由于观测者的疏忽大意以致观测时操作错误、读数时读错、计算时算错、记录时记错等引起的误差。过失误差也叫粗差,它给实验数据的分析带来麻烦,甚至产生错误的结论,故必须坚决避免。在作误差分析前应予以剔除。 (3)随机误差(random error) 在相同条件下多次测量同一量时,其误差的绝对值和符号以不可以预定

18、的方式变化,即误差的出现具有随机性,这即为随机误差。除系统误差与过失误差以外的一切误差都是随机误差。尽管随机误差的出现是随机的,具有不确定性,但就总体而言,明显遵从统计规律,误差理论的内容,主要是研究随机误差的规律,其目的在于根据已有的观测结果所显示的误差分布状况,来预测未来相同条件的观测中误差的大小,从而在作科学结论时对观测结果的可靠性及准确度做到心中有数。,2、随机误差的规律 例1.3: 将一根长度为100毫米的金属试棒分别测量50次和100次,其结果见表1与表2(见教材P16)。,大量实践证明,任何物理量的测定中,只要仅存在随机误差,其观测值的误差分布都显示出正态分布的图形。即随机误差一

19、定服从正态分布这一规律,这是误差分布的重要规律。,根据误差分布曲线的特点,高斯(Gauss)在1795年从理论上推出了误差分布曲线,其方程为: 式中,均方误差(mean square error); h精密度指标(precision index)。,标准正态分布,可见均方误差越小,精密度指标越大,曲线越陡,小的随机误差出现的机会越多,测定的精密度越高,数据的重现性越好,观测值显得越集中,y随x减小得越快,小,大,正态分布曲线中部曲率向下,两旁曲率向上,故曲线上必有一拐点,拐点上曲线的二阶导数为零,由此可解得该二拐点,即: 可见均方误差便是曲线上的拐点。,3.2 实验数据的精密度评定方法 实验中

20、得到的测量值M由真值(truth value)T和实验误差组成, 即 M=T 但真值是不可测的,无论采用何种仪器,采用何种测量方法,都不能获得某量的真值。为此,首先应解决用什么样的值代替真值这一问题。,1. 真值与平均值 根据误差分布定律,如果测量次数无限增多(n),由于正负误差出现的机会相等,将各次测定值相加并求其平均,则在无系统误差存在的条件下,可获得极近于真值的数值。所以可以说:真值是测定次数无限多时求得的平均值。但实际测试的次数是很有限的。因此我们只能寻求一个最佳(近似)值来替代真值。 设某量的真值为T,测定时获得的一系列观测值为: x1,x2,x3 , , xn 对应的误差为 T-x1,T-x2,T-xn 根据Gauss误差定律,误差为T-xi的测定值,在区间(T-xi,T-xi+dx)出现的概率为:,上述观测值出现的概率可分别写为:,dx,因各次测量均为独立事件,根据概率乘法定理,误差T-x1,T-x2,T-xn同时出现的概率为: 由正态曲

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论