已阅读5页,还剩91页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,概率论与数理统计,第六章 数理统计的基本概念,2,第六章 数理统计的基本概念,6.1 总体与样本,6.1.1 数理统计的基本问题,在前面的章节中,介绍了概率论的基本内容,从本章开始将介绍一些数理统计的基本知识和一些常用的数理统计方法.,概率论中许多问题的讨论,常常是从已给的随机变量X出发来研究X的种种性质,那里X的概率分布都是已知的,或者假设是已知的.,3,概率论中许多问题的讨论,常常是从已给的随机变量X出发来研究X的种种性质,那里X的概率分布都是已知的,或者假设是已知的. 但是在实际问题中,一般说来,人们事先并不知道随机事件的概率、随机变量的概率分布和数字特征,而需要对它们进行估计或作某种推断,这就产生了数理统计的问题.,下面看两个例子.,4,例1 从5000个产品中随机地抽检一个产品,结果可能合格,也可能不合格.,由概率论可知,这个现象可以用两点分布来描述:,这里,“X= 0”表示产品不合格,“X= 1”表示产品不合格,p为不合格率.,但是,p等于多少是事先未知的,也就是说01分布中的参数是未知的.,5,试问,(a)如何求出或近似地求出p的值?,(b)如果人们根据以往的生产经验提出假设: “p0.05”,,那么,是同意这个假设还是否定这个假设呢?应该用什么方法来检验?,6,例2 一个工厂生产某种规格的圆柱齿轮.,由于原料和加工过程中的种种随机因素的影响,各个齿轮的径向综合误差X的数值一般是不同的,因此加工出来的齿轮,它的径向综合误差X是一个随机变量.,但是X的分布函数FX(x)(或概率密度fX(x)是什么,事前是未知的.,试问,(a)如何求出或近似地求出F(x)(或f(x)的值?,7,试问 (a)如何求出或近似地求出F(x)(或f(x)的值?,(b)如果人们根据以往的生产经验提出假设: “X服从正态分布N(,2)” (和2已知或未知),,那么,是接受这个假设还是否定这个假设呢?,应该用什么方法来判断?,(c)如果人们只需要知道X的数学期望和方差,那么,如何估计它们的数值?,8,怎样解决这些问题呢?,对例1来说,由于产品总数是有限的,人们可以对所有产品逐个检验,求出不合格产品所占的比例,就得到概率p;,同时,假设“p0.05”是否成立的问题也就得到了解决.,但是,这种普查的方法是不可取的,有时也是行不通的.,因为对5000个产品逐个检验,一般来说要耗费很多的人力、物力和时间;,特别是,当产品质量的检验是属于破坏性检验时,根本就不可能逐个检验.,9,这时,在数理统计中通常采用的办法是:,从研究对象的全体元素中随机地抽取一小部分进行观察(或试验), 然后以观察得到的资料(或数据)为出发点,以概率论的理论为基础来对上述的问题进行估计或推断, 这种方法称为统计推断.,10,统计推断的问题可以分为两类:,一类是对未知参数以及对未知概率分布(分布函数、概率密度或分布列)的估计问题.,另一类是对未知参数和概率分布的假设检验问题.,这些都是数理统计的基本问题.,当然,上述问题远未穷尽数理统计的所有基本问题.,例如,数理统计还要研究如何科学地安排试验,才能最经济、最有效地取得统计推断所必需的数据资料.,这部分内容,我们不讨论.,为了研究统计推断问题,下面依次介绍总体和样本的概念.,11,第六章 数理统计的基本概念,6.1 总体与样本,6.1.2 总体(Population),在数理统计中,人们把所研究的全体元素所构成的集合称为总体(或母体),而把组成总体的每个元素称为个体.,如果总体包含有限个个体,则称为有限总体(或具体总体),如果总体包含无限个个体,则称为无限总体(或抽象总体).,12,如在例1从5000个产品中随机地抽检一个产品检查是否合格的试验中,每个产品是个体,5000个产品就是一个总体,它是有限的;,在例2考察齿轮的径向综合误差的试验中,每一件齿轮是个体,生产出来的全部齿轮是一个总体,它是无限的,,这是因为我们可以设想,工厂生产这种齿轮可以在相同的条件下无限地生产下去.,再如,某城市现有大学生组成的集合是个有限总体,而该城市在一定条件下培养起来的大学生组成的集合是个无限总体.,13,当用数理统计方法研究总体时,人们主要关心的不是每个个体本身,而仅仅是与每个个体的某种数量指标(或特征)的有关问题.,如在例1从5000个产品中随机地抽检一个产品检查是否合格的试验中,人们关心的是刻画产品合格与否的数量指标X的概率分布问题;,在例2考察齿轮的径向综合误差的试验中,人们关心的是齿轮的径向综合误差X的概率分布问题.,因此,对总体的研究实际上就是对某一个随机变量X的概率分布的研究.,14,为了便于叙述,一旦所考察的数量指标明确以后,就可以把总体与数量指标及相应的概率分布等同起来,也就是说,总体是一个概率分布或服从这个概率分布的随机变量.,如在例1从5000个产品中随机地抽检一个产品检查是否合格的试验中,总体就是01分布或服从这个分布的随机变量X,,在例2考察齿轮的径向综合误差的试验中,总体就是描述齿轮的径向综合误差的随机变量X或它所服从的分布.,15,以上所考察的个体的数量指标只有一个,即只需要用一维随机变量来描述;,如果同时要考察的数量指标不止一个,那么就需要用多维随机变量来描述.,例如,对上述某城市现有大学生的这个总体,若要同时考察大学生的身高X、体重Y和肺活量Z,那么就需要三维随机变量(X,Y,Z).,同样,为了叙述方便,人们把总体与(X,Y,Z)或它的分布等同起来,并称这样的总体为三维总体.,在本书中我们主要讨论一维总体,多维总体是多元统计分析主要研究的对象.,16,第六章 数理统计的基本概念,6.1 总体与样本,6.1.3 样本(Sample),在6.1.1中已经说过,为了对例1和例2中所提出的问题作出估计或推断,就必须从所研究对象的全部元素中随机地抽取一小部分进行观察.,所谓随机地是指总体中的每个个体被观察到的机会是一样的,而所谓抽取一部分个体进行观察,其实就是对总体X重复进行若干次观察以获得X的若干个观察数值.,17,例如,若在例1中随机地抽检5个产品,结果分别是“合格”、“不合格”、“合格”、“合格”和“不合格”,那么就得到X的5个观察值:0,1,0,0,1.,一般说来,从总体X中随机抽检n个个体,则可以得到的n个观察值:x1,x2,xn.,为了叙述方便,人们把从总体X中随机抽检(或观察) n个个体的试验,称为随机抽样(Sampling),简称抽样,n称为容量(Size).,18,显然,对总体X的任何一次容量为n的抽样结果 “x1,x2,xn” 是n个完全确定的数值;,但由于抽样是一个随机试验,所以这n个观察值是随每次抽样而改变的,它具有随机性.,换句话说,对具体某次抽样来说,抽样结果是n个确定的数值: x1,x2,xn;,而离开了特定的某次抽样来说,抽样结果是n个随机变量: X1,X2,Xn.,19,人们称这n个随机变量 X1,X2,Xn 为来自总体X的一个容量为n的样本(或子样).,而 x1,x2,xn 称为样本的一个观察值(Observations),简称为样本值,有时也称为样本的一个实现.,容量为n的一个样本可以看作n维随机变量 (X1,X2,Xn), 它的分布就称为样本的分布.,20,样本值 x1,x2,xn 可以看作n维空间的一个点 (x1,x2,xn), 称之为样本点.,样本点的全体称为样本空间,它是n维空间或n维空间的一个子集.,21,前面把抽样结果看作n维随机变量,并称之为样本,这一点是很重要的.,因为只有这样才能运用概率论的理论对总体X进行各种推断以及研究比较各种推断方法的好坏.,数理统计的主要任务之一,就是研究如何根据样本来推断总体.,样本能很好地反映总体的特性,22,为了使抽得的样本能很好地反映总体的特性,通常人们假设对总体X的n次观察是在相同的条件下重复进行的.,这样得到的样本X1,X2,Xn满足下面的两个条件:,(1)X1,X2,Xn相互独立;,(2)每个Xi(i=1,2,n )与总体X有相同的分布.,上面的两个条件,实际上就是样本具有代表性的反映;,另外,有了独立性,就可以方便地应用概率论中有关独立随机变量的种种结果.,23,这样得到的样本X1,X2,Xn满足下面的两个条件: (1)X1,X2,Xn相互独立; (2)每个Xi(i=1,2,n )与总体X有相同的分布.,人们把满足这两个条件的抽样方法称为简单随机抽样(Simple random sampling),而得到的样本称为简单随机样本.,24,例如,若在例1从5000个产品中随机地抽检一个产品中用有放回的抽样方法随机地检验n个产品,则得到的样本X1,X2,Xn就是独立的且与总体X有相同的分布,即,i=1,2,n.,因此,这种抽样方法是简单随机抽样,而得到的样本是简单随机样本.,25,若将分布列写成,则由独立性,样本的分布可写成,26,今后,如果不作特殊的声明,所说的抽样皆为简单随机抽样,所说的的样本皆为简单随机样本.,27,最后,将前面讲的总体和样本的概念用定义的形式小结如下:,定义6.1,(a)称随机变量X的概率分布为一个总体,或称随机变量X为一个总体,而X的分布称为总体的分布;,(b)如果X1,X2,Xn是相互独立且与总体X有相同分布的n个随机变量,即如果它们的联合分布函数为,(F(x)为X的分布函数),则称X1,X2,Xn为来自总体X的一个容量为n的简单随机样本,简称为X的一个样本,而F*(x1,x2,xn)就是这个样本的分布函数(Sample distribution function);,28,(c)样本(X1,X2,Xn)的每一个观察值 (x1,x2,xn) 称为样本值(或样本的一次实现),样本值的集合称为总体X的容量为n的样本空间.,29,为了数理统计的需要,人们引入了标准正态分布N(0,1)的上侧分位数的概念. 设X N(0,1),对给定的(0 1),若数u,满足条件,即,则称 为N (0,1)分布的上侧分位数,其几何意义见图3.10.,30,u,O,(u),图3.10,31,u,O,(u),32,33,第六章 数理统计的基本概念变量,6.3 2,t和F分布,为了本章及以后各章的需要,下面介绍数理统计中常用的三大分布,即 2,t和F分布.,它们在数理统计中占有极重要的地位.,34,第六章 数理统计的基本概念,6.3 2,t和F分布,6.3.1 2分布(Chi-square distribution),定义6.2 设X1,X2,Xn为n个(n 1)相互独立的随机变量,它们都服从标准正态分布N(0,1),若,则随机变量Y的分布称为自由度为n的2分布,记为2(n).,35,任何服从2(n)分布的随机变量X称为自由度为n的2变量,简称为2变量,并记作 X2(n).,36,根据3.6节中的例3和4.5节中的卷积公式,用数学归纳法容易证明2(n)的概率密度为,利用函数的定义,容易验证,37,x,O,f(x),38,定理6.2 设随机变量X与Y相互独立,且X2(m),Y2(n),则 X+Y2(m+n).,证 设X1,X2,Xm,Y1,Y2,Yn为m+n个相互独立的标准正态随机变量.,因X与,都服从2(m)分布,Y与,39,都服从2(n)分布,且,相互独立,故X+Y与,同分布.,由2分布的定义知,后者服从2(m+n)分布,故 Z=X+Y2(m+n).,40,上述的定理表明2分布关于自由度具有可加性.,本书的附表3对某些不同的自由度n及不同的数 (01)给出了满足等式,的临界值,的数值(图6.5),式中2 2(n).,临界值,41,x,O,f(x),42,临界值,也称为2(n)的上侧分位数.,43,x,O,f(x),44,由附表3可以查得,45,由附表3可以查得,等等.,46,第六章 数理统计的基本概念,6.3 2,t和F分布,6.3.2 t分布(t-distribution),定义6.3 设随机变量X,Y相互独立,且XN(0,1), Y2(n),则称随机变量,所服从的分布为自由度为n的t分布,又称学生氏(Student)分布,记为t(n).,47,任何服从t(n)分布的随机变量T,称为自由度为n的t变量,记为 T t(n).,48,根据3.6节中的方法先求出,的概率密度.,因为X与Y相互独立,故X与Z也相互独立.,再利用4.5节中的方法可得变量T=X/Z的概率密度为,49,t,O,f(t),t(6),t(2),N(0,1),50,可以证明,当n无限增大时,t分布的极限分布就是标准正态分布.,51,本书的附表4对某些不同的自由度n及不同的数 (01)给出了满足等式,的临界值,的数值(图6.7),式中Tt(n).,临界值,52,t,O,f(t),图6.7,53,临界值,也称为t(n)的上侧分位数.,由附表4可以查得,等等.,54,t,O,f(t),55,56,第六章 数理统计的基本概念,6.3 2,t和F分布,6.3.3 F分布(t-distribution),定义6.4 设随机变量X,Y相互独立,且X2(n1), Y2(n2),则称随机变量,所服从的分布为第一自由度为n1,第二自由度为n2的分布,记为FF(n1,n2).,57,任何服从F(n1,n2)分布的随机变量F,称为自由度为(n1,n2)的F变量,简称为F变量,记为 FF(n1,n2).,易知定义6.4中的随机变量的概率密度为,58,本书的附表5对某些自由度n1,n2及不同的(01)给出了满足等式,的临界值,的数值(图6.9),式中FF(n1,n2).,临界值,也称为F(n1,n2)的上侧分位数.,59,x,O,f(x),60,x,O,f(x),61,F分布的上侧分位数具有性质:,事实上,若X2(n1),Y2(n2),而且X与Y相互独立,则,62,于是,对任意(01)存在上侧分位数,使得,而,63,故,64,由于,故,表示F(n1,n2)的上侧1分位数,65,从而,利用上式,可以从,求出分位数,66,例如,查附表5得,故,67,第六章 数理统计的基本概念变量,6.4 统计量和抽样分布,数理统计的任务是通过样本推断总体.,68,数理统计的任务是通过样本推断总体,但样本包含了关于总体的各方面信息,在实际处理问题时,很少直接利用样本进行推断.,往往需要针对不同的问题构造出样本的某种函数 T=T(X1,X2,Xn), 以便把样本中所包含的有关问题的信息提取出来,然后再利用这种信息进行推断.,这种函数仍然是随机变量,人们称之为统计量.其定义如下:,69,定义6.5 设X1,X2,Xn为总体X的容量为n的样本, T(x1,x2,xn)是定义在样本空间上的不依赖于未知参数的一个连续函数,则称随机变量 T(X1,X2,Xn) 为一个统计量.,例如,X1,X2,Xn为总体N(,2)的一个容量为n的样本,且未知、2已知,那么,70,例如,X1,X2,Xn为总体N(,2)的一个容量为n的样本,且未知、2已知,那么,都是统计量;而,不是统计量,因为它依赖于未知参数.,71,下面定义一些重要的统计量,定义6.6 设X1,X2,Xn为总体X的一个容量为n的样本,则统计量,称为样本均值,而统计量,72,73,统计量,称为样本方差. 若x1,x2,xn为样本X1,X2,Xn的观察值,那么代入样本均值和样本方差的定义式,则可以得到样本均值和样本方差的观察值.,74,75,定义6.7 设X1,X2,Xn为总体X的一个样本,k为任何自然数,则统计量,和,分别称为样本k阶原点矩和样本k阶中心矩.,76,显然,样本均值就是样本一阶原点矩,它常用来估计总体的均值.样本方差和样本二阶中心矩有点差异,下面用,表示样本二阶中心矩,即,样本方差与样本二阶中心矩常用来估计总体的方差,至于它们在这方面的差异,下一章将讲述.,77,设X1,X2,Xn为总体X的一个样本,x1,x2,xn为样本的一个观察值,将它们按大小次序排列,得到 x1 x2 xn.,y1,y2,yn为样本的另一个观察值,将它们按大小次序排列,得到 yn yn-1 y1.,一组观察值 x1,x2,xn, 将它们按大小次序排列,得到 x(1) x(2) x(n).,78,定义6.8 (顺序统计量)设X1,X2,Xn为总体X的一个样本,x1,x2,xn为样本的一个观察值,将它们按大小次序排列,得到 x(1) x(2) x(n) 称X(i)为第i个顺序统计量,如果不论样本 X1,X2,Xn 取怎样一组观察值 x1,x2,xn, X(i)总是取其中的x(i)为观察值(i=1,2,n).,显然,X(1) X(2) X(n),X(1)和X(n)常常分别称为最小和最大顺序统计量.,79,由下式决定的,称为样本中位数,而将,称为样本极差.,80,样本中位数常用来作为对称总体均值的估计,而样本极差可用于估计总体分布的分散程度,它们的计算比较简单,但是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国抓斗式卸船机行业深度分析与投资研究报告
- 2025年中国拖拉机行业市场分析及投资可行性研究报告
- 2025年中国排水阀芯行业市场发展战略分析及投资前景专项预测报告
- 2025年中国搅棒行业市场前景预测及投资价值评估分析报告
- 第2课 我行我素不可行教学设计-2025-2026学年小学心理健康二年级上册教科版
- 2025年中国旋挖钻机行业市场前景预测及投资价值评估分析报告
- 2025年中国橡塑保温管行业市场分析及投资可行性研究报告
- 2025年中国气动管行业市场专项调研及投资前景可行性预测报告
- 2025年中国污水处理市场现状研究及未来前景趋势预测报告
- 2025年中国活动扳手行业市场全景调研及未来趋势研判报告
- GB/T 3091-2025低压流体输送用焊接钢管
- DB32-T 5082-2025 建筑工程消防施工质量验收标准
- 人教版六年级上册道德与法治全册教案教学设计
- 2025届高考物理二轮复习热点题型归类:光学
- 贵州省贵阳市2024-2025学年九年级上学期期末化学试题(原卷版+解析版)
- 光伏电站设计合同范本
- 高二会考计算机基础知识
- 卡通小蝌蚪找妈妈儿童绘本
- 《ESD紧急停车系统》课件
- 《AI技术入门讲座》课件
- 海洋工程类专业大学生职业生涯发展
评论
0/150
提交评论