概率与数理统计-6-1_第1页
概率与数理统计-6-1_第2页
概率与数理统计-6-1_第3页
概率与数理统计-6-1_第4页
概率与数理统计-6-1_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,统计学的做法分为两种:描述性统计推断性统计,第六章 描述性统计,丹麦统计史学家哈尔德认为,”统计学”和”统计学家”词出于意大利语:统计学即国情学,对象是国务活动家感兴趣的事实,而统计学家则是”处理国务的人”,国家:State.统计学Statistics,概率论讨论了随机变量的基本概念和方法。 随机变量及其概率分布全面描述了随机现象的统计规律性。 在概率论的许多问题中,随机变量的概率分布是已知的,或者假设为已知的。而一些计算和推理就是在这已知的基础上得出来的。,但是在许多实际问题中,所描述的随机现象的随机变量的概率分布可能完全不知道;或者由于现象的某些事实而知道其分布形式,但是不知道其分布函数中所含的参数。,1.若规定寿命低于1000小时的产品为次品,设X表示灯泡寿命,此 问题就是要求, 就是我们希望知道它的分布.,2.从平均寿命,使用时数长短差异看其质量就是, 就是我们希望知道该分布的一些数字特征,如期望和方差等,例 1 某工厂生产大批灯泡,要从其使用寿命这个数量指标来看其质量,类似的问题在生产活动和经济活动中是经常会遇到的,,从理论上讲,只要我们对随机现象进行大量的观察或试验,它的统计规律性就会呈现出来。,然而,在实际中由于受到时间、人力、物力、财力等因素的限制,只能进行有限次的观察或实验。,数理统计的任务就是研究怎样有效地收集、整理、分析所获得的有限的资料,对所研究的问题, 尽可能地作出精确而可靠的结论.,数理统计研究的内容,问题1: 怎样对随机现象进行有限次的观察或试验? 试验设计与抽样方法,问题2: 如何对这有限次的观察或试验所得到的,带有随机性的数据进行合理的分析,作出科学的推断? 统计推断(或叫数据处理),我们只学习问题2统计推断中的一些重要概念和在实际中最常用的基本统计方法。,我们研究的第二个问题统计推断,就是从所研究的全体对象即整体(如例中的一大批灯泡),抽取一部分产品,可得到(有随机性的)一部分数据,对这部分数据进行合理的分析,从而对整体作出科学的推断。故可知,数理统计方法具有“局部推断整体”的特点。,局部既然是整体的一部分,它必然能反映出整体的某些信息;但是局部又不是整体,它决不能准确地反映出整体的全部信息。,一个好的统计方法,是使由局部推断出的有关整体的信息尽可能地准确。,6.1 总体 样本,一.总体与个体,在一个统计问题中,把所研究对象的全体称为总体。,构成总体的每个成员称为个体。,如:例1 中的一大批灯泡叫总体。而每个灯泡叫做个体。,说明 (1) :实际上, 我们真正关心的并不是总体或个体的本身,而是其某项数量指标或某几项数量指标,如例1灯泡的质量,我们研究的是其使用寿命这个数量指标, 不关心灯泡的颜色,形状等物理特性。,因而总体:就是指所有个体具有的数量指标的全体。,个体 :指构成总体的每个成员的数量指标。,今后当我们说总体和个体时, 既指研究对象又指它们的某项(几项)数量指标.,一个总体(数量指标)就和一个随机变量X相对应,该随机变量的分布就是数量指标总体的分布。,如:例1,总体,总体,随机变量X,数量指标的全体,不同数量指标的全体,说明 (2) :为研究方便,将总体与随机变量对应,总体的分布与其对应的随机变量X分布等同,例2:一批产品是100个灯泡。将每个灯泡测试数据统计如下表,若用随机变量X表示寿命,分布情况,这样,总体就可以用一个随机变量及其分布来描述,总体就可以用随机变量 X 表示,总体的分布就是 X 的分布,鉴于此,常用随机变量的记号或用其分布函数表示总体. 比如说总体 X 或总体 F(x) 。,如:当研究的总体X服从正态分布时,也简称为正态总体。,说明(3): 总体有K 个数量指标要研究,则要用K维随机变量研究。,如:在研究某地区中学生的营养状况时,若关心的数量指标是身高和体重,我们用X和Y分别表示身高和体重,那么此总体就可用二维随机变量(X,Y)或其联合分布函数F(x,y)来表示。,二. 样本(子样),1. 定义:,为推断总体分布及其各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽取过程称为“抽样”,所抽取的部分个体称为样本。样本中所包含的个体数目称为样本容量。每个抽到的个体叫样品。,从国产轿车中抽5辆进行耗油量试验,样本容量为5,每个被抽到的汽车叫样品,被抽到的5辆车叫样本。,2.样本的表示及双重含义,用 表示第i个被抽到的个体(i=1,2,n),是一个随机变量,(1)随机性,容量为n的样本就对应n维随机变量,(2)确定性,称为样本的一次观察值,简称样本值 .,由于抽样的目的是为了对总体进行统计推断,为了使抽取的样本能很好地反映总体的信息,必须考虑抽样方法。 对抽样有两个要求:,(2)要有独立性,既要求样本中每一样品取什么值不受其他样品取值的影响,这意味着 要相互独立。,满足以上两个要求的抽样叫“简单随机抽样”,这是最常用的一种抽样方法,用此方法获得的样本称为“简单随机样本”。,定义 设总体为X,若 互相独立且与X 同分布,则称 为来自总体X的容量为n的简单随机样本。,怎样得到简单随机样本呢?,二是可对总体X 进行n 次独立重复试验,一是采取有放回的抽样,简单随机样本具有下面两个特点。,1. 代表性: X1, X2, Xn中每一个样品 都与总体 X 有相同的分布。,2. 独立性: X1, X2, Xn是相互独立的随机变量。,注:当说到“X1, X2, Xn是取自某总体的样本”时,若不特别说明,就指简单随机样本。,设总体X的分布为F(x),则样本(X1,X2,Xn)的联合分布为,当总体X是离散型时,其分布律为,样本的联合分布律为,当总体X是连续型时, Xf(x),则样本的联合密度为,3已知总体的分布,可写出样本的分布。,4.总体、样本、样本值的关系,如我们从某班大学生中欲抽取10人测量身高,用 X1, X2, , X10表示10个人的身高。进行试验后,得到10个数, x1, x2,x10,它们是样本取到的值,即样本值。我们只能观察到随机变量取的值而见不到随机变量。,总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体。,样本是联系二者的桥梁,总体(理论分布),样本,样本值,?,统计就是从手中已有的资料 样本值,去推断总体分布的性质。,如果总体所包含的个体数量是有限的,则称该总体为有限总体. 有限总体的分布显然是离散型的,如例2. 如果总体所包含的个体数量是无限的,则称该总体为无限总体. 无限总体的分布可以是连续型的,如例3,也可以是离散型的.,5、有限总体与无限总体,在数理统计中,研究有限总体比较困难.因为它的分布是离散型的,且分布律与总体所含个体数量有关系.,说明,所以,通常在总体所含个体数量比较大时,我们就把它近似地视为无限总体,并且用连续型分布去逼近总体的分布,这样便于做进一步的统计分析.例4,用一把尺子去量一个物体的长度. 假定n次测量值为X1,X2 , ,Xn 显然,在这个问题中,我们把测量值 X1,X2 , ,Xn看成了样本,但是,总体是什么呢?,例3,事实上,总体无法列举的.总体就应该理解为一切所有可能的测量值的全体,分析:,假定物体的真正长度为 (未知).一般说来测量值X,也就是我们的总体,取附近值的概率要大一些,而离愈远的值被取到的概率就小一些. 如果测量过程没有系统性误差,那么X取大于和小于的概率也会相等.,在这样的情况下,人们往往认为X服从均值为的正态分布.假定其方差为2,则2反映了测量的精度.于是,总体X的分布为N(,2). 记为XN(,2).,这里有一个问题,即物体长度的测量值总是在它的真正长度的附近,它根本不可能取到负值. 而正态变量取值在(-,+)上,那么怎么可以认为测量值X服从正态分布呢? 回答这个问题,有两方面的理由.,(1) 在前面讲过,对于XN(,2). P-3X+3=0.9974.即X落在区间(-3,+3)之外的概率不超过0.003,即这个概率是非常小的.显然X落在(-4,+4)之外的概率也就更小了.,比如,假定物体长度=10厘米,测量误差约为0.01厘米,则2=0.012. 这时(-3,+3)=(9.9997,10.0003). 于是测量值落在这个区间之外的概率最多只有0.003,可以忽略不计. 可见,用正态分布N(10,0.012)去描述测量值X是适当的.完全可以认为它根本不可能取到负值.,(2) 另外,正态分布取值范围是无限区间(-,+),这样还可以解决规定测量值取值范围上的困难.,如若不然,我们需要用一个定义在有限区间(a,b)取值的随机变量来描述测量值X.那么a和b到底应取什么值,测量者事先很难确定.还不如我们干脆就把取值区间放大到(-,+),并采用正态分布去描述测量值.这样既简化了问题又不致引起较大的误差,例 4,研究某大城市年龄在1岁到10岁之间儿童的身高. 显然,不管这个城市规模有多大,在这个年龄段的儿童数量总是有限的.因此,这个总体X只能是有限总体.总体分布也只能是离散型分布.,然而,为了便于处理问题,我们可以把它近似地看成一个无限总体,并且通常用正态分布来逼近这个总体的分布. 当城市比较大,儿童数量比较多时,这种逼近所带来的误差,从应用观点来看,可以忽略不计.,引入了总体和样本的概念后,数理统计中的统计推断问题就归结为,根据来自总体的样本,对总体的分布或分布中的参数等进行统计推断。我们可从样本去认识总体。,样本是我们进行分析和推断的起点,但实际上我们并不直接用样本进行推断,而需对样本进行“加工”和“提炼”,将分散于样本中的信息集中起来,为此引入统计量的概念。,6 统计量,1 定义:,注:统计量是随机变量,,它是完全由样本决定的量.,是,不是,例1,2.几个常见统计量,样本均值,它反映了总体均值的信息,样本方差,它反映了总体方差的信息,样本k阶中心矩,它反映了总体k 阶中心矩的信息,样本k阶原点矩,它们的观察值分别为:,6.2 抽样调查方法,A. 抽样调查的可行性和必要性,样本的随机性(代表性)适当的样本量。样本量不必随总体增大而增大。,为了推断总体的情况,调查全部总体不现实或不必要,如: 寿命试验。抽样调查因为工作量较小所以有时比普查可以更准确,B. 随机抽样,如果总体中的每个个体都有相同的机会被抽中,就称这样的抽样方法为随机抽样方法。简单地分,抽样分为有放回抽取和无放回抽取。无放回抽取从实现上和从精

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论