概率第七章样本分布_第1页
概率第七章样本分布_第2页
概率第七章样本分布_第3页
概率第七章样本分布_第4页
概率第七章样本分布_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概率第七章样本分布第1页,共51页,2023年,2月20日,星期一本章转入课程的第二部分数理统计第2页,共51页,2023年,2月20日,星期一从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人们很早就开始了统计的工作.但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范围之外的推断.第3页,共51页,2023年,2月20日,星期一到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这门学科.数理统计学第4页,共51页,2023年,2月20日,星期一学习数理统计无须把过多时间化在计算上,可以更有效地把时间用在基本概念、方法原理的正确理解上.国内外著名的统计软件包:SAS,SPSS,STAT等,都可以让你快速、简便地进行数据处理和分析,常用的表格处理文件excel文件也有很多数据处理的功能.计算机的诞生与发展,为数据处理提供了强有力的技术支持,数理统计与计算机的结合是必然的发展趋势.第5页,共51页,2023年,2月20日,星期一

数理统计学是一门应用性很强的学科.它是研究怎样以有效的方式收集、整理和分析带有随机性的数据,以便对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议.第6页,共51页,2023年,2月20日,星期一数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析.由于大量随机现象必然呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来.只允许我们对随机现象进行次数不多的观察试验,也就是说,我们获得的只是局部观察资料.但客观上第7页,共51页,2023年,2月20日,星期一数理统计的任务就是研究怎样有效地收集、整理、分析所获得的有限的资料,对所研究的问题,尽可能地作出精确而可靠的结论.第8页,共51页,2023年,2月20日,星期一

由于推断是基于抽样数据,抽样数据又不能包括研究对象的全部信息.因而由此获得的结论必然包含不肯定性.在数理统计中,不是对所研究的对象全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断.第9页,共51页,2023年,2月20日,星期一(1)怎样设计试验,决定观察的数目;(2)怎样利用试验观察的结果作出推断等.数理统计所要研究的问题:第10页,共51页,2023年,2月20日,星期一第一个问题是怎样进行抽样,使抽得的样本更合理,并有更好的代表性?这是抽样方法和试验设计问题:最简单易行的是进行随机抽样.第二个问题是怎样从取得的样本去推断总体?这种推断具有多大的可靠性?统计推断(核心)问题.第11页,共51页,2023年,2月20日,星期一统计推断统计估计统计检验参数估计非参数估计点估计区间估计参数假设检验非参数假设检验第12页,共51页,2023年,2月20日,星期一概率论是数理统计的基础,而数理统计是概率论的重要应用.但它们是并列的两个学科,并无从属关系.可见,在数理统计中必然要用到概率论的理论和方法.因为随机抽样的结果带有随机性,不能不把它当作随机现象来处理.由此也可以说,第13页,共51页,2023年,2月20日,星期一统计方法具有“部分推断整体”的特征.因为我们是从一小部分样本观察值去推断该全体对象(总体)情况,即由部分推断全体.这里使用的推理方法是“归纳推理”:它在作出结论时,是根据所观察到的大量个别情况,“归纳”起来所得。第14页,共51页,2023年,2月20日,星期一推断统计学——对已取得的观测值进行整理、分析,作出推断、决策,从而找出所研究的对象的规律性.数参估计(第六章)假设检验(第七章)回归分析(第八章)方差分析(第八章)推断统计学第15页,共51页,2023年,2月20日,星期一

——

组成总体的每一个元素即总体的每个数量指标,可以看作随机变量

X的某个取值。

研究对象全体元素组成的集合所研究的对象的某个(或某些)数量指标的全体,X

的分布函数和数字特征称为总体的分布函数和数字特征.一.总体和样本总体——个体例如:一批灯泡,全体灯泡的使用寿命就是总体,每个灯泡的使用寿命是个体.它是一个随机变量(或多维随机变量).记为X.第16页,共51页,2023年,2月20日,星期一样本

——从总体中抽取的部分个体.称为总体

X的一个容量为n

的样本观测值,或称样本的一个实现.用表示样本,

n称为样本容量.样本空间

——样本所有可能取值的集合.

第17页,共51页,2023年,2月20日,星期一

在进行抽样时,样本的选取是随机的,即总体中每个实际中,如总体样数很大,而抽取的样本容量相对小,简单随机样本:进行重复抽样所得的随机样本.个体都有同等机会被选入样本。抽样通常有两种方式:一种是不重复抽样,另一种是重复抽样。如果总体单位数是无限的,抽取有限个不影响总体的分布(此时重复抽取与不重复抽取没有多大区别)。即可认为总体为无限的..(现在我们只研究简单随机样本)第18页,共51页,2023年,2月20日,星期一简单随机样本具有以下两个性质:(2)代表性:即

中的每一个都与(1)独立性:即中,各个随机变量的取值互不影响,这时,我们称是相互独立的随机变量.总体

有相同的概率分布.

相同分布的随机变量离散型的具有相同的概率分布律连续型的具有相同的概率密度,所以期望与方差全相同第19页,共51页,2023年,2月20日,星期一样本容量为n的样本是n个相互独立且与总体有相同分布记为

的随机变量(n为样本容量),是n元随机变量的一个样本观测值,

记为

构成的一个n元随机变量,一个容量为n的样本---------(1)指一个n元随机变量。从这个角度来说,(2)指某一次抽样的具体数值。从这个角度来说,第20页,共51页,2023年,2月20日,星期一统计量定义:为统计量,其中不含未知参数都是统计量

3.统计量的函数样本

统计量一般是样本的连续函数,由于样本是随机变量,因而它的函数也是随机变量。如:第21页,共51页,2023年,2月20日,星期一二.样本分布函数在实际统计工作中,数据的处理形式为表和图。统计表有简单表和分组表;统计图有频数(率)图,频率直方图和累计频率直方图。1.分组数据的统计表和频数直方图简单表就是依出现的先后次序或按其数值大小列成表格,一般用处不大。如果数据较多,可分成若干组,按各组数值大小列成表格或制图例1.观察新生女婴儿的体重(它是一个连续型随机变量)取170号按顺序测得体重如表7-1.第22页,共51页,2023年,2月20日,星期一此表是体重按出生顺序排序.单位为克(g)第23页,共51页,2023年,2月20日,星期一分组数据的频数分布表分组时一般采取等区间分组,区间长度称为组距.制作分组数据表的步骤:(1)从数据找出最大值M与最小值L,并求出它们的差.这里:L=1800,M=4280,M-L=2480(2)决定分组的界限。一般采用包含区域(L,M)的稍宽区域(a,b)为分组的界限。这里取:a=1700,b=4300,[L,M][a,b](3)决定组距(用D表示)和组数(用k表示),它们之间的关系为D=(b-a)/k,取组数时常常按照一定的经验法则,一般来说,决定组数应使每组至少有个4、5个数据,当数据很多时,只要可以反映分布的趋势,也可以每组很多数据。这里:取k=13,D

=(b-a)/k=(4300-1700)/13=200第24页,共51页,2023年,2月20日,星期一其中落到各组的数据个数称为组频数。第25页,共51页,2023年,2月20日,星期一例2将例1中前20个新生婴儿体重按大小顺序列成一简单统计表,如下表所示。25832组频数37503450315028502550组中值3600-39003300-36003000-33002700-30002400-2700组限54321分组编号若进一步把20个数据分成5组(每组不包括上限)。试给出分组数据的频数分布表。解:这里取:a=2400,b=3900要分5个组,组距=(b-a)/5=(3900-2400)/5=300第26页,共51页,2023年,2月20日,星期一画频率分布直方图的步骤:1.求b-a3.将数据分组5.画频率分布直方图4.列频率分布表图中小长方体的面积等于对应的频率各小长方体的面积之和等于12.频率直方图和累计频率直方图组频率:是指组频数与样本容量的比值。累积频率:相应一些组频率累加起来的和。2.决定组距与组数第27页,共51页,2023年,2月20日,星期一25832组频数37503450315028502550组中值3600-39003300-36003000-33002700-30002400-2700组限54321分组编号10090652510累积频率1025401510组频率第28页,共51页,2023年,2月20日,星期一累积频率直方图25832组频数37503450315028502550组中值3600-39003300-36003000-33002700-30002400-2700组限54321分组编号10090652510累积频率1025401510组频率第29页,共51页,2023年,2月20日,星期一其上某区间上的长方形面积约等于同底的曲顶梯形面积.(只适用于连续型随机变量)故各长方形的顶点连成的曲线可近似模拟概率密度.第30页,共51页,2023年,2月20日,星期一经验分布函数根据观察结果来确定总体分布函数是数理统计的重要问题之一,为此我们引进经验分布函数的概念.设来自于总体X的样本的一组观察值,即对X进行n次独立重复观察,测得一组观察值.对任一实数x,用vn(x)表示事件{X≤x}出现的频数,即小于等于x的观测值xi

的个数.设函数(i=1,2,….,n)显然是随机变量将对总体X的一次观察作为一次试验,记A={X≤x},则:X的分布函数F(x)=P(X≤x)=P(A)=p.第31页,共51页,2023年,2月20日,星期一将对总体X的一次观察作为一次试验,记A={X≤x},则:于是,对总体X的n次观察相当于n重贝努里试验,vn(x)表示事件{X≤x}出现的频数,即n重贝努里试验中事件{X≤x}发生的次数,故有vn(x)~B(n,F(x))根据贝努里大数定律(定理5.2在n重贝努里试验中,事件A的频率是,是n次试验中A发生的次数),依概率收敛于事件A发生的概率p,即对p=P(A)=F(x)vn(x)表示事件{X≤x}出现的频数X的分布函数F(x)=P(X≤x)=P(A)=p.第32页,共51页,2023年,2月20日,星期一这表明,当样本容量n充分大时,可用总体X的函数来近似表示X的分布函数,所以称为X的经验分布函数.第33页,共51页,2023年,2月20日,星期一设是总体

的一个样本观察值,按大小则的图形就是累积频率的曲线,它是跳跃式上升顺序排列:的一条阶梯曲线。…………对任一实数x,vn(x)表示事件{X≤x}出现的频数,则:第34页,共51页,2023年,2月20日,星期一若观察值不重复,则每一跃度为若有重复,则按的倍数跳跃上升。

第35页,共51页,2023年,2月20日,星期一例.随机地观察总体,得到10个数据如下:3.2,2.5,-4,2.5,0,3,2,2.5,4,2将它们从小到大排列为:-4<0<2=2<2.5=2.5=2.5<3<3.2<4其样本分布函数为:12345678910第36页,共51页,2023年,2月20日,星期一三.样本分布的数字特征即样本分布的某些特征的数字,经常用它估计总体的样本平均数定义:对于样本称

为样本平均数对某些具体的样本值其样本平均数是数字特征。(1)不考虑分组时:第37页,共51页,2023年,2月20日,星期一若样本的观察值已整理成分组数据(设分成组,(加权平均值)(2)考虑分组时第38页,共51页,2023年,2月20日,星期一例:例7.2中20个新生女婴儿的平均体重是?2.样本方差

定义:对于样本称

及分别为样本方差和样本标准差由定义有,

解:25832组频数37503450315028502550组中值3600-39003300-36003000-33002700-30002400-2700组限54321分组编号第39页,共51页,2023年,2月20日,星期一在具体计算样本方差时常用此式若数据已分成k组,

和分别为第

组的组频数和组中值或证:使用以下公式:第40页,共51页,2023年,2月20日,星期一例2中的=?

=112736.84例:解:25832组频数37503450315028502550组中值3600-39003300-36003000-33002700-30002400-2700组限54321分组编号第41页,共51页,2023年,2月20日,星期一3.样本方差和样本平均数的简算公式.设

为样本的个观察值

(1)对任意常数,记为,则(2)对任意常数

及非零常数

,记,则适当地选取常数

使变换后的

尽量简单(对分组数据也适用,可令第42页,共51页,2023年,2月20日,星期一例.在例2中的分组数据,计算

及解:令a=3150,c=30085038450-3-441014210-1-225832组频数

37503450315028502550组中值54321分组编号

第43页,共51页,2023年,2月20日,星期一由上表得

的计算比直接计算样本平均数和方差要简便的多则

85038450-3-441014210-1-225832组频数

37503450315028502550组中值54321分组编号

第44页,共51页,2023年,2月20日,星期一4.几个常用统计量的分布定理7.1.设相互独立,服从正态分布,则它们的线性函数

也服从正态分布,且

(1)推论:设是取自正态总体

的样本,则(2)第45页,共51页,2023年,2月20日,星期一证明:(1)因

则取

由Th7.1知

的期望

方差从而

(2)对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论