第五章 样本与统计量_第1页
第五章 样本与统计量_第2页
第五章 样本与统计量_第3页
第五章 样本与统计量_第4页
第五章 样本与统计量_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章样本与统计量,第一节样本与统计量第二节数据的简单处理第三节统计量的分布,“没有统计,其它科学可以存在,但是很渺小.”,“Statisticsisthescienceforlearningfromdata.”,统计是“关于收集和分析数据的科学与艺术/art”不列颠百科全书,数据有随机性(带偶然误差);应用时有人的判断和主动性(“艺术”).,关于统计的一些说法,统计研究的特点:,2.目的的总体性,手段的个体性,统计学是一门研究收集数据,表现数据,分析数据,解释数据,从而认识数量规律的方法论科学./collect/present/analyze/interprete/methodological,统计研究的特点,1.内容的数量性,目的是找出由大量个体组成的整体的总体特征,但常常从观察个体数量特征入手.,统计总是用数字来表述事实.,描述统计:对整体的调查和描述.常用表和图,计算特征量(如平均值)等.统计描述是“社会经济统计学”(属文科)的主要内容.推断统计:分析部分资料,推断出整体情况.中心问题是减少误差,降低出错的可能性.统计推断是“数理统计”(属理科)的主要内容.,统计的分类,/descriptivestatistics/inferentialstatistics,描述统计与推断统计的关系,反映客观现象的数据,总体的数量规律,推断统计运用概率论分析样本信息,对总体的数量特征进行估计和检验等.,概率论,描述统计(数据的搜集,整理,显示和分析等),总体数据,样本数据,统计学探索数量规律性的过程,引言概率论的问题中,随机变量的概率分布是已知的或假设是已知的,而一切计算与推理都是在这已知的基础上进行的.但实际中,一个随机变量所服从的分布可能是完全不知道的,或者知道其分布概型,但是其中的某些参数是未知的.例如,某公路上车辆的速度服从的分布是未知的;电视机的使用寿命服从的分布是未知的;产品是否合格服从两点分布,但参数合格率p是未知的.数理统计的任务是以概率论为基础,根据试验所得到的数据,对研究对象的客观统计规律做出推断.数理统计所包含的内容十分丰富,从第五章开始,我们学习数理统计的基础知识,介绍其中的参数估计,假设检验,方差分析,回归分析等内容.第五章主要介绍数理统计的一些基本术语,基本概念,重要的统计量及其分布,它们是后面各章的基础.,第五章样本与统计量,第一节样本与统计量第二节数据的简单处理第三节统计量的分布,在数理统计中,研究对象的全体称为总体或母体,而组成总体的每个单元称为个体.要了解总体的分布规律,往往从总体中抽取一部分个体进行观测,这个过程称为抽样.在抽样过程中,每抽取一个个体,就是对总体X进行一次随机试验,所抽取的n个个体(X1,X2,Xn)称为总体X的一个样本或子样,其中所含的个体数量n称为样本容量.样本(X1,X2,Xn)的观测数据(x1,x2,xn)称为样本值或子样观察值.,population/individual/sample/size/observedvalue,常用的抽样是简单随机抽样,它满足代表性:子样(X1,X2,Xn)的每个分量Xi与总体X具有相同的概率分布.独立性:各次抽样的结果互不影响.由简单随机抽样所得子样(X1,X2,Xn)称为简单随机子样,它是来自总体X,与总体X具有相同分布的n个相互独立的随机变量.,/statistic.,统计量是样本(X1,X2,Xn)的不含未知参数的连续函数f(X1,X2,Xn).,例1下列哪些是统计量?其中X1,X2,X3是来自总体N(m,s2)的一个样本,m为已知,2为未知.,几个常用的统计量,样本均值,设(X1,X2,Xn)是总体X的一个样本,样本方差,samplemean/samplevariance,样本均方差或标准差,它们的观测值用相应的小写字母表示.,第五章样本与统计量,第一节样本与统计量第二节数据的简单处理第三节统计量的分布,数据的简单处理抽样调查所得的原始数据往往杂乱无章,需要以一种直观明了方式对数据进行加工:数据整理;计算样本特征数.数据整理:将数据分组,计算各组频数;作频率分布表,作频率直方图.计算样本特征数:(1)反映趋势的特征数样本均值前述.中位数:数据按大小顺序排列后,位置居中的那个数或居中的两个数的平均数.众数:样本中出现最多的那个数.,(2)反映分散程度的特征数:样本方差,样本标准差极差,四分位数,四分位差数.极差样本数据中最大值与最小值之差:R=Mm.四分位数将样本数据依概率分为四等份的3个数椐,依次称为第一,第二,第三四分位数.第一四分位数Q1:PXQ1=0.25,第二四分位数Q2:PX8788111917370929810594999198DATA1109897839083928886941029989104DATA94949296879492861028875909080DATA84918294991029196949485888083DATA8169958097929610991808094102DATA80869190838491879576909177103DATA8988859592104929583868186918983DATA96867592DATAendMTBdescribec1,显示:NMEANMEDIANTRMEANSTDEVC110090.30091.00090.3228.288SEMEANMINMAXQ1Q3C10.82969.000111.00085.25095.000,中位数,第1四分位数,第3四分位数,MTBCODE(67.5:72.49)70(72.5:77.49)75(77.5:82.49)80(82.5:87.49)85(87.5:92.49)90(92.5:97.49)95(97.5:102.49)100(102.5:107.49)105(107.5:112.49)110C1C2MTBTALLYC2;SUBCALL.,将C1数据列重新编码,并保存到C2数据列,显示各列数据的频数,累计频数,频率,累计频率,C2COUNTSCUMCNTSPERCENTSCUMPCENTS(频数)(累计频数)(频率)(累计频率)70120.020.0275570.050.078010170.100.178518350.180.359030650.300.659518830.180.8310010930.100.931054970.040.9711031000.031.00,显示结果,第五章样本与统计量,第一节样本与统计量第二节数据的简单处理第三节统计量的分布,统计量f(X1,X2,Xn)是样本(X1,X2,Xn)的不含未知参数的函数,它本身是一个随机变量,其分布称为抽样分布.正态总体是最常见的总体,以下主要讨论正态总体下的抽样分布.常识若X1,X2,Xn相互独立且XiN(mi,si2),则它们的线性组合仍服从正态分布且:例如,X1X2N(m1m2,s12+s22).,U分布正态总体样本均值的分布设总体XN(,2),则样本均值服从正态分布,标准化,概率分布的分位数对总体X和给定的(045时,如无详细表格可查,可以用标准正态分布代替t分布查t(n)的值,即t(n)u,n45.一般的t分布临界值表中,详列至n=30,当n30就用标准正态分布N(0,1)来近似.,定义5.5设X2(n1),Y2(n2)且相互独立,则称服从第一自由度为n1,第二自由度为n2的F分布,记为FF(n1,n2).显然,若XF(n1,n2),则1/XF(n2,n1).概率密度函数,其中,其图形见图5-9.(P108),(5.13),F分布的上分位数或上侧临界值F(n1,n2),(5.14),F(n1,n2)的值可由F分布表查得.附表5,6,7,8,9(P262P276)分=0.1,0.05,0.025,0.01,0.005给出了F分布的上分位数.,例如,例如,查表(p271)得F0.01(2,18)=6.01.附表中所列的值都比较小,当较大时,可用公式,F分布的双侧分位数,分别是上1/2分位数和上/2分位数.,定理5.4设n1,S12为正态总体N(1,12)的样本容量和样本方差;n2,S22为正态总体N(2,22)的样本容量和样本方差;且两个样本相互独立,则统计量,证明由定理5.1,且相互独立,故由F分布的定义有,小结几种常用分布的定义,正态总体样本均值的分布,设总体XN(,2),(X1,X2,Xn)是X的一个样本,则样本均值服从正态分布,2分布,设总体XN(0,1),(X1,X2,Xn)是X的一个样本,则统计量2=X12+X22+Xn2服从自由度为n的2分布:22(n).即,标准正态总体的样本的分量的平方和服从自由度为样本容量的2分布.,t分布,设XN(0,1),Y2(n),且X与Y相互独立,则服从自由度为n的t分布:Tt(n).t-分布的密度函数的图形相似于标准正态分布的密度函数.当n较大时,t分布近似于标准正态分布.,F分布,服从自由度为(n1,n2)的F分布:FF(n1,n2).,设X2(n1),Y2(n2),且X,Y相互独立,则,定理5.1设(X1,Xn)为来自正态总体XN(,2)的样本,则(1)样本均值X与样本方差S2相互独立;,(2),(5.8),定理5.2设(X1,Xn)为来自正态总体XN(,2)的样本,则统计量,定理5.3设(X1,X2,Xn1)和(Y1,Y2,Yn2)分别是来自正态总体N(1,2)和N(2,2)的样本,且它们相互独立,则统计量,其中,两总体的样本方差.,而S12,S22分别为,定理5.4设n1,S12为正态总体N(1,12)的样本容量和样本方差;n2,S22为正态总体N(2,22)的样本容量和样本方差;且两个样本相互独立,则统计量,例1设总体XN(0,1),X1,X2,Xn为简单随机样本,试问下列统计量各服从什么分布?,解,(1),因为XiN(0,1),i=1,2,n.,所以,X1-X2N(0,2),故,t(2).,例1设总体XN(0,1),X1,X2,Xn为简单随机样本,试问下列统计量各服从什么分布?,续解,(2),因为X1N(0,1),故,t(n-1).,例1设总体XN(0,1),X1,X2,Xn为简单随机样本,试问下列统计量各服从什么分布?,续解,(3),因为,所以,F(3,n-3).,例2若Tt(n),问T2服从什么分布?,解,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论