抽样与参数估计.ppt_第1页
抽样与参数估计.ppt_第2页
抽样与参数估计.ppt_第3页
抽样与参数估计.ppt_第4页
抽样与参数估计.ppt_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章抽样与参数估计,k,不像其他科学,统计从来不打算使自己完美无缺,统计意味着你永远不需要确定无疑。古德蒙R艾弗森,重点掌握计算内容,淡化公式推导,侧重于统计应用,教学、学习方式,以理解统计思想为主,课程设计思路,第5章知识点,1、概率及分布,3、抽样分布及中心极限定理,4、参数估计,2、统计量与参数,预备知识,推断指标,推断依据,理论知识,计算方法,5.1参数与统计量,未知参数,已知统计量,5.2抽样分布,作出推断的依据是什么?怎样才能让别人信服你的推断结果呢?,1、从一个总体中随机抽出容量相同的各种样本,则从这些样本计算出的某统计量的所有可能值形成的概率分布,被称为这一个统计量的抽样分布。2、统计量的概率分布,是一种理论分布。3、提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据。,5.2.1抽样分布,统计量的分布具有某种确定的性质,而这些性质是已知的,而且反映在它的抽样分布之中。,k,5.2.1抽样分布(一)样本均值的抽样分布,【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下,均值和方差,总体的分布XN(2.5,1.25),重复抽样n=2,现从4个中重复抽2个构成16个可能样本。,抽样的概率分布表,样本均值的分布与总体分布的比较,=2.52=1.25,总体分布,.1,.2,样本均值x的抽样分布与总体分布的关系:,样本均值的数学期望样本均值的方差重复抽样,结论:样本均值的抽样分布(数学期望与方差),比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n。,总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为,5.2.1抽样分布(二)样本比例的抽样分布,当样本容量很大时,样本比例的抽样分布可用正态分布近似推断总体比例的理论基础样本比例的数学期望样本比例的方差,样本比例的抽样分布(数学期望与方差),虽然比率p随着样本容量n的增大而近似服从正态分布,但究竟多大才能使p近似正态分布呢?这与p的取值大小有关。当p接近于05时,用较小的样本就可使p的分布趋于正态分布;但当p接近于0和1时,就要很大的样本才能使p的分布趋于正态分布。统计学家WGCocban提出一个标准可供参考,如表57所示。,5.2.2中心极限定理,从总体中抽取样本容量为n的简单随机样本,当样本容量n30时,样本均值的抽样分布可用正态概率分布近似。,5.2.2中心极限定理,x的分布趋于正态分布的过程、,中心极限定理,从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,总结:推断时样本统计量的抽样分布形式概括,几种概率分布,正态分布,分布,F分布,t分布,5.2.3几种常用的统计量及其分布,正态分布(normaldistribution),1.描述连续型随机变量的最重要的分布2.可用于近似离散型随机变量的分布例如:二项分布3.经典统计推断的基础,正态分布最常用、最重要,(1)客观世界中有许多随机现象都服从或近似服从正态分布。例如:测量误差,同龄人的身高、体重,一批棉纱的抗拉强度,一种设备的使用寿命,一定条件下某种农作物的产量,等等。它们的共同特点是,中间多两端少,即离均值越近的数值越常见;反之,离均值越远的数值越少见。(2)正态分布具有很好的数学性质。正态分布是许多概率分布的极限分布,其他一些分布的概率(如二项分布)可由正态分布来近似计算,统计推断中许多重要的分布(如2分布、t分布、F分布)都是在正态分布的基础上推导出来的。(3)尽管经济管理活动中的有些变量是正偏斜的,但是正态分布仍然是与之十分贴近的,这丝毫不影响正态分布在抽样应用中的地位。,概率密度函数,f(x)=随机变量X的频数=总体方差=3.14159;e=2.71828x=随机变量的取值(-x+)=总体均值,正态分布的概率,概率是曲线下的面积!,例题分析,计算下列概率:ZN(0,1),求P(Z25)和P(-15Z2)。解:利用Excel中的【NORMSDIST函数得P(Z25)=099379P(-15Z2)=P(Z2)-P(Z-15)=0.910,(2)X-N(50,102),求P(X40)和P(30X40)。(3)正态分布概率为005时,求标准正态累积分布函数的反函数值Z。解:(2)利用Excel中的NORMDIST函数可得P(X40)=0158655P(30X40)=P(X40)-P(X30)=0.135(3)利用Excel中的【NORMSINV函数得NORMSINV(005)=-1644854,标准正态分布,一般的正态分布取决于均值和标准差计算概率时,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的例:l、50和25280和253、50和210,3、若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表,标准正态分布函数,标准正态分布的概率密度函数,任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布z分数是一个值z大于或小于均值的标准差个数。,标准正态分布的分布函数,标准化的例子、P(5X6.2),5和210,标准正态分布表的使用,将一个一般的转换为标准正态分布计算概率时,查标准正态概率分布表对于负的x,可由(-x)x得到对于标准正态分布,即XN(0,1),有P(aXb)baP(|X|a)2a1对于一般正态分布,即XN(,),有,正态分布(例题分析),【例】设XN(0,1),求以下概率:(1)P(X2);(3)P(-12)=1-P(X2)=1-0.9773=0.0332(3)P(-1X3)=P(X3)-P(X-1)=(3)-(-1)=(3)1-(1)=0.9987-(1-0.8413)=0.84(4)P(|X|2)=P(-2X2)=(2)-(-2)=(2)-1-(2)=2(2)-1=0.9545,正态分布(例题分析),【例】设XN(5,32),求以下概率、(1)P(X10);(2)P(2X10)解:(1),(2),正态分布的重要特征是它有很好的数学性质,而且对所有的正态分布这些性质都相同。更特别地,这些性质是,对于任何正态分布,落入均值两边n个标准差范围之内的正态分布变量的观测值的比例是相同的。因此,正如图所示落入均值两边1个标准差范围内的观测值接近68.27.落入均值两边2个标准差范围内的观测值接近95.45%落入均值两边3个标准差范围内的观测值接近99.73.,k,正态分布中六西格玛原理,摩托罗拉公司于1987年创立的6管理理念就是把质量水准的度量从“百分之几”精确到“百万分之几”甚至“十亿分之几”。,当上下公差不变时,6的质量水准就意味着产品合格率达到999999998,即其特性值落在区间(一6,十6)外的概率仅为十亿分之二。,6表明:现代技术的复杂程度使得过去的关于“可接受质量水平”的观念已经不再适用!现代市场竞争的激烈程度要求企业在多种运作流程中达到几乎完美的质量水平。在生产管理尤其是在产品质量管理中使用六西格玛原理,就意味着产品质量的全面提高,几乎每一件产品都要达到合格的水平,这是对过去粗放式企业管理的一个巨大挑战。首先可以从产品质量的直接管理人手。其次,可以从全面质量管理、企业整体管理等方面进行尝试。再次,可以在企业生产的过程控制与六西格玛原理的应用方面相结合。从而使企业在技术进步和品牌创建等方面做出较大的贡献。,由正态分布导出的几个重要分布,一、2分布二、t分布三、F分布,导出背景,在小样本中,当总体分布为正态分布,而总体方差已知,则样本分布应采用正态分布,即用正态分布进行统计推断。当总体分布为正态分布,总体方差未知,则样本相应地可采用t分布,2分布和F分布进行统计推断。当总体分布为二项分布,因样本容量小,则二项分布的概率不能用泊松分布或正态分布来近似地计算,需要直接用二项分布来计算,故在这种情况下,样本分布需要二项分布进行统计推断。,一、c2分布(图示),由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson)分别于1875年和1900年推导出来设,则令,则Y服从自由度为1的2分布,即当总体,从中抽取容量为n的样本,则,一、2分布(2distribution),在总体方差的估计和非参数检验中会用到2分布.分布的变量值始终为正分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称期望为:E(2)=n,方差为:D(2)=2n(n为自由度)可加性:若U和V为两个独立的2分布随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,一、2分布(性质和特点),2分布的概率即为曲线下面积。利用Excel中的(CHIDIST)统计函数,可以计算给定2值和自由度的2分布右尾的概率,而利用(CHIINV)函数则可以计算给定右尾概率和自由度时相应的反函数值(2值)。例:计算:(1)自由度为8,2值大于10的概率;(2)自由度为10,2分布右尾概率为005时的反函数值(在估计和检验中称为临界值).在Excel工作表的计算单元格输入函数“=CHIDIST(10,8)”,得到2分布的右尾概率为0265026。输入函数“CHIINV(005,10)”,得到218307。,c2分布(图示),c2分布(例题的图示),二、t分布,1、当正态总体标准差未知时,在小样本条件下对总体均值的估计和检验要用到t分布2、高塞特(W.S.Gosset)于1908年在一篇以“Student”(学生)为笔名的论文中首次提出3、t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散4、一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,二、t分布图示,t分布的概率即为曲线下面积。利用Excel中的(TDIST)统计函数,可以计算给定t值和自由度时t分布的概率值,而利用(TINV)函数则可以计算给定概率和自由度时的相应t值。例:计算:(1)自由度为10,t值大于2的概率;(2)自由度为10,t分布右尾概率为005时的t值。在Excel工作表的计算单元格输入函数“TDIST(2,10,1)”,得到t分布的概率为0,03669。输入函数“TINV(0,05,10)”,得到相应的t值为22281。,F分布通常用于比较不同总体的方差是否有显著差异。由统计学家费希尔(R.A.Fisher)提出的,以其姓氏的第一个字母来命名设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为,三、F分布(Fdistribution),三、F分布(图示),不同自由度的F分布,F分布的概率即为曲线下面积。利用Excel中的(FDIST)统计函数,可以计算给定F值和自由度时F分布的单尾概率,而利用(FINV)函数则可以计算给定单尾概率和自由度时的相应F值。例计算:(1)分子自由度为10,分母自由度为8,F值大于3的概率;(2)分子自由度为10,分母自由度为8,F分布右尾概率为005时的F值。在Excel工作表的计算单元格输人函数“FDIST(3,10,8)”,得到F分布的概率为006645。输入函数“FINV(0,05,10,8)”,得到的F值为334716。,补充:抽样分布与中心极限定理的应用、,课堂练习:,1、某大学的一家快餐店记录了过去5年每天的营业额,每天营业额的均值为2500元,标准差为400元。由于在某些节日的营业额偏高,所以每日营业额的分布是右偏的,假设从这5年中随机抽取100天,并计算这100天的平均营业额,则样本均值的抽样分布是()。A正态分布,均值为250元,标准差为40元B正态分布,均值为2500元,标准差为40元C右偏,均值为2500元,标准差为400元D.正态分布,均值为2500元,标准差为400元。,12某班学生的年龄分布是右偏的,均值为22,标准差为445。如果采取重复抽样的方法从该班抽取容量为100的样本,则样本均值的抽样分布是()。A.正态分布,均值为22,标准差为0445B.分布形状未知,均值为22,标准差为445C.正态分布,均值为22,标准差为445D分布形状未知,均值为22,标准差为04:45,13在一个饭店门口等待出租车的时间是左偏的,均值为12分钟,标准差为3分钟。如果从饭店门口随机抽取100名顾客并记录他们等待出租车的时间,则该样本均值的分布服从()。A.正态分布,均值为12分钟,标准差为03分钟B正态分布,均值为12分钟,标准差为3分钟C左偏分布,均值为12分钟,标准差为3分钟D左偏分布,均值为12分钟,标准差为03分钟,14某厂家生产的灯泡寿命的均值为60小时,标准差为4小时。如果从中随机抽取30只灯泡进行检测,则样本均值()。A.抽样分布的标准差为4小时B抽样分布近似等同于总体分布C抽样分布的中位数为60小时D.抽样分布近似等同于正态分布,均值为60小时,15假设某学校学生的年龄分布是右偏的,均值为23岁,标准差为3岁。如果随机抽取100名学生,下列关于样本均值抽样分布描述不正确的是()。A抽样分布的标准差等于3B抽样分布近似服从正态分布C抽样分布的均值近似为23D抽样分布为非正态分布16从均值为200,标准差为50的总体中抽取容量为100的简单随机样本,样本均值的数学期望是()。A150B200C100D250,17从均值为200,标准差为50的总体中抽取容量为100的简单随机样本,样本均值的标准差是()。A50B10C5D1518假设总体比例为055,从此总体中抽取容量为100的样本,则样本比例的标准差为()。A001B。005C006D055,例1:设某公司1000名职工的人均年奖金为2000元,标准差500元,随机抽取36人作为样本进行调查,问样本的人均年奖金在19002200元之间的概率有多大?,例2:某地区职工家庭的人均年收入平均为12000元,标准差为2000元。若知该地区家庭的人均年收入服从正态分布,现采用重复抽样从总体中随机抽取25户进行调查,问出现样本平均数等于或超过12500元的可能性有多大?,例3:某商场推销一种洗发水。据统计,本年度购买此种洗发水的有10万人,其中6万是女性。如果按不重复随机抽样方法,从购买者中抽出100人进行调查,问样本中女性比例超过50%的可能性有多大?,例4:历史记录显示某种瓶装饮料的重量服从正态分布,均值为885克,总体标准差是11克。某天早上,从灌装线上随机抽取了16瓶进行测试,结果平均每瓶的饮料含量是890克。这是不是不大可能的结果?换句话说,抽样误差等于5克是异常值吗?,我们从均值为885克、总体标准差()为11克的正态总体中抽取由16瓶饮料组成的样本,发现其样本均值是890克的可能性有多大?采用相应的公式计算z值,得z值1818在正态分布的右侧,因此很容易得到z值大于1818的可能性是00345。,例5、据某报纸估计,每个零售点每日平均卖出报纸200份,且该分布种类未知。某一天调查了70家零售点的销售情况,得到平均销售量是1948份。已知70家零售点销售的标准差为425份。请问断定总体均值是200份合理吗?从该总体得到具有上述统计量的样本的可能性有多大?你需要做何种假定?,中心极限定理的应用,例1、某高校在研究生人学体检后对所有结果进行统计分析,得出其中某一项指标的均值为7,标准差为22。从这个总体中随机选取一个容量为3l的样本。(1)计算样本均值大于75的概率;(2)计算样本均值小于72的概率;(3)计算样本均值在7.2和7.5之间的概率。,例2、在北京一居室的房租平均为每月1500元,房租的分布并不服从正态分布,随机抽取容量为50的样本,样本的标准差是200元,请问:样本均值至少为1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论