抽样分布和估计_第1页
抽样分布和估计_第2页
抽样分布和估计_第3页
抽样分布和估计_第4页
抽样分布和估计_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 统计学家视数据为资源,并且试图从数据中看出平常人所看不到的景致来。 1第一讲内内容复习习统计学的的定义、分类;认识数据据的第一一步:你你得到的的是什么么类型的的数据?利用图表表展示数数据中的的信息;运用指标标刻画数数据的某某些特征征和程度度;使用EXCEL来描述述数据;2第一讲作作业以及及案例讨讨论 3第二讲抽样分布布和估计计2001年9月月22日日4统计推断断的基本本概念总体:有有限总体体、无限限总体;样本;统计推断断的任务务:通过样本本的统计计量来了了解总体体的参数数。为什么需需要抽样样:1)总总体无法法得到;2)时时间成本本不允许许;3)实实验具有有破坏性性。5统计推断断的基本本思想1

2、)选用用一个概率模型型来刻画总总体,使使用样本本对模型型做出推推断;2)样本本的获取取的可能性依赖于你你选用的的模型;根据这这种可能能性来分分析我们们由部分分来认识识总体所所可能犯犯的错误误(风险险)。6统计推断断的内容容之一估计参数数点估计和和区间估估计点估计的的例子居民家庭庭年收入入7统计推断断内容之之二假设检验验:是否否可以选选用这个个模型?例子:是否可以以使用模模型N(570,306)来来刻画所所有居民民的家庭庭年收入入?思想:如果该模模型是好好的,那那么和和570相差很很多的可可能性不不能太大大。8简单随机机抽样有限总体体的简单单随机抽抽样:等等概率抽抽样;有放回抽抽样:独独立性无放

3、回抽抽样:非非独立性性抽样方法法:利用用随即数数表利用Excel9随机数表表的使用用77191258605520473417839206948676298266788933433938955672938057099105280992589773413359624415987469626734277592576519550853122160258429953310673808424937203645165153037069402166137410 无限总体体的简单单随机抽抽样:独独立性;例子:掷掷硬币11样本和总总体分布布例子:薯薯片一个箱子子中有10000包薯薯片,其其中50%标价价5元, 3

4、0%标价价10元元,10%标标价15元,10%标价30元。12点估计的的方法估计量(统计量量);估估计值。基于一定定的准则则求最好好的估计计量。极大似然然法则;矩估计;最小二乘乘估计等等13抽样分布布样本不同同,值值也也不同。那么取取不同同值的可可能性分分别是什什么?的概率分分布称作作它的抽抽样分布布。抽样分布布在统计计推断中中的中心心地位。抽样分布布取决于于总体的的分布(模型)以及抽抽样的方方式。抽样方式式总体分布布= 抽样样分布14样本均值值的抽样样分布(无限总总体)如果总体体服从,那么简单单随机样样本的均均值服从从正态分分布如果样本本容量n非常大大,而且且总体的的期望是是,方差差是2+,

5、那么简简单随机机样本的的均值近近似似服从正正态分布布(中中心极限限定理)15样本比率率的抽样样分布(无限总总体)小样本情情况x服从二二项式分分布B(n,p).大样本情情况,按按照中心心极限定定理,近近似地16正态分布布的图形形17有限总体体的修正正系数设N是总总体中个个体的个个数,n是样本本容量,那么样本本均值的的方差是是:样本比率率的方差差是:注:如果果N相比比n大很很多,比比如n/N5%,可以视为为无限总总体。18样本方差差的抽样样分布如果是是来自正正态总体体的的一个随随机样本本,定义义样本方方差为:19认识卡方方分布20方差未知知时样本本均值的的抽样分分布正态总体体,2未知,使使用样本本

6、方差s2来替代2,则样本本均值满满足:n30时,可以以用标准准正态分分布近似似。21正态分布布和t分布的比比较22估计的误误差不能以个个别估计计值作为为评价准准则;估计的误误差:23对估计量量的评价价无偏性:偏差是是零;有效性:方差最最小;一致性:样本容容量增加加会降低低估计误误差。样本均值值(比率率)是对对总体均均值(比比率)的的一个无无偏的、有效的的、一致致的估计计量。24将概率模模型引入入统计推推断中来来刻画总总体,可可以使得得我们能能够测量量和控制制由部分分(样本本)来推推断总体体时所犯犯的错误误。 25EstimatePopulationParameter.with SampleSt

7、atisticMeanProportionpVariances2Population ParametersEstimated2Difference-12x-x12_26 的抽样分分布:1)正态态总体时时,272)非正正态总体体时,大大样本情情况(n30)28 S2的抽样分分布:当总体是是正态分分布时,29 的抽样分分布:30 有限总体体时样本本均值和和样本比比率的标标准误差差,有限限总体修修正系数数。31联合食品品公司的的案例针对“联联合食品品公司”的案例例(P.44案案例2-1),我们们假设调调查的100个个客户组组成一个个简单随随机样本本。尝试试回答下下面的问问题:1)所有有客户一一次购买

8、买金额的的平均值值是多少少?2)所有有使用信信用卡的的客户一一次购买买金额的的平均值值是多少少?3)使用用信用卡卡的客户户占的比比例是多多少?323334 1)所有有客户一一次购买买金额的的平均值值是多少少?(29.4449)2)所有有使用信信用卡的的客户一一次购买买金额的的平均值值是多少少?(40.8768)3)使用用信用卡卡的客户户占的比比例是多多少?(0.22)35我们的估估计值离离真值有有多远?我们希望望通过样样本的信信息给出出一个范范围,使使这个范范围按足足够大的的概率包包含我们们所感兴兴趣的参参数。如何寻找找K和L ,使使得以95%的的概率成成立:36 抽样误差差:无偏偏点估计计值

9、与总总体参数数之差的的绝对值值。37样本均值值的抽样样分布z-z1-38大样本且且已知的的情况 39理解置信信区间的的含义抽取100个样样本,计计算出100个个平均值值和100个区区间,它它们当中中至少有有(1-)*100个个包含了了未知的的总体均均值。因此,可可以以(1-)的程程度确信信落在在每一个个区间里里面。边际误差差:40Confidence IntervalsIntervalsExtend from(1-) %ofIntervals Contain.% Do Not.1 -/2/2X_x_Intervals&LevelofConfidenceSamplingDistributiono

10、fthe Meanto41联合食品品公司的的例子如果已知知所有消消费者一一次购买买金额的的标准差差是22,那么么一次购购买平均均金额的的一个95%的的置信区区间是:29.44491.96*(22/10)或者(25.1329,33.7569),其中中边际误误差=4.312.问题:对对这个区区间的含含义你知知道了什什么?怎么可能能知道标标准差差?42大样本且且未知的的情形43联合食品品公司的的例子所有顾客客一次购购买金额额的平均均值的95%的的置信区区间:29.44491.96*(20.4162/10)或者(25.44333,33.44506)问题:对对使用信信用卡的的顾客一一次购买买金额的的平均

11、值值能否类类似进行行区间估估计?44小样本且且未知的的情形 45联合食品品公司的的例子所有持信信用卡的的顾客一一次购买买金额的的平均值值的95%的置置信区间间是:问题:1)你获获得上述述结论时时对总体体作了什什么假定定?是否否合理?2)如何何使用EXCEL解决决该问题题?46小样本且且已知的的情形你自己可可以解决决这一问问题吗?47大样本下下总体比比率p的区间估估计 48联合食品品公司的的例子使用信用用卡支付付的顾客客的比率率的95%的置置信区间间是多少少?问题:是是否符合合大样本本的条件件?进一步的的问题:如果嫌嫌精度不不够怎麽麽办?49Data VariationSampleSizenLe

12、velofConfidence(1-)IntervalsExtend?1984-1994T/Maker Co.影响区间间长度的的因素 5090%Samples95%Samplesx_Confidence Intervals99%SamplesX_51样本容量量的确定定(1)给定边际际误差E和置信信系数1-,问题题是:确确定样本本容量n使得总体均值值(比率率)的1- 水平平的置信信区间长长度不超超过2E?(该问题有有什么实实际意义义?)52样本容量量的确定定(2)怎么获得得?1)用以以前相同同或类似似的样本本的样本本标准差差代替;2)用试试验调查查的方法法选择初初始样本本,用该该样本的的样本标标

13、准差代代替;3)对进行判判断或者者猜测:比如全全距的1/4作作为估计计。为什么用用正态分分布的/2分分位数而而不用t分布?53样本容量量的确定定(3)对于总体体比率来来说:如何确定定p?1)类似似对的确定定方法;2)使用用p=0.5,此时p(1-p)最大,从从而高估估样本容容量。54联合食品品公司的的例子为使得所所有顾客客一次购购买金额额的平均均值的95%的的置信区区间长度度不超出出6美圆圆,需至至少采用用多大的的样本?E=?=?(全距=77.07)n=(1.96*77.07/4)2/9=158.4615955联合食品品公司的的例子为了使得得对持信信用卡购购买的顾顾客比率率p的95%的的置信区

14、区间长度度不超过过0.2,样本本至少多多大?E=?P=?N=(1.96)2*0.5*0.5/0.12=96.049756区间估计计内容小小结置信区间间的含义义;从抽样分分布求置置信区间间;给定精度度,确定定样本大大小。57Mean, is unknownPopulationRandomSampleI am 95%confidentthatisbetween 40 &60.Mean= 50Estimation ProcessSample58对总体模模型的推推断另一一种方式式:假设设检验参数估计计的思路路:选择择一个合合适的模模型;假设检验验的思路路:检验验一个给给定的模模型。59Populati

15、onAssumethepopulationmean ageis50.(NullHypothesis)REJECTTheSampleMean Is20SampleNull HypothesisHypothesis TestingProcessNo,not likely!60从一个例例子看假假设检验验的思路路摸球试验验:有放放回地在在一个袋袋子中连连续摸6次,都都是红球球,你能能否接受受“袋子子中一半半是红球球一半是是白球”的说法法?为什什么?如果我接接受你的的说法(假设),那么么我看到到的现象象(样本本)出现现的可能能性是多多少?如如果这种种可能性性太小,会是什什么情况况?61假设检验验的基本本

16、概念H0: 一半半红球一一半白球球。(或或者p=0.5);H1:红球白白球不是是各一半半。(或或者p不不是0.5)。原假设;备择假设设;选择的态态度:拒拒绝?接接受?(Tobeornot to be,)更多的例例子,简简单假设设和复合合假设:62拒绝域拒绝域:哪些样样本出现现后,你你会拒绝绝原假设设?你建立你你的拒绝绝域的根根据是什什么?抽抽样分布布。所谓检验验就是选选择一个个拒绝域域。为什什么这是是一个问问题?63你会犯什什么错误误?64H0: InnocentJury TrialHypothesisTestActualSituationActualSituationVerdictInnoc

17、entGuiltyDecisionH0TrueH0FalseInnocentCorrectErrorDoNotRejectH01 -aType IIError(b)GuiltyErrorCorrectRejectH0Type IError(a)Power(1-b)ResultPossibilities65abReduceprobabilityofoneerrorandtheotheronegoes up.a&bHave an InverseRelationship66Neymann-Pearson原则找一个不不犯错误误的检验验!?N-P原则:控控制犯第第一类错错误的概概率。显著水平平:犯第第一类错错误的最最大概率率。启示:拒拒绝原假假设、接接受原假假设?设置原假假设和备备择假设设的学问问:一种种药品中中含某元元素超过过0.01克为为不合格格。如何何设置原原假设?H0:该药品合合格;H0:该药品品不合格格。67一个例子子所有联合合食品公公司的顾顾客一次次购买金金额的平平均值是是35美美圆?H0:=35.H1:?对容量为为100的样本本,给定定显著水水平=0.05,选选择拒拒绝域为为满足下下列条件件的样本本组成:68一个例子子(续)计算样本本均值得得到2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论