




已阅读5页,还剩67页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学家视数据为资源,并且试图从数据中看出平常人所看不到的景致来。,第一讲内容复习,统计学的定义、分类;认识数据的第一步:你得到的是什么类型的数据?利用图表展示数据中的信息;运用指标刻画数据的某些特征和程度;使用EXCEL来描述数据;,第一讲作业以及案例讨论,第二讲,抽样分布和估计2001年9月22日,统计推断的基本概念,总体:有限总体、无限总体;样本;统计推断的任务:通过样本的统计量来了解总体的参数。为什么需要抽样:1)总体无法得到;2)时间成本不允许;3)实验具有破坏性。,统计推断的基本思想,1)选用一个概率模型来刻画总体,使用样本对模型做出推断;2)样本的获取的可能性依赖于你选用的模型;根据这种可能性来分析我们由部分来认识总体所可能犯的错误(风险)。,统计推断的内容之一,估计参数点估计和区间估计点估计的例子居民家庭年收入,统计推断内容之二,假设检验:是否可以选用这个模型?例子:是否可以使用模型N(570,306)来刻画所有居民的家庭年收入?思想:如果该模型是好的,那么和570相差很多的可能性不能太大。,简单随机抽样,有限总体的简单随机抽样:等概率抽样;有放回抽样:独立性无放回抽样:非独立性抽样方法:利用随即数表利用Excel,随机数表的使用,771912586055204734178392069486762982667889334339389556729380570991052809925897734133596244159874696267342775925765195508531221602584299533106738084249372036451651530370694021661374,无限总体的简单随机抽样:独立性;例子:掷硬币,样本和总体分布,例子:薯片一个箱子中有10000包薯片,其中50%标价5元,30%标价10元,10%标价15元,10%标价30元。,点估计的方法,估计量(统计量);估计值。基于一定的准则求最好的估计量。极大似然法则;矩估计;最小二乘估计等,抽样分布,样本不同,值也不同。那么取不同值的可能性分别是什么?的概率分布称作它的抽样分布。抽样分布在统计推断中的中心地位。抽样分布取决于总体的分布(模型)以及抽样的方式。抽样方式总体分布=抽样分布,样本均值的抽样分布(无限总体),如果总体服从,那么简单随机样本的均值服从正态分布如果样本容量n非常大,而且总体的期望是,方差是2+,那么简单随机样本的均值近似服从正态分布(中心极限定理),样本比率的抽样分布(无限总体),小样本情况x服从二项式分布B(n,p).大样本情况,按照中心极限定理,近似地,正态分布的图形,有限总体的修正系数,设N是总体中个体的个数,n是样本容量,那么样本均值的方差是:样本比率的方差是:注:如果N相比n大很多,比如n/N5%,可以视为无限总体。,样本方差的抽样分布,如果是来自正态总体的一个随机样本,定义样本方差为:,认识卡方分布,方差未知时样本均值的抽样分布,正态总体,2未知,使用样本方差s2来替代2,则样本均值满足:n30时,可以用标准正态分布近似。,正态分布和t分布的比较,估计的误差,不能以个别估计值作为评价准则;估计的误差:,对估计量的评价,无偏性:偏差是零;有效性:方差最小;一致性:样本容量增加会降低估计误差。样本均值(比率)是对总体均值(比率)的一个无偏的、有效的、一致的估计量。,将概率模型引入统计推断中来刻画总体,可以使得我们能够测量和控制由部分(样本)来推断总体时所犯的错误。,EstimatePopulation,Parameter.,withSample,Statistic,Mean,Proportion,p,Variance,s,2,PopulationParametersEstimated,2,Difference,-,1,2,x-x,1,2,_,_,_,的抽样分布:1)正态总体时,,2)非正态总体时,大样本情况(n30),S2的抽样分布:当总体是正态分布时,,的抽样分布:,有限总体时样本均值和样本比率的标准误差,有限总体修正系数。,联合食品公司的案例,针对“联合食品公司”的案例(P.44案例2-1),我们假设调查的100个客户组成一个简单随机样本。尝试回答下面的问题:1)所有客户一次购买金额的平均值是多少?2)所有使用信用卡的客户一次购买金额的平均值是多少?3)使用信用卡的客户占的比例是多少?,1)所有客户一次购买金额的平均值是多少?(29.4449)2)所有使用信用卡的客户一次购买金额的平均值是多少?(40.8768)3)使用信用卡的客户占的比例是多少?(0.22),我们的估计值离真值有多远?,我们希望通过样本的信息给出一个范围,使这个范围按足够大的概率包含我们所感兴趣的参数。如何寻找K和L,使得以95%的概率成立:,抽样误差:无偏点估计值与总体参数之差的绝对值。,样本均值的抽样分布,z,-z,1-,大样本且已知的情况,理解置信区间的含义,抽取100个样本,计算出100个平均值和100个区间,它们当中至少有(1-)*100个包含了未知的总体均值。因此,可以以(1-)的程度确信落在每一个区间里面。边际误差:,ConfidenceIntervals,IntervalsExtendfrom,(1-)%ofIntervalsContain.%DoNot.,1-,/2,/2,X,_,x,_,IntervalsH1:红球白球不是各一半。(或者p不是0.5)。原假设;备择假设;选择的态度:拒绝?接受?(Tobeornottobe,)更多的例子,简单假设和复合假设:,拒绝域,拒绝域:哪些样本出现后,你会拒绝原假设?你建立你的拒绝域的根据是什么?抽样分布。所谓检验就是选择一个拒绝域。为什么这是一个问题?,你会犯什么错误?,H0:Innocent,JuryTrial,Hypothesis,Test,ActualSituation,ActualSituation,Verdict,Innocent,Guilty,Decision,H,0,True,H,0,False,Innocent,Correct,Error,DoNot,Reject,H,0,1-,a,TypeII,Error(,b,),Guilty,Error,Correct,Reject,H,0,TypeI,Error,(,a,),Power,(1-,b,),ResultPossibilities,a,b,Reduceprobabilityofoneerrorandtheotheronegoesup.,a&bHaveanInverseRelationship,Neymann-Pearson原则,找一个不犯错误的检验!?N-P原则:控制犯第一类错误的概率。显著水平:犯第一类错误的最大概率。启示:拒绝原假设、接受原假设?设置原假设和备择假设的学问:一种药品中含某元素超过0.01克为不合格。如何设置原假设?H0:该药品合格;H0:该药品不合格。,一个例子,所有联合食品公司的顾客一次购买金额的平均值是35美圆?H0:=35.H1:?对容量为100的样本,给定显著水平=0.05,选择拒绝域为满足下列条件的样本组成:,一个例子(续),计算样本均值得到29.4449,落入拒绝域,所以拒绝原假设。该检验犯第一类错误的概率是多少?如果H0是正确的,一个样本落在该拒绝域里面的概率是多少?如何确定?
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国清洁牡蛎行业发展趋势预测及投资战略咨询报告
- 扶贫工作案例分析面试题目
- 香港保险业务专业知识试卷题目及答案
- 医学多领域专业知识考试试卷含泌尿铁代谢妇产等考点
- 部落冲突考试题及答案
- 疫情团结面试实战题库
- 医疗计量器具培训课件
- 在线教育培训服务协议规范事项
- 2025年存储芯片行业当前发展趋势与投资机遇洞察报告
- 2025年厨卫电器行业当前竞争格局与未来发展趋势分析报告
- 2025年燃气电厂笔试题库及答案
- 2025年科技咨询师考试题库
- 四川省凉山州2024-2025学年高一下册期末统一检测数学检测试卷
- 2025年道路运输两类人员安全员考试考核试题库答案
- 2025年历年医疗卫生卫健委面试真题及答案解析
- 2025年学法减分试题及答案
- 《智能建造概论》高职完整全套教学课件
- 心衰病人的观察与护理
- 2025年教育综合理论知识试题及答案
- 食品安全卫生试题及答案
- GB/T 30807-2025建筑用绝热制品浸泡法测定长期吸水性
评论
0/150
提交评论