




已阅读5页,还剩118页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本资料的来源是,第四章的抽样估计是通过概率抽样的抽样观测结果来估计未知的总体数量的特征,本章要求学生:明确抽样估计的意义、特征和作用。 理解相关基本概念,重点掌握采样误差的含义、影响因素及其计算。 理解采样估计的基本方法和步骤的样本程序设计的基本原则。 全面掌握简单的随机样本平均误差的计算方法和样本容量的确定方法,了解其他各种样本组织方式的意义和平均误差的计算。 第一节的采样分布,(1)整体分布及其特征,整体分布:整体中所有个体对某变量(标志)的取值形成的分布。 整体参数:反映整体分布特征的指标,一、抽样分布的基本问题,2007年4月23日,上证综合指数刷新了历史最高纪录,达到3710.89点,上证a股上市的836家公司中,789家上升,47家下降。 整体:836家上市公司的整体分布:836家上市公司当天的涨幅xii=1.836整体参数:总统参数值必须从整体单位的指标值计算:对于特定的整体,整体参数值是唯一的。 在无限总体和非全面调查的有限总体中,总体参数值一般是未知的,只能用标本来估计。 常用的整体参数有两个。 总体平均值(包括非变量的平均值)的方差或标准偏差(包括非变量的方差或标准偏差)。整体平均(整体平均):有限整体容量为n、各单位的某个标记的值分别设为非标志,则设定具有某个属性的单位,设定不具有某个属性的单位时,2、整体方差:3、整体数(整体比例)、5、整体非标志的方差、4、整体非标志的平均值、(2)采样另外,当样本容量大或逐渐大时,样本分布接近总分布。 当样本容量较小时,样本分布可能与总体分布有很大不同,所以样本估计的结果很差。 样品统计量:是反映样品特征的指标,t样品统计量是随机变量,值随样品而变化。 样品统计值:样品统计值,根据每个样品的标志值计算,用于估计整体参数。 /选择奥林匹克板块的股票作为样品。 样本分布是该板块60股的4月23日的下调情况样本统计量,xii=160,样本随机发生,可以选择适当的样本组织方式来生成样本,以提高样本的代表性,虽然样本估计已为人所知对应于整体参数,常用的样本统计量是样本平均值(或样本数目)、样本方差(或样本标准偏差)。 样本平均:样本中的n个样本单位的标志的标志值分别设为,如果是非标志则设具有某属性的样本单位的数量分别设为,2 .样本方差:3 .样本数(样本比率):4 .样本非标志的平均:5 .样本样本分布及其特征,1,样本分布的概念样本分布是样本统计的概率分布,由样本统计的所有可能值和相应的概率组成。 当从总容量为n的样本提取容量为n的样本时,m个样本的统计值的频率分布变成采样分布。实际采样分布的形成采用总体分布(越集中采样分布越集中)采样容量(最重要因素,容量越大采样分布越集中)采样方法(采用重复或不重复的方法,采样分布不同)采样组织形式(以不同形式抽样分布也不同)依赖于推定量结构(样品推定量不同,抽样分布不同) (样品推定量不同) (样品推定量不同),、推定量结构(样品推定量不同),、 2、采样分布形式为,从容量为n的有限总体中提取容量为n的样本,最多提取m集不同的样本,计算m个样本统计值,并将m个样本统计值按一项式组分成k组,采样分布的表现形式为:样本平均的样本样本数量的采样分布形式,例如,采用某车间班组5名工人的日工资为34、38、42、46、50元的整体日平均工资的方差、不同采样方法的样本平均采样分布,(1)重复采样方法(考虑顺序)。 42、46、50元)随机提取样本,合计52=25个样本的可能样本及其平均:第一单位、第二单位、样本平均、样本平均的频率分布为:样本平均的样本分布、样本平均的样本分布图假定所有可能的样本及其平均值:对样本平均值的频率分布进行了整理,样本平均值的样本分布图,样本平均值的样本分布,某个整体由10个球构成,其中红色球由6个,从现在整体随机地提取4个球另外,重复采样中红细胞比重的采样分布总体上是多个,而总体方差在重复采样中,红细胞比重遵循二项分布。、重复采样中红血球比重的采样分布,3、采样分布的特征是指样本统计量的数学期待和方差。样本统计量的数学期待:即所有样本统计值的平均值、样本统计量的方差:即所有样本统计值为数学期待的方差,在前面的例题中,重复采样的采样分布为:样本平均的期待和方差:不进行重复采样的采样分布为采样平均和方差:结论: (1)采样平均采样分布的期望值(平均值):在重复采样或无重复采样中,均为平均值(2)采样平均采样分布的方差:重复采样的方差比无重复采样大,明显是无重复采样的采样采样数量的采样分布: (1)采样数量的期望值:在不重复采样或重复采样的情况下,采样数量的平均值等于总数(2)采样数量的采样分布的方差:在不重复采样的情况下很明显,不重复采样时样本数的采样分布集中,样本统计量的数学期望值(平均值)在各种采样方法和采样组织方式中与整体参数相等。 采样分布的特征主要通过方差来表现。 采样分布越集中且采样统计量的方差越小,采样统计值越接近整体参数的真值的可能性越高,采样估计的误差越小,估计结果越准确。 由于在实际调查中只提取了一个样本,所以很难列举出上述样本的分布形式。结论:二,采样分布定理,(一)采样平均采样分布定理1,正态分布的再生定理整体遵循正态分布,采样平均也遵循正态分布(不要求正态),期望值、方差、n充分大(n30,大采样),朝向正态分布,2,中心极限定理,采样容量充分大(大如果采样分布朝向正态分布,且小样本和大样本正态总体的方差未知且n小,则沿着自由度为n-1的t分布的任一总体,但n小,并且根据自由度为n-1的t分布、3和t分布定理,(2)采样数的采样分布定理、1和2项分布定理和数学上的期望当从方差为非变量(0-1分布)总体中随机地反复提取容量为n的样本时,样本中包含变量值的概率为,、2 .超几何分布定理为数学上期待的p, 从方差为非变量(0-1分布)整体随机地反复提取容量为n的样本,同时,样本中包含某一变量值的概率为:数学上期待的p, 从方差为非变量(0-1分布)整体随机提取容量为n的样本,在n充分大的情况下(nP5 n(1-P)5),样本数p是正态分布、E(p)=P,3 .中心极限定理、正态分布是最重要且最常用的样本分布,样本一般是大的样本第二节中的采样误差、第一、采样中的误差可以简单地把采样中的总误差分为两种,一种是采样误差,一种是非采样误差。 抽样误差偶然性代表误差非抽样误差系统代表误差观测性误差,抽样误差:抽样的非全面性和随机性引起的偶然性误差,即抽样估计值根据抽样不同而不同的误差。 特征:随着样品容量的增加,有0的倾向,是不可避免的,但可控制的随机样品偶然性因素以外的原因引起的误差。 超过一定程度的话,采样的意义就会失去,减少和控制采样的意义很重要。 另外,非采样误差:总误差、采样误差、非采样误差、二、采样误差的表示形式是指样本估计量和整体参数之间的数量上的差异,由于随机采样的偶然性因素,样本缺乏代表整体,样本指标和整体指标之间的差异(即只有引起采样误差,采样误差有三种形式:实际采样误差(采样平均误差)采样极限误差(1)采样的实际误差是采样估计与整体参数的真值之间的绝对方差,以及随机采样由于样本结构与整体结构不完全匹配,所以出现估计误差,其中多个估计的实际采样误差是随机变量,并且无法对任何样本测量样本的实际误差,其指示因样本而存在不同采样的实际误差,这是平均估计的实际误差。 样本标准误差(样本平均误差)是反映样本误差的一般水平的指标,实质意义是样本统计量的样本分布的标准偏差可以反映样本指标和整体指标的平均离散度,也可以说明样本指标的代表性大小。 另外,采样基准误差越大(越小),采样分布越离散(集中),采样指标的整体指标的代表性越差(越好),采样估计的误差平均越大。 此外,对于固定总体和采样容量n,以相同的采样方法和采样组织形式,有错误的采样标准是唯一确定的值。 在“可以计算和控制采样误差”的例子中,在重复采样的情况下,在不重复采样的例子中,不重复采样的采样的平均值的分布比重复采样的样本更集中,样本平均值的代表可以因此,实践上经常使用不重复采样的方法。上述公式在实际应用时有两个困难:实际上无法基于该公式计算标准误差,只能根据一组样本计算其估计值,所以样本标准误差是随机变量,知道了需要计算所有可能的样本统计量的值的整体参数采样极限误差通常表示在按样本估计量估计整体参数时所允许的最大误差范围,且采样极限误差的实际意义:实际上限制了整体参数可接受的最大值或最小值。 也就是说,希望总体参数落在样本估计的范围内,样本的边界误差越大,样本的估计精度越低,样本的边界误差取决于两个因素: 1、样本的标准误差,即,样本分布本身具有多大的标准偏差。 如果采样方法和采样容量固定,则采样标准误差为一定值,这将反映采样误差的一般水平。 因此,采样界限误差通常可以以采样标准误差为基准单位测定,表示采样标准误差的几倍。 采样标准误差越大(小),采样界限误差越大(小),2、采样估计的概率保证度(可靠性)是指采样估计结果的可靠性,即采样估计结果正确的概率(可靠性)有多少。 一般在这里称为显着性水平。 指整体参数在区间内的概率。 即,是整体参数不存在于区间内的概率。 估计结果的可靠度越高越要求大。 采样界限误差、采样标准误差和采样概率保证度的关系可以表示为:在此称为采样概率度。 可以看出,采样极限误差分别与概率度和采样标准误差成正比。 采样估计的可靠性越高,而估计的精度越大。、99.73 %=1,1.64,1.96,2,3,第三节参数推定方法,一,推定量的评价基准,推定量是推定整体参数的量,或者根据样本结果推定整体参数的规则和形式。 估计量一般是样本统计量。 具有估计量的具体值称为估计值。 评价估计量好坏的标准有四种。 没有偏差,有效性、一致性和充分性满足标准的叫做优良估计量。 如果有两个以上的统计量可以估计整体参数,该如何选择呢? 如果是这样的话,就称为不偏不倚的估计量。 如果被称为更有效估计,那么a,b,意味着随着样本的单位数量n的增加,样本估计的可能值更接近整体参数的真值,并且匹配。这意味着,估计量是提取与包括在样本中的整体参数相关的所有信息例如:充分性,s2n-1是S2,p没有p的偏差,有效、一致、充分的估计量。 数学统计证明:当同时满足上述四个标准时,它是优秀的估计量,并且参数估计方法也称为点估计区间估计,2,参数估计方法,(1)点估计,点估计:值估计,其中,样本统计的值是整体参数的估计值。 重要问题是估计量的选择、点估计的优缺点,(2)区间估计是使用具有一定可靠度的区间范围来估计整体参数。 即,在所给定的概率保证程度(可靠度) 1上找到两个数值1和2,构成整体参数取值的区间范围1,2。 该区间被称为估计区间,1被称为估计下限,2被称为估计上限,如果采样界限误差是已知的,则如果整体参数在样本估计量的范围内,则整体参数的区间范围为: 如果以一定概率保证程度找到相应的采样极限误差的值,就能确定估计区间的上下限,估计区间为:的估计区间:p的估计区间:区间估计的两个基本的要求是,以可靠度1-精度估计区间长,以一般给定的概率保证的程度,尽可能提高估计的精度(采样基准可靠性1-越大,估计精度越低。 相反,可靠性1越小,估计的精度越高。 希望可靠性尽可能高(可靠性高)的同时,精度尽可能高(估计区间的长度短)。 然而,如果采样容量n固定,则两者不一致。 区间估计的特征:不是参数的确定值,而是以一定的概率保证程度表示参数的可能范围。 估计结果的可靠度是概率保证度,是第3节的各采样组织形式下的采样估计,采样组织形式:单纯随机采样等间距采样分层采样全群采样多阶段采样,事先将整体分组、分组另一方面,简单随机采样(纯随机采样)、一、计算估计量二、采样基准错误(一)如果总体方差已知,则(一)总体平均值的估计,f=n/N,采样比被称为f5%,有限总体的校正系数可忽略1-f 【例3.1】对某一天生产的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 信阳航空考试题目及答案
- 三甲医院住院医师规范化培训全科师资培训考试题及答案
- 2025年航天质量知识试题及答案
- 维修电工考级考证试题题库及答案
- 2025年风机检修培训试题及答案
- 安全用电考试题及答案
- smt基础知识考试试题及答案
- 跨国企业劳动合同制定与海外员工权益保障合同
- 高新技术研发项目资金拨付合同
- 2025公务员省考面试题及答案
- 乡镇综合执法工作培训
- 2025新会计法培训
- 小儿麻醉危机管理方案
- 成人床旁心电监护护理规程
- 本科生科研管理制度
- 大输液产品研究报告
- 2025版技术服务合同协议
- GB 5768.1-2025道路交通标志和标线第1部分:总则
- 江西红色文化考试试题及答案
- 食品仓库记录管理制度
- 企业团委管理制度
评论
0/150
提交评论