抽样与抽样分布

上传人：儿*** IP属地：广东上传时间：2020-04-23 格式：PPT 页数：104 大小：1.09MB 积分：30 举报 版权申诉

已阅读5页，还剩99页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

抽样与抽样分布 1抽样基本知识2抽样分布3样本统计量的抽样分布一个总体参数推断时 4样本统计量的抽样分布两个总体参数推断时学习目标了解概率抽样方法区分总体分布样本分布抽样分布理解抽样分布与总体分布的关系掌握单总体参数推断时样本统计量的分布抽样基本知识总体与样本抽样方法抽样框抽样误差总体和参数总体 Population 是指所要研究的对象的全体它是由所研究范围内具有某种共同性质的全部单位所组成的集合体总体单位总数用N表示参数 parameter 用来反映总体数量特征的指标称研究目的一经确定总体也唯一地确定了所以总体指标的数值是客观存在的确定的但又是未知的需要用样本资料去估计总体和参数续通常所要估计的总体指标有样本和统计量样本 Sample 它是从总体中抽取的部分总体单位的集合体样本容量样本中所包含的个体的数量一般用n表示在实际工作中人们通常把n 30的样本称为大样本而把n 30的样本称为小样本对于某一既定的总体由于抽样的方式方法不同样本容量也可大可小因而样本是不确定的可变的抽样的目的就是为要用样本的特征去估计总体特征但样本只是总体的一部分而且样本的抽取又具有随机性因此样本的内部构成与总体的内部构成总是具有一定的差异样本不能完全代表总体抽样估计总是存在一定的代表性误差样本和统计量续统计量 statistic 在抽样估计中用来反映样本总体数量特征的指标称为样本指标也称为样本统计量或估计量是根据样本资料计算的用以估计或推断相应总体指标的综合指标常见的样本统计量有样本统计量不含未知参数它是随样本不同而不同的随机变量抽样方法概率抽样 probabilitysampling 概率抽样也叫随机抽样是指按随机原则抽取样本随机原则就是排除主观意识的干扰使总体每一个单位都有一定的概率被抽选为样本单位每个单位能否入选是随机的特点能有效地避免主观选样带来的倾向性误差系统偏差使样本资料能够用于估计和推断总体的数量特征而且这种估计和推断得以建立在概率论和数理统计的科学理论之上可以计算和控制抽样误差说明估计的可靠程度作用在不可能或不必要进行全面调查时利用概率抽样来推断总体利用概率抽样修正或补充全面调查的不足概率抽样 probabilitysampling 续统计上所指的抽样一般都是指概率抽样概率抽样最基本的组织形式有简单随机抽样分层抽样等距抽样和整群抽样简单随机抽样 simplerandomsampling 从总体N个单位元素中随机地抽取n个单位作为样本使得总体中每一个元素都有相同的机会概率被抽中抽取元素的具体方法有重复抽样和不重复抽样特点简单直观在抽样框完整时可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时不易构造抽样框抽出的单位很分散给实施调查增加了困难没有利用其他辅助信息以提高估计的效率简单随机样本 simplerandomsample 由简单随机抽样形成的样本从总体N个单位中随机地抽取n个单位作为样本使得每一个容量为n样本都有相同的机会概率被抽中参数估计和假设检验所依据的主要是简单随机样本简单随机抽样用Excel对分类数据随机抽样例某班级共有30名学生他们的名单如右表用Excel抽出一个由5个学生构成的随机样本简单随机抽样用Excel对分类数据随机抽样第1步将30个学生的名单录入到Excel工作表中的一列第2步给每个学生一个数字代码分别为1 2 30 并按顺序排列将代码录入到Excel工作表中的一列与学生名单相对应第3步选择工具下拉菜单并选择数据分析选项然后在数据分析选项中选择抽样第4步在抽样对话框中的输入区域中输入学生代码区域在抽样方法中单击随机在样本数中输入需要抽样的学生个数在输出区域中选择抽样结果放置的区域确定后即得到要抽取的样本用Excel对分类数据抽样简单随机抽样用Excel对数值型数据随机抽样第1步将原始数据录入到Excel工作表中的一列第2步选择工具下拉菜单并选择数据分析选项然后在数据分析选项中选择抽样第3步在抽样对话框中的输入区域中输入原始数据区域在抽样方法中单击随机在样本数中输入需要抽样的数据个数在输出区域中选择抽样结果放置的区域确定后即得到要抽取的样本数据用Excel对数值型数据抽样分层抽样 stratifiedsampling 又称类型抽样或分类抽样先对总体各单位按主要标志加以分组层然后再从各组层中按随机原则独立抽选一定单位构成样本分层抽样通过分类组把总体中标志值比较接近的单位归为一组减少各组内的差异程度这样再从各组抽取样本单位就更具有代表性因而抽样误差也就相对缩小特别是在标志值相差悬殊时由于划分了类型一方面缩小了组内方差另一方面也保证各组都能抽取一定的样本单位所以分层抽样较之纯随机抽样可以提高样本的代表性能获得更为满意的效果分层抽样 stratifiedsampling 续优点除了可以对总体进行估计外还可以对各层的子总体进行估计可以按自然区域或行政区域进行分层使抽样的组织和实施都比较方便分层抽样的样本分布在各个层内从而使样本在总体中的分布比较均匀如果分层抽样做得好便可以提高估计的精度系统抽样 systematicsampling 将总体中的所有单位抽样单位按一定顺序排列在规定的范围内随机地抽取一个单位作为初始单位然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位以后依次取r k r 2k等单位优点简便易行可提高估计的精度缺点对估计量方差的估计比较困难等距抽样续间隔相等样本数n 整群抽样 clustersampling 将总体中若干个单位合并为组群抽样时直接抽取群然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框可简化工作量调查的地点相对集中节省调查费用方便调查的实施缺点是估计的精度较差多阶段抽样 multi stagesampling 先抽取群但并不是调查群内的所有单位而是再进行一步抽样从选中的群中抽取出若干个单位进行调查群是初级抽样单位第二阶段抽取的是最终抽样单位将该方法推广使抽样的段数增多就称为多阶段抽样具有整群抽样的优点保证样本相对集中节约调查费用需要包含所有低阶段抽样单位的抽样框同时由于实行了再抽样使调查单位在更广泛的范围内展开在大规模的抽样调查中经常被采用的方法概率抽样小结非概率抽样也叫非随机抽样是指从研究目的出发根据调查者的经验或判断从总体中有意识地抽取若干单位构成样本重点调查典型调查配额抽样是按照一定标准或一定条件分配样本单位数量然后由调查者在规定的数额内主观地抽取样本方便抽样指调查者按其方便任意选取样本如商场柜台售货员拿着厂家的调查表对顾客的调查等就属于非随机抽样优点及时了解总体大致情况总结经验教训在进行大规模抽样调查之前的试点缺点非随机抽样容易产生倾向性误差并且误差不能计算和控制也就无法说明调查结果的可靠程度概率抽样与非概率抽样重复抽样与非重复抽样重复抽样又称回置抽样是指从总体的N个单位中每次抽取一个单位后再将其放回总体中参加下一次抽选连续抽n次即得到一个样本特点样本是由n次相互独立的连续试验构成的每次试验是在完全相同的条件下进行每个单位中选的机会在各次都完全相等重抽考虑顺序可能的样本数目从总体中可能抽取的样本个数用M表示为 Nn个重复抽样与非重复抽样不重复抽样也叫不回置抽样是指抽中的单位不再放回总体中下一个样本单位只能从余下的总体单位中抽取特点样本由n次连续抽取的结果构成实际上等于一次同时从总体中抽取n个样本单位 n次抽取结果不是独立的可能的样本数目考虑顺序 N N 1 N 2 N n 1 个重复抽样与非重复抽样设有4名学生的月消费支出分别为 240 280 360 400元我们分别用A B C D替代若从中抽取两个单位构成样本则全部可能的样本数目为重复 42 16个它们是AAABACAD BABBBCBDCACBCCCD DADBDCDD不重复 4 3 12 它们是ABACAD BABCBDCACBCD DADBDC 抽样框调查目的确定之后抽样总体目标总体也就随之确定但实际进行抽样的总体范围与目标总体有时是不一致的所以有了目标总体还必须明确实际进行抽样的总体范围和抽样单位这就需要编制一个抽样框抽样框是包括全部抽样单位的名单框架编制抽样框是实施抽样的基础抽样框的好坏通常会直接影响到抽样调查的随机性和调查效果抽样框名单抽样框列出全部总体单位的名录一览表区域抽样框按地理位置将总体范围划分为若干小区域以小区域为抽样单位时间表抽样框将总体全部单位按时间顺序排列把总体的时间过程分为若干个小的时间单位以此时间单位为抽样单位理想的抽样框不重复不遗漏抽样误差统计调查误差是指调查所得结果与总体真实数值之间的差异登记性误差是任何一种统计调查都可能产生代表性误差系统性误差是由于非随机因素引起的样本代表性不足而产生的误差表现为样本估计量的值系统性偏高或偏低故也称偏差随机误差又称偶然性误差是指遵循随机原则抽样但由于样本各单位的结构不足以代表总体各单位的结构而引起的样本估计量与总体参数之间的误差这就是抽样估计中所谓的抽样误差三个误差概念实际抽样误差某一具体样本的样本估计值与总体参数真实值之间的离差总体参数未知每次抽样的实际抽样误差是无法计算的样本是随机抽取样本估计量是随样本不同而不同的随机变量随机抽样误差也是随机变量但样本估计量的所有可能取值总有一定的分布规律抽样误差也就有一定的规律可循抽样误差可以计算和控制并不是指某次具体抽样的实际误差而是从所有可能样本来考察的抽样平均误差和抽样极限误差三个误差概念抽样平均误差抽样标准误是反映抽样误差一般水平的指标因为抽样误差是一个随机变量它的数值随着可能抽取的样本不同而或大或小为了总的衡量样本代表性的高低就需要计算抽样误差的一般水平通常用样本估计量的标准差来反映所有可能样本估计值与其中心值的平均离散程度可以证明对于既定的总体和样本容量样本估计量是以相应总体参数为分布中心的统计上把样本估计量的标准差定义为抽样平均误差三个误差概念抽样平均误差抽样标准误抽样平均误差可衡量样本对总体的代表性大小抽样平均误越小则样本估计量的分布就越集中在总体参数的附近平均来说样本估计值与总体参数之间的抽样误差越小样本对总体的代表性越大三个误差概念实际中抽样平均误差不可能按定义式来计算只能根据概率论和数理统计的有关理论来推导其计算公式在总体方差已知总体单位总数为N 样本容量为n 简单随机抽样条件下抽样平均误的计算公式为三个误差概念抽样极限误差一定概率下抽样误差的可能范围也称为允许误差用表示由定义知其表达式在一定概率下上式表示在一定概率下可认为样本估计量与相应的总体参数的误差的绝对值不超过用分别表示平均数和比例成数的抽样极限误差则在一定概率下有三个误差概念抽样极限误差估计均值的置信区间估计成数比例的置信区间三个误差概念抽样极限误差是抽样误差的可能范围而不是完全肯定的范围所以这一可能范围的大小是与其估计的可靠程度的大小即概率紧密联系的在抽样估计中这个概率叫置信度习惯上也称为可靠程度把握程度或概率保证程度等用1 表示显然在其他条件不变的情况下抽样极限误差越大相应的置信度也就越大与抽样极限误差相关的两个概念是抽样误差率和抽样估计精度抽样误差率抽样极限误差估计量 100 抽样估计精度 100 抽样误差率三个误差概念估计精度与估计的可靠程度是矛盾的也就是说如果精度很高则会由于估计区间太窄而使错误估计的可能性大增从而大大降低估计的可靠程度使估计结果没有多大的作用如果置信度很高则意味着允许误差范围较大而使估计精度太低这时尽管估计的可靠程度接近或等于100 但抽样估计本身也会失去意义实际中只能依据具体情况先满足一方面然后确定另一方面抽样极限误差与抽样平均误差的关系三种不同性质的分布 1总体分布2样本分布3抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布 populationdistribution 一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时样本分布逐渐接近总体的分布样本分布 sampledistribution 样本统计量的概率分布是一种理论分布在重复选取容量为n的样本时由该统计量的所有可能取值及出现的概率分布样本统计量样本均值样本比例样本方差等是随机变量它有若干可能取值每个可能取值都有一定的可能性即概率从而形成它的概率分布即统计上所谓的抽样分布样本统计量是由n个随机变量构成的函数故抽样分布属于随机变量函数的分布结果来自容量相同的所有可能样本抽样分布 samplingdistribution 抽样分布 samplingdistribution 抽样分布反映了样本指标的分布特征是抽样推断的重要依据根据样本分布的规律可揭示样本指标与总体指标之间的关系估计抽样误差并说明抽样推断的可靠程度寻求抽样分布的方法精确分布小样本方法渐进分布大样本方法抽样分布的形成过程 samplingdistribution 抽样分布例证四名学生的月消费支出 240 280 360 400元现按重复取样的方法随机抽取两位构成一个样本则全部可能的样本及其各样本的均值如下表所示抽样分布例证样本统计量的抽样分布一个总体参数推断时样本均值的抽样分布样本比例的抽样分布样本方差的抽样分布样本均值的抽样分布在重复选取容量为n的样本时由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布例题分析例设一个总体含有4个元素个体即总体单位数N 4 4个个体分别为x1 1 x2 2 x3 3 x4 4 总体的均值方差及分布如下均值和方差样本均值的抽样分布例题分析现从总体中抽取n 2的简单随机样本在重复抽样条件下共有42 16个样本所有样本的结果为样本均值的抽样分布例题分析计算出各样本的均值如下表并给出样本均值的抽样分布样本均值的分布与总体分布的比较例题分析 2 5 2 1 25 总体分布样本均值的抽样分布与中心极限定理当总体服从正态分布N 2 时来自该总体的所有容量为n的样本的均值 x也服从正态分布 x的数学期望为方差为 2 n 即 x N 2 n 中心极限定理 centrallimittheorem 中心极限定理设从均值为方差为 2的一个任意总体中抽取容量为n的样本当n充分大时样本均值的抽样分布近似服从均值为方差为 2 n的正态分布中心极限定理 centrallimittheorem x的分布趋于正态分布的过程正态总体方差未知小样本设总体X N x1 x2 xn 是其简单随机样本则统计量抽样分布与总体分布的关系总体分布正态分布未知大样本小样本样本均值正态分布样本均值正态分布样本均值t分布方差已知方差未知样本均值的数学期望样本均值的方差重复抽样不重复抽样样本均值的抽样分布数学期望与方差样本均值的抽样分布数学期望与方差比较及结论 1 样本均值的均值数学期望等于总体均值2 样本均值的方差等于总体方差的1 n 统计量的标准误 standarderror 样本统计量的抽样分布的标准差称为统计量的标准误也称为标准误差标准误衡量的是统计量的离散程度它测度了用样本统计量估计总体参数的精确程度以样本均值的抽样分布为例在重复抽样条件下样本均值的标准误为估计的标准误 standarderrorofestimation 当计算标准误时涉及的总体参数未知时用样本统计量代替计算的标准误称为估计的标准误以样本均值的抽样分布为例当总体标准差未知时可用样本标准差s代替则在重复抽样条件下样本均值的估计标准误为样本比例的抽样分布总体或样本中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品或不合格品与全部产品总数之比总体比例可表示为样本比例可表示为比例 proportion 在重复选取容量为n的样本时由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时样本比例的抽样分布可用正态分布近似推断总体比例P的理论基础样本比例的抽样分布样本比例的抽样分布当从总体中抽取一个样本容量为n的样本时样本中具有某种特征的单位数X服从二项分布即有X B n E X n Var X n 1 样本比例p x n也服从二项分布样本比例的数学期望样本比例的方差重复抽样不重复抽样样本比例的抽样分布数学期望与方差样本比例的抽样分布根据中心极限定理当n 时二项分布趋近于正态分布所以在大样本下若nP和n 1 P 皆大于5 样本比例近似服从正态分布样本方差的抽样分布样本方差的分布在重复选取容量为n的样本时由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本则比值的抽样分布服从自由度为 n 1 的 2分布即由阿贝 Abbe 于1863年首先给出后来由海尔墨特 Hermert 和卡皮尔逊 K Pearson 分别于1875年和1900年推导出来设则令则Y服从自由度为1的 2分布即当总体从中抽取容量为n的样本则 2分布 2distribution 分布的变量值始终为正分布的形状取决于其自由度n的大小通常为不对称的正偏分布但随着自由度的增大逐渐趋于对称期望为E 2 n 方差为D 2 2n n为自由度可加性若U和V为两个独立的服从 2分布的随机变量 U 2 n1 V 2 n2 则U V这一随机变量服从自由度为n1 n2的 2分布 2分布性质和特点 c2分布图示 c2分布例题的图示 c2分布用Excel计算c2分布的概率利用Excel提供的CHIDIST统计函数计算c2分布右单尾的概率值语法为CHIDIST x df 其中df为自由度 x是随机变量的取值给定自由度和统计量取值的右尾概率也可以利用插入函数命令来实现计算自由度为8 统计量的取值大于10的概率用Excel计算c2分布的概率 c2分布用Excel计算c2分布的临界值利用Excel提供的CHIINV统计函数计算分布右单尾的概率值为的临界值语法为CHIINV df 其中df为自由度给定自由度和分布右尾概率为的临界值也可以利用插入函数命令来实现计算自由度为10 右尾概率为0 1的临界值用Excel计算c2分布的临界值 c2分布用Excel生成c2分布的临界值表第一步将c2分布自由度df的值输入到工作表的A列将右尾概率的取值输入到第1行第二步在B2单元格输入公式 CHIINV B 1 A2 然后将其向下向右复制即可得到分布的临界值表用Excel生成c2分布的临界值表 c2分布用Excel绘制c2分布图第1步在工作表的第1列A2 A62输入应一个等差数列初始值为 0 步长为 1 终值为 60 第2步在单元格B1输入c2分布自由度如 15 第3步在单元格B2输入公式 CHIDIST A2 B 1 并将其复制到B3 B62区域第4步在单元格C2输入公 B2 B3 并将其复制到C3 C62区域第5步将A2 A62作为横坐标 C2 C62作为纵坐标根据图表向导绘制折线图用Excel绘制c2分布图 c2分布用Excel绘制c2分布图样本均值样本比例样本方差分布未知大样本正态总体方差已知正态总体方差未知小样本大样本正态分布 t分布 2分布样本统计量样本统计量的抽样分布两个总体参数推断时两个样本均值之差的抽样分布两个样本比例之差的抽样分布两个样本方差比的抽样分布两个样本均值之差的抽样分布两个总体都为正态分布即两个样本均值之差的抽样分布服从正态分布其分布的数学期望为两个总体均值之差方差为各自的方差之和两个样本均值之差的抽样分布两个样本均值之差的抽样分布两个样本比例之差的抽样分布两个总体都服从二项分布分别从两个总体中抽取容量为n1和n2的独立样本当两个样本都为大样本时两个样本比例之差的抽样分布可用正态分布来近似分布的数学期望为方差为各自的方差之和两个样本比例之差的抽样分布两个样本方差比的抽样分布两个样本方差比的抽样分布两个总体都为正态分布即X1 N 1 12 X2 N 2 22 从两个总体中分别抽取容量为n1和n2的独立样本两个样本方差比的抽样分布服从分子自由度为 n1 1 分母自由度为 n2 1 的F分布即由统计学家费希尔 R A Fisher 提出的

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

抽样与抽样分布

文档简介

温馨提示

最新文档

评论

抽样与抽样分布

文档简介

温馨提示

最新文档

评论

相关文档