随机抽样、正态分布_第1页
随机抽样、正态分布_第2页
随机抽样、正态分布_第3页
随机抽样、正态分布_第4页
随机抽样、正态分布_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

随机抽样、正态分布1第一页,共四十页,编辑于2023年,星期四随机抽样、正态分布第二页,共四十页,编辑于2023年,星期四1.数据的基本数字特征(1)平均数:一组数据的平均数,记为.设有n个数据x1,x2,…,xn,则平均数为=①

.(2)中位数:一组数据按照从小到大或从大到小的顺序进行排列时,处于中间位置的数.当这组数据的个数为奇数时,中位数为中间一个数;当这组数据的个数为偶数时,中位数为中间的两个数的平均数.第三页,共四十页,编辑于2023年,星期四(3)众数:一组数据中出现次数最多的数.(4)极差:一组数据中最大数与最小数的差.(5)方差:一组数据中所有数与平均数的差的平方和的平均数,记为s2,即s2=②

.(6)标准差:方差的算术平方根,记作s.2.主要统计图表(1)基本统计图表:象形、条形、折线、扇形统计图.第四页,共四十页,编辑于2023年,星期四(2)频率分布直方图的画图步骤:(ⅰ)求极差;(ⅱ)决定组距与组数;(ⅲ)将数据分组;(ⅳ)列频率分布表;(ⅴ)画频率分布直方图(以频率组距为纵坐标).(3)频率分布折线图:连接频率分布直方图中各小长方形上端的中点所得的折线.(4)总体密度曲线:随着样本容量的增加,作频率分布折线图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,则称这条光滑曲线为总体密度曲线.第五页,共四十页,编辑于2023年,星期四(5)茎叶图:中间的数字表示数据的十位数字,旁边的数字分别表示两组数据中各个数据的个位数字.3.抽样方法(1)简单随机抽样:从含有N个个体的总体中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做③

.有两种常用方法:简单随机抽样第六页,共四十页,编辑于2023年,星期四(ⅰ)④

:就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中取出一个号签,连续抽取n次,就得到一个容量为n的样本.(ⅱ)⑤

:利用随机数表、随机数骰子或计算机产生的随机数进行抽样.(2)系统抽样:按下列步骤进行抽样:(ⅰ)先将总体的N个个体编号;(ⅱ)确定分段间隔k,对编号进行分段;(ⅲ)在第1段用简单随机抽样确定第一个个体编号l(l≤k);(ⅳ)按照一定的规则抽取样本.抽签法随机数表法第七页,共四十页,编辑于2023年,星期四(3)分层抽样:即⑥

.

.

..4.正态分布(1)如果随机变量ξ的概率密度为φμ,σ(x)=⑦

.其中μ、σ分别表示总体的平均数与标准差,称ξ服从参数为μ、σ的正态分布,记作ξ~N(μ,σ2),函数图象称为正态密度曲线,简称正态曲线.在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽出一定数量的个体,将各层取出的个体合在一起作为样本(x∈(-∞,+∞))第八页,共四十页,编辑于2023年,星期四一般的,如果对于任何实数a<b,随机变量ξ满足P(a<ξ≤b)=φμ,σ(x)dx,则称ξ的分布为⑧

.(2)标准正态分布在正态分布中,当μ=⑨

,σ=⑩

时,正态总体称为标准正态总体,正态分布N(0,1),称为标准正态分布,记作ξ~N(0,1).(3)正态曲线的性质(ⅰ)曲线在x轴的上方,与x轴不相交;(ⅱ)曲线关于直线x=μ对称;正态分布01第九页,共四十页,编辑于2023年,星期四(ⅲ)曲线在x=μ时位于最高点;(ⅳ)当x<μ时,曲线上升;当x>μ时,曲线下降,并且当曲线向左、右两边无限延伸时,以x轴为渐近线向它无限靠近;(ⅴ)当μ一定时,曲线的形状由σ确定,σ越大,曲线越“矮胖”,表示总体的分布越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中.(4)若ξ~N(μ,σ2),则Eξ=μ,Dξ=σ2.第十页,共四十页,编辑于2023年,星期四(5)若X~N(μ,σ2),则P(μ-σ<X≤μ+σ)=0.6826,P(μ-2σ<X≤μ+2σ)=0.9544,P(μ-3σ<X≤μ+3σ)=0.9974.(6)通常认为服从正态分布N(μ,σ2)的随机变量X只取

,并简称之为3σ原则.(μ-3σ,μ+3σ)之间的值11第十一页,共四十页,编辑于2023年,星期四题型一抽样方法例1在我国东南沿海有60个人均GDP在3万元以上的城市,其中人均GDP在3~4万元之间的有36个,在4~5万元之间的有18个,在5万元以上的有6个.国家环保总局欲用分层抽样从中随机抽取部分城市进行环境调查,若抽取的人均GDP在4~5万元之间的城市个数为3,则抽取的人均GDP在3~4万元之间的城市个数为.第十二页,共四十页,编辑于2023年,星期四根据分层抽样的特征,在各层抽取的比例是相同的,故可先依据已知求出这个比例,再求解.抽取的人均GDP在4~5万元之间的城市的比例为,故抽取的人均GDP在3~4万元之间的城市的比例也是,则抽取的城市个数为36×=6.分层抽样在各层抽取样本的比例是相等的,这是解决分层抽样计算问题的主要依据.第十三页,共四十页,编辑于2023年,星期四题型二正态分布例2某批材料的强度ξ服从正态分布N(200,182),任取一件这种材料,强度在164~236的概率是多少?依题意,得μ=200,σ=18.则P(164<ξ≤236)=P(200-2×18<ξ≤200+2×18)=P(μ-2σ<ξ≤μ+2σ)=0.9544.故任取一件材料,其强度在164~236的概率是0.9544.第十四页,共四十页,编辑于2023年,星期四设在一次数学考试中,某班学生的分数服从ξ~N(110,),且已知满分为150分,这个班的学生共50人,求这个班在这次考试中不小于90分的人数和超过130分以上的人数.第十五页,共四十页,编辑于2023年,星期四因为ξ~N(110,),则μ=110,σ=20,P(110-20<x≤110+20)=0.6826.所以P(ξ>130)=1/2*(1-0.6826)=0.1587.P(ξ≥90)=0.6826+0.1587=0.8413.故不小于90分的人数为50×0.8413≈42(人).超过130分以上的人数为50×0.1587≈8(人).求此概率需将问题化为正态随机变量的几种特殊值的概率形式,然后利用对称性求解.第十六页,共四十页,编辑于2023年,星期四题型三频率分布表与频率分布直方图例3在生产过程中,测得纤维产品的纤度(表示纤维粗细的一种量)共有100个数据,数据分组如下表分组[1.30,1.34)[1.34,1.38)[1.38,1.42)[1.42,1.46)[1.46,1.50)[1.50,1.54)合计频数4253029102100第十七页,共四十页,编辑于2023年,星期四(1)完成频率分布表,并在给定的坐标系中画出频率分布直方图;分组频数频率[1.30,1.34)4[1.34,1.38)25[1.38,1.42)30[1.42,1.46)29[1.46,1.50)10[1.50,1.54)2合计100第十八页,共四十页,编辑于2023年,星期四第十九页,共四十页,编辑于2023年,星期四(2)估计纤度落在[1.38,1.50)中的概率及纤度小于1.40的概率是多少?(3)统计方法中,同一组数据常用该组区间的中点值(例如区间[1.30,1.34)的中点值是1.32)作为代表.据此,估计纤度的期望.第二十页,共四十页,编辑于2023年,星期四分组频数频率[1.30,1.34)40.04[1.34,1.38)250.25[1.38,1.42)300.3[1.42,1.46)290.29[1.46,1.50)100.10[1.50,1.54)20.02合计1001.00(1)频率分布表为:第二十一页,共四十页,编辑于2023年,星期四第二十二页,共四十页,编辑于2023年,星期四(2)纤度落在[1.38,1.50)中的概率约为0.30+0.29+0.10=0.69,纤度小于1.40的概率约为0.04+0.25+12×0.30=0.44.(3)总体数据的期望约为1.32×0.04+1.36×0.25+1.40×0.30+1.44×0.29+1.48×0.10+1.52×0.02=1.4088.第二十三页,共四十页,编辑于2023年,星期四

1.解答本题时,第(1)问首先需计算出每组的频率(利用频数100);第(2)问注意[1.38,1.42)中既有小于1.40,又有大于1.40的,可以认为各一半;第(3)问先计算出中点的概率,然后根据期望的定义求解.

2.本题主要考查频率分布直方图、频率、期望等概念和用样本频率估计整体分布的统计方法,考查运用概率、统计知识解决实际问题的能力.第二十四页,共四十页,编辑于2023年,星期四题型三样本的数字特征估计总体例3对甲、乙两名自行车赛手在相同条件下进行了6次测试,测得他们的最大速度(m/s)的数据如下表:(1)画出茎叶图,由茎叶图你能获得哪些信息?(2)分别求出甲、乙两名自行车赛手最大速度(m/s)数据的平均数、中位数、标准差,并判断选谁参加比赛更合适.甲273830373531乙332938342836第二十五页,共四十页,编辑于2023年,星期四

(1)画茎叶图,中间数为数据的十位数字:从这个茎叶图上可以看出,甲、乙的最大速度情况都是分布均匀的,只是乙更好一些;乙的中位数是33.5,甲的中位数是33.因此,乙发挥比较稳定,总体情况比甲好.(2)=33,=33;s甲=3.96,s乙=3.56;甲的中位数是33,乙的中位数是33.5.综合比较,选乙参加比赛较为合适.第二十六页,共四十页,编辑于2023年,星期四在某篮球比赛中,根据甲和乙两人的得分情况得到如图所示的茎叶图.(1)从茎叶图的特征来说明他们谁发挥得更稳定;

(2)用样本的数字特征验证他们谁发挥得更好.第二十七页,共四十页,编辑于2023年,星期四茎叶图的直观形状像横放的频率分布直方图,且保留了所有原始数据的信息,所以从数与形的特征来看,甲和乙的得分都是对称的,叶的分布是“单峰”的,但甲全部的叶都集中在茎2上,而乙只有57的叶集中在茎2上,这说明甲发挥得更稳定.第二十八页,共四十页,编辑于2023年,星期四(2)

==25,==25,=[(20-25)2+(21-25)2+(25-25)2+(26-25)2+(27-25)2+(28-25)2+(28-25)2]≈9.14,=[(17-25)2+(23-25)2+(24-25)2+(25-25)2+(26-25)2+(29-25)2+(31-25)2]≈17.43.因为=,<,所以甲发挥得更好.第二十九页,共四十页,编辑于2023年,星期四1.统计的基本思想方法是用样本估计总体,即用局部推断整体,这就要求样本应具有很好的代表性,而样本良好客观的代表性,完全依赖抽样方法,弄清简单随机抽样和分层抽样的客观合理性,从而会在不同的情况下采用适当的抽样方法.掌握三种抽样方法的抽样步骤.第三十页,共四十页,编辑于2023年,星期四三种抽样方法的比较:类别共同点各自特点相互联系适用范围简单随机抽样①抽样过程中每个个体被抽取的概率是相等的;②均属于不放回抽样从总体中逐个抽取最基本的抽样方法总体中的个体数较少分层抽样将总体分成几层进行抽取各层抽样时采用简单随机抽样总体由差异明显的几部分组成系统抽样将总体均分成几部分,按事先确定的规则在各部分抽取在起始部分抽样时采用简单随机抽样总体中的个体数较多第三十一页,共四十页,编辑于2023年,星期四2.频率分布直方图会使样本的一些数字特征更明显,绘制频率分布直方图时,要合理分组,以便使数据中的特征能更好地反映出来.总体分布估计中,(1)先确定分组的组数,其方法是:最大数据与最小数据之差除组距得组数.(2)计算每组中的频数及频率,其中频率=.(3)画出直方图.3.画茎叶图的步骤如下:(1)将每个数据分为茎(高位)和叶(低位)两部分;第三十二页,共四十页,编辑于2023年,星期四(2)将最小茎和最大茎之间数按大小次序排成一列,写在左(右)侧;(3)将各个数据的叶按大小次序写在其茎右(左)侧;4.用样本的数字特征(众数、中位数、平均数)估计总体数字特征.5.正态分布应用十分广泛,应用正态分布的关键是通过数形结合,利用正态分布曲线分析求解,或转化为“σ,2σ,3σ原则”问题求解.第三十三页,共四十页,编辑于2023年,星期四6.由正态曲线过点(a,0)和点(b,0)的两条x轴的垂线,及x轴所围成的平面图形的面积,就是随机变量ξ落在区间(a,b)的概率的近似值.7.正态曲线与x轴之间的面积为1.第三十四页,共四十页,编辑于2023年,星期四1.某初级中学共有30个班,其中初一有12个班,初二有12个班,初三有6个班.现从中抽出5个班进行调查,则应在初三6个班中抽取

个班.12.把数据x1,x2,…,xn分成若干组,已知某数xi的频数和频率分别为4和0.125,则n的值是()CA.16B.24C.32D.64第三十五页,共四十页,编辑于2023年,星期四3.数据5,10,73,1,3,105,111的中位数与极差的差为

.-100因为中位数是10,极差是111-1=110,故所求的值为10-110=-100.4.将一组数据同时减去3.1,得到一组新数据,若原数据的平均数、方差分别为、s2,则新数据的平均数是

,方差是

.-3.1s2第三十六页,共四十页,编辑于2023年,星期四设=(x1+

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论