统计板块二频率直方图_第1页
统计板块二频率直方图_第2页
统计板块二频率直方图_第3页
统计板块二频率直方图_第4页
统计板块二频率直方图_第5页
已阅读5页,还剩18页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、文档编码 : CR2R4I6Y2W8 HZ4Z10S2L6U9 ZB10O10F5T1U10统计.板块二 .频率直方图一随机抽样 1随机抽样:中意每个个体被抽到的机会是均等的抽样,共有三种经常接受的 随机抽样方法:简洁随机抽样: 从元素个数为 N 的总体中不放回地抽取容量为 n的样本,假如 每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简 单随机抽样抽出方法: 抽签法:用纸片或小球分别标号后抽签的方法 随机数表法:随机数表是使用运算器或运算机的应用程序生成随机数的功能 生成的一张数表表中每一位置显现各个数字的可能性相同随机数表法是对样本进行编号后,依据确定的规律从随机数表中

2、读数,并取出相应的样本的方法简洁随机抽样是最简洁、最基本的抽样方法系统抽样: 将总体分成均衡的如干部分,然后依据预先制定的规章, 从每一部分抽取一个个体,得到所需要的样本的抽样方法抽出方法:从元素个数为 N 的总体中抽取容量为 n 的样本,假如总体容量能被样本容量整除,设 k Nn,先对总体进行编号,号码从 1到 N ,再从数字 1到 k 中随机抽取一个数 s作为起始数,然后顺次抽取第 s k,s 2 k, ,s n 1 k 个数,这样就得到容量为 n 的样本假如总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样系统抽样适用于大规模的抽样调查,由于抽样间隔相等,

3、又被称为等距抽样分层抽样:当总体有明显差别的几部分组成时,要反映总体情形,常接受分层抽样,使总体中各个个体按某种特点分成如干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简洁随机抽样,这种抽样方法叫做分层抽样分层抽样的样本具有较强的代表性,而且各层抽样时,可灵敏选用不同的抽样方法,应用广泛2简洁随机抽样必需具备以下特点:1 简洁随机抽样要求被抽取的样本的总体个数 N 是有限的简洁随机样本数 n 小于等于样本总体的个数 N 简洁随机样本是从总体中逐个抽取的简洁随机抽样是一种不放回的抽样简洁随机抽样的每个个体入样的可能性均为 nN3系统抽样时,当总体个数 N 恰好是样本容量

4、n 的整数倍时,取 k N n;如N 不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数 n 能被样本容量 n 整除由于每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍然相等,为 N n二频率直方图 列出样本数据的频率分布表和频率分布直方图的步骤: 运算极差:找出数据的最大值与最小值,运算它们的差; 准备组距与组数:取组距,用极差准备组数;组距 准备分点:准备起点,进行分组; 列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样 本容量,得到各小组的频率 绘制频率分布直方图:以数据的值为横坐标,以 图,知小长方形的面积组距频率 组距频率频率 组距的

5、值为纵坐标绘制直方频率分布折线图: 将频率分布直方图各个长方形上边的中点用线段连接起来,就 得到频率分布折线图, 一般把折线图画成与横轴相连, 所以横轴左右两端点没有 实际意义总体密度曲线: 样本容量不断增大时, 所分组数不断增加, 分组的组距不断缩小,频率分布直方图可以用一条光滑曲线yf x 来描画,这条光滑曲线就叫做总体密度曲线总体密度曲线精确地反映了一个总体在各个区域内取值的规律2 三茎叶图 制作茎叶图的步骤: 将数据分为 “茎”、“叶”两部分; 将最大茎与最小茎之间的数字按大小次序排成一列,并画上竖线作为分隔线; 将各个数据的 “叶”在分界线的一侧对应茎处同行列出四统计数据的数字特点

6、用样本平均数估量总体平均数;用样本标准差估量总体标准差数据的离散程序可以用极差、方差或标准差来描述极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度;样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方 根一般地,设样本的元素为x 1,x 2, , 样本的平均数为 x ,定义样本方差为2 sx 1x2x2x2x nx2,n样本标准差sx 1x2x2x2xnx2 n简化公式:s21 n2 x 1x2 2x2 nnx2五独立性检验 1两个变量之间的关系;常见的有两类: 一类是确定性的函数关系; 另一类是变量间存在关系, 但又不具 备函数关系所要求的确定性, 它们的

7、关系是带有确定随机性的当一个变量取值 确定时,另一个变量的取值带有确定随机性的两个变量之间的关系叫做相关关 系2散点图:将样本中的n 个数据点 x i,y ii1 2, , 描在平面直角坐标系中,就得到了散点图散点图形象地反映了各个数据的亲热程度,断分析两个变量的关系3 依据散点图的分布趋势可以直观地判3假如当一个变量的值变大时,另一个变量的值也在变大,就这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域反之,一个变量的值变大时, 另一个变量的值由大变小, 这种相关称为负相关 此时,散点图中的点在从左上角到右下角的区域散点图可以判定两个变量之间有没有相关关系4统计假设:假如大事A与

8、 B 独立,这时应当有P ABP A P B ,用字母H 表示此式,即H0:P ABP A P B ,称之为统计假设n n n22n n 212,用它的52 (读作 “卡方 ”)统计量:统计学中有一个特殊有用的统计量,它的表达式为2n n n n2大小可以用来准备是否拒绝原先的统计假设H 假如2的值较大,就拒绝H ,即认为 A与 B 是有关的2 统计量的两个临界值: 3.841、6.635;当 23.841 时,有 95% 的把握说大事 A 与B有关;当 2 6.635时,有 99% 的把握说大事 A与 B 有关;当 23.841 时,认为大事 A与 B 是无关的独立性检验的基本思想与反证法类

9、似,由结论不成立时推出有利于结论成立的小概率大事发生, 而小概率大事在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的1独立性检验的步骤:统计假设:H ;列出 22 联表;运算2 统计量;查对临界值表,作出判定2几个临界值:P2 2.7060.10,P 23.8410.05,P26.6350.01222 联表的独立性检验:对于每种状态又有两个情形, 这样排成一张 2假如对于某个群体有两种状态,的表,如下:状态状态状态合BB计n 11n 12n 14 A状态n 21n22n 2An 1 n 2 n假如有调查得来的四个数据 n 11,n 12,n 21,n 22,并期望依据这样的 4

10、个数据来检验上述的两种状态 A与 B 是否有关,就称之为 2 2 联表的独立性检验六回来分析1回来分析:对于具有相关关系的两个变量进行统计分析的方法叫做回来分析,即回来分析就是查找相关关系中这种非确定关系的某种确定性回来直线: 假如散点图中的各点都大致分布在一条直线邻近,就称这两个变量之间具有线性相关关系,这条直线叫做回来直线2最小二乘法:记回来直线方程为:.yabx ,称为变量 Y 对变量 x 的回来直线方程, 其中 a, 叫做回来系数.y是为了区分 Y 的实际值 y,当 x 取值 ix 时,变量Y的相应观看值为 iy ,而直线上对应于 ix 的纵坐标是 y .i a bx 设 x Y, 的

11、一组观看值为 x i,y i ,i 1 2, , , ,且回来直线方程为 .y a bx ,当 x 取值 ix时,Y 的相应观看值为 iy,差 y i y i 12, , 刻画了实际观看值 iy与回来直线上相应点的纵坐标之间的偏离程度,称这些值为离差我们期望这 n 个离差构成的总离差越小越好,点这样才能使所找的直线很贴近已知记Qin1y iabxi2,回来直线就是全部直线中Q 取最小值的那条这种使 “离差平方和为最小 ”的方法,叫做最小二乘法用最小二乘法求回来系数a, 有如下的公式:5 nb .i1x y inxy,.aybx ,其中 a b ., 上方加 “ ”,表示是由观看值按最小二乘法n

12、x2 inx21求得的回来系数3线性回来模型:将用于估量 y 值的线性函数 a bx作为确定性函数;y 的实际值与估量值之间的误差记为,称之为随机误差;将 y a bx 称为线性回来模型产生随机误差的主要缘由有:所用的确定性函数不恰当即模型近似引起的误差;忽视了某些因素的影响,通常这些影响都比较小;由于测量工具等缘由,存在观测误差4线性回来系数的正确估量值:利用最小二乘法可以得到 .a, 的运算公式为 .n n x i x y i y x y i nx y n nb i 1n in 1,.a y bx ,其中 . x 1 x i,y 1 y i x i x 2x i 2n x 2 n i 1

13、n i 1i 1 i 1由此得到的直线 y . a . bx 就称为回来直线,此直线方程即为线性回来方程其中a , b 分别为 a, b 的估量值, .a 称为回来截距, b 称为回来系数,.y称为回来值5相关系数:r i i nnx ixxy iy iyiy2 i ni 2 x innx y2 n y x y ii 1i2ini 1n2 y i2 n x ixi 11i 116相关系数 r 的性质: |r ;, 的线性相关程度越强; |r 越接近于 1, x |r 越接近于 0, x, 的线性相关程度越弱可见,一条回来直线有多大的推测功能,和变量间的相关系数亲热相关7转化思想:依据专业学问或

14、散点图, 对某些特殊的非线性关系, 选择适当的变量代换, 把非6 线性方程转化为线性回来方程,从而确定未知参数8一些备案回来( regression)一词的来历: “回来”这个词英国统计学家 Francils Galton 提出来的 1889 年,他在争论祖先与后代的身高之间的关系时发觉,身材较高的父母,他们的孩子也较高, 但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母, 他们的孩子也较矮, 但这些孩子的平均身高却比他们父母的平均身高高Galton 把这种后代的身高向中间值靠近的趋势称为“回来现象 ”后来,人们把由一个变量的变化去估量另一个变量的变化的方法称为回来分析回来系数的

15、推导过程:Qy ia bx i2y2 i2 ayina22 bx y i i 2abx i i b2b2 x ix y i i ax i时na22 a bx iy i i b22 x i2 bx y iy ,把上式看成 a 的二次函数,a 的系数n0,因此当a2bxinyiyibxi时取最小值2n同理,把 Q 的开放式按 b的降幂排列,看成b 的二次函数,当2 x i取最小值n解得:bi1iix yinxyx ix i i xy i2y, aybx ,1n12 x inx2x ix其中yy ii,x1 n是样本平均数n9 对相关系数 r 进行相关性检验的步骤:提出统计假设H :变量 x, 不具

16、有线性相关关系;n2( n是样本容量)假如以 95% 的把握作出推断,那么可以依据 10.950.05 与在相关性检验的临界值表中查出一个r 的临界值r 0.05(其中 10.950.05 称为检验水平);运算样本相关系数 r ;作出统计推断: 如 | r | r 0.05,就否定 H ,说明有 95% 的把握认为变量 y 与 x 之间具有线性相关关系;如 | r |r 0.05,就没有理由拒绝 H ,即就目前数据而言,没有7 充分理由认为变量 y 与 x 之间具有线性相关关系说明:对相关系数 r 进行显著性检验,一般取检验水平0.05 ,即牢靠程度为 95% 这里的 r 指的是线性相关系数,

17、r 的确定值很小,只是说明线性相关程度低,不愿定不相关,可能是非线性相关的某种关系这里的 r 是对抽样数据而言的 有时即使 |r| 1,两者也不愿定是线性相关的 故在统计分析时,不能就数据论数据,要结合实际情形进行合懂得释典例分析题型一 频率分布直方图【例 1】 (2022 西城二模)某区高二年级的一次数学统考中,随机抽取200 名同学的成果,成果全部在 50分至 100 分之间,将成果按如下方式分成 5 组:第一组,成果大于等于 50 分且小于 60 分;其次组,成果大于等于60分且小于 70 分; 第五组,成果大于等于 90 分且小于等于 100 分,据此绘制了如以下图的频率分布直方图就这

18、 200 名同学中成果大于等于【例 2】 (2022 东城二模)80 分且小于 90 分的同学有 _名已知一个样本容量为 100 的样本数据的频率分布直方图如以下图,样本数据落在 6 ,10 内的样本频数为,样本数据落在 2,10 内的频率为8 【例 3】 (2022 北京)从某学校随机抽取100 名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图) 由图中数据可知a如要从身高在 120, 130 , 130, 140 , 140, 150 三组内的同学中,用分层抽样的方法选取 18 人参加一项活动, 就从身高在 应为【例 4】 (2022 江苏高考)140, 150 内的同学中

19、选取的人数某棉纺厂为了明白一批棉花的质量, 从中随机抽取了100根棉花纤维的长度(棉花纤维的 长度是棉花质量的重要指标) ,所得数据都在区间5,409 中,其频率分布直方图如以下图, 就其抽样的100根中,有_根在棉花纤维的长度小于 20mm 频率y 组距0.06 0.05 0.04 0.03 0.02 0.015101520 25 30 35 40长度 mm【例 5】 (2022 湖北 15)下图是样本容量为 频率 /组距 0.09 0.080.03 0.02200 的频率分布直方图O2610141822样本数据6,10内 的频数依据样本的频率分布直方图估量,样本数 据落在为,数据落在2,1

20、0内的概率约为【例 6】 (2022 福建 3)一个容量为 100的样本,其数据的分组与各组的频数如下:组0,1010,2020,3030,4040,5050,6060,70别频1213241516137数10 就样本数据落在10,40上的频率为()D0.64A 0.13B 0.39C 0.52【例 7】 某校为了明白同学的课外阅读情形,随机调查了 50 名同学,得到他们在某一天各自课外阅读所用时间的数据,结果用下面的条形图表示,依据条形图可得这 50 名同学这一天平均每人的课外阅读时间为()人数 人 20151050 0.5 1.0 1.5 2.0 时间 hA 0.6h B 0.9h C1.

21、0h D1.5h【例 8】 为了调查某厂工人生产某种产品的才能,随机抽查了 20 位工人某天生产该产品的数量产品数量的分组区间为 45,55, 55,65, 65,75,75,85, 85,95 由此得到频率分布直方图如图 3,就这 20 名工人中一天生产该产品数量在 55,75 的人数是频率 /组距0.0400.0350.0300.0250.0200.0150.0100.0050455565758595产品数量11 【例 9】 (2022 山东 8)某工厂对一批产品进行了抽样检测右图是依据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范畴是96,106,样本数据分组

22、为 96,98, 98,100, 100,102, 102,104,104,106已知样本中产品净重小于 100 克的个数是 36 ,就样本中净重大于或等于 98克并且小于 104 克的产品的个数是()频率 /组距0.1500.1250.1000.0750.050A 909698100102104106克D 45B 75C 60【例 10】某路段检查站监控录象显示,在某时段内,有1000 辆汽车通过该站,现在随机抽取其中的 200 辆汽车进行车速分析,分析的结果表示为右图的频率分布直方图,就估量在这一时段内通过该站的汽车中速度不小于90km/h 的车辆数为()12 频率 组距 0.04 0.0

23、3 0.020.01A 20060708090100110车速B 600C 500D 300【例 11】(2022 年全国 II)一个社会调查机构就某地居民的月收入调查了10000 人,并依据所得数据画了样本频率分布直方图,为了分析居民的收入与年龄、学历、职业等方面的联系,要从这10000 人中用分层抽样的方法抽出100 人做进一步调查,就在 2500,3000(元)月收入段应抽出 _人频率组距0.00050.00040.00030.00020.0001O 1000 1500 2022 2500 3000 3500 4000 月收入 元【例 12】如图为某样本数据的频率分布直方图,就以下说法不

24、正确选项()13 频率组距0.10.080.050.02O 2 6 10 14 18A6,10 的频率为 0.32B如样本容量为 100 ,就 10 14 的频数为 40C如样本容量为 100 ,就 ,10 的频数为 40D由频率分布布直方图可得出结论:估量总体大约有 10% 分布在 10 14【例 13】(2022 北京模拟)下面是某学校同学日睡眠时间的抽样频率分布表:睡眠时人频间数率6,6.550.056.5,70.17177,7.5330.337.5,80.37378,8.50.0668.5,90.022合计1001画出频率分布直方图,估量该校同学的日平均睡眠时间14 【例 14】(20

25、22 崇文一模)为了调查某厂 2022 名工人生产某种产品的才能, 随机抽查了 m 位工人某天生产该产品的数量,产品数量的分组区间为10, 15 ,错误!未找到引用源; 15, 20 , 20, 25 错误!未找到引用源; , 25, 30 , 30, 35 错误!未找到引用源; ,频率分布直方图如以下图已知生产的产品数量在 20,25 错误!未找到引用源; 之间的工人有 6 位求 m ;频率 /组距0.06 0.05 0.04 0.03 0.02 0 10 15 20 25 30 35 产品数量5 人不在同一组的概工厂规定从各组中任选1 人进行再培训,就选取率是多少?【例 15】考查某校高三

26、年级男生的身高,随机抽取40名高三男生,实测身高数据171163163166166168168160168165171169167169151168170160168174165168174159167156157164169180176157162161158164163163167161(单位: cm )如下: 作出频率分布表; 画出频率分布直方图15 【例 16】(2022 陕西卷高考)为明白同学身高情形,某校以10% 的比例对全校700 名同学按性别进行出样检查,测得身高情形的统计图如下:频数男生频数女生15214132身高 /cm1512身高 /cm10541076553110160

27、1651701751801851900150155160 165 170 175180估量该小男生的人数;估量该校同学身高在170 185cm 之间的概率;从样本中身高在 165 180cm 之间的女生中任选 2 人,求至少有 1 人身高在 170 180cm 之间的概率【例 17】从某校高一年级的1002 名新生中用系统抽样的方法抽取一个容量为100的身高样本,如下(单位:cm )作出该样本的频率分布表,画出频率分布直方图及折线图, 并依据作出的频率分布直方图估量身高不小于 170的同学的人数16 168 165 171 167 170 165 170 152 175 174 165 170

28、 168 169 171 166 164 155 164 158 170 155166158155160160164156162160170168164174170165179163172180174173159163172167160164169151168158168176155165165169162177158175165169151163166163167178165158170169159155163153155167163164158168167161162167168161165174156167166162161164166【例 18】为了明白学校生的体能情形,抽取了某学校同年级部分同学进行跳绳测试,将所得的数据整理后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论