版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第20章
数据的初步分析20.5数据分组课堂小结例题讲解随堂演练情景导入获取新知知识回顾知识回顾数据的离散程度离差平方和方差情景导入生活里的分类能帮我们高效做事,那杂乱的数据也可以通过“分组”变得清晰——这就是我们今天要学的《数据分组》.通过合理分组,不仅能快速统计各类数据的数量,还能利用即将要学的“组内离差平方和”判断分组是否让数据更集中、更便于分析.获取新知知识点:数据分组问题
我国10个省份某年人均地区生产总值(简称人均GDP,单位:万元)的数据如下表所示:如何将这些省份按人均GDP分成两组,并保证人均GDP相差不多的省份在一个组,应该如何划分?省份代号12345678910人均GDP/万元15.686.2410.117.1816.4212.137.3710.078.857.16思考在前面的学习中,我们知道,离差平方和可以刻画一组数据的离散程度.下面我们按照“组内离差平方和最小”的方法,对数据进行分组.怎么刻画分成的两组的组内人均GDP差异的大小呢?哪种分法能使两组的人均GDP的差异分别最小?概念学习
则S2=(x1-
x1)2+(x2-
x1)2+…+(xm-
x1)2+(xm+1-
x2)2+(xm+2-
x2)2+…+(xn-
x2)2+[m(
x1-
x)2+(n-m)(
x2-
x)2]=S12+S22.其中,S12=(x1-
x1)2+(x2-
x1)2+…+(xm-
x1)2+(xm+1-
x2)2+(xm+2-
x2)2+…+(xn-
x2)2
称为组内离差平方和,表达了两个组内数据的离散程度;S22=m(
x1-
x)2+(n-m)(
x2-
x)2
称为组间离差平方和,表达了两组数据之间的差异.一个合理的分组原则是使组内离差平方和达到最小,组间离差平方和达到最大.由于总体离差平方和
S2不变,只需考虑使组内离差平方和达到最小即可.省份序号12345678910人均GDP/万元15.686.2410.117.1816.4212.137.3710.078.857.16解:将表中10个数据按从小到大排列,得到6.24,7.16,7.18,7.37,8.85,10.07,10.11,12.13,15.68,16.42.将它们分成两组共有9种情况,分别计算组内离差平方和,如下表.分组组内离差平方和第一组1个,第二组9个第一组2个,第二组8个第一组3个,第二组7个第一组4个,第二组6个第一组5个,第二组5个第一组6个,第二组4个第一组7个,第二组3个第一组8个,第二组2个第一组9个,第二组1个99.545687.023270.706550.822540.050136.286024.712928.398772.1953
观察组内离差平方和可以发现,当按第7个间隔(第一组7个,第二组3个)分组时,组内离差平方和最小.因此,按组内离差平方和最小的分法为{省份2,省份3,省份4,省份7,省份8,省份9,省份10}和{省份1,省份5,省份6}.(1)将数据由小到大排列;数据分组的步骤:(2)从m=1开始,分类讨论所有可能的分组情况;(3)分别计算全部数据和分组后数据的平均数;(4)计算两组的组内离差平方和(或组间离差平方和);(5)组内离差平方和最小(或组间离差平方和最大)的分组即为最合理的分组.归纳小结例题讲解例
10个城市某月的每日最高温度的平均数(简称平均高温)如下表所示.根据平均高温的组内离差平方和最小的原则,把这10个城市分为两组.城市北京石家庄呼和浩特哈尔滨上海广州海口成都贵阳昆明平均高温/℃33-3-1110212212917解:将表中的数据按从小到大排列,可得将它们分成两组共有9种情况,分别计算组内离差平方和(结果保留小数点后一位),如下表所示.分组第一组离差平方和第二组离差平方和组内离差平方和第一组1个,第二组9个0584.2584.2第一组2个,第二组8个32380.9412.9第一组3个,第二组7个98.7285.7384.4第一组4个,第二组6个132158.8290.8第一组5个,第二组5个228.8113.2342第一组6个,第二组4个308.862370.8第一组7个,第二组3个397.414411.4第一组8个,第二组2个5620.5562.5第一组9个,第二组1个789.60789.6观察最后一列组内离差平方和可以发现,当按第4种方法分组时,组内离差平方和最小.因此,使组内离差平方和最小的分法为:{北京,石家庄,呼和浩特,哈尔滨}和{上海,广州,海口,成都,贵阳,昆明}.哈尔滨呼和浩特北京石家庄贵阳上海成都昆明广州海口-11-33391012172122随堂演练1.按照“组内离差平方和达到最小”的方法,小明将一组数据分成了两组{80,82}和{87,86,90,85},计算这两组数据的组内离差平方和为
.
16
A3.为考查某品种小麦的长势,测量了8株麦苗的高(单位:cm),结果如下:21,21,22,23,23,24,25,25.按照“组内离差平方和最小”的方法,把这8个数据分成两组.解:计算不同分组的组内离差平方和如下:其中组内离差平方和最小的分组是{21,21,22}
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外墙保温锚栓安装安全技术交底
- 冷库管理制度培训课件
- 食品企业人员健康管理制度培训
- 电工班班组长安全生产责任制度培训
- 刨花板调施胶工安全知识竞赛模拟考核试卷含答案
- 家用纺织品设计师改进水平考核试卷含答案
- 硅橡胶装置操作工安全生产能力测试考核试卷含答案
- 石蜡加氢装置操作工常识水平考核试卷含答案
- 2026年智慧物流智能能源管理创新报告
- 催化重整装置操作工保密测试考核试卷含答案
- 2026厦门国有资本运营有限责任公司招聘笔试历年常考点试题专练附带答案详解
- 2026山东威海热电集团有限公司招聘44人笔试参考题库及答案解析
- 儿童夏日防暑安全知识课堂
- 2026年陕西好猫卷烟材料有限责任公司招聘(10人)笔试模拟试题及答案解析
- 雨课堂学堂云在线《人工智能原理》单元测试考核答案
- 【MOOC】《知识创新与学术规范》(南京大学)期末考试慕课答案
- 国开《学位论文指南》形考作业1-2答案
- DL-T 1476-2023 电力安全工器具预防性试验规程
- 国家学生体质健康标准
- GB/T 18271.1-2017过程测量和控制装置通用性能评定方法和程序第1部分:总则
- GA 61-2010固定灭火系统驱动、控制装置通用技术条件
评论
0/150
提交评论