




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
变量数据的整理回顾:统计整是的概念:统计整理是指根据统计的研究的目的和任务,对统计调查或科学试验获得的大量原始资料进行科学的分类、汇总,或对已经加工过的资料进行再加工,使之成为系统化、条理化、标准化的能反映总体特征的综合统计资料的工作过程。注意概念的重点:大量原始资料分类、汇总系统化、标准化变量数据的整理恰恰体现了这样一个工作过程有一组数据:对某班40名学生某科某次考试成绩按试卷登记得到如下资料:54 60 62 97 85 52 83 7995 80 89 85 77 68 86 93 70 81 78 89 71 89 80 85 75 78 90 66 78 73 82 82 99 77 88 84 75 88 76 80 分类整理后得到 某班40名学生成绩情况由此可以看出变量数据整理的结果下面介绍如何完成这一过程,只看基本概念。(一)变量分布数列的概念变量分布数列:用数理标志进行分组所得到的分布数列。单项式变量分布数列:若每一组别都是由单个的组值(整数或小数)表示。如表:某班学生按年龄分组15 16 16 15 16 17 16 16 17 16 16 17 17 17 1615 16 17 17 17经分组年龄学生人数(频数)153169178合计20组距式变量分布数列:若每一组都是由数域(区间)表示。如前面40名学生成绩由简单到复杂可看(二)单项式变量分布数列的编制某生产组20名工人同种产品日产量如下(单位:件)16 13 18 15 19 14 17 13 15 1719 15 17 18 14 16 15 16 17 16这是一个离散型变量,其变量值不多,变动范围不大,宜编制单项式变量分布数列。离散性变量(没有小数)注意这组数据的特点:变量不多(20个)变动范围不大(1319)所以适合编制单项式变量分布数列。步骤如下:(1)按变量值大小顺序排列:13 13 14 14 15 15 15 15 16 1616 16 17 17 17 17 18 18 19 19(2)每种变量值为一组(重复者只取一个),顺序排列为7组:13 14 15 16 17 18 19(3)列入表中并汇总出各组频数,如表所示。20名工人日产量资料日产量(件)工人数(人)(频数)频率xff/f1314151617181922444222/202/204/204/204/202/202/20合计201三、组距变量分布数列的编制开口组变量分布数列闭口组变量分布数列等距变量分布数列异距变量分布数列组距变量分布数列等距变量分布数列的编制方法等距分组:标志值在各组保持相等的组距。注意特点:变动均匀、没有大起大落仍看前面例子:对某班40名学生某科某次考试成绩按试卷登记得到如下资料:54 60 62 97 85 52 83 7995 80 89 85 77 68 86 93 70 81 78 89 71 89 80 85 75 78 90 66 78 73 82 82 99 77 88 84 75 88 76 80 步骤如下:(1)将原始数据按顺序排列起来,并确定变量性质。根据上例,对于数据按成绩由低到高排列可得到:52 54 60 62 66 68 70 71 73 75 76 7777 78 78 78 79 80 80 80 81 82 82 8384 85 85 85 86 88 88 89 89 89 89 9093 95 97 99该例的变量性质为连续变量。确定变量性质是,是为了正确进行数列的编制和确定组限的表示方法。连续变量(可以有小数)变动均匀没有极端数值(如18分)变量特点:(2)计算全距全距最大变量值量小变量值全距995247(3)确定组限、组距、组数组限:两个组的两端变量值。其中,每个组的起点值(或称最小值)为下限每个组的终点值(或称最大值)为上限。组距:每个组中的上限值与下限值之差。组距上限下限组数:是指某个变量数列应划分为多少个组。确定组距与组数的具体方法如下:在计算组数与组距时,所使用的变量最小值应略低于实际资料的最小值,自50分开始,最大值应略高于实际资料最大值,取至100分,则全距为1005050。上式中全距是既定的,而组数和组距是可变的。一般来讲,组距应尽可能取5或10的整倍数,而组数则必须是整数。505全距组距若组距为5,则:组数 10组若组距为10,则:5010 全距组距组数 10组上例中,宜采用以10为组距,分为5组。(4)写出组限并据以归类汇总计算各组次数。所谓归类汇总,是指依据各个总体单位的具体标志值,将其划归某一具体组之中。在归类汇总时,要遵循“不重复,不遗漏”的基本原则。不重复是指所确定的组限必须使各组的范围互斥,以便确保每个数据只能归入唯一的组,不能模棱两可,或归属不定。不遗漏是指所确定的组限必须包容全部原始数据,不允许将任何数据遗漏在外,即要求所确定的最小的组限不大于原始数据中的最小值,所确定的最大的组限大小于原始数据中的最大值。连续变量由于不能一一列举,并且有中间数值,相邻组的上下限无法用一个确定的数值来表示,相邻两组的组限应该重叠,即相邻两组之间的组限用同一个数值来标记,因此,也称重限分组。它适用于编制连续型组距式变量数列。有时对离散型变量进行分组,也可以采用重叠组限的形式即用各组的上限同时作为下一组的下限,处理变量时,仍遵循“上组限不在内”的原则,这样比较简化,同时也为计算组中值提供了方便。应注意处理好恰巧是级限的变量值的总体单位的归类问题:一般应按“上组限不在内”的原则,将此变量值归入下限所在组。按这种标记法,若规定“不含上限”,则上例中得60分者应归入6070分组中,得70分者应归入7080分组中,得80分者应归入8090分组中,得90分者应归入90100分组中,如表所示。某班40名学生成绩情况成绩(分)整理画记人数(人)(频数)5060607070808090901002411185合计正正正正正正正正40(5)编制整理表,即将数据用表格形式表现出为,左端是各组的变量值,右端是各组变量值出现的频数。可以通过画“正”字或画“ ”的方法来记录每一组变量出现的频数,即可完成分组过程,并形成一张频数分布表,如表所示。归类汇总后,便可计算各组的频数,即各组总体单位
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 信贷业务管理
- 养老项目调研
- 大闸蟹礼品券订购合同
- 中小企业金融服务平台建设与运营实施方案课件
- 广西玉林市第十一中学2024-2025学年高二上学期10月月考思想政治试卷(含答案)
- 四年级党规党章进课堂教学计划
- 巡河安全培训课件
- 巡察培训课件
- 岩石类型课件
- 输电线路安全培训内容课件
- 黄赌毒培训课件
- 肾动脉狭窄介入治疗讲课件
- 征迁岗位笔试题目及答案
- 2025-2030年中国拆船行业市场现状供需分析及投资评估规划分析研究报告
- DB13T 5470-2021 30%氧气-氦气混合气中氧气及杂质的检测色谱法
- T/SHPTA 033-2022聚氯乙烯软制品用钙锌复合热稳定剂
- T/CHES 42-2020水质涕灭威、克百威和甲萘威的测定液相色谱法
- 黑河市重点中学2025届八下数学期末统考模拟试题含解析
- 上门灭蚊合同范例
- 认识多面绘画-绘画的工具与材料 课件-2023-2024学年高一下学期美术人美版(2019)选择性必修1 绘画
- 2025-2030中国微藻行业市场发展趋势与前景展望战略研究报告
评论
0/150
提交评论