版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据的预处理1统计分组2Contents目录品质数据的整理与展示3数值数据的整理与展示4子情境一数据的预处理01统计整理统计整理含义根据研究的目的资料进行加工整理原始资料变成指标统计分析的前提统计整理的内容内容审核和订正统计资料统计分组,编制分配数列统计汇总编制统计表、图,显示结果保存统计资料根据统计研究目的准确、及时、完整02统计资料的审核与筛选数据审核的内容审核完整性审核准确性审核适用性时效性完整性审核遗漏样本单元找不到被访者不在现场不能回答无回答问题产生的原因拒绝回答事前控制多次访问替换法敏感问题设计控制方法准确性审核逻辑性错误答非所问数据不准确的类型运算错误数据采集过程资料审核过程数据准确性控制统计数据筛选筛选去除错误数据找出符合条件的数据条件筛选类型初级筛选高级筛选筛选类型初级筛选筛选出管理学成绩大于等于71分的人员名单筛选出管理学成绩大于等于75分且小于80分的人员名单筛选出管理学成绩小于75分或者大于80分的人员名单筛选出团员的名单筛选出姓名中第二个字是“王”的学生名单初级筛选初级筛选一般对单列数据进行操作高级筛选筛选出管理学成绩大于等于71分,统计大于75分的团员名单筛选出管理学成绩小于71分或者大于80分,统计大于75分的团员名单高级筛选高级级筛选能对多列数据进行操作子情境二统计分组01统计分组的作用和原则统计分组统计分组根据研究的目的按照一定标志分成若干部分统计方法分组的关键是分组标志的选择对总体而言是“分”对个体而言是“合”组间差异性组内同质性总体的差异性是分组的依据A划分现象的类型B反映现象的内部结构、比例C分析现象之间在数量上的相互依存关系统计分组的作用统计分组的原则原则根据研究目的和任务最能反映现象本质的标志历史条件和经济状况及标志内涵变化穷尽性原则(不遗漏)互斥性原则(不重复)02统计分组的类型统计分组的类型标志多少简单分组复合分组平行分组复合分组简单分组性别人数(人)男20女35合计55平行分组性别统计学成绩男女60以下60~7070~8080~9090以上222861015136复合分组班级性别人数173101男10女16合计26173102男11女14合计25统计分组的类型标志性质品质分组变量分组单项式分组组距式分组品质标志数量标志(二)品质分组和变量分组对应着品质标志和数量标志品质分组性别人数(人)男20女35合计55单项式分组拣货数量(件)人数(人)182019452030215合计100单项式分组一般适用于离散型变量,且在变量值不多、变动范围有限的条件下采用分数(分)人数(人)60以下560-702070-804080以上35合计100组距式分组组距式分组一般在变量值很多且变动幅度较大的条件下采用。拣货数量(件)人数(人)0-6207-184019-448045-594060-745075-894090以上30合计30003基本概念组限:各组变量值的变动界限上限:变量的终点数值下限:变量的起点数值组距:=本组上限-前一组上限全距:最大标志值与最小标志值之差基本概念组限开口组闭口组只有上限或下限既有上限又有下限分数(分)人数(人)60以下560-702070-804080-10035合计100组距等距分组异距分组组距都相等组距不都相等身高(cm)人数(人)160以下10160-16520165-17040170-17530175-18020180以上15合计135分数(分)人数(人)60以下560-702070-804080-10035合计100组限重叠组限不重叠组限小组上限等于大组下限小组上限不等于大组下限相邻两组身高(cm)人数(人)160以下10160-16520165-17040170-17530175-18020180以上15合计135连续变量,组限用重合式表达在重叠式组限中,遵循“上限一般不包含在内”的原则工人拣货件数(件)人数(人)0-601061-803081-905091以上20合计110离散变量,组限一般用不重合式表达组中值组中值指各组变量值排序的中间值,可以作为组内变量值的代表值用组中值代表各组内一般水平的假设条件是:变量值在本组内呈现均匀分布
闭口组(中间组)缺上限开口组(末组)缺下限开口组(首组)分数(分)组中值(分)人数(人)60以下1060-702070-905090以上10合计100工人拣货件数(件)人数(人)0-601061-803081-905091以上20合计110已知一个等距数列最后一组的下限是900,其相邻组的组中值为850,则最后一组的上限和组中值分别为多少?某连续变量数列,其末组为开口组,下限为200,又知其临组的组中值为170,则末组组中值是多少?分组分组组距a~900800~900100900~x900~1000100分组分组组距a~200140~20060200以上200以上10004分配数列分配数列概念统计分组基础上组及单位数一定顺序总体单位在各组分布情况次数分布总体按某标志所分的组;各组所占有的总体单位数——次数(频数)f。组成要素频率密度=次数/组距,主要用于消除各组组距不相等而造成的现象分布的影响。分布数列的种类子情境三品质数据的整理与展示频数:又称次数,一般用f表示,指变量值中代表某种特征的标志表现出现的次数频率:又叫比重,每个小组的频数与数据总数的比值,一般用百分比表示性别频数频率%男2020女8080合计100频数、频率向上累计和向下累计向上累计(较小制累计):由数列的第一组向后面的累计相加向下累计(较大制累计):由数列最后一组向前面的组累计相加向上累计频数(频率)先列出各组的上限,按变量值低的组向变量值高的组依次累计频数(频率)某组向上累计频数表明该组上限以下的各组单位数之和是多少向下累计频数(频率)先列出各组的下限,按变量值高的组向变量值低的组依次累计频数(频率)某组向下累计频数表明该组下限及以上的各组单位数之和是多少品质分配数列的编制的步骤1.选择分组标志分组2.统计每组的次数(Count系列函数、数据透视表)Count函数可以让我们统计出资料含有数字的单元格的个数count(Range)Range:引用的数据范围COUNTIF函数可以让我们统计出资料中符合条件的单元格的个数Countif(Range,Crite-ria)Crite-ria:满足的条件这里要注意如果条件是文本,那么要用“”,且只能是英文半角状态下的COUNTIFS函数
Countifs(criteria_range1,criteria1,criteria_range2,criteria2,…)参数说明criteria_range1:为第一个需要引用的单元格区域criteria1为第一个区域中将被计算在内的条件(简称条件)数据透视表和数据透视图03统计图统计图统计图是指通过几何图形或具体事物的象形或符号来表现社会经济现象数量特征和关系的图形。1.柱形图柱形图是以宽度相等的条形的高低或长短的差异在垂直方向来显示统计指标数值多少或大小的一种图形。它可以用来观测数据的大小绘制柱形图时,应将时间或单位绘在坐标的横轴上,指标绘在坐标的纵轴上,纵坐标的数值应从“0”开始。年份产量2011年1302012年2352013年1502014年367.52015年249.1252.条形图条形图是以宽度相等的条形的高低或长短的差异,在水平方向来显示统计指标数值多少或大小的一种图形。主要用来观测进程项目名称进度1月份/%2月份/%3月份/%项目名称1315986项目名称2386190项目名称33765100项目名称44169100项目名称5336492项目名称6295384项目名称7275789项目名称8285891项目名称9306092任务开始时间持续时间需求调研2014/1/130需求分析2014/2/115详细设计2014/2/1615制作原型2014/3/115原型审核2014/3/165系统开发2014/3/2130系统测试2014/4/2130系统试运行2014/5/2130提交文档2014/6/1015系统上线2014/6/255调整excel格式,将时间格式的调整成常规。选择数据,点击‘插入’菜单,找到条形图---二维条形图---堆积条形图,点击选择即可。将时间条显示在上方,方便查看。点击生成图的Y轴,右键,设置坐标轴格式,勾选逆序类别。设置X轴属性,让起始位置显示在原点,适当调节间距。选择列表中的图像,选择蓝色部分,右键,设置数据系列格式为无填充。还原之前设置的日期的单元格格式。则可以完成甘特图效果,适当拖动,调整。3.直方图直方图又称质量分布图,是由一系列高度不同的纵向条纹或线段表示数据分布情况。一般用横轴表示数据类型,纵轴表示分布情况,数据大小一般用长方形面积表示。在出现的直方图对话框的“输入区域”输入A1:A101,在“接收区域”输入“B1:B10”点击“输出区域”前的圆圈并在其后输入“D1”,勾选“标志”和图表输出4折线图折线图是在用直线段将各数据点连接起来而组成的图形,以折线方式显示数据的变化趋势折线图通常用来分析数据随时间变化的趋势,也可以分析多组数据随时间变化的的相互作用和相互影响绘制折线时,如果是某一现象的时间指标,应将时间绘在坐标的横轴上,指标绘在坐标的纵轴上;如果是两个现象依存关系的显示,可以将表示原因的指标绘在横轴上,表示结果的指标绘在纵轴上年份产量2011年1302012年2352013年1502014年367.52015年249.1255.饼状图圆形图是以圆形或圆内扇形的面积大小来显示统计资料的一种图形。它主要用于反映现象的内部结构及其变化。6.曲线图当变量非常多,组数也无限多时,折线可以近似的表现为一条平滑的曲线。曲线图是利用曲线的升降起伏来反映现象的数量变动情况的图形子情境四变量数据的整理与展示
变量数列编制步骤将杂乱无章的数据从小到大排列,找出最大值和最小值;确定组数确定组距;确定组限及组限的表示形式编制分配数列统计各组次数,计算合计栏,计算各组的相应频率。最大值154MAX函数最小值80MIN函数计算全距:全距=最大值–最小值
=74第一步:排序,计算全距(R)第二步:确定组数K组数的确定应该以研究对象的特点和研究目的来确定1、公式:其中N指的是变量总的个数2、经验:本例中可取组数K=8等距分组组数和组距的关系:确定组距根据来确定组距h=74/8=9.51(一般取5或10的倍数)第三步:确定组距(h)组限的确定要能反映总体分布特征满足条件:最小组的下限<=最大组的上限>=第四步:确定组限计算各组次数:落在各组的单位数f,反映总体单位在各组的分布情况计算各组频率:各组单位数占总体单位数的比重任何组的频率都在0-1之间各组
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公共治安秩序保障责任承诺函(3篇)
- 信息资产守秘完备性可用性承诺书范文4篇
- 绿色发展承诺责任书5篇范文
- 外出差费用报销标准手册方案
- 广东省惠州市2025-2026学年度第一学期期末教学质量监测八年级语文试题(含答案)
- 项目进度确保责任书8篇
- 协同办公效率提升解决方案报告
- 2025 高中信息技术信息系统在交通领域的应用课件
- 2025 高中语文必修上册《芣苢》诗歌节奏与劳动之美解读课件
- 电子支付便捷承诺书范文8篇
- 中国精神心理疾病正念治疗指南(2025版)
- 深圳市公务员考核制度
- (2026春新版)教科版三年级科学下册全册教案
- 2025耳念珠菌医院感染预防与控制专家共识课件
- 书法办学申请报告(3篇)
- 手部卫生要讲究学会洗手剪指甲一年级综合实践活动课件
- DL-T5024-2020电力工程地基处理技术规程
- DZ∕T 0153-2014 物化探工程测量规范(正式版)
- 开荒保洁合同保洁开荒合同范本
- 地震应急演练实施方案村委会
- 铃儿响叮当的变迁合唱简谱
评论
0/150
提交评论