已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据清理技术,冯国双中国疾控中心卫生统计室,数据清洗,从数据收集结束,到统计分析之前,需要对数据做的清理工作,数据清洗,数据双录入对比数据合并查找重复值查找缺失值查找异常值,双录入对比,Excel用到的函数:If函数If(判断条件,条件满足返回值,条件不满足返回值)exact函数比较两个文本是否相同exact(比较文本1,比较文本2)offset函数返回给定偏移量的新区域offset(参照区域,行,列),双录入对比,small(数据区域,第几小)计算单元格范围的第几小的数值Column()返回单元格所在号Row()返回单元格所在行号,双录入对比,SAS命令:proccompare;by变量1变量2;run;,双录入对比,proccompare语句调用数据比较过程,选项base和compare分别指定两个比较和被比较的数据集;nosummary的作用是不显示一些概括性的结果。by语句指定的变量有点类似于索引的作用,通常指定id号。如果两个数据集的观测数不同,利用by语句可以保证它们比较的仍然是同一个id号,而不会出现错位比较的情况。,双录入对比,dataa1;inputidggenderagemarriageheightweightnation;cards;(数据);dataa2;inputidggenderagemarriageheightweightnation;cards;(数据);proccomparebase=a1compare=a2nosummary;run;,双录入对比,双录入对比,查找缺失值,Excel函数:If函数If(判断条件,条件满足返回值,条件不满足返回值)exact函数比较两个文本是否相同exact(比较文本1,比较文本2)offset函数返回给定偏移量的新区域offset(参照区域,行,列),查找缺失值,small(数据区域,第几小)计算单元格范围的第几小的数值Column()返回单元格所在号Row()返回单元格所在行号,查找缺失值,SAS可用missing函数实现如果结合数组和自动变量,可以一次性实现所有变量缺失值的输出,查找缺失值,dataa1;inputidggenderagemarriageheightweightnation;miss_g=missing(g);miss_gender=missing(gender);miss_age=missing(age);miss_marriage=missing(marriage);miss_height=missing(height);miss_weight=missing(weight);miss_nation=missing(nation);cards;(数据);procprint;run;,查找缺失值,部分结果,查找缺失值,利用数组和自动变量datamissing;seta;arraycha*_character_;doi=1todim(cha);ifmissing(chai)thenoutput;end;arraynum*_numeric_;doi=1todim(num);ifmissing(numi)thenoutput;end;dropi;procprint;run;,查找缺失值,缺失值结果,查找重复值,Excel函数:countif(计数区域,条件)根据指定条件,在计数区域内计数,查找重复值,SAS命令:procsort;by变量1变量2;run;,查找重复值,procsort语句调用排序过程。选项out=数据集指定排序后的数据集名。因为排序后数据发生了变化,因此可指定该选项将排序后的数据存放到一个新的数据集中。如果不加该选项,排序后的数据集将覆盖原有数据集,这样你就找不回原有的未排序的数据了。选项nodupkey表示如果by语句指定的排序变量有重复值,则删除重复值。如按id排序,如果id有重复值,则只保留重复值中的第一个值,删除其它值。选项nouniquekey的作用跟nodupkey正好相反,如果by语句指定的排序变量都是唯一值,则将其删除。如按id排序,如果id没有有重复值,则全部删除。,查找重复值,by语句指定排序的变量,可以指定多个。选项descending表示按降序排序,如果不加该选项,默认的是按升序排序。当需要查找重复值时,by语句指定的变量就是需要查找的重复值变量。,查找重复值,dataa1;inputidggenderagemarriageheightweightnation;cards;(数据);procsortnouniquekeyout=bb;bygenderagemarriageheightweight;run;procprintdata=bb;run;,查找重复值,5个变量均重复的观测,查找异常值,Excel函数:If函数If(判断条件,条件满足返回值,条件不满足返回值)结合各种算术运算符、比较运算符、逻辑运算符等,查找异常值,常见运算符,查找异常值,SAS可用if语句或where语句结合各种运算符来查找异常值,查找异常值,SAS中的常见运算符,查找异常值,dataa1;inputidggenderagemarriageheightweightnation;cards;(数据);datab1;seta1;if(gendernotin(1,2)|(age=60)|(height=200)|(weight=100)|(marriagenotin(1,0)|(nationnotin(1,2);procprint;run;,查找异常值,查找异常值,datab2;seta1;if(gendernotin(1,2,.)|(age=.and(age=60)|(height=.and(height=200)|(weight=.and(weight=100)|marriagenotin(1,0,.)|nationnotin(1,2,.);procprint;run;,查找异常值,查找异常值,datagender(where=(gendernotin(1,2,.)age(where=(notmissing(age)and(age=50)marriage(where=(marriagenotin(1,0,.)height(where=(notmissing(height)and(height=200)weight(where=(notmissing(weight)and(weight=100)nation(where=(nationnotin(1,2,.);seta1;run;,查找异常值,procprintdata=gender;varidgender;procprintdata=age;varidage;procprintdata=marriage;varidmarriage;procprintdata=height;varidheight
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 6540-2025石油产品颜色的测定
- 北京市海淀区北京57中2025年生物高二上期末质量检测试题含解析
- 湖南省长沙市雨花区南雅中学2025年高二化学第一学期期末调研模拟试题含解析
- 2026届广东省广州荔湾区真光中学高二化学第一学期期末综合测试试题含解析
- 郑州城建职业学院《英语课程教学论》2024-2025学年第一学期期末试卷
- 郑州西亚斯学院《天气学诊断与应用》2024-2025学年第一学期期末试卷
- 2026届河北省秦皇岛市化学高二第一学期期末质量跟踪监视模拟试题含解析
- 肺栓塞急救护理流程培训
- 老年医学科老年痴呆症康复训练方案
- 子宫颈癌患者康复训练指南
- 2025下半年海南万宁市事业单位招聘工作人员146人(第1号)考试笔试参考题库附答案解析
- 2025江苏苏州新主城物业服务有限公司、苏州新区枫桥万厦物业管理有限公司招聘5人考试笔试备考题库及答案解析
- 2025年国家公务员录用考试公共基础知识全真模拟试题及答案(共八套)
- 入股公司食品协议书
- 高一 历史 人教版《中外历史纲要》上册《第19课 从社会心态视角看辛亥革命》课件
- 浴池防火应急预案
- 2025年淮南交通控股(集团)有限公司招聘16人笔试考试参考试题及答案解析
- 酒店管理的专业培训方案
- 2025年高级健康照护师(三级)《理论知识》试卷真题(后附答案及解析)
- 2025年陕西社区考试题库及答案
- 2025年调度员考试试题及答案
评论
0/150
提交评论