已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据清理技术,冯国双中国疾控中心卫生统计室,数据清洗,从数据收集结束,到统计分析之前,需要对数据做的清理工作,数据清洗,数据双录入对比数据合并查找重复值查找缺失值查找异常值,双录入对比,Excel用到的函数:If函数If(判断条件,条件满足返回值,条件不满足返回值)exact函数比较两个文本是否相同exact(比较文本1,比较文本2)offset函数返回给定偏移量的新区域offset(参照区域,行,列),双录入对比,small(数据区域,第几小)计算单元格范围的第几小的数值Column()返回单元格所在号Row()返回单元格所在行号,双录入对比,SAS命令:proccompare;by变量1变量2;run;,双录入对比,proccompare语句调用数据比较过程,选项base和compare分别指定两个比较和被比较的数据集;nosummary的作用是不显示一些概括性的结果。by语句指定的变量有点类似于索引的作用,通常指定id号。如果两个数据集的观测数不同,利用by语句可以保证它们比较的仍然是同一个id号,而不会出现错位比较的情况。,双录入对比,dataa1;inputidggenderagemarriageheightweightnation;cards;(数据);dataa2;inputidggenderagemarriageheightweightnation;cards;(数据);proccomparebase=a1compare=a2nosummary;run;,双录入对比,双录入对比,查找缺失值,Excel函数:If函数If(判断条件,条件满足返回值,条件不满足返回值)exact函数比较两个文本是否相同exact(比较文本1,比较文本2)offset函数返回给定偏移量的新区域offset(参照区域,行,列),查找缺失值,small(数据区域,第几小)计算单元格范围的第几小的数值Column()返回单元格所在号Row()返回单元格所在行号,查找缺失值,SAS可用missing函数实现如果结合数组和自动变量,可以一次性实现所有变量缺失值的输出,查找缺失值,dataa1;inputidggenderagemarriageheightweightnation;miss_g=missing(g);miss_gender=missing(gender);miss_age=missing(age);miss_marriage=missing(marriage);miss_height=missing(height);miss_weight=missing(weight);miss_nation=missing(nation);cards;(数据);procprint;run;,查找缺失值,部分结果,查找缺失值,利用数组和自动变量datamissing;seta;arraycha*_character_;doi=1todim(cha);ifmissing(chai)thenoutput;end;arraynum*_numeric_;doi=1todim(num);ifmissing(numi)thenoutput;end;dropi;procprint;run;,查找缺失值,缺失值结果,查找重复值,Excel函数:countif(计数区域,条件)根据指定条件,在计数区域内计数,查找重复值,SAS命令:procsort;by变量1变量2;run;,查找重复值,procsort语句调用排序过程。选项out=数据集指定排序后的数据集名。因为排序后数据发生了变化,因此可指定该选项将排序后的数据存放到一个新的数据集中。如果不加该选项,排序后的数据集将覆盖原有数据集,这样你就找不回原有的未排序的数据了。选项nodupkey表示如果by语句指定的排序变量有重复值,则删除重复值。如按id排序,如果id有重复值,则只保留重复值中的第一个值,删除其它值。选项nouniquekey的作用跟nodupkey正好相反,如果by语句指定的排序变量都是唯一值,则将其删除。如按id排序,如果id没有有重复值,则全部删除。,查找重复值,by语句指定排序的变量,可以指定多个。选项descending表示按降序排序,如果不加该选项,默认的是按升序排序。当需要查找重复值时,by语句指定的变量就是需要查找的重复值变量。,查找重复值,dataa1;inputidggenderagemarriageheightweightnation;cards;(数据);procsortnouniquekeyout=bb;bygenderagemarriageheightweight;run;procprintdata=bb;run;,查找重复值,5个变量均重复的观测,查找异常值,Excel函数:If函数If(判断条件,条件满足返回值,条件不满足返回值)结合各种算术运算符、比较运算符、逻辑运算符等,查找异常值,常见运算符,查找异常值,SAS可用if语句或where语句结合各种运算符来查找异常值,查找异常值,SAS中的常见运算符,查找异常值,dataa1;inputidggenderagemarriageheightweightnation;cards;(数据);datab1;seta1;if(gendernotin(1,2)|(age=60)|(height=200)|(weight=100)|(marriagenotin(1,0)|(nationnotin(1,2);procprint;run;,查找异常值,查找异常值,datab2;seta1;if(gendernotin(1,2,.)|(age=.and(age=60)|(height=.and(height=200)|(weight=.and(weight=100)|marriagenotin(1,0,.)|nationnotin(1,2,.);procprint;run;,查找异常值,查找异常值,datagender(where=(gendernotin(1,2,.)age(where=(notmissing(age)and(age=50)marriage(where=(marriagenotin(1,0,.)height(where=(notmissing(height)and(height=200)weight(where=(notmissing(weight)and(weight=100)nation(where=(nationnotin(1,2,.);seta1;run;,查找异常值,procprintdata=gender;varidgender;procprintdata=age;varidage;procprintdata=marriage;varidmarriage;procprintdata=height;varidheight
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025太平洋寿险台州中心支公司招聘1人(浙江)笔试历年典型考点题库附带答案详解2套试卷
- 2025四川长虹空调有限公司招聘客户经理岗位人员测试笔试历年备考题库附带答案详解试卷2套
- 2025四川富润教科投资集团有限公司第四批次招聘6人笔试历年典型考点题库附带答案详解2套试卷
- 2025华鑫国际信托有限公司招聘10人笔试历年典型考点题库附带答案详解2套试卷
- 2025云南航空产业投资集团三季度招聘(云南航信空港网络有限公司岗位)笔试历年备考题库附带答案详解2套试卷
- 2025云上(江西)大数据发展有限公司所属企业第二批次岗位社会招聘笔试及笔试历年难易错考点试卷带答案解析试卷2套
- 2025黑龙江哈尔滨电气集团海洋智能装备有限公司招聘1人笔试历年难易错考点试卷带答案解析2套试卷
- 保险产品设计创新-洞察及研究
- 基于深度学习的语音信号多语言自适应处理技术研究-洞察及研究
- 儿童饮食与慢性疾病风险的综合分析-洞察及研究
- 流程改造三年计划
- 初二语文2025年上学期期中专项训练复习试卷(含答案)
- 2025年中级消防监控题库及答案(可下载)
- 江西洪城水业环保有限公司面向社会公开招聘工勤岗工作人员【28人】笔试考试备考试题及答案解析
- 2025年嵌入式软件工程师笔试题(含答案)
- 2025四川南充市嘉陵城市发展集团有限公司招聘工作人员10人笔试历年参考题库附带答案详解
- 婴幼儿卫生与保健期末考试卷及答案
- 2025版流感季节性预防措施及护理培训
- 2025年大学《印度尼西亚语》专业题库- 印尼语语法与写作
- 项目部消防安全培训课件
- DB33-T1177-2019《城镇净水厂安全运行管理规范》
评论
0/150
提交评论