




已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据清理技术 冯国双中国疾控中心卫生统计室 数据清洗 从数据收集结束 到统计分析之前 需要对数据做的清理工作 数据清洗 数据双录入对比数据合并查找重复值查找缺失值查找异常值 双录入对比 Excel用到的函数 If函数If 判断条件 条件满足返回值 条件不满足返回值 exact函数 比较两个文本是否相同exact 比较文本1 比较文本2 offset函数 返回给定偏移量的新区域offset 参照区域 行 列 双录入对比 small 数据区域 第几小 计算单元格范围的第几小的数值Column 返回单元格所在号Row 返回单元格所在行号 双录入对比 SAS命令 proccompare by变量1变量2 run 双录入对比 proccompare语句调用数据比较过程 选项base和compare分别指定两个比较和被比较的数据集 nosummary的作用是不显示一些概括性的结果 by语句指定的变量有点类似于索引的作用 通常指定id号 如果两个数据集的观测数不同 利用by语句可以保证它们比较的仍然是同一个id号 而不会出现错位比较的情况 双录入对比 dataa1 inputidggenderagemarriageheightweightnation cards 数据 dataa2 inputidggenderagemarriageheightweightnation cards 数据 proccomparebase a1compare a2nosummary run 双录入对比 双录入对比 查找缺失值 Excel函数 If函数If 判断条件 条件满足返回值 条件不满足返回值 exact函数 比较两个文本是否相同exact 比较文本1 比较文本2 offset函数 返回给定偏移量的新区域offset 参照区域 行 列 查找缺失值 small 数据区域 第几小 计算单元格范围的第几小的数值Column 返回单元格所在号Row 返回单元格所在行号 查找缺失值 SAS可用missing函数实现如果结合数组和自动变量 可以一次性实现所有变量缺失值的输出 查找缺失值 dataa1 inputidggenderagemarriageheightweightnation miss g missing g miss gender missing gender miss age missing age miss marriage missing marriage miss height missing height miss weight missing weight miss nation missing nation cards 数据 procprint run 查找缺失值 部分结果 查找缺失值 利用数组和自动变量datamissing seta arraycha character doi 1todim cha ifmissing cha i thenoutput end arraynum numeric doi 1todim num ifmissing num i thenoutput end dropi procprint run 查找缺失值 缺失值结果 查找重复值 Excel函数 countif 计数区域 条件 根据指定条件 在计数区域内计数 查找重复值 SAS命令 procsort by变量1变量2 run 查找重复值 procsort语句调用排序过程 选项out 数据集指定排序后的数据集名 因为排序后数据发生了变化 因此可指定该选项将排序后的数据存放到一个新的数据集中 如果不加该选项 排序后的数据集将覆盖原有数据集 这样你就找不回原有的未排序的数据了 选项nodupkey表示如果by语句指定的排序变量有重复值 则删除重复值 如按id排序 如果id有重复值 则只保留重复值中的第一个值 删除其它值 选项nouniquekey的作用跟nodupkey正好相反 如果by语句指定的排序变量都是唯一值 则将其删除 如按id排序 如果id没有有重复值 则全部删除 查找重复值 by语句指定排序的变量 可以指定多个 选项descending表示按降序排序 如果不加该选项 默认的是按升序排序 当需要查找重复值时 by语句指定的变量就是需要查找的重复值变量 查找重复值 dataa1 inputidggenderagemarriageheightweightnation cards 数据 procsortnouniquekeyout bb bygenderagemarriageheightweight run procprintdata bb run 查找重复值 5个变量均重复的观测 查找异常值 Excel函数 If函数If 判断条件 条件满足返回值 条件不满足返回值 结合各种算术运算符 比较运算符 逻辑运算符等 查找异常值 常见运算符 查找异常值 SAS可用if语句或where语句结合各种运算符来查找异常值 查找异常值 SAS中的常见运算符 查找异常值 dataa1 inputidggenderagemarriageheightweightnation cards 数据 datab1 seta1 if gendernotin 1 2 age 60 height 200 weight 100 marriagenotin 1 0 nationnotin 1 2 procprint run 查找异常值 查找异常值 datab2 seta1 if gendernotin 1 2 age and age 60 height and height 200 weight and weight 100 marriagenotin 1 0 nationnotin 1 2 procprint run 查找异常值 查找异常值 datagender where gendernotin 1 2 age where notmissing age and age 50 marriage where marriagenotin 1 0 height where notmissing height and height 200 weight where notmissing weight and weight 100 nation where nationnotin 1 2 seta1 run 查找异常值 procprintdata gender varidgender procprintdata age varidage procprintdata marriage varidmarriage procprintdata height varidheight p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- JJF 2274-2025逻辑分析仪校准规范
- 2025年停车调查报告范文4
- 邯郸市人民医院急诊卒中护理配合专项考核
- 阳泉市中医院靶向药物临床应用技能考核
- 阳泉市人民医院成本控制能力考核
- 长治市人民医院静脉窦取栓成形术团队配合资格考核
- 2025年年产3000吨包芯线(镁硅铁合金)项目可行性研究报告申请报告编制
- 邯郸市中医院血管外科感染控制考核
- 长治市人民医院粪便检验技术准入考核
- 电力、燃气及水的生产和供应项目节能评估报告(节能专)
- 2025春季学期国开电大专科《刑事诉讼法学》一平台在线形考(形考任务一至五)试题及答案
- 汉语教程第二册教案
- 2025年小学1-6年级重点知识(含答案)
- 职业技术学院智能网联汽车技术专业人才培养方案
- 原木定制衣柜合同范本
- 中班健康《蔬菜宝宝我爱你》课件
- 遗传学(云南大学)知到智慧树期末考试答案题库2025年云南大学
- 抗美援朝精神教育
- 2025年人教部编版语文四年级下册期末测试题及答案(一)
- 办公设备维修维护服务协议
- 部编人教版五年级上册语文各单元习作范文汇编(作文范文汇编)(每单元3篇)
评论
0/150
提交评论