版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
均值填补法之相关系数学习目标2知识目标●数据缺失简介●数据缺失的处理方法●均值填补法-相关系数能力目标●了解数据缺失●掌握数据缺失的处理方法●了解均值填补法-相关系数学习任务3初步探索什么是数据缺失值初步探索数据缺失值的处理方法初步探索均值填补法了解均值填补法-相关系数均值填补法-相关系数数据缺失的处理方法数据缺失简介4均值填补法目录5数据缺失简介数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的。统计调查中能否按设计要求获得被调查单位的详全资料是衡量数据质量的一个重要标准,但实际调查中经常遇到数据缺失的情况。无回答有2种表现形式:单位无回答(unitnon-response)和项目无回答(itemnon-response)。“单位无回答”——被调查者不愿意或者不能够回答整张的问卷;“项目无回答”——被调查者拒绝回答个别的调查项目。6数据缺失简介缺失原因(Reason)在统计调查过程中,数据缺失是不可避免的,造成这种现象的原因是多方面的,主要有以下几种:1.在存储数据的过程中,由于机器的损坏造成数据存储失败;2.调查员在采集数据过程中,由于主观因素人为地认为数据不重要或无用,而私自丢弃数据;4.受访者拒绝透露被调查信息,或回答错误信息;3.调查员信息录入失误;5.受访者选取失误。例如调查工资情况,选取的受访者是婴幼儿7数据缺失简介产生机制(Mechanism)Little和Rubin针对缺失数据,探讨缺失数据与目标变量是否有关,定义了3种不同的缺失机制。MCAR完全随机缺失(MissingCompletelyAtRandom):数据的缺失与不完全变量以及完全变量都是无关的。MAR随机缺失(MissingAtRandom):数据的缺失仅仅依赖于完全变量。MNAR非随机缺失(NotMissingAtRandom):不完全变量中数据的缺失,依赖于不完全变量本身。这种缺失是不可忽略的。8数据缺失简介产生机制(Mechanism)9数据缺失简介缺失模式(Pattern)数据缺失模式主要研究哪些变量缺失,更确切的说,关注的是缺失数据矩阵R的分布。当一维目标变量出现缺失数据时,我们在数据处理过程中首先要考虑缺失数据产生机制,而对于多维目标变量而言,除了考虑缺失数据产生机制外,还要判断数据的缺失模式。10数据缺失简介缺失模式(Pattern)假设完全数据资料阵y是由m个观测、n个变量组成的m×n矩阵,通过分析这个矩阵的特点,可以推断出数据缺失模式。11数据缺失的处理方法基本方法基于完整观测单位的方法删除法加权调整法列表删除个案删除(配对删除)基于填补的方法单一填补法多重填补法随机回归填补法(PMM法)趋势得分法人工填补法均值填补法回归填补法不处理贝叶斯网络人工神经网络12均值填补法数据的属性定性数据和定量数据。如果缺失值是定量的,就以该字段存在值的平均值来插补缺失的值;如果缺失值是定性的,就根据统计学中的众数原理,用该属性的众数(即出现频率最高的值)来补齐缺失的值。13均值填补法-相关系数利用同类均值插补。它用层次聚类模型预测缺失变量的类型,再以该类型的均值插补。假设X=(X1,X2…Xp)为信息完全的变量,Y为存在缺失值的变量,那么首先对X或其子集行聚类,然后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中西医结合与特色疗法
- 产科护理实践与临床经验分享
- 2026年黑龙江林业职业技术学院高职单招职业适应性测试备考题库有答案解析
- 2026年广州体育职业技术学院单招职业技能笔试备考试题带答案解析
- 生命科学领域的纳米技术应用
- 住院部工作质量回顾
- 个性化医疗与精准治疗方案
- 2026年常州工业职业技术学院单招综合素质笔试备考题库带答案解析
- 医院感染预防与控制规范解读
- 医疗行业礼仪在护理操作中的重要性
- 2024年太阳能光伏发电项目EPC建设合同
- 装修陪跑合同范本
- DL-T5181-2017水电水利工程锚喷支护施工规范
- 肺动脉高压诊治进展
- 国林臭氧氧化脱硝技术简介
- 2023核电厂地质钻探岩芯保管技术规程
- 稽核在管理中的重要性
- 苏宁云商财务报表分析
- 西方油画发展历程
- 自来水公司招聘考试笔试题目
- GB/T 325.2-2010包装容器钢桶第2部分:最小总容量208L、210L和216.5L全开口钢桶
评论
0/150
提交评论