下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、单插值方法与多插值方法的比较与分析0 .没有数据的说明little和rubin根据缺失反应历程将缺失数据分为完全随机缺失数据(mcar )、随机缺失数据(mar )和非随机缺失数据(nmar )三种。 mcar表示缺少某变量数据完全不依赖于变量或回答者的真实,严格意义上的随机缺少即mar表示缺少某变量数据独立于回答者的真实,nmar表示缺少变量数据与回答者的真实之间有关联事实上,缺失的数据对数据分析影响很大,主要表现在数据统计的效果和偏差两个方面。 kim和curry(1997 )发现,如果丢失2%的数据,采用删除列表的方法,将丢失18.3%的信息。 根据quinten和raaijmakers
2、(1999 )的研究,如果10%35%的数据丢失,则35%98%的数据丢失。 可以看出,不处理缺少的数据对整个数据结构有很大的影响。 因此,数据分析云同步缺失数据的处理很重要,这一部分也是当前新兴学科数据挖掘技术的重要组成部分。当处理缺少数据时,可以假设缺少反应历程是mar或mcar来以数理统计方式处理以便于处理。 缺失数据的处理方法分为直接删除法、插值法、基于模型的预测方法三种。 其中直接删除法是最方便、云同步最粗糙的方法,该方法容易导致真实信息大量丢失,仅适用于极少量数据缺失的情况。 相反,插值法与基于统计模型的预测方法相比更常用且有效。 根据每个缺失值的替代值的个数,插值方法可分为单一插
3、值和多重插值。1 .单插值和多插值的概念单一内插是指,采用一定的方式,对每个未回答的缺失值建构合理的替代值,将其内插到原始的缺失数据的位置,替代后建构完整的数据定径套。多重插值是哈佛大学rubin教授在1977年最初提出的,该方法是基于单一插值化学基而产生的。 对每个缺失值建构m个备选值(m1 ),以生成m个完整数据定径套,针对每个完整数据定径套以相同的数据分析方法来处理,以获得m个处理结果,在此统一对这些个的处理结果,以根据给定的原则来得到最终目标变量的估计。多重内插分为(1)目标变量的估计、(2)完全数据定径套的制作、(3)目标变量的决定这3个阶段。 其中最重要的阶段是目标变量的估计,在该
4、阶段需要确定估计缺失值的方法,即,缺失值是用哪个方法或模型来估计的,并且这直接影响统计估计的有效性。理想的多重内插一般按照每个内插模型,通过从无回答y,m的m次内插、实际上是y,m的后验预测分布中m次独立重复提取、即从与数据和无回答反应历程对应的贝叶斯模型中独立提取参数和无回答值的方式进行。 在实践中选择模型时要考虑的三个重要问题是:模型是显性的还是隐性的,可以忽略还是不能忽略,插值模型是否恰当。 显性模型是数理统计常用的方法,如正规线性回归、多元正规模型等。 隐藏模型被认为是潜在的隐式“修复特定数据结构”的方法,例如非参数法、最近距离法等。 理论上,显性模型被认为是理想的多重插值技术,但实践
5、上经常采用的是隐性模型,或者显性模型与隐性模型的结合。 例如,herzog和rubin曾经基于美国调查局的热卡法,改进了结合显性回归模型和隐性配对模型的重复插值方法。内插模型分为无论是显性还是隐性,无回答反应历程都可以忽略的模型和不能忽略的模型。 例如,x是数据中所有单元格回答的变量,y是回答有木有。 可忽略的模型假定具有相同x值的回答者和回答者之间的差异是随机的。 不可忽视的模型假定回答者与回答者之间的y值存在系统差异,即使具有相同的x值也是如此。 在实际数据中,如果没有直接的证据,就可以验证没有回答的反应历程的假设,可以利用多个模型研究其易感性。内插模型不管优性还是劣性,可忽略还是不可忽略
6、,除非是适当的模型,否则不能得到有效的估计。 使用合适的内插模型的本质在于在利用该模型进行迭代内插时,可以准确地反映取样变异,从而得到有效推论。 例如,在无可忽略的回答的假设中,具有相同x值的回答者和回答者的y值的差异是随机的,但是从相同x值的y回答值随机提取插值,忽略提取出的相同x值的y回答值和相同x值的整体的y值的随机差异。 如果不正确地反映这种变化,则无法以既定的无回答反应历程进行多重内插的有效估计。 可通过利用接近贝叶斯的波动法(abb )来满足此要求。假设在可忽略的无回答反应历程下,收集相同x值的n个单位的资料,其中没有n,r个回答者,n,m=n-n,r个回答者。 abb首先从n,r
7、个回答值中随机抽出n,r个值,作为y的n,r个可能值,从该n,r个可能值中随机抽出n,m个无回答内插数据。 其中从n,r个可能值中提取内插值,并且可以用至少简单的随机样本条件反映不同内插的变化。 在第一步中,abb不是简单的随机提取,也可以用于没有不可忽视的反应历程响应的插值,如根据y函数(例如y2 )独立提取n,r个值。 由此,能够生成有偏差分布的无回答、例如无回答者的y值比相同的x值大的回答者的y值。2 .单一插值方法分类平均插值:分为无条件平均插值和有条件平均插值。 所谓无条件平均内插,是通过用所有回答单位针织面料的平均值替代缺少的值,在mcar条件的情况下,此方法为无偏差的估计。 但是
8、,插值是所有回答的平均值,因此该数值过于集中,变量的经验分布失真,定值过低了整体的分散和协方差。 为了得到更高的精确数值,学者提出了条件平均内插,分为层次平均内插、回归平均内插和buck方法。 其中,阶层平均内插:内插前,按照一定规律阶层化变量,用各阶层的平均值置换本阶层的缺失值。 回归平均插值:在单调缺失数据模式中,利用回归的预测值代替缺失值。 后退方法:将回归插值展开为更一般的无回答数据模式,首先根据回答用户针织面料求出样本平均和协方差矩阵,使用这些个的估计,计算每个无回答数据模式关于包含无回答的变量的回答变量的最小二乘线性回归,然后用回归预测值替换无回答值。随机内插与条件平均插值方法类似
9、,只需在平均插值中加入随机项,该方法就能通过增加缺陷值的随机性来改善缺陷值分布过于集中的缺陷。 同样,可分为阶层随机内插和随机回归内插2种。 其中,随机回归内插可以表示如下yik=k 0,1,2 k-1kj 12 k-1 yie ik热卡插值该方法从每个缺失数据的估计分布中提取插值代替缺失值,并且使用回答用户针织面料的抽样分布作为未回答用户针织面料的提取分布。 根据回答用户针织面料生成插值的抽样方案,在热力卡插值中确定与整体参数估计量有关的性质,通过得到插值,热力卡插值被随机分为热力卡插值、分层热力卡插值、最近距离热力卡插值和逐次热力卡插值。冷卡插值冷卡插值表示从过去的调查数据中获取历史数据等
10、信息。 用这个方法也不能消除推定偏差。演绎插值该方法是辅助变量的插值方法,主要通过演绎辅助资料寻找插值。 插值的有效性在很大程度上取决于辅助资料是否一盏茶,演绎过程是否合理。3 .多重插值方法的分类单调缺失模式:一个个体的观测值的变量缺失,意味着后面的变量也全部缺失的情况下,变量的缺失可以认为是单调缺失模式。回归预测法:倾向得分法:蒙特卡洛马链法:4 .两种方法的优缺点5 .总结单插值名词解释:事后概率:来源于贝叶斯模型的概念。 所谓后验概率,是得到“结果”的情报后再修正的概率,贝叶斯公式中“实行因果”问题的“果”.先验概率和后验概率有不可分割的联系,后验概率的计算是基于先验概率的。 其本质是条件概率。p(a|b)=p(b|a)*p(a)/p(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 口腔护理与学校教育
- 护理操作技术的科研方法与技巧
- 护理技术操作培训:心肺复苏术团队协作
- 护理团队建设与医院文化
- 护理诊断思维方法的实践案例
- 口腔护理与特殊时期
- 快递物流行业客服经理面试指南
- 旅游行业创新发展:旅游策划部经理面试全解析
- 零售业高级风险控制策略及面试要点解析
- 旅游行业法务工作要点及面试技巧
- 口腔颌面外科典型病例分析
- 机器人炒菜设备管理制度
- 智能化激光制造技术的研究进展
- 《电气控制技术》课件-项目8 直流电动机控制电路安装与调试
- 外墙风管施工方案(3篇)
- 大数据赋能企业财务分析的效率提升路径
- TD/T 1033-2012高标准基本农田建设标准
- 以结果为导向的执行力培训
- 2025年江西工业贸易职业技术学院单招职业技能测试题库带答案
- 邮政快递安全培训课件
- 2025年江苏省高职单招《职测》高频必练考试题库400题(含答案)
评论
0/150
提交评论