版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种面向多维特性数据的缺失值检测及填本发明涉及一种面向多维特性数据的缺失缺失值填补算法进行数据填补。与现有技术相2维度缺失度的最小单位为一个维度,通过对整个数据集的缺失维度其中,nulindex[i,j]表示矩阵nulindex的第i行第j列,row(nulindex)为矩阵依次对每一个数据点的每一维度进行检测,并与该维度对应的重2.根据权利要求1所述的一种面向多维特性数据的缺失值检测及填补方法,其特征在33.根据权利要求1所述的一种面向多维特性数据的缺失值检测及填补方法,其特征在计算数据集整体缺失度,即计算整个数据集中发生缺失的数据4.根据权利要求1所述的一种面向多维特性数据的缺失值检测及填补方法,其特征在5.根据权利要求4所述的一种面向多维特性数据的缺失值检测及填补方法,其特征在中的插值填补法以及模型填补方法中的KNN填补法和Iterative6.根据权利要求5所述的一种面向多维特性数据的缺失值检测及填补方法,其特征在采用评价指标F1_score和评价指标RMSE评判多种缺失值填补算法的性评价指标F1_score用以评判模型预测缺失值的准确度,根据不同缺失值填为1的样本占预测为1的样本总数的比例,召回率recall表示被正确预测为1的样本占真实评价指标RMSE用以评判模型累计预测误差值,通过计算预测结果与真实7.根据权利要求6所述的一种面向多维特性数据的缺失值检测及填补方法,其特征在45中的维度缺失常常会导致数据类型不匹配的错误,这给后续数据分析与处理带来了挑战,6失数据点输入到预测模型,得到缺失位置的可能填补值。常见的如KNN(k_nearest据数据集的缺失程度选择最合适的填补方法具有一定的[0012]本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种面向多维特性7[0034]其中,nulindex[i,j]表示矩阵nulindex的第i行第j列,row(nulindex)为矩阵[0036]依次对每一个数据点的每一维度进行检测,并与该维度8[0039]所述的步骤6中,基于不同缺失度选择合适的缺失值填补算法进行数据填补的过方法中的插值填补法和插值填补法以及模型填补方法中的KNN填补法和Iterative[0044]所述的步骤602中,对不同的缺失值填补算法在不同缺失度时填补效果进行全面预测为1的样本占预测为1的样本总数的比例,召回率recall表示被正确预测为1的样本占[0054]1、本发明针对现有的缺失值检测方法缺少对多维数据进行更全面立体分析的问9[0065]图10为本发明实施例的IterativeImputer填补法在不同缺失度时的填补结果示施例采用Dataframe表格型数据结构格式对数据集进行存储,存储后的数据集含有一组有D,1的表达式为:[0090]如图3所示,整体缺失度用以衡量整个数据集中具有缺失的数据点占所有数据点[0099]其中,nulindex[i,j]表示矩阵nulindex的第i行第j列,row(nulindex)为矩阵加权维度缺失度不失真且符合真实情况,需满足所有维度权重系数之和等于k,即[0107]在步骤6中,基于不同缺失度选择合适的缺失值填补算法进行数据填补的过程具方法中的KNN(K_NearestNeighbor)填补法和IterativeImputer填补法这五种典型的缺失学习数据库UCIMachineLearningRepository中选取Iris数据集进行实验,Iris数据集[0114]根据上述缺失度的设置,这些数据集囊括了allms偏小menms偏小、allms偏小menms偏大、allms中等menms中等、allms偏大menms偏小以及allms偏大menms偏大五种情[0115]本发明采用典型的F1_score和RMSE这两个评价指标评判多种缺失值填补算法的(缺失值填补算法)的填补结果,得到预测的精确率precision和召回率recall,精确率precision表示被正确预测为1的样本占预测为1的样本总数的比例,召回率recall表示被[0120]综上所述,评价指标F1_score用以评判模型预测缺失值的准确度,而评价指标值填补算法,但是IterativeImputer填补法的性能总是优于KNN填补法,因为Iterative
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 营销积分方案模板(3篇)
- 酒店生日营销方案(3篇)
- 防洪评估施工方案(3篇)
- 人教版小学二年级语文下册第2课《找春天》课堂笔记
- 信息基础工程与管理 4
- 《JBT 7105-2002 35KV变电站(所)成套集控保护屏、柜、台通 用技术条件》专题研究报告
- 新兴能源技术的研发与应用前景
- 石油化工产品进销存管理与供应链协同
- 中国电商行业发展及消费者行为研究
- 2025年河北移动高层次人才社会招聘(拨尖)笔试参考题库附带答案详解
- 2025中国烟草总公司吉林省公司拟录用毕业生笔试历年备考题库附带答案详解
- 人工智能通识与AIGC应用.课程标准-参考
- 2026年南阳科技职业学院单招职业技能测试题库及答案详解(真题汇编)
- 汇达资产社会招聘笔试题
- 2025年2026云南昆明医科大学第一附属医院开展第二批校园招聘47人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 【《基于物联网的智能衣柜系统设计》7200字】
- 2026年广西壮族自治区区直事业单位统一公开招聘工作人员650人备考题库及完整答案详解
- 青岛华通集团招聘笔试题
- 贵州大桥介绍
- 儿童军事科普
- 2025年江苏省常州市中考化学真题卷含答案解析
评论
0/150
提交评论