数据质量论文:应用于数据质量核查的几项数据挖掘技术研究.doc_第1页
数据质量论文:应用于数据质量核查的几项数据挖掘技术研究.doc_第2页
数据质量论文:应用于数据质量核查的几项数据挖掘技术研究.doc_第3页
数据质量论文:应用于数据质量核查的几项数据挖掘技术研究.doc_第4页
数据质量论文:应用于数据质量核查的几项数据挖掘技术研究.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据质量论文:应用于数据质量核查的几项数据挖掘技术研究【中文摘要】质量低劣的数据已经成为影响企业正确决策的关键因素,成为制约信息服务的瓶颈。因此,如何高效的管理数据,提高数据质量,使其成为决策部门的有效依据,是具有较高研究价值和实际意义的问题。本文由此背景出发,根据不同类型的数据错误,采用相应检测方法,并通过实现具体程序,验证方法的有效性。本文首先介绍了数据质量的定义、分类、评价指标以及数据质量提高技术。然后总结了数据清洗技术的原理方法。最后针对不同的数据错误类型,给出了相应的解决方法。本文重点给出了异常数据和相似重复记录的检测方法。本文充分考虑数据内部之间的联系,采用基于关联规则的思想对异常数据进行检测。首先,将数据集中的数据进行转换,使其满足关联规则挖掘的条件;然后,在训练集中找出所有的频繁项集,由频繁项集生成关联规则,并将其放入规则库;最后,将测试集中的记录与规则库中的规则进行比对,以此判断记录是否异常。通过实验证明此方法检测异常数据效果良好。本文采用基于权值分组的方法来检测相似重复记录。根据识别事物的能力给不同的属性分配相应的权值,以此提高检测精度;根据关键字段将大数据集分割成不相交的小数据集,再在小数据集中检测相似重复记录,以减少匹配次数;采用位置编码方法计算字段相似度,解决了英文缩写问题和中文字符匹配问题;使用多趟查找技术克服了字符敏感问题。实验证明此方法能够快速准确的检测相似重复记录。【英文摘要】Data in poor quality has become a key factor for enterprise to do the right decision, and a bottleneck of information service. Therefore, how to manage data efficiently and improve the quality to make data an effective basis for decision-making department is a problem with high research value and practical significance. In this context, this dissertation according to the different types of data errors through implementing specific program uses the appropriate solutions to verify the validity of the method.First, this dissertation introduces the definition of data quality, classification, evaluation index and the technology of improving the data quality. Second, summarize the principle and the method of data cleansing techniques. Finally, give the corresponding solutions for different error types especially on the duplicate records and similar abnormal data detection method.Fully considering the link within data, this dissertation detects abnormal data using the idea based on association rules. Firstly, convert the data in the dataset to meet the conditions for mining association rules. Secondly, find all the frequent item sets in the training set and generate the association rules from the frequent item sets and put them into the rule base. Finally, compare the records in the test set and rules in the rule base to determine whether the record is abnormal. The experiment showed that the method for the detection of abnormal data performs well.This dissertation use the method based on weight packet to detect similar duplicate records. Assign the appropriate weights to different attributes according to the ability of identifying the object, thus improve detection accuracy; Divide the large data set into small non intersect data sets according to key fields, then detect the similar duplicate records in these small data sets, which reduce the number of matches; Compute the field similarity using position-coding to solve the problem of English abbreviations and Chinese characters matching; Repeat the above steps with another key fields to overcome the character sensitive issue. The experiment proved that this method can detect similar duplicate records quickly and accurately.【关键词】数据质量 异常数据 关联规则 重复记录【英文关键词】data quality abnormal data association rules duplicate records【目录】应用于数据质量核查的几项数据挖掘技术研究摘要6-7Abstract7目录8-10第1章 绪论10-141.1 课题的研究意义101.2 数据清洗技术的研究现状和发展趋势10-121.2.1 国外研究现状10-111.2.2 国内研究现状11-121.3 存在的问题12-131.4 论文的研究内容和主要工作131.5 论文的组织结构13-14第2章 数据质量核查技术理论综述14-232.1 数据质量的相关概念14-172.1.1 数据质量评估14-152.1.2 数据质量问题的分类15-172.2 数据质量提高技术17-202.2.1 模式层数据质量提高技术17-182.2.2 数据清洗技术18-202.3 数据清洗的框架模型20-23第3章 缺失数据的填充23-333.1 缺失数据概念23-243.1.1 缺失数据的产生原因23-243.1.2 数据缺失机制243.2 缺失数据处理24-273.2.1 缺失数据的处理步骤24-253.2.2 缺失数据的填充方法25-273.3 使用决策树方法对缺失数据进行填充27-323.3.1 决策树的建立过程27-283.3.2 属性选择标准28-303.3.3 决策树的使用过程303.3.4 对缺失数据进行填充30-323.4 本章小结32-33第4章 异常数据的检测33-474.1 异常数据相关概念33-344.2 使用关联规则检测异常数据34-434.2.1 数据转换35-364.2.2 关联规则的基本概念36-374.2.3 Apriori算法37-394.2.4 Apriori的改进算法39-424.2.5 算法比较分析42-434.2.6 异常检测434.3 异常数据的检测实验43-464.4 本章小结46-47第5章 相似重复记录的检测47-595.1 重复记录的检测方法47-495.1.1 近邻排序算法47-485.1.2 多趟近邻排序算法485.1.3 优先队列算法485.1.4 算法分析48-495.2 基于权值分组的重复记录检测方法49

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论