


全文预览已结束
付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据可用性的评估方法分析 摘 要:针对日益突显的数据质量问题,文章从数据可用性的角度,介绍并分析了目前国内外基于单个属性的数据质量评估方法,指出了相关工作的进一步研究方向。 关键词:数据质量;可用性;评估方法 随着大数据时代的来临,数据集合中劣质数据也随之大量产生,导致信息数据整体质量下降,数据的有效使用受到了极大限制。为了更加有效发挥各行各业大数据的作用,开展数据可用性研究具有较大的战略意义。 1 数据可用性定义 研究者们普遍认为,数据的可用性可以从数据的一致性、准确性、完整性、时效性及实体同一性五个方面进行考察,其具体定义如下: 数据的一致性:指数据信息系统中各相关数据信息之间相容、不产生矛盾。 数据的准确性:指数据信息系统中每个数据表示现实物体的精准程度。人们对数据进行操作的各个环节都可能影响数据准确性。 数据的完整性:指数据集合包含的数据完全满足对数据进行各项操作的要求。 数据的时效性:是指在不同需求场景下数据的及时性和有效性。对应用系统而言,往往对数据时效性要求较高,过时的数据即使分析出来了也不会对实际应用产生有价值的影响。 实体的同一性:指同一实体在各种数据源中的描述统一。 一个数据集合,满足以上五个性质的程度称为该数据集合的可用性。 2 评估方法分析 对于数据可用性评估,国内外研究人员也进行了许多工作。以下从数据的一致性、精确性、完整性、时效性、实体同一性五个方面进行介绍和分析。 2.1 基于一致性的方法 文献针对异地备份系统中数据持续变化的情况,设计并实现了一种基于累积摘要值的一致性检测方法。该方法解决了传统一致性检测需要中断备份任务的问题,保证了备份任务的连续性,并且能够迅速检测本地服务器和远程备份中心数据的一致性,提高了一致性检测的效率。 文献从已有的一致性维护方法出发,针对海量数据多副本之间一致性维护,从一致性维护过程中所涉及的更新发布、更新传播方式、更新传播内容、更新冲突解决等几个方面进行了分析,提出了相应的解决办法。 文献针对P2P分布存储系统中大型数据对象面临的数据一致性问题,提出了数据一致性维护方法PLCP。该方法从提高更新传播速度和减少日志空间开销的角度进行了数据优化。同时针对数据更新的问题和关键属性更新的问题,提出数据一致性维护方法DACP和KACP。 文献从无线传感网络数据安全的角度,结合一些廉价的保护技术,提出了利用跨层一致性评估信息整体质量的方法。 基于数据一致性的方法,主要体现在集中存储方面,对于分布式和非关系数据方面研究还较少,适用于海量数据的一致性评估方法有待进一步探索。 2.2 基于精确性的方法 数据精确性方面的研究结果比较少见,文献从精确度低的角度,提出了对应的精确性评估算法。该算法考虑了一种基于可能世界语义的描述方法。目前的研究结果显示,数据精确性的评估方法还有待研究者们深入探究。 2.3 基于完整性的方法 针对海量关系数据中普遍存在的数据不完整现象,刘永楠等研究了关系数据完整性度量问题。针对数据的完整性计算问题,提出了数据完整性计算模型,以及精确算法和基于均匀抽样的近似算法。理论分析证明了近似算法可以达到任意的精度要求,可以高效地对数据完整性进行计算,通过在DBLP数据上的实验验证了算法的有效性和高效性。 在具体应用领域,张少敏等利用IEC61970对智能电网进行信息集成,然后根据完整性定义,对智能电网数据进行自动机建模,给出了一种无需对数据进行直接操作的数据完整性定量评估模型。 Barcelo P等将传统的完整性理论扩展到XML数据上,讨论了不完整XML数据的表示问题。 另外,针对云存储服务中数据的完整性问题,一些研究者提出了PDP 和POR。这两种方案都采用了概率性证明思路,即存储服务提供商向数据拥有者证明其完整的持有数据拥有者存储的数据。 基于数据完整性评估方面的结论还较少,特别是具有普遍适用价值的方法,还有待进一步研究。 2.4 基于时效性的方法 文献针对历史评价数据时效性会影响评价计算准确性的问题,引入了评价数据的时间属性,构造了评价数据衰减因子,减小了时效性对于评价计算准确性的影响。 文献研究了包含冗余记录的集合在给定时效约束下的时效性判定问题,并首次提出了时效性判定问题的求解算法. 在建筑能耗领域,文献通过对几类典型公共建筑能耗数据的统计分析对比,提出了采用近1年的能耗数据作为统计样本的建议。 基于时效性方面的研究非常匮乏,已有的少量研究结论都主要针对一些特殊应用,还需深入系统的研究。 2.5 基于实体同一性的方法 实体同一性是数据可用性研究较多的一个方面,实体同一性研究主要涉及两类方法:第一类是从语义规则的角度进行同一性研究,这类方法主要通过经验知识来描述实体的同一性问题;第二类是从相似性的角度进行同一性研究,该类方法主要采用相似度函数来对实体同一性进行判定。 针对实体同一性方面的相关技术,包括实体识别的效率问题、识别的增量计算、半结构化数据上的实体识别等,文献 展开了相对完整的讨论。 对于实体统一性的评估方法大多针对关系数据,针对复杂结构数据、半结构化数据、非机构化数据方面的研究还很少。 3 结 语 在大数据时代,数据量急剧增长,数据的可用性问题将严重影响基于数据的知识和决策。确保大数据的可用性是进行大数据分析、处理的关键基础,将直接关系到大数据价值的体现。本文针对数据质量问题,从数据可用性的角度,介绍并分析了目前国内外基于单个属性的数据质量评估方法,将有助于促进大数据可用性的研究。 参考文献: 刘仕一,李涛,刘哲哿,等.异地备份系统数据一致性检测方法J.计算机工程与设,2010,(17). 周婧,王意洁,阮炜,等.面向海量数据的数据一致性研究J.计算机科学,2006,(4). 周婧.P2P分布存储系统中海量数据的数据一致性维护技术研究D.长沙:国防科学技术大学,2007. 刘显敏,李建.中实体识别问题的相关研究J.智能计算机与应用,2013,(2). Mattia Monga,Sabrina Sicra Modern Telecommunications Workshops,2009. Cheng R,Chen J,xie X.Cleaning uncertain data with quality guarant-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水上乐园场地租赁合同及水上娱乐服务协议
- 车辆无偿借用及驾驶人员行为规范协议
- 餐饮业餐饮废弃物处理服务合同
- 电商平台售后服务及消费者权益保护协议
- 全球电商物流损失责任界定及赔偿标准合同
- 草场租赁与草原畜牧业合作开发合同
- 厕所隔断定制化生产与售后服务合同
- 柴油销售居间服务合同书
- 新能源产业园区场地厂房租赁合同
- 企业年会策划服务合同细则
- 《长沙臭豆腐介绍》课件
- 《陋室铭》历年中考文言文阅读试题52篇(含答案与翻译)(截至2023年)
- 快速精确-细节毕现-Carto3标测策略
- 2024年度护理三基考试题库及答案(共570题)
- 园林工人交通安全宣讲
- 人力资源外包投标方案(技术方案)
- 《GMP基础培训》课件
- 《滨海旅游区介绍》课件
- 2024年度中国资管行业ESG投资发展研究报告
- 显示设备健康护眼技术研究-洞察分析
- 乙肝免疫标志物检测及其实验结果解读
评论
0/150
提交评论