




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据即未来浅谈大数据时代下数据质量的重要性及提高数据质量的方法学 院: 专 业: 姓 名: 学 号: 指导老师: 联系方式: 数据即未来浅谈大数据时代下数据质量的重要性及提高数据质量的方法摘要:数据是联系现实世界和虚拟模型重要的桥梁,也是我们探索和预测世界的重要指标。几十年以来,人们都在强调数据质量中正确性的重要性,但是当我们身处大数据时代,数据由仓库变成了海洋,数据质量的含义发生了什么变化?相对应的提高数据质量的方法或手段又有了哪些改变?本文首先解释了传统数据质量的定义,然后给出了大数据时代下数据质量的新定义。同时简要的介绍了传统数据质量提高手段和大数据时代下新的数据质量的提高手段。1.数据质量的定义数据质量在不同的时期有着不同的定义。在几十年前,数据质量就是意味着数据的准确性。确切的说是数据的一致性、正确性、完整性和最小性这4个指标在信息系统中得到的满足程度1。国内学者陈远等认为2数据质量可以用正确性、准确性、不矛盾性、一致性、完整性和集成性来描述。但是随着信息系统的发展,数据的来源越来越多样化,数据体量越来越大,数据涵盖的面也越来越广,对于数据质量的定义也从狭义走向了广义。准确性不再是衡量数据质量的唯一标准,当数据量增大,数据格式多样,数据适合使用的程度成为了数据质量中更加关键的因素3。虽然众多的学者对于数据质量的定义不同,但是在大体上都涵盖了以上的指标。笔者认为在大数据时代下,衡量数据质量的指标中,数据的可读性应该放在首位。在大数据时代背景下,我们不缺少分析大数据的方法,也不缺少分布式计算的硬件,准确性对于大数据而言,单个或少部分不准确的数据在庞大的数据量面前的影响也微乎其微。现今的目标更多追求的是数据分析的效率,所以数据质量中数据的可读性便成为了影响数据质量极其重要的一环。对于格式化和非格式化数据,其不仅仅在存储空间占用大小上,相差甚远,更多消耗的是对于非格式化数据的读取、分析的时间。数据的可读性差,不仅仅造成数据分析时间长,更重要的是在当今庞大的信息系统下,难以满足各个子系统海量数据交互的需求。所以在当今大数据时代的背景下,我们在注重传统的数据质量的指标的同时,更加应该注意数据的可读性。2.数据质量的重要性对于传统的数据质量的定义,如准确性、完整性等,人们认识世界都是通过建立虚拟模型,如定理、公式、法则等,通过采集现实世界数据输入至虚拟模型中,进行预测,之后再与现实世界采集数据对比,不断改进模型,从而达到预测及认识世界的目的。如图1-1所示,在这个过程中,数据是连接现实世界和虚拟世界的桥梁,如果数据质量出现问题,无法真实的反映现实世界的状况,那么建立起来的虚拟模型就会出现较大的偏差,从而预测出有偏差甚至完全相反的结果,这便是在计算机和数学中广为人知的“垃圾进,垃圾出(garbage in, garbage out)”。如果是一个企业对于未来市场的判断,那么这种后果将是及其严重的,传统数据质量的重要性不言而喻。图1-1但是在大数据时代下,数据量得到了爆炸式的增长,数据的准确性由于量变而轻易实现,人们更加关心数据分析的效率及数据在各个子系统中周转的速度,数据的可读性便成为了数据质量指标中至关重要的一环。无论是在过去还是现在以及未来,可以预见的是无论数据质量的衡量指标改变了多少,数据质量永远是人们锲而不舍追求的目标。3.提高数据质量的手段3.1传统手段针对传统数据质量的定义,在不同的信息系统中提高数据质量所采取的方法是特定的,但是在大体上提高数据质量的手段主要在数据获取、数据清洗等阶段。在数据获取阶段,所针对的目标主要是为了提高数据的一致性、完整性及正确性,所采取的手段主要针对硬件设备,如:采取更加先进的传感器、传感器布置更加全面、提高传感器数量等。此阶段对于数据质量的提高主要体现在收集的数据量的增加上,这么做的原因是防止因数据量过少而产生的偶然结果对数据分析产生不利的影响。在数据清洗阶段,所针对的目标主要是为了提高数据的最小性和正确性。由于在数据获取阶段,为了保证数据完整性而过多地收集数据,使得数据量增加,影响数据分析效率,所以在数据清洗阶段,提高数据质量的方法主要是针对数据分析所需要的相应的指标,去除无关指标及空值、残缺值等。同时可以利用专家知识或相应的公式、经验、法则等,制定特定的识别模块(如工程APP)4,达到自动化去除数据中的错值,进一步提高数据质量,减少对数据分析的不利影响。3.2现代手段与传统手段不同,当今的时代对于数据质量的定义发生了变化,所以提高数据质量的方法也发生了变化。在数据获取上,不仅仅增加了数据获取的数量和粒度,更多的是增加了数据获取的维度,如从时域上获取数据的同时也从空域上获取数据,不仅仅有雷达获取的数据,也有卫星获取的数据。在数据清洗上,更加注重数据的最小性,针对特定的分析目的给予特定的数据序列,针对数据质量,此时更加注重其可读性。在大数据时代背景下的数据预处理阶段,提高数据质量主要手段为针对非结构化数据的结构化模型表示与多源多尺度数据的融合。3.2.1非结构化数据的结构化模型表示目前,在非结构化数据的结构化模型表示方面有一些相关研究,主要侧重于文本数据的结构化处理方面,对图像、视频等其他非结构化数据的处理仍有不足;在数据科学与网络科学的结合方面,目前已经有了一些理论研究,虽然还未有实际的应用,但是基础理论已经较为成熟。国内在数据集成方面的研究主要侧重于公共模型构建、元数据模型、语义Web技术等方面,如早期东南大学俞本权研制基于CORBA的Versatile5,通过OIM数据集成公共模型,和OIQL查询语言,对分布式异构数据源进行集成,实现不同的数据源数据的“即插即用”;复旦大学陈彤兵等人提出了基于元数据模型和数据源能力的,针对分布式自治数据源的联合查询方法6。南京航空航天大学王艳敏提出基于本体和WebService的数据集成7,充分利用了本体和WebService的优点,在一定程度上解决了异构数据集成的问题,然而国内学者在数据源类型的通用性和本体映射的局部性方面还有所不足,需要进一步的提高。3.2.2多元多尺度数据融合在现今庞大的信息系统中,不同数据来源的数据类型、结构、粒度等各不相同,虽然通过数据集成,可以提供给不同的设计评估应用中,但是,由于各种应用场景对于数据的要求也各有不同,如时间粒度、空间粒度以及时间效率等,必须从实际需求、数据内容和特征出发,综合考虑分析精度和分析效率等多种因素,进行数据融合,才能使数据得到充分利用。针对数据量大,数据结构复杂的多源多尺度的数据进行集成,需要考虑应用中的各种需求、数据现状和算法实现的可能性及效率等问题。融合一词最早出现在美国军事C3I(Command、Control、Communication and Intelligence)系统中,随着应用系统的复杂化和智能化以及传感技术的发展,收集的数据的种类、数量、尺度等有了质的飞跃,对于数据融合提出了越来越高的要求。近年来,国外对于数据融合的研究已经深入到多个领域,如智能识别、自动探测等诸多领域应用,且将现代算法应用到数据融合中。美国DARPA在2012年开始支持在军事方面的大数据集成、融合和可视化技术研究。国内在数据融合方面的研究主要在针对多源、多传感器的有线或无线网络,采取的数据融合算法由之前的传统算法,如加权平均法、经典推理法等过渡到神经网络、遗传算法等现代算法中。4.总结随着网络技术的发展,现实世界中各个系统连接越来越紧密,信息系统越来越大,交互的数据不仅在量上有了飞跃,同时对数据处理速度也提出了更高的要求。传统的数据质量的定义在海量数据面前不再适用,一致性、完整性、准确性等指标在数据质量衡量中权重都下降了,因为在海量数据面前这些指标都可以被很简单地完成。人们不再局促在单个指标中,而是用系统的眼光去看待问题,需要的不是单个指标的好坏,而是整个系统的快速交互。如果把整个系统看做一个人,那么数据就是人体里流动的血液。传统提高数据质量的方法相当于提高血液的质量,但是当血液的流量急剧增大,不需要很好的质量也可以提供远远超过我们需要的能量的时候,我们需要做的是增大血管,就是增加数据的可读性,让海量的数据可以在各个系统中流转,从而整体提高系统性能,也提高了我们对于未来的预测的准确性。参考文献1 Aebi Daniel, Perrochon Louis, Towards Improving Data Quality.M, 1993: 273-281.2 陈远, 罗琳, 沈祥兴. 信息系统中的数据质量问题研究J. 中国图书馆学报, 2004, 30(1): 48-50.3 Huang K. T., Lee Y. W., Wang R. Y. Quality Information and Knowledge ManagementJ. Proceedings of the, 1999, 22(2): 99-136.4 郝佳, 杨海成, 阎艳等. 面向产品设计任务的可配置知识组件技术J. 计算机集成制造系统, 2012, 18(4): 705-712.5 俞本权.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 政策助力下的跨境创业机会分析试题及答案
- 环境工程考点试题及答案
- 宁波驾照笔试试题及答案
- 网络营销调研试题及答案
- 江苏开放大学用管理能力(个人与团队)期末题库及答案
- 如何提升创业扶持政策的社会适应能力试题及答案
- 家具设计中的创新思维训练试题及答案
- 安全文化在建筑施工中的推广及试题及答案
- 方法总结大学化学考试试题及答案
- 安全工程师职业技能提升细则试题及答案
- 品牌营销 第3章 品牌识别
- 中央2024年国家图书馆招聘应届生笔试上岸历年典型考题与考点剖析附带答案详解
- 农业人工智能应用智慧树知到期末考试答案章节答案2024年黑龙江农业经济职业学院、广州万维视景科技有限公司
- MOOC 中国电影经典影片鉴赏-北京师范大学 中国大学慕课答案
- 教师职业道德完整省公开课金奖全国赛课一等奖微课获奖
- 中国木雕艺术智慧树知到期末考试答案2024年
- 红色研学实践活动方案策划
- 数字贸易学 课件 第11章 全球公司
- 江苏省无锡市2023-2024学年五年级下学期期中模拟测试数学试卷(苏教版)
- 急性胰腺炎护理查房
- 干细胞行业推广方案
评论
0/150
提交评论