大学论文大数据质量评价体系的构建研究_第1页
大学论文大数据质量评价体系的构建研究_第2页
大学论文大数据质量评价体系的构建研究_第3页
大学论文大数据质量评价体系的构建研究_第4页
大学论文大数据质量评价体系的构建研究_第5页
已阅读5页,还剩40页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

I大数据质量评价体系的构建研究摘 要大数据时代到来了。我国的国情决定了集中掌握着资金、人力、政策等资源优势的政府部门当仁不让的成了推进大数据发展的主体,也成了经现代化信息技术关联分析后发现新知识、创造新价值的研究客体,其数据质量更是重中之重,关系到大数据最终的运算结果。而质量评价体系的建立有助于确定数据质量标准化,规范的政府大数据的科学性管理,引导新的契合大数据技术手段的信息基础建设具有重要意义。本文从现有的数据质量评价体系出发,结合大数据的四大特性,将 17 个与政府大数据质量相关的二级指标按照数据源质量、数据规模质量、数据结构质量、数据时效质量、数据价值密度质量这些维度进行划分,确定了五个维度。并对每个二级指标进行了系统的梳理,确立了从政府部门、受访者、制度性因素三个方面建立的具体指标,共计有 51 个指标。然后对给出的各数据质量评价指标的满意度打分进行主成分分析,剔除了 13 个指标,完成对该质量评价体系的修正和完善。通过上述研究,本论文得出了以下结论:在政府大数据质量评价中,政府数据的数据源质量依旧十分关键,是政府大数据质量的重中之重;数据的时效性质量在政府大数据特征质量中最为重要,这体现了政府大数据对运算高速性的要求。关键词:大数据 政府数据 质量评价体系 IIResearch on the construction of large data quality evaluation systemZhangYang Directed by QiuShuangyue AbstractBig data era,in the situation of our country have capital, manpower, policy resources of government departments have become the main body to promote the development of big data, has become the analysis of Modern Information Technology Association after the discovery of new knowledge and create new value of the research object, the data quality is the priority among priorities, in relation to the final result of big data. And the establishment of the quality evaluation system is helpful to determine the quality of the data standardization, the scientific management of the governments big data, and to guide the new information technology infrastructure is important.This paper from the data quality evaluation system of the existing four, combined with the characteristics of big data, the 17 related government data quality level two indexes according to the data source, data quality, data quality scale structure quality, data quality, data aging value density quality of these dimensions are divided and identified five dimensions. And each of the two levels of the index system, the establishment of the government departments, the respondents, the institutional factors of the three aspects of the establishment of specific indicators, a total of 51 indicators. After the initial establishment of the system, the application of the evaluation system for large data users of the government. In this paper, the principal component analysis of the satisfaction score of each data quality evaluation index is given, and 13 indexes are eliminated.Through the above research, this paper draws the following conclusions: in the evaluation of the quality of government data, government data quality is still very important, is the priority among priorities of government big data; timeliness of quality data in the government big data quality is the most important feature, which reflects the requirements of the government of big data high speed.IIIKEY WORDS:Big data Government data Quality evaluation system目录摘 要 .I英文摘要 .II前 言 .11 相关理论 .21.1 大数据的概念 .21.2 现有的大数据质量评价体系 .22 政府大数据质量评价指标体系的构建 .32.1 政府大数据质量评价指标的确立和指标体系的构成 .32.2 大数据质量评价指标的量化 .53 研究方法的选取 .63.1 因子分析法概述 .63.1.1 因子分析法的定义 .63.1.2 因子分析法的步骤 .63.2 主成分分析法概述 .73.2.1 主成分分析法的定义 .73.2.2 主成分分析法的一般分析步骤 .73.3 因子分析法和主成分分析法的比较 .73.4 主成分分析法在本研究中优势 .84 政府大数据质量评价指标体系的主成分分析 .84.1 数据的来源 .84.4 主成分的选取 .94.3 主成分得分与权 .104.4 各变量最终得分 .145 结论与建议 .175.1 结果分析与结论 .175.2 政策建议 .17参考文献 .18附 录 .19致 谢 .281前 言随着第三次工业革命的推进,人们进入了信息化时代。在信息化时代里数据就是力量,数据就是财富已经不是什么神话,而是深入人心的共识。近几年,随着新社交媒体的普及,以及存储设备的升级换代使得数据的存储与应用发生了翻天覆地的变化,大数据技术应运而生。然而,在这个数据爆炸的时代里,数据质量确实良莠不齐,为了找到评价一个数据集质量的有效方法,许多人都对大数据质量评价体系做了研究。但是,在大数据层次上,难以拿出相对完善的质量评价体系对政府大数据进行有效的评估,为了弥补这样的缺憾,本文对大数据质量评价体系进行了研究。 1本研究的进程共分为三个阶段:第一个阶段,在论文数据平台和学术期刊上查找相关研究成果,并将这些成果中包含的不同部分进行归类,初步了解了大数据质量评价体系研究的现状。总结归纳出了研究通常构建的 13 指标以及研究通常采用的主成分分析或因子分析的方法。第二个阶段,根据前人的成果,再结合自己掌握的知识,构建相对合理的评价指标体系,并根据指标体系制作调查问卷,然后进行问卷调查,收集数据得到第一手的资料。收集数据之后对数据进行分析、研究,并找出成因,思考对策。第三个阶段,将成果写成论文。本文共分为五部分:第一部分是对大数据概念的总结与大数据质量评价体系目前研究的简单概括;第二部分首先阐述了目前的研究现状中在指标体系构建中存在的指标过多与角度单一的问题,并相对的提出了解决这些问题的办法,也就是三个级别指标并行,三级指标作为直接变量的解决办法;其次第二部分还阐明了数据量化的必要性以及数据量化的李克特量表法。第三部分介绍了大数据质量评价体系构建中常用的两种降维方法即因子分析法与主成分分析法,并论证了运用主成分分析法的益处。第四部分首先论证了调查得到数据的代表性,然后用主成分分析法提取了 6 个主成分,再计算各个变量的得分情况。第五部分根据第四部分的成果发现了政府在大数据安全性和相关性以及大数据来源质量所存在的问题并提出了一些建议。21 相关理论1.1 大数据的概念上世纪 50 年代欧洲数学家香农在“通讯的数学理论”中提出的信息定义:“信息是用来消除随机不定性的东西”。在传统理论下数据是信息的基础,而我们现在所提到的数据是一个综合范畴,有传统理论中的数据(统计数据等),更多的是数据化技术存在的结果形态与信息记录的统称,即所谓的大数据。 2数据种类多,既包括文本、图像、视频等半结构和非结构化数据,也包括现有的结构化数据,像统计数据。我们可以把大数据的特征总结为 4V,即Volume(体量浩大)、Variety(模态繁多)、Velocity(生成快速)、Value(价值巨大但密度低)并且具有实时、多元的信息化特点;而统计数据类型单一,主要特征是结构化、体量小、标准化、价值密度高以及周期化数值。目前大数据已成为中国政府统计数据来源的“第二轨”,为了更加全面有效的提升数据质量,统计数据在此略显简单。相比统计数据质量,大数据向纵深拓展了其内涵。 3目前,作为一种标准化数据的统计数据正在经历着大数据的冲击,统计数据质量即是统计学研究的起点,也是统计实践的目标,而数据价值最大化是统计数据质量的核心英国当代数学家托马斯克伦普在数字人类学中提及人是数字的本质。揭示数字后面信息与现实世界的关系是统计数据的内涵,而实现数据信息的效率及价值是数据质量的本质。就当今社会信息的价值效率与数据泛滥造成有效信息稀缺导致可用数据质量和价值得不到有效利用,这主要原因是因为来自于大数据推动下数据质量内涵信息的分布复杂的演变。因此如何判断统计数据质量以及对其的有效利用使我们应该考虑的问题,而本文对大数据质量评价体系的构建研究以政府大数据质量为例作简要分析。 431.2 现有的大数据质量评价体系虽然大数据是这几年才发展起来的新兴学科,但是对于大数据的研究却是汗牛充栋,其中对于大数据质量评价体系的研究也是初具规模。然而,在学术界并没有关于大数据质量评价体系统一的标准。尽管如此,在统计学界仍然有大家都公认的一些指标,这些指标在研究中经常被使用。这些指标主要包括:准确性、时效性、相关性、客观性、可衔接性、完整性、可理解性、透明性、可操作性、可取的性、可解释性、效益型、安全性等 12 个指标。 5例如:UN 下属的经济委员会就曾经提出了包含 11 个指标变量的数据质量评价体系,这 11 个指标是:可获得性、相关性、真实性、准确性、连续性、时效性、可用性、完整性、复杂性、清晰性、安全性。在国内,蔡莉等人主导的研究中提出了包含 5 个指标的大数据质量评价体系,它们分别是:可获得性、可靠性、可用性、相关性、可表达性。2 政府大数据质量评价指标体系的构建所谓大数据质量评价指标体系就是一个可以很好地描述大数据质量的模型,利用这个模型可以比较方便的比较两个数据集的质量。大数据质量评价指标体系研究,研究对象是大数据,关键是质量评价,目标是指标体系构建,只有将体系搭建好,才能有明确的目标,才能更好的完成分析、论证工作。 62.1 政府大数据质量评价指标的确立和指标体系的构成 7在之前的研究当中,人们对数据质量的评价体系的描述基本上是从准确性、时效性、相关性、客观性、可衔接性、完整性、可理解性、透明性、可操作性、可取的性、可解释性、效益型、安全性等方面展开的。4这样做固然有它的好处,首先这些指标基本上已经覆盖了的质量评价体系所要考虑的全部方面,其次这些指标简洁明了没有歧义,但是有时候指标分类过于细化,反而会分散人们的注意力,使得一些有用的东西不能很好的展现出来。为了解决这个问题,同时也为了取长补短,本研究同样选取以上 13 个指标,只不过将这 13 个指标作为二级指标,然后进一步归类得到了 5 个一级指标。这样不仅保证了指标对数据质量描述的全面性,也保证指标数量设置的合理性,和反映问题的集中性。得到的一二级指标划分表如下:表 1 一二级指标的划分表一级指标 二级指标准确性 客观性 可取得性 可解释性 透明性大数据来源质量可理解性 安全性大数据规模质量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论