版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据环境下的数据融合研究与实践RESEARCHANDPRACTICEOFDATAFUSIONINBIGDATAENVIRONMENT大数据环境下的数据融合研究与实践摘要:本文介绍了大数据环境下的数据融合的研究与实践过程,在大数据的基础上分析了数据融合的过程。由于目前获取多源数据的技术还存在一些缺陷与不足,使得从中获取到的数据信息中往往会存在一些不完整、不精确、不方便问题。本文运用数据融合的相关关键技术和融合原理,解决了当前处理多源异构数据之间获取技术的不足,使得获取到的数据具有完整性。关键词:大数据;数据融合;异构数据ResearchandPracticeofDataFusioninBigDataEnvironmentAbstract:Thispaperintroducestheresearchandpracticeprocessofdatafusioninbigdataenvironment,andanalyzestheprocessofdatafusiononthebasisofbigdata.Atpresent,therearestillsomedefectsanddeficienciesinthetechnologyofobtainingmulti-sourcedata,whichmakesthedatainformationobtainedfromitoftenhavesomeincomplete,impreciseandinconvenientproblems.Inthispaper,thekeytechnologiesandfusionprinciplesofdatafusionareusedtosolvetheshortcomingsofthecurrentacquisitiontechnologyindealingwithmulti-sourceheterogeneousdata,sothattheacquireddatahasintegrity.Keywords:Bigdata;Datafusion;Heterogeneousdata1绪论1.1研究背景众所周知,世间存在的一切事物均可以产生数据,这样就会使得数据具有永不枯竭、无限循环的主要特点。但随着当前大数据技术的迅速发展,大规模数据的交叉、融合及关联等一些复杂性操作出现后[1],使得数据之间原本的关系以及数据本身的特征发生了巨大的变化。在过去,数据在某种程度大都是同构的[2],虽然这种数据读取特点使得数据在实际应用过程中更加易于人工管理,但是只有单一或同构的数据,这种情况下还不能称为大数据,并不出现在大数据当中,而且单一的数据同时也达不到人们所追求的数据价值目标。此外,大数据还具有可变性、普适性、真实性等一些特点。在事物发展过程中,事物之间总会表现出会一些共性,同理,在大数据环境下的数据之间也会出现类似的特点,因此需要我们在自己认知范围内进行一系列的共识联想与操作,深刻地挖掘数据之间存在的隐形关系。在大数据环境下,目前进行数据融合最重要的原因就是各领域数据的割裂性与多样性,即现存在的数据无法全面的勾勒和反馈数据之间存在的关联与价值。由于数据的来源各有不同,导致了大规模数据它的形式也是各有不同,逐渐形成了数据的多样化。但是由于信息获取技术还存在一定的局限性,使得获取到的信息中往往存在一些不精确、不一致、不完整、不完全可靠的数据特点。在大数据的环境下,数据融合从其本质上来看是对来自多种异构数据以及数据源的融合处理[3],从而可以捕捉、有用的、协同的、综合互补、减少冗余的数据信息的目的。随着信息技术的发展,出现了很多需要基于多种复杂问题进行的数据融合,如何对多种异构数据源的信息进行有效合理地处理操作,成为了当前人们对于数据融合技术方面的重点研究对象。综上所述,基于当前大数据环境下的数据之间存在的一种关系,本文将对多种异构数据类型的数据进行一系列的数据融合基础研究与操作融合基础演示,如何高效率、高价值、合理、科学和安全的处理多种异构数据源,使之呈现出数据价值最大化和信息高效化的特点是本文的重点。1.2国内外研究现状1970年初,美国国防部设计出了声呐新号理解系统[4],它可以自动地获取得到敌方潜艇的位置。这个声纳新号理解系统主要负责将其收集到的具体信息,对其进行数据分析处理、使之融合后得到更高、更大的价值信息。1980年,美国将数据融合研究领域的重心放在了的对战争战术和战争战略的监视系统上[4]。20世纪80年代后期,第一代数据融合的系统开始形成[4],基于它的应用范围也开始慢慢地变得广泛,从战术谋划系统到海洋监控系统的应用上,人们都可以看得到数据融合技术广泛应用的身影。在这以后,数据融合系统凭借着它自身的优势及其在生活中或者工作中广泛的应用实践场景,该系统的迅速的发展引起了世界其他国家该领域专业研究者的广泛关注。然后,对此进一步研究了数据融合的相关技术和相关原理,以及基于第一代数据融合的系统的发展,于是诞生了第二代数据融合的系统。第二代数据融合的系统是在第一代数据融合系统的基础上增加了对混合处理器与传感器的研究对象,因而在第二代融合系统中是先把来自无线传感网收集到的数据信息先进行处理操作,相应的管理者通过对处理后的数据做出决策和反应。在第二代数据融合的系统之后,基于数据融合的网络技术得到了广大专业领域研究者的青睐,同时也开辟了其蓬勃发展的数据信息融合新时代。数据融合最早应用于军事领域,它是一种多层次、多方面的数据处理过程,用于处理多源数据,对信息进行自动检测、联合、相关、估计和合成[5]。主要是为了实现较为准确的位置推断和身份估计,进而对战场状况、威胁程度和重要水平作出及时完整的评价。后来在传感器、地理空间、情报分析等多个领域得到了电化教育研究应用与发展[6],尤其是互联网时代,多源数据融合逐渐成为大数据领域的重要研究方向。通过多源数据融合,可以实现多源信息的交叉印证,可以达到数据信息的相互补偿,并可以有效地减少数据量,以获取确定数据和深层次的语义知识。人工智能教育时代,教育大数据的生态逐渐形成,海量的教育数据呈现多源异构特性,而多源数据融合方法为解决新时代教育大数据的共享互通提供了一种新的解决思路,为构建一个重用、共享的教育数据模型提供了可行的实践视角。与发达国家相比,中国对数据融合技术的研究虽然起与发达国家相比,中国对数据融合技术的研究虽然起步较晚,但是发展迅速。中国的数据融合技术的研究开始于20世纪80年代,到了90年代,国内研究者都开始深入了解数据融合处理的研究[7]。但当时我国的学者对数据融合的了解是十分有限,并没有取得令人瞩目的研究成果,需要进一步研究探索。随后几十年的发展研究,我国在数据融合处理方面也取得很多成果。目前,我们国家正在大步向前地迈入数字经济发展时代,该时代以大数据为代表的新一代网络信息通信技术得到了蓬勃发展,从而加速了现代产业与传统行业的融合速度。由此可以看得到,我国大数据产业的蓬勃发展,技术创新方面和产业能力实践方面不断增强,使得大数据与云计算、物联网、人工智能等计算机技术的融合更为熟练与便捷,成功的引起了业界专业人士的关注,更为有利地推进了大数据的发展。伴随着大数据的发展,数据融合的格局也发生了很大的变化,不仅体现在各大企业之间投资者们的融资规模大小和企业数量多少,还是从各大应用实践中看,大数据环境下的数据融合正在从我们之前比较传统的行业,逐渐地扩大转变并发展到了新型的很多行业,比如与我们生活密切联系的医疗、教育和交通等,同时也体现出来这些应用技术正在从“虚”向“实”不断推进,然后更好的服务与人类,其数据融合发展趋势是有目共睹的。1.3主要研究内容本论文是以大数据环境下的数据融合为引,对数据融合展开全方位的研究,挖掘数据融合的深刻内涵,将对数据融合的结构与层次、原理、实现技术、还有应用研究等方面展开详细的论述。第一章本文主要介绍了论文的研究背景与意义,以及数据融合国内外研究现状。第二章则是基于数据融合开展叙述,分别对数据融合存在的问题以及它的结构与层次、实现融合的技术分析等方面展开详细的介绍。第三章是对该数据融合的实践演示,来表现出数据融合的具体过程与方式。第四章对本次研究工作做出了整体性总结,此次毕业设计中的收获及其一些不足。2数据库融合理论2.1基本概念数据融合一词始于20世纪70年代,在90年代以来得到较快发展。美国国防部实验室专家组在其1991年出版的数据融合字典中,对数据融合的定义如下[8]:从物联网的感知层到应用层,各种数据信息的类型格式和数量级都在成倍增加,而在应用实践过程中需要分析的数据量也在成级数增加,涉及到了各种异构网络或者多个不同系统之间数据的融合问题,如何从大量的数据库或者系统中及时挖掘出隐藏数据信息关系和有效便捷数据的问题,给数据处理操作带来了巨大的挑战困难,因此如何方便、合理、快捷并有效地整合大量数据信息是当前物联网遇到的难题。2.2面临的问题基于非结构化和结构化数据的形式多样性等特点[9],使得当今大数据融合的研究方向领域中存在着大量的复杂问题,仍然需要我们去解决,具体表现如下:(1)多方割裂的异构数据源我们需要进行数据融合操作所用到的数据可能会来自各个不同领域的数据库、信息库或者是其他Web网页的开放源信息,从融合数据的各个数据源角度来看是它多源异构的,因为这些数据都是存放在不同数据库或者系统中。多方割裂的异构数据源给大数据融合分析处理操作带来了非常大的挑战与困难,要求把这些多方割裂的异构数据源整合到一个统一的数据库或者系统中。
(2)跨平台、跨系统以及跨语言的数据关联在当前发展中,我们接触到的数据结构有处理结构化数据、半结构化数据和非结构化数据等。基于这些数据结构,要进行数据融合与数据关联无疑增加了很大的难度与挑战,比如我们要进行对一个网页上的图片或者是本地的视频、音频等数据与文本文档数据的进行关联操作,随着网络以及科技的发展,这种数据关联操作极为常见,如何解决并应用到实践中是我们应该思考与探究的问题,在操作过程中可能还会发现操作数据的多语言性,中英文切换甚至有更多的语言出现。(3)跨领域和跨行业的知识数据传播大数据环境的数据呈现出多样性与复杂性等特点,虽然在发展中的各个领域以及各个行业之间的大数据是略有不同的,但是从处理操作过程中它所使用到的原理和处理方法来看是类似的,可以相互的进行借鉴参考。所以,进行大数据的融合需要提取跨领域、跨行业的知识体系以及操作方法等。(4)实体与关系属性之间的动态演化性在大数据环境下的发展下,可发现数据并不是一成不变的,随着发展的进行数据也呈现出了一种动态的特点,从而导致了实体和关系属性之间也是随着时间不断动态演化的,所以就增加了实体和关系属性之间的识别难度降低了它们之间的数据准确度,很容易造成实体属性之间的数据不一致等特点。基于以上问题,我们要合理的进行数据融合操作,从而保证数据之间的一致性。
(5)数据之间存在的知识隐含性在大数据发展的过程中,可以发现其数据之间存在一定的关联性。数据之间的关联性可分为隐式关系和显示关系,在其发展过程中以及实际应用中可以发现数据的隐式关系比显式关系更为重要,数据之间存在的隐形关系更值得我们去探索发现,这对进行数据融合有着重要的意义以及帮助。但是数据之间的隐式关系的获取有着一定的难度。综上所述,我们需要克服以上的困难,更好地实现大数据环境下的数据融合。2.3数据融合的结构和层次2.3.1数据融合的结构模型由于数据之间处理方式的不同,所以从结构上划分为集中式数据融合、分布式数据融合和混合式融合[10]。集中式数据融合的特点集中式的数据融合它更注重的是全局化效果,在数据进行传输过程中,集中式数据融合主要是将所有多源异构数据的数据源传输发送给融合中心,然后再由融合中心进行统一的数据融合处理操作。可以发现,集中式数据融合的优点是数据在传输过程中,各数据相关信息的损失可以达到较小,但是在不同融合的节点中,人们对于同一检测对象的数据信息采集方面却存在着大量相同的数据信息,从而造成了数据之间的冗余复杂关系,这些冗余复杂数据在传输过程中可能会消耗大量的能量,从而使得数据融合的速度变慢。分布式数据融合的特点分布式的数据融合是传感器将收集到的信息先单独进行处理,然后再将处理后的数据传递给融合中心,并通过融合中心进行第二次融合处理。它与集中式数据融合相比,分布式数据融合所要求的数据融合带宽更低[11],它有着较高的可靠性并且可以快速计算。所以如果是应用于能量有限而且需要节省能源的网络中,分布式数据融合比集中式数据融合更能满足其要求。(3)混合式数据融合所谓的混合式数据融合就是在融合过程中把集中式数据融合和分布式数据融合巧妙的结合起来,这样就集中了两者的优点,但是实现起来具有一定的开销能力和代价。2.3.2数据融合的层次模型前文简要介绍了数据融合的结构模型,接下来对数据融合的层次进行划分,了解具体每一层的功能与其对应的模块内容,可以帮助我们更好的理解数据融合的实现过程。由于数据信息之间存在不同的抽象的层次逻辑关系,而且每个层次上代表着对数据不同的融合处理方式,于是我们可以把它划分为最低层的数据融合—数据级融合、中间层的数据融合—特征级融合以及最高层次的数据融合—决策级融合[12]。(1)数据级数据融合的特点数据级数据融合是融合层次体系中最低层的融合[12],因此它也被称作是像素级融合。数据级数据融合的特点是基于原始的数据流,此时得到的数据是没有经过任何处理方式操作的,然后再进行的数据的综合与分析处理。数据级融合方式主要特点就是它能够保留很多数据的细节性问题,能够提供一些其他融合的层次所达不到的数据功能特点,要求进行融合的数据之间必须得精确到对某一个像素的匹配精度[13],继而能够进行任何抽象层次之间的融合。这样处理过后的数据会更加精确、更加可靠以及更具有丰富多样性的特点,这样的数据融合处理操作更有利于进一步对数据进行分析与处理。但是同时也因为它可以提供很详细的数据信息,导致了它所传输的数据工作量非常大,与此同时,对应的处理数据的时间就会变得很长,计算机的处理开销也变得很大,同时也导了致该层次模型的性价比降低。(2)特征级数据融合的特点它是对应的中间层的数据融合,与数据级融合对比得它的数据不是原始数据,是经过了一系列的处理操作和特征方式提取得到的。一般的,特征级数据融合就是会提取的其中有关的特征值,然后通过得到的特征值对多源异构数据进行分类和整处理操作合。特征级数据融合它能够实现对原始数据的压缩操作,减少了数据处理过程中的大量的被干扰的数据,可以促进对实时操作系统的实时处理,同时也具备了较高的数据精确度[14]。另外提取到的特征值我们需要对它进行一些处理,使得得到的特征值可以被分到有实际意义的一组。(3)决策级数据融合的特点决策级数据融合是数据融合过程中最高层次结构的融合,决策级的数据融合的结果能够为最后的决策操作提供重要依据[15]。决策级的数据融合的过程是先对多源异构数据进行特征值的提取,然后再对特征值分别进行模式识别操作,再将模式识别后的数据按照其数据的属性进行关联操作,最后再将数据进行合成处理,并最终得到数据按照整体性与一致性去描述。由于决策级数据融合它有较高的容错性,在进行数据融合时,它有着有较高的开放性。但是由于决策级数据融合首先它是对数据进行了一场预先处理操作,所以它的开销代价较高。2.4实现技术为了实现大数据环境下的融合,各专业技术领域均出现了一些数据融合的方法。于是人们可以认为在数据融合的过程中,可普遍地采用3V(Volume:海量、Velocity:高速、Variety:类型多样)特征下的融合方式。基于3V特征下的融合由于数据信息获取技术还存在一定的不足与缺陷,使得获取的数据信息中往往存在不精确、不一致、不完整、不完全可靠的数据。如何对不确定的各类数据信息进行有效地融合,是我们当前进行数据融合的难点之一。可见,我们在这样的情况下,多方数据类型格式的数据割裂性可能会导致使用者认识比较片面,在一些公共安全方面可能会做出一些错误的决策,因而失去了数据价值最大化的特性。要想使大规模数据在各行各业中挖掘到其最大的价值,那就得合理开发并熟练安全的使用数据融合技术,让其数据价值在多类型、复杂、大规模的系统操作中得以升华。数据融合目前所需要的关键支撑技术主要有模式(本体)对齐技术、实体链接技关系推演技术[1]。每个关键支撑技术对应的功能与作用均不同,如下:模式/本体对齐技术一般对应的是多源本体的异构性和多源数据源的异构性,图1数据级融合过程Fig1Datalevelfusionprocess图2特征级融合过程Fig2Featurelevelfusionprocess图3决策级融合过程Fig3Decisionlevelintegrationprocess是数据融合的前提条件;实体链接技术是大数据环境下进行数据融合的基础技术;关系推演技术则用于发现数据之间存在的隐含知识关系。综上所述,接下来本文将继续展开对数据融合关键技术的详细介绍。2.4.1模式/本体对齐技术模式/本体对齐技术主要是用于解决两个模式元素之间的一致性问题,主要是利用本体的属性名称、类型以及相关数值之间的相似性以及属性之间的邻接关系[16]。模式/本体对齐技术是大数据融合的前提,它可以提高数据融合效率,解决模式对齐过程中的数据的不一致性。但是它的缺点是由于本体依赖于实体之间关系,当实体之间的关系发生变化时,本体和模式也会发生相应的变化,并且一般情况下本体比较大而且开销比较大。在融合过程中,本体必须不断地修改变化以保持本体的一致性,在动态的变化过程中,要想实现这种方式显然是具有一定挑战性的。2.4.2实体链接技术实体链接技术是数据融合的基础技术,它就是将文本中的实体链接到数据库中实体对象的过程,对数据库进行扩充容量起着至关重要的作用[17]。采用实体链接技术主要进行是识别相似实体以及消除实体之间的歧义,根据实体之间关系的特征,提出一种实现融合多特征的集成实体链接方法。2009年美国国家标准与技术研究院在文本分析会议的数据库扩充任务中提出了实体链接这一子技术方法[18],介绍了实体链接技术就是指对于从文本中抽取得到的实体对象,将其进行链接到数据库中对应的正确实体对象的操作技术。上述可知,实体链接可以用于解决实体之间的存在的歧义现象。实体之间存在的歧义现象我们可以概括为两类:多样性和歧义性。实体的多样性是指某个实体对象在万千现实世界中可能对应着多个不一样的实体。比如,我们会赋予一个人很多称号,将其与其他的东西事物进行联系,使得一个实体具有了多样性,从而丰富了数据库知识。而实体的歧义性则是指同一个实体指称项,在不同的使用次序中有可能会对应数据库中不一样的实体对象,从而造成了多种实体意义上面的实体。实体链接技术对于数据的传输、发现以及利用具有重要的意义。2.4.3关系推演技术关系推演技术我们希望自动地找到关联数据中的路径模式和自然语言中的关系词汇之间的对应关系[19]。这种对应关系对于理解复杂数据非常重要,这就涉及到关系推演问题。关系推演包括3种情况:已知一个实体和一条关系,推断另一实体,或者已知2个实体预测它们之间的关系;实体间间接关系的推理;关系的演化度量。对于前2种情况,大多数采用嵌入表示和图特征模型进行关系的推理与预测[19]。3数据融合的实现本融合实践过程是基于当前大学生的在校活动行为表现之上进行的,由于我们学生的一些信息会记录在不同的软件或者平台上面,当我们要实现快速便捷的完整信息查询时,这种查询方式会严重的影响我们的查找效率,而且对于我们获取到一个学生的完整信息也有一定的影响,不仅具有一定的耗时和费力的不足,而且还不能很好的呈现出学生在校完整的行为表现。因此,基于上述问题,我们将利用数据融合的方式来将在校大学生的行为表现完整的表现出来,将对学生的行为进行汇总输出,达到查询后的结果是完整的、全面的。图4融合流程图Fig4Fusionflowchart3.1数据源分析从上述的融合实践过程的需求分析可知,我们需要对当前的学生信息进行完整的汇总输出。我们准备融合的数据类型格式有excel、txt、csv、json,其四种类型格式文件中都包含学生的一些基本信息。由于目前存在的主要问题是学生信息的零散性和割裂性,不能一目了然的呈现出完整信息,最后我们要做的是把不同格式的学生数据记录进行汇总输出,从而突出数据融合的优点,对学生信息表中的相关信息有一个更好更方便的了解。本文从学生的基本信息记录、图书借阅记录、购物信息记录、课程记录以及食堂就餐记录等方面来进行统计输出,分别对excel、txt、csv、json四种格式的数据进行分析,将学生的所有信息进行汇总输出,使得相关查找工作变得更加简便,有一个更完整的学生的信息记录。本文分析的四种数据格式如下:(1)excel:它里面存储的是该学生的基本信息。(2)txt:它里面存放的是该学生的购物信息记录。(3)csv:它里面存放的该学生的图书借阅记录。(4)json:它里面存放的是该学生的课程记录。图5学生基本信息Fig5Basicstudentinformation图6学生购物信息记录Fig6Studentshoppinginformationrecord3.2数据获取3.2.1思路分析由于该程序是基于python语言进行的,我们在进行数据分析处理的时候,可以很图7图书借阅记录Fig7Booklendingrecords图8学生选课记录Fig8StudentCourseSelectionRecord好地利用其python中一些工具实现更为便捷的操作方式。这其中应用到的pandas插件,它是在numpy数组的基础上用于构建的一种工具使用方法,它的出现是专门来用于解决数据之间分析。它里面给用户提供了大量的包,还有一些大量且标准的数据结构模型,还给高效地操作大型数据库提供了所需要的工具,它可以提供给我们很多快速且便捷地处理数据的函数和方法,使得我们在进行数据分析的情况下变得更加快速、简单和便捷。从我们之前建立的多种类型数据表的数据库中进行数据的处理,比如我们要进行读取excel、txt、csv、json等数据格式文件,pandas库同样支持且可以满足对这些数据的类型格式操作,pandas操作更加简洁且方便。3.2.2代码实现数据获取代码过程如下:(1)用pandas进行读取excel文件,获取相关的学生信息;#基础信息dataBase=pd.read_excel(dataBaseWhere+"data01_student_base.xlsx")ccidList=sorted(dataBase["ccid"].tolist())dataBase.head(2)#物品基本信息goodsMessage=pd.read_excel(dataBaseWhere+"goodsMessage.xlsx")goodsIdList=sorted(goodsMessage["goods_id"].tolist())(2)我们需要获取学生的一些基本信息,比如学生的购物记录,图书借阅情况和学生课程记录情况等,以学生的购物记录为例子,当一个学生在进行购物时,可以假定提取到学生购物的一些信息记录,比如购物数量、购物时间以及购买的物品编号和物品价钱等,代码实现如下:numRandomTemp=random.randint(2,8)#一个学生购物的次数buyNumRandomTemp=random.randint(1,5)#一个学生购物一次买的总量dateYmdRandom_temp=random.randint(0,30)#学生哪天买dateSecondsRandom_temp=random.randint(30,(secondsTotal-26))#具体哪个时刻(3)将我们获取到的数据进行存储存放,将文件存放为json格式bookFile_name="bookMessage_Final.json"withopen(dataBaseWhere+bookFile_name,"w")asfile_obj:file_obj.write(json.dumps(list_dataAll))json.dumps(list_dataAll)3.3数据融合3.3.1思路分析因为是excel、txt、csv、json等这样的一些不同的数据格式里面存储的一些数据,所以我决定采用模式/本体对齐技术来融合这些数据。这种技术主要解决的是多源异构的数据,主要是利用实体的基本属性名称、类型以及相关数值之间的相似性以及属性之间的邻接关系等进行融合,可以适当的提高融合的速率,解决之前获取到的数据遇到的不完整的问题。综上所述,多方数据生成之后,就需要对获取到的数据进行融合的操作处理。原则上是按实体学生个人的id进行其相关信息数据的融合,比如会根据学生的学号进行查询,可以在相对应的表中查询到一个学生一个月借了几本书,在食堂的开销及次数是多少,在网上或者超市里购物总金额、购买物品的名称以及去超市的次数等数据信息进行融合处理,更好的呈现出一个学生完整的数据汇总表,方便快捷的进行查询修改等操作。3.3.2代码实现数据融合的代码实现如下:(1)加载数据,读取不同格式的数据:#读取Excel格式dataTemp=pd.read_excel(fileWhere+file_name)#读取csv格式dataTemp=pd.read_csv(fileWhere+file_name)#读取txt格式的数据dataTemp=pd.read_txt(fileWhere+file_name,sep=sep_str)#读取json格式的数据defjsonRead(fileWhere,file_name):withopen(fileWhere+file_name,"r")asfile_obj:sonObject=file_obj.read()(2)进行数据融合的操作dfBuyAll=dfBuy.merge(dfGoodsMessage,left_on="goodsName",right_on="goods_id",how="left")dfBuyAll["Money"]=dfBuyAll["goodsAmount"]*dfBuyAll["goods_price"]dfClassMessageAll=dfClassMessage.merge(dfClass,left_on="class_name",right_on="class_name",how="left")dfClassMessageAll["point_score"]=dfClassMessageAll["class_score"]*dfClassMessageAll["class_hour"]/100融合之后的学生信息表如下图所示:图9融合后的数据表Fig9Datatablesafterfusion从融合之后的数据,我们可以清晰的了解到某一个学生的所有信息,解决了上述获取到的信息中往往存在一些不精确、不一致、不完整、不完全可靠的问题。4结论本毕业论文是关于大数据环境下的数据融合的研究与实践,主要通过了解一些理论知识达到在大数据下的数据融合是怎么实现的目的。纵观数据融合技术与系统的发展,我们可以知道的是,数据融合在我们人类的文明发展史中,起着不可估量的作用,越来越将人类与当代发展计算机技术紧密连接起来,不断在造福人类,也得到了越来越多的人的喜欢与青睐。在其理论的基础上,我用一个小程序来演示各种异构数据之间的融合过程,该程序是基于python的开发语言进行的,采用的方法是在不同的数据结构存储格式中,进行对数据的读取并进行有关的融合操作,比如本文采用的是对Excel、txt、csv、json等四种数据类型的数据进行融合的基本操作。在当前环境的大数据环境的发展下,获取到的数据的信息在使用实践过程中,它们之间总会存在着一些不精确、不一致、不完整、不完全可靠的缺陷。对其多源异构数据进行了研究与实践,最后存储输出的数据表中,呈现出对学生相关信息的完整的数据描述。这样不仅优化了相关表之间的关系,还使学生很便捷快速的了解到自己的相关信息。比如我们可以通过对学生id的进行融合数据,将学生基本信息表、图书借阅信息表、学生课程表等不同格式的数据更好的汇总在一起,实现了我们前面的提到的高效率、高价值、合理、科学和安全的处理多种异构数据的要求。在此次完成毕业设计的过程中,收获颇多。刚开始拿到题目,不知道从何处下手,在本科学习阶段从未接触过数据融合,对我自己来说,独立完成这个毕业设计题目是有着极大的困难的。但是并没有气馁,虽然自己在完成的过程中,遇到了很多自己难以独立解决的问题,但是有通过陈老师和同学们的帮助,得以顺利完成此次毕业设计。在这之前,由于没有接触过这类型的题目,不断在网上查找论文参考文献,慢慢的琢磨出了一些思路与设计过程,花了一两个月的时间去自学了相关课程,为此次毕业设计奠定相关基础。通过这次毕业设计,我深刻地意识到了自己的缺陷与不足,专业方面掌握的不是很好,不能很灵活的应用到一些实践中,希望日后可以继续加强此方面的学习和锻炼。同时,这次毕业设计也培养了我独立思考能力与实践动手能力,希望以后可以继续努力。参考文献孟小峰,杜治娟.大数据融合研究:问题与挑战[J].计算机研究与发展,2016,53(02):231-246.管河山,王谦.大数据背景下投资学课程教学改革研究[J].大学教育,2020(05):90-92.杨梦洁.基于模糊多属性决策的数据融合的研究[D].齐鲁工业大学,2019.姜建华,洪年松,张广云.黄漫国,樊尚春,郑德智,邢维巍.多传感器数据融合技术研究进展[J].传感器与微系统,2010,29(03):5-8+12.NicolasBaghdadi,RémiCresson,PierreTodoroff,etal.MultitemporalObservationsofSugarcanebyTerraSAR-XImages.2010,10(10):8899-8919.付丹,潘正军.面向电力大数据的多源异构数据融合技术初探[J].技术与市场,2020,27(04):69-70.马晓亭.图书馆多源大数据融合研究:问题与挑战[J].新世纪图书馆,2017,(01):28-31.李颖丽.数据融合技术及其应用[C].中国仪器仪表学会过程检测控制仪表分会、中国仪器仪表学会可靠性工程分会.中国仪器仪表学会2007学术年会智能检测控制技术及仪表装置发展研讨会论文集.中国仪器仪表学会过程检测控制仪表分会、中国仪器仪表学会可靠性工程分会:中国仪器仪表学会,2007:106-111.丁玥,王涓,卢卫,荣垂田,杜小勇.面向多源关系数据的融合[J].中国科学:信息科学,2020,50(05):649-661.刘亮辉,靳宗信,王一帆,李林静.基于多传感器数据融合技术智能消防报警系统的研究[J].物联网技术,2020,10(02):70-71+74.GangLiu.ResearchQueryTranslationBasedonOntologyTechnologyandSchemaMatching[C].IACSIT.Proceedingsof2011InternationalConferenceonComputerScienceandInformationTechnology(ICCSIT2011).IACSIT:成都亚昂教育咨询有限公司,2011:422-426.InformationTechnology-DataMining;ResearchersfromUniversityofScienceandTechnologyHouariBoumediene(USTHB)ReportDetailsofNewStudiesandFindingsintheAreaofDataMining(Datamining-basedapproachforontologymatchingproblem)[J].InformationTechnologyNewsweekly,2020.关矗.浅析多源数据融合方法的发展趋势及研究意义[J].山东工业技术,2019(01):234.张翼然,陶迎春,蔡彩,吴爱华.基于位置和属性特征信息的多源数据融合[J].北京测绘,2018,32(09):1020-1023.操玉杰,李纲,毛进,王晓.大数据环境下面向决策全流程的应急信息融合研究[J].图书情报知识,2018(05):95-104.彭柳.高校档案馆非结构化大数据融合机制研究[J].兰台内外,2019(05):61-62.陈玉博,何世柱,刘康,赵军,吕学强.融合多种特征的实体链接技术研究[J].中文信息学报,2016,30(04):176-183.舒佳根,惠浩添,钱龙华,朱巧明.一个中文实体链接语料库的建设[J].北京大学学报(自然科学版),2015,51(02):321-327.姜建华,洪年松,张广云.一种多源异构数据融合方法及其应用研究[J].电子设计工程,2016,24(12):33-36.王潮,贾翔宇,林强.基于可信度的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电力SF6气体化验员气体检测考试题目及答案
- Calcium-glucoheptonate-生命科学试剂-MCE
- 修鞋工安全行为评优考核试卷含答案
- 腈纶聚合操作工安全意识水平考核试卷含答案
- 2026年街道校园周边环境治理知识题
- 砖瓦原料工安全培训效果评优考核试卷含答案
- 金属挤压工安全生产意识竞赛考核试卷含答案
- 洗衣机装配工安全技能测试考核试卷含答案
- 金属材热处理工班组考核强化考核试卷含答案
- 测量与控制系统(单元)装调工变革管理测试考核试卷含答案
- JJF 2198-2025 网络时间服务器校准规范
- 电子元器件销售培训
- 听评课记录30篇
- 统编版八年级道德与法治下册《第一单元坚持宪法至上》单元测试卷有答案
- 房车改装合同模板
- 全国职业院校技能大赛赛项规程(高职)(高职)化工生产技术
- 档案室密集架采购投标方案(技术方案)
- 第2章 工业机器人的总体设计
- 2024重庆万州区法院书记员招聘笔试参考题库含答案解析
- 鸡毛信的故事-红色故事课件
- 国家开放大学《合同法》章节测试参考答案
评论
0/150
提交评论