智慧城市管理系统中的传感器数据采集与清洗方法研究_第1页
智慧城市管理系统中的传感器数据采集与清洗方法研究_第2页
智慧城市管理系统中的传感器数据采集与清洗方法研究_第3页
智慧城市管理系统中的传感器数据采集与清洗方法研究_第4页
智慧城市管理系统中的传感器数据采集与清洗方法研究_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、-范文最新推荐- 智慧城市管理系统中的传感器数据采集与清洗方法研究 摘要随着物联网技术的不断发展和成熟,物联网技术被逐渐应用到了城市管理当中,逐渐诞生了智慧型城市的概念。在智慧型城市系统中,传感器网络的规模得到了空前的扩展,网络所要检测的范围扩展至整个城市,检测的属性内容相当丰富。在系统运行的过程中,传感器网络时刻都在提交着大量的传感器数据。这些原始数据当中不可避免的存在着各种误差甚至是错误。如果将这些数据直接提交给数据库作为系统高层应用运行的依据必将造成很多错误的决策。因此必须对传感器提交的数据进行清洗,从中得到能够准确反映城市状态的准确的数据集合,从根本上保证系统的有效性。本充分分析了智慧

2、型城市应用中对于传感器所提交数据的要求,对此应用背景下被监测属性的变化特点,也就是传感器数据的变化特点进行详细分析和总结。结合应用背景下的数据特征设计了满足系统实时性要求的基于回归方程和时间窗口的数据清洗算法。该算法在清洗过程中充分利用了智慧型城市应用中传感器数据采样频率高,数据密度大连续变化的特征。除此之外还对智慧城市中传感器数据清洗的类型层次进行了细致的分析设计了两级层次化的传感器数据清洗过程。在课题研究过程中通过理论分析和编写实际的清洗程序在实际的应用场景中对研究成果进行真实环境的下的验证这两种方式对研究成果进行了评估。结果证明本文设计的清洗方式在智慧型城市中能够达到很好地数据清洗效果。

3、8408关键词数据清洗 数据拟合 线性回归 时间窗口 前向预测毕业设计说明书(论文)外文摘要TitleCollecting and Cleaning of Sensor Data in The Context of Intelligent Cities 2.5 数据清洗的基本原理及框架模型142.5.1 基本原理142.5.2 数据清洗框架模型152.6本文提出的智慧型城市中创新的数据清洗方法163. 系统设计和算法203.1系统架构203.2算法223.2.1 面向实时数据流的清洗算法243.2.2 面向数据仓库的清洗过程294. 实验验证314.1 实验环境及方法314.2实验结果分析32

4、4.2.1 虚拟数据下的测试结果324.2.2 真实环境下实时数据测试结果345. 总结及后续工作366. 参考文献377. 致谢398. 附录391 绪论随着传感技术和信息处理技术的不断发展,各行各业利用传感器网络建立了很多计算机信息系统,这些系统通过广泛部署的各类传感器对现实环境进行监测从而积累大量的数据。近些年来随着传感器网络的越来越完善,世界各地都在大力发展物联网技术,其中最为突出的就是基于物联网技术的智慧型城市管理系统。1IBM等IT龙头企业在这方面做出了很多研究和实践。物联网技术使得城市管理更加高效便利,大大节约了人力资源和管理成本。智慧型城市管理平台是物联网技术高度发展的产物,是

5、各种物物联网技术的结合。它综合了传感网技术、地理信息技术、3G技术、现代网络及无线通信技术等,搭建感知城管统一框架,把传感器终端和各个应用子系统连接起来,实现城管应用的大集成和“管控营一体化”,使感知城管底层各个孤立的传感网络形成有机的整体,从而达到城市管理“高效、节能、安全、环保”的社会服务理念。通过各类集成化的微型传感器协作地实时感知和采集各种城市管理对象的信息,智能化指挥中心对采集上传的数据信息进行处理、分析、存储,以及高效的数据分享,最终实现城市管理的“感、传、知、控、调、评、服务”的一体化。 1.1 课题来源以及

6、介绍近些年来随着网络和嵌入式技术的发展,全球掀起了一股研究和应用物联网技术的热潮。从智能家居到智慧型城市到处都有物联网的身影。我国近几年也加大了物联网技术研究的投资力度,希望通过政府的支持来提高研究者的热情。本课题源自由无锡政府投资的无锡市新区智慧型城市管理的一期试点工程。该工程旨在运用当前物联网技术方面比较成熟的RFID识别、GPS定位技术、视频监控、各种环境感知传感器等完成对于城市基本状况和城市管理相关工作的监控和自动监测报警和控制等工作。从而实现城市监测管理的智能化,减少人员工作量,提高工作效率。在智慧型城市系统中存在RFID阅读器,GPS定位仪、土壤监测仪等大量的各式各样的传感器,这些

7、传感器日夜不提的监测着城市得运转状况为城市管理系统提供海量的数据。在传感器的应用过程中不可避免的要涉及到数据质量的问题。传感器监测的原始数据带有噪声不能直接作为城市管理系统的原始数据,使用不准确的数据可能得出不正确的结论。因此必须对这些海量的数据进行清洗确保其准确性。本课题对智慧型城市应用背景下的数据清洗问题做了初步系统的研究。主要通过逻辑上的数据清洗过程来提高数据的质量。本文针对智慧城市应用的背景,对传感器数据的清洗在前人研究的基础之上提出了一些适合于应用背景特色方法。在数据清洗中滑动窗口技术是使用比较多的一种技术5。然而他有着自身不可避免的窗口后端产生的数据滞后于监测时间的缺陷。曾经有通过

8、伪事件的方法来解决不连续数据流窗口移动时间不确定存在较大延时的问题6。但是滑动窗口固有的延时并没有能够得到很好地解决。传统的滑动窗口方式只会在窗口的尾部输出数据。从数据进入窗口到得到处理结果有较大的时间延迟,而且这种延迟和数据流中数据之间的时间间隙有关系。滑动窗口的移动是由新数据的到达来触发的,窗口另一端输出数据的延时和窗口的宽度n以及数据之间的时间间隔t的乘积n*t成正比。在智慧型城市的应用中在对数据进行清洗保证数据准确性的同时保证数据的实时性也很重要。本文创新使用了前向预测型滑动时间窗口的方法,在新数据进入窗口之前预先利用窗口中的数据通过数据拟合的方式对即将到达的数据进行预测。当数据到达时

9、直接比较得出结论,很大程度上保证了数据的实时性。传统的数据清洗模型都是利用统计分析的方法机械的对数据进行求平均值,求方差的方式进行数据清洗,忽略了决定一个数据之间的时间相关性和数值上的连续性。在智慧型城市应用背景下本文就数据冗余检查和异常值清洗创新的提出了基于时间轴数据拟合然后利用拟合结果判断和预测的方式。在传统的统计判断基础上考虑了时间因素和数据之间的关联性使得清洗更加具有针对性和准确性。在本文接下来的内容中将详细讨论智慧型城市应用背景下传感器数据的清洗。 从上个世纪40年代计算机诞生以来,经过半个世纪的发展计算机技术取得了飞速的进步。上世纪八十年代末90年代初半导体技术上取得的重大成果使得

10、计算机不断微型化,这位物联网概念的诞生奠定了物理基础,计算机技术的发展使得无所不在的计算成为了可能,促进了物联网技术的发展。1991年,一个年轻的美国科学家MarkWeiser在科学美国人杂志发表的文章中预言21世纪的计算将是泛在计算。从字面上看,“泛在”这个词就是到处都有、无所不在。时间到了1998年1月, 当时的美国副总统戈尔在加利福尼亚科学中心首次提出“DigitalEarth”(数字地球)的概念,很快风靡世界。十多年来,通过遥感技术和海量数据存贮以及地理信息系统的普遍推广,戈尔描绘的一个可以嵌入海量地理数据的、多分辨率的“ 数

11、字地球”已经实现。然而,“数字地球”并没有让人类摆脱当前这种资源极度浪费、环境急剧恶化的生存困境。原因在于数字地球的概念中,所推崇的用数字的方法将地球、地球上的活动及整个地球环境的时空变化装入电脑中,实现在网络上的流通,但是没有考虑这些应用对普通百姓生活生产不是不可或缺的,因此很难使之最大限度地为人类的生存、可持续发展和日常的工作、学习、生活、娱乐服务。所以,根据MarkWeiser的思路想下去,自然可以看到,一种技术尽管非常先进,但如果不能使之“傻瓜化”,即被人们日常的生活生产广泛使用,那么这种技术就很难成为商业应用的突破点,很难在

12、当今这个变化万端的世界中立足。在移动通信和互联网蓬勃发展的今天,无所不在的人人通信和人机通信已经具备广泛基础的今天,下一个重大的发展突破点可能是什么呢?1999年,在美国召开的移动计算和网络国际会议提出“传感器网络是下一个世纪人类面临的又一个发展机遇”。 2009年,“物联网”成为信息技术领域人们关注的焦点。互联网上关于“物联网”的报道及搜索超过了以往的任何时候,而在政策、行业发展、以及用户需求方面也进一步加大了“物联网”过去由虚拟的概念逐步进入一个“落地”的阶段。2011年

13、6月16日-6月19日第九届中国国际软件和信息服务交易会在大连举行。本届软件会讨论的最热门的话题之一就是物联网的发展与应用8。中国信息产业商会会长张琪在谈到物联网发展方向时表示,物联网绝对不是一个部门和任何一个标准化组织能够独揽包办的,物联网发展的切入点应先抓标准和核心技术管理。物联网技术带来了第三次世界范围内的信息产业浪潮,越来越成为全球关注的焦点,将给人们的生产和生活方式带来深刻的变革。物联网在带来诸多便利的同时,也给信息技术领域带来新的挑战。2 数据清洗介绍2.1数据清洗概述数据清洗是物联网中处理传感网络所提供的海量数据的一个重要方式10。这种方法主要应用于逻辑层面不需要对硬件进行改动就

14、能够很好地提高数据的准确性,很受研究者的欢迎。虽然数据清洗是物联网研究的一个不可或缺的方面,但是数据清洗并不是物联网所特有的。数据清洗并不是由于物联网的产生而产生的,相反数据清洗的诞生要比物联网早很多。数据清洗是现代计算机技术不断应用到企业管理中所产生的。上个世纪末,伴随着计算机技术的一次又一次的重大变革,计算机的数据计算和管理能力越来越强大。人们渐渐感觉到将各种数据进行数字化管理能够大大提高以往各种工作的效率是一切变得更加便捷。各行各业当中企业信息化的要求越来越迫切,信息化发展速度越来越快。信息化并不是简单的将原有的数据进行简单地数字化,为了获得高质量的信息化领域内做出了各种研究,其中一个很

15、重要的方面就是企业数据的管理。随着信息化的不断发展,各行各业已建立了很多基于数据仓库的计算机信息系统,积累了大量的数据。信息系统建立的最终目的是从积累的大量数据中获取对自己有帮助的信息而不是单纯的存储这些数据。当建立一个信息系统的时候,即使进行了良好的设计和规划,也不能保证在所有情况下,所存放数据的质量都能满足用户的要求。为了使数据能够有效地支持各组织的日常运作和帮助组织做出真确的决策,要求信息系统中的数据可靠无误,能够准确地反映现实世界的状况。数据是信息的基础。人们常常抱怨“数据丰富,信息贫乏”,究其原因,一是缺乏有效的数据分析技术,二是数据质量不高。因此,数据质量的

16、管理获得了越来越多的关注。数据质量主要指的是数据的一致性(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)。数据质量管理牵涉到的方面很多,本文主要数据清洗的角度加以探讨。 图1.数据质量问题的分类2.2数据清洗国内外研究现状2.2.1 国外研究现状2.2.2 国内研究现状目前,国内对数据清洗技术的研究还处于初级阶段。直接针对数据清洗,特别是针对中文数据清洗的研究成果并不多。大多是在数据仓库、决策支持、数据挖掘研究中,对其做一些比较简单的阐述。银行、保险和证券等对客户数据的准确性要求很高的行业,都在做各自的客户数据的清

17、洗工作,针对各自具体应用而开发软件,而很少有理论性的成果见诸于报道。2.3 数据清洗定义迄今为止,数据清洗还没有公认的定义,不同的应用领域对其有不同的解释。在数据仓库领域,数据清洗定义为清除错误和不一致数据的过程,并需要解决元组重复问题。当然,数据清洗并不是简单地用优质数据更新记录,它还涉及数据的分解与重组。数据挖掘(早期又称为数据库的知识发现)过程中,数据清洗是第一个步骤,即对数据进行预处理的过程。各种不同的KDD和DW系统都是针对特定的应用领域进行数据清洗的。文献3认为,信息的模式被用于发现“垃圾模式”,即没有意义的或错误的模式,这属于数据清洗的一种。数据质量管理是

18、一个学术界和商业界都感兴趣的领域。全面数据质量管理解决整个信息业务过程中的数据质量及集成问题。在该领域中,没有直接定义数据清洗过程。有些文章从数据质量的角度,将数据清洗过程定义为一个评价数据正确性并改善其质量的过程。2.4 数据清洗研究对象数据清洗的对象可以按照数据清洗对象的来源领域与产生原因进行分类。前者属于宏观层面的划分,后者属于微观层面的划分。(1)来源领域很多领域都涉及到数据清洗,如数字化文献服务、搜索引擎、金融领域、政府机构等,数据清洗的目的是为信息系统提供准确而有效的数据。 (2)产生原因在微观方面,数据清洗的对象分为模式层数据清洗与实例层数据清洗。数据清洗的任务是过滤或者修改那些

19、不符合要求的数据。不符合要求的数据主要是有不完整的数据、错误的数据和重复的数据3大类。不完整数据的特征是一些应该有的信息缺失,如机构名称、分公司的名称、区域信息缺失等.错误数据产生的原因是业务系统不够健全,在接收输入后没有进行判断而直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后有一个回车、日期格式不正确、日期越界等。错误值包括输入错误和错误数据,输入错误是由原始数据录入人员疏忽而造成的,而错误数据大多是由一些客观原因引起的,例如人员填写的所属单位的不同和人员的升迁等。异常数据是指所有记录中如果一个或几个字段间绝大部分遵循某种模式,其它不遵循该模式的记录,如年龄字段超过历史

20、上的最高记录年龄等。重复数据也就是“相似重复记录”,指同一个现实实体在数据集合中用多条不完全相同的记录来表示,由于它们在格式、拼写上的差异,导致数据库管理系统不能正确识别。从狭义的角度看,如果两条记录在某些字段的值相等或足够相似,则认为这两条记录互为相似重复。识别相似重复记录是数据清洗活动的核心。此外,由于法人或作者更换单位造成数据的不一致情况、不同的计量单位、过时的地址、邮编等其他情况也是数据清洗的对象。2.5 数据清洗的基本原理及框架模型2.5.1 基本原理数据清洗的原理为:12,11利用有关技术,如统计方法、数据挖掘方法、模式规则方法等将脏数据转换为满足数据质量要

21、求的数据。数据清洗按照实现方式与范围,可分为以下4种。(1)手工实现 (2)Bohn模型Bohn数据清洗模型14将数据清洗分为以下4个主要部分:数据检查:确认数据质量,内部模式和主要字段(使用的不同字段);数据词法分析:确定每个字段内的各个元素的上下文和目的地;数据校正:将数据与已知清单(通常为地址)匹配并保证所有的字段被标明为好、坏或可自动校正。但是,这并不表示在软件设计的时候需要有许多值的判断。只要可能,技术人员就应该与客户一起校正源中的数据;记录匹配:决定两个记录(可能是不同类型的)是否代表同一个对象。该过程涉及许多值判断和复杂的软件工具。(3)AJAX模型AJAX15模型由Helena Galhardas提出,该模型是逻辑层面的模型(Logic Level),将数据清洗过程分为5个操作步骤:源数据的映射(Mapping);对映射后的记录进行匹配(Matching);对记录做聚集操作(Clustering);对聚集进行合并(Mergi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论