电子政务物联网信息处理技术_第1页
电子政务物联网信息处理技术_第2页
电子政务物联网信息处理技术_第3页
电子政务物联网信息处理技术_第4页
电子政务物联网信息处理技术_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电子政务物联网信息处理技术摘要:物联网应用在国内外已广泛兴起。近年来,美国、欧盟、日韩和我国政府先后在多个领域启动大量物联网应用工程。本文在对国内外电子政务物联网应用信息特点分析的基础上,从不确定信息处理、海量信息处理和数据融合三个方面介绍了电子政务物联网信息处理技术的国内外发展现状和研究成果,并展望了未来发展趋势。关键词:电子政务物联网、不确定信息处理、海量信息处理、数据融合Abstract: the E-government Internet of things (IOT) has been widely arised in the world. In recent years, the United States of America, European Union, Japan ,South Korea and Chinese governments have started a lot of IOT application engineerings in many areas. Based on the analysis of the characteristics of the information in E-government IOT,this paper first introduces E-government IOT information processing technology development status and research results at home and abroad from three aspects: uncertainty information processing, massive information processing and data fusion,then prospects the future development trend.Keywords: E-government IOT, uncertain information processing, massive information processing, data fusion1引言电子政务物联网,主要指政府部门主导建设的服务于政府管理、社会民生、经济发展的物联网。1.1 国内外电子政务物联网应用现状国内外电子政务物联网应用正如火如荼开展。2009 年,美国总统奥巴马签署生效2009 年美国恢复和再投资法案(即美国的经济刺激计划),在智能电网和卫生医疗信息技术应用领域投资 300 亿美元,大力推进物联网在这些领域的应用。欧盟许多国家在电力、交通以及物流领域已经形成了一定规模的物联网应用,进行安全监测、能源管理、公共交通管理等等。例如,德国电信公司推出了面向全球的 M2M 市场平台,该平台提供了 9 个业务分类,包括能源、医疗、交通物流、汽车、消费电子、零售、工业自动化、公共事业和安全等;英国通过普及智能仪表,为英国家庭提供个性化的能源效率咨询服务;丹麦自 2010 年 7 月起推出个人数字签名一体化系统 NemID,用户凭借NemID 便可登陆网上银行、税局系统及公私机构的网站,登录后可进行个人税务年报查询、信息更新、补交税款、签证申请、发送探亲访友邀请、医疗咨询等操作。NemID 不仅提高了社会管理效率,也进一步节省了人力和物力资源;瑞典国家运输部将 RFID 技术运用到北环线(Norra Lnken) 隧道内的空气质量监控,还可以对人员进行追踪。2009 年 7 月,日本 IT 战略本部颁布了日本新一代的信息化战略“i-Japan”战略,首先将政策目标聚焦在三大公共事业:电子化政府治理、医疗健康信息服务、教育与人才培育,达到“新的行政改革”,使行政流程简化、效率化、标准化、透明化,同时推动电子病历、远程医疗、远程教育等应用的发展。物联网在日本已渗透到人们的衣食住行中。2004 年,韩国信息通信部提出“U-Korea”战略。“U-Korea”战略是一种以无线传感网络为基础,把韩国的所有资源数字化、网络化、可视化、智能化,以此促进韩国经济发展和社会变革的国家战略。2009 年,韩国通过了 U-City 综合计划,在道路、桥梁、学校、医院等城市基础设施之中搭建融合信息通信技术的泛在网平台,实现可随时随地提供交通、环境、福利等各种泛在网服务的城市。2009 年,温家宝总理提出“感知中国”的战略构想,随后,我国政府通过一系列政策、规划和专项重点推动物联网在交通、公共安全、农业、林业、环保、家居、医疗、工业生产、电力、物流等领域的应用。例如,在交通领域,开展了“基于物联网的城市智能交通应用示范”和“长三角航道网及京杭运河水系智能航运信息服务物联网应用示范”工程。“基于物联网的城市智能交通应用”着重构建城市智能交通要素身份认证、信息精准获取、交通综合信息处理三大体系,在城市智能交通领域和桥隧监控服务领域研发和改造相关感知设备,实现交通物理单元的全面感知和主动管理。“长三角航道网及京杭运河水系智能航运信息服务物联网应用”推进长三角航道网内河航运管理及信息服务的协同化和规范化,加速我国航运物流一体化进程,提高航运物流的安全和效率。在公共安全领域,开展城市社会公共安全物联网应用示范,主要应用包括四个方面智能安防、智能消防和智能交通。其中智能安防是以智能化的监控系统为核心,实现重点区域的全天候监控,对于危险物品的管控等。智能消防主要内容包括火灾、预警感知,火灾远程监控,消防员生命特征的监控。智能交通是车辆行踪动态感知,对车辆进行管控。在环保领域,开展环保物联网应用示范,以危险废弃物、医疗废弃物、放射性污染源和机动车尾气等方面为重点,建立环保物联网监控体系、安防体系和总量减排体系。在环保领域,开展了北京设施农业物联网应用示范和黑龙江垦区种植业生产物联网应用示范。在林业领域,构造天网、地网、人网和林网一体化感知体系,实现对森林火灾、乱砍滥伐和不合理开发利用等的全面、实时和系统监控。在综合应用方面,无锡开展综合物联网应用示范,支撑公共安全、智能交通、智能家居、感知环保和感知农业五大应用子集示范系统的运行,形成物联网城市级系统解决方案。1.2电子政务物联网信息特点纵观各类电子政务物联网,其采集、处理和利用信息,具有如下几个重要特点:(1)多态性与异构性电子政务物联网应用中涉及各种各样的传感器,所采集的数据格式各不相同,有文本数据,也有图像、音频、视频等多媒体数据。既有静态数据,也有动态数据。信息多态性和异构性程度随着应用场景复杂度的增加而加大。(2)不确定性信息的不确定性主要表现在 3:不一致性。由于时空映射失真造成的信息时空关系不一致;不准确性。由于传感器采样和量化方式不同造成的信息精度差异;由于安全和隐私保护需要,对信息进行变换加工,导致的信息不准确;不连续性。由于网络传输不稳定造成的信息断续;不全面性。由于传感器感知域的局限性导致获取的信息不全面。不完整性。由于网络和环境的动态变化造成的信息缺失。(3)时效性在状态监测、事件检测等应用中,被感知的事物的状态可能是瞬息万变的,只有新数据才能反映系统所感知的事物的现有状态。(4)海量性主要由于两个方面原因引起:在一些应用中,往往涉及数量庞大的感知设备,这些设备产生了海量的数据集合。在一些系统中,例如视频监控,数据以流的形式实时、高速、源源不断地产生,随着时间的推移,积累了庞大的数据量。物联网系统通常包含着海量的传感器结点。其中,大部分传感器(如温度传感器、传感器、压力传感器等)的采样数据是数值型的,但也有许多传感器的采样值是多媒体数据(如交通摄像头视频数据、音频传感器采样数据、遥感成像数据等)。每一个传感器均频繁地产生新的采样数据,系统不仅需要存储这些采样数据的最新版本,而且在多数情况下,还需要存储某个时间段(如个月)内所有的历史采样值,以满足溯源处理和复杂数据分析的需要 18。 (5)时空相关性 18物联网中的传感器结点普遍存在着空间和时间属性每个传感器结点都有地理位置,每个数据采样值都有时间属性,而且许多传感器结点的地理位置随着时间的变化而连续移动。如智能交通系统中,每个车辆安装了高精度的或标签,在交通网络中动态地移动。与物联网数据的时空相关性相对应,物联网应用中对传感器数据的查询也并不仅仅局限于关键字查询,很多时候,我们需要基于复杂的逻辑约束条件进行查询,如查询某个指定地理区域中所有地质类传感器在规定时间段内所采集的数据,并对它们进行统计分析 18。(6)序列性与动态流式性 18在电子政务物联网系统中,要查询某个监控对象在某一时刻的物理状态往往不能简单地通过对时间点的关键字匹配来完成的,这是因为采样过程是间断进行的,查询时间与某个采样时间正好匹配的概率极低。采样数据序列反映了监控对象的状态随时间变化的完整过程,因此包含比单个采样值丰富得多的信息。此外,采样数据序列表现出明显的动态流式特性随着新采样值的不断到来和过时采样值的不断淘汰,采样数据序列是不断动态变化的 18。1.3本文内容与安排电子政务物联网的信息特点,决定了其信息处理的技术要求和技术方法。目前,电子政务物联网信息处理技术研究,可归纳为三大方向:不确定数据处理、海量信息处理和感知信息融合。本文围绕上述三大方向,首先介绍国际研究现状,然后介绍国内研究进展,最后对该领域的发展趋势进行了展望。2国际研究现状2.1不确定数据处理电子政务物联网信息具有典型的不确定性。不确定性数据由于其特点,在各种应用情景下,传统的确定性数据处理技术已不能有效适用。不确定信息处理技术主要包括不确定数据模型定义、存储与索引,以及查询分析和挖掘等 3。近年来,概率统计的方法被逐步应用于不确定性数据的处理中。目前国际上的研究热点主要集中在不确定数据模型、不确定数据查询和不确定数据挖掘。(1) 不确定数据模型 3 15“可能世界模型”是最典型的和最常用的不确定数据模型建模思想 3 1566-67。可能世界空间由一系列可能世界实例组成,可能世界实例对应一个确定性数据库,其中,那些非确定性属性是满足约束条件的确定值 16。目前研究的主流不确定性数据库为概率数据库,它建立在可能世界模型的基础上,可能世界语义是不确定性查询处理技术的出发点和基础。不确定性数据的种类较多,例如关系型数据、半结构化数据、流数据、移动对象数据等,尽管存在许多与数据类型紧密相关的数据模型,但是这些模型最终都可以转化为“可能世界模型” 3。在大多数应用中,不确定性可细分为存在级不确定性(Existential Uncertainty)和属性级不确定性(Attribute Level Uncertainty)。存在级不确定性描述元组的存在与否,较为通用。属性级不确定性并不涉及整个元组的不确定性,而是以概率密度函数或统计参数(例如方差等)来描述特定属性的不确定性。作为不确定性数据库建模的最核心思想,可能世界模型被广泛采纳于各种应用之中,并衍生出多种应用相关的模型,特别是针对关系型数据、半结构化数据、流数据和多维数据的模型 3。最为常见的是针对关系模型的扩展,包括 Probabilistic-table、Probabilistic or-set table、Probabilistic or-set- table、Probabilistic c-table 等 3 68-70 。Probabilistic -table 以一个独立的概率字段表示元组的概率,且各元组之间独立。一个特定的数据库实例(也即可能世界实例)的概率等于其所包含的元组的概率乘积和其所不包含的元组的不发生概率的乘积。而 Probabilistic or-set table 则倾向于描述属性级不确定性。在 Probabilistic or-set table 中,元组的属性值被描述为多个候选值之间的“或”关系,可视为离散概率密度函数。也有的研究人员将 probabilistic or-set- table 命名为 x-relation,它包含若干 x-tuple(无存在级不确定性)或者 maybe x-tuple(有存在级不确定性) 3 68-70 。半结构化数据模型(semistructed data model)能有效描述缺乏严格模式结构的数据3 71。半结构化数据通常可以用文档树来描述。文献 72提出了一种管理概率半结构化数据(probabilistic semistructed data)的方法,该方法以关系数据库技术为基础,支持丰富的代数查询。目前,以文档树形式描述不确定性半结构化数据,例如 p-文档模型(p-document model) 72、概率树模型(Probabilistic Tree Model) 73-74、PXDB 模型75等获得广泛关注 3。p-文档模型 72将概率值附加于文档树的边上,各节点的概率依赖于其祖先的概率,节点之间可以是互斥关系(mux)或相互独立(ind)。概率树模型是一个事件驱动的模型 3 73-74。它并不在各节点/边上附加概率值来描述不确定性,而是在各节点附加一系列事件变量,由外部事件的发生与否决定节点的存在性。PXDB 模型 74扩展了p-文档模型,增加外部约束条件。其他模型还包括 PXML 模型 77-78、概率树模型 79 、PrXML 模型 80等 3。在数据流模型中,数据到达的速度极快、数据规模极大,仅能够开发一次扫描算法,使用有限内存在线计算查询结果。在不确定性数据流(Uncertain Data Stream, 或Probabilistic Data Stream)中,各元组具有不确定性。根据窗口定义不同,数据流模型可细分为界标模型、滑动窗口模型。界标模型的范围从某固定时间点至当前时间为止,滑动窗口模型仅考虑最新 的 W 个元组 81 3。在各模型中,新元组的到达与旧元组的消逝均引发可能世界实例的大变迁 3。在确定性多维数据模型中,各个事实(fact)必定属于某一个立方体中。但对于处理不精确数据的应用而言,各事实可能无法被准确地定位到立方体中 3。文献82-83提出了基于可能世界的多维数据模型,以处理这类不确定数据。在这种模型中,上述记录能够被存储于不确定性数据库中,可以基于可能世界语义做执行 OLAP 操作(例如切块、上卷等)3。目前研究的主流不确定性数据库为概率数据库 15。它建立在可能世界模型的基础上,可能世界实例对应一个确定性数据库。其中,那些非确定性属性是满足约束条件的确定值。可能世界语义是不确定性查询处理技术的出发点和基础 15。一个不确定性数据库可以分别或同时含有属性级和记录级不确定性;而对于不确定性属性 ,其值可以离散或连续; 对于以一定概率存在的记录之间,可以没有生成规则也可以有生成规则,含有生成规则时,生成规则可以是互斥、共存或其他规则 15 84。不确定数据库其组成如图 1。图 1 不确定数据库组成 15(2) 不确定数据查询不确定数据查询已成为近年研究热点。围绕查询算法、查询优化等技术国内外取得了大量研究成与确定数据查询相比,不确定数据查询主要有三个特点 4:查询类型复杂多样。由于查询任务种类较多,查询目标多样,使得查询类型更加复杂多样;数据类型多样。目前不确定查询面向的数据主要是多维数据集、半结构化数据、流数据、空间数据、模糊数据、世系数据和图数据等,各种数据类型又可以进一步细分,专门针对各种不确定数据类型的查询技术研究在国内外已广泛开展;概率维度的特殊性。引入概率维度后,查询类型需要重新定义,查询返回结果也具有概率信息,概率特征增加了查询的复杂性。(3) 目前,国际上不确定数据查询的研究主要集中在不确定 Skyline 查询、不确定Top -k 查询、不确定 NN 查询和不确定聚集查询等方面。研究人员在这些方面开展了大量研究。(4) 不确定 Skyline 查询:主要分为针对不确定数据集和不确定数据流的 Skyline 查询。(5) 不确定数据集 Skyline 查询目前主要分为集中式和分布式两种 4。(6) 对集中式不确定数据集 Skyline 查询,文献86针对元组级不确定数据上的概率 Skyline 查询,定义了计算 q-Skyline 的自底向上和自顶向下算法。自底向上算法用来计算选定的不确定数据对象实例的 Skyline 概率,使用这些实例剪枝其他实例和对象 85 864。自顶向下算法则递归地将不确定数据集合分割为子数据集,并对子集和对象渐进剪枝。在概率 Skyline 模型中,不确定数据对象以某一概率加入 Skyline 中,而概率阀值 q-Skyline 查询则要求对象参与到Skyline 的概率至少为 q4 5。然而某些场合设定阀值是不合适的,在此情形下需要计算全部数据的 Skyline,Atallah M J.等研究了不确定数据集的全Skyline 查询,提出了一种有效结合加权支配计算方法和网格划分算法。为提高剪枝效率,对象参数空间利用高斯树索引,并通过限界-剪枝-精华方法计算出结果集合 4 7。对分布式不确定数据集上概率 Skyline 查询问题,Ding 等提出了基于元组级不确定数据一种 4 阶段迭代处理算法 DSUD 及其扩张算法 e-DSUD,算法首先计算各个节点局部Skyline 集合,然后选取部分元组进行计算并利用一定反馈机制进一步剪枝各个子节点中不可能成为全局 Skyline 的元组 4 8。某些电子政务物联网数据流的连续、无限、实时和只允许单遍扫描等特点,以及复杂的概率特性和计算表示,给不确定数据流上 Skyline 查询提出了很多挑战。文献88针对概率数据流上的 Skyline 计算问题,研究了基于滑动窗口模型的建模和查询定义,并提出SOPDS 算法,算法应用概率定界,逐步求精、提前淘汰与选择补偿等启发式规则对算法从时间和空间加以优化,取得较好的整体性能 4 9。Zhang 等基于滑动窗口模型建立了概率Skyline 算子,首先基于可能世界语义定义了 Skyline 概率和概率 Skyline,然后定义候选集合,并证明候选集上计算概率 Skyline 等价于在整个滑动窗口上计算 4 10。1) 不确定 Top -k 查询Top k 查询的目标是返回 k 个排序函数值最大的元组。在大规模的电子政务物联网分布式环境中,Top-K 查询一直有着广泛的应用 16 89。分布式环境中,不确定性 Top-K 查询处理面临的核心问题是如何在降低计算开销的同时最小化交互开销 16。在传感器数据流上,由于记录到达的快速性、无序性以及数量的无限制性,要求查询处理算法必须具有一遍扫描、时间开销和空间开销都比较低等特点 16。不确定数据流上的 Top-K 查询,目前主要有基于无限制数据流以及基于限定时间维数据流的研究 16。无限制的不确定性数据流环境中,不考虑记录的消逝。随着记录不停到达,所有记录参与 Top-K 查询处理 16。文献93中讨论了如何在无限制的不确定性数据流中进行Expected Rank 并根据 Expected Rank 值获取前 k 记录的 ER-TopK 查询。根据每个记录各不确定属性值概率分布特点,文献94定义了记录之间的支配关系。数据流对时间维的限定方式主要有两种:一种是随时间衰减的处理方式,一种是滑动窗口的处理方式 16。文献95中分析了不确定数据流上连续滑动窗口 Top-K 查询的特点,定义了滑动窗口 W 内一定包含Top-K 记录的最小子集窗口的紧致集 C(W).无限制不确定数据流上 Top-K 查询由于考虑所有记录,因此更具有时间全局性;而考虑时间限制的不确定数据流上的 Top-K 查询更具有现时性 16。文献96研究了概率数据库中 Top k 查询问题,阐述了通过 SQL 语句查询概率数据库中概率值最大的 Top k 元组,其元组的排序即为排序函数值。文献97提出了解决查询的不确定数据模型以及 U-Topk 查询和 U-kRanks 查询的定义,将查询问题转化为状态空间搜索问题,并提出具有最优性保证的查询算法 4 13。针对文献13等给出的概率 Top-k查询定义,文献11采用 x-relation 不确定模型提出了更高效的 U-Topk 和 U-kRanks 多项式查询算法 14。2) 不确定 NN 查询 4最近邻(NN)查询通常定义为:给定查询点和查询对象集合,以及方向和范围约束集合,检索距离查询对象的个最近的对象 4。概率最近邻查询(PNNQ)的概念在年ACM SIGMOD 会议上提出 98 ,PNNQ 定义为查询返回对于某个查询点在某一时刻的(Oi,Pi)形式的元组集合,其中 pi 为对象 Oi 在该时刻成为查询的最近邻的概率 98。概率 k-NN 查询(k-PNNQ)则要求返回一组列表(S,p(S)),其中为数据集的基数为的子集,p(S)则为对于集合中含有至查询点的个最近邻居的非零概率 14。根据计算过程的侧重点不同,不确定查询方法目前分为基于概率计算的方法和基于概率过滤的方法类。基于概率计算的方法强调通过概率形式特别是概率密度函数积分等形式的计算获取对象与查询点的近邻的概率值;基于概率过滤的方法强调利用阈值或容忍值、上下界等各种约束条件来验证相应的对象是否在查询的结果中 14。Ljosa 等人 99将概率查询问题简化为传统的查询,提出利用 APLAtree 索引结构,并使用不确定性对象数据的概率密度函数期望的距离作为排序标准,但其 k-NN 查询基于期望距离,查询结果中并不包含概率信息。1-PNNQ 仅返回对于给定查询点最近的单个对象,是 PNNQ 研究的基础。文献100提出了基于 R-tree 索引的查询方法,根据移动对象不同的运动轨迹,提出了相应的概率计算方法,其主要思想在于将每个对象的不确定性转换成即距离查询点的 pdf (概率密度函数)和 cdf(累积密度函数),并通过对此函数相关的表达式的积分获得条件概率。由于对概率 pdf 或 cdf 等的频繁积分使得不确定查询的计算代价过高,查询反应时间过长。针对此问题,文献101提出了一种蒙特卡罗采样的高效计算 PNNQ 的方法,该方法中涉及的查询和数据对象均可以是不确定的,方法的实用性较强 4。为了改进 1-PNNQ 中概率计算所涉及的密集型积分计算开销,文献102提出了约束概率最近邻查询(C-PNNQ)的概念。C-PNNQ 利用基于树的方法过滤不可能成为最近邻的对象,并根据函数粗粒度地求取概率边界以避免复杂的嵌套积分过程。由于剪枝、验证过程的引入,极大地缩小了对象搜索的空间,从而减小了概率计算的开销 4 102。针对属性级不确定数据上的 k-PNNQ 问题,文献103提 出了概率阈 值 k-NN 查询 (T-k-PNNQ)的概念和定义,并研究了种有效的查询剪枝算法,而其中的阈值则由用户设定,用于控制结果的数目。首先,采用 k-bound 过滤算法删除不可能成为查询结果的对象;其次,采用概率候选选择算法高效地检测子集,以快速剔除不满足条件概率的对象集合最后,通过概率上界和下界验证方法过滤返回结果以进一步筛选查询结果。目前多数不确定查询研究不能同时支持元组级和属性级不确定数据源。为解决此问题,文献23中采用一种通用的不确定性模型,综合平衡查询中 I/O 操作和 CPU 操作(复杂的概率积分计算)等各种代价要素,并提出了 Topk-PNN 查询定义。然而其排序标准仅基于每个对象成为的最近邻居的概率,并非所有返回对象均为最近邻。即返回的结果可能在同一可能世界中不能同时出现。此外,对于其他类型的概率 NN 查询研究也陆续呈现 4 103。4)不确定数据集聚集查询文献107针对概率数据库上的聚集查询问题,提出了一种基于分桶策略的概率聚集操作。通过将关系的可能世界分组成多个桶,每个桶对应相同的聚集值,并对每个桶求线性规划问题以获得概率边界,算法具有一般指数级的复杂性。早期传统的聚集查询算法主要关注于获得精确的聚集统计值。然而在很多的现实应用场景中,用户只需获得近似的聚集结果而非精确查询结果。针对不确定数据集的近似概率聚集查询问题,文献108- 109中提出了基于草图(sketch)的分布式数据集上的近似聚集查询算法。其研究主要关注于传感器网络中的能量消耗,采用复制敏感的草图方法以近似求取 COUNT 和 SUM。与早期精确查询算法不同,这些算法传输的是压缩的数据而非原始数据,减少了通信的开销;然而,由于算法中所有的传感器数据均参与聚集查询的计算过程,使得计算开销较大。为了克服误差界限固定的障碍,文献 110提出了一种基于抽样的(,) 近似聚集算法以满足不同程度精度要求的概率聚集查询应用。算法根据(,)值适应性地确定抽样的大小,对分布式的传感器数据均匀抽样,并采用数学方法估计各种聚集值。文献111给出了针对不确定数据的分布式不确定最大值和分布式不确定 Top-k 两类聚集查询定义,并提出了基于过滤的分布式聚集算法。其主要思想在于,基于数据的分布区间和概率进行筛选概率上限的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论