




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于RCFile的无线传感器网络数据存储及查询优化策略 关于学位论文独创声明和学术诚信承诺?唧本人向河南大学提出硕士学位申请。 本人郑重声明?所呈交的学位论文是本人在导师的指导下独立完成的?对所研究的课题有新的见解。 据我所知?除文中特别加以说明、标注和致谢的地方外?论文中不包括其他人已经发表或撰写过的研究成果?也不包括其他人为获得任何教育、科研机构的学位或证书而使用过的材料。 与我一同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 在此本人郑重承诺?所呈交的学位论文不存在舞弊作伪行为?文责自负。 学位申请人?学位论文作者?签名?篓至丝?铲?月?午日关于学位论文著作权使用授权书本人经河南大学审核批准授予硕士学位。 作为学位论文的作者?本人完全了解并同意河南大学有关保留、使用学位论文的要求?即河南大学有权向国家图书馆、科研信息机构、数据收集机构和本校图书馆等提供学位论文?纸质文本和电子文本?以供公众检索、查阅。 本人授权河南大学出于宣扬、展览学校学术发展和进行学术交流等目的?可以采取影印、缩印、扫描和拷贝等复制手段保存、汇编学位论文?纸质文本和电子文本?。 ?涉及保密内容的学位论文在解密后适用本授权书?学位获得者?学位论文作者?签名?年年罗月?弘日学位论文指导教师签名?逃?争年厂月?阳摘要无线传感器网络技术的快速发展?使得其在防空、工业、城市管理、海洋监测、环境监测、预防恐怖袭击等领域广泛应用。 以数据为中心是传感器网络的最大特点?所以如何将节点感知的数据进行有效的存储与传输是关键?这直接影响到数据访问的可靠性与高效性。 由于传感器网络覆盖面积广?节点数量众多?每分每秒都在监测数据?节点需要接收和处理大量数据?但由于每个节点能量和存储容量都是有限的?大量数据堆积和冗余会造成节点死亡和数据丢失?合理有效的存储和转发数据?可以有效节省节点的存储空间?降低传输过程中的能量消耗?能进一步提高整个网络的性能。 对于无线传感器网络的数据存储和研究现状?国内外都进行了详细的描述?并给出了相关的分析。 本文首先对国内外有关无线传感器网络数据存储与查询算法行了分类阐述?然后分析了相关算法的优势与不足。 随后介绍了大数据中一种高效存储结构?并基于?提出了一种适用于传感器网络的数据存储算法。 以下四个方面是本文的主要研究内容?本文针对无线传感器网络中存在的数据存储问题进行了分类阐述?大致概括为三种解决策略?外部存储?本地存储?以数据为中心存储。 本文分别对三种数据存储策略及相关算法进行了分析论述?给出了这三种存储策略的优势与不足。 ?阐述大数据的发展趋势及特点?目前大数据存储方案主要有?行存储、列存储。 这两种存储方案在处理海量数据时?哪一种更能兼顾完整、安全、可靠性?在学术界存在很多争持。 本文分别论述了两种存储方式的存储格式及结构模型。 ?本节首先研究了无线传感器网络的数据特点?然后分析与大数据的相同点与不同点?提出了一种基于?的无线传感器数据存储算法?。 在大数据中?是一种高效的数据存储结构?将?的存储格式应用到无线传感器网络中?通过改变传感器传统的数据格式?提高节点存储空间利用率?降低存储传输过程中消耗的能量?延长了节点寿命?进而提高了网络的整体性能。 ?提出一种基于?的查询处理机制。 在数据处理过程中?运用分布式处理与并行计算相结合的方式?结合了?的存储优势?能够减少数据查询过程中的冗余操作。 节点内部查询的过程中使用?解压缩?可以跳过不必要的列查询?降低了查询时延。 与其他类型的查询处理算法相比?随着数据量的增大?本算法节能优势更明显?不仅减少查询在整个网络内洪泛造成的能量浪费?还可以缩短查询响应时间。 关键词?无线传感器网络?存储算法?数据查询?俺?妇?。 ?哥?适?如?。 ?远?吨?打?吨?曲?。 ?目录摘要?绪?仑?课题的背景及意义?国内外研究现状?传感器网络的数据存储算法?传感器网络的查询处理算法?本文主要研究内容?章节安排?本章小结?相关研究?分类及性能评价指标?以数据为中心存储分类?存储策略性能评价?大数据中数据存储模型?大数据处理要求。 ?行存储格式?列存储格式?存储格式?评价方法?本章小结?基于?的无线传感器网络数据存储算法?概?苤?算法原理?算法模型?存储过程?仿真和性能分析?仿真实验设置?实验结果分析?本章小结?传感器网络中基于?的数据查询处理机制?概?盎?查询处理体系结构?基于?的数据查询处理机制?算法思想?基于?查询机制理论分析?仿真和性能分析?仿真实验设置?实验结果分析?本章小结?总结与展望一?总结?展望?参考文献一?致谢?攻读学位期间发表的学术论文?绪论?绪论?课题的背景及意义无线传感器网络由大量传感器节点组成?节点具有价格低廉、形态小等特点?能进行无线通信、且具备传感和数据处理的能力。 每个节点内的传感节点实时监测、收集信息?相互合作?对信息处理和传输?将处理后的数据传送给观察者。 传感器网络与网络信息、无线电通信、分布式处理等相关技术相结合?由单一模式演变为智能模式【?。 由于传感器节点能量和存储空间有限?其在接收和处理数据的过程中?需要消耗大量能量?如何有效利用存储空间?减少通信过程中的能量消耗?是目前传感器网络中的研究热点。 传感器网络是当今的一项重要技术?它的应用价值已经分布各个领域【?。 由于传感器网络节点成本低廉?覆盖范围广泛?可以在需要监测区域部署大量传感器节点进行数据采集和环境监控。 无线传感器网络是一个覆盖了计算机、控制、通信、电子等多门学科的交叉学科?有很多研究点可以展开。 传感器网络本身是一个应用型网络?可以用来解决各种应用中的难点。 传感器网络是一个以数据为中心的网络?节点会收集大量感知数据?在存储和查询的过程消耗系统能量。 根据不同场景的应用?传感器将采集到的数据进行分类?判断是否立即发给数据用户?分为“实时性数据”和“非实时性数据”?】。 前者要求监测到的数据立即发给?节点?例如在防洪监测?监测到洪水超过设定防线?感应节点需要立刻给用户发送数据?便于及时采取措施。 这类数据的存储和处理通常在网络外的基站进行。 后者是指需要立刻发送数据或是用户需要统计一个阶段的数据?例如?环境监测中?在一个给定的区域连续监测空气质量?数据记录和存储在节点?根据用户的需求提取所需数据。 传感器的节点采集到数据后?某个或某些节点被指定为存储节点?将数据存储在存储节点?当数据的消费节点查询数据时?制定查找策略?根据算法特性?消费节点发现数据。 存储和查询的过程会消耗系统资源?制定合适的存储算法?不仅能够提高存储空间利用率?而且可以减少节点能量消耗。 数据的存储策略直接影响着数据查询的效率?数据存储的终极目标是为数据查询提供方便的途径【?】。 显然?采用一种高效的存储算法?基于?的无线传感器网络数据存储与查询优化策略不仅能够有效利用节点的存储空间?而且可以减少节点的能量消耗?进而提高整个网络的寿命。 ?国内外研究现状本节分别对传感器网络中的各种数据存储策略和查询处理技术进行综述?并给出目前研究中存在的不足。 ?传感器网络的数据存储算法本节对无线传感器网络中三种存储策略和相应的算法进行综述?并分析了它们的优缺点及目前研究中的不足。 存储算法依据节点在网络中的位置?共有三类存储算法?外部存储策略、本地存储策略和以数据为中心的存储策略。 在外部存储策略中?节点是数据存储节点?监测节点的观测数据统一发送到?节点?节点对数据进行处理。 本地存储中将监测数据保存在源节点本地?用户查询相关信息时?必须通过洪泛的方式查找数据。 在以数据为中心的存储中?数据按照某种规则被保存在传感器网络内的某个位置?用户可以通过查询发现所需要的结果?可以避免查询的洪泛。 此外根据存储方法是否需要建立索引?分为无索引的存储和有索引的存储等。 ?外部存储传统的数据采集系统中应用外部存储较多?通常采集的数据需要实时发送给基站或者用户?便采用外部存储。 文献?中提出的?协议?是基于层次结构的?英文名为?主要适用于传感器网络采集数据。 从?中随机选择一部分节点作为簇头?选出的簇头向其它邻居节点发送簇构造消息。 协议按周期方式工作?一个周期内?节点向簇首传递数据?簇首加工处理数据然后再传送给?节点。 分簇结构的优点是可以减少信道冲突?节省能量?而且层次结构便于数据处理?如数据融合、数据压缩等。 ?协议的不足是当网络规模较大?族头和汇聚节点的距离较远时?通信链路无法保证。 ?在文献?提到?是一种能量有效收集协议?该算法是对?协议的改进。 传感器网络被组织成一个链状结构?每个节点仅与附近节点数据交换。 数据在节点传递到另一个节点的过程中聚集?最终到?节点。 与?相比?其能量开销较少。 基于?协议的基础上?相关学者提出了能量高效的数据采集协议?】?该协议设立了软、硬阈值对采集?绪论的数据进行比对?减少不必要的数据传输。 当节点数据高于硬阈值?数据被发送给基站?并将该数据作为新的硬阈值?如果数据小于硬阈值?但与硬阈值差值大于软阈值?数据也被发送出去?并调整为二者的差值。 这样减少了数据传输?达到节省能量的目的。 这种存储策略是面向于数据采集的协议?忽略了?的数据存储能力及节点对数据的需求。 综上所述?外部存储更多的用于数据收集?数据存储过于依赖于基站?而且与网络本身分离。 ?本地存储定向扩散?协议【?】在?提出?是将节点采集的数据存储到本地节点?节点向网络广播一种“兴趣消息”?来获得自己所需的信息。 节点收到“兴趣信息”后?在网络内建立一个梯度?流向汇聚节点。 该节点就建立了一条或多条到达?节点的路径?泛洪查找并进行数据传输。 文献?中提到地理和能量感知路由协议?它是对?协议的优化。 ?协议向监测区域内发送查询命令时?将地理位置信息考虑进去?并对地理位置加以利用?使得仅在目标区域传播“兴趣消息”?这样可以避免洪泛?而且可以减少路由建立过程中的开销。 本地存储策略的存储过程相对比较简单?本地存储算法的研究重点在于数据查询处理?但是不对信息进行描述?这样在查询期间造成网络洪泛?使得查询中消耗能量较大。 ?以数据为中心存储以数据为中心存储?的概念被?等人【?】提出?它的核心思想是?依据是数据本身属性?将特定的数据定义为事件。 传感器节点采集到数据后?使用地理信息映射表将事件数据映射到网络部署的地理区域中?负责存储该事件数据?相同属性的数据映射在相同的地理位置?因此也存储在相同节点。 这种算法利于数据查询?只需要根据查询的事件属性?采用映射函数即可找到存储节点?避免泛洪。 缺点是缺少高效的存储热点处理机制?在数据存储过载时?不能转移到其它节点。 由于采用地理信息路由?获取地理位置信息需要?定位?增加了系统的能量消耗。 基于自适应环形索引结构的?】数据存储算法用来解决?算法中的热点问题。 利用?函数将某种类型的事件散列到事件存储节点?在事件存储节点周围建立一个环?事件被分散保存在索引节点。 这种算法难定义明确的无线传感?基于?的无线传感器网络数据存储与查询优化策略器网络的界限?对热点问题的处理并不理想。 基于两层数据存储结构的?【?】存储算法?用于移动的多汇聚节点的?模型中追踪移动目标。 该算法是通过建立虚拟网格来传输和存储数据?网格保存节点采集的数据?查询时?只需在网格内泛洪请求即可?能够节省能量。 但是该算法不太适合动态事件?事件的动态性会使得虚拟网格的建立与维持消耗系统资源。 另外有学者提出了分布式结构索引?算法【?该算法使用分布式索引存储数据?并且支持范围查找数据。 通过使用感知数据的键属性?使用空间分解技术和地理散列方法的散列函数构造多级四叉树?作为数据索引。 该算法对于分布式构造和维护树状结构存在很大挑战。 以上论述的是国外一些学者关于以数据中心为存储的研究?国内一些科研院校也做了大量研究?对传感器网络的发展做出了一些贡献。 文献?利用以数据为中心存储的思想?提出了一种振荡路径的数据存储算法。 振荡路径用来存储消费者和生产者节点查询的数据?根据局部信息和反射角度进行路由转发?为了保证查询的成功率?需要所有的振荡轨迹两两相交。 一种基于小波构架的分布式存储算法在文献?中提到?小波压缩所有信息?再将它们均匀分到每个节点?因此可以提高存储效率?同样利用小波系数空间结构树的相似性和小波多分辨率的编码技术?可以支持两个方向的快速查询。 基于树型路由协议的分布式数据存储算法在文献【?】提到?该算法选择数据的存储节点是通过采用动态规划的方式。 目前传感器网络的数据存储算法有两个不足?第 一、以数据为中心的存储算法在传输过程中会消耗大量能量?当节点采集到一定数量信息?映射原因可能会导致源节点和存储节点距离太远?如果不是单一监测信息?则会消耗大量系统能源?第 二、热点问题?预先定义了时间类型?如果对同一时间类型存储或查询操作过多?会造成节点负载?消耗能量快?影响网络寿命。 ?传感器网络的查询处理算法本节分别对传感器网络中的各种数据存储策略和查询处理技术进行综述?并指出目前研究中存在的不足。 ?查询处理语言传感器网络作为一种特殊的数据库类型?为人们提供一种通用、简单、高效、且可?绪论扩展的查询语言。 目前已提出的查询语言主要包括?系统提供的类?语言以及?系统提供的?语言等。 ?系统提供了一种支持连续查询的类?查询语言?其语法如下?【?】?【?吐?】?】?其中?子句指定查询的执行时间?子句用来确定执行周期?其他子句与标准?相同。 ?查询处理技术传感器网络数据的查询处理技术分为两种?集中式查询处理技术和分布式查询处理技术【?。 在集中式查询处理技术中?节点周期性的从网络中获取数据?并将数据集中存储在一个中心数据库?在中心数据库上对查询进行处理。 这类方法可以从环境中取得最完整的信息?但是存在以下弊端。 通常情况下?用户并不需要从传感器网络中获取每一个数据?而只是希望通过查询获取自己感兴趣的信息。 而集中式处理技术频繁地从每一个传感器获取数据?并把它们传送到中心数据库?这将会很快耗尽每一个节点的能量?同时也会产生大量的冗余数据。 由于传感器节点一般都具有处理和存储能力?因此可以在节点上对数据进行分布式处理和存储。 利用传感器节点的上述功能?人们提出了各种分布式查询处理技术?有效地减少了数据传送量?降低节点和网络的能量消耗。 分布式查询处理技术主要通过将查询下发到传感器网络内部执行?并仅从网络中获取与查询相关的数据。 查询请求决定了用户从传感器网络中所需的数据?并尽量在网络内对数据进行处理?减少网络内的消息传输数量。 ?查询处理算法无线传感器网络的查询可以分为如下几类【?】?快照查询?用户针对某一时刻传感器网络各节点的观测值提出的查询。 ?基于?的无线传感器网络数据存储与查询优化策略连续查询?传感器网络以一定的时间间隔周期性地将向用户返回查询结果。 聚集查询?在许多实际应用中?用户并不关心传感器观测数据的个别值?而是对统计值更感兴趣。 如求各个传感器观测数据的聚集值?和、平均、最大及最小值等?。 连接查询?代表传感器网络的无限虚拟关系表?和自身或与其它表进行连接操作。 基于事件的查询?用户根据自己的需要预先定义一些条件?当传感器的观测数据满足这些条件时?称传感器观测到了事件。 用户可以定义多类事件?并仅就这些事件向传感器网络提出查询。 其它类型的查询包括?查询、?查询、近似查询、窗口查询、等高线查询、基于生命周期的查询等。 下面分别对各类查询的典型查询处理算法进行介绍。 由于传感器网络采用多跳路由?网络中节点可以在每一跳对接收到的数据按查询计划进行过滤和聚集?从而显著减小网络中的消息传输量。 ?首先提出了网内聚集?【?】的方法。 在传感器网络中按照一定规则建立一棵聚集树?子节点将观测的信息发送到父节点?父节点对从各个子节点接收的数据进行聚集处理。 父节点仅传输经过处理后的少量数据?而不是将所有未经处理的原始数据全部传输到?节点进行计算和处理?从而大大降低了通信过程中的冗余数据传输?节省了通信能耗。 ?】在?的基础上引入了误差机制?中每个周期子节点都将其聚集结果传递到父节点?而在?中?只要当前聚集结果与已经传递到父节点的聚集结果之间相差小于一定阈值?子节点将不向父节点传递数据?进一步节省了能量。 文献【?】提出一种多路径聚集算法?通过多路径传输数据提高可靠性?同时提出?结构避免多路径数据传输对聚集结果准确性造成的影响。 文献?将现有的网内聚集方法分为两类?基于树结构及基于多路径结构?并指出这两种结构的优缺点。 结合两种结构的优点提出了一个新的称为?的聚集算法?该方法最主要的特点是在距离?较远的节点采用基于树的结构?以节省聚集过程中的能量消耗?而在距离?较近的节点采用多路径结构?保证结果的准确性。 ?绪论文献?提出一种信息驱动的传感器查询处理算法?。 首先利用二维高斯模型对结果位置进行粗略的估计。 随着查询逐步接近结果?所获得的信息不断增加?模型对结果位置的估计也更加准确。 ?可以减小搜寻结果的时间以及网络的带宽消耗。 文献?提出基于生命周期的查询?用户的查询请求中仅包含对网络生命周期的要求?由查询处理算法决定传感器节点的采样频率等参数?以满足用户所要求的网络生命周期。 综上所述?目前传感器网络查询处理的研究成果主要集中在将传统数据库的各种查询类型?如聚集、?、?、?等?移植到传感器网络。 此外?传感器网络作为一种应用性极为广泛的系统?还具有许多独特的查询类型?如与事件相关的查询、基于生命周期的查询、等高效查询等?并针对这些查询可以提出许多能量有效的查询处理算法。 正是基于传感器网络广泛的应用性?本文针对传感器网络提出一种新的查询类型一基于?的查询处理机制?结合?的存储优势?运用分布式加并行计算的思想。 ?本文主要研究内容本文对无线传感器网络中数据与查询算法?进行了深入的研究?具体包含以下三个方面?对有关无线传感器网络数据存储进行了分类阐述。 无线传感器网络数据存储方式?大致可以概括为三种解决策略?本地存储?外部存储?以数据为中心存储?也称为分布式存储。 本文分别对与这三种数据存储策略相关的修复算法进行了分析论述?给出了基于三种存储策略的算法优点及不足。 ?介绍大数据的发展现状?大数据中的数据有两种存储方式?基于行存储和基于列存储。 传统的关系型数据库是按照“行的方式进行存储的?数据根据不同属性按照顺序存储在磁盘上?但是行存储不利于查询?当检索某一数据时?需要逐行搜索?耗时较长?列存储是将数据按照列的方式进行存储?这样可以得到一个好的压缩比?节省存储空间?但是元素重构的开销较大。 ?提出了一种基于?的无线传感器数据存储算法。 ?是大数据中一种高效的数据存储结构?该节分析了无线传感器网络的大数据形成的原因及特点?将?的存储格式应用到?数据中?改变传感器传统的数据格式?通过仿真论证?对提出的算法进行性能评估?验证了算法的有效性和可行性。 ?基于?的无线传感器网络数据存储与查询优化策略?分析了?中数据查询处理的问题?本文基于?存储结构?提出一种低能耗高效率的数据处理机制?该处理机制运用分布式加并行计算的思想?结合行列存储的优势?减少加载数据时的能量开销?取满足实验要求的数据量进行仿真?得到压缩比的曲线图?验证了算法的可行性和有效性?并讨论了查询处理算法对响应时延的影响。 ?章节安排本文通过对无线传感器网络中现有存储算法的分析?结合大数据的解决方案?提出了一种新的优化算法。 在理论与实践中都取得了不错的成果。 本文共分为?章。 第?章为绪论。 介绍课题的研究背景及意义?其次通过在对文献的收集和阅读的基础上对国内外研究现状做了比较详细的介绍?指出了目前存储方式的优势与不足?对存储算法的相关知识以及算法进行了归纳和分析?为提出后续算法提供了理论依据。 第?章为基础理论。 介绍大数据的发展现状?目前大数据存储两种方案?行存储和列存储。 分别介绍三种存储方式的原理及结构模型和各自的优势与不足。 第?章提出了一种基于?的无线传感器数据存储算法。 将?的存储格式应用到?存储中?改变传感器网络传统的数据格式?并对算法进行仿真研究?分析和讨论了实验结果以及算法的优缺点。 第?章提出了一种基于?的数据查询处理机制?通过一定量的数据仿真表明?得到查询响应时间与能量消耗的曲线图?验证了算法的可行性和有效性。 第?章是总结与展望?对全文内容的概括?提出研究内容中的不足及未解决的问题?为下一步研究提供一些理论指导。 ?本章小结本章首先对课题的研究背景及意义、国内外研究现状做了详细介绍?为本文的后续研究提供了良好的理论基础。 其次?描述了本文的主要研究内容?然后给出了文章的段落安排。 ?相关研究?相关研究本章讨论了传感器网络中数据存储的分类以及性能指标?主要分析了以数据为中心存储分类指标?介绍了已有的以数据为中心存储策略的相关工作。 ?分类及性能评价指标本节介绍了?中数据存储与查询的评价指标以及大数据中的数据处理的模型。 ?以数据为中心存储分类考虑到数据存储的多种指标?不同指标有不同的分类标准。 主要指标有存储节点数量、相关位置、数据编码和查询维度等。 ?根据存储节点个数?分为单点存储、多点存储和路径存储。 ?依据协议的相关位置?一种是基于位置的策略?另一种是不基于位置的。 ?依据数据编码的相关性?一种基于编码的存储方式?另一种是不基于编码的存储。 有些基于编码的存储方式具备数据压缩存储的功能。 ?根据查询维度?有一维数据存储查询和多维数据存储查询。 图?传感器网络中基于位置的对等数据存储分类图?显示了传感器网络对等数据存储的分类?按照存储节点的方式和数量?基于位置的策略有?单个节点存储、根据路径存储。 无位置的策略是根据数据路由的方式?基于?的无线传感器网络数据存储与查询优化策略进行划分?主要有随机路径存储、洪泛存储、与虚拟坐标的等存储方法。 ?存储策略性能评价?查询成功率消费节点发出查询指令后?能够发现生产者节点产生的数据?称为数据查询成功?否则称为查询失败。 在传感器网络中?无法预知哪一个节点是消费节点或者生产节点?所以存储策略的查询成功程度可以用查询成功率来判断。 ?查询成本数据存储成功后?进行节点的查询和检索。 消费者节点检索到任何一个存储节点就是成功?那么就要考虑获取数据的成本。 在某些策略中?可以确定消费节点到存储节点的跳步数?然后通过算法符合的特性或者计算公式得到?有些策略中?消费节点不知道哪些节点存放数据?存储节点和消费节点的相遇是随机的?在这种情形下?可以用期望值来表示从消费节点到所有可能的节点的跳步数。 ?数据存储负载均衡性负载均衡在数据存储中十分重要?特别是在以数据为中心的数据存储中?这样避免了节点瓶颈问题和消耗电量过早?可以延长网络生命周期?用所有节点负载的方差来定义负载均衡的衡量标准?够?洲?圣兰三?刍二望力?为存储算法?为传感器网络?三代表网络负载的平均值?三?代表节点?的负载。 ?大数据中数据存储模型大数据概念最早并未出现在计算机学科中?它主要应用在其它学科中?基于海量数据的分析方法是?学科的基础分析。 当计算机与互联网结合之后?大数据技术得以快速发展。 随着互联网在我们的工作和生活中广泛应用?加上互联网、移动设备、便携式设备的普及?更多的数据更是以指数级别增长。 “数据爆炸”是当今时代的代名词?“大数据”指那些需要被分析和处理的数据集合。 首先大数据需要海量的存储空间?而且必须出现新的管理模式?才能适应大型分布?相关研究式系统?传统的数据库系统在大数据面前显得有心无力。 无线传感器网络中数据量之大?同样需要一个新的解决方案?监测区域中分布成千上万个节点?这些节点实时监测信息?节点在空间和能量有限的限制下?由于负荷而过早死亡?大大降低了网络寿命。 ?框架【?与?为大数据在大型集群【?】的分析提供了一个可伸缩的及高容错方案?而且基于?的数据仓库系统已经成功建立在主要的网络服务提供商?对于网络平台?执行各种日常操作包括网站点击分析?广告分析?数据挖掘应用等扮演重要角色。 基于?的数据库系统不能直接控制集群中的存储磁盘?它们必须利用集群级分布式文件系统?例如?、?分布式文件系统?存储大量表数据?所以?创建这种系统在于找到一个高效的数据布局结构?才能有效组织?基础下的表数据。 数据仓库性能的一个重要影响因素是?这种数据布局结构能否满足大数据处理要求?能否高效利用?环境的优势。 ?大数据处理要求即使传统系统在技术上有很大的进步?大数据技术已经改变了数据处理的领域与规模?事实上?处理大批量?速度快?多样性数据?大数据的三种特性?的需求?是大数据技术发展的主要动力。 因此?充分利用大数据技术的处理能力是新的要求。 现有的数据库技术不能适应大数据的规模?对于结构化数据和非结构化数据?需要新的系统基础设施?而且必须独立于硬件?例如?与?具有可扩展性和容错性【?】。 在所有领域中实现真正的多学科合作?虽然在各个领域的数据量都很高?但数据格式和分析的本质不同。 大数据分析必须符合社会的成本效益?传统的数据库模型是不适用的?低成本的集群软件和开源软件是研究的基础。 大数据环境中数据非常丰富且数据类型多样?存储和分析挖掘的数据量庞大?对数据展现的要求较高?并且很看重数据处理的高效性和可用性【?。 传统的数据采集单一?且存储、管理和分析数据量也相对较小?大多采用关系型数据库和并行数据仓库即可处理。 对依靠并行计算提升数据处理速度方面而言?传统的并行数据库技术追求高度一致性和容错性。 传统的数据处理方法是以处理器为中心?而大数据环境下?需要采取以数据为中心的模式?减少数据移动带来的开销。 因此?传统的数据处理方法?己经不能适应大数据的需求。 数据结构的四个要求?基于?的无线传感器网络数据存储与查询优化策略一?数据加载?指的是向分布式文件系统和本地磁盘写入数据的总开销?二?查询处理?影响查询处理的时间有两个因素?一是查询处理需要的本地存储器带宽?二是网络数据的传输量?三?存储空间应用?数据压缩比率是衡量存储空间应用的指标?采用一个高效的压缩算法?很大程度上可以提高空间使用率?四?动态负载的自适应性?大多数负载不遵循任何规则模式?这需要底层系统在存储空间有限的前提下?对数据处理中不可预知的动态数据具备高度的适应性?而不是专注于某种特殊的负载模式。 ?行存储格式行存储?是目前最常用的数据存储结构。 按照行的方式存储数据?记录指被连续的放在磁盘页中?一个记录的所有域按照它们发生的顺序?一个挨着一个排列。 在传统的数据库系统中?所有数据按照一种格式存储?行存储占主导地位【?。 图?给出一个例子?展示在?块中一张表如何按照行的方式存储。 图?行存储格式行存储的主要优点是快速加载数据?对动态负载的适应性强?这是因为行存储能够保证相同数据保存在同一个节点。 行存储对于只读的数据库系统来说?其主要缺点如下?第一?行存储不支持快速查询处理?除了表格中一些必须查询的列?还要读取一些不必要的列?第二?对于行存储来说?由于列中拥有各种不同的数据域?想要获得一个高的数据压缩比是比较困难的【?。 ?列存储格式列存储方案是基于面向列的存储模型?用于读取优化的数据仓库系统。 在列存储?相关研究中?一个关系式被分割成几个子关系。 通常有两种列存储的方案。 一种是把每一列放进一个子关系中?例如分解存储系统?、?和文献?】中提到的一种实验平台。 另一种方案在?提到?是组织所有相关的列放进不同的列组?并允许多种列组之间重叠。 本文中?我们称第一种方案为列存储?第二种方案叫列组合。 在列组合中?数组是以行为导向还是以列为导向?完全取决于系统的实现。 在?中?列组合使用列存储模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国广电舟山市2025秋招行业解决方案岗位专业追问清单及参考回答
- 中国联通定西市2025秋招半结构化面试模拟30问及答案
- 2025年定制客运考试题及答案
- 潜江市中石油2025秋招面试半结构化模拟题及答案数智化与信息工程岗
- 中国移动那曲市2025秋招计算机类专业追问清单及参考回答
- 中国联通白银市2025秋招技术岗专业追问清单及参考回答
- 中国移动昌都市2025秋招技能类专业追问清单及参考回答
- 国家能源咸阳市2025秋招综合管理类面试追问及参考回答
- 机电一建模拟试题及答案
- 2025年测试社区考试题及答案
- 2025至2030中国生物基化学品行业产业运行态势及投资规划深度研究报告
- 雾化吸入课件
- 二十四节气农事活动
- 食物中毒的心理援助与危机干预
- 2022星闪无线短距通信技术(SparkLink 1.0)安全白皮书网络安全
- 卫生公共基础知识考试大纲
- 小学数学六年级上册第五单元课件
- 《电子凭证会计数据标准-全面数字化的电子发票(试行版)》指南
- 湖南土建中级职称考试复习总结
- 混合痔痔的护理查房
- 大学物理实验长测量
评论
0/150
提交评论