基于云计算的大数据处理技术.docx_第1页
基于云计算的大数据处理技术.docx_第2页
基于云计算的大数据处理技术.docx_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于云计算的大数据处理技术孙 海 军(天 津 商 业 大 学 信 息 工 程 学 院 天 津300134)【 摘 要 】为解决大数据处理的瓶颈,分析了大数据及云计算的关键技术,论述了大数据和云计算之间的关系,利用云计算在数据存储、数据管理和虚拟化等方面的技术优势,构建了基于云计算的大数据管理和处理模式,为大数据 的研究及应用提供了新的思路和技术基础。【 关键词 】大数据;云计算;数据处理【 中图分类号 】tp391.1【 文献标识码 】abig data processing technology based on cloud computingsun hai-jun(dept. of information engineering, tianjian university of commerce tianjin 300134)【 abstract 】in order to solve the bottleneck of big data processing, this paper analyzed the key technology of big data and cloud computing, discussed therelationship between big data and cloud computing, used the technology advantage of the cloud computing in the aspect of data storage, data management and virtual constructs, construed management and processing model of large data based on the cloud computing , and provides new ideas and technical basis for the research and application of large data.【 keywords】big data; cloud computing; data processing行 统 一 的 管 理 和 调 度 ,构成 一个资源池随时向用 户 提供 按 需 服 务 。 利 用 “云 ”,用 户可以通过网络方便的 获 取强 大 的 计 算 能 力 、存储 能力以及基础设施服 务 等 。云 计 算作为一种数据密 集 型的新型超级计算 ,其 技 术 实 质 是 存 储 、计 算 、服 务 器 、应 用 软 件 等 it 软 硬 件 资 源 的 虚 拟 化 。 云 计 算 在 数 据 存 储 、数据管理和虚拟 化 等 方面具有自身独特 的 技术 。2.1 数据存储技术云 计算技术的基础是信 息 存 储 的安全可靠性和读 写 的 高 效 性 。 云计算采用 分布式存储技术把海量 的 数据 存 储 在 服 务 器 集 群 中 , 同时 为一份数据存储多份 备 份 , 采 用冗余存储的方 式 和数据加密技术来保证 数 据的安 全 可 靠 性 ,google 非 开 源 的 gfs 和 hadoop 团 队 开 发 的 gfs 的 开 源 实 现 hdfs 是 云 计 算 系 统 中 广 泛 使 用 的 数 据 存 储 系 统 。1引言大 数 据 是随着云计算的 兴 起而产生的 ,它 有 四 明 显 个 特 征 : 数 据 的 容 量 大 (volume)、 数 据 的 类 型 多 样 化 (variety) )、数据的产 生和处理速度快 (velocity)、数 据 中 蕴含着巨大的价值(value),即 所 谓 的 4v 概 念 。 另 外 ,还 有 观点提出了数据精准性 (veracity)的 特 征 , 强 调 大 数 据 分 析 处 理 的 精 准 性 ,从 而 形 成 了 5v 的 模 式 。大 数 据 与传统数据在存储 、计算和检索等方面有着 显 著 的 区 别 。 传 统 数 据 是 线 性 的 ,大数据则是离散的 ,具有 发 散 性 、随 机 性 、复 杂 性 、爆 发 性 等 特 点 。相 比 ,大数据更能真实 地 反映客观世界 。2云计算及其关键技术与 传 统 数 据云 计 算 是 网 格 计 算 、并 行 计 算 、分布式计算的发展 。云 计 算 把 大 量 的 存 储 和 计 算 资 源 ,通过网络连接起 来 进信息安全与技术2014 年 11 月 61practical method 实践方法2.2 数据管理技术对 海量数据进行分布式 的 处理与分析 ,并 向 用 户 提 供 高效的服务是云计算 的 主要功能 , 因 此 要 求 其 数 据 管理技术必需能够 提 供高效的大数据管理能力 。 google 的 bigtable 数 据 管 理 技 术 hadoop 团 队 开 发 的 开 源 数 据 管 理 模 块 hbase 是 当前云计算系统中主 要 的数据管 理 技 术 。2.3 虚拟化技术虚 拟化技术是云计算 、 云存 储服务的基础和关键 。 它 将原本运行在真实环 境 中的计算机系统或者 组 件移 植到虚拟化的环境中 ,通过在硬件资源 、操 作 系 统 和 应 用 程 序 这 些不同 的层次之间构建一个虚 拟 化层 ,这 个 虚 拟 化 层 做 为 中间层连接上下两层 ,它 向上层提供下层相 同 或 类 似 的 功 能 , 这样上层不直 接运行在下层环境中 , 而 是运行在这个虚拟化 的 环境层中 。 虚拟化层解除 了 上 下 两 层 的 耦 合 关 系 ,使上层 的运行不依赖于下层 的 具体 实 现 。 虚 拟 化 可 以 节 省 开 销 、整 合 服 务 、使 资 源 得 到 最 大 利 用 。3大数据和云计算的关系云 计算为大数据处理提 供 了一个很 好 的 平 台 。 大 数 据 离 不 开 云 计 算 ,云计算 是大数据处理方式的最 佳 选 择 。 云计算能为大数 据 提供了强大的存储和 计 算能力 , 能 够 更 加迅速地 处理大数据的丰富信息 ,并 更 方 便 地 提 供 服 务 。式 ,而在企业之间采用分 布 式采集模式 ,这 种 数 据 的 采集 中 , 每个企业内部 设 置一个或者多个中心服 务 器 ,该 中 心 服 务 器作为虚 拟组织内的集中式的 数 据注册机构 , 负 责 存 储 共 享 的 数 据 信 息 。 企业之间所 有的中心服务器 之 间则采用分布式数据 采 集模式进行组织 。大 数据既包括结构化数 据 又包括半结构化 、非 结 构 化 数 据 ,在进行云计算 的 分布式采集时 ,应 按 照 不 同 的 数据类型分类存储 。 云 计算具有很强的扩展 性 和容错能 力 ,可将数据池内相同或 者 相似的数据同构化 ,同 时 可 以 应 用 集 群 技 术 、虚拟 化技术实现机构之间的 无 缝对接 和 超 级 共 享 。4.2 大数据的存储由 于大数据本身的特点 ,传 统的数据仓库也已经无 法适应大数据的存储 需 求 。 首 先 ,大数据的急剧增长 ,单 结 点 的 数据仓库系统往 往 难以存储和分析海量 的 数据 。 其 次 ,传统的数据仓 库是按行存储的 ,维 护 大 量 的 索 引 和 视图在时间和空间方 面 成本都很高 。基 于云计算的数据仓库采 用 列 式 存 储 。 列 式 数 据 仓 库的数据是根据属性 按 照列存储 , 每 一 属 性 列 单 独 存 放 。 投影数据时只访 问 查询涉及的属性列 ,大 大 提 高 了 系统输入和输出效率 。 由 于列式存储的 数 据 具 有相 同 的 数 据 类 型 ,相邻列 存储的数据相似性比较高 ,可 以 有更高的压缩率 , 而 压缩后的数据能减少 输 入 与 输 出 的 开 销 。4.3 大数据的联机分析联 机分析处理是数据仓 库 系统的主要应用 。 它 支 持 复 杂 的 分 析 操 作 ,侧 重 于 决 策 性 分 析 ,并且能够提供直 观 易 懂 的 查 询 结 果 。 在 联 机 分 析 当 中 ,云 计 算 的 分 布 式 并 行 计 算 从数据仓 库中的综合数据出发 ,提 供 面 向 分 析 的 多 维 模 型 ,并使用多维分析的方法 从 多个角度 、多 个 层 次 对 多 维数据进行分析 ,使决策 者能够更全面地分析 数 据 。多 维数据分析是联机分 析 处理的一个主要特点 ,这 与 数 据仓库的多维数 据 组织正好契合 。 因 此 ,利 用 联 机 分 析 处 理 技 术 与 数 据 仓 库 的 结 合 ,可 以 很 好 地 解 决 决 策 支持系统中既 需要处理海量数据又需 要 进行大量数 值 计 算 的 问 题 。4.4 大数据的挖掘利 用联机分析一般只能 获 得数据的表层信息 ,难 于 揭示数据的隐含信息 和 内在关系 。 大数据挖掘是 指 从海 量 数 据 的大型数据仓库 中 提取人们感兴趣的隐 性 知识 ,云 计算强调的是计算 ,而 大 数 据 则 是 计 算 的 对 象 。前 者强调的是计算能力 ,后 者看重的存储能力 。 大 数 据需 要 处 理大数据的能力 ,而这种能力其实就是 强 大的云 计 算 能 力 ;而来自 大数据的业务需求 ,也 为 云 计 算 的 实 施 找 到 更 多 更 好 的 实 际 应 用 。4 基于云计算的大数据处理技术传 统的数据管理以收集 和 存储为主 , 在 云 环 境 下 , 大 数 据 的管理将创新数 据 的管理模式 ,偏 重 数 据 的 分 析 与 挖 掘 ,为 管 理 与 决 策 服 务 。4.1 大数据的采集大 数据的采集通常分为 集 中式采集和分布式采集 , 二 者 各 具 优 缺 点 。 集中式 采集易于控制全局数据 ,分 布 式采集灵活性好 。 大数 据的采集涉及企业内 部 的采集和 企 业 之 间 的 采 集 ,充分利用 云计算分布式并行计 算 的特 点 ,采用混合式的 大 数据采集模式将会更有 效 率 ,即 在 整 个 大 数 据 采 集 过 程 中 ,企业内部采用 集 中式的采集模 622014 年 11 月 信息安全与技术实践方法 practical method这 些 知 识是事先未知且 是 潜在的 ,提取出来的知 识 通常 可 以 用 概 念 、规 则 、规 律或模式等形式来表示 。基 于云计算的大数据挖 掘 采用分布式并行挖掘技 术 。 分布式并行数据挖 掘 技术的特点在于它适用 于 处理 大 规模的数据处理 。 一般的 串行数据挖掘算法只 能 适用 于 规模较小的数据 , 并且其 运行需要花费大量的 时 间 。 分 布 式 并 行数据挖掘 是指在分布式系统中 ,机 器 集 群 将 并行的任务拆分 , 然后交由每一个空闲 机 器去 处 理 数 据 ,极 大 地 提 高 了 计 算 效 率 。mapreduce 是 云计算环境中处理大规 模 数 据 集 的 挖 掘 模 型 ,程 序 员 在 map(映 射 )函 数 中 指 定 各 分 块 数 据 的 处 理 过 程 ,在 reduce(规 约 )函数中对分块处 理 的中间 结 果 进 行 归 约 。 在 大 数 据 中 的 应 用 ,不仅可以提高 数 据 挖 掘 的 效 率 ,而且这种 机器数据的无关性对于 计 算集群 的扩展也提供 了 良好的设计保证 。4.5 大数据的可视化大 数据挖掘可以提取到 大 量人们感兴趣的信息 ,应 用可视化技术可以更 好 的揭示这些海量信息之 间 的 关 系 及 趋 势 。 数据可视 化是对大型数据库或 数 据仓库中的 数 据 的 可 视 化 ,它是可视化 技术在非空间数据领 域 的应 用 ,是 将大型数据集 中的数据以图形 、图 像 形 式 表 示 ,并 利用数据分析 和 开发工具发现其中未 知 信息的处理 过 程 。 它使人 们不再局限于通过关系 数 据表来观察和分析 数 据 , 还能以更直观的方 式 看到数据及其 相 互 结 构关 系 。 在 云 环 境 下 ,大数据 的可视化不仅可以用图 像 来显 示 多 维 的 非 空 间 数 据 , 帮助用户对数据含 义 的理解 ,而 且 可 以 用 形 象 、 直观的图像来指引检索 过 程 , 提 高 了 检 索 速 度 。5结束语大 数据需要超大的存储 容 量和计算能力 ,云 计 算 作 为 一 种 新 的 计 算 模 式 ,为 大数据的研究及应用提 供 了技 术 基 础 。大 数 据 与 云 计 算 相 结 合 ,相 得 益 彰,都 能 发 挥 出自 己 最 大 的 优 势 ,也 必 定 能 创 造 出 更 大 的 价 值 3。 随 着技 术 的 成 熟 , 自 动收集和统计海量的 数 据将越 来 越 简 单 ,但 是 蕴藏 在大数据中深层次的 价 值的挖掘还须人的 参 与 ,因此为用户提供更多 可 视化 、简化的大数据应用 软 件 ,将成为大数据研究 的 一个重要方面 。参考文献1 张 蕾.基 于 云 计 算 的 大 数 据 处 理 技 术 j.信 息 系 统 工 程 ,2014,4:121.2 孟 小 峰 ,慈 祥 .大 数 据 管 理 :概 念 、技 术 与 挑 战 j.计 算 机 研 究 与 发 展,2013,50(1):146.169.3 余 建 烽 ,张 振 宇 .大 数 据与云计算的关 系 及发展趋势探讨 j.信 息 科 技,2014,1(上 ):201-203.4 张 春 艳.云 计 算 下 的 srint 并 行 算 法 研 究 j.软 件,2010(11):576

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论