版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据开发平台的搭建 大数据(大数据(big data),是指无法在可承受的时间范围内用常规软件工),是指无法在可承受的时间范围内用常规软件工 具进行捕捉、管理和处理的数据集合。具进行捕捉、管理和处理的数据集合。 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对大数据技术的战略意义不在于掌握庞大的数据信息,而在于对 这些含有意义的数据进行专业化处理。换而言之,如果把大数这些含有意义的数据进行专业化处理。换而言之,如果把大数 据比作一种产业,那么这种产业实现盈利的关键,在于提高对据比作一种产业,那么这种产业实现盈利的关键,在于提高对 数据的数据的“加工能力加工能力”,通过,通过“加工加工”
2、实现数据的实现数据的“增值增值”。 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一从技术上看,大数据与云计算的关系就像一枚硬币的正反面一 样密不可分。大数据必然无法用单台的计算机进行处理,必须样密不可分。大数据必然无法用单台的计算机进行处理,必须 采用分布式架构。它的特色在于对海量数据进行分布式数据挖采用分布式架构。它的特色在于对海量数据进行分布式数据挖 掘。但它必须依托云计算的分布式处理、分布式数据库和云存掘。但它必须依托云计算的分布式处理、分布式数据库和云存 储、虚拟化技术。储、虚拟化技术。 所谓“大数据”,指的是所涉及的数据量规模巨大到无法通过目前主流 软件工具,在合理时间内达到
3、截取、管理、处理、并整理成为帮助企业 经营决策更积极目的的信息。 大数据处理技术代表了新一代的技术架构,这种架构通过高速获取数据并 对其进行分析和挖掘,从海量形式各异的数据源中更有效地抽取出富含价 值的信息。 从大量数据中挖掘高价值知识是各界对于大数据的一个共识。 大数据主要被用于分析和决策,企业用以分析的数据越全面,分析的结果 就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的 洞察力,并将其与已知业务的各个细节相融合,对企业产生新的价值。 3 增量式的、几乎无限的扩展扩展性 要求系统总是在线运行可用性 灵活可动态改变的数据模型灵活性 扩展性纵向扩展横向扩展 分布式资源集中 计
4、算和存 储分布 可用性单份数据数据复制 不要使用分布式事务处理一致性 准实时采集批量采集 Hadoop平台 MPP,基于X86平台 主数据仓库 分布式数据库 基于x86平台 数据采集(云化ETL,流数据处理、爬虫) 数据层 获取层 能力层 精细化营销智能运营物联网应用应用商店客服应用 基础分析能力数据挖掘能力实时分析能力自助分析能力多维分析能力数据共享能力 指标应用报表应用主题分析专题分析 互联网GN口 半结构化、非结构化 数据 BSS经分DM VA C MC话单业务平台 结构化数据 数据源 分布式文件系统 HDFS 记录明细数据 HBaseM/RHive 记录汇总数据 数据统一服务和开放SQ
5、L、FTP、WS、MDX、API、 分布式数据库(MPP): 存储加工、关联、汇总后的业务 数据,并提供分布式计算,支撑 数据深度分析和数据挖掘能力, 向主数据仓库输出KPI和高度汇 总数据。 主数据仓库(与MPP合设): 存储指标数据、KPI数据和高度 汇总数据。 Hadoop云平台: 负责存储海量的流量话单数据, 提供并行的计算和非结构化数据 的处理能力,实现低成本的存储 和低时延、高并发的查询能力。 数据开放接口: 向大数据应用方提供大数据平台 的能力。 数据采集(ETL): 负责源数据的采集、清洗、转换 和加载包括: 1、把原始数据加载到Hadoop平 台。 2、把加工后的数据加载分布
6、式 数据库和主数据仓库 应用层 lHDFS:分布式文件系统 有较强的容错性 可在x86平台上运行,减少总体成本 可扩展,能构建大规模的应用 lHBase:非结构化NoSQl分布式数据库 基于分布式文件系统HDFS,保证数据 安全 列式存储,节省存储空间 提供大数据量的高速读写操作 lHive:分布式关系型数据库 数据可保存在HDFS,可提供海量的数 据存储 类SQL的查询语句,提供大数据的统 计和分析操作,适合海量数据的批处 理 通过MapReduce实现大规划并行计算 lMapReduce:大规划并行计算引擎 可将任务分布并行运行在一个集群服 务器中 Hadoop平台提供了海量数据的分布式存
7、储与处理的框架。基于服务器本地的计算与存储资源, Hadoop集群可以 扩展到上千台服务器。同时,Hadoop在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供数据和计算的 高可靠保证。 HBaseMapReduceHive HDFS 快速的数 据读取 大数据存 储统计 复杂计算 并行处理 Shared Nothing 代表数据库:GreenPlum、Vertica、Teradata l适合大数据量的OLAP应用 缺点 优点 线性扩展: X86平台高可用性较低 新型MPP数据库主要构建在x86平台上,为无共享架构(Share Nothing),依靠软件架构上的 创新和数据多副本机制,实现系
8、统的高可用性和可扩展性。负责深度分析、复杂查询、KPI计算 、数据挖掘以及多变的自助分析应用等,支持PB级的数据存储。 l新型MPP分布式数据库 基于开放平台x86服务器 大规模的并发处理能力 无单点故障,可线性扩展 多副本机制保证数据安全 支撑PB级的数据量 支持SQL,开放灵活 数据分级存储原则数据分级存储原则数据融合与分级存储实施数据融合与分级存储实施 按数据血缘按逻辑层次按业务种类 按设备网络划分按设备物理地址 在线、近线在线、近线 、离线、离线 按访问按访问 频度频度 内存数据库 按响应按响应 及时性及时性 内存数据库 数据生命周期中在线数据对高性能存储的需 求,以及随着数据生命周期
9、的变更,逐渐向 一般性能存储的迁移,是分级存储管理的一 条主线。同时兼顾考虑其他分级原则,共同 作用影响数据迁移机制。 基于生命周期 基于访问压力 基于业务用途 基于物理属性 分级原则分级原则 高性能 磁盘库 磁带 光盘库 中低性能 磁盘库 将核心模型(即中度汇总的模型)通过改造融入到现 有主数据仓库的核心模型中,减少数据冗余,提升数 据质量。 将主数据仓库中的历史数据和清单数据迁移到低成本 分布式数据库,减轻主数据仓库的计算与存储压力并 支撑深度数据分析。 数据数据数据数据数据数据 1、核心模型融入主数据仓库、核心模型融入主数据仓库 主数据仓库 2、历史数据迁移到分布式数据库、历史数据迁移到
10、分布式数据库 分布式数据库 1、清、清 单数据单数据 入入MPP 数据库数据库 Hadoop平台 主数据仓库 报表 数据 标签 库 指标 数据 客户 统一 视图 信息子层 话单数据 非结构化数据 信息子层:报表数据、多维数据、指 标库等数据来源于汇总层。 汇总层:主题域之间进行关联、汇总 计算。汇总数据服务于信息子层,目 的是为了节约信息子层数据计算成本 和计算时间。 轻度汇总层:主题域内部基于明细层 数据,进行多维度的、用户级的汇总。 明细数据层:主题域内部进行拆分、 关联。是对ODS操作型数据按照主题 域划分规则进行的拆分及合并 ODS层:数据来源于各生产系统,通 过ETL工具对接口文件数
11、据进行编码 替换和数据清洗转换,不做关联操作。 未来也可用于准实时数据查询。 明细数据层 (DW) 轻度汇总层(MK) 高度汇总层(MK) 应用库 精细化 营销 分布式数据库 MPP其他应 用1 其他应 用2 应用层:应用系统的私有数据,应用 的业务数据。 精细化营销做为大数据平台的一个上 层应用,有由大数据平台提供数据支 撑 数据 访问 SQL FTP HSQ L API ETL 数数 据据 采采 集集 E E T T L L 互联网 GN口 非结构化数据 BSS 经分 DM VAC MC话单 业务平 台 结构化数据 数据源获取层 12 1 2 3 3 4 4 源数据导入ETL,进行数据的清
12、洗 、转换和入库。 基础数据加载到主数据仓库,规划 保存3年 清洗、转换后的ODS加载到分布式 数据库规划保存1+1月,在分布式 数据库内完成明细数据和轻度汇总 数据加工生成,规划保存2年 ODS数据和非结构化数据,如爬到 的网页数据ftp到Hadoop平台做长 久保存 非结化数据分析处理在Hadoop平 台完成,产生的结果加载到分布式 数据库 生成KPI和高度汇总数据加载到主数 据仓库。 Hadoop平台 主数据仓库 报表 数据 标签 库 客户 统一 视图 信息子层 话单数据 非结构化数据 明细数据层 (DW) 轻度汇总层(MK) 高度汇总层(MK) 应用库 分布式数据库 MPP 数据 访问
13、 SQL FTP HSQ L API ETL 数数 据据 采采 集集 E E T T L L 互联网 GN口 非结构化数据 BSS 经分 DM VAC MC话单 业务平 台 结构化数据 数据源获取层 1 2 3 4 6 5 业务应用通过数据访问接口获取所 需求数据。 7 精细化 营销 其他应 用1 其他应 用2 指标 数据 消息 采集 文件 采集 话单 预处理 信令 预处理 Gn 话单 位置 信令 DCN BSS炫铃VAC 短彩 平台 物联网 客服 平台 1*10GE 1*GE 2*GE S9300S9300 分布式数据库集群 新建ETL、分布式 数据库和Hadoop 集群内部各自独立 组网。
14、分别通过 10GE网口接入汇聚 交换机。 Hadoop集群 1*10GE ETL集群 1*10GE 11 Pcap数据(DPI) 互联网 路由 器 路由器 防火墙 WAP网站 WWW网站 分光镜像 DPI 数据爬取 数据爬取 数据采集Agent collector 日志采集 网元设备(GGSN PDSNWAP网关、NET网关)/ Apache日志 核心设备话单 互联网页面数据 正向采集 用户行为 数据 反向采集 互联网数 据 建设方案 p 基于Hadoop构建 大数据的用户行为 分析系统 p 系统提供了核心的 分布式云存储、分 布式并行计算、分 布式数据仓库、分 布式列数据库整体 解决方案 方
15、案延伸 p 基于Hadoop的大数据解决方案提供了 基础的云存储和云计算的能力,基于 该技术框架可进行应用的扩展和衍生。 p 基于用户互联网访问行为分析结果, 形成详细的户兴趣爱好列表,可进行 即时、精准的广告投放 12 p 系统主要包含数据采集子系统、数据入库子系统、数据存储子系统、 数据查询与分析子系统 p 采用Hadoop/HBase作为上网记录存储方案 p 采用MapReduce/Hive作用统计分析和数据挖掘工具 关键性指标 数据存储 p 上网记录入库时间:一般 小于30分钟,实际约10分 钟 p 历史5个月+当前月 数据查询 p 上网记录查询速度:不高 于1秒(不含用户访问查询 页
16、面的时间) p 并发查询数目:1000请求 /秒 以以手机上网详单手机上网详单查询为应用案例查询为应用案例 大数据平台从平台部署和数据分析过程可分为如下几步大数据平台从平台部署和数据分析过程可分为如下几步 1、linux系统安装 一般使用开源版的一般使用开源版的Redhat系统系统-CentOS作为底层平台。作为底层平台。 2、分布式计算平台、分布式计算平台/组件安装组件安装 目前国内外的分布式系统的大多使用的是目前国内外的分布式系统的大多使用的是Hadoop系列开源系统。系列开源系统。Hadoop的核心是的核心是HDFS,一个,一个 分布式的文件系统。在其基础上常用的组件有分布式的文件系统。
17、在其基础上常用的组件有Zookeeper、Hive、Hbase、Sqoop、Spark等。等。 3、数据导入、数据导入 前面提到,数据导入的工具是前面提到,数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导。用它可以将数据从文件或者传统数据库导 入到分布式平台一般主要导入到入到分布式平台一般主要导入到Hive,也可将数据导入到,也可将数据导入到Hbase 4、数据分析、数据分析 数据分析一般包括两个阶段:数据预处理和数据建模分析。数据分析一般包括两个阶段:数据预处理和数据建模分析。 数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个 过程可能会用到过程可能会用到Hive SQL,Spark QL和和Impala。 数据建模分析是针对预处理提取的特征数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。如前面所提到的,这一块最好数据建模,得到想要的结果。如前面所提到的,这一块最好 用的是用的是Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同、协同 过滤等,都已经
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 焊接工艺实施方案
- 云南宣威市民族中学、第七中学2025-2026学年八年级下学期期中数学试题(含答案)
- 规范高耗能企业建设方案
- 中学劝返工作实施方案
- 转型实施方案
- 装配式建筑施工现场安全监督方案
- 畜牧水产基地建设方案
- 网络安全防护与应急响应培训方案
- 乡镇优待证办理实施方案
- 社区居民说事室实施方案
- 2026年全国保密教育线上培训考试试题库及参考答案详解(考试直接用)
- 浙江日报采编笔试内容
- DB42∕T 2523-2026 党政机关办公用房面积核定工作规范
- 林业造林工程监理规划方案
- 广东省湛江市2026年普通高考测试(一)语文试题及参考答案
- 综治研判会议制度
- 2026年兰考三农职业学院单招职业技能考试题库含答案详解(完整版)
- 世界各地高中教育体系比较
- 原料不合格处置管理培训
- 2026年中考语文专题复习:标点符号 讲义
- 常见病小儿推拿培训
评论
0/150
提交评论