




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据开发平台的搭建大数据(大数据(big data),是指无法在可承受的时间范围内用常规软件工),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。具进行捕捉、管理和处理的数据集合。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的数据的“加工能力加工能力”,通过,通过“加工加工”实现数据的实
2、现数据的“增值增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。储、虚拟化技术。所谓“大数据”,指的是所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到截取、管理、处理、并整理成
3、为帮助企业经营决策更积极目的的信息。大数据处理技术代表了新一代的技术架构,这种架构通过高速获取数据并对其进行分析和挖掘,从海量形式各异的数据源中更有效地抽取出富含价值的信息。从大量数据中挖掘高价值知识是各界对于大数据的一个共识。大数据主要被用于分析和决策,企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合,对企业产生新的价值。3 增量式的、几乎无限的扩展扩展性 要求系统总是在线运行可用性 灵活可动态改变的数据模型灵活性扩展性纵向扩展横向扩展分布式资源集中计算和存储分布可用性单份数据数据复制 不要使用分布式
4、事务处理一致性准实时采集批量采集Hadoop平台MPP,基于X86平台主数据仓库分布式数据库基于x86平台数据采集(云化ETL,流数据处理、爬虫)数据层获取层能力层精细化营销智能运营物联网应用应用商店客服应用基础分析能力数据挖掘能力实时分析能力自助分析能力多维分析能力数据共享能力指标应用报表应用主题分析专题分析互联网GN口半结构化、非结构化数据BSS经分DMVACMC话单业务平台结构化数据数据源分布式文件系统 HDFS记录明细数据HBaseM/RHive记录汇总数据数据统一服务和开放SQL、FTP、WS、MDX、API、分布式数据库(MPP):存储加工、关联、汇总后的业务数据,并提供分布式计算
5、,支撑数据深度分析和数据挖掘能力,向主数据仓库输出KPI和高度汇总数据。主数据仓库(与MPP合设):存储指标数据、KPI数据和高度汇总数据。Hadoop云平台:负责存储海量的流量话单数据,提供并行的计算和非结构化数据的处理能力,实现低成本的存储和低时延、高并发的查询能力。数据开放接口:向大数据应用方提供大数据平台的能力。数据采集(ETL):负责源数据的采集、清洗、转换和加载包括:1、把原始数据加载到Hadoop平台。2、把加工后的数据加载分布式数据库和主数据仓库应用层lHDFS:分布式文件系统有较强的容错性可在x86平台上运行,减少总体成本可扩展,能构建大规模的应用lHBase:非结构化NoS
6、Ql分布式数据库 基于分布式文件系统HDFS,保证数据安全列式存储,节省存储空间提供大数据量的高速读写操作lHive:分布式关系型数据库数据可保存在HDFS,可提供海量的数据存储类SQL的查询语句,提供大数据的统计和分析操作,适合海量数据的批处理通过MapReduce实现大规划并行计算lMapReduce:大规划并行计算引擎可将任务分布并行运行在一个集群服务器中Hadoop平台提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源, Hadoop集群可以扩展到上千台服务器。同时,Hadoop在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供数据和计算的高可靠保证。HBase
7、MapReduceHiveHDFS快速的数据读取大数据存储统计复杂计算并行处理Shared Nothing代表数据库:GreenPlum、Vertica、Teradatal适合大数据量的OLAP应用缺点优点线性扩展:X86平台高可用性较低新型MPP数据库主要构建在x86平台上,为无共享架构(Share Nothing),依靠软件架构上的创新和数据多副本机制,实现系统的高可用性和可扩展性。负责深度分析、复杂查询、KPI计算、数据挖掘以及多变的自助分析应用等,支持PB级的数据存储。l新型MPP分布式数据库基于开放平台x86服务器大规模的并发处理能力无单点故障,可线性扩展多副本机制保证数据安全支撑P
8、B级的数据量支持SQL,开放灵活数据分级存储原则数据分级存储原则数据融合与分级存储实施数据融合与分级存储实施按数据血缘按逻辑层次按业务种类按设备网络划分按设备物理地址在线、近线在线、近线、离线、离线按访问按访问频度频度内存数据库按响应按响应及时性及时性内存数据库数据生命周期中在线数据对高性能存储的需求,以及随着数据生命周期的变更,逐渐向一般性能存储的迁移,是分级存储管理的一条主线。同时兼顾考虑其他分级原则,共同作用影响数据迁移机制。基于生命周期基于访问压力基于业务用途基于物理属性分级原则分级原则高性能磁盘库磁带光盘库中低性能磁盘库将核心模型(即中度汇总的模型)通过改造融入到现有主数据仓库的核心
9、模型中,减少数据冗余,提升数据质量。将主数据仓库中的历史数据和清单数据迁移到低成本分布式数据库,减轻主数据仓库的计算与存储压力并支撑深度数据分析。数据数据数据数据数据数据1、核心模型融入主数据仓库、核心模型融入主数据仓库主数据仓库2、历史数据迁移到分布式数据库、历史数据迁移到分布式数据库分布式数据库1、清、清单数据单数据入入MPP数据库数据库Hadoop平台主数据仓库报表数据标签库指标数据客户统一视图信息子层话单数据非结构化数据信息子层:报表数据、多维数据、指标库等数据来源于汇总层。汇总层:主题域之间进行关联、汇总计算。汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。轻度
10、汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇总。明细数据层:主题域内部进行拆分、关联。是对ODS操作型数据按照主题域划分规则进行的拆分及合并ODS层:数据来源于各生产系统,通过ETL工具对接口文件数据进行编码替换和数据清洗转换,不做关联操作。未来也可用于准实时数据查询。明细数据层 (DW)轻度汇总层(MK)高度汇总层(MK)应用库精细化营销分布式数据库MPP其他应用1其他应用2应用层:应用系统的私有数据,应用的业务数据。精细化营销做为大数据平台的一个上层应用,有由大数据平台提供数据支撑数据访问SQLFTPHSQLAPIETL数数据据采采集集E ET TL L互联网GN口非结构化数
11、据BSS经分DMVACMC话单业务平台结构化数据数据源获取层12123344源数据导入ETL,进行数据的清洗、转换和入库。基础数据加载到主数据仓库,规划保存3年清洗、转换后的ODS加载到分布式数据库规划保存1+1月,在分布式数据库内完成明细数据和轻度汇总数据加工生成,规划保存2年ODS数据和非结构化数据,如爬到的网页数据ftp到Hadoop平台做长久保存非结化数据分析处理在Hadoop平台完成,产生的结果加载到分布式数据库生成KPI和高度汇总数据加载到主数据仓库。Hadoop平台主数据仓库报表数据标签库客户统一视图信息子层话单数据非结构化数据明细数据层 (DW)轻度汇总层(MK)高度汇总层(M
12、K)应用库分布式数据库MPP数据访问SQLFTPHSQLAPIETL数数据据采采集集E ET TL L互联网GN口非结构化数据BSS经分DMVACMC话单业务平台结构化数据数据源获取层123465业务应用通过数据访问接口获取所需求数据。7精细化营销其他应用1其他应用2指标数据消息采集文件采集话单预处理信令预处理Gn话单位置信令DCNBSS炫铃VAC短彩平台物联网客服平台1*10GE1*GE2*GES9300S9300分布式数据库集群新建ETL、分布式数据库和Hadoop集群内部各自独立组网。分别通过10GE网口接入汇聚交换机。 Hadoop集群1*10GEETL集群1*10GE11Pcap数据
13、(DPI)互联网路由器路由器防火墙WAP网站WWW网站分光镜像DPI数据爬取数据爬取数据采集Agentcollector日志采集网元设备(GGSNPDSNWAP网关、NET网关)/Apache日志核心设备话单互联网页面数据正向采集用户行为数据反向采集互联网数据建设方案p 基于Hadoop构建大数据的用户行为分析系统p 系统提供了核心的分布式云存储、分布式并行计算、分布式数据仓库、分布式列数据库整体解决方案方案延伸p 基于Hadoop的大数据解决方案提供了基础的云存储和云计算的能力,基于该技术框架可进行应用的扩展和衍生。p 基于用户互联网访问行为分析结果,形成详细的户兴趣爱好列表,可进行即时、精
14、准的广告投放12p 系统主要包含数据采集子系统、数据入库子系统、数据存储子系统、数据查询与分析子系统p 采用Hadoop/HBase作为上网记录存储方案p 采用MapReduce/Hive作用统计分析和数据挖掘工具关键性指标数据存储p 上网记录入库时间:一般小于30分钟,实际约10分钟p 历史5个月+当前月数据查询p 上网记录查询速度:不高于1秒(不含用户访问查询页面的时间)p 并发查询数目:1000请求/秒以以手机上网详单手机上网详单查询为应用案例查询为应用案例大数据平台从平台部署和数据分析过程可分为如下几步大数据平台从平台部署和数据分析过程可分为如下几步1、linux系统安装一般使用开源版
15、的一般使用开源版的Redhat系统系统-CentOS作为底层平台。作为底层平台。2、分布式计算平台、分布式计算平台/组件安装组件安装目前国内外的分布式系统的大多使用的是目前国内外的分布式系统的大多使用的是Hadoop系列开源系统。系列开源系统。Hadoop的核心是的核心是HDFS,一个,一个分布式的文件系统。在其基础上常用的组件有分布式的文件系统。在其基础上常用的组件有Zookeeper、Hive、Hbase、Sqoop、Spark等。等。3、数据导入、数据导入前面提到,数据导入的工具是前面提到,数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导。用它可以将数据从文件或者传统数据
16、库导入到分布式平台一般主要导入到入到分布式平台一般主要导入到Hive,也可将数据导入到,也可将数据导入到Hbase4、数据分析、数据分析数据分析一般包括两个阶段:数据预处理和数据建模分析。数据分析一般包括两个阶段:数据预处理和数据建模分析。数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到过程可能会用到Hive SQL,Spark QL和和Impala。数据建模分析是针对预处理提取的特征数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。如前面所提到的,这一块最好数据建模,得到想要的结果。如前面所提到的,这一块最好用的是用的是Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同、协同过滤等,都已经在过滤等,都已经在ML lib里面
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 定制厂房招标方案(3篇)
- 制造工厂拆除方案(3篇)
- 学前教育信息化政策环境与产业生态研究报告:2025年市场前景分析
- 体育赛事的财务管理
- 击剑器材维护方案(3篇)
- 路堤骨架施工方案(3篇)
- 商户旧门改造方案(3篇)
- 企业能源监管方案(3篇)
- 楼盘定价方案说明(3篇)
- 桥梁断裂施救方案(3篇)
- 2023年中山大学附属第二医院护士招聘考试历年高频考点试题含答案解析
- 《艺术导论》课程教学大纲
- 浙江2023年温岭农商行招聘笔试上岸提分题库3套【500题带答案含详解】
- YS/T 1163-2016粗铟
- GB 20664-2006有色金属矿产品的天然放射性限值
- 小学数学课堂教学有效性的课件
- 赣州市在建项目关键岗位人员变更备案表(样表)
- 北理工概率与数理统计-往年考题-课件
- 电梯配件报价单(空表)
- 露天煤矿生产安全安全事故应急预案
- 高速铁路涵洞工程顶进施工施工工艺
评论
0/150
提交评论