大数据分析平台系统开发_第1页
大数据分析平台系统开发_第2页
大数据分析平台系统开发_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据分析平台系统开发1、搭建大数据平台离不开BI0在大数据之前,BI就已经存在很久了,简单把大数 据等同于BI,明显就是不恰当的.但两者又就是紧密关联的,相辅相成的.BI就 是达成业务治理的应用工具,没有BI,大数据就没有了价值转化的工具,就无法 把数据的价值呈现给用户,也就无法有效地支撑企业经营治理决策;大数据那么就 是根底,没有大数据,BI就失去了存在的根底,没有方法快速、实时、高效地处理 数据,支撑应用. 所以,数据的价值发挥,大数据平台的建设,必然就是囊括了大 数据处理与BI应用分析建设的.2、大数据拥有价值.来瞧瞧数据使用金字塔模型,从数据的使用角度来瞧,数据 根本有以下使用方式:

2、StaticQueryOLAPAdhocData Mining自上而下,可以瞧到,对数据的要求就是不一样的?数据量越来越大,维度越来越多.?交互难度越来越大.?技术难度越来越大.?以人为主,逐步向机器为主.?用户专业程度逐步提升,门槛越来越高企业对数据、效率要求的逐步提升,也给大数据提供了展现水平的平台.企业构 建大数据平台,归根到底就是构建企业的数据资产运营中央,发挥数据的价值,支 撑企业的开展.整体方案思路如下:建设企业的根底数据中央,构建企业统一的数据存储体系,统一进行数据建模,为 数据的价值呈现奠定根底.同时数据处理水平下沉 ,建设集中的数据处理中央, 提供强大的数据处理水平;通过统一

3、的数据治理监控体系,保证系统的稳定运行. 有了数据根底,构建统一的BI应用中央,满足业务需求,表达数据价值.提到大数据就会提到hadoop.大数据并不等同于hadoop,但hadoop确实就是最 热门的大数据技术.下面以最常用的混搭架构,来瞧一下大数据平台可以怎么制应用展Sparktrenning戮枢遮总系统B系统:系统D兼统通过Kafka作为统一采集平台的消息治理层,灵活的对接、适配各种数据源采集如 集成flume,提供灵活、可配置的数据采集水平.利用spark与hadoop技术,构建大数据平台最为核心的根底数据的存储、处理能 力中央,提供强大的数据处理水平,满足数据的交互需求.同时通过sp

4、arkstreaming, 可以有效满足企业实时数据的要求,构建企业开展的实时指标体系.同时为了更好的满足的数据获取需求,通过RDBMS提供企业高度汇总的统计数据,满足企业常规的统计报表需求,降低使用门槛.对大数据明细查询需求,那么通过 构建HBase集群提供大数据快速查询水平,满足对大数据的查询获取需求.一般的大数据平台从平台搭建到数据分析大概包括以下几个步骤:1、Linux系统安装一般使用开源版的Redhat系统-CentOS作为底层平台.为了提供稳定的硬件基 础,在给硬盘做RAID与挂载数据存储节点的时,需要按情况配置.比方,可以选择 给HDFS的namenode做RAID2以提升其稳定

5、性,将数据存储与操作系统分别放置 在不同硬盘上,以保证操作系统的正常运行.2、分布式计算平台/组件安装当前分布式系统的大多使用的就是 Hadoop系列开源系统.Hadoop的核心就是HDFS厂个分布式的文件系统.在其根底上常用的组件有Yarns Zookeeper、Hive、 Hbase Sqoop Impala、ElasticSearch Spark等.使用开源组件的优点:1使用者众多彳艮多bug可以在网上找的答案这往往就是开 发中最耗时的地方;2开源组件一般免费,学习与维护相对方便;3开源组件一般 会持续更新;4由于代码开源,如果出现bug可自由对源码作修改维护.常用的分布式数据数据仓库有

6、 Hive、Hbase Hive可以用SQL查询,Hbase可以快 速读取行.外部数据库导入导出需要用到 Sqoopo Sqoop将数据从Oracle MySQL 等传统数据库导入Hive或Hbase.Zookeeper就是提供数据同步效劳,Impala就是 对hive的一个补充,可以实现高效的SQL查询3、数据导入前面提到,数据导入的工具就是Sqoopo它可以将数据从文件或者传统数据库导入 到分布式平台.4、数据分析数据分析一般包括两个阶段:数据预处理与数据建模分析.数据预处理就是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表.这个过程可能会用到 Hive SQL,Spark QLfImpala.数据建模分析就是针对预处理提取的特征/数据建模彳马到想要的结果.如前面所 提到的,这一块最好用的就是Spar%常用的机器学习算法,如朴素贝叶斯、逻辑

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论