华为FusionInsight大数据平台方案介绍_第1页
华为FusionInsight大数据平台方案介绍_第2页
华为FusionInsight大数据平台方案介绍_第3页
华为FusionInsight大数据平台方案介绍_第4页
华为FusionInsight大数据平台方案介绍_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、华为FusionInsight大数据平台让数据“慧”说话产业趋势迈入大数据时代大数据应用场景IT产业快速发展移动互联70+亿 用户 接近全球人口总数 78% CAGR 数据增长大数据数据即资产未来5年,企业间的竞争在数据层面云计算云成为新一代IT基础设施 56%中小型企业购买云服务社交社交即业务86% 企业在社交媒体上开展业务 迈入大数据时代1000+PB24亿网民1天产生的数据63% GAGR非结构化数据增长率数据摩尔定律:Y=C2XX代表时间,Y代表用户的信息分享量,C代表现在时刻的分享信息量30+TB交易量3000+万笔/天1PB/SCERN:核爆产生数据的速度华为对大数据的理解本质:物

2、理世界在数字世界的映像目标:更多维度的数据,挖掘事务背后的因果关系企业提高竞争力,应该掌握和分析更多的数据大数据可以帮助企业更准确预判客户需求,洞察市场,产品创新。金融:实时征信,精准小微贷,防欺诈电信:流量经营、客户维挽、套餐包精准营销公安:同行车辆、碰撞分析、电商:亚马逊推出“预判发货”媒资:Netflix推出纸牌屋电视剧传统媒体互联网1.0互联网2.0/3.0顾客的力量和选择公司的力量和声音客户占据主动金融:大数据让银行更了解客户与识别潜在风险王五作为某银行客户,需要申请一张新的信用卡实时征信、精准营销、在线明细、精准小微贷、24周大数据平台客户信息系统交易系统信用系统根据拜访客户需要进

3、行裁减金融:大数据支撑金融从降成本向业务创新迈进互联网等技术应用让数据获取成本降低,但数据挖掘成本还很高阶段一阶段二阶段三卸载模式离线批处理海量特征全量建模实时业务创新业务根据拜访客户需要进行裁减运营商:在用户数据方面相较互联网拥有天然优势User Data in Telecom NetworksUser Profile Comparison Basic Information(Gender, Age)Preference(Interesting, Habits)Social relation(Family, Contacts)Telcos VS Internet SPsSuggestion

4、For TelcosHave done little, be potential to pursue advancers from InternetDoing well, but can do better!Knows more than competitors, should mine more.Internet SP could get user data in these 4 layersTelcos could get data in all 7 layers!Context(Location, Presence, emotion)Good base of network awaren

5、ess, could do muchcategories of User Profile运营商拥有数据源的优势,已经做了很多数据分析的工作,但可以做的更好客户移动互联网数据内容兴趣标签金融、汽车、综艺、美容、旅游、娱乐、体育、房产等自有业务偏好信息手机游戏、手机动漫、手机阅读等网络舆情热点关注钓鱼岛、辽宁号、十八大等位置轨迹家庭位置、工作场所、移动轨迹、常去地点等终端使用特征 IMEI、终端类型、是否支持GPRS、是否支持WLAN、上次换机时间、换机周期、换机次数、是否定制终端等使用时间特征上网集中时间段、平均每次上网时间、平均每天上网次数、使用最长时间等行为偏好即时通讯、微博、炒股、上网、听

6、歌、阅读、游戏等OTT业务使用应用软件偏好、网站偏好等根据拜访客户需要进行裁减运营商:大数据支撑运营商向Digital Telco转型服务器网络存储安全工程消费信息位置信息关系信息日常跟踪服务数据业务内容合作方运营电话短信video网络数据用户数据业务数据数据获取 To C:用户市场To B:企业市场To Self:内部个性化,智能化,长尾业务数据开放,企业智能。辅助决策,提升效率。数据存储数据分析与公共信息结合政府交通社交搜索与社交信息结合123基于电信自有数据数据挖掘根据拜访客户需要进行裁减公安:大数据实现在海量数据中快速发现价值信息道路自动发现治安管理社会关系发现犯罪预警根据拜访客户需要

7、进行裁减公安:以大数据为支柱的智慧警务成为警务发展的潮流智慧指挥智慧侦查智慧情报资源管理平台计算资源池网络资源池存储资源池智慧警务更高效的情报收集更方便的数据共享更精准的犯罪预防更有效的情报处理根据拜访客户需要进行裁减主流数据处理技术及数据处理技术趋势大数据处理技术数据处理技术与架构发展趋势传统数据仓库SQL、UPFSQL执行引擎行存、磁盘、单机/SE集群I/O存在瓶颈扩展能力差实时性差非结构化数据存储无法支持复杂计算数据处理能力弱UPF: User-defined Process FunctionSE: Share EverythingSN:Share Nothing并行批处理/Hadoop

8、SQL、Java、Python多种计算模型(MR、图计算、)HDFS、SN分布式解决“大、杂”多类型数据复杂计算模型灵活编程接口MPP数据仓库SQL、UPF向量迭代、并行列存、SN分布式内存分析数据库SQL、UPFMicroEngine、并行列存、内存流处理引擎CQL、规则网状算子执行内存解决“大、快”结构化数据快速查询、交互式实时查询One sizes fit all单一架构One sizes fit domain分离架构(四套系统)One stack rules them all融合架构(四套变一套)统一持久层,数据减少移动统一管理,实现资源共享和管理自动化同一数据可同时进行批处理、流处理

9、以及查询多种计算模型解决“快、杂”异构流数据实时处理MPP DB高级编程接口批计算流计算分布式文件系统资源管理开发IDE系统管理数据挖掘算法/建模/其他工具 Hadoop已成为大数据事实标准第一阶段(20052009年):模仿Google的“三驾马车”,主导者是Yahoo!,Facebook等互联网厂商,相关项目第二阶段(2009年):模仿Google的“新三驾马车”,主导者是Cloudera、Hortonworks等Hadoop发行版厂商,IBM、EMC、Intel、Huawei等传统IT厂商开始集成Hadoop,Haoop进入企业市场,相关项目第三阶段(2012年):博采众长,吸纳AMP

10、Lab、流计算等成果,通过配套工具构筑大数据领域生态系统,形成事实标准;相关项目。6大Hadoop 发行版厂商Cloudera、Hortonworks、MapR、 IBM 、EMC、Huawei揭开Hadoop神秘的面纱Hadoop是Apache基金会的一个项目总称,主要由HDFS和MapReduce组成。 HDFS是对Google GFS的开源实现,MapReduce是对Google MapReduce的开源实现。 Hadoop 来源于其创始人Doug Cutting的儿子给一头黄色大象取的名字。Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。Hadoop 框架与实例HD

11、FS 分布式文件系统Hadoop 框架HCatalog元数据管理HBase分布式列数据库HiveSQL查询语言Pig流数据处理语言MapReduce分布式数据处理框架&集群资源管理协调服务,分布式锁ZooKeepereHadoop Common分布式文件系统和通用I/O的组件与接口数据源数据仓库日志文件媒体文件RSS分布式数据存储HDFS, 分布式数据处理数据应用QueriesAnalyticsSearchDatameerSqoop、Flume、Hadoop 实例HBase MapReduceHadoop 核心组件: HDFS 和 MapReduce海量数据的分布式存储海量数据的分布式处理大数

12、据处理技术日新月异,更高效的计算框架不断涌现HDFSHadoop 1.0MapReduce集群资源管理 & 分布式数据处理HDFSHadoop 2.0YARN 集群资源管理批处理Off-line computation交互计算Tez (Hive/Pig)批处理M-R流处理Storm,S4,迭代计算Spark其它Graph Spark :迭代计算模型Spark是UC Berkeley AMP 实验室基于map reduce算法实现的分布式计算框架,输出和结果保存在内存中,不需要频繁读写HDFS,数据处理效率更高Spark适用于近线或准实时、数据挖掘与机器学习应用场景Hadoop:两步计算,磁盘存

13、储Spark:多步计算,内存存储VSSpark:大数据技术新方向Spark SQLSpark vs HadoopHadoop /Spark /是否开源成熟的开源项目开源,2013年8月申请成为Apache孵化项目文件系统HDFS支持HDFS、MESOS、S3等文件系统,可以直接将spark集成到hadoop上,可以从hdfs读取和写入文件中间结果存储存储到磁盘内存存储Job定义Map-Reduce 两步计算DAG的Job定义,支持多步计算开发语言JavaScala、Java 、Python易用性Java API,无交互式界面提供丰富的Scala, Java,Python API及交互式Shel

14、l来提高可用性容错性数据冗余,任务失败重计算Checkpoint机制,RDD支持重计算性能频繁读写磁盘,低数据缓存内存,高应用场景适用于大数据量,迭代次数少,无时延要求的业务适用于中等数据量(TB级),需要多次操作特定数据集,且频繁迭代计算的数据业务场合未来发展第2代hadoop,融合的分布式计算框架可插拔的job调度器/缓存管理策略Spark大数据栈-构建MLbase、Tachyon、GraphXStrom:流式数据处理引擎Hadoop:分批处理Storm:实时处理Storm 广泛应用于实时分析,在线机器学习,持续计算等领域。VSStorm 框架及实例Storm框架Storm实例华为大数据解

15、决方案方案介绍FusionInsight产品定位: 企业级大数据处理、分析挖掘平台运营商金融政府FusionInsight 大数据平台数据服务离/近线计算内存计算并行数据库MPPDB实时流计算征信推荐明细(影像)伪控数据采集数据集成数据探索分析结果呈现数据分析敏捷完全开放的架构,性能线性扩展丰富的工具支持,开发运维高效强大的SQL能力,业务移植便捷智慧全量建模,深刻洞察自研算法,高效精准可信全组件HA、异地容灾、金融等保 开放共赢,可信赖的合作伙伴FusionInsight产品架构概述FusionInsight的Hadoop层提供大数据处理环境,基于社区开源软件增强,按照场景选择业界最佳实践

16、FusionInsight的DataFarm层提供支撑端到端数据洞察,构建数据到信息到知识到智慧的数据供应链, 其中包括相对独立的数据集成服务Porter,数据挖掘服务Miner和数据服务框架FarmerFusionInsight Manager是一个分布式系统管理框架,管理员可以从单一接入点操控分布式集群,包括系统管理(OM/NTP/灾备)、数据安全管理HIVE/Impala/ElkHDFS/HBaseM/RSparkPorterMinerDataFarmHadoopSolr系统管理FarmerManagerHadoop APIPlugin APIOpenAPI/SDK应用服务层REST/S

17、NMP/SyslogDataInformationKnowledgewisdomYarn/ Zookeeper 安全管理MPP DBStorm为业务进行优化的统一开放大数据平台,数据处理敏捷高效智慧可信敏捷FusionInsight用100开源的核心支持混合负载,从批量、交互查询、数据挖掘,到实时流和查询等各种场景开放式存储格式(Rcfile/ORCfile/Parquet),以避免锁定私有文件格式所有的组件都通过Manager提供的插件框架来按需安装开源 轻度增强开源深度增强开源孵化特性自研DSLIDE分布式计算框架HDFS/HBaseStormMapReduce/TezPigHiveYAR

18、N/ZookeeperSparkFlumeSqoopIntegrationBatch ProcessingInteractiveQuerySearchMachine LearningEvent StreamProcessImpalaSolrMLLIB分布式存储StreamingCalculation基础设施Standard ServerIMC ServerStorage ServerPluggable AcceleratorNetworkOnline QuerySparkStreamingCQLPhoenixElkHiGraphCTBaseMPP DB组件特性优化HBase二级索引CTBase

19、MOBHDFS文件块同分布NameNode启动加速MapReduce任务优先级调度容器重用SparkSpark SQL增强Spark Core增强。丰富的工具支持,业务开发运维高效便捷智慧可信敏捷HBaseRecoverable Connection ManagerSchema DataEnhance Hbase SDKtry table = new HTable(conf, TABLE); / 1. Generate RowKey. . / 2. Create Put instance. Put put = new Put(rowKey); / 3. Convert columns into

20、 qualifiers(Need to consider merging cold columns). / 3.1. Add hot columns. . / 3.2. Merge cold columns. . put.add(COLUMN_FAMILY, Bytes.toBytes(QA), hotCol); / 3.3. Add cold columns. put.add(COLUMN_FAMILY, Bytes.toBytes(QB), coldCols); / 4. Put into HBase. table.put(put); catch (IOException e) / Han

21、dle IOE. Need to re-create connections under some scenarios.try table = new ClusterTable(conf, CLUSTER_TABLE); / 1. Create CTRow instance. CTRow row = new CTRow(); / 2. Add columns. . / 3. Put into HBase. table.put(TABLE, row); catch (IOException e) / Does not care connection re-creation.HBase原生API增

22、强APIHBase APIStormDef Input:public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) public void nextTuple() public void declareOutputFields(OutputFieldsDeclarer declarer) Def logic:public void execute(Tuple tuple, BasicOutputCollector collector) public void declareOutputF

23、ields(OutputFieldsDeclarer ofd) Def Output: public void execute(Tuple tuple, BasicOutputCollector collector) public void declareOutputFields(OutputFieldsDeclarer ofd) Def Topology:public static void main(String args) throws Exception Def Input:Create Input Stream kafkareaderDef logic:Insert into fil

24、terstr select * from kafkareader where name=“HUAWEI”;Def Output:Create Output Stream kafkawriterDef Topology:Submit application test;Storm原生APICQL:CQL SDKStorm API丰富的二次开发接口增强Step2:配置集群拓扑Step3:配置集群参数自动完成安装配置集群节点状态集群服务状态HBase RS状态便捷的运维管理DB文件服务器MR/spark/Hive任务提交目标系统HDFS/HiveHBaseRDMS数据数据FTP/SFTP/NFSJDB

25、C强大的数据加载工具MQ接入子系统containers系统管理ManagerHadoop其他外部系统外部应用RediszookeeperBLU管理服务管理Redis管理ALBHadoop APIFusionInsight Farmer高效的大数据应用开发运行平台强大的SQL支持能力,业务开发移植方便智慧可信敏捷通用SQL标准接口,全面兼容传统SQL和Hadoop的HQL全面支持JDBC、ODBC接口,并提供丰富的扩展接口如PL/C,PL/Jaca,PL/Python灵活的存储格式HDFS(ORC、Parquet),HBase(KV)基于插件式方案构建基于Spark SQL框架的差异化语法解析器

26、和性能优化器实现标准SQL的TPC-DS用例99个全部通过。满足客户常用的标准SQL诉求SparkSQL增强查询、报表、统计DataHDFSSQL 引擎SQL 引擎SQL 执行器Loader ManagerELK结构化数据分析挖掘、机器学习半/非结构化数据分析挖掘平台;流处理平台;非结构化处理平台;SQL 执行器SQL 执行器FusionInsight HDELK:SQL on Hadoop超百万维数据分析挖掘平台,深刻洞察数据价值智慧可信敏捷FusionInsight Miner数据探索并行化机器学习算法库(HIMM/Mahout/MLlib/HiGraph)建模分析行业应用使能器(Enab

27、ler)金融行业模型使能套件电信行业模型使能套件通用使能套件(标签管理、推荐引擎)特征工程数据处理平台端到端分析平台一站式平台支撑数据分析全流程 ,让大数据探索和洞察变得简单特征工程/社交化特征复用,基于分布式内存计算,支持超百万维度特征分析图形化控件开发过程封装成图形化算子,无需任何代码高性能算法库自研HiGraph算法库, 比开源Mllib算法库快35倍开放性与R无缝对接, 支持与SAS、SPSS等对接业务驱动提供基于业务问题驱动的闭环解决方案自研数据挖掘算法库HiGraph,提升数据挖掘效率智慧可信敏捷自研算法集算法名称HiGraph(目前提供60多个算法,其中50以上为华为自研算法,包

28、括对现有算法的优化以及完全自研算法)LR based SGDLR based TRONALSSVD+AproiroDBScanFastunfold。相比开源MLLIB提速3X以上可信产品:全面的产品安全性智慧可信敏捷系统安全数据安全认证安全完全开源组件增强操作系统安全加固用户组件权限控制用户权限认证管理数据完整性校验组件数据加密首家符合国家金融等级保护的大数据平台可信产品:完备的产品可靠性智慧可信敏捷系统可靠性数据可靠性所有组件无单点故障跨数据中心容灾所有管理节点HA软硬件健康状态监控网络平面隔离第三方备份系统集成关键数据掉电保护硬盘热插拔首家支持1000+km容灾的大数据平台可信开发流程:安

29、全活动嵌入IPD开发流程智慧可信敏捷安全活动DCP/TR检查点IPD安全活动融入决策检查点,合同和技术评审/其他评审或检查点安全需求安全设计安全开发安全测试安全交付和维护安全需求分析安全威胁分析安全架构/特性设计开源及第三方软件选型代码安全检视代码安全扫描报告安全测试方案和用例安全测试报告(包括开源软件)安全补丁(含开源软件及第三方软件)软件外包(安全需求传递, 设计评审,代码安全审查,安全测试验收)配置管理 (代码,文档,研发工具,开源软件) 安全基线、规范、标准、指导书ConceptTR1PlanTR2TR3DevelopmentTR4TR4ATR5QualifyTR6LaunchGALi

30、fecycleCharterCDCPPDCPADCP部分Hadoop开源风险举例智慧可信敏捷序号安全风险华为安全红线要求1不安全加密算法:包括加密算法和随机数生成 例如:zookeeper里面某些认证相关代码使用了java.util.Random弱随机函数禁止使用公司认定的不安全的密码算法,出于行业标准遵从、与第三方对接、向下兼容的场景例外。不安全密码算法: 1)分组密码算法:Blowfish, DES, DESX, RC2, Skipjack, 2TDEA, TEA 2)流密码算法: SEAL, CYLINK_MEK, RC4 (128 bits) 3)哈希算法: SHA0, MD2, MD

31、4, MD5, RIPEMD, RIPEMD-128;SHA-1禁止用于数字签名的场景 4)数字签名算法:RSA (1024 bits)、DSA (1024 bits)、ECDSA(160bits) 5)密钥交换算法:DH ( 1024 bits)2Web无需认证即可访问 ,例如:HDFS,Hbase等组件的Web服务可以直接访问,不需要是集群的合法用户。对于每一个需要授权访问的请求,必须核实用户的会话标识是否合法、用户是否被授权执行这个操作。3XSS注入保护不足 ,例如:webhdfs页面的路径输入框存在脚本注入问题在服务器端对所有来自不可信数据源的数据进行校验,拒绝任何没有通过校验的数据。

32、若输出到客户端的数据来自不可信的数据源,则须对该数据进行相应的编码或转义。4审计日志记录不全 ,例如:Hive的metastore,社区版本完全没有审计日志管理面所有对系统产生影响的用户活动、操作指令必须记录日志,日志内容要能支撑事后的审计,记录包括用户ID、时间、事件类型、被访问资源的名称、访问发起端地址或标识、访问结果等;日志要有访问控制,只有管理员才能有删除权限。5认证凭据等敏感信息打印 ,例如:hbase、hdfs等的debug日志打印了TGT信息产品安全敏感数据(如:个人用户使用的口令、操作维护用途的口令、用于网络通信协议协商的身份认证Key等)不得在日志中明文记录。开放共赢,可信赖

33、合作伙伴智慧可信敏捷2014年,金融大数据联盟成立2015年,上海联通合作创新展示中心揭幕2015年,大数据联合解决方案发布全球布局、全面覆盖大数据领域关键技术西安研究所:Hadoop产品化(IT)ELK/MPP DB(高斯实验室)深圳研发基地/香港:大数据洞察平台(IT)大数据解决方案(IT)数据挖掘算法(诺亚实验室)印度研究所:Hadoop(中央软件院)数据可视化(中央软件院)MOLAP(中央软件院)美研所:Spark (中央软件院)ELK/MPP DB(高斯实验室)大数据系统加速(香农实验室)欧研所:分布式内存DB(中央软件院)分布式计算算法(中央软件院)杭州研究所:Hadoop(中央软

34、件院)Spark(中央软件院)流计算(中央软件院)加研所:Yarn/大规模调度硬件加速(中央硬件院)金融大数据分析(IT)俄研所:大数据算法(香农实验室)融合开放、深度回馈社区4实践经验华为大数据成功实践招商银行:构筑大数据平台向互联网金融转型银行业务竞争激烈,急需以金融数据分析、挖掘为基础的产品预测、创新和风险评估,提升自身竞争力面对金融数据量和种类不断增加,传统数据仓库仅适合结构化数据处理,扩展性差、扩容成本高,无法满足大数据时代要求客户挑战解决方案企业级大数据平台:高可靠、高安全、易管理、易开发第一家支持金融等保、第一家支持1000公里以上异地容灾 的海量数据分析和挖掘平台,无缝衔接企业

35、应用拥有内核级开发的工程团队和咨询、定制化的服务能力客户价值统一的全量数据分析和挖掘平台丰富的创新业务:在线明细,精准营销,实时征信 小微贷获客预测,比传统方式提升40倍的转化率;或有金融资产预测误差率降低一倍;信用卡征信由原来的15天减少到2-5秒钟支持线性扩容,扩容成本低招商银行是中国第一家企业创办的股份制商业银行,一直秉承“创新、稳健、服务”的核心价值观,“因您而变,因势而变”的经营理念,不断创新着金融产品和服务,已经迅速发展成中国第六大商业银行,跻身全球前100家大银行之列。应用1:在线历史明细查询X86服务器X86服务器X86服务器X86服务器HDFSZooKeeperHBase/C

36、TBaseFusionInsight HDFusionInsight Farmer业务请求接入和分发分布式应用容器历史明细查询业务逻辑电话银行95555系统网点柜员系统在线历史明细查询解决方案:华为提供:FusionInsight Farmer数据服务平台 + FusionInsight HD基础数据平台解决方案,客户只需专注历史明细查询业务的编写FusionInsight Farmer数据服务平台支持多业务系统并发访问,实现实时历史明细查询能力FusionInsight Farmer数据服务平台同时支持Socket、Web业务请求接入和分发,与招行业务系统无缝衔接创新的CTBase方案,独有

37、的表聚簇和多级索引支持HBase多表关联查询的能力HBase同时支持SQL、Java API编程接口,适应客户的编程习惯Manager统一管理Loader数据集成FusionInsight历史明细查询业务逻辑历史明细查询业务逻辑应用2:全量多维度客户行为分析X86服务器X86服务器X86服务器X86服务器HDFSZooKeeperHBase/CTBaseMiner 数据洞察特征管理银行零售客户分析MRYARNHiveMahout算法库建模分析数据可视化用户特征刻画小微贷倾向分析银行对公客户分析企业舆情分析金融关系发现或有资产预测企业特征刻画企业结算关系Manager统一管理HadoopLoader数据集成全量多维客户行为分析解决方案:华为提供:FusionInsight Miner数据洞察平台 + FusionInsight HD基础数据平台的解决方案,客户只需专注客户行为分析业务的编写FusionInsight Miner数据洞察平台基于大数据全量建模分析,可以挖掘出14000维客户特征,实现多维客户行为并发分析FusionInsight Miner数据洞察平台采用机器自动学习机制,大大提高分析准确度客户行为分析结果存储在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论