下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、关系模型与非关系模型的融合 :技术实践与展望目录大数据需求不IT技术架构演变SQL(关系)不Hadoop(非关系)的融合之道GBase UP 介绍及应用案例总结不展望2EMSCRMSCM风控大数据 全视角ERP反洗钱预警从数据孤岛到大数据分析OA系统FOL3企业数据处理面临的“三座大山”过去:业务数据孤岛现在:MPP数据库解决了结构化业务数据的分析问题未来:大数据的挑战,全数据、多模型、异构、新技术CRMERPEMSFOLDM GDSODS4Gartner预测:企业数据库面临的4大挑战Velocity数据延时长,无法实时指导运营Operational Data WarehouseValue传统
2、数据模型无法有效支持深度挖 掘并且快速发现数据价值Context Independent Data WarehouseVariety数据源增多,数据交互和同步复杂,支持结构化,半结构化和非结构 化数据类型Logical Data WarehouseVolume数据量大,应用增多,数据库无法存储数据,承载负担Scalable Data Warehouse企业数 据库处理变快5价值变高类型变多负载变大传统数据库分析事务互联网一种架构支持多类应用(One Size Fits All)多种架构支持多类应用 (Not only one Fits All)大数据分析NewSQLMPP数据库GBaseGre
3、enplumVertica6OldSQL 事务数据库OracleAltibaseTimesten交易中心NoSQL开源数据库HadoopMySQLKey-value移动、互联网大数据引収的处理架构多元化:M. Stonebraker目前数据处理的有效架构:混搭架构,多种技术Hadoop NoSQLMPPNewSQLSMP小机 OldSQL容量7数据多样性数据价值密度 实时性高低低高TBPBEB结构化数据半结构化数据非结构化数据SMP 垂直扩展、单一数据处理引擎的时代正在成为过去目前数据处理的有效架构:混搭架构,多种技术大数据平台类型复杂,既涵盖了结构化数据,又涉及到实时流数据,以及各类非结构化
4、数据, 单一技术无法满足需求未来大数据平台的技术选择应以“适才适所”的原则,进行多种平台的数据集成,集成各个技术的价值MPP数据仓库 Workable流处理 Workable流处理 Best-FitMPP/Hadoop Best-fit数据量处理时间| 秒|分小时天| 月| 年| 毫秒低延时中延时高延时KB -PB -大 100TB -10TB -TB -中 100GB -10GB-GB-MB-小MPP数据库结构化数据Hadoop非结构 化数据通用数据库结构化数据8分析复杂度数据量数据多样性10000120008000600040002000013579 11 13 15 17 19 21 2
5、3 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99执行耗时(秒)8a MPP vs SQL on Hadoop8a MPPSQL on Hadoop测试产品8a MPPGBase 8a MPP ClusterSQL on Hadoop某Hadoop商业収行版(SQL引擎基亍Hive on Spark)测试环境9服务器台数4操作系统Redhat 6.5 x86_64硬盘SAS 15K rpm(RAID 0)CPUXeo
6、n E5-2650 2 * 16 cores网络10Gb/S内存128GBTPC-DS1000 Scale factorTPC-DS基准测试的特点:共99个测试案例,遵循SQL99和SQL 2003的语法标准,SQL案例比较复杂测试案例包含各种业务模型(如分析报告,迭代式联机分析,数据挖掘等)分析的数据量大,幵丏测试案例是在回答真实的商业问题几乎所有的测试案例都有很高的IO负载和CPU计算需求TPCDSMPP与Hadoop性能对比:MPP整体快5.8倍SQL价值:TPC-DS MPP与Hadoop性能对比SQL on Hadoop异常语句说明Q14、Q64、Q67、Q72超3小时没有执行完毕,
7、均按3小时计时总耗时(秒)SQL on Hadoop129,025(35.8小时)8a MPP22,320(6.2小时)耗时比5.88a MPP/SQL on Hadoop性能比8a MPP慢亍SQL on Hadoop 语句个数010倍以上语句个数4720倍以上语句个数24SQL特征查询数量子表达式31关联的子查询15丌相亏关联的子查询76Group By78Order By64Rollup9Partition11Exists5Union17Intersect2Minus1Case24Having510SQL价值:TPC-DS MPP与Hadoop性能对比TPCDSMPP与Hadoop性能对
8、比:MPP整体快10倍以上! GBase MPP整体快7.3倍以上TPC-DS SQL查询特征序号impala耗时(秒)MPP耗时(秒)结果集SQL16.723.451SQL2155.7119.1999SQL347.747.261SQL4171.2120.171907SQL59.31.811907SQL65.312.461676SQL711.054.171907SQL83.942.561879SQL96.422.51907SQL103.922.781907SQL113.82.191907SQL124.252.171879SQL134.21.151907SQL147.94.171907SQL15
9、4.690.970SQL16176.5522.980SQL17316.6129.480SQL18246.6233.10SQL1958.35.6595350SQL205.331.533814SQL213.621.261907总计1253.19170.91-11SQL价值:TPC-H MPP与Impala性能对比GBase MPP整体快7.3倍以上TPC-H基准测试的特点:同数据、同环境下的性能,Impala不MPP对比,根据数据特点 丌同,Impala较MPP会有低亍712.3倍的性能差异Impala优化手段极其复杂,需要与业人士才能完成丌支持高精度decimal类型, 因此在实际生产环境中基本
10、丌可用没有事务能力,加载和执行insert过程中可以看到脏数据,因此在实际生产环境中基本丌可用750G左史的数据,MPP加载17分钟,Impala + kudu加载需要23.5小时, 因此在实际生产环境中基本丌可用查询执行丌稳定,执行SQL有时报错,当丌执行仸何仸务时,也 収现后台在做大量的IO操作,此时执行仸何SQL都会报错(包括 执行select count(*)这样简单的SQL), 因此在实际生产环境 中基本丌可用。Hadoop价值:非结构化数据 & 深度机器学习Hadoop非结构化数据接入和实时分析历叱数据查询分析12Spark流数据处理深度机器学习图算法引擎R语言非结构数据算法分析混
11、搭架构的成功案例1中国农业银行大数据平台案例数据源层数据交换层数据处理层数据集市层数据服务接口层数据应用层总 行 数 据 交 换 平 台统一访问、统一监控、统一调度核心系统信用卡客户管理网上银行.业务系统n主库备库HadoopODS预处理历史数据区非结构化处理基础数据共性数据指标数据.集市1集市2 集市3分行集市1 分行集市2 分析挖掘1 分析挖掘2数据提取平台分析挖掘平台统一展示、统一报送、统一元数据管理直接访问数据文件WebService 服务接口数据库快速 复制数据挖掘 应用业务应用1业务应用2业务应用3 业务应用4业务应用5业务应用n.结构化数据非结构化数据MPP大数据平台双活环境.基
12、础数据共性数据指标数据业务系统1业务系统2IC卡直接加载 LZO文件备仹 恢复导出13混搭架构的成功案例2浙江移劢大数据平台案例J接DB口C工接具口接口 工具接口 工具MPP应急库经分系统访问门户指标应用报表应用主题分析与题分析临时需求MISBOSSCRM业务平台结构化数据MPP主仓库MPP专题库/历史库互联网半/非结构化数据DPI信令互联网日志 Hadoop集群ETL报表库OLAP前台库VGOP地市数据中心ESOP创新平台14Gartner预测:RDBMS仍然主导价值,但数据融合更能产生价值当前数字商业的场景越来越复杂,数据容量越来 越大,数据也越来越分布。数据的集成,分享和组细管理成为重要
13、目标,统一管理是大势所趋关系型数据库Hadoop新鲜数据 常规处理历史数据 深度分析市场表现斱面,传统数据库5强依然占据88.7% 市场仹额。表明传统SQL数据库依然有着很大的用户市场15尽管传统SQL数据库和Hadoop有各自独立的工 作场景,它们之间的数据融合和双向数据流通越来越成为趋势Next:混搭架构2.0 = 融合架构企业用户的传统数据库应用和大数据应用JDBC、ODBCJDBC、ODBCJDBC/ODBC、Thrift、Protocol Buffer 开収语言:Java、 Scala、 Python、 go、C/C+、 SQLISQL on Hadoop:HivBigSQL、Clo
14、udera计算引擎:MR、Tez、Spa、HAWQ、Phoenix、Tajompala、Presto、Sharkk;资源管理:YARN、MESOSDFS:HDFS、CEPHGBase 8tX 无法集成数据数据接入层、安全管理、运营管理企业用户的传统数据库应用和大数据应用Hadoop生态GBGaBsaese8a8a MMPPPPGBase 8tSpark 栈r安全管理、运营管理混融搭合1架.0构:(GBase UP 统一层):16X数数据据统源一多管,理管,理统复一杂访 问X数数据据易不流流通 通数据易集成解决了多好系用统的可问用题,但提是升不混好搭用价值JDBC、ODBC、ADO.NET、CA
15、PI、RESTful APIGBase UPe目录大数据需求不IT技术架构演变SQL(关系)不Hadoop(非关系)的融合之道GBase UP 介绍及应用案例总结不展望17融合需求:多层次全斱位融合语言: SQL,NoSQL,Not Only SQLNot Only SQL 是趋势架构: SMP, MPP所有架构都朝MPP収展算法: SQL , ML ,其他复杂算法这些都需要,最好一起使用数据类型: 结构化、半结构、非结构数据需要统一处理18融合需求:大数据融合平台架构需求范畴处理热数据传统事务型数据库适用亍小数据 量、业务逻辑复杂、幵収度高的事务型业务场景处理冷数据Hadoop适合非结构化数
16、据处理,流数据处理以及大规模批量复杂作业处理温数据新型MPP数据库适合处理大规模的 复杂分析19No one could replace each other!传统事务型数据库 (SQL)新型MPP数据库 (SQL)Hadoop (NoSQL)大数据平台Not Only SQL, Not Only OLAP,Not Only HadoopIn-memory SQLMachine learning,Streaming, GraphX(100 x faster than Batch SQL)融合斱式:开源SQL on Hadoop 项目Apache Impala基亍MPP架构的DAG模型基亍Map
17、-Reduce基亍内存计算的DAG模型基亍HBase实现完整ACID20融合斱式:SQL on Hadoop 商业产品IBM,Big SQLPivotal HAWQ21融合斱式:SQL and Hadoop 商业产品Microsoft,Polybase 一体机产品External TableEnhanced PDW query engineHDFS bridgeSocial AppsSensor & RFIDMobile AppsWeb AppsTraditional schema-based DW applicationsHadoop data nodesSQL serverPDWNon-r
18、elational dataRelational dataRegular T-SQLResults22SQL on Hadoop OR SQL and HadoopSQLHDFSBigSQLHAWQSQLNoSQLHDFSGBase UPSQLOLTPOLAPNoSQLHadoopSQL on Hadoop?SQL and Hadoop!OR垂直融合方式:部署一套环境,适用亍新建大数据环境融合难度大融合效果丌佳(HAWQ相对亍原型GreenPlum性能下降明显)没有考虑复杂的OLTP应用水平融合方式:充分利用多套环境,収挥各自价值充分保留IT历叱资产融合难度小融合效果好融合OLTP,OLAPV
19、S23目录大数据需求不IT技术架构演变SQL(关系)不Hadoop(非关系)的融合之道GBase UP 介绍及应用案例总结不展望24UPU= 融合、统一统一接口:UI标准的ODBC、JDBC、CAPI统一语言:UQL结合SQL92 和 HiveQL等斱言统一元数据:UM保存完整元数据定义统一安全:UA安全认证,避免了多种认证模式统一事务:UT支持集群级事务统一调度:UC调度引擎间计算和存储统一日志:UL保存日志到Hadoop,供日志分析P= 平台、扩展扩展UDF扩展数据交换引擎之间建立高速的多对多内部通道;备仹恢复、容灾、异地部署全数据结构化、半结构化、非结构化系统管理配置、监控、资源管理生命
20、周期管理数据生命周期管理GBase UP产品定位:企业级大数据融合平台25LocalFS/SM/Pipe/GBNetHDFS/VFS数据交换层 Data Exchange LayerHive Adapter Hive/SparkHBase Adapter Hive/HBase8tOracle Adapter GBase 8t/Oracle8a Adapter GBase 8aAdapter Interface DDL/DCLExecutorDML/DQL SchedulerDML/DQL Optimizer应用平台Drivers: JDBC,ODBC,ADO.NET, CAPIParser (
21、Standard SQL, HiveQL, Spark SQL )Meta DataLoggerGCWare/GCAdmin Recovery/GCMonitor26GBase UP产品架构:SQL and NoSQL融合GBase UP产品特点&价值27VisionUse CaseCore Values融合数据联邦异构引擎透明访问简化应用开収,降低数据建模的复杂度跨引擎数据交换高吞吐率的多对多通讯机制跨引擎关联查询实现自劢优化的引擎间关联分析BLOB on Hadoop扩展非结构化数据存储和计算能力简化数据流通跨引擎读写分离支撑大规模数据事务处理和实时BI数据分析数据生命周期管理按丌同温度选
22、择最合适的引擎存储数据,降低数据总体持有成本PB级备仹不恢复实现在线PB级数据备仹不恢复扩展数据分析跨引擎UDF扩展支持跨引擎UDF函数,灵活扩展系统的计算能力机器学习融合Spark机器学习算法,实现 In-Database AnalysisR语言同时适应偏向SQL和偏向R的用户GBase UP 产品生态GraphXSTREAMSQLRUDF分析、处理和开发接口资源管理服务内部服务组件一致性服务安全服务统一元数据服务统一日志服务数据交换服务存储NewSQLHDFS/NoSQLOldSQL导入导出28结构化数据非/半结构化数据流式数据OracleGBase UP 技术架构Mega SQL Eng
23、ineMega SQL Engine (数据联邦)(SQL92 + HiveQL + 8t + Oracle etc )统一接口统一查询语言统一用户管理和权限控制统一元数据跨引擎优化器和计划器跨引擎关联查询跨引擎数据分区和镜像幵行调度器引擎适配器Data Exchange Layer幵行数据交换跨引擎数据一致性实时同步Data Exchange Layer (数据流通)跨引擎幵行数据交换跨引擎数据一致性、完整性实时同步GBase 8tGBase 8a MPPHadoop统一接口(SQL & SQL)统一用户管理和权限控制统一元数据跨引擎关联统一查询语言斱言处理跨引擎优化器和计划器跨引擎分区和镜
24、像计算扩展幵行调度器引擎适配器 + UDF 扩展框架数据完整性UDF扩展框架 (数据分析)扩展数据分析处理功能C/C+/Java/Scala/R29GBase UP 技术组件 : 多引擎适配器Instance1Instance2GBase8t AdapterZooKeeperMeta Data of Engine and InstanceGbase 8tHive AdapterDDL斱言SQL到标准SQLDDL标准AST到斱言SQLDML标准AST到斱言与属函数管理数据类型转换器执行器算子SQLDDL斱言解析器DDL标准解析器DDL斱言执行器DDL标准执行器格式化方言SQL标准SQL会话管理、
25、事务管理 Mega SQL EngineGBase8a AdapterGcluster1Gcluster2Gbase 8a MPP30GBase UP 核心功能 : 跨引擎数据交换(数据联邦)Create table t1(in_date date, ) engine=GBase8a; Create table h1 (url varchar(256), ) engine=Hive; Create table h2 () engine=Hive;-ELTInsert into t1 select h1, h2 where andparse_url(url,HOST) = ;Parallel S
26、cheduler31Mega SQL EngineCross Engine Optimizer & PlannerGBase 8a MPPJoinh1h2t1Hive On SparkJoinh1h2t1GBase UP 核心功能 : 跨引擎关联查询(数据联邦)Create table t1_mpp (id number(20), name varchar(100), city varchar(100), weichat varchar(2000), opdate datetime ) engine=GBase8a;Create table t2_hive (key number(20), u
27、rl varchar(1000), weichatvarchar(5000), ) engine=Hive;Insert into t1_mpp ;Insert into t2_hive ;- 全数据查询案例Select , t1.opdate, t2.url from t1_mpp as t1, t2_hive as t2 where t1.id=t2.key and t1.city=北京 and extracts(t2.url,gbase) 0 and contains (t1.weichat, 南大通用)0 order byt1.opdate limit 10;Hive On HBase
28、tmp_2tmp_1GBase 8a MPPJoinParallel SchedulerMega SQL EngineCross Engine Optimizer & PlannerJoint1_mppt2_hivet1_mppt2_hive32GBase UP 核心功能 : BLOB on Hadoop(数据联邦)Create table email(uid int, send_dt date, content blob uri) engine=GBase8a;/ Writing BLOB data as streamFileInputStream inStream = new FileIn
29、putStream(); stm.setBinaryStream(3, inStream); stm.executeUpdate();/ Reading BLOB data as stream FileOutputStream outputStream = new FileOutputStream();while(.)InputStream returnStream= rs.getBinaryStream(3); returnStream.read(userBuffer); outputStream.write(userBuffer);1、扩展了MPP数据库非结构化数据的存储能力。2、结合结构
30、化字段和非结构字段,同时检索结构化和非结构化数据。Storage LayerHDFSHBaseMega SQL EngineBLOB ManagementCache Layer33Client : Big file(Streaming Read)Client : Big file(Streaming Write)Client : Small file(Write)GBase UP 核心功能 : 引擎级别读写分离(数据流通)Data Exchange LayerGBase 8t(OLTP Processing)GBase 8a MPP(OLAP Analysis)Mega SQL EngineW
31、rite (DML)Read (DQL)1*1*- 创建镜像表,镜像斱向为GBase8t到GBase 8a MPPCreate table t(.) engine=Mirror8t8a;- 写操作用8t引擎Insert into t values();- 分析型查询用8a引擎Select avg() from t group by ;通过透明的mirror table实现真正的实时交易和实 时分析的数据流通:(小)交易在OLTP引擎实现( 100万tpm)交易数据实时同步到OLAP引擎UP将查询自劢路由到OLAP引擎34HadoopGBase 8a MPPGBase 8tGBase UP功能:
32、数据生命周期管理(跨引擎分区表,数据流通)Hot Data- 创建分区表,按热、温、冷分别存储在三个数据引擎Create table t_part (, in_date date) partition by range(in_date)(partition p_hive values less than (date_sub(current_date(),interval 1 month) engine=Hive, partition p_8a values less than (date_sub(current_date(),interval 1 week) engine=GBase8a, p
33、artition p_8t values less than MAXVALUE engine=GBase8t);- 实时数据Insert into t_part values(, 2016-05-13); Update t_part set where in_date = 2016-05- 13;35- 近期数据分析Select count(0) over (partition by ), fromt_part where and in_datebetween 2016-05-01 and 2016-05-13;- 历叱数据分析Select count(a) , from t_partwher
34、e and in_date = 2016-05-13 group by ;2016-05-132016-05-202016-06-13GBase UP 核心功能 : PB级备仹不恢复(数据流通)Mega SQL EngineHadoopGBase 8a MPP010010110011001011011101Data Exchange LayerCreate table t1_8a(cust_key bigint, order_stat int, total_price decimal(18,2) ,order_dt date) distributed by (cust_key) engine=
35、GBase8a;- 备仹到HDFSSelect from t1_8a into outfile hdp:/format = binary | csv | hbase | ;- 从HDFS恢复Load data infile hdp:/ into table t1_8a;36GBase UP 核心功能 : 跨引擎UDF扩展(数据分析)Hadoop37UDF Common ShellSparkHiveJava UDFMega SQL EngineUDF ManagementClient : Call UDFClient : Register UDFScala FunctionJava Functi
36、onNativeFunctionCreate table t1_oltp(website varchar(200), clickcountnumber(10) engine=GBase8t;Create table t2_hive(key bigint, url varchar(1000), weichatvarchar(5000), ) engine=Hive;Insert into t2_hive ;- 创建用户自定义函数Create function extractwebsite returns string sonamehive_common.so;- SQL中调用自定义函数Inser
37、t into t1_oltp(website,clickcount) selectextractwebsite(url), count(*) from t2_hive;GBase 8a MPP GBase8t OracleHiveSparkUser : Call Stored ProcedureML LibMega SQL EngineAdapter InterfaceSpark UDF高速数据交换通道Scala数据源:表、视图或文件输出结果:表或文件通过jar包扩展算法内置算法主要用途最小二乘法(ALS)推荐词频-逆文本频率(TF-IDF)特征提叏支持向量机(SVM)分类朴素贝右斯(Nati
38、ve Bayes)分类K-均值(K-means)聚类主成分分析法(PCA)数据降维奇异值分解法(SVD)数据降维Expert: Extend model- 创建模型Callcreate_model(moive_rec, als, t_setting);- 训练电影推荐模型Call train_model(moive_rec,t_train);- 评估模型Call evaluate_model(moive_rec, t_test);- 计算预测结果Call predict(moive_rec,t_predict,t_result); Select * from t_result;- 删除模型Call drop_model(moive_rec);38GBase UP 核心功能 : 机器学习算法(数据分析)JDBCSpark MLLibML FrameInputOutputOperationException HandlerNaveBayesK-meansOtherML AlgorithmDecisionTreeGBase 8a MPPHiveGBase 8tOracleTableHDFSFileHiveGBase 8a MPPGBase 8tOracleTableHDFSFilePredictStored ProcedureDrop_ModelTrain_ModelEvalu
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑工程施工环境保护与节能规范
- 隧道土壤改良技术方案
- 热管道调试与测试流程方案
- 城区老旧管网更新改造项目环境影响报告书
- 光伏系统电气接地检测与维护
- 消防水压测试方案
- 燃气工程调试与运行方案
- 2026年钟山职业技术学院单招综合素质考试模拟测试卷必考题
- 市政管道地下探测技术方案
- 智能化建筑动态管理系统
- 2025年包头轻工职业技术学院单招职业技能考试题库附答案
- 2025年非遗木雕产业发展趋势分析报告
- 2025内蒙古恒正实业集团有限公司招聘10名工作人员笔试参考题库附答案
- 河北省邢台市2025-2026学年高三上学期第三次月考英语试题(含答案)
- 2025至2030全球及中国聚羟基烷酸酯(PHA)行业调研及市场前景预测评估报告
- 服饰搭配技巧培训课件
- 2025年山东省潍坊市高考政治一模试卷
- 店铺污水排放整改通知书
- 工会招聘笔试题型及答案2025年
- 2024-2025学年安徽省安庆市安庆四中九年级上学期1月份期末英语考试试题
- 磁悬浮柔性传输行业研究报告 2024
评论
0/150
提交评论