“1+X”(高级)03-大数据系统上云_第1页
“1+X”(高级)03-大数据系统上云_第2页
“1+X”(高级)03-大数据系统上云_第3页
“1+X”(高级)03-大数据系统上云_第4页
“1+X”(高级)03-大数据系统上云_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据系统上云课程目录大数据上云概述1.1大数据上云的优势1.2常见的大数据上云方案2.大数据上云流程3.传统大数据系统上云案例4.本章小结5.本章习题大数据上云优势开箱即用开通即使用,快速产生业务价值弹性伸缩分布式部署,根据需要自由伸缩,秒级资源扩展免运维减少人力投入,降低企业的运维成本,集中精力于发展业务开发效率提供了便捷、易用的管理工具,提升了开发效率数据应用生态为企业提供了如推荐引擎等应用产品,具备完整的应用生态。大数据上云工具(一)批量加载工具数据集成:数加提供的官方同步工具,分为界面向导模式和脚本模式两种开发模式。如果您是离线数据加工场景,那么优先推荐选择它。它可以完成阿里云云上数据到MaxCompute的大部分离线场景。DataX(开源):阿里开源的离线数据同步工具,可以理解它是数据集成(DI)的单机版实现,它与数据集成所支持的数据源是基本相同的。但有些时候因为网络、安全或者自定义需求等情况,无法用数据集成(DI)来完成企业的需求,此时可以考虑使用DataX来完成。Tunnel命令(MaxCompute命令行工具):它适用于原始数据存在在文件,临时或一次性上传一些数据到MaxCompute。TunnelSDK:在上述工具均无法满足需求时,可以通过自己调用TunnelSDK实现更加灵活自由的数据上传需求。大数据上云工具(二)实时采集工具Logstash/Flume/Flunted:为3个开源的数据采集工具,阿里云分别为其提供了写入DataHub的插件,可以实现数据采集后输出到DataHub。适用于大部分文件类数据采集类需求,如行为日志,系统日志等。DTS(数据传输服务):是阿里云提供的云上数据的实时传输服务,适用于采集RDS(MySQL)的实时更新数据,并将其传输给DataHub或MaxCompute。如果你有云上RDS(MySQL)数据需要上传到大数据平台,那么可以选择它。不过它采集的是binlog信息,到MaxCompute后还需对数据做合并和预处理。OGG(OracleGoldenGate):主要适用于源库为Oracle,可以通过其采集实时更新数据到DataHub中。一般在公共云上比较少见,但在专有云即线下机房比较常见。课程目录大数据上云概述1.1大数据上云的优势1.2常见的大数据上云方案2.大数据上云流程3.传统大数据系统上云案例4.本章小结5.本章习题大数据系统上云方案–概述大数据系统上云,概括讲,就是将已有非云上大数据系统(通常在企业内网)迁移到云上,系统的数据存储和系统功能使用云平台提供的产品和技术来实现。上云产品选型数据迁移数据接口迁移数据处理迁移应用迁移管理工具迁移例如:阿里云大数据平台大数据系统上云方案–产品选型大数据系统上云首先是产品选型,评估已有系统在数据存储容、计算、接口功能、应用功能、管理功能等方面的需求,选择匹配的云产品。如下为阿里云产品的常见选型方案:MaxComputeADB实时计算OSSDataWorks存储计算接口应用管理结构化数据半结构化、非结构化数据离线批量计算交互式分析实时流式计算离线批量接口实时接口图形化报表大屏服务接口用户权限元数据数据质量运维运维、调度等工具QuickBIDataVDataHub、DTS大数据系统上云方案–数据迁移数据迁移,将已有大数据系统历史数据迁移到云平台存储。已有大数据系统数据存储目标存储迁移工具直接抽取加载数据文件(csv、txt)抽取工具加载工具方案1方案2注意:字段类型兼容、物理模型变化(如分区)、一次迁移还是分批迁移、迁移后数据校验等大数据系统上云方案–数据接口迁移系统上云后,与源系统的数据接口将面临网络环境的变化、接口实现方式和工具的变化。通常通过在企业内网增加同时能够连接内外网的服务器作为数据传输的中转。云上大数据系统企业内网各业务系统中转服务器(数据集成资源组)MaxComputeDataWorks数据集成数据数据控制大数据系统的数据加工处理,需要使用云产品提供的相关技术和工具来改造或重构实现。阿里云的离线和实时计算产品提供了数据处理编程框架和开发环境实现数据加工处理功能。MaxComputeSQLUDF编程框架MapReduce编程框架Graph编程框架RESTfulAPIJavaSDKPython

SDKDataWorksDataStudio离线计算MaxCompute实时计算RealtimeComputeFlinkSQLFlinkDatastreamRESTfulAPI(OpenAPI)DataWorksStreamStudio大数据系统上云方案–数据处理大数据系统上云方案–应用系统迁移大数据系统的应用为数据应用,即从大数据平台获取数据进行展现、分析、挖掘、对外提供数据服务接口等。整体可有两种方式:使用云上工具产品重构应用;沿用原有应用工具软件,云上提供数据接口。QuickBIDataV机器学习PAIDataWorks数据服务原有各类应用重构X√应用数据库DataWorks数据服务原有各类应用工具软件MaxCompute也可混合使用,比如QuickBI可以与原有BI工具页面互相嵌入JDBCRESTful大数据系统上云方案–管理工具迁移大数据系统运行还需要一系列管理工具,提供如离线调度、元数据、数据质量、运维、用户权限管理等功能。系统上云后,通常使用云上相应产品来实现,但需要进行元数据迁移和配置重构工作。DataWorks离线调度原有各类管理工具迁移、重构X√DataWorks数据地图DataWorks用户和权限DataWorks数据质量管理DataWorks运维中心项目背景随着公司业务的不断发展,业务与产品的复杂程度越来越高,根据公司关于营业厅前台提升服务总体要求。由于系统架构陈旧、运维复杂等痛点,导致短信积压以及需求上线时间过长等问题,已制约业务持续发展。应用小机部署,扩容困难技术架构陈旧,数据库有单点故障风险,影响短信处理配置能力不足,短信菜单等配置信息,无法实时刷新,业务上线时间过长云化改造目标:1、应用容器化改造,分布式部署,实现应用快速扩缩容。2、技术架构重构,数据库解耦,避免短信积压;中心化服务改造,实现服务标准化3、配置能力提升,实现,缩短新业务上线时间。省短信网关smsrecv1

Kafka集群sms-up-topiclog-topicBUSIsmsrecv2smsrecv3......SEND......LOG......sms-down-topicRDBRedis集群省短信网关文件Hadoop业务痛点1:业务痛点2:业务痛点3:行业案例–运营商系统上云13面向不同主体角色,在平台上构建各类应用,满足不同管理机构与用户的共性需求与个性化需求标准化前端应用为各渠道用户提供基线应用负责应用提供的主体承担相应安全职责能力共享平台:负责对外提供标准化能力A-PaaS:基于分布式架构之上构建的核心能力中心,提供业务能力和数据I-PaaS:创新合作;

高性能、高可靠、高扩展、分布式;O-PaaS:提供研发、测试、发布、运营保障工具和手段,统一数据共享、统一资源调度、统一安全管控、统一运营监控,负责平台提供的主体承担相应安全职责物理机+虚机+容器化,网络+安全云化,按需申请,即订即用SaaSA-PaaSI-PaaS业务中心层功能服务/对象服务层APIHub开放运营流程/服务编排RestAPI第三方能力开放接口自有应用客户自服务门户营业厅门户合作伙伴门户管理员门户O-PaaS单点登录/认证统一接口集成统一运营监控统一安全管控……IaaS云主机ECS负载均衡SLB虚拟网络VPC…云存储基础技术组件分布式服务框架分布式消息框架流程引擎……日志调用链服务能力集成框架RDSEDASOTSDRDS……参与人服务产商品服务订单服务工单服务账务服务…开放平台新媒体业务在线业务平台第三方应用…参与人子系统订单/工单子系统产商品子系统规则子系统营销子系统实时事件子系统会员子系统账务子系统SKU/打包子系统客户洞察子系统行业案例–银行大数据系统上云14行业上云方案-购物平台大数据系统上云供应链平台(商流)结算平台(资金流)履约平台(物流)交易平台(信息流)打造四大核心能力客户策略运营多角色协同数据智能分析全链路跟踪运营效率集约商业模式创新核心能力共享能力对外输出商品保险旅游家装汽车海淘全媒体赋能作为购物公司,面对业务规模和业务种类的快速增长,以及业务模式变化,通过重构数字化IT系统,建立4个应用平台,4个管理平台即12个能力业务中台,实现灵活敏捷支撑基于全媒体多渠道的零售、采购管理、企业管理三类业务。15课程目录1.大数据上云概述2.大数据上云流程2.1客户调研2.2资源评估2.3数据迁移上云2.4业务逻辑迁移上云2.5系统校验3.传统大数据系统上云案例4.本章小结5.本章习题大数据上云流程-概述客户调研现状调研资源评估存储资源计算资源网络资源人员数据上云数据表结构存量数据增量数据逻辑上云SQLUDF内置函数系统校验数据核验逻辑核验业务核验课程目录1.大数据上云概述2.大数据上云流程2.1客户调研2.2资源评估2.3数据迁移上云2.4业务逻辑迁移上云2.5系统校验3.传统大数据系统上云案例4.本章小结5.本章习题客户调研(一)客户调研(二)课程目录1.大数据上云概述2.大数据上云流程2.1客户调研2.2资源评估2.3数据迁移上云2.4业务逻辑迁移上云2.5系统校验3.传统大数据系统上云案例4.本章小结5.本章习题资源评估-存储资源评估存储资源存储空间=原始数据量*压缩比*膨胀系数压缩比:MaxComput采用列式压缩,压缩比根据实际数据有所变化,通常能压缩到原文件大小的1/5

。建议传几个数据量较大的表,作为样例,评估压缩比。膨胀系数:数据的处理过程中还会产生一系列衍生数据,比如数据清洗、汇总的中间结果以及最终的结果等。因此,有一定的膨胀系数,一般取1~3。资源评估-计算资源评估计算资源MaxCompute分按量计费和包年包月两种计算计费方式:包年包月:此方式仅在阿里云大数据计算服务提供,包括SQL、MapReduce等计算任务。按量计费:按量计费方式针对SQL任务、MapReduce任务等计算任务进行计费。对于刚开始上云的企业,建议先开通按量计费,然后将数据进行POC测试(即针对客户具体应用的验证性测试),计算自己的任务大概需要消耗多少Worker,通过Worker数推算CU数量,这样就能大概估算出最终需要购买资源的数量。资源评估-网络资源评估网络资源在从企业IDC机房向云上同步数据时,网络带宽是一个常见的瓶颈,可以分两个阶段对所需网络带宽进行评估:1、数据初始化:初始数据上云迁移的带宽资源,能否满足业务要求。初始化同步速度=初始化总数据量/业务期望初始化时间2、每日增量:现有网络带宽资源与初始化同步速度、每日同步速度对比,看能否满足业务要求。

每日同步速度根据=每日增量数据量/业务期望每日同步时间资源评估-人力资源评估人员数据上云涉及人员包括数据开发人员、运维人员、业务人员。各方职责分别如下:数据开发人员:一般指整个数据团队,该团队负责协调各方人员,确定整体上云方案及架构,并负责最终上云具体实施。运维人员:主要负责保障硬件、网络等资源,如网络如何打通、带宽如何提高、专线如何接入等。业务人员:负责整体业务逻辑迁移中对具体业务逻辑问题支持。课程目录1.大数据上云概述2.大数据上云流程2.1客户调研2.2资源评估2.3数据迁移上云2.4业务逻辑迁移上云2.5系统校验3.传统大数据系统上云案例4.本章小结5.本章习题数据上云-表结构迁移数据上云到MaxCompute时,第一步就是考虑如何将原有的表结构类型转换为MaxCompute的表结构类型。建议的方式是将源库表的表结构脚本导出,批量编辑修改为MaxCompute所需的语法。MaxComputeSQL:采用的是类似于SQL的语法。它的语法是标准语法ANSISQL92的一个子集,并有自己的扩展。但不能因此简单地把MaxCompute等价成一个数据库,它在很多方面并不具备数据库的特征,如事务、主键约束、索引等。SQL语法差异:与Hive、MySQL、Oracle、SQLServer的SQL语法,是有差异的,迁移的时候,需要注意改造。数据类型差异:MaxCompute2.0推出了兼容开源主流产品的2.0数据类型和Hive兼容数据类型两个数据类型版本。加上原有的1.0数据类型版本,目前Maxompute一共支持3个数据类型版本。数据上云-存量数据上云数据上云时,第一批需要迁移的就是存量数据。存量数据是指源库或源端已经存在的历史数据,需要评估这部分数据是一次性、还是分多次迁移到云上,各方面的性能能否满足要求。1)数据源读取性能能否满足要求?需要找业务系统支持人员来调整性能参数等来提高其读取速度。2)带宽能否满足要求?存量数据往往体量较大,能否在指定时间内完成数据迁移是个重要的问题。3)同步机器资源是否足够?数据接收端的性能是否满足要求,不满足的,需要及时扩容。4)同步工具的性能能否满足需要?同步工具能否支持住规定的流量。5)MaxCompute写入性能是否够用?开通的产品规格是否能够确保完成数据上云。性能评估内容数据上云-增量数据更新(批量)增量数据更新(批量)指的是日常定时同步任务,定时从源库抽取最新更新数据到MaxCompute中。最常见的场景就是T+1,即每天晚上定时同步当天的数据到MaxCompute中。增量更新策略1)生产系统有时间戳字段:以日期为筛选条件,批量更新。2)如果没有时间戳字段,则考虑下两种方式:a)源表数据量不大:可以每日全量更新。b)源表数据量较大:使用数据库的同步机制,如MySQL的binLog。客户IDCHadoop集群数据集成数据集成存量数据初始每日增量数据更新MaxCompute目标表每日增量分区表每日增量分区表每日增量分区表初次存量阿里云数据上云-增量数据更新(实时)增量数据更新(实时)一般适用于实时/流式业务场景,要求业务数据实时归档到MaxCompute或者实时进行流计算处理,此时可以选择实时数据采集的方式,可供选择的实时采集工具也比较多,如Logstash、Fluentd、Flume、DTS、OGG等。1)如果源数据为文件/日志格式,建议采用Logstash/Flume/Fluentd的方式。2)如果源数据为Oracle数据库,建议采用OGG。3)如果源数据为阿里云RDS,建议采用DTS。4)如果有自定义的需求,或上述工具均无法支持的场景,可以使用DataHubSDK完成更加灵活的数据上传。工具选择业务系统MaxComputeLogstat/Flume/Fluentd等历史数据临时层汇总数据实时消费LogsFileOracleMySQL…归档StreamCompute专线或公网DataHub合并课程目录1.大数据上云概述2.大数据上云流程2.1客户调研2.2资源评估2.3数据迁移上云2.4业务逻辑迁移上云2.5系统校验3.传统大数据系统上云案例4.本章小结5.本章习题业务逻辑上云-SQL迁移重点从如下几个方面进行SQL的迁移MaxComputeSQL采用的是类似于SQL的语法。它的语法是标准语法ANSISQL92的一个子集,并有自己的扩展。但不能因此简单地把MaxCompute等价成一个数据库,它在很多方面并不具备数据库的特征,如事务、主键约束、索引等,更多差异请参见与其他SQL语法的差异。目前在MaxCompute中允许的最大SQL长度是2MB。数据类型DDL语法差异对比DML语法差异对比SCRIPTING语法差异对比业务逻辑上云-内置函数迁移/document_detail/96342.html?spm=a2c4g.11174283.6.712.4485590eWFVpCG不同数据库的内置函数也是有很大差异的,但大部分除了名字不同之外,一些通用的函数功能是一致的。日期函数数学函数窗口函数聚合函数字符串函数其他函数自定义函数分类自定义函数差异详情业务逻辑上云-UDF迁移UDF全称为UserDefinedFunction,即用户自定义函数。UDF广义的说法代表了自定义标量函数、自定义聚合函数及自定义表函数三种类型的自定义函数的集合。狭义的说法仅代表用户自定义标量函数。传统RDBMS中自定义函数的迁移传统RDBMS(如Oracle、MySQL)中的自定义函数的开发语言为SQL,迁移时需参考MaxComputeUDF开发说明,使用Java或Python重新实现其业务逻辑。HiveUDF的迁移Hive的UDF与MaxComputeUDF的开发语言相同,实现方式也极其类似,迁移过程相对容易,但需要注意以下两点:1)需要将HiveUDF代码中引用的接口改为MaxCompute的接口。2)如果HiveUDF中使用了一些本地文件或HDFS文件,那么需要将这类文件上传到MaxCompute中作为资源来保存和访问。课程目录1.大数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论