基于数据湖构建云上的数据分析架构_第1页
基于数据湖构建云上的数据分析架构_第2页
基于数据湖构建云上的数据分析架构_第3页
基于数据湖构建云上的数据分析架构_第4页
基于数据湖构建云上的数据分析架构_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于数据湖构建云上的数据分析架构技术创新,变革未来企业应用数据的演进数据察觉数据监控数据驱动ReportStatic batch reportsExecutives, department headsFinancial and operational data功能能力用户数据MonitorInteractive dashboards, data warehousePower usersSiloed dataGuideData science, AI/ML, Data LakeEveryoneAll data企业应用数据的现状和常见的功能障碍孤立数据和被丢弃的数据低保真数据多样性的处理散乱数据发

2、展趋势随着数字化技术的成熟发展,企业 现在比以往任何时候都需要更好地 处理自身拥有的数据,成为数据驱 动型组织现实情况企业越来越认识到数据的价值企业在使用越来越多的复杂的技术捕获数据和处理数据。然而,仍然有超过9成的数据没有被用到有超过8成的企业被认为应用数据能力低应用数据的能力赤字严重地限制了企业的发展并削弱了生存能力现代分析平台要具备的特点访问想要的 任何数据提供交互式洞察的 方式智能嵌入业务流程数据驱动型决策需要访 问众多不同类型数据多种类型不同来源的数 据转储到企业数据湖接近实时的处理和报告数据即时响应上游数据源的变化采用Amazon S3或Hadoop等 大数据技术存储数据采用流处理

3、技术正确的时间正确的工具 以正确的形式提供数据需要同时使用多种工具 以满足不同用户需求支持机器学习探索对变化的响应性(数据的访问速度决定了决策速度)算法平台与业务平台集成业务平台能集成外部数据 源或API能利用所有可用云服务帮 助实现系统的现代化传统的数据技术链面临挑战,并且一直在艰难地试图适应企业规模的数据发展变化无法扩展数据存 储和处理时间增加总体拥有成本 以支持数据管理数据模型变更 延迟数据分析部署时间长 使洞察滞后本地数据平台难以支持现代化数据分析的要求围绕业务挑战、业务趋势和业务模式快速洞察更快、实时的洞察力内部数据仓库无法实现的业务洞察力加强客户体验处理数据多样性移动、社交等多种数

4、据 来源创新利用数据进行业务创新设计未来的产品和服务专注于卓越运营利用云技术降低总体拥 有成本利用数据提供最高级别 的卓越运营确保法规遵从减少部署时间网安法/等保2.0行业合规要求云数据平台帮助构建新型的数据洞察力和驱动力亚马逊对数据驱动型企业的理解“一个将数据作为战略资产加以利用的组织,以 驱动创新,并建立可行动的洞察力,从而为其客 户、合作伙伴和员工提供增强体验”亚马逊数据分析飞轮模型提高运营效率2020降低试验成本增强客户体验产品(use-case)信息需求人技术流程关键词资产:常被忽视、低估或误解持续创新: 关键是持续,实现数据驱动的自我推动力可行动的洞察力:能推动业务的洞察客户体验:

5、要增强体验就会产生新的特性和产品需求持续创新的数据分析飞轮应用举例增加乘客里程收入减少每可用座位里程成本价格优化需求预测 乘客推荐 微目标市场航班中断预测 维护事件预测 And more愉悦的客户体验2020航空公司举例MoreusersMeaningfulimpactMore dataBetteranalytics机票价格 航班计划 客户忠诚度飞机运营成本 遥测/维修And more传统数据平台的模式已成为数据分析能力的瓶颈应用程序集中的数据存储集中的数据团队企业BI能力中心数据消费者Provide dataQuery data2020构建能支持敏捷业务的现代化数据分析平台数据驱动的组织通过

6、将责任扩大到边缘,将责任推广到数据的生产者和消费者身上,从而 实现敏捷性数据湖平台运行数据市场的团队数据生产者想要分享数据的团队数据消费者想要使用数据的团队领域专业知识简化数据的注入执行业务优先级数据所有权和治理安全控制业务分析开发数据质量构建并运行平台数据发现元数据管理企业数据集数据管道的开发培训和社区创造新的洞察2020现代化数据分析平台的需求Support exploratory data analysis and MLData discovery, search, and collaborationData processing and platform frameworksInter

7、active QueryDashboards SQL based pipelines Catalog and searchShare dataNotebook automationOperational analyticsPredictive analyticsExploratory researchPipeline schedulingCode and infrastructure automationSecurity and managementData transformationData ingestionData quality2020数据湖的定义数据湖是一个集中式存储库,允许您以任

8、 意规模存储所有结构化和非结构化数据。 您可以按原样存储数据(无需先对数据进 行结构化处理),并运行不同类型的分析 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决 策。2020应用数据湖 实现企业数据变成资产业务目标数字化经济,数据驱动业务提升企业运营效率PredictiveReactive建立数据探索能力预判发展趋势,提升企业竞争力技术目标停止丢弃数据分析无处不在,采用多种技术自动化, API 化赋能给更多用户,建立数据探索能力敏捷,自助式服务协作,促进企业内部协作敏捷, 协作经济自助式被动式2020基于亚马逊的数据湖构建云上大数据分析平台数据湖提供:存储关系型和非关

9、系型数据可扩展到EBs级别众多的分析和机器学习工具对数据进行加工而无须移动数据为低成本存储和分析而设计OLTPERPCRMLOBData WarehouseBusiness IntelligenceData Lake10011000010010101110010101011100101010000101111101101000111100101100101100100011000010Devices WebSensors SocialCatalogMachineLearningDW QueriesBig data processingInteractiveReal-time2020Natura

10、l Language Processing Language Translation Speech RecognitionText-to-SpeechAWS上的数据湖Storage | Archival Storage | Data Catalog分析Interactive Analysis Hadoop & Spark Data Warehousing Full-text search Real-time analyticsDashboards & Visualizations机器学习实时数据的导入Connect Devices to AWS Real-time Data Streams R

11、eal-time Video Streams本地数据的上传Dedicated Network connectionSecure appliancesRuggedized Shipping Container Database migrationAWS云上提供丰富的周边服务强化数据湖能力2020Managed ML Service Deep Learning AMIsVideo and Image Recognition Conversational Interfaces Deep-Learning Video CameraInternet InterfacesAWS Direct Connec

12、tAWS DatabaseMigrationAmazon KinesisInternet of ThingsIngestScale (Batch)Stream AnalysisAmazon EMRSpeed (Real-Time)ML / AuditingEvent CaptureAmazon KinesisRaw DataAmazon S3ETLAmazon EMRAdvanced Analytics MLlibData ScientistsData AnalystsBusiness UsersEngagement PlatformsAutomation / EventsAmazon Mac

13、hine LearningAmazon Amazon S3AthenaServingDirect QueryAmazon AthenaSchemalessAmazon ElasticSearchSemi/UnstructuredAmazon EMRData WarehouseAmazon RedshiftLegacy AppsAmazon RDSNear-Zero LatencyAmazon DynamoDBDataSourcesPLC CamerasSensorsSocialAWS IAMAWS KMSAWS CLOUDTRAILAWS CLOUDWATCH基于AWS数据湖的现代数据架构洞见

14、增强业务应用和新的数字化服务Staged Data (Data Lake)Amazon S32020中央储存在S3中,安全经济高效的储存S3目录与搜索访问和搜索元数据DynamoDBAmazon ES访问和用户界面为您的用户提供方便和安全的访问API GatewayIAMCognito保护和安全确保数据安全,并验证用户身份Security Token ServiceCloudwatchCloudtrailKMSAthenaGlueQuicksightEMRRedshift/ Spectrum处理和分析使用预测和规则分析来理解数据FirehoseDirect ConnectSnowballDMS

15、数据摄入快速,安全的将数据存入S3Amazon S3是AWS数据湖的核心数据湖是非常适合部署在云中的工作负载, 因为云提供高性能、可扩展性、可靠性、 可用性、多种分析引擎以及规模经济带来 的成本收益99.99%数据可用性高持久性高达11个9的 数据持久性高可用性并行吞吐范围获取按需储存,无需预估容量储存与计算分离无需承诺最小使用量无限扩容开放扩展标准REST APIAWS SDKs写后读一致性生命周期管理易于使用最受合作伙伴、供应商和AWS 产品支持Talend / Apache CamelApache Nifi /Apahce Sqoop高性能无服务技术使AWS数据湖实现按需响应和付费S3数

16、据湖Glue(ETL和数据目录)AthenaQuickSight无服务器。零基础架构。 零管理无需为闲置资 源付费$内置的可用性和容 错性根据使用情况自动 缩放资源AWS IoTAI/ML设备网络 传感器 社交ML 框架和基础架构AI 服务P O L L YT R A N S C R I B ET R A N S L A T E C O M P R E H E N D& C O M P R E H E N D M E D I C A LL E X视觉语音A M A Z O N S A G E M A K E R训 练 R E K O G N I T I O N R E K O G N I T

17、I O N T E X T R A C T I M A G EV I D E OF O R E C A S T P E R S O N A L I Z E部 署 一键式部署和托管ML 服务框架接口 基础架构E C 2 P 3& P 3 d nE C 2 C 5F P G A sG R E E N G R A S SE L A S T I CI N F E R E N C E一键式模型训练和调整优化 ( N E O )强化学习构 建 预先构建算法和笔记本数 据 标 记 ( G R O U N D T R U T H )算 法 和 模 型 ( A W S M A R K E T P L A C E

18、, 适 用 于 机 器 学 习 ) 语言聊天机器人预测推荐E C 2 G 4丰富的人工智能服务快速实现数据智能分析数据湖的优势 所有数据在一个地方在一个集中的位置,储存并分析来自所有来源的数据“我的数据储存在多个不同的地方, 那一份数据才是真实可信的呢?”数据湖的优势 快速提取快速提取数据,而无需将其强制转换到范式中。“如何快速从各种来源收集数据 并有效存储?”数据湖的优势 储存与计算分离将存储和计算分开,可以根据需要缩放每个组件。“如何扩展容量,以应付持续增长的数据?”数据湖的优势 读取时范式化“有没有办法将多个分析和处理框架应 用于相同的数据?”数据湖可以通过在读取时范式化来 进行即时分析

19、,而不是在写入时。典型的构建数据湖的步骤1存储设置2搬运数据清洗,准备和为数 据做catalog data3配置和加强安全和合规策略45让数据对分析工作可用AWS Lake Formation - 在数日内构建安全的数据湖S3IAMKMSOLTPERP CRM LOBbDevicesSensorsWe SocialKinesisIdentify, crawl, and catalog sourcesIngest and clean dataTransform into optimal formatsEnforce encryptionDefine access policiesImplemen

20、t audit loginData Lakes and analytics on AWS快速构建数据湖简化安全管理轻松安全地自助访问数据Analysts discover all data available for analysis from asingle data catalogUse multiple analytics tools over the same dataAthenaAmazon RedshiftAI ServicesAmazon EMRData Catalog数据湖行业应用举例- 工业数据湖预测性 维护提升工 作安全流程优 化产品质量 改进丰富产 品设计运营提升 提高采

21、购、供应减少废料 效率链和物流效率和泄漏工业物联网 解决方案Amazon QuickSight简单的数据 可视化用户 (本地)AWS 云Field PLCs本地历史数据现场资产Amazon AthenaAmazon SageMakerAWS IoTAnalytics运营指标,分析和ML / AIData Lake on AWSAmazon S3AWSAPN 合作伙伴Greengrass协议转换器工业网关客户网关资产2020数据湖行业应用举例- 零售数据湖成本/ 价格库存需求合约条款 供应链追踪外部广告成功案例数字营销数据湖客户族群CustomerCluster打包营销预测客户 购买行为引导促销

22、搜索结果分析SEM/SEO优化销量分析采购优化库存分析价格优化数字营销自动化 采购S32020游戏服务器游戏客户端事件Amazon KinesisAmazonS3Amazon Redshift数据采集数据存储(数据湖)数据分析游戏信息:道具、等级、杀敌系统信息:开始、崩溃、帧率每分钟摄入数千万条 事件数据每月新增数个PB 的 数据存储量从海量数据中进行 查询和分析Amazon EMRAmazon AthenaAmazon QuickSight数据湖行业应用举例- 游戏数据湖AWS Glue数据目录能够执行提 取、转换和加 载(ETL)2020数据湖行业应用举例-媒体数据湖视频Rekognition Video搜索引擎资产管理系统1. 视频上传并存储到数 据湖3. 输出被发送

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论