版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
序言数字化时代,数据使用场景呈现多元化趋势,数据规模也随之爆发式增长。海量异构数据的爆发式增长,对数据库的存储和计算能力提出了更高的要求。分析型数据库因其在处理海量实时数据时具有优秀的存算和管理能力,近年来赢得了市场的青睐。OLAP(联机分析处理引擎)来对这些数据进行分析,即通常意义的OLAP1993联机事务处理)OLAPOLAP30目录前言:为什么要研究分析型数据库 6分析型数据库的定义与发展历程 8分析型数据库的诞生 8分析型数据库的定义及其延伸 8分析型数据库的发展历程 8分析型数据库的技术演进趋势及其驱动因素 11第一代分析型数据库——共享存储架构数据仓库 11第二代分析型数据库——MPP数据仓库 12第三代分析型数据库——数据湖 13第四代分析型数据——智能湖仓 14中国分析型数据库市场规模 21中国分析型数据库市场发展的驱动因素 21中国分析型数据库市场规模与增速 23分析型数据库厂商关键竞争要素 26厂商背景:团队背景和产品定位 26技术架构:技术路线和场景适用能力 26自研能力:完善功能、提高稳定性、保障安全性 27商业模式:提供数据平台全栈产品和服务 28行业落地:在行业领域的经验积累 29分析型数据库市场竞争格局 31传统数据库厂商 31新锐数据库厂商 32公有云厂商 33分析型数据库典型产品分类 33国内代表厂商分析 36南大通用GBASE 36滴普科技FASTDATA 37华为云MRS 39结语:国内分析型数据库厂商的机遇 41前言:为什么要研究分析型数据库随着数据成为驱动社会与经济发展的核心生产要素,作为关键数字基础设施的数据库,其技术趋势和市场格局正在经历剧烈的变化。一方面,数据规模的迅速膨胀,以及大量创新性的数据分析和应用场景的出现,对分析型数据库的存储和计算能力也提出了更复杂的要求。另一方面,为应对新的趋势,国内外传统数据库厂商、新锐数据库厂商和公有云厂商等各类厂商近年来纷纷加大对变化也意味着机遇,为了挖掘出该领域具备潜力的代表性公司,本报告将详细梳理分析型数据库的发展历程和技术演进趋势,重点阐明中国分析型数据库市场的价值和发展空间,建立分析型数据库厂商的评估模型,并对重点公司的产品技术、研发能力、商业模式、行业落地情况进行分析。北京爱分析科技有限公司 北京爱分析科技有限公司 07分析型数据库的定义与发展历程08080909分析型数据库的定义与发展历程分析型数据库的诞生。随着用户的需求从查看单个交易数据逐渐衍生出对交易数据的19801993EdgarCodd(OLAP)分析型数据库的定义及其延伸分析型数据库最早的定义是指从分散的数据源中抽取、清理和汇集各类结构化数据,形成面向特定分析主题的、相对稳定且能反映历史变化的数据集合,并通过OLAP引擎来对这些数据进行分析,也即通常所说的数据仓库。当下的分析型数据数据库是指为应对企业管理、业务、数据分析师、数据科学家等人员对数据的各类分析和应用分析型数据库的发展历程分析型数据库已经经历了数十年的发展,期间伴随了多个关键概念的提出,以及众多厂商推出的重要产品,这些事件成了串联分析型数据库发展历程的关键节点,也大致勾勒出了分析型数据库的演进趋势。图1:国内外分析型数据库发展历程重要节点北京爱分析科技有限公司 北京爱分析科技有限公司 010分析型数据库的技术演进趋势及其驱动因素011011012012分析型数据库的技术演进趋势及其驱动因素MPP表1:分析型数据库的代际演进第一代分析型数据库——共享存储架构数据仓库1970年代末到1980年代初的Oracle技术架构层面,对于该阶段的数据分析需求,企业通常是建设一套用于分析查询的历史数据库来汇集不同事务型数据库的原始数据。SQL标准,以及ACID特性性能层面,由于共享存储架构数仓的计算节点能够访问任意的存储节点,其需要配备专有物理硬件,其性能优化良好。但共享存储架构的缺点是可扩展性较差,一般扩展到十几个节点就会遇到瓶颈,因此当数据量达到千万、亿级别时,数据的计算就会出现延时。第二代分析型数据库——MPP数据仓库最早的Teradata于1984MPP数仓,后来也出现了基于x86MPP数仓GreenplumVertica景已经从面向少数管理人员提供固定报表,转变为面向业务人员提供更广泛的批处理报告、BI和可视化,以支持业务决策。与此同时,企业需要处理的数据类型依旧是结构化数据,但数据量出现了快速增长,达到了GB或TB级。OLAPSchemaETLI/O013013014014图2:数据仓库架构功能层面,由于MPP数仓底层的数据依旧由事务型数据库提供,并且经过长时间的发展,其SQL标准,以及ACID特性的稳定性和可靠性变得更高。但MPP数仓仅能处理结构化数据,无法处理半结构化和非结构化数据。MPP(GB或TB级,MPP第三代分析型数据库——数据湖以Hadoop2005如、GB或TBTB或PB技术架构层面,为了承载对大量结构化、半结构化、非结构化数据的存储与处理,Hadoop体系使用HDFS做数据存储,可以灵活地以低成本存储任意类型的原始数据,使用Mapreduce、Spark等引擎做大数据计算。随着Hive、SparkSQL等大数据组件的出现,企业可以基于Hadoop实现数据仓库(SQL-on-Hadoop)的功能,即ETLBIStormFlink2015AWSS3图3:数据湖架构SQL标准、ACIDHiveMPP性能层面,SQL-on-Hadoop在软件上实现了存储节点和计算节点的互相独立,可以分别独立扩展,因此其节点可以扩展至数千规模。由于实践中,企业部署Hadoop主要还是基于物理机,在硬件层面,其计算与存储资源仍然是绑定的。第四代分析型数据——智能湖仓当前企业数据分析与应用需求的变化趋势在解析第四代分析型数据库在技术架构、功能和性能层面的特征之前,我们需要首先了解近年来数据分析的应用场景、数据以及计算环境等方面发生的重大变化趋势,以及现有的分析型数据库在应对这些变化时的主要缺陷。015015016016首先,企业数据分析的应用场景变得更加广泛。数据正在成为业务创新的核心,基于数据分析,企业可以预测客户行为、提供个性化的客户体验、预测市场趋势、制定业务战略等,从而提高企业的竞争力。与此同时,数据分析门槛的降低使得企业内部越来越多的业务人员成为数据消费者,并向“人人都是分析师”的方向演进。BIAI/MLAI/ML500010000AI/ML1001000。图4:企业潜在AI/ML应用场景数量测算逻辑:场景指人工智能技术能够应用的最小单点应用,如点餐APP智能推荐,潜在应用场景通过(企业内部系统数)*(每个系统中可以应用人工智能替换人工操作或规则模型数量)进行估算表2:重点行业典型数据智能创新应用场景5GPBIDC2025017017018018图5:2025年全球数据总量及构成IDC2025年全球传统分析型数据库应对当前需求的主要缺陷在实践中,大量企业还在使用传统的数据仓库和基于数据湖的大数据解决方案,并且很多企业内部有多套数据系统并行,满足不同的数据分析需求。但由于诸多原因,这些解决方案通常存在以下主要的缺陷:MPPETL到数据湖中,之后再被ETLETL对人工智能和机器学习等高级分析的支持不足。当前流行的TensorFlow、PyTorch和XGBoost等机器学习系统很难在现有分析型数据库之上高效运行,因为这些系统从数仓或数据湖中读取大型的数据集时需要写非常复杂的非SQL代码,并且数据湖本身缺少数仓丰富的数据管理能力,如ACID特性、数据索引、数据版本控制等,进一步加大了读取数据的难度。图6:典型多套系统并行的企业数据平台第四代分析型数据库“智能湖仓”的诞生通过分析近年来数据分析的应用场景、数据以及计算环境等方面发生的变化,以及现有的分析型数据库在应对这些变化时的主要缺陷,我们认为,下一代的分析型数据库必然会朝着增强分析性能、提升易用性、降低使用成本的方向发展。Databricks2016DeltaDBMSDatabricks2020LakeHouseSnowflake于AmazonS3019019国内市场,公有云厂商如华为云、阿里云,新锐数据库厂商如滴普科技也于近年推出智能湖仓产品,并收获了一批行业头部客户。图7:智能湖仓架构智能湖仓在技术架构、功能和性能层面主要具备以下主要特征:如ACIDSQL流批一体,简化系统架构。智能湖仓可以实现批处理与流处理的统一,通过CDC(ChangeDataCapture)将业务系统数据实时抽取到数据湖,实时加工后传输至OLAP系统中对外服务,实现端到端过程的分钟级时延。与此同时,系统架构得到简化,大幅降低了系统维护以及数据开发工作的难度。云原生、存算分离。基于云原生架构,智能湖仓存储和计算资源得到有效分离,企业可以基于需求灵活地对存储和计算资源进行分别扩展,且扩展需求几乎没有限制,从而实现对大规模数据查询与分析的高性能,并显著降低TCO(TotalCostofOwnership)。北京爱分析科技有限公司 北京爱分析科技有限公司 020中国分析型数据库市场规模021021022022中国分析型数据库市场规模中国分析型数据库市场发展的驱动因素近期因素:企业数据处理与分析需求升级分析型数据库市场发展的近期驱动因素是企业的数据处理与分析需求的升级。面对新的数据处理与分析需求,企业原先的数据系统存在诸多限制,因此需要对分析型数据库的功能也进行相应升级,这些需求包括:AI/MLAI/ML受产业特性、行业和企业发展阶段,企业数字化程度等因素影响,国内企业在实践中对上述因素的需求程度存在较大差异。对此,我们对多个行业企业的相关需求进行了调研,发现金融、能源、先进制造、零售等行业企业目前存在多个显著的数据处理与分析需求升级因素。图8:重点行业数据处理与分析需求升级因素远期因素:分析型数据库全面迭代企业对分析型数据库的功能升级需求,近期内会存在沿用传统的数据仓库或数据湖进行功能升级,以及采用全新智能湖仓两种路径。长期来看,我们认为,未来的企业都会是高度数字化的,在需要处理的数据规模以及数据分析场景广泛性方面也都会趋于统一,企业都需要构建统一数据存储与计算底座,而传统的分析型数据库由于自身的种种局限性,将会逐渐被智能湖仓取代,企业将完成分析型数据库的全面迭代。023023024024图9:未来企业的数据平台架构中国分析型数据库市场规模与增速分析型数据库包括了数据仓库、数据湖以及智能湖仓,因此,分析型数据库的市场规模为这三者的市场规模之和。根据IDC202187.1162.8亿IDC2021年中国249.9IDC2024168.5352.92024521.4CAGR为27.7%。图10:中国分析型数据库市场规模及增速测算逻辑补充:厂商通常也会提供这些软件服务,因此可以认为大数据平台软件市场规模属于这类厂商能够触达的市场规模。北京爱分析科技有限公司 北京爱分析科技有限公司 025分析型数据库厂商关键竞争要素026026027027分析型数据库厂商关键竞争要素分析型数据库市场参与者众多,为了更准确地判断市场格局,理解主要厂商的竞争优势,我们从五个维度梳理了分析型数据库厂商关键竞争要素,包括:厂商背景、自研能力、技术架构、商业模式、行业落地。厂商背景:团队背景和产品定位厂商背景能够反映厂商在相关领域的底蕴、研发实力、发展策略等,主要关注成立时间、团队背景、产品定位等信息。厂商成立的时间较早一般意味着其在数据库市场有较深厚的积累,这类厂商有着较高的市场知名度,产品通常成熟稳定,服务的客户数量也较多,而近年来新成立的厂商通常在产品技术层面有较大创新,能够满足企业快速变化的数据处理需求。团队背景反映的是厂商在数据库产品方面的技术积累和研发经验,头部数据库厂商的核心团队成员通常来自国内外老牌数据库大厂、公有云厂商,或者顶尖院校。产品定位则反映厂商在分析型数据库领域产品能力、服务客群、服务范围等。技术架构:技术路线和场景适用能力MPP基于Hadoop生态表3:不同技术架构分析型数据库关键指标自研能力:完善功能、提高稳定性、保障安全性自研能力较强的厂商能够掌握分析型数据库的核心代码,从而在数据库的功能迭代和管理运维方面提供原厂级服务,具备较强的竞争优势。厂商掌握核心代码可以从源头解决软件的核心问题,一方面,厂商因此可以主导产品的功能迭代,并针对不同客户的个性化需求做定制化功能;另一方面,厂商可以在网络存储计算资源、安全管控等方面做更深的优化,提供原厂级的数据库管理运维工具,以提升数据库的性能,并使得数据库具备更高的稳定性和安全性。NetflixIceberg或Uber开源的HudiIceberg的滴普FastDataHudi的华为、基于Flink+Iceberg的网易ArcticDataBricksDeltaDataBricks028028029029图11:分析型数据库厂商自研方式、目标与价值基于开源技术做二次开发,厂商能持续给开源社区做贡献,并在开源社区的具备较高技术影响力是关键。厂商对源代码的更改如果不被主流社区接纳,其产品技术与存在与主流社区脱节,产品稳定性不足的风险。因此,对于分析型数据库厂商,尤其是智能湖仓厂商,我们应重点关注其与开源社区的联系紧密度,以其在开源社区的技术影响力,只有厂商对开源技术的二次开发能持续回馈到主流社区,在主流社区建立较领先的地位,并可以一定程度上影响开源社区的技术发展路径,才可以被认为具备较强的自研能力。商业模式:提供数据平台全栈产品和服务商业模式层面,国外厂商以提供数据库产品为主,而在国内市场,由于企业的数字基础建设整体上较落后,企业通常需要厂商提供出数据库产品之外,搭建数据平台所需的工具组件,以及相关实施和咨询服务。国内厂商依据不同分类,其商业模式也有相应差异。传统的数据库厂商通常只为企业提供数据库产品,以及数据库运维工具和部署服务;大数据解决方案提供商,包括数据湖或智能湖仓厂商除了提供数据库产品,通常也会提供包括数据开发、数据治理、数据资产管理等搭建数据平台所需的工具组件,以及针对数据平台搭建的实施和咨询服务。这其中,厂商间的主要差异在于,各厂商的数据平台相关的工具组件数量和功能完善度存在一定区别,受限于服务过的客户范围和经验积累,其实施和咨询服务的效率和体验也存在优劣之分。我们建议重点关注能够提供完善数据平台全栈产品,以及实施和咨询服务经验丰富的厂商,这类厂商通常能满足更多类型的客户需求,获得更多的市场份额。此外,公有云厂商在商业模式也存在一定特殊性,这类厂商虽然也能提供数据平台相关的产品、实施和咨询服务,但其侧重点在于为企业提供云端部署的标准化数据库产品,且其通常会将数据库产品与自家云基础设施服务绑定销售,定制化服务通常只面向行业大客户。图12:分析型数据库厂商典型商业模式行业落地:在行业领域的经验积累PB北京爱分析科技有限公司 北京爱分析科技有限公司 030分析型数据库市场竞争格局031031032032分析型数据库市场竞争格局分析型数据库市场参与者众多。在几十年的发展历程中,分析型数据库已经经历过四代演进,传统数据库厂商通过不断迭代产品满足用户需求,依然是该市场中的主要参与者。近年来,随着数据成为企业最重要的生产要素,企业对数据存储与处理变得更加复杂,国内外市场中涌现出了一批新锐的数据库厂商,他们在产品设计上采用了最新一代湖仓一体的的架构设计,而各大公有云厂商也推出了面向多种应用场景的分析型数据库产品。图13:国内外分析型数据库市场代表厂商注:部分最近几年新成立的数据库厂商,主推传统MPP数仓或数据湖产品,同样归为传统数据库厂商。由于公司底蕴,技术路线等原因,不同类型厂商在产品技术能力、商业模式、客户积累等方面存在诸多差异,因此具备相应的优势与不足。传统数据库厂商传统数据库厂商包含两类,一类主要提供传统的MPP数仓,另一类主要提供基于Hadoop生态的数据湖服务。这类厂商很多都有着悠久的历史,甚至伴随着几代数据库的发展至今,如Oracle、Teradata等。优势Cloudera基于HadoopCDH和CDP深度优化,并且Cloudera在全球有700多名研发工程师,能保证用户获得稳定的使用体验。同时,借助共享数据体验技术(SDX)、CDP中的安全和治理功能,CDP能够实现不同云上企业数据安全、隐私和合规的一致性。OracleOracle500OracleOracleOracle不足:ClouderaCDPCDPCDP依然沿用了HadoopCDP39NoSQL新锐数据库厂商优势FastDataFastDataPB不足033033034034ETL公有云厂商优势产品类型丰富、满足多种应用场景。公有云厂商通常会提供多种类型的分析型的数据库,满足企业各类分析需求。以阿里云为例,其分析型数据库产品包括云原生数据仓库AnalyticDBMySQL版、AnalyticDBPostgreSQL版,实时数仓Hologres、大数据计算服务MaxCompute、基于Hadoop的大数据平台E-MapReduce,智能湖仓DataLakeFormation。不足IaaSPaaS和SaaSIaaS服务能力不足。公有云厂商的业务重点是在云端为企业用户提供标准化的产品,而国内大量企业目前还倾向使用私有化部署的模式,应对这类需求,公有云厂商通常会与生态合作伙伴合作,将实时部署服务外包,缺乏原厂服务会造成项目质量参差不齐。此外,对于部分企业的定制化功能需求,公有云厂商通常也难以满足。分析型数据库典型产品分类重点关注国内提供新一代分析型数据库的厂商。一方面,由于厂商底蕴、定位等方面的不同,国内外很多厂商会提供多种类型的分析型数据库产品,我们认为新一代架构的分析型数据库产品智能湖仓在处理大规模数据,支持多种分析场景方面具备领先的优势,未来将会逐步成为分析型数据库市场的主流。另一方面,由于信创政策的影响,国内企业,尤其是金融、电信、能源等国有企业在应对未来分析型数据库升级需求时,基本都会选择国内厂商的相关产品。图14:国内外分析型数据库典型产品分类035035国内代表厂商分析036036037037国内代表厂商分析南大通用GBase20042014年通过引进Informix图15:南大通用GBase8a发展大事记技术架构层面,南大通用核心产品GBase系列数据库随着客户需求场景的更迭,发展出多种架构来支持不同的业务需求。其中面向数据分析市场的,主要是分析型数据管理系统GBase8a和统一数据平台GBaseUP。GBase8a以大规模并行处理、列存储,高压缩和智能索引技术为基础,具有满足各个数据密集型行业日益提高的数据分析、数据挖掘、数据备份和即席查询等需求的能力。最新的超大规模集群版本GBase8aMPPCluster单个集群支持部署300个以上的数据节点,整套集群可处理15PB以上数据。GBaseUPMPPHadoopHadoopOLAP、OLTP和NOSQL商业模式层面,南大通用通过构筑产品上下游生态体系提升市场竞争力,将自身数据库产品与国内云平台、操作系统、处理器、中间件等进行深度适配,改进产品并且创新商业模式,推出适应行业的销售策略。截至目前,南大通用GBase系列数据库已与国内主要厂商的上千款软硬件产品完成兼容适配认证,并持续加强与集成商、云厂商、软件开发商以及开源社区的生态合作,深化产品结合与优化。GBase8a2000200PB滴普科技FastData2018FastData,DLinkOracle技术架构层面,FastData对底层各个技术栈进行了统一,从而实现湖仓一体与流批一体。FastData在数据存储中采用统一的数据存储格式,通过统一元数据层兼容HiveMetaStore接口,可实现Flink、Trino、Hive等常用大数据分析、计算引擎的无缝接入和良好的互操作性,并且使用统一的SQL编辑器支持各主流的SQL类操作。同时,FastData基于Iceberg、Flink和Trino引擎做了大量技术优化,用一套架构实现数据的采集、转换、存储和分析的实时能力(分钟级)。038038039039图16:滴普科技FastDataDLink架构IcebergTrino和FlinkANSISQLFlinkIcebergTrino等开源组FastData ELT//滴普科技在精益制造、商业流通、生物医药、金融科技、能源双碳等领域服务过100多家头部客户,包括百丽国际、新华联、九洲电器、科伦药业、百果园、OPPO、VIVO等,并与深圳市龙华区、佛山市顺德区、攀枝花东FastData
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外租车辆月度使用记录单
- 泰山版(新教材)五年级下册信息科技第三单元教学设计
- 消防设施及器材台账
- 石材护理抛光未来发展趋势
- 2026年四川省甘孜藏族自治州高三压轴卷语文试卷含解析
- 26年银发用电安全问题解决方案课件
- 【2026年】(自然科学专技类C类)事业单位考试综合应用能力山西省复习要点精析
- 【浙江省温州市事业单位考试职业能力倾向测验(自然科学专技类C类)梳理难点解析】
- 外汇经纪人职业规划
- 金程职业规划指南
- 基础学护理冷热敷
- 道路交通事故现场勘查规范
- 大气污染防治专项资金项目申请报告撰写要点与2025年申报指南
- 2025年专利审查协作中心招聘考试面试常见问题解答
- 后勤管理内控知识培训课件
- 洛阳二外小升初数学试卷
- 2025-2030中国儿童营养早餐行业销售动态与竞争策略分析报告
- 结构稳定理论(第2版)课件 第7、8章 钢架的稳定、拱的平面内屈曲
- 2025年德勤秋招测试题及答案大全
- 转诊考核管理办法
- 体育类特长班宣传课件
评论
0/150
提交评论