版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录
1.数据中台平台建设方案2
1.1.总体建设方案2
1.1.1.大数据平台・TDH2
1.1.2.云操作系统・TOS3
1.1.3.大数据平台产品优势7
1.1.4.大数据平台性能优化12
1.2.大数据集成平台22
L2J.数据采集层建设22
1.2.2.数据存储层建设32
1.2.3.数据交换层建设41
1.2.4.数据管理层建设62
12.5.资源管理层建设76
13.大数据计算平台82
1.3.1.数据计算层建设82
1.4.大数据开发平台138
1.4.1.大数据平台可视化工具138
1.4.2.大数据平台集成能力183
1.5.大数据运维平台184
1.5.1.大数据平台运维184
1.5.2.大数据平台安全性218
1.53.大数据平台高可用性227
1.5.4.大数据平台开放性230
7.5.5.大数据平台兼容性231
1.数据中台建设方案
LL总体建设方案
通过对客户大数据应用平台服务需求的理解,根据建设目标、设计原则的多
方面考虑,建议采用星环科技TranswarpDataHub(TDH)大数据基础平台的架
构方案,基于TranswarpOperatingSystem(简称TOS)云平台方式部署构建。
通过建立大数据集成平台、大数据计算平台、大数据开发平台及大数据运维
平台来满足客户大数据应用平台服务建设的要求。
1.1.1.大数据平台・TDH
星环大数据平台TranswarpDataHub(简称TDH)基于开源Spark技术,从
查询引擎、计算框架、存储引擎和资源调度等方面做了性能的优化,相较于同类
产品,提供更好的性能。改进的分布式计算引擎Inceptor,解决了开源Spark的
稳定性问题,并且已经在众多成功案例中经历了的考验。同时Ipcetor大幅提高
Spark计算性能,是开源的2-10倍。TDHInceptor极大提高了Spark功能和性能
的稳定性,可以7*24小时在企业的生产环境运行,并能在TB级规模数据上高
效进行各种稳定的统计分析。
星环大数据平台TDH采用基于Hadoop的数据平台架构,海量数据查询分
析服务集群既可以处理结构化的数据,也可以处理非结构化、半结构化的数据,
满足配置、日志、网页、音视频、社交网络等多源异构数据的加载和存储,提供
数据查询、全文检索、数据离线批处理分析、交互式分析、图分析、数据挖掘、
机器学习等多种数据处理模式。同时,基于平台提供的实时流处理集群,可以满
足实时数据研判分析服务的需求。整个平台提供完整的多租户功能,对于计算资
源与存储资源以及数据访问资源进行统一控制管理,对于计算资源进行高效的调
度管理与使用控制;对于存储资源进行配额管理;对于数据访问权限,进行严格
的权限管理。在安装、配置、监控、告警方面,通过统一的TranswarpManager
进行运维管理。
星环大数据平台TDH应用范围覆盖各种规模和不同数据量的企业,通过内
存计算、高效索引、执行优化和高度容错的技术,使得一个平台能够处理10GB
到100PB的数据,并且在每个数量级上,都能比现有技术提供更快的性能;企
'业客户不再需要混合架构,TDH可以伴随企业客户的数据增长,动态不停机扩
容,避免MPP或混合架构数据迁移的棘手问题。
1.1.2.云操作系统・TOS
星环云操作系统TranswarpOperatingSystem(简称TOS)是为大数据应用量
身订做的云操作系统,基于Docker和Kubernetes开发。TOS支持一键部署TDH,
基于优先级的抢占式资源调度和细粒度资源分配,让大数据应用轻松拥抱云服务。
未来企业对于构建统一的企业大数据平台(DataHub)来驱动各种业务具有
强烈需求,统一的企业大数据平台需要提供以下功能:
•资源弹性共享一提高资源利用率
1)灵活部署:支持灵活部署大数据应用和其他常规应用
2)资源调度:具备自动扩容和自动修复功能
3)服务发现:具备集中式的仓库
•隔离性一保障服务质量和安全性
1)数据隔离:包括数据源、访问模式等
2)计算隔离:隔离CPU、内存、网络、磁盘10等
TOS满足了以上企业大数据平台的需要,支持对TDH的一键式部署、扩容、
缩容,同时也允许其他服务和大数据服务共享集群,从而提高资源的使用率。TOS
创新的抢占式资源调度模型能在保障实时业务的同时,提高集群空闲时的资源占
用,让批量作业和实时业务在互不干扰的情况下分时共享计算资源。
另外,在TOS上运行的TDH还引入微服务的架构,显著地降低了用户部署
环境对TDH稳定性的影响,提高了部署的可用性,并且能让用户在不停机的前
提下,享受到将来更新版本的升级以及修复。
TOS由以下几个部分组成:
容器层
容器层主要包含一系列的容器一dockercontainer。Docker是一个开源的引擎,
可以轻松的为任何应用创建一个轻量级的、可移植的、自给自足的容器。开发者
在测试机上编译测试通过的容器可以批量地在生产环境中部署。
Docker容器通过Docker镜像来创建,容器与镜像的关系类似于面向对象编
程中的对象与类。每个容器分配了一定的计算及存储资源,可以运行各自的应用
程序。通过将应用服务装载在Docker容器中,能够实现应用环境和底层环境的
解耦合,容器间相互隔离互不影响。
调度模块
基于Kurbemetes开发,包含多种调度模块,以及相应的调度策略。支持对
CPU、内存的调度,内嵌了FIFO调度、公平调度等常规的调度策略。额外的,
基于Docker容器能够快速启动的特点,TOS还包含了抢占式的优先级调度策略,
通过设计不同的优先级,优先级高的容器能够抢占优先级低容器的资源启动。
系统服务层
系统服务层包含了容器正常运行所需的系统服务,如服务eicd、nameservice
等,该层用于支持平台的容器化。
集中式服务仓库
类似于Maven的集中仓库,TOS也自带了一个集中式的应用服务仓库。用
户需要启动一个已存在于仓库中的应用时,只需要将该应用的Dockerimage拉
下来启动即可。
仓库预置了常用的应用服务,如完整Docker化的TranswarpDataHub各个
组件和Tomcat、MySQL等常用服务。如果用户想要使用其他应用服务,也可以
通过TOS提供的接口,在测试环境将应用服务制作为Dockerimage,上传至
TOSmarket,即可在生产环境下载并使用。
基于分布式容器集群管理系统(TOS)构建的服务器虚拟化资源池,可为大
数据平台系统的各类应用、分布式计算和存储服务组件提供多租户隔离的容器资
源调配管理、应用打包部署及SLA管理、作业调度管理以及统一运维监控管理。
该系统具备以下优势:
•便捷部署
基于TOS,用户可以通过WebUI、RESTAPI或者命令行一键瞬间安装和部
署TDH集群,能自动根据服务的依赖性安装所需的其他服务组件。在虚拟技术
之前,部署硬件资源满足新的应用需求需要几天时间,通过虚拟化技术把这个时
间降到了分钟级别,而目前基于Docker的TOS云平台把时间降到了秒级别。
Docker作为装载进程的容器,不必重新启动操作系统,几秒内能关闭,可以在
数据中心创建或销毁,没有额外消耗。典型的数据中心利用率是30%,通过更积
极的资源分配,以低成本方式对新的实例实现更合理的资源分配,从而提高数据
中心的利用效率。
•完整的资源隔离
TOS通过优化Kubernetes资源管理框架实现了基于Docker容器对CPU、内
存、硬盘和网络更好的隔离。TOS中Docker容器的隔离目前是由Linux内核提
供的六项隔离,包括主机名与域名的隔离,信号量、消息队列和共享内存的隔离,
进程编号的隔离,网络设备、网络栈、端口的隔离,挂载点(文件系统)的隔离,
用户和用户组的隔离。这些隔离保证了不同容器的运行环境是基本不受影响的,
比如挂载点的隔离,就保证了一个容器中的进程不能随意访问另外一个容器中的
文件。
TOS平台相比于传统的ApacheYarn管理框架和开源Kubemetes的资源管理
框架而言,在资源粒度方面可以管控磁盘和网络,而传统资源调度框架只能管理
到CPU和内存;在隔离性方面,容器技术有天然的优势;在依赖性和通用性方
面,不依赖于Hadoop组件以及技术,这意味着可以实现所有上层应用的云化开
发、测试、升级以及管理调度。
资源粒度隔离程度依赖性通用性
YARNCPU/MEM进程级别、不精确依赖某个HDFS支持少量计算引擎
KubemetesCPU/MEMContainer不依赖Hadoop支持通用Linux负载
CPU/MEM,
Container+Quota支持大数据及通用
TOSDISK,不依赖Hadoop
+VLAN应用
NETWORK
•灵活资源调度
TOS支持对TDH组件自动扩容或者缩容,同时也允许其他应用服务和大数
据服务共享集群,从而提高资源的使用率。TOS创新的支持抢占式资源调度模
型,能在保障实时业务的同时,提高集群空闲时的资源占用,让批量作业和实时
业务在互不干扰的情况下分时共享计算资源。通过支持动态扩容和收缩集群,从
何实现了资源的动态分配与调度,整个过程热插拔业务、服务无需重启。
•自动修复
TOS的Replicator模块负责检测集群规模,当集群中服冬发牛问题时可以另
起一个服务实例实现集群的自我修复功能。举例而言,某个
HyperbaseRegionServer由于硬件原因服务停止,TOS平台能够实时感知,并在
管理的资源范围内另起一个RegionServer的Docker容器接替因故停止的容器,
动态的保证了服务集群的整体稳定性。
•应用隔离
在TOS上运行的TDH以及应用服务还引入微服务的架构,显著降低用户部
署环境对TDH以及应用服务稳定性的影响,提高了部署的可用性,并且能让用
户在一定程度上不停止业务以及服务的前提下,进行快捷的TDH以及应用服务
更新版本滚动升级。
1.1.3.大数据平台产品优势
1.13.1.完整的SQL支持
星环大数据平台支持完整的SQL99标准和SQL2003核心扩展,可以运行
TPC-DS标准测试集的全部99个测试项;
唯一支持存储过程的SQLonHadoop引擎;兼容98%以上的OraclePL/SQL
与80%以上的DB2SQLPL语法支持存储过程、函数、控制流、游标、异常处
理等各类语法。
唯一支持ACID分布式事务的大数据SQL引擎;定位数据仓库和数据集市市
场,可用于补充或替代Oracle、DB2等分析用数据仓库。
TDH提供ANSISQL2003语法支持以及PL/SQL过程语言扩展,并且可以自
动识别HiveQL、SQL2003和PL/SQL语法,在保持跟Hive兼容的同时提供更强
大的SQL支持。支持标准的SQL形式访问数据。TDH更完整的SQL支持使得
用户能将原有数据分析应用方便地迁移到Transwarp大数据平台,同时又能处理
更大的数据量。
为了降低开发流应用程序的难度,TDH还支持StreamSQL标准,其中包含
流扩展后的SQL99。因此,开发者可以在TDH上直接使用SQL而不是通过各
种API来编写流计算程序,也不需要考虑任何打包或部署工作。为了更好的提
供全文搜索服务,TDH中的Search也支持SQL的检索扩展语法(兼容Oracle
标准,由于支持标准的JDBC4.0和ODBC3.5,TDH可以兼容主流的数据库软
件和中间件。
TDHApacheHiveApacheSpark
SQL99是是是
SQL99&2003是部分是
OraclePL/SQL是部分否
DB2SQLPL是否否
Database方言是否否
DB-Link扩展是否
StreamSQL是否否
Search扩展是否否
1.13.2.完整的事务支持
ACID对于大数据的数据处理和数据清洗过程至关重要。如果没有ACID,数
据的插入修改过程将存在各种潜在问题,终端用户需要亲自探究事务操作的失败
原因并找出避免和解决问题的方法,这使用户应用的过程变得复杂,甚至根本不可
行。更糟糕的是,如果没有ACID,当两个应用程序向同一个数据块中写入数据时,
会很容易出错。
TDH是第一个提供完整ACID支持的Hadoop商业化产品。TranswarpInceptor
实现了串行化的事务隔离,并通过两阶段锁和MVCC协议保证数据的一致性。
TranswarpInceptorHiveImpalaOracle
CRUD支持支持支持不支持支持
事务类型事务+自治事务自动提交事不支持事务+自治事
务务
隔离级别可串行不支持不支持只读+可串行+
读取提交
事务错误处事务+P以SQL+SQL不支持不支持事务+PL/SQL
理PL
数据一致性支持不支持不支持支持
1.13.3.超快的执行速度
TranswarpInceptor采用专有的高效列式内存存储格式和为内存优化的
ApacheSpark计算引擎,相比广泛使用的M叩/Reduce框架消除了频繁的I/O磁
盘访问。此外,Spark引擎还采用了轻量级的调度框架和多线程计算模型,相比
Map/Reduce中的进程模型具有极低的调度和启动开销,除带来更快的执行速度
以外,更使得系统的平均修复时间(MTTR)极大的缩短。在实时在线应用方面,
TranswarpHyperbase构建了全局索引、辅助索引和全文索引,扩展了SQL语法,
满足在线存储和在线业务分析系统(OLAP)的低延时需求。综合在执行引擎及数
据存储层上的优化,使得TDH性能全面领先开源ApacheHadoop2.0,SQL支
持完整程度和性能大幅领先QouderaImpala,比主流MPP数据库快1.5到10倍。
TranswarpInceptor作为大数据分析工具有着极致的执行性能利扩展能力。星
环深度优化了Inceptor的分布式计算引擎,并使其具有灵活的扩展能力,同时它
会对数据重分布和广播的逻辑进行调试优化以达到更好性能。InceptorHolodesk
是一个基于SSD或内存的列式存储引擎,能提供非常高的数据读取数据。此外,
Inceptor还采用了基于成本的优化和基于规则的优化来为执行任务选择最佳执行
计划。所有这些特性都有助于Inceptor提供批量处理过程的效率和扩展性,在
TPC-DS各个数据量级别的测试中,Inceptor都有非常好的表现。
Inceptor可以很好地适配各种交互式数据分析和OLAP场景。Holodesk提供
了索引支持,并且可以有效的利用SSD来加速扫描,因此对交互式分析场景的
业务可实现多倍的提速。对于模式较为固定的数据报表业务,用户可以采用
OLAPCube技术使分析性能提高10-100倍。我们以1TB的数据集为对象进行测
试,发现在OLAPCube的加速下,TPC・H在Inceptor中的运行速度比SparkSQL
和Greenplum快近100倍。
InceptorTPCMCITB性能提升(运用OLAPCube)
1000.0|
i.JhilhJiiALlJ
123456789101112131415161718192021L22
0.1
■Inc«fpeor50/Sperk202■lnMfptor50/GP4310
1.13.4.超强的数据分析功能
将大数据放在数据分析师的手中,交互式地探索数据,获得洞察并发现模式
和趋势,以便展开进一步的分析及决策已经变得越来越重要.
TDH通过分布式的内存列式存储和优化的高速执行引擎来支持交互式SQL
查询,使得实时和交互式分析变成可能。TDH同时支持R统计引擎,最新版本
的TDH除了支持通过R访问HDFS或者Hyperbase中的数据外,还支持访问存
储在Inceptor分布式内存中的数据。Inceptor同时内置了常用机器学习算法的并
行化实现,可以与R语言中的数千个算法混合使用。新版本同时支持R命令行
以及图形化的RStudio执行R语言程序来访问TDH中的数据,从而使得TDH
成为在大数据的数据挖掘和兀视化应用领域的利器。TDH包含了经过高度优化
的专有图算法,可高速分析关联关系网络等图数据。
TranswarpDiscover为终端用户提供了R语言接口用于进行数据挖掘,并实现
了超过60种分布式机器学习算法和多种行业模型,包括金融行业的交易反欺诈
模型、文本挖掘模型等,从而加快机器学习在这些行业的落地商用。
星环还通过TranswarpSophon来帮助数据工程师开发数据挖掘的应用。
Sophon提供了可视化界面工具Midas用于创建模型,用户只需通过拖拽数据源对
象和运算符就能完成模型设计,然后将设计的模型在TDH集群上训练或预测分
析。相对于传统的单机计算,分布式执行器有着极快的模型运行速度,数据科学家
们的模型训练能够提升数倍甚至数十倍。此外,Sophon还整合了深度学习框架
Tensorflow,使用户可以通过拖拽生成各种神经网络模型,灵活调参和训练,将大数
据和人工智能结合起来推动业务创新。
1.1.3.5.容器技术和Kubernetes资源管理
TDH中的组件都针对Docker作了优化,计算引擎也可以使用Kubernetes进行
资源管理,得以使TDH以较低的成本部署在公共云或者私有云上。星环还充分
利用Docker和Kubernetes的资源隔离能力和对资源调度的QoS支持,提供了弹
性的资源共享,保障数据、资源、应用之间的隔离,实现了更好地多租户管理,以支
持各种不同的业务需求。
容器技术给TDH的部署和维护带来了非常显著的提升,它支持动态扩容、缩
容,支持灰度升级,可以实现在不停服的情况下对系统进行升级
1.13.6.生态系统的强力整合
TDH非常重视与数据分析生态系统的整合以提高系统的易用性。TDH与现
有成熟系统的无缝整合涉及了数据获取,数据分析以及数据可视化端。传统的关
系型数据库的数据可以直接作为数据源接入到集群中参与计算分析,目前己经支
持Oracle,DB2及MySQL数据库。数据分析层与R语言的整合带来了R的数
千种统计算法的同时,可以充分利用R语言中的绘图工具绘制专业的统计报表;
数据可视化不仅可将最终分析结果展示给用户,还可以帮助数据分析师来进行数
据探索来发现和解决新问题。TDH支持多种可视化及报表生成工具,包括Tableau、
SAPBusinessObjects.OracleOBIEE等,使得基于大数据分析的商业决策更易被
理解和接受,从而将大数据的潜在价值最大化。虽然有些工具也支持Apache
Hadoop,但只有高性能的TDH才真正使得交互式地探索大数据成为现实。
1.13.7.完备的企业级解决方案
TDH通过提供数据存储、分布式计算、数据分析挖掘以及数据可视化的整套
支持,解决了企业在GB到PB级数据分析领域碰到的各种问题。作为企业级解
决方案,可管理性是TDH的显著优势,用户友好的管理界面提供了系统安装、
系统及集群配置、监控及预警等多方面的一站式支持。TDH架构具有高可用性
和快速故障恢复能力,HDFS2.5做为其底层存储系统的支撑技术(Hyperbase亦
基于此)保证了数据的持久化和冗余复制,并具有数据自动检测和修复的容错功
能;基于HDFS的所有服务为HDFS2.5的HA功能而优化,确保整个大数据处
理系统的高可用性。在安全领域,与Kerberos/LDAP进行整合,支持细粒度访问
控制、应用程序安全及数据加密及解密等等。
1.1.4.大数据平台性能优化
1.1.4.LTDH计算框架优化
星环支持多种主流的分布式计算框架,包括MapReduce和Spark,并且在产
品设计之初就将Spark作为整个产品的缺省计算框架,多年来在计算框架方面做
了大量的优化工作,提高了其性能与稳定性。
.1.MapReduce
M叩Reduce是一个分布式计算框架,基于该框架能够容易地编写分布式应用
程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可
靠地,具有容错能力的方式并行地处理上TB级别的海量数据集。
MapReduce擅长处理大数据,该计算框架的核心思想就是“分而治之”,整个计
算过程可以分解为Map(分)与Reduce(合)两个阶段。首先,将复杂的任务
分解为若干个简单的小任务来处理。其中简单的小任务包含三层含义:一是数据
或计算的规模相对原任务要大大缩小;二是就近计算原则,即任务会被分配到存
放着所需数据的节点上进行计算;三是这些小任务可以并行计算,彼此之间没有
依赖关系。Reducer负责对map阶段的结果进行汇总。
.2.Spark
Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开
源的类HadoopMapReduce的通用并行框架,Spark拥有HadoopMapReduce所具
有的优点;但不同于M叩Reduce的是Job中间输出结果可以保存在内存中,从
而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要
迭代的MapReduce的算法。
Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一
些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越,
换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可
以优化迭代工作负载。
Spark是在Scala语言中实现的,它将Scala用作其应用程序框架。与Hadoop
不同,Spark和Scala能够紧密集成,其中的Scala可以像操作本地集合对象一样
轻松地操作分布式数据集。
1.1.4.L3.计算引擎优化
星环科技基于开源Spark技术,改进的分布式计算引擎Inceptor,解决了开
源Spark的稳定性问题,并且已经在众多成功案例中经历了的考验。同时Ipcetor
大幅提高Spark计算性能,是开源的2-10倍°TDHInceptor极大提高了Spark功
能和性能的稳定性,可以7*24小时在企业的生产环境运行,并能在TB级规模
数据上高效进行各种稳定的统计分析。
Inceptor基于ApacheSpark深度开发了专用分布式计算引擎,不仅大幅提高
了计算性能,而且有效的解决了Spark在稳定性方面的很多问题,确保计算引擎
能够7x24小时无间断运行。此外,Incepior引擎独立构建了分布式数据层,将计
算数据从计算引擎JVM内存空间中独立出来,因此可以有效减少JVMGC对系
统性能和稳定性的影响。
在SQL执行计划优化方面,Inceptor实现了基于代价的优化器和基于规则的
优化器,辅以10()多种优化规则,可以保证SQL应用在无需手工改动的情况下
能够发挥最大的性能。对于数据倾斜等常见的数据处理难题,执行引擎也能够自
动识别并加以优化,能够解决绝大部分存在数据倾斜的计算场景,杜绝数据倾斜
对系统稳定性的影响。
为了更好的适应各种数据场景,Inceptor的执行引擎包含两种执行模式:低
延时模式和高吞吐模式。低延时模式主要应用在数据量比较G的场景,执行引擎
会生成执行延时低的物理执行计划,通过减少或避免一些高延时的任务(如IO,
网络等)来保证SQL的执行时间很短,达到或者逼近关系型数据库在这些场景
下的性能。高吞吐模式主要应用在大数据的场景,通过合理的分布式执行来提高
超大数据量上的复杂统计分析的性能。因此,Inceptor的执行引擎可以满足从GB
到PB的各种数据量上的数据业务需求。
1.L4.2.TDH查询引擎优化
TranswarpInceptor引擎内置了丰富的查询优化器,包括基于代价的优化器
(CBO)>基于规则的优化器(RBO)和基于物化视图的优化器(MB0)。
.L基于代价的优化器
CBO全称是CostBasedOptimization(基于代价的优化方式),是SQL执行
计划重要的优化手段。Inceptor对大数据平台原有的CBO功能进行了增强和扩
展,进一步提升了SQL兼容性和执行性能。
性能提升方面,在测试TPC-DS标准测试集时,开源Hive在开启CBO优化
以后,平均有2.5倍的性能提升。Inceptor基于原有的功能进行了扩展和增强,
在开启内置CBO后,约10%的测试场景性能提升3~4倍,接近20%的场景性能
提升40%,约有80%的执行计划等于或接近最优计划。实际海量数仓业务中,
预计CBO能够提供较好的性能优化提升。
TableB
1000records
1..基于规则的优化器
RBO全称是RuleBasedOptimization(基于规则的优化方式),应用静态优
化规则生成一个优化的逻辑执行计划,通过一组简单的启发式规则和打分原则来
确定语句的执行过程和访问方式的,其中排名越靠前,被认为效率越高。
L,基于物化视图的优化器
MB0全称是MaterializedviewBasedOptimizer(基于物化视图的优化器),
它可以基于物化的OLAPCube或者视图来优化输入的SQL查询,根据对执行成
本的计算,决定是否执行读取物化对象的存储计划。
L1.4.2.4.智能索引
大数据平台中部分数据存储上可以建立索引,达到查询加速的效果。Inceptor
内置智能索引功能,可以识别出底层存储具备的索引,并在查询时优先使用存储
上的索引。
智能索引技术具有以下特点:
>查询计划智能使用最快速的索引
>无需用户在SQL中指定索引
>对指定查询,根据该表有的多个索引创建不同的执行计划
>根据成本计算性能最佳的执行计划和索引
>支持精确杳询和模糊查询
>查询延时百毫秒级
比如Hyperbase支持多种索引,包括全局索弓I(GlobalIndex)、局部索引(Local
Index)>高维索引(High-dimensionalIndex)以及全文索引(Full-textIndex)等;
结合Inceptor支持通过SQL进行复杂条件亳秒级高并发查询,同时查询计划智
能使用最快速的索引,无需用户在SQL中指定索引。对指定查询,根据该表有
的多个索引创建不同的执行计划,根据成本计算性能最佳的执行计划和索引,与
此同时,支持精确查询和模糊查询。相对于普通索引技术,智能索引技术基于代
价的执行优化,准确率高,性能更好,能满足各类复杂场景需求,包括基于条件
的多表关联即席查询与统计,可以满足高速的OLAP数据分析应用需求。
相对于普通索引技术,CBI准确率高,性能更好,满足复杂场景需求。
1.L4.3.TDH存储引擎优化
1.1.4.3.L内存/SSD/磁盘混合存储加速
交互式分析是指用户期待秒级的分析响应。为支持在线事务处理、交互式
分析、近实时挖掘,或针对操作型数据直接进行复杂、即席的分析性应用需求,
传统数据集市、数据仓库等均针对预先定义的分析服务类型进行预先计算。将原
始数据做抽取、转换、加载,最后生成物化视图,实现相关分析;同时周期性检
查数据存储中的增量数据,优化分析结果,因而无法满足实时、即席的复杂分析
要求。此外,数据存储模式的变化,数据量激增之后,传统的在线分析的局限性
越来越明显,如数据存取性能下降,连接处理复杂化等。
为了加速交互式分析的速度,Inceptor推出了基于内存或者SSD的列式存
储引擎Holodesk。Hokxlesk将数据在内存或者SSD中做列式存储,辅以基于内
存的执行引擎,可以完全避免IO带来的延时,极大的提高数据扫描速度。除了
列式存储加快统计分析速度,Holodesk支持为数据字段构建分布式索引。通过智
能索引技术为查询构建最佳查询方案,Inceptor可以将SQL查洵延时降低到秒级。
Inceptor中Holodesk支持跨内存/闪存介质的分布式混合列式存储,可用于
缓存数据供Spark高速访问。Holodesk利用SSD的高IOPS特性进行针对性的存
储结构优化,通过列式存储,内置索引等技术,使得在SSD上分析性能比纯内
存缓存相差在10%~20%范围左右,提供性能接近的交互式SQL分析能力。由于
内存的价格是SSD的近10倍,因此可以采用SSD来替代内存作为缓存,一方
面可以增大分布式内存数据库Holodesk存储容量,另一方面可以降低成本,同
时性能没有明显损失。
Inceptor可以通过SQL将数据从Hyperbase/HBase以及HDFS上装载入
Inceptor分布式内存列式存储Holodesk,星环的Inceptor支持对海量数据的交互
式数据分析,具备在秒级扫描分析数十亿条数据的能力。未来可以对不同业务部
门开放交互式分析能力,提供现有数据仓库不能满足的交互式内存分析能力。
Holodesk允许用户对多字段组合构建OLAP-Cubc,并将cube直接存储于内
存或者SSD上,无需额外的BI工具来构建Cube,因此对于一些复杂的统计分
析和报表交互查询,Holodesk能够实现秒级的反应。除了性能优势,Holodesk
在可用性方面也表现出色。Holodesk的元数据和存储都原生支持高可用性,通过
一致性协议和多版本来支持异常处理和灾难恢复。在异常情况下,Holodesk能够
自动恢复重建所有的表信息和数据,无需手工恢复,从而减少开发与运维的成本,
保证系统的稳定性。
平台支持基于内存或者固态硬盘高10特性优化的列式存储,避免10带来
的延时以提高数据扫描速度。
Holodesk星环自主研发用于应对海量数据OLAP高性能分析查询难题的一
款产品,它是跨内存/闪存/磁盘等介质的分布式混合列式存储,常用于缓存数据
供Inceptor高速访问。Holodesk内建索引,结合Inceptor计算引擎可提供比开源
Spark更高的交互式统计性能,可以达到秒级灵活分析数亿条记录的性能;结合
使用低成本的内存/闪存混合存储方案,可接近全内存存储的分析性能。
Holodesk-在SSD缓存上的列式存储
HOFSStoragelayer
它着力于交互式分析中即时查询效率的提高且能够保证扩展性与稳定性。
TranswarpHolodesk通过Zookeeper来管理元数据,从而避免因为单点故障而
导致的数据丢失,数据checkpoint在HDFS中。服务在故障恢复之后,Holodesk
能够通过Zookeeper中的信息自动重建数据与索引,因此有很高的可靠性。
1.L4.3.2,全局索引
平台可以采用全局索引,快速找到精确查询的记录,索引采用分桶技术,加
快寻找索引速度,快速精确定位数据。
Holodesk通过创建全局索引,优化底层存储,对于过滤率较高的情况有很好
的优化效应。Holodesk提供了表组织成桶的优化方式,通过分桶技术可以做到:
1)有助于取样
取样是从所有数据随机的抽取一部分样本。当数据极多时,不方便使用全部
的数据验证系统功能,这时需要使用样本数据进行测试。表若被分桶,每个桶的
内容是对数据的离散后的结果,满足对于样本的要求,所以取样时可以直接抽取
任意一桶的全部数据作为样本。
2)减少操作量,提高查询速率
条件过滤时,如果过滤字段和分桶字段一致,可根据哈希结果直接知道该记
录所在的相关分桶编号,只在这些分桶查找满足条件的记录,而不用搜索所有的
文件,有很高的查询效率。
3)减少Shuffle数据量
分桶操作使得如GROUPBY以及特定场景下的JOIN(多个JOIN表分桶个数
相同)能够在一个Slage中完成,避免了Shuffle过程。例如,有两张表对JoinKey
的列分桶,现对这两张表做JOIN,由于两个表相同列值的记录都在对应表的同
一个编号bucket中,因为Inceptor实现了同一个编号的bucket在同一个节点上的
co-location的特性,所以可以直接在一个Stage实现JOIN,而不用Shuffle。
.3.局部索引
平台支持在分布式内存列式存储上建立局部索引,提供OLAP能力,为大
表创建索引,支持多维数据灵活分析,无需预先物化计算。
索引和Cube的建立会提升在高过滤和高聚合率的情况下的查询速率和效率,
并且使得以更直观地方式从多维度多层面研究数据。Holodesk的索引是将列式存
储的每个单元看作整体建立的。索引的创建采用了字典编码技术(Dictionary
Encoding)o相对于通过遍历每一条记录进行条件过滤的手段,使用索引大幅度
缩短了过滤时间。可以根据需求,选择对一个字段或多个字段创建索引,Holodesk
的索引支持所有数据类型。
1.L4.4.TDH资源调度优化
星环科技的大数据平台通过细粒度的资源调度优化,充分利用物力资源,是
的单位时间内能够满负荷地运行任务,面对高并发ETL或者交互式分析的场景,
有非常出色的处理能力。
1.1.4.4J.计算资源管理
TranswarpYam支持同时对计算资源(CPU核心)和内存资源的管理能力,
Yarn和分布式存储在同一个物理集群中,达到分布式计算中数据优先本地化计
算的目的,避免计算过程中数据需要全部从网络获取。在申请资源配额后,如果
当前用户的资源紧张或受限,还可以动态调配其他用户的闲置资源加入,当其他
用户使用时再归还。TDH大数据平台基于YARN的资源调度框架,启动Spark
和Map/Reduce计算集群,按需动态创建与销毁计算集群。
1.L4.4.2.长期占用资源管理
TDH平台在一个Inc叩tor/Spark计算集群内部同样能实现计算资源在不同资
源池(Pool)的共享与隔离,通过公平调度算法保证高优先级的Pool优先拿到
闲置资源,同时每个Pool具有指定的资源保有量,避免高负载批处理业务占用
全部计算资源。同时,,这种机制也能支持服务类的业务长期占用一定量的资源。
1.L4.4.3.资源分配与回收
在TranswarpYarn上,可以非常方便的动态创建和销毁Spark或者
Map/Reduce集群。对于用户提交的MapReduce以及Spark作业以及Inceptor集
群,需要提交到其有权限的队列中,向Yam申请资源,当用户当集群中节点上
有足够的资源满足作业中task的要求并且没有达到该用户资源使用上线时,Yarn
中将这部分CPU和内存资源封装成container,提供给task运行;如果剩余的资
源量不足以满足计算所申请的资源,则任务需要排队。作业任务运行完成后动态
销毁,释放占用的CPU与内存资源。因此,对于平台分析应用,可以充分使用
TranswarpYam的特性,实现分析集群的按需创建与销毁,从而帮助实现资源、
计算能力的统一调度和规划。
.4.资源最低配额
在Yarn中通过FairScheduler管理调度策略,支持定义用户最低获取资源,
以及最高获取资源,用户提交任务时所占用的最低资源不低于分配给用户的最低
资源,在空余资源的情况下,最高资源能够达到分配给用户的最高资源。在其他
任务需要资源时,根据优先级决定资源分配情况,如果优先级不够,支持抢占式
调度,能够将低优先级作业占用的多余资源释放出来。
1.1.4.4.5.组内资源再分配
通过TDH中Guardian的统一多租户资源管理调度,用户组可以分配对应队
列资源,组管理员具有队列资源配置权限,可以自主地对分配给本组的资源为组
内用户再次分配。组内所有用户的最低资源总和不超过组的最低资源,最大的最
高资源不超过组的最高资源。
.TPC・DS基准测试和TPCH测试
TPC-DS是国际公认的数据库性能测试,其中包含了99个精心设计的SQL
查询语句,涵盖了绝大部分商用数据库使用场景,通过该测试则能证明测试产品:
1.具有良好的SQL支持能力,能够无缝对接绝大部分基于SQL的应用场景。
2.能在短时间内跑完这些测试说明该产品的性能非常优秀。
星环大数据平台通过了大规模性能测试,验证了TDH在100TB的TPC-DS
测试集下的性能。
商业智能计算测试TPC-H是美国交易处理效能委员会(TPC,Transaction
ProcessingPerformanceCouncil)组织制定的用来模拟决策支持类应用的一个测
试集.目前,在学术界和工业界普遍采用它来评价决策支持技术方面应用的性能.
这种商业测试可以全方位评测系统的整体商业计算综合能力,对厂商的要求更高,
同时也具有普遍的商业实用意义,目前在银行信贷分析和信月卡分析、电信运营
分析、税收分析、烟草行业决策分析中都有广泛的应用。TPC-H基准测试的度
量单位是每小时执行的查询数(ODhH@size),其中H表示每小时系统执行复杂
查询的平均次数,size表示数据库规模的大小,它能够反映出系统在处理查询时
的能力.TPC-H是根据真实的生产运行环境来建模的,这使得它可以评估一些其
他测试所不能评估的关键性能参数.总而言之,TPC组织颁布的TPC-H标准满足
了数据仓库领域的测试需求,并且促使各个厂商以及研究机构将该项技术推向极
限。
星环TDH进行了大数据性能测试,验证了在TPC-H下的性能。
1.2.大数据集成平台
1.2.1.数据采集层建设
大数据平台需要采集各类内外部数据,形式多样,需支持不同频度、不同形
态的数据采集。采集方式包含流方式、批量导入方式、外部数据文件导入、异构
数据库导入、主动数据抽取、增量追加方式、网上爬虫方式等,数据形态包括结
构化数据、半结构化数据、非结构化数据。
数据采集层负责实现内外部结构化数据、非结构化数据和流数据的自动化采
集,遵从统一数据交换架构,完成数据采集相关工具、组件的安装、部署和集成,
利用数据调度和采集工具将数据源数据导入大数据基础平台中。
本建设方案满足甲方对于数据采集层建设的基本要求:
利用了FTP/SFTP、Sqoop.Kafka>Flume等开源组件和技术;实现了离线
采集和加载、实时/准实时数据同步等功能;遵循了开放性和先进性原则;并且
提供了更高效的数据导入工具SQLBulkload,与关系型数据库准实时同步的工具
OGG和ODC,使得数据采集工具更加丰富,数据导入效率更高,时效性更强。
可以给甲方后续建设提供更丰富、更多样性的选择。
L2.1.1.数据接入多样化
1.2.L1.1.结构化数据加载
在Oracle、DB2、Mysql等传统关系型数据库以及MongoDB等NoSQL数据
库上的产生结构化数据需要迁移到Hadoop平台上Inceptor表、Hyperbase表或者
Search表中进行数据分析或者检索,TDH上支持各类结构化数据的加载,支持
灵活通用的数据格式描述,包括数据包含的字段、各字段的分隔符、字段类型等。
支持传输的带分隔符的元组序列,每个元组的字段结构相同,由指定的分隔符分
隔。支持的字段类型包括:整数(最长8字节)、浮点数、字符串、日期、时间
等。在Inceptor中定义相关的表结构,Inceptor中支持整形、浮点数、字符串以
及日期和时间等常用的简单字段类型以及M叩、Array,Struct等复杂的数据类型。
通过Sqoop生成分布式任务对数据进行高效抽出同步,或者通过TDA组件
对关系型数据库中的表进行准实时同步插入更新删除等数据操作;业务平台实时
产生的结构化日志或者消息通过Flume分布式日志实时采集工具加载到TDH平
台上HDFS>Search>Hyperbase或者Kafka数据队列中;加载到HDFS上的数据,
通过InceptorSQL进行数据处理或者在Discover中进行数据遨掘和机器学习。加
载到Hyperbase中的数据可以通过Inceptor进行后模糊或精确匹配的高并发检索
查询。加载到Search中的数据可以通过Inceptor进行前模糊、后模糊、范围检索、
关键字检索、全文检索等。在千兆网络下,Search的数据入库速度为单节点20000
条每秒。
中向件
XMC/006C
Rume
业务系统定义数据格式,数据源(数据库或者结构结构化文件),数据存储
端(HDFS、Search>HolodeskHyperbase等),数据调度方式,数据同步方式
等,TDH上根据定义的数据加载方式为该任务自动配置数据处理的数据源、中
间件(Sqoop、TDA、API/RESTAPkFTPOverHDFS、JDBC/ODBC、Flume或
Kafka等)、存储以及处理方式等,启动相应的Oozie工作流任务或者中间件的
调度任务,并对数据的加载、传输以及处理入库全流程进行监控和记录。
TDH上支持各类结构化数据的加载,支持灵活通用的数据格式描述,包括
数据包含的字段、各字段的分隔符、字段类型等。支持传输的带分隔符的元组序
列,每个元组的字段结构相同,由指定的分隔符分隔。支持的字段类型包括:整
数(最长8字节)、浮点数,字符串,日期、时间等。在Inceptor中定义相关的
表结构,Inceptor中支持整形、浮点数、字符串以及日期和时间等常用的简单字
段类型以及Map、Array.Struct等复杂的数据类型。
1)在负载均衡方面,当一类数据加载量较大时支持由多个加载客户端并行
加载。Sqoop,Flume,Kafka等工具均是分布式架构数据采集工具,支
持多任务并行执行。Sqoop通过生成并提交M叩Reduce程序来切分task
实现并行执行抽取数据任务;Flume通过分布式架构可以通过定义多个
Agent或者多组Source-Channel-Sink组件来实现多个客户端并行加载数
据;Kafka通过定义并行收集数据的KafkaProducer或者多个Kafka
Producer来对数据进行并行加载。
2)支持将数据加载到数据库、Hyperbase、总线消息队列、流处理系统以及
HDFS上。
3)Flume支持多个Agent数据传输节点之间以多对一的方式进行数据汇聚,
如采集不同服务节点上的同一类日志数据汇聚到同一份文件中,支持一
对多的方式数据分发,如将同一份数据通过KafkaSink传输到kafka上
导入到Stream中做流式计算,通过HdfsSink传输至UHDFS上做数据存
储,还可以通过ElasticsearchSink到Search做数据搜索。
4)分布式数据采集框架Flume集成多种数据源以及数据传输的插件,并通
过程序接口可以快速实现相关采集传输数据以及数据计数、数据筛选、
数据预处理以及数据流监控等功能。Flume里面的支持自定义插件
interceptor对数据进行过滤筛选等,并且在Flume里面,还可以通过
KafkaSink将数据流接入Kafka导入到Stream中通过StreamSQL进行数
据处理,在这里Flume作为Kafka的一种数据源。
5)TDH上数据传输工具支持加载数据缓存功能。当目标接收端出现问题时,
网络中断或出现阻塞时,支持将加载数据缓存在本地磁盘中,当目标端
恢复后继续将数据加载到目标端中。Flume或者Kafka均支持将消息队
列缓存在文件系统上,Flume支持failover机制,Kafka通过对数据的多
份备份,均对加载的数据有相应的可靠性机制保证数据的安全。
6)分布式文件系统HDFS与分布式消息队列Kafka均支持断点续传功能的
实现,HDFS支持文件中数据的append,并且支持指定offset的数据读
取,可以通过对于数据offset的记录实现数据上传下载中断点续传的功
能。Kaflca中的数据缓存在磁盘上,在消费队列中记录有消息被消费的
偏移量offset,因此可以缓存传输中的断点位置来保证数据进行断点续
传。
7)TDH上通过Oozie工作流引擎定制定期作业,通过Sqoop定时将数据库
中数据导入到TDH上;离线文件可以通过分布式数据采集组件Flume
监控相应的文件目录,定时将数据文件传输到HDFS上或者相应的存储
系统中。
在万兆网络的环境下,单台客户端支持的数据加载速度在300MB/S及以上
(现场测试结果),可以随集群规模线性扩展直至到达网络传输最大带宽。加载
集群对于文本数据的加载总带宽在100Gb/s及以上。单台加载机最大的数据缓存
量可以达到TB级。最大可以达到机器存储能力的上限。缓存能力与机器存储能
力成线性增长。
1.2A.1.2.半结构化数据加载
TDH支持加载各类半结构化数据,支持的类型包括邮件、网页、XML文档,
结构化日志中的某些字段等。在TDH上采用Logstash组件对半结构化数据进行
加载以及处理,支持自定义输入数据的结构以及输出数据的结构;支持通过
Flume自定义数据接口以及数据的简单处理,并将处理后的数据加载到指定的存
储端;加载到HDFS上的半结构化数据可以通过InceptortSQL对其进行结构化
加工和处理,Inceptor支持对Json.、XML/HTML、CSV等半结构化数据文件进
行直接处理或者查询分析。
在负载均衡方面,当一类数据加载量较大时支持由多个加载客户端并行加载。
Sqoop,Flume,Kafka等工具均是分布式架构数据采集工具,支持多任务并行执
行。Sqoop通过生成并提交MapReduce程序来切分task实现并行执行抽取数据
任务;Flume通过分布式架构可以通过定义多个Agent或者多组
Source-Channel-Sink组件来实现多个客户端并行加载数据;Kafka通过定义并行
收集数据的KafkaProducer或者多个KafkaProducer来对数据进行并行加载。同
时支持多台加载程序以多对一、一对多的方式连接,完成数据的分发或汇聚。
1.2.L1.3.非结构化数据加载
业务系统产生的各种类型的文档、图片、非结构化文本需要在TDH上进行
存储、检索等处理方式,在TDH上通过定制Flume组件、API接口可以将非结
构化数据(文档、图片、音视频等多媒体文件)传输加载到HDFS上或者Hyperbase
表中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025云南富源县禹泽园工程有限公司招聘劳务服务人员49人笔试历年备考题库附带答案详解
- 汽车天窗生产线项目投资计划书
- 建筑用凝灰岩矿开发利用项目商业计划书
- 搅拌桩机安装、拆卸方案
- 烟草行业生产经营管理规范指南(标准版)
- 金属材料加工与检验指南(标准版)
- 2026年社会公德职业道德家庭美德个人品德知识问答
- 2026年青年干部培训班入学考试综合能力模拟卷
- 2026年如何准备并应对专业知识的提问
- 2026年冷链物流温湿度监控仪器操作与数据分析测试题
- 2026年中国农业银行招聘考试笔试试题(含答案)
- 2025学年3 不懂就要问教案
- 中石化油品采购制度规定
- 2026年山东省新动能基金管理有限公司校园招聘笔试模拟试题及答案解析
- 2026江苏南通市苏锡通科技产业园区消防救援大队消防文员招录2人笔试模拟试题及答案解析
- 清醒俯卧位通气护理专家共识
- 尽调项目工作方案范文
- 中国艺术研究院社会招聘试题
- 沃尔玛优化物流运输案例分析
- 2025年安徽卫生健康职业学院单招职业适应性测试试题及答案解析
- 维修电工绩效考核制度
评论
0/150
提交评论