星环大数据产品和技术介绍_第1页
星环大数据产品和技术介绍_第2页
星环大数据产品和技术介绍_第3页
星环大数据产品和技术介绍_第4页
星环大数据产品和技术介绍_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、星环大数据产品和技术介绍星环科技公司简介星环信息科技公司介绍中国最久Hadoop核心开发团队研发,支持和销售团队来自于Intel, Google, IBM,Oracle等跨国企业2016年1季度完成1.55亿B轮融资No.1中国落地案例最多国内最多的落地应用案例2014年进入中央政府采购网国内技术最领先大数据/数据库基础软件超越硅谷的企业级架构及功能模块大数据平台市场占有率最高唯一进入Gartner魔力象限中国公司支持复杂关键应用的大数据平台高度兼容OLAP oracle应用和高并发OLTP查询300%年营业额和客户增长Magic Quadrant for Data Warehouse and

2、 Data Management Solutiongs for Analytics星环科技星环科技是Gartner发布的2016年数据仓库及数据管理解决方案魔力象限中唯一一家上榜的中国公司,也是魔力象限远见者(Visionaries)领域中全球最具前瞻性的公司。中国大数据技术精锐企业图谱1数据采集提供客户将商业产品或开源组件与业务知识和定制开发相结合,形成大数据解决方案,提供给行业客户。相比应用程序供应商和平台供应商,解决方案供应商是最直接接触行业客户的企业。基于自身业务业务及背后的监测、爬虫能力采集互联网公开数据和用户行为数据,加以清洗、整理,面向市场提供数据资源,数据资源供给方角色。阿里开

3、放平台九次方百度数据开放平台联袂科技百分点秒针系统海量腾讯大数据集奥聚合腾云天下精硕科技亿赞普 贵阳大数据交易所数海科技数据堂数据商品化搭建数据共享、交换、交易平台,为数据资源供给方和需求方提供交易环境和服务。数据整合应用针对营销、风控、个性化服务等需求,整合数据资源,面向不同行业的客户提供数据应用服务,最靠近数据需求方角色。DATA数据TECH. 技术国政道华道征信华院数据蚂蚁金服明略数据数字数思同盾科技解决方案供应商星环科技 7G网络美林数据 龙信数据东方国信 明略数据国云数据 拓尔思华傲数据 星图数据华胜天成 亚信大数据华为 以萨数据星环科技 TABLEAU INFORMATICA 秒针

4、系统数字冰雹 久其软件百分点 腾云天下博易智软 永洪科技海云数据 用友软件精硕科技 友盟星环科技CLOUDERAPIVOTAL华为巨杉软件阿里应用程序供应商多是以提供产品的形式服务于客户企业。这些产品可能是Bi工具,可能是数据接入或挖掘领域的细分产品。应用程序除了独立销售,很多时候也会作为整体解决方案的一部分出现。基础架构供应商提供Hadoop发行版以及数据存储、并行计算、数据治理等周边软件工具和硬件的厂商。很多基础架构供应商也提供解决方案。数据商品化数据整合应用解决方案供应商应用程序供应商基础架构供应商数据采集提供Transwarp Data Hub产品概述Transwarp Data Hu

5、b架构图最完整的SQL支持99%的SQL 2003支持,唯一完整支持PL/SQL的SQL on Hadoop引擎(98%),唯一完整支持ACID分布式事务的SQL引擎;定位数据仓库和数据集市市场,可用于补充或替代Oracle、DB2、MPP等分析用数据库。高效交互分析-内存/SSD计算第一个支持SSD的基于Hadoop的高效计算引擎,可比硬盘快一个数量级;可用于建立各种数据集市,对接多种主流报表工具。最完整的分布式机器学习算法库支持最全(超过50余种)的分布式统计算法和机器学习算法,同时整合超过5000个R语言算法包。适合风险控制、反欺诈、文本分析、精准营销等应用。支持最完整SQL和索引的No

6、SQL数据库支持SQL2003、索引、全文索引,支持图数据库和图算法,支持非结构化数据存储支持高并发查询最健壮和功能丰富的流处理框架支持所有组件的高可用(HA)支持流式SQL和流式机器学习Transwarp ProprietaryApache ProjectsTranswarp Manager资源管理 YARN(内置Transwarp Extension)优化存储 HDFS(内置Transwarp Erasure Code)批处理框架MapReduce2协作服务Zookeeper全文搜索Optimized Elastic SearchDiscover数据挖掘机器学习InceptorPL/SQL

7、引擎交互分析、图计算Stream流处理引擎HyperbaseNoSQL数据库综合搜索Guardian安全管控实时同步Data Alive消息队列Kafka日志采集Flume数据集成Sqoop数据集成Data IntegrationSQL开发辅助Waterdrop可视化挖掘Midas交互工具HUE交互分析Zeppelin工作流Oozie内置交互工具Build-in Interactive Tools交互式分析引擎Inceptor - 完整SQL支持Distributed Execution Engine 分布式执行引擎Batch & Interactive SQL EngineJDBC 4.0S

8、HELLODBC 3.5SQL 2003 Compiler语法解析器 SQL Parser优化器 RBO & CBO代码生成 CODE GENERATORTransaction Manager分布式增删改 Distributed CRUD事务并发控制器 Concurrency ControllerStarGate数据源连接器Source HDFSText, ORC, ORC TransactionSourceOracleSourceHyperbase分布式内存/SSD列式存储HolodeskSourceDB2HDFSDriverHolodeskDriverHyperdrive驱动层实现数据访问

9、计算算子下推以减少数据传输执行计划仍采用分布式计算Connector中间件管理单元PL/SQL Compiler存储过程解析器 Procedure Parser控制流优化器 CFG Optimizer并行优化器 Parallel Optimizer多租户管理Guardian计算资源配置Resource Management用户安全授权管理Security & Authentication行级安全控制Row Level SecurityDB2DriverOracleDriverApache Spark基于内存的Map/Reduce计算引擎,即将成为新一代主流计算框架。处理大数据像“光速”一样快,

10、比Hadoop Map/Reduce快10 x倍。Holodesk跨内存/闪存/磁盘等介质的分布式混合列式存储,常用于缓存数据供Spark高速访问。Holodesk内建内存索引,可提供比开源Spark更高的交互式统计性能;结合使用低成本的内存/SSD混合存储方案,可接近全内存存储的分析性能。Most complete SQL support兼容95% ANSI SQL 2003, HiveQL和90% PL/SQL语法,支持数据仓库、数据集市等分析系统中常用的复杂分析型语法,方便应用迁移。SQL引擎高度优化的高速SQL引擎,可运行在Spark或Map/Reduce上,可高速处理缓存在Holod

11、esk上的列式数据。丰富的工具支持支持主流可视化和BI/挖掘工具,包括Tableau, IBM Cognos, SAP BO, Oracle BI, SAS等。支持Informatica,Pentaho/Kettle等ETL工具。Data Federation具备对多种关系数据库和Hadoop数据源进行交叉查询,聚合,以及关联操作等能力Inceptor不同版本功能描述标准版SQL2003,分布式事务专业版基础版+内存/SSD数据库功能企业版专业版+PL/SQL图计算GrapheneGraph SearchingSQL-like syntaxComplex searching patternsM

12、ultiple data sourcesReal-time responseGraph ComputationExtended SQL syntaxAbundant algorithms supportedOLAP analysis on tremendous graphGraph SQL CompilerInceptor Execution EngineCypher CompilerStargateGraph Search EngineJDBC 4.0SHELLODBC 3.5Source HDFSText, ORC, ORC TransactionSourceHyperbase分布式内存/

13、SSD列式存储Holodesk节点1节点2属性属性个人/公司/个人/公司/边属性边属性个人/公司/个人/公司/边属性边属性图分析 Schema星环Discover产品框架图Distributed Execution Engine 分布式执行引擎Association Mining关联/推荐Classification分类算法Clustering聚类算法Sequential Analysis时序分析Regression回归算法Deep Learning深度机器学习DimensionReduction主成分分析Statistics统计算法R Runtime Library R语言动态运行库Beli

14、ef Network信念网络Graph 图计算Sampling采样算法Discriminate Analysis判别分析Q-Learning增强学习Decision Methods决策方法Factor Analysis因子分析Genetic 遗传算法Language Interfaces 多语言接口Midas图形界面R StudioIDE开发环境推荐系统风险分析反欺诈文本分类web JS Interface web展示接口担保链分析Deep Learning Frameworks 深度学习框架Transwarp Hubble Programming Interfaces to connect

15、algorithmsCustomized Plugins自定义插件Transwarp Connector SQL Interfaces to connect data sourcesIndustry Templates行业模板Feature Engineering特征工程HDFSStreamInceptorHyperbaseFile Interface Transwarp Discover Platform数据层算法模型层使用层数据挖掘产品 Discover & MidasDiscover R语言开发 = 算法工程师,数据科学家Midas交互式挖掘 = 业务分析师,数据科学家R和Midas中可

16、以连接TDH中数据表做数据预览可以对列做tag/feature的管理通过内置的分布式统计算法完成相关的预处理与数据分析支持标准化,归一化,正则化,缺失值填充,数据分箱等支持通过Inceptor SQL进行数据ETL处理用户通过GUI选择算法开发训练模型模型编译成为DAG,由Hubble组件来调度任务支持单机R算法和分布式算法训练模型导出模型为PMMLPMML模型可以转换成生产系统的代码,部署到实际业务中Inceptor结合业务领域专家知识,以及相关算法降维,选择特征指标与维度利用深度学习神经网络算法,通过升维降低特征工程维度选取难度StreamDiscoverDeep Learning深度学习

17、模型上生产模型训练特征工程预处理数据预览DimensionReduction主成分分析Linear Regression线性回归分布式机器学习算法More Distributed Machine Learning Algorithms数据分析图形化交互工具R Runtime Library R语言动态运行库Belief Network信念网络Decision Methods决策方法Sampling采样算法Discriminate Analysis判别分析Q-Learning增强学习Graph Inference图推理Factor Analysis因子分析Genetic Algorithm遗传算

18、法Transwarp Hadoop 分布式系统Transwarp DiscoverDistributed Algorithm LibraryAssociation Mining关联/推荐Classification分类算法Clustering聚类算法Sequential Analysis时序分析Regression回归算法Deep Learning深度机器学习DimensionReduction主成分分析Statistics统计算法Data EngineersData ScientistsWorkflow Tools to build pipelinesTranswarp InceptorSQ

19、L EngineData FrameAbstractionData Transformation using PL/SQLFeature Extraction using data frame and native R operationsMachine Learning using more distributed algorithmsData Mining using native R algorithms特征抽取Feature Engineering: Extract value from dark data易用的工具Graphical tools for data scientists

20、, e.g., workbook, notebook; and a workflow tool to build the pipeline 重要组成:Business Analysts实时NewSQL数据库HyperbaseTranswarp HBase Hadoop Database分布式 Big TableTranswarp HyperdriveReal-time OLTP + OLAP + BATCH + Search + Graph Traversal ApplicationMixed Workload 混合负载业务Elastic Search分布式全文索引TransactionSQL

21、 & APITransactionExecution Engine分布式事务处理引擎IndexSQL & APIGlobal/Local/Full-textIndex全局/局部/全文索引DocumentSQL & APIDocument Storejson/bson文档存储ObjectSQL & APIObject Storeimage/files, etc对象存储SearchSQL & APIDistributedFull-text Search全文搜索Transwarp InceptorHyperbase不同版本功能描述标准版OLTP支持高并发毫秒级数据插入/修改/查询/删除(CRUD)。

22、结合Inceptor SQL引擎,可以支持通过SQL进行高并发的CRUD。支持分布式事务处理。支持常见数据类型,可更高效的存取数据OLAP支持多种索引(global/local/high-dimensional index)。结合Inceptor,可进行行列存储转换,进行秒级高效分析。支持复杂查询条件,自动利用索引加速数据检索,无需指定索引。专业版基础版+内嵌搜索引擎实时同步创建索引实现秒级关键字搜索企业版专业版+图数据库支持高并发图遍历和检索多类型支持结构化记录半结构化文档(JSON/BSON)非结构化数据(图片、音频、二进制文档等)支持混合结构数据的存储、搜索、统计、分析支持SQL访问关系

23、表和层次化文档Transwarp ESDrive实时数据研判处理Transwarp Stream计算层Source Manager数据源管理Distributed Execution Engine 分布式执行引擎Application Manager流式任务管理服务Storage Manager存储管理SinkerManager输出管理 Transwarp Hyperbase 分布式NoSQL数据库 高速查询或搜索在线数据挖掘时间窗口统计实时比对告警实时判断告警实时数据Transwarp Data Mart分布式内存/SSD缓存高速数据探索分析StreamSQLSQL Compiler 编译器

24、ODBCJDBCShellData Mining并行算法APIR语言量化模型StreamSQL 99%的ANSI SQL 2003的支持率 强大的优化器提升性能 支持按时间切分滑动窗口和滑动步长多数据源支持Socket文件Kafka多种输出方式支持HyperbaseHolodeskHDFS企业数据总线支持从一个流读入数据,再将其输入另一个流,如常见的企业数据总线以Kafka为存储中间件在线数据挖掘支持离线模型,在线预测时间窗口数据进行实时挖掘分析Stream不同版本功能描述标准版基本流处理框架,支持流式聚合专业版基础版+SQL企业版专业版+机器学习统一权限管控Transwarp Guardia

25、nBuild-in LDAP HA supportedAccounting 用户管理Authentication 用户认证Audit 审计分布式文件系统HDFS RBAC支持Dir/File access controlDir/File ACL 用户安全授权管理Grant/Revoke via SQL行/列级安全控制Row/Column LevelInceptor流处理作业授权管理StreamApp/Job Grant/Revoke via SQL主题级安全控制Kafka Topic Level SecurityStream用户安全授权管理Authentication with Incepto

26、r and HDFSDiscover数据交互安全控制Data Transfer & Communication用户安全授权管理Grant/Revoke via SQL(with Inceptor)单元格安全控制Cell LevelHyperbaseData Authorization 数据权限管理Existing AD/LDAP with Kerberos使用既有用户管理与认证系统Build-in KerberosHA supported公司部门一部门N子部门子部门子部门子部门子部门子部门Policy & AlertResource UsageAuditGrant/Revoke AuditAc

27、cess ControlAuditResource Authorization 资源管理控制文件系统Usage Quota Control数据库/仓库Static QuotaTemp Quota存储资源计算资源计算资源管理调度YARNQueue Use/Admin ControlInceptor Pool ControlSLA Control用户组管理员用户超级管理员角色用户组Transwarp Data Warehouse产品概述Manager 监控 管理 审计 告警Real-time DW实时数据分析研判Oozie 统一作业调度HUEGuardian统一安全权限管控Data Integra

28、tion数据集成与质量管理Service RepositoryTranswarp Data Warehouse架构CPU/MEMpriority-basedschedulerTranswarp Operating System 数仓版DiskstoragemanagerNetworkVLANmanagerSchedulercoordinationetcdorchestrationloadbalancerSystem Serviceauto-scalingreplicatordiscoveryname serviceContainer PluginsContainers分布式存储 HDFSTra

29、ditional DWPL/SQL批处理分布式事务Context-IndependentDW数据挖掘关联分析Data Mart交互式分析Holodesk分布式内存列式存储完整数据仓库支持实时处理数据仓库(Real-time DW),进行实时数据采集,时间窗口内数据进行比对以及统计挖掘,通过流技术来构造实时处理仓库。上下文无关联数据仓库(Context Independent DW),在不知道数据之间的关联模型的情况下,也可以通过数据挖掘的方式发现数据之间的关联关系,隐藏的联系和模式。传统数据仓库(Traditional DW),主要是做批处理,做离线加工,加工基础数据,在基础上做各种主题模型,

30、以及固定报表。通过对于SQL 2003、PL/SQL以及分布式事务的支持实现 传统数仓向大数据的平滑迁移。数据集市(Data Mart),把数据装载到基于内存或者SSD当中的Holodesk做高速的数据交互式分析探索,同时也对接着报表工具。企业客户不再需要混合架构,不需要孤立的多个集群,可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或传统架构数据迁移的棘手问题。多租户管理平台自动一键部署,自我修复,完善的资源隔离性弹性计算,自动扩容/缩容,多部门之间资源动态共享,灵活支持多部门多应用在统一平台上平滑运行。全平台组件数据权限隔离,支持基于角色的访问权限控制,支持行级权限控制用户友好的管理

31、交互界面、提供了集群配置,监控及预警等多方面支持,在可管理性方面优势显著。RstudioBIOperational DW搜索 查询半/非结构化数据支持MidasTranswarp Data Warehouse 离线批处理SQL, PL/SQL, SQL/PLCRUD & TransactionJDBC/ODBC交互式分析加速Cube Designer可以手工和自动的配置Cube利用M-OLAP加速交互式分析数据挖掘分布式数据挖掘平台,提供R接口交互式数据挖掘与探索支持流上机器学习数据联邦支持数据联邦,实现数据孤岛的连接Meta Manager支持一体化数据质量管理数据检索搜索高并发检索查询组合

32、条件综合搜索关键字搜索实时计算Stream SQL与存储过程可以应用到流式数据支持自定义的消息队列,支持HATranswarp Operating System micro-service management system拓扑图分析分布式基础图分析算法支持高速图检索支持Graph SQL应用到图分析检索Txdata Appliance模型实验室数据集市实时决策主题报表检索搜索关系图谱分析多租户管理开发辅助工具集元数据&数据质量Transwarp Data Hub基于大数据技术的数据仓库逻辑架构CRM现有业务系统ETL调度Flume宏观政策/经济社交网络其他信息非/半结构化数据实时数据Kafk

33、a实时接收非结构化处理日志处理影像存储文本分析图计算结构化数据处理资源管理平台 (TOS)(Virtualization,Multi-tenant SLA, Audit)实时决策平台(StreamSQL)流式处理实时研判自助分析平台(SQL)自助报表交互探索数据探索平台(R)统计预测模型发现离线批处理平台(SQL)数据加工主题模型Operational DW Traditional DW Data MartContext-independent DWERPHRFinance贴源层轻度汇总层元数据管理明细层数据质量管理主题模型层作业调度管理检索平台(SQL)明细查询综合搜索T+0 T+1Data

34、 Mart Cluster交互式数据探索Hyperbase明细查询、影像检索、文档检索Traditional DW ClusterContext Independent DW数据关联挖掘Rstudio图形化挖掘工具Kafka实时数据实时数据AgentAgent实时数据Stream Cluster时间窗口数据实时数据批量装载入Holodesk准实时分析Stream ClusterHolodesk 分布式内存/SSD列式存储RDBSqoop实时同步CDC(IBM)OGG(Oracle)全量导入,定时增量,HUE/Zeppelin图形化数据分析查看数据仓库数据流转Multi-Index Full-T

35、extIndexObject Store文件/日志/影像FlumeFTP Interface实时条件判断实时比对实时时间窗口数据统计实时数据挖掘模型预测数据稽核元数据管理数据处理工作流调度分布式统计算法库分布式挖掘算法库SpagoBIBI报表工具ODS 贴源层DWD 基础明细层公共主题模型层结果数据写入Hyperbase提供查询TDARESTInterface实时数仓基于Hyperbase检索查询基于Holodesk交互式分析Sink Manager实时事件Kafka集群分布式消息队列业务核心库关系型数据库OGG/CDC/ShareplexTranswarp Data Alive流处理物理集群

36、Transwarp StreamSource ManagerDistributed Execution Engine 分布式执行引擎Application Manager流式任务管理服务StreamSQLData Mining存储分析检索集群Transwarp Inceptor & Hyperbase实时T+0基于T+0 ODS层准实时报表&分析统一SQL计算引擎InceptorStarGate数据源连接器场景应用实时预警实时分析研判实时清洗转换实时关联比对T+0准实时报表实时入库检索查询准实时交互式分析 业务源系统 CRM系统ERP系统 绩效系统 财务系统 系统系统系统数据仓库数据集市资源/

37、数据权限控制可视化展示统一数据/资源权限管理 应用可视化系统服务 数据权限审批上海分行营销分析人员北京分行客户管理人员各级分析师自助分析平台架构存储资源审批计算资源审批统一分布式存储HDFS分布式内存/SSD列式存储共享资源池计算逻辑集群计算/存储资源多租户JDBC/ODBC兼容SQL 2003, Oracle PL/SQL, DB2 SQL PLR数据批处理逻辑集群StarGate数据源连接器Oracle/DB2/专有计算逻辑集群动态分配/销毁自助分析平台架构Inceptor SQL Execution EngineHolodesk 交互式数据探索Hyperbase明细查询、影像检索、文档检

38、索 Based on HDFSDiscover数据关联挖掘RstudioR语言Web IDE分布式内存/SSD列式存储HUE/Zeppelin图形化数据分析查看智能索引技术全局索引全文索引数据稽核元数据管理数据处理工作流调度分布式统计算法库分布式挖掘算法库WaterdropSQL开发工具ODS 贴源层 文本文件DWD 基础明细层 ORC事务表 公共主题模型层Stargate主流报表工具Midas图形化挖掘工具星环技术六大核心优势1.支持最全SQL,唯一支持PL/SQL2.性能超群3.唯一支持分布式事务处理4.业界唯一分布式流式SQL5.丰富的数据挖掘和机器学习算法6.多租户管理细粒度访问控制资

39、源共享和隔离、配额管理全面安全防控细粒度访问控制降低流应用开发门槛,提高流应用开发效率针对性的优化让StreamSQL比编程开发流应用性能更高帮助用户零成本将传统业务逻辑变成流应用保证事务处理的ACIDBEGIN TRANSACTION/COMMIT/ROLLBACK语法进行事务处理 两阶段封锁协议可保证事务的完全可序列化多版本(快照)隔离可以保证只读事务的高并发性率先进入复杂数据分析的百TB时代支持99%的SQL 2003语法业界唯一支持Oracle PL/SQL(支持度98%)业界唯一支持DB2 SQLPL帮助用户零成本迁移传统应用星环公司在大数据领域的定位Analytics as a S

40、erviceAnalytics Service & ApplicationsTransformation, Discovery &Visualization ToolsMachine Learning &Statistics ToolsHadoop Distributions& DatabasesInfrastructure 平安银行:以Hadoop为基础的风险分析平台FlumeOracleMySQLDB2现有关系数据库TDH统一存储和计算平台系统日志Web日志SqoopPentaho账单文件FTP定期ELT每天每小时每10分钟Tableau数据实验室内存SSD缓存HolodeskRStudioSAS深度挖掘CognosOBIEEOozieWaterlineAzkaban数据汇总治理粗加工PL/SQL定制程序PL/SQL深度汇总OracleDB2前台展现库准实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论