大数据技术的创新与实践_第1页
大数据技术的创新与实践_第2页
大数据技术的创新与实践_第3页
大数据技术的创新与实践_第4页
大数据技术的创新与实践_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术的创新与实践今日议程大数据发展趋势13大数据技术实践大数据业务创新2

智物智慧银行

大移将数据资产转化为业务价值云未来有哪些可以巧借的创新技术?大数据关系型->MPP->Hadoop数据湖、信息水库、数据资产数权法、数据交易所物联网、VR虚拟技术2020年25亿设备联网自动驾驶虚拟技术移动互联移动AppO2O线上线下融合智能化、认知技术数字化->信息可视化->智能化嵌入式BI->敏捷BI全员探索报表->数理统计->自我学习认知技术云平台、云计算、区块链Iaas/Pass/Saas,公有云/私有云虚拟化VS容器技术区块链数据处理能力快速增长带来的技术变革RDBMSTBPBEBbatchinteractivereal-timestructuredimagestextvideostatisticspredictiondatamining新技术在四个维度上快速增加处理能力大数据量Volume可处理的数据量从TB、PB增加到EB高速Velocity从离线处理进步到实时数据处理多样Variety记录、文本、图片、音频、视频等多种数据类型准确价值Veracity从基于历史的统计,发展到数据挖掘和预测性分析数据处理的软件栈在过去十年中从底向上几乎全部被重写大数据技术的高速发展集中式计算->分布式计算Google发表GFS论文,第二年发表MapReduce论文雅虎贡献Hadoop源码Hadoop成为Apache顶级项目20032004DoungCutting创立Nutch搜索项目,并基于Google论文实现DFS/MapReduce2006Google发表BigTable论文ApacheHadoop项目正式成立Doung加入雅虎并开始部署Hadoop2006-20082008Cloudera作为第一个Hadoop发行版公司成立20092011Hortonworks成立,MapR成立2013Spark发布2013Greenplum发布Hadoop版本PivotalHDGartner发布数据仓库与数据管理解决方案魔力象限,首次将Hadoop厂商作为远见者进行评判2015Spark成为Apache顶级项目,所有Hadoop发行版厂商宣布支持Spark2016HADOOPtimelineHadoop技术发展与现状Facebook开源HIVEHadoop第一个版本发布20072011Hadoop2.0发布,引入资源管理YARNHBase发布星环科技基于Spark的交互式SQL引擎(Inceptor)能稳定处理100TB,支持分布式事务和存储过程,Spark技术已经领先于国外同行2014Cloudera创始人将Impala作为交互式SQL引擎,其他Hadoop组件迁移到Spark上来Cloudera公布继HBase以后的第一个Hadoop原生存储替代方案——KuduSpark的流行将逐渐让MapReduce、Tez走进博物馆2008星环科技公司成立2013星环科技核心研发团队同步开始Hadoop平台研发决策支持数据探索与业务预测统计分析数据存储与联机查询自主学习

无监督深度学习自适应进化演算

产品差异化定价信用风险、催收分析、关联风险

业务数据探索模型测试验证

业务统计报表自助报表分析

生产数据实时与T+1复制作业数据直接存储

事件触发式自动推理引擎自然语言理解与虚拟机器人

流动性风险实时预警反欺诈(在线欺诈、欺诈网络、索赔欺诈…)

业务趋势预测客户行为预测(流失预测、精准营销)

客户细分统计分析、客户户画像

支持历史数据在线查询

支持明细查询、关键字查询及全文索引

大数据相关技术

给企业带来更强的数据处理和计算能力,使得较难实现的需求快速突破了原有技术瓶颈。大数据在金融行业的能力进阶实时准实时离线批处理DataScientist数据科学家DataEngineers数据分析师BusinessAnalyst业务分析师CasualUser普通用户统计学、抽象数学、编程、业务流程等方面的专家。负责沟通与领导。数据、统计软件、统计模型等方面的专家,充分理解计算机处理“陷阱”或误区。利用在线分析处理和多维工具,创建新的业务模型,部分人员熟悉计算机语言和计算机处理技术。定期使用门户和预置接口,较少有设计多维分析的能力。大数据技术的人才储备战略今日议程大数据发展趋势13大数据技术实践大数据业务创新2传统数据仓库技术面临的挑战企业数据仓库数据量增大、应用不断增加,运行沉重缓慢,不堪重负数据处理延时长,无法看到实时运营状况数据源不断增多,访问和数据同步变得复杂;开始包括非结构化和半结构化数据;上层业务和使用部门增多,资源管理和安全控制变得困难。Scalable

Traditional

Data

Warehouse可伸缩的云计算架构数据仓库ContextIndependentData

Warehouse上下文无关联数据仓库Logical

Data

Warehouse逻辑数据仓库原先的逻辑数据模型,不能有效支撑数据快速分析和价值发现;需要新的方法发掘数据的统计相关性、因果关系、关联关系等规律。OperationalData

Warehouse实时数据仓库Hadoop大数据平台应具备的能力CRM现有业务系统ETL调度Flume宏观政策/经济社交网络其他信息…非/半结构化数据实时数据Kafka实时接收非结构化处理日志处理影像存储文本分析图检索结构化数据处理实时决策平台(StreamSQL)流式处理实时研判自助分析平台(SQL)自助报表交互探索数据探索平台(R)统计预测模型发现离线批处理平台(SQL)数据加工主题模型ERPHRFinance……贴源层轻度汇总层元数据管理明细层数据质量管理主题模型层作业调度管理检索平台(SQL)明细查询综合搜索T+0~T+1实时风控数据仓库数据集市用户画像实时推荐自助分析历史数据查询交易流水查询精准营销模型实验室审计业务ACRM日志监控、预警、分析实时运维预警小微贷款报表业务担保链分析风险分析账单查询产品差异化定价欺诈分析民生银行:自助分析大数据平台行内各级业务人员存款系统CRM理财系统柜员系统数据仓库数据加工固定报表数据集市数据服务平台35家分行及下属支行报告展示即时查询绩效评价数据交互批处理公共服务数据推送数据展示定制服务数据加工核心运营指标计算模型展示4000+报表图形化预测/展示核心模块用户全景视图公共报表客户流失日新增1.5张固定报表自助报表数据产品自助挖掘ATM手机银行…….人行工商征信结算公安法院…….内部数据外部数据Sqoop/PentahoSqoop/Pentaho/FTP理财产品分析挖掘报表制作客户分析客户服务产品管理运营监控精准营销风险控制在线推荐业务规划异常交易监管报送应用开发驾驶舱Traditional

Data

Warehouse数据建模20个Hadoop节点,每个节点配2x1TB

PCIeSSD,所有数据缓存到SSD自助分析平台数据实验室民生银行:小微企业在线融资-大数据征信小微贷款服务平台2014年下半年上线每家企业选取200个财务指标采用分类算法对企业进行信用评估恒丰银行:大数据逻辑数据仓库数据集市数据服务数据存储数据接入源数据综合监管集市数据分析集市历史数据服务接口数据服务接口DSI统一调度平台公共数据模型层CDM源数据历史层HDM基础数据模型层FDM公共数据模型层CDM源数据历史层HDM基础数据模型层FDM源数据缓冲区ODM结构化数据接入文件交换区FSA源数据结构化数据客户关系管理集市审计、反洗钱等其它大数据管理平台非结构化数据接入非结构化/非结构化数据社交媒体信息第三方数据···非结构数据区历史数据平台在线数据平台数据运维体系恒丰银行:构建360度的客户画像-精准营销客户之间的关系客户经理与客户的关系……客户关系信息客户风险信息客户沟通信息客户财务信息客户资产信息客户联系信息客户事件信息客户基本信息客户产品信息客户维度重大事件,公司开业、生日等违约事件,提前还款、逾期等可疑事件,可能发生的一些事……客户名称证件类信息客户性质信息……存款类产品信贷类产品卡类产品……信用评级黑名单……客户利润贡献度……客户资产相关信息……客户联系信息,包括营业地址电话、联系地址、公司网址、电邮地址等客户建议信息、申请信息、沟通信息、回访信息、投诉信息、调查信息等业务系统数据客户基本产品信息账户信息交易信息……银行内外大数据供应链信息微博信息社交网站信息音频视频……恒丰银行:商圈分析-辅助渠道营销决策ID名称ID名称ID名称1五角场6徐家汇11大柏树2浦东建材市场7静安寺-南京路-人民广场12娄山关路3金沙江路中环路口8虹莘路13新世界4漕河泾9金沙江路祁连山路14长寿路5中山公园10陆家嘴实时刷卡信息(来自银联)定义商圈商圈聚类模型分析与选择模型拟合动态商圈区域即时呈现,收缩变化一目了然二级商圈的挖掘人群密度趋势研判恒丰银行:异常担保分析与实时交易风险监控实时欺诈监测客户痛点:目前对于诈骗的发现具有滞后性,如何加快识别欺诈、避免银行经济损失成为当务之急‘解决方案:利用Transwarpdiscover神经网络模型及聚类分析模型等。结合Transwarpstream抽取实时数据,与discover中模型进行匹配,可实现实时的欺诈监测异常关系担保客户痛点:银行需要在信贷业务中准确掌握客户之间的相互关联,通过数据扭转信息不对称带来的风险。解决方案:利用Transwarpdiscover分析我行协议当事人关系,进行分层聚类分析,找出担保关系网络中最薄弱分析,更好的预防风险。星环TDH+Discover客户行为分析解决方案星环Discover数据洞察平台基于大数据全量建模分析,挖掘出140维客户特征,实现多维客户行为并发分析星环Discover采用机器自动学习机制,提高分析准确度6倍解决方案当前ETL工具抽取源系统数据至传统数据仓库,再使用SAS工具采用专家经验机制挖掘分析小微贷倾向与客户或有资产预测;性能、容量等数据处理能力限制,只能抽取较少维度数据,过分依赖专家经验,导致小微贷倾向与客户或有资产预测准确率较低。客户挑战突破传统数据仓库能力限制,存储管理客户行为分析所需全量数据改进分析模式为机器自动学习机制小微贷倾向分析TOP10000客户推荐成功转化率提高6倍客户或有金融资产预测误差率由60%降至30%客户价值江苏银行:融创智库大数据业务创新平台精准营销业务创新1、用不同活动滚动覆盖到不同的客户和产品,达到不同的经营目标(KPI)2、建立经典的金牌活动,吸引合作商家和持卡人:比如最红星期五3、开发了20多个模型对客户进行标签4、采用名单式漏斗对客户进行层层筛选、沟通、邀约、奖励和差别化服务平安银行:新一代大数据风险分析平台企业级大数据平台:高可靠、高安全、易管理、易开发提供大数据批处理、即席查询、实时查询任务的统一调度和管理拥有内核级开发的工程团队和咨询、服务能力多家金融企业应用,规划设计、实施经验丰富解决方案在互联网金融时代,急需建设统一的大数据平台,在此基础上开发创新的新型金融产品,推动金融大数据转化为真正的生产力金融数据量和种类不断增加,传统数据平台在处理、存储、扩容能力等方面已无法满足要求客户挑战大数据平台存储扩展可达PB级,提供统一大数据任务管理能力大数据业务:数据仓库、风险分析平台、贷款清单查询展示系统…贷款清单查询,快于开源HIVE12倍的速度;在线历史交易明细查询,由只能查询1年内明细提升到6年内明细客户价值企业级大数据平台:高可靠、高安全、易管理、易开发分布式日志收集系统自动地将各分行的日志收集到总部大数据平台统一管理:分布式日志收集系统+大数据分析平台基于访问日志的用户行为统计和分析模型拥有内核级开发的工程团队和咨询、服务能力解决方案应对互联网金融的竞争,需要掌握网银和手机APP用户行为轨迹,精准营销,扩大销售;优化网银服务模块的质量,提升客户体验安全、运维操作日志的关联分析,提高故障发生时故障点定位的准确率,提升故障响应速度客户挑战统一的分布式日志收集+分析大数据平台;数据收集周期大大缩短基于网银和手机APP用户行为统计和分析,客户体验改进日志和用户信息关联分析应用于:用户画像和客户营销、反欺诈支撑客户价值四川农信:分布式日志采集与分析平台中泰证券:大数据技术创新应用规划聚合的数据平台寻求效益深度洞察用户融合数据以用户为中心以大数据为基础数据驱动运营流程和商业模式交易数据新渠道客户数据APP互联网域第三方

市场舆情精准营销为用户推荐个性化的投资计划基于用户交易模型的营销价值转化精准广告投放,广告价值分析客户体验关怀体系优化服务入口、一致的服务体验价值挖掘客户统一视图:客户价值模型、客户兴趣模型、产品和市场计划微博数据挖掘、营销分析、客户关联分析风险监控用户流式分析、市场舆情监控、交易风险分析决策支持第一创业证券:金融文本挖掘与知识检索企业风险评估语义检索企业知识图谱分布式爬虫KafkaInceptor结构化Discover语义分析全文检索语义检索2已有外部数据1批量导入HDFSDiscover后端前端展现国家工商总局:企业任职与投资关系图谱分析利用大数据图计算形成企业和企业之间的投资关系分析为每一个企业绘制其相关的投资关系图普,挖掘出潜在的利害关系解决方案需要一个数据查询系统来存放企业多方面的信息,如:登记信息、行政处罚信息、企业重要人员信息、投资者信息等;需要通过大数据平台进行企业关联分析,构建企业信用体系。客户挑战通过大数据平台的销售数据进行批发、大客户关联分析,构建企业客户价值、信用评价。对于预测大客户、批发客户需求,提前精准营销、新一年对于这些重要客户资源投放量、服务具有重要意义。客户价值自然人E投资投资人企业C企业B企业A投资供应商投资人企业D自然人F个体户G配偶亲属投诉财报解决方案客户挑战客户价值南网广州供电局:输变电设备全景可视化我国最早的区域电网,供电客户约500万。至2015年,广州局用电实时数据量为5千万条/天;预估智能电表和物联网下达到12-80亿条/天传统数据库处理大数据量任务时需执行16小时以上,分析速度慢,而且经常由于资源抢占分析不出结果企业版Hadoop平台:高可靠,高安全,易管理、易开发标准SQL2003和全兼容Oracle-PL/SQL,迁移成本低拥有内核级开发的工程团队和咨询、服务能力线性扩容,大数据量时并发处理速度快更优的服务质量:在线查询10年的历史数据详单更佳的处理性能:相比Oracle平均有4-5倍的性能提升提供标准SQL2003和全兼容Oracle-PL/SQL,迁移成本低海量数据存储、计算能力,电网数据质量系统,由5天减少到1天解决方案客户挑战客户价值中国联通:构建统一大数据平台-挖掘存量经营的价值应用烟囱式建设,多种应用系统独立存储,数据无法共享,跨部门获取数据长达数月缺乏有效的数据资产管理,不清楚到底有多少数据/模型/规则,数据安全隐患大现有系统支撑数据量有限,且数据量越大,分析处理速度越慢统一的企业级大数据平台,数据分级存储,一份数据、一份存储统一的数据资产管理和数据安全管理标准的数据共享访问接口和能力开放接口线性扩容,大数据量时并发处理速度不减平台节点近1000个,是国内除了BAT之外最大的大数据混搭平台,数据存储能力达到30PB级,多应用并发处理速度快数据资产有效管理,加速挖掘数据价值解决方案客户挑战客户价值湖北移动:历史话费详单查询效率提升详单数据量年增长30%,每月达到50TB,传统数据库容量无法支撑,扩容成本高。目前只能支持在线1个月话费详单查询传统数据库处理大数据量任务时需执行6小时以上,分析速度慢,而且经常由于资源抢占分析不出结果企业版Hadoop平台:高可靠,高安全,易管理、易开发主备大数据业务集群,100+大数据节点拥有内核级开发的工程团队和咨询、服务能力线性扩容,大数据量时并发处理速度快更优的服务质量:在线查询6~24个月的历史话费详单更佳的处理性能:最大500用户并发查询任务,响应时间小于500ms提供ad-hoc即席查询功能PB级海量数据存储、计算能力,经分业务并发分析,由5天减少到1天上海移动:利用基站数据进行人流分析通过基站数据定位用户的活动区域通过基站上网数据分析用户的关注点、出行目的、出行时间通过人群密集度算法,算出时间、经纬度、人群密度等关键指标,分析出人群迁移和密度变化趋势华数传媒:多维度的数据挖掘和精准营销获取用户业务访问特征值构建用户个性化标签信息集合挖掘用户的消费属性并对相应的产品进行包装预测现有客户购买相关产品的可能性获取客户其他业务的订购信息,寻找业务之间的关联性进行产品的组合消费和引导根据用户访问数据提炼热点信息、进行排行根据热点内容进行有针对性的广告投放用户消费模型产品关联模型内容热度模型用户特征模型价值核算模型通过分析用户行为,评估某一内容的市场价值预测未来可能火爆的内容预测(Prediction)数据分组(AffinityGrouping)聚类(Clustering)描述(Description)复杂数据挖掘1.用户为中心的面向主题的数据分析框架思想客户为中心的业务规划面向主题的业务模型自定2.数据分析框架的主要事件分类(Classification)估计(Estimation)广东佛山:禅城社区综合治理大数据平台项目背景:数据量巨大,数据类型丰富,包含结构化数据、文档、图片、视频等外部数据环境复杂,无法有效整合利用各部门数据孤立,无法共享业务分散,无法统一管理解决方案:基于星环大数据平台实现数据归一整合利用流技术实现实时监控预警如人流监控基于数据挖掘技术实现城市智能化管理客户收益:基于大数据形成统一的市政管理平台,整合分散零碎的业务数据共享共通,不再有数据孤岛基于历史城市事件进行数据挖掘,形成智能决策平台,实现城市智能化管理利用实时技术实现人流监控预警,提升城市安全人流密度实时监控广东佛山:禅城社区综合治理大数据平台区委办实时事件处理城市事件统计今日议程大数据发展趋势13大数据技术实践大数据业务创新2中国最早自主研发的大数据基础软件率先支持银行业复杂关键应用的大数据平台国内落地应用案例最丰富的大数据厂商31全球最具有前瞻性的大数据厂商——Gartner2016年数据仓库及数据管理解决方案魔力象限远见者领域Gartner认可的全球六大(中国唯一)Hadoop发行版厂商之一最早入选中央政府采购网的Hadoop发行版产品星环科技典型案例

(国内落地案例最多)金融(20+)银行、保险、证券电信运营商(20+)移动、联通、电信交通公安(30+)山东、辽宁、浙江等能源电力国网+南网互联网电商+CDN政府工商+税务+司法物流快递EMS广播电视华数+卫视

我们的部分客户>200个Strengths■Althoughayoungvendor,TranswarphasgainedtractionintheChinesemarket.Ithaswon200clientsinlessthan18months.■Transwarphasauniquesetofcapabilities,suchasitsInceptorSQLcomponentbasedonApacheSpark,withOracleSQLandPL/SQLcompatibilitysupportingcreate,read,update,delete(CRUD)andACIDoperations.Thiscomponentisparticularlypraisedbyreferencecustomers.■ReferencecustomersindicatedthattheyareverysatisfiedwithTranswarp'sproduct,aswellaswiththesupportandtrainingthatthecompanyoffers.优势星环科技虽然年轻,但是已经在中国市场中颇具影响力——星环科技在18个月内赢取了200个客户。星环科技的产品有其独特的功能,例如它的SQL引擎Inceptor,基于ApacheSpark,兼容OracleSQL和PL/SQL,支持事务处理的CRUD(CREATE,READ,UPDATE,DELETE)并能保证ACID。Inceptor在被调查的用户中受到了非常高的评价。被调查的用户表示他们对星环的产品、支持以及提供的培训都非常满意。Cautions■Sofar,TranswarpoperatesinChinaonly.Thatsaid,thesizeoftheChinesemarket,anditsspecificrequirements,offersplentyofscopeforTranswarptoexpand.■Transwarphasyettoofferacloudsolution,althoughitindicatesthatthecloudisonitsroadmap.■Referencecustomerspointedtosomemissingfunctionality,particularlywithregardtoadministrationandmanagement,andhighlightedalackofskillsinthemarket.However,acrossthewholespectrumofcustomerexperience,Transwarp'scustomersawardedscoresequaltotheaverageforthismarket.注意目前,星环仅在中国有业务。虽然如此,中国庞大的市场以及中国市场特有的要求给星环的发展空间巨大。虽然暂时还没有推出云上的解决方案,但是星环科技的云解决方案已经在计划中。被调查的客户指出星环的产品还有一些功能的缺失,尤其在产品的管理功能方面。被调客户还指出市场中对口人才的稀缺。即使如此,被调客户对星环科技各方面的评价都持平报告中的平均水平。六大Hadoop发行版厂商之一三年内两百多落地案例国内首个Spark计算框架平台“Transwarpisprobablythecoolest#Hadoopcompanyevenyou'veneverheardoftranswarp.io.”

--NickHeudecker,Gartner分析师唯一一家上榜的中国公司

被Gartner评为全球最具有前瞻性的大数据厂商2016年Gartner数据仓库与数据管理魔力象限报告Gartner数据仓库关键能力排名Strengths■Althoughayoungvendor,TranswarphasgainedtractionintheChinesemarket.Ithaswon200clientsinlessthan18months.■Transwarphasauniquesetofcapabilities,suchasitsInceptorSQLcomponentbasedonApacheSpark,withOracleSQLandPL/SQLcompatibilitysupportingcreate,read,update,delete(CRUD)andACIDoperations.Thiscomponentisparticularlypraisedbyreferencecustomers.■ReferencecustomersindicatedthattheyareverysatisfiedwithTranswarp'sproduct,aswellaswiththesupportandtrainingthatthecompanyoffers.优势星环科技虽然年轻,但是已经在中国市场中颇具影响力——星环科技在18个月内赢取了200个客户。星环科技的产品有其独特的功能,例如它的SQL引擎Inceptor,基于ApacheSpark,兼容OracleSQL和PL/SQL,支持事务处理的CRUD(CREATE,READ,UPDATE,DELETE)并能保证ACID。Inceptor在被调查的用户中受到了非常高的评价。被调查的用户表示他们对星环的产品、支持以及提供的培训都非常满意。Cautions■Sofar,TranswarpoperatesinChinaonly.Thatsaid,thesizeoftheChinesemarket,anditsspecificrequirements,offersplentyofscopeforTranswarptoexpand.■Transwarphasyettoofferacloudsolution,althoughitindicatesthatthecloudisonitsroadmap.■Referencecustomerspointedtosomemissingfunctionality,particularlywithregardtoadministrationandmanagement,andhighlightedalackofskillsinthemarket.However,acrossthewholespectrumofcustomerexperience,Transwarp'scustomersawardedscoresequaltotheaverageforthismarket.注意目前,星环仅在中国有业务。虽然如此,中国庞大的市场以及中国市场特有的要求给星环的发展空间巨大。虽然暂时还没有推出云上的解决方案,但是星环科技的云解决方案已经在计划中。被调查的客户指出星环的产品还有一些功能的缺失,尤其在产品的管理功能方面。被调客户还指出市场中对口人才的稀缺。即使如此,被调客户对星环科技各方面的评价都持平报告中的平均水平。传统数据仓库排名第七位逻辑数据仓库排名第七位机器学习及数据探索类数据仓库排名并列第六位大数据生态及星环科技的公司定位AnalyticsasaServiceAnalyticsService&ApplicationsTransformation,Discovery&VisualizationToolsMachineLearning&StatisticsToolsHadoopDistributions&DatabasesInfrastructureTranswarpDataHub架构图最完整的SQL支持99%的SQL

2003支持,率先支持PL/SQL的引擎(98%),唯一支持ACID分布式事务的SQL引擎;定位数据仓库和数据集市市场,可用于补充或替代Oracle、DB2等分析用数据库。高效内存/SSD计算第一个支持SSD的基于Hadoop的高效计算引擎,可比硬盘快一个数量级;可用于建立各种数据集市,对接多种主流报表工具。最完整的分布式机器学习算法库支持最全(超过70余种)的分布式统计算法和机器学习算法,同时整合超过5000个R语言算法包。适合金融业风险控制、反欺诈、文本分析、精准营销等应用。支持最完整SQL和索引的NoSQL数据库支持SQL2003、索引、全文索引,支持图数据库和图算法,支持非结构化数据存储支持高并发查询最健壮和功能丰富的流处理框架支持真正的Exactly

Once语义支持所有组件的高可用(HA)支持流式SQL和流式机器学习TranswarpProprietaryApacheProjectsStream流处理引擎HyperbaseNoSQL数据库搜索、图计算TranswarpManagerInceptorPL/SQL批处理交互式分析资源管理YARN(内置TranswarpExtension)优化存储HDFS(内置TranswarpErasureCode)批处理框架MapReduce2协作服务Zookeeper消息队列Kafka工作流Oozie日志采集Flume全文搜索ElasticSearch数据集成SqoopDiscover数据挖掘机器学习交互工具HUEGuardian安全管控交互分析Zeppelin开发辅助WaterDrop实时同步DataAlive交互式分析引擎Inceptor-完整SQL支持DistributedExecutionEngine分布式执行引擎Batch&InteractiveSQL

EngineJDBC4.0SHELLODBC3.5SQL2003Compiler语法解析器SQLParser优化器RBO&CBO代码生成CODEGENERATORTransactionManager分布式增删改

DistributedCRUD事务并发控制器ConcurrencyControllerStarGate数据源连接器SourceHDFSText,

ORC,

ORCTransactionSourceOracleSourceHyperbase分布式内存/SSD列式存储HolodeskSourceDB2HDFSDriverHolodeskDriverHyperdrive驱动层实现数据访问计算算子下推以减少数据传输执行计划仍采用分布式计算……Connector中间件管理单元PL/SQLCompiler存储过程解析器ProcedureParser控制流优化器CFGOptimizer并行优化器ParallelOptimizer多租户管理Guardian计算资源配置ResourceManagement用户安全授权管理Security&Authentication行级安全控制RowLevelSecurityDB2DriverOracleDriverApacheSpark基于内存的Map/Reduce计算引擎,即将成为新一代主流计算框架。处理大数据像“光速”一样快,比HadoopMap/Reduce快10x倍。Holodesk跨内存/闪存/磁盘等介质的分布式混合列式存储,常用于缓存数据供Spark高速访问。Holodesk内建内存索引,可提供比开源Spark更高的交互式统计性能;结合使用低成本的内存/SSD混合存储方案,可接近全内存存储的分析性能。Most

complete

SQL

support兼容>95%

ANSISQL2003,HiveQL和>90%

PL/SQL语法,支持数据仓库、数据集市等分析系统中常用的复杂分析型语法,方便应用迁移。SQL引擎高度优化的高速SQL引擎,可运行在Spark或Map/Reduce上,可高速处理缓存在Holodesk上的列式数据。丰富的工具支持支持主流可视化和BI/挖掘工具,包括Tableau,IBMCognos,SAPBO,OracleBI,SAS等。支持Informatica,Pentaho/Kettle等ETL工具。DataFederation具备对多种关系数据库和Hadoop数据源进行交叉查询,聚合,以及关联操作等能力Inceptor不同版本功能描述标准版SQL2003,分布式事务专业版基础版+内存/SSD数据库功能企业版专业版+PL/SQLFusionDistributedExecutionEngine分布式执行引擎Association

Mining关联/推荐Classification分类算法Clustering聚类算法Sequential

Analysis时序分析Regression回归算法Deep

Learning深度机器学习DimensionReduction主成分分析Statistics统计算法R

Runtime

Library

R语言动态运行库BeliefNetwork信念网络Graph图计算Sampling采样算法Discriminate

Analysis判别分析Reinforcement

增强学习DecisionMethods决策方法FactorAnalysis因子分析Genetic遗传算法Language

Interfaces

多语言接口Midas图形界面RStudioIDE开发环境web

JSInterface

web展示接口HubbleCore算法计算接口Graphengine图计算引擎CustomizedPlugins自定义插件TranswarpConnector–

SQLInterfacestoconnectdatasourcesIndustryTemplates行业模板FeatureEng特征工程StreamInceptorHyperbaseSQLInterface

SQL接口TranswarpDiscoverPlatform精准营销数据层算法模型层使用层欺诈检测文本挖掘实时推荐信用风险流失预警客户精分异常行为识别智能维护系统数据挖掘与机器学习Transwarp

Discover实时NewSQL数据库HyperbaseTranswarpHBase–HadoopDatabase分布式BigTableTranswarpHyperdrive

SQL

backend

engine

between

Inceptor

&

HyperbaseReal-timeOLTP+OLAP+BATCH+Search+GraphTraversalApplicationMixedWorkload混合负载业务GraphlanguageScalableGraphDatabase图形数据库TransactionSQL

&

APITransactionExecutionEngine分布式事务处理引擎IndexSQL

&

APIGlobal/LocalIndex全局/局部索引Elastic

Search分布式全文索引DocumentSQL

&

APIDocument

Storejson/bson文档存储ObjectSQL

&

APIObject

Storeimage/files,

etc对象存储SearchSQL

&APIDistributedFull-textSearch全文搜索Transwarp

InceptorHyperbase不同版本功能描述标准版OLTP支持高并发毫秒级数据插入/修改/查询/删除(CRUD)。结合InceptorSQL引擎,可以支持通过SQL进行高并发的CRUD。支持分布式事务处理。支持常见数据类型,可更高效的存取数据OLAP支持多种索引(global/local/high-dimensionalindex)。结合Inceptor,可进行行列存储转换,进行秒级高效分析。支持复杂查询条件,自动利用索引加速数据检索,无需指定索引。专业版基础版+内嵌搜索引擎实时同步创建索引实现秒级关键字搜索企业版专业版+图数据库支持高并发图遍历和检索多类型支持结构化记录半结构化文档(JSON/BSON)非结构化数据(图片、音频、二进制文档等)支持混合结构数据的存储、搜索、统计、分析支持SQL访问关系表和层次化文档实时数据研判处理TranswarpStream计算层SourceManager数据源管理DistributedExecutionEngine分布式执行引擎ApplicationManager流式任务管理服务StorageManager存储管理SinkerManager输出管理

TranswarpHyperbase

分布式NoSQL数据库高速查询或搜索在线数据挖掘时间窗口统计实时比对告警实时判断告警实时数据TranswarpDataMart分布式内存/SSD缓存高速数据探索分析StreamSQLSQLCompiler编译器ODBCJDBCShellDataMining并行算法APIR语言量化模型StreamSQL

99%的ANSISQL2003的支持率强大的优化器提升性能支持按时间切分滑动窗口和滑动步长多数据源支持Socket文件Kafka……多种输出方式支持HyperbaseHolodeskHDFS……企业数据总线支持从一个流读入数据,再将其输入另一个流,如常见的企业数据总线以Kafka为存储中间件在线数据挖掘支持离线模型,在线预测时间窗口数据进行实时挖掘分析Stream不同版本功能描述标准版基本流处理框架,支持流式聚合专业版基础版+SQL企业版专业版+机器学习统一权限管控TranswarpGuardianBuild-inLDAPHAsupportedAccounting用户管理Authentication用户认证Audit审计分布式文件系统HDFSRBAC支持Dir/FileaccesscontrolDir/FileACL用户安全授权管理Grant/RevokeviaSQL行/列级安全控制Row/ColumnLevelInceptor流处理作业授权管理StreamApp/JobGrant/RevokeviaSQL主题级安全控制KafkaTopicLevelSecurityStream用户安全授权管理AuthenticationwithInceptorandHDFSDiscover数据交互安全控制DataTransfer&Communication用户安全授权管理Grant/RevokeviaSQL(withInceptor)单元格安全控制CellLevelHyperbaseDataAuthorization数据权限管理ExistingAD/LDAPwithKerberos使用既有用户管理与认证系统Build-inKerberosHAsupported公司部门一部门N…子部门子部门子部门子部门子部门子部门……………………Policy&AlertResourceUsageAuditGrant/RevokeAuditAccessControlAuditResourceAuthorization资源管理控制文件系统UsageQuotaControl数据库/仓库StaticQuotaTempQuota存储资源计算资源计算资源管理调度YARNQueueUse/AdminControlInceptor

PoolControlSLAControl用户组管理员用户超级管理员角色用户组不断沉淀的行业主题模型应用模板贷款担保信用风险对担保网络进行图谱分析,通过还款行为,全方位贷后贷中违约风险。通过深度高维学习进行精准客源获取,广泛用于分期和理财推荐中。360度零售和对公客户视图挖掘,深刻洞察了解客户。神经网络和规则引擎双重保障,助力企业拦截欺诈。非监督和半监督的客户聚类,精准分析了解客户群体特征。用户画像欺诈检测客户精分精准客源营销金融文本风控检索用文本信息建立企业风险模型,语义检索话题、行业、事件、图谱等。对用户消费行为进行建模,流失模式和行为提前发现,提前挽回。购物篮模型、相似度模型等基于客户、产品、内容的多重推荐。用户访问安全路径建模,识别网络访问异常模式。根据pos机密度分布,精准商圈定位和营销。实时推荐异常行为识别商圈聚类分析用户流失预警智能可靠性维护工业数据故障诊断和可靠性维护建模。通过时序模型对价格、流量等时序敏感数据进行预测和分析。实时人流密度估计;垃圾短信检测。车辆积分稽查布控和套牌车分析。用户画像商品推荐自驾车迁徙路线成品油质量生产环节运营商公安领域石油能源时序数据预测Midas——拖拽式图形界面工具Midas——图形化分析步骤连接数据建立分析模型模型评估和可视化Waterdrop–SQL开发辅助工具为开发人员和数据库管理人员提供的数据库管理工具Eclipse插件DatabaseNavigatorSQLEditorSQLExecutorDataViewer自动化环境健康检查工具—Koalas图计算GrapheneSQL支持ODBCJDBCShellSQLCompilerInceptorQueryEngineCypherCompilerApplicationManagerDistributedExecutionEngine(Spark)StorageManagerComputationFramework图检索类SQL语法支持复杂的搜索模型patterns多数据源支持实时响应图计算扩展的SQL语法支持丰富的图计算算法支持OLAP海量图形分析支持GrapheneEngine十几种丰富的图计算算法支持,支持通过SQL进行图检索、图计算。TranswarpOperatingSystem云操作系统Transwarp

Operating

System磁盘存储管理器网络虚拟网络管理器调度器调度etcd编排负载均衡器系统服务自动扩展replicator发现依赖name

serviceContainerPluginsContainers自定义应用CPU/内存基于优先级调度HDFSYARNInceptorStreamElasticSearchHyperbasePigOoizeFlumeSqoopPostgresSQLRedisServiceRepositoryTranswarpOperatingSystem架构CPU/MEMpriority-basedschedulerTranswarp

Operating

SystemDiskstoragemanagerNetworkVLANmanagerSchedulercoordinationetcdorchestrationloadbalancerSystem

Serviceauto-scalingreplicatordiscoveryname

serviceTOS的组成部分:Ring0:Docker/ContainerRing1:ResourceschedulerRing2:Built-in

systemservicesRing3:Centralservicerepository(dockerimages)ContainerPluginsContainersTOS显著优势自动一键部署运行任何docker镜像完善的资源隔离性弹性计算自动扩容自我修复TOS

+

TDH=IaaS

+

PaaS可用于构建企业大数据私有云或者在公有云上提供大数据平台服务我们的核心优势:功能远超国内外友商TOS是为大数据应用量身订做的云操作系统基于Docker和KubernetesTOS支持一键部署TDH,基于优先级的抢占式资源调度和细粒度资源分配资源弹性共享--提高资源利用率灵活部署:BigData+Application资源调度:Auto-scaling+Self-healing服务发现:CentralRepository隔离性--保障服务质量和安全性数据隔离:DataSources,AccessPattern,ConfidentialLevels计算隔离:CPU,Memory,I/O应用隔离TOS云操作系统统一管理--提高系统可管理性资源统一管理:CPU、内存、存储、网络突破单机管理局限:单机管理向集群管理服务统一管理:服务生命周期管理容器软件导致的性能损失:<

1%Intel®SSDDCP3700IOPSLatency(us)Peakrate(MB/s)InterfaceRead460,0002.22800NVMe*PCIe*3.0Write175,00061900NVMe*PCIe*3.0Read/Write250,0004n/aNVMe*PCIe*3.0高密度一体机TxData-4TxData-4STxData-4MTxData-4HPernodeCOMPUTE/

PROCESSOR12/16CoresPerNode2IntelE5-2620v32.4GHzOR2IntelE5-2620v42.1GHz16/20

CoresPerNode

2IntelE5-2630v32.4GHzOR2IntelE5-2630v42.2GHz20/24

CoresPerNode2IntelE5-2650v32.30GHzOR2IntelE5-2650v42.2GHzMemory/

RAM64GB/128GB/256GB

DDR4RECC64GB/128GB/256GB

DDR4RECC64GB/128GB/256GB

DDR4RECCSTORAGE

RAW/FLASH800GB/1.2TB(option)800GB/1.2TB(option)800GB/1.2TB(option)STORAGE

RAW/HDD6TB/12TB6TB/12TB6TB/12TBNETWORK

CONNECTIONDualPort10GE(option)

DualPort1GEDualPort10GE(option)

DualPort1GEInifiniBand56G

DualPort10GE(option)

DualPort1GEnodesperclusterMININUMMAXIMUMINCREMENTS

444646

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论