银行业大数据解决方案_第1页
银行业大数据解决方案_第2页
银行业大数据解决方案_第3页
银行业大数据解决方案_第4页
银行业大数据解决方案_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、银行业大数据解决方案目录大数据分析挑战大数据解决方案介绍大数据案例分享数据复杂度:多元性和速度TerabytesGigabytesMegabytesPetabytesBig DataWeb 2.0ERP/CRM付款薪资货存联系人订单跟踪销售管道Web 日志数字市场搜索市场网上推荐广告移动协作电子商务网页点击流Wikis/博客传感器/RFID/设备社交网络音频/视频日志文件空间 & GPS 坐标数据数据集市电子政务气候文本/图像大数据就是资本 但究竟什么是大数据?未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7ZB(1ZB等于10亿GB)的

2、新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1ZB数据相当于美国国会图书馆中存储的数据的4000多倍。“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”维基百科 8万亿GB2015全球信息量1s数据处理速度85%非结构化数据占比数据价值Volume 数据体量大Variety数据类型多Velocity 处理速度快Value大数据的挑战大数据的4V特点: Volume, Variety, Velocity, Value传统DW系统不适用于大数据的分析数据量过于庞大绝大部分大数据是垃圾大数据的多样化格式时效性高需要革新性的技术手段海量数据“分而治之”

3、-批量分布式并行计算Hadoop海量数据“灵活多变”-实时分布式高吞吐高并发数据存取处理NoSQL海量数据“实时响应”-大数据流计算模型我们希望从大数据获得什么?更高一层数据层面整合企业内外部大数据改变数据分析思维 过去,由于数据获取的困难程度,人们在分析数据时倾向于使用抽样数据,并通过不断改进抽样方法以提升样本的 精确性,从而对整体数据进行推算,并竭力挖掘数据间的因果关系。但当前数据处理思维方式正逐步向全体性、混沌性以及相关性演变,以适应数据量的爆发式增长。10大数据改变数据分析思维全体数据混杂数据精确数据抽样数据因果关系相关关系采样的目的在于用最少的数据得到最多的信息, 但在样本分析过程中

4、不可避免会有一部分信息 丢失。在可以获得海量数据的情况下,对全体 数据进行挖掘和分析可以获得更多信息。只有15%的数据是结构化且能适用于传统数据化 的,接受不精确性能使更多的非结构化数据得 到利用。建立在相关关系分析法上基础上的预测是大数据的核心。传统大数据大数据分析不同于传统BI分析传统BI分析批处理大数据分析集群化事务关系型数据库数据仓库分析非结构化流式分析组织多种数据源(MapReduce) 结构化数据 数据规模一般为TB规模 集中式,为了分析进行大量数据移动,数据向计算靠近 批处理为主 结构化/非结构化混合分析的能力 数据规模从数十TB到PB级别 分布式,计算向数据靠近 支持流式分析1

5、1如果业务需求是分析多种来源的数据。 来源:Forrester Research,2012 年 6 月全球大数据在线调查数据仓库与大数据的整合集成大数据和数据仓库功能以增加运营效率需要利用多种类型数据扩展仓库基础架构通过将很少使用的数据迁移到 Hadoop 来优化存储、维护和许可成本通过智能处理流数据来降低存储成本通过确定仓库中要填充的数据来改善仓库性能深度分析所需要的结构化、非结构化和流数据源低延迟要求(几小时,而非几周或几个月)提供对数据的查询访问超越传统数据仓库概念的大数据分析流Internet级别传统数据仓库In-Motion AnalyticsData Analytics, Data

6、 Operations & Model BuildingResultsInternet ScaleDatabase &WarehouseAt-Rest Data AnalyticsResultsUltra Low Latency Results传统/关系型数据源非传统/非关系型数据源传统/关系型数据源非传统/非关系型数据源100111STREAMING大数据分析平台 大数据技术是一系列技术的集合,是传统数据结构化数据与非结构化技术与数据的整合,并基于这些技术与数据进行综合的商业智能应用,包括数据分析与数据挖掘等。BI / 报告BI / 报告探索/可视化 功能应用行业应用预测分析 内容分析 应用

7、程序数据分析系统管理数据分析应用开发数据整合与治理Hadoop系统流计算数据仓库目录大数据分析挑战大数据解决方案介绍大数据案例分享大数据分析视角面向业务分析的愿景 深刻的数据洞察自助式服务 | 协作 | 移动化 | 实时/准实时非结构化数据100111多样的数据管理结构化数据流数据共享与治理挖掘与关联分析转换清洗丰富的数据加工海量多样快速非结构化数据大数据中结构化与非结构化数据的整合建立对非结构化数据进行SQL语法查询的支持,实现与结构化数据的集成关联(key)主分类关键词标签地名人名全国统一分类分词,倒排搜索共性、个性文本识别处理功能模块网页分类反向搜索关键词分析日志关联内容分词索引建立索引

8、分析日志合并用户类别标签摘要结构化元信息网页信息分类数据获取语义分析数据解析数据获取结构化数据数据集市数据集市EDW结构化元数据Hadoop建立非结构化信息的标签、摘要、索引、日志、内容等提取结构化的元数据信息,如类别、标引、摘要等;实现与结构化数据的整合ODSSQL声誉度分析品牌分析服务质量分析竞争产品分析产品评价市场动态跟踪 Big DataTraditional Business IntelligenceEDWAPPSBiz process ERP, CRMDMDMDMETL数据源基础架构分析组件业务用户Structured:e.g.MM/DD/YYYYKnown, knownSemi-

9、structured:e.g. web logs, sensor dataKnown, unknownUn-structured:e.g. text, video, audio, Unknown, unknownBusiness UsersMachinesDevices“The Internet of Things”Data ScientistsCollaboration & SocialEmail, blogs, documentsEveryoneIndexing engineAlgorithmsVisualizationAnalyticsDataSearchPresentationRepo

10、rtingAnalysisDataHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFS数据分析路径Information Flow Traditional BIInformation Flow Unstructured data to BIInformation Flow Semi-structured data to BIInformation Flow Search数据分析路径建设大数据BI系统的思考17常见架构+PBT

11、B一体机MPP DWMPP DM传统的BI系统架构并非一无是处,同样值得我们学习借鉴+大数据解决方案总体架构大数据产品架构Fast LoadSource SystemsHistorical Data(Beyond Active Window)Summarize & LoadBig Data Sources (Raw, Unstructured)Alerts, NotificationsData & Compute Intensive ApplicationERPCRMLOBAPPSIntegrate/EnrichSQL Server StreamInsightSQL Server Parall

12、el Data WarehouseEnterprise ETL with SSIS, DQS, MDSHadoop on Windows AzureHadoop on Windows ServerSQL Server FTDW Data MartsSQL Server Reporting ServicesSQL Server Analysis ServerBusiness InsightsInteractive ReportsPerformance ScorecardsCrawlersBotsDevicesSensorsVolumeVelocityVariety结构化数据Microsoft S

13、QL Server 2012 和SQL Server Parallel Data Warehouse设备提供一种方法来管理结构化数据。流数据SQL Server StreamInsight组件实现了对新的数据格式的支持,其中包括流数据。非结构化数据部署在Windows Azure和Windows Server上的基于Hadoop的服务使您能够快速处理PB级的非结构化的数据。管理几乎来自任意来源的数据横向扩展大规模并行处理引擎 Massively Parallel Processing (MPP) PDW作为SQL Server的横向扩展解决方案MPP 提供线性横向扩展能力Massively P

14、arallel Processing (MPP) 大规模并行处理架构横向扩展: 按需添加硬件实现线性扩展无共享架构最小 (0TB) 到最大 (6PB) 从几个TB的小型数据仓库开始扩展到 6 PB 比SMP DW快10倍复杂作业计算线性扩展扩展灵活方便 (No forklift) 聚沙成塔 成长无限容量最大 随需扩容PB宕机为零高枕无忧Hadoop的典型应用场景用户行为分析跟踪用户在网站上的点击路径,分析其购买习惯根据用户属性,猜测用户感兴趣的商品,定向推广根据N度客户,发掘潜在的客户群体日志存储、分析日志分布在多台服务器,查找问题困难,跨系统应用日志分析、系统性能分析等上传文件存储各业务系统

15、上传的文件、图片统一保存MS与Hadoop基于Apache Hadoop的Windows Server和Windows Azure,以及AD的支持HDInsight ServerHDInsight ServiceHive ODBC Driver 和 Add-in for ExcelJavaScript Framework for HadoopSQL Server and SQL Server Parallel 数据 Warehouse connections for HadoopSharepoint, Powerpivot和Powerview作为前端展示数据价值& 访问频度MPP数据库结构化数

16、据传统BI工具HDP半结构化和非结构化数据历史数据分析数据生命周期& 数据规模HDP在hadoop上增加了:集群管理能力,工作流,安全管理,并融入了数据分析,机器学习技术以及文本数据分析挖掘。所有的这些增强都是为了更好的使得该方案能适用于复杂的,海量数据的分析。HDP是对传统数据仓库的一种补充和延伸,整体构成一个更广义的海量数据仓库。HDP 海量大数据仓库Hive、Sqoop当前大数据分析面临的挑战Warehouse要求学习和掌握Map-Reduce技术需要IT人员将 HDFS 中的数据倒入数据仓库或集市中,才能用于后继的分析HDFS (Hadoop)HDFS (Hadoop)大量新技术需要学

17、习掌握、周期长、见效慢传统BIEDW Connector for HadoopETL/ELTHadoop:成本低、扩展性好、数据加载快、并发处理强EDW:SQL查询执行性能高,包括Ad-hoc、OLAP、报表等Hive ODBC Driver 基于PolyBase的全方位数据整合能力穿越结构化和非结构化数据的访问数据库和Hadoop的混合分析支持透明的应用访问Social AppsSensor & RFIDMobile AppsWebApps非结构化数据结构化数据数据库文件系统HDFS混合动力引擎PolyBaseSQL关系型数据库通过统一的查询,同时访问结构化和非结构化数据沿用标准的SQL语句

18、进行访问Select, From Where低延迟可扩展流数据计算平台StreamInsight用于大数据领域实时高频数据分析处理一个处理流数据的低延迟平台毫秒级,甚至微妙级端到端的延迟一个可高度扩展的,用于实时分析的高性能平台通过横向增加硬件获得近线性的处理能力扩展高达125个节点扩展一个灵活的、动态的平台Streams应用灵活部署支持动态部署新的分析应用每秒数以百万计的事件微秒级延迟传统/非传统数据源实时决策强大分析算法交易Telco churnpredictSmartGrid网络安全入侵监测Cyber SecurityGovernment /Law enforcementICUMonit

19、oring环境监控 27 使用熟悉工具来分析结构化和非结构化数据Hadoop 数据结构化数据 用熟悉的工具来分析大数据 BI工具的天然集成在同一表格中分析结构化和非结构化数据广泛使用的熟悉工具EXCELPowerPivotSQLSERVER BI无需IT 人员介入分析多样的数据类型广泛使用的ExcelMicrosoft Speech SDKMicrosoft Speech SDK是公司提供在Windows平台上开发语音识别和语音合成应用程序的开发包,简称为SAPI,内含SR(Speech Recognition)和SS(Speechsynthesis)引擎,因此可以很方便地在自己的应用程序中添

20、加这些功能。该语音引擎支持多种语音的识别和朗读,包括英文、日文、中文等。推出的应用编程接口API,虽然现在不是业界标准,但是应用比较广泛。识别基本流程:从音频输入设备获取原始音频并编码或直接调用音频文件。设定语音引擎和识别上下文等内容,配置本地访问属性。分析处理得到的文本结果请求接口请求方式:本地访问请求数据:编码后的音频数据音频编码格式:wav音频采样频率:8000Hz、11025Hz、16000Hz、22050Hz、24000Hz、32000Hz、44100Hz、48000Hz主要优点基于COM组件,便于与DirectShow中的组件整合。语音识别引擎位于本地,便于访问,识别速度较快。待识

21、别音频的大小、时长无限制。MAVIS“研究院音视频索引系统目录大数据分析挑战大数据解决方案介绍大数据案例分享银行面临大数据时代的业务挑战小微企业贷款市场逐渐被侵蚀电子商务公司和第三方支付厂商紧贴最终用户,依靠市场优势,对银行的议价能力极 强,比如:银行的支付交易手续费被支付宝压到 3甚至更低,侵蚀银行信用卡的收入。第三方支付企业使得客户和银行的关系进一步疏远:本来是银行自己的持卡客户,银 行却根本不知道他们的购物明细,只能知道他们花了多少钱。这在未来以数据取胜的 时代对银行很不利。银行系电子商务开展不顺利:整个银行系的电子商务市场份额总共不到2%。贷款模式使得客户减少对于银行的依赖:目前来看,

22、贷款模式使得资金的供求 方和需求方可以自行撮合。这使得客户对于银行的贷款依赖逐渐减小。小微企业客户数银行系民生银行:91.5万 招商银行:0.57万互联网系阿里小贷:1030万贷款余额民生银行:363亿美元 招商银行:52亿美元阿里小贷:3.6亿美元贷款客户数民生银行:15万阿里小贷:13万平均贷款规模工商银行:120万元阿里小贷:0.7万元年增长率银行业:18.5%阿里小贷:80%坏账率银行业:3.31%阿里小贷:0.72%银行与零售客户越来越远银行面临大数据时代的技术挑战数据缺口专业人才缺乏IT技术成熟度隐私安全中国银行业大数据应用场景风险管理和合规反欺诈 反洗钱 多点检测营销 实时营销事

23、件式营销 全渠道营销客户 360客户视图 客户定价 客户分类银行数据 银行交易数据 用户金融信息 电话录音互联网数据 浏览信息 搜索信息 SNS信息用户数据 身份信息和偏好数据 地理位置信息 用户事件电子商务数据 商品浏览信息 交易数据 消费趋势信息 银行大数据源 大数据应用P2P业务 人人贷 小额信用贷利率市场化解决信息孤岛:分布式信息日志集中汇聚索引中信、农行、工行、建行、交行、民生、招行、光大、阿里巴巴等大数据应用试点项目摩根大通基于Hadoop的大数据应用已经开始使用Hadoop技术以满足日益增多的用途,包括诈骗检验、IT风险管理和自助服务。150PB在线存储数据、30,000个数据库

24、和35亿个用户登录账号。Hadoop能够存储大量非结构化数据,允许公司收集和存储Web日志、交易数据和社交媒体数据。数据被汇集至一个通用平台,以方便以客户为中心的数据挖掘与数据分析工具的使用。微信贷公司“大数据+机器智能学习”利用海量数据挖掘和算法来做一些贷款业务大量使用了社交媒体和其他的网络工具每个贷款人都拥有6000到8000条数据特点:它的每笔贷款额度都很小,太多的资金额度需要更多次的检验不良贷款会迅速暴露。,模型的反馈和改进违约率高利率很高WongaLendingStreamZestcashKlarnaPawnGo阿里云金电联行花旗银行大数据信贷应用定期(每天)对所有客户的交易日志和当

25、前的债权状况(包括核心系统内的数据和从征信中心取得的数据)进行分析, 建模,及分析当前模型的精确性;定期(每天)根据分析对客户进行分类(segmentation );每天针对不同的分类建立不同的模型,进行行为评分、预测对客户营销可能性、 提前还款的可能性、坏账的可能性等;每天根据预测的分数和交易状况和提前设定的strategy 自动调整客户的credit line;每天根据预先设定的strategy和3,4的结果对客户进行电话、邮件、信件等的促销和催收;采用结构化和非结构化数据消费者数据库基本身份信息住址信息收入信息财产信息消费信息(1)定期更新消费者信息(2)营销活动需求(3)建模并计算(4

26、)提供报告HBASE(NOSQL数据库)Hadoop(Map/Reduce)HBASE(NOSQL数据库)大集中系统使用HBASE存储半结构及非结构化内容使用adoop的并行计算框架对存储的半结构化及非结构化内容,按照营销要求进行分析计算与消费者数据库中的身份信息进行关联结果合并处理MS大数据分析最佳实践客户分析解决方案关注点理解客户行为: 利用线上和线下客户数据,更加高效制定市场决策提升客户体验: 通过理解客户痛点以及定制客户服务,使客户满意度最大化企业痛点客户通过线上,线下和企业之间的交互信息视图不完整对客户有行为特征了解有限,无法切实有效影响客户的业务决策 缺乏对市场活动ROI分析的直观

27、性解决方案益处获得完整的客户信息视图提高市场费用投放的有效性,减少营销成本获得对渠道贡献率的洞察力,优化营销途径提供量身定制的客户服务,提高客户整体满意度解决方案模块营销及公共关系分析互联网及媒体舆情分析客户服务分析模块收益衡量企业营销在各种渠道的有效性通过分析营销方案的关键字及客户反馈,获得对企业营销实际效果的了解. 关注在最有价值的客户群上持续提高营销方案的质量将营销资源向最有执行效果的渠道投放获取负面评价. 理解企业以及竞争对手在哪些信息存在共鸣使营销人员更快更准地接触更多客户更低成本地将信息传递到各种渠道,各个层次,各个地域的客户 确认出最有影响力的人群,比如微博达人,明星等客服人员更

28、高效应对市场情绪 通过及时分析,快速反应,减少不必要的电话及邮件沟通 将消费者的反应及时补充到新产品或服务的改进中提高客户消费的时效性,忠诚度及口碑模块功能对客户分层,客户资料和信息测试进行分析营销活动效果评估:同过分析各营销渠道中的营销受众数量,影响力以及最终消费者的评价倾向按照产品属性分析受众情绪倾向按照品牌及业务伙伴分析影响力分析客户在不同销售渠道下的用户体验分析客服中心的业务绩效如呼叫量,呼叫时长,解决状态,客户满意度等data分析客户数据以及客户网络行为,社交媒体信息,对客户需求有更深洞察力关键指标营销活动有效性各产品反应比例渠道的有效性市场费用投入产出比市场比例品牌接受度客户满意度

29、最有影响力人群客户满意度呼叫总量,反应速度客户留存率3844% of consumers complain via social media. Existing process too cumbersome.Generate a minimum of $100K in savings a year through automation of sentiment data and targeted customer marketing. By automating sentiment analysis, they can alleviate the pain of reacting too la

30、te to negative sentiment and avoid costly lawsuits.OCC requirement to track customer sat. 90,000 customers discuss Capital One on social.TBDLeveraging social data to determine customer sentiment and position productsSituation NeedResultsCreative platform for Customer Analytics for Banking solution.

31、Incorporated social sentiment feed into analysis framework.Analyzing 100k records each month was a full time job, but is now automated for more timely and efficient results. Enabled digital marketing group to better respond to customer complaints and target customers.HighlightSolutionMS的大数据成功案例-Capi

32、tal One社交网站客户满意度分析Cross Channel Marketing Platform to bridge Cheetahmail and Conversen. Power BI with specially developed industry accelerators as syndicated partnership opportunity.The Power BI team working with COE to integrate Project Orange assets into the data catalog. Possible partnership with

33、 Experian to provide syndicated data, ready to consume. MS的大数据成功案例-Experian跨渠道营销39Experian needed to lower the costs of their campaign management system/email marketing system.The Microsoft platform and BI solution combined with Experians existing data created an impactful system for targeting custo

34、mers and making business decisions through analysis. At the same time they were looking for new economy revenue streams for EMS (9% growth)Bundling ready to consume data with BI and industry accelerators for clear resultsSituation NeedResultsHighlightSolutionWhen it comes to business intelligence, M

35、icrosoft SQL Server 2012 demonstrates that the platform has continued to advance and keep up with the innovations that are happening in big data. 在商业智能领域,Microsoft SQL Server 2012平台持续发展,支持不断创新的大数据平台。David MarianiVice President of Engineering工程副总裁“ ”Connects to more than 1 billion signals 连接到超过 10 亿的

36、信号/数据源Across 15 leading social networks, including Facebook 排名前15位的社交网络,包括FacebookGenerates a Klout score for individual people, brands & partners 为个人、 品牌及合作伙伴生成一个 Klout 分数Enables analysis, targeting and social graphs 在线影响力分析工具,提供分析、 目标和社交图MS的大数据成功案例-KLOUTKlout Event Tracker411Perform A|B Testing of

37、 User Flows2Optimize Registration Funnels3Monitor consumer engagement & retention (DAUs & MAUs)4Flexibly track and report on user generated eventsServing StoresSignalCollectors(Java/Scala)Data Warehouse(Hive)K(Node.js)Event Tracker(Scala)Mobile(ObjectiveC)AnalyticsCubes(SSAS)Klout API(Scala)Search Index(Elastic Search)Registrations DB(MySql)Profile

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论