大数据在金融行业中的应用_第1页
大数据在金融行业中的应用_第2页
大数据在金融行业中的应用_第3页
大数据在金融行业中的应用_第4页
大数据在金融行业中的应用_第5页
已阅读5页,还剩7页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据掘金大数据在金融行业中的应用在当前大数据技术潮流中,各行各业都在不断的探索如何应用大数据技术以解决企业面临的问题.目前国内已有不少金融机构开始尝试通过大数据来驱动相关金融业务运营.如下是百分点就金融行业如何应用大数据技术提出我们的见解.根据我们的经验,企业面向消费者的应用大致可以分为运营、效劳和营销三大类,在金融行业中这三类应用的典型例子有:运营类:历史记录治理、多渠道数据整合分析、产品定位分析、客片洞察分析、客尸全生命周期分析等.效劳类:个性化坐席分配、个性化产品推荐、个性化权益匹配、个性化产品定价、 客尸体验优化、客尸挽留等.营销类:互联网获客、产品推广、交叉销售、社会化营销、渠道效果

2、分析等.大数据技术在这些应用中都可以发挥价值,其核心是通过一系列的技术手段,采集、整合和挖掘用尸全方位的数据,为每个用尸建立数据档案,也就是常说的“用片画像.大数据可应用于金融行业实时数据分析,场景包括:在风险治理领域,可以应用于实时反欺诈、反洗钱,实时风险识别、在线授信等场景;在渠道方面,可以应用于全渠道实时监测、资源动态优化配置等场景;在用尸治理和效劳领域,可以应用于在线和柜面效劳优化、客尸流失预警及挽留、个性化推荐、个性化定价等场景;在营销领域,可以应用于基于互联网用尸行为的事件式营销、差异化广告投放与推广等场景.大数据在金融业统计分析类应用中的优势大数据在数据M、多种数据源、多种数据结

3、构、复杂计算任务方面都优于传统的数据仓库技术,这里仅举两个例子:a大M数据的运算,例如:两张 Oracle里面表数据分别是1000多万和800多万做8层join ,放在大数据平台运算比在Oracle里面运算至少 快2倍多;b 对于跨数据库类型的表之间的 join,例如一张Oracle的表和一张sqlserver的表, 在传统的数据仓库中是没有方法 join的.可以将数 据通过sqoop等工具放到 HDFS上面.利用 hive,pig, impala,spark 等 进行更快的处理.大数据协助银行实现其对客尸的多维度分析有人指出,目前银行自身的数据难以完成客尸全维度分析,那么应用大数据又能如何首

4、先,有几个问题我们需要仔细思考:什么叫客片“全维度有没有可能做到“全维度根据百分点的理解,不存在对一个人的“全维度的刻画,由于我们现实中都做不到.您可以想象,一个人的 DNA可以代 表他的“全维度吗或者他的所 有言论可以代表他的“全维度吗都不 可以.我们期望的“全维度实际上是想说最大 可能的利用和挖掘手上的数 据资源!基于上面的理解,我们认为银行在大数据平台建设过 程中最需要考 虑的是如何最大程度的整合所有数据源,特别是行内自有数据源,并且针对 业务需求做出有价值的分析应用.其次,假设银行要引入第三方数据, 这些数据怎么利用这些数据如何 和行内数据整 合发挥价值这些数据又如何转化为客片“全维度

5、分析显 然的,第三方数据也不是宜 接就能“全维度的,还是要经过一系列的数据分析和挖掘.对银行客尸了解、并且契合银行业务的数据一定来自于银行业内!任何外部的数据都需要经过大M的转换和业务解读才能宜接在银行中使 用.如果需要第三方数据支撑,银行必须找到对金融业务有相当理解, 并且 已经根据银行业务诉求分析好的数据才是有价值的.最后,根据我们的理解和实践经验,银行只需要把第三方数据看做一个数据源即可,“全维度的关键还是如何整合所有数据源并进行深度挖掘.在百分点的实际案例中,我们有一套自己的方法论,包括数据的集成、清洗、脱敏、多渠道整合、用片画像标签建模、用片画像整合、用片画像服务等几个步骤.第三方数

6、据是在集成阶段就解决的问题,后面各阶段关注点都在如何整合、挖掘和应用这些数据.相比传统技术,大数据技术的优势如下:a大数据技术更关注过程数据、行为数据、非结构化数据,可以真正做到“全方d力位;b大数据技术在实时性、数据M和并发M上有明显优势,由于这些技术一开始就是为互联网、海M数据和高并发设计的;c大数据技术在组件化、水平扩展方面有明显优势,对业务升级和扩展支持更加平滑.如何选择大数据技术产品选择大数据技术产品最优先考虑的原那么是什么大家选择莫一款大数据技术产品时,不能只关注莫款产品有什么“高端的功能,而应该关心是这款产品是否能给我们带来价值,能解决我们的业务痛点.所以大数据产品的关键不在于建

7、一个大数据的平台,然后把数据进行采集和存储,而在于这 些大数据产品能在哪些方面支撑我们的应用场景、能从数据中分析出哪些有 价值的观点、能基于数据产生哪些数据应用、如何为企业提供增值变现的能力.这一点,我们需要向互联网公司学习.大数据能够蓬勃开展正是由于互联网行业真正让大数据产生丰富的价值,如 Google的精准广告,亚马逊的 “千人千面推荐等.金融是极度依赖信息化技术的行业, 在这个行业中,业务场景可以分为 下面几大类:1支撑类.例如海M数据的存储和查询等.2操作类.例如受众人群筛选、营销活动筹划等.3战术类.人群分析洞察、产品舆情分析等.4战略类.运营分析报告、新业务拓展等.不存在一款产品可

8、以支撑以上所有场景,我们在产品选型时应该尽M考虑那些可以支撑更多场景的产品,至少应该了解:1该产品适合的宜接场景是什么2该产品上已经提供的应用有哪些,支撑了哪些场景3该产品上可以衍生出哪些应用,能够支撑哪些场景正是基于上述考虑,百分点才推出了大数据技术、大数据治理和大数据应用三层产品,每一层解决特定的业务问题,但这些产品可以像搭积木那样轻松整合在一起.大数据平台建设1.1 大数据平台硬件选型大数据的特点是数据M大但往往价值稀疏,从大数据里提取价值就像是从大海里捞针,要想完成大海捞针的工作就必须提供性价比可接受的软硬件解决方案,开源Hadoop解决方案就是典型的代表,通过基于廉价x86架构效劳器

9、之上提供海M数据存储和分析解决方案赢得互 联网界的青睐,所以,这种通过软件层面来保证数据平安和稳定,硬件基于标准x86标准效劳器的解决方案是未来的主要方式.另外对于x86效劳器的硬件选型也是需要考虑的,从实践经验来看,我们往 往会综合数据M、数据应用和本钱提供一个平衡性的硬件配置,然后基于平衡型的硬件配置依据任务作业情况,调整硬件配置,如10密集型可能会使用SSD&内存,CPU密集型任务那么会选择高端 CPU 等.1.2 大数据平台建设最正确实践大数据平台建设中,Hadoop体系所包含的生态系统,如:Hbase,Hive,s noop,pig,spark 等子系统,那么如何根据各自的特

10、性,通过组合方式来适应实际十大数据需求并应用到具体场景中呢我们的最正确实践是利用互联网离剧陆石专及删数据Hatloop 的技术架构,构建Lamda架构,如下图:JMKHUES *np数据分发fMur/K 、对外服努数摇存储KtAka=>、 RESTAPI合实日撇据处理Spark1 数据采集a传统业务系统数据库和数据集市、数据仓库的数据,均可以通过Sqoop等数据桥接的方式接入大数据平台,同时可以将数据库日志、系统日志等非结构化文本数据通过 Flume等组件接入大数据平台.b银行线上渠道网站、APP应用、微信公众号等中的用尸行为可以通过数据探头技术, Web端及H5通过JS移动端通过SDK

11、部码,采集用片行 为数据;银行线下渠道相面、ATM等的用尸行为数 据,需从线下接入的系统 数据中解构分析.c互联网公开数据,如论坛、微博、媒体资讯等,通过数据爬取技术进行数据采集.d也可以利用各种API接口接入其他合作方、第三方等的在线或离线数据.2数据分发通过FTP或Kafka消息队列将数据实时分发,分发后分开实时数据处理和离线数据存储和处理两条线,形成“人字型的Lamda架构.3离线数据存储及处理基于Hadoop平台和MpReduce 技术的离线数据处理,常用的是 HBase列式数据库.4实时数据处理利用Storm或Spark技术的实时数据处理,例如 Storm是事实流式处理,Spark

12、Spark Streaming是基于内存的实时批处理.5数据存储不同的数据类型、不同的业务场景,需要的不同的数据存储效劳,在我们的产品中应用了 Redis MongoDB 、MySQL ElasticSearch 等多种存储 效劳.百分点基于此架构为银行提供效劳的典型应用场景包括:1用尸行为采集分析:利用数据探头JS SDK Nginx、ICE、数据分发Kafka、离线数据存储及处理HBase、运营分析结果展现MySQL、.2跨部门数据整合:利用数据桥接Sqoop 、日志接入Flume 、数据分 发FTP、 离线数据存储存储及处理HBase ES.3离线用片画像和用尸洞察支持营销:利用离线数据

13、存储存储及处理HBase ES.4实时用片画像及推荐:利用实时数据处理 Storm、Spark、数据存储 Redis MongoDB .5实时反欺诈:利用数据接口 API、数据分发MQ.、实时数据处理Storm 1.3 大数据平台和现有数据仓库的有效整合目前各行都有自己的数据仓库或数据集市平台,而大数据平台的引入又往往独立于数据仓库,对于莫些场景,将结构化数据与非结构化数据进行整体结合往往能够起到更好的效果,如何能够将大数据平台和现有数据仓库进行有效整合1非结构化数据处理与大数据应用的关系首先分享一下我们对“结构化和“非结构化的理解:狭义的理解:结构化就是指关系型数据,其余都是非结构化数据.广

14、义的理解:结构化是相对于莫一个程序来讲的,例如视频对于播放器来说显然是结构化的,但是对于文本编辑器来说就是非结构化的事实上,即使是人脑,处理的也都是“广义的结构化数据.你可以想象,自己在注视一张照片时,脑海中形成的一定不是一个一个像素点,而是抽象过的 一些属性!根据我们上面的理解,无论是语音、影像还是其它“狭义的非结构化数据,只要我们有工具可以将这些数据转化成我们关心数据结构,那就可以作为大数据应用的一个数据源,后续由针对这类数据的的特定工具处理即可.这里举一个例 子:通常我们认为HTML网页,例如电商的单品页面,是非结构化的,由于我很难从中提取出结构化字段,例如商品名称、价格等.但通过互联网

15、抓取系统,我 们可以将这些页面转化为结构化字段,那么后续根据结构化数 据处理即可.语音、 影响也是一样,关键是我们期望从中提取什么信息,用什么工具提取,一旦提取 成功,即可整合到大数据应用中.在百分点的实践中,我们已经完全整合了网页、文本、JSON XML等非结构化数据,局部整合了图像和语音数据,这些内容都已经应用到了业务中.2大数据平台和现有数据仓库的整合现有的数据仓库完全可以和大数据平台进行整合,现有数据仓库可以作为大 数据平台的一个数据源和数据应用.对于金融银行业,往往已经实施有数据仓库,这个时候如果盲目上大数据平台进行平台替换往往容易造成数据混乱,所以我们提供的建议是混搭先行,逐步替换

16、,先替换那些传统手段不能解决的问题, 再替换那些数据仓库已经存在的应 用.现阶段数据仓库上下游生态圈丰 富程度远远大于大数据生态圈,我们应该充分利用现有数据仓库上下游丰富的解决方案充分发挥传统数仓的价值,然后通过Hadoop等大数据产品来补充传统数仓对于非结构化数据处理缺乏的缺陷.随着大数据技术的开展,大数据产品Hadoop等各项功能和性能不断完善,再逐 步把数仓之上已有业务应用 迁移到大数据平台.常见技术问题解答在数据导入到Hadoop中之后,数据的备份数就已经根据 Hadoop的HDFS配置做了多备份(默认是3备份).2) Oracle关系数据库的数据怎么部署Hadoop环境中使用Orac

17、le数据库中的数据可以宜接导入到Hadoop中,而后利用一些工具进行处理: a) Hadoop生态中有一系列的工具和组件可以在RDBMS和Hadoop间导入导出数据,例如Sqoop,这些工具或多或少会有一些坑,需要使用者注意或者找有经验的专家指导.b) 数据处理方面,Hive、SparkSQL 和Impala 都是很好的 SQL on Hadoop工具,它们可以满足大局部的数据处理需求,但它们对SQL的支持不尽相同,目前也没有任何组件能完美支持Oracle的PL/SQL这些SQL组件无法满足数据处理需求,一般的做法是利用其它工具,例如 Pig、原生 Map Reduce 等.3) HDFS数据

18、怎么入 HbaseHDFS数据导入到HBase有三种方式:a) 可以通过普通的 MR程序,在Map或者Reduce里面通过HTable的 对象来写入到HBaseb) 宜接通过 MR程序,用HBase的TableMapper 和TableReducer 方法,然后用 Table Map ReduceUtil 类来执行 MR,和 1 类似.如果数据昂:大,建议使用bulkload的方式,通过HfileOutputFormat 方法生成HFile格式的数据,再通过Load In creme ntalHfile的方法把结果加载到 Hbasa倚窗远眺,目光目光尽处必有一座山,那影影绰绰的黛绿色的影,是春 天的颜色.周遭流岚升腾,没露出那真实的面 孔

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论