金融行业数据挖掘技术_第1页
金融行业数据挖掘技术_第2页
金融行业数据挖掘技术_第3页
金融行业数据挖掘技术_第4页
金融行业数据挖掘技术_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.:.;金融行业数据发掘技术运用论坛 数据发掘讨论组 朱建秋 HYPERLINK mailto:zhujianqiuhotmail zhujianqiuhotmail一、 简介“金融行业数据发掘技术运用论坛由中国电子信息产业开展研讨院(CCID)和其旗下赛迪集团战略数据资源管理中心主办,北京赛迪数据担任详细承办,2002年11月25日在北京新世纪饭店召开。二、 会议纪要1 会议内容1) 数据发掘技术与金融分析内容 数据仓库构造与技术 数据发掘技术 评分系统在金融决策中的运用 数据发掘用于评分系统主要观念:1 数据仓库是适宜知识发现的过程的构造。数据仓库的处置过程是从“数据清理/整合数据仓库数据

2、选择数据发掘方式评价知识不断循环的过程注:类似Fayyad 96年提出的数据发掘过程模型。2 将数据仓库和发掘的构造划分为四个层次:第一层是数据层,第二层是多维数据库层MDDB,第三层是OLAP和OLAM,第四层是用户界面。注:类似Han Jiawei的OLAM体系构造3 数据发掘过程包括:数据选择,数据转换,数据发掘,数据解释。4 数据发掘的方法:联想,划分,聚类,预测,顺序方式,类似时间序列。5 数据发掘的科学方法数学工具:统计学,决策树,神经网络,模糊逻辑,线性规划。6 个人信誉评分系统是将个人信誉的历史六个月以上经过45至65个要素的刻划后表述的决策模型。通常个人信誉评分为350至85

3、0之间。每人从850分起,有坏帐记录,即扣去不同比例的分数。经过评分模型的分析,最后得到决策评分。850为最好7 评分要素:过去的付帐历史、信誉欠帐量、信誉卡运用时间、新信誉卡的恳求、信誉卡的类、信誉卡买卖情况、现金提取情况8 运用前景:银行各类信贷风险分析,企业和个人信誉风险分析2) 如何利用数据发掘工具协助进展市场营销内容 数据发掘的定义 IBM数据发掘的处理方案 在金融行业的运用主要观念:1 强调了数据发掘过程,首先必需明确需求处理的商业问题。2 IBM有从数据库到最上层的发掘工具的一整套商业智能处理方案。3 在银行运用的层次:信誉评分,购物篮分析,区隔分析,交叉营销/向上营销,客户流失

4、,客户价值。4 讲解了Lift Chart图的含义3) 数据发掘在金融行业的运用趋势分析内容 数据管理技术的挑战 构造化数据发掘运用 非构造化数据发掘运用 金融行业数据发掘运用趋势主要观念:1 八十年代初,银行自动化建立,九十年代初银行网络化建立阶段,九五末期,数据大集中。2 2002年上半年金融行业IT运用特点:数据大集中平稳进展,“银联改善信誉卡环境,电视会议扩展运用,个人理财系统成为新焦点,农信社信息化市场升温,无线局域网开场运用。3 构造化发掘原理:从现有业务系统中抽取数据业务数据、客户数据,建立深层次的分析体系数据仓库、数据集市、业务分析模型,以信息驱动业务的管理、新一代电子商务企业

5、市场触觉敏感、以客户为中心、以信息驱动。4 一个比喻:数据仓库和数据发掘好比一个大的厨师烧菜,开场需求选择原料,然后,将各种原料加工终了洗、切、剁等等,分门别类的放在厨房,这时候厨房就象数据仓库。厨师根据这些原料做出菜肴,就象数据发掘得出有意义的知识。5 构造化数据发掘内容:6 人事、财务消费、销售人事、财务消费、销售客户资料数据仓库抽取过滤转换市场需求客户忠实度客户等级客户销售模型分析7 非构造化数据发掘在企业竞争情报系统的运用,企业竞争情报系统将成为下一个数据发掘运用的热点。8 金融行业数据发掘运用趋势,在数据集中的平台上,结合构造化和非构造化数据发掘技术,部署企业的商业智能、客户关系管理

6、、市场销售分析、竞争对手分析、市场需求动向等。4) 用友金融行业财务管理处理方案黄伟先生一上来演示了一个FLASH游戏,在多张不同花样的牌中,让观众记住一张牌,阐明他可以知道一切人记住的是什么牌。然后,他抽去一张牌,再翻开其他的牌,观众所记住的牌曾经都不在了。缘由很简单,他换去了一切牌的花样,呵斥一种错觉。黄伟先生用这个游戏阐明,错觉往往带来错误的决策,引申开来,数据发掘需求有正确的数据,才干进展深化的发掘。引见了用友集中式的财务管理处理方案,阐明必需先搜集这些重要的财务数据,才干进展更深化的发掘。5) CA数据管理技术行业运用途理方案讲解了CA公司的情况,以及CA的商业智能处理方案,特出了C

7、A本人研制的一种预测技术。6) 透过数据发掘改善客户效力中心的管理讲解了一些数据发掘概念性的东西,并举出了那个经典的“啤酒-尿布的案例。7) 金融信誉决策的技术突破数据发掘的运用 引言 信誉周期普通引见 信誉决策的简化流程 信誉决策技术解析 信誉决策技术的几个例子 信誉决策技术带来的利益 中国运用信誉技术的可行方案主要观念:1 抵押贷款有很多缺陷,信誉贷款都能弥补,所以信誉贷款是好的,是趋势。2 信誉周期Credit Life Cycle:招商招商Account Acquisition立户Account Origination信誉决策管理CRM信誉风险,市场管理Risk & Marketing

8、付帐管理Billing & Remittance信誉量管理Line Increase & Line Decrease超支管理Over limit离走管理Attrition促销管理Promotions定价管理Pricing再授信Reissue 资信金融Securitization收帐Collection & Recoverary3 信誉决策简化流程外部内部外部内部数据管理Data MGMT决策制定中心执行系统Strategy Execution顾客或潜在顾客作用于Action反响及信息搜集Reaction4 传统的决策制定中心是客观制定决策JUDGEMENT,客观决策存在一些缺乏,数据发掘给决策

9、技术带来了突破。数据发掘是从广义的角度讲的,包括统计、机器学习、神经网络等等。5 预测解析Predictive Analytics:信誉评分技术Credit Scoring。 内在了解分析Exploratory Analysis/KDD:模块识别和相关性分析。 决策建模Decision Modeling:经过图论方法建立模型,对于给定的一个或多个决策建立数学关系。 战略优化Strategy Optimization:在给定的一些限制条件下,寻觅改良利润的最优战略解。 战略精调Strategy Refinement:精调最优战略解,使其稳定可靠,易了解、易执行。外部内部外部内部数据管理Data

10、MGMT执行系统Strategy Execution顾客或潜在顾客作用于Action反响及信息搜集Reaction数据发掘预测解析内在了解决策建模战略优化战略精调6 预测解析:针对不同的信誉周期阶段和不同的商业目的,建立模型 招商:根据风险的招商模型,恳求模型,价值模型和呼应模型。 立户:风险坏帐,破产等,离走和利润定量等。 用户管理:分档系统,风险预测系统,坏帐、破产预警系统,债量预测模型,利润预测模型,欺诈预测模型等。 收帐:前期收帐,后期收帐等。 总体:损失预测,营利预测,最优组合建立,阶梯变坏率预测,等等。7 内在了解分析 普通了解分析:变量的相互关系。工具因子分析、主成分分析、聚类分

11、析、关联规那么等。 特殊了解分析:对给定目的,寻觅奉献或影响的变量。工具FISHER显著性检验、参数估计、线性/非线性/LOGISTIC回归、神经网络、决策树等。8 决策建模:对于1个或几个决策建立图论模型。从而建立起他们之间的数学关系。如以下图所示:假设,、分别记作 利率、信誉量、债务,那么R收入= FX1,Xn,,L损失= FX1,Xn,,C费用= FX1,Xn,,最大利润 = R收入max(,) - L损失min(,) - C费用min(,)坏帐模型离走模型坏帐模型离走模型当前债务利率调整信誉量调整债务转移收入利润损失和费用9 优化决策和决策精调: 高中高中低高中低高中-2%$1000.

12、00$2000.00-2%$2500.00$3000.000%$0.00$0.002%$-2000.00$0.00坏帐分数离走分数当前债务利率调整信誉量调整债务转移优化决策和决策精调10 信誉评数技术:例子对偶模型 11 信誉决策技术利益:减少坏帐;添加利润;效率提升,开销减少;战略的公平性和一向性得以保证。12 中国的可行方案 逐渐建立完好的数据库 人员培训预测建模技术,决策建模技术,战略设计技术 逐渐建立决策系统这篇演讲是非常有价值的,所以我将其详细的整理出来。无论对于研讨数据发掘或金融模型的学者/学生,还是从现实践工程设计的工程人员,都有非常高的参考价值。三、 结语在短短的三个半小时内,

13、可以组织这样一个规模大、内容丰富、偏重运用的论坛,赛迪是功不可没的。一些可以讨论的概念和思绪:1. 数据发掘的定义在提到数据发掘的时候,一些书或者文献都要强调它与统计和OLAP的区别。我觉得应该从更广义的概念上来了解数据发掘,它是一门跨越多个学科的技术,只需可以从数据发现有意义的方式,都可以称为数据发掘。2. 数据仓库和数据发掘的关系很多人一讲数据发掘,首先必需讲数据仓库。数据发掘是从大量的数据中发现有意义的方式。大量的数据并不一定是来源于数据仓库。由于,这样会呵斥一种误解,进展数据发掘工程,一定要先建立数据仓库。另一方面,数据仓库的构造,其实并适宜进展数据发掘分析,由于我们都看到,大部分数据

14、仓库的构造采用星型或雪花型数据模型,这些数据仓库其实是为OLAP建立的,更适宜进展OLAP的多维分析,而要从事数据发掘工程还需求将数据转换成数据发掘算法可以识别的数据构造。数据仓库为数据发掘所做的,应该从数据整合和清洗的角度来了解。也就是说,数据仓库将不同操作源的数据存放到一个集中的环境中,并且进展适当的清洗和转换。这点上面李峻博士所举的厨房的例子是一个贴切的比喻。数据发掘所需求的数据,可以直接从数据仓库获得,但是获得后还是需求进展转换,假设没有数据仓库,就需求直接从操作型数据源中获取,并且要进展ECTL抽取、清洗、转换、装载的操作。因此,没有数据仓库也是可以进展数据发掘工程,数据仓库的构造不

15、是为数据发掘设计的,它更适宜OLAP操作。3. 国内的数据发掘工程现状国内的金融行业真正从事数据发掘工程的不多,这从论坛的国内报告可以看出。报告的内容主要还是“看想说的步骤。也就是说,看一些资料/文献/书,再从目前的情况中展开联想,最后将这些整理的想法构成方案,并报告说出来。我们非常希望,在以后的运用论坛上,可以象林博士举国外的信誉决策的例子一样,来讲国内的数据发掘案例。从而作到“看想做说。4. 金融行业如何从事数据发掘工程林博士的“中国信誉决策的可行方案是比较贴切的,除了信誉决策,对于其他曾经积累了很多业务数据的系统,都可以参考。利用数据发掘技术,构建决策系统,使得决策来源于数据,而不仅仅是客观判别JUDGEMENT。金融行业的数据发掘研讨,需求多方面的人员的共同参与,包括领域专家、数据管理员、数据分析人员、业务分析人员、数据发掘专家,构成一个团队,从某一个实践的问题出发,探求适宜本人企业的一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论