数据挖掘技术在金融领域的应用_第1页
数据挖掘技术在金融领域的应用_第2页
数据挖掘技术在金融领域的应用_第3页
数据挖掘技术在金融领域的应用_第4页
数据挖掘技术在金融领域的应用_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 数据挖掘技术在金融领域的应用数据挖掘技术在金融领域的应用 武 扬 金融部门每天的业务都会产生大量数据 利用目前的数据库系统可以有效地实现数据的 录入 查询 统计等功能 但无法发现数据中存在的关系和规则 无法根据现有的数据预 测未来的发展趋势 缺乏挖掘数据背后隐藏的知识的手段 导致了数据爆炸但知识贫乏的 现象 与此同时 金融机构的运作必然存在金融风险 风险管理是每一个金融机构的重要 工作 利用数据挖掘技术不但可以从这海量的数据中发现隐藏在其后的规律 而且可以很 好地降低金融机构存在的风险 学习和应用数据挖掘技术对我国的金融机构有重要意义 1 1 数据挖掘概述数据挖掘概述 1 11 1 数据挖掘的定义数据挖掘的定义 对于数据挖掘 一种比较公认的定义是W J Frawley G Piatetsk Shapiro 等人提 出的 数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识 这些知识是隐含的 事先未知的 潜在有用的信息 提取的知识表示为概念 Concepts 规则 Rules 规 律 Regularities 模式 Patterns 等形式 这个定义把数据挖掘的对象定义为数据库 随着数据挖掘技术的不断发展 其应用领域也不断拓广 数据挖掘的对象已不再仅是数据 库 也可以是文件系统 或组织在一起的数据集合 还可以是数据仓库 与此同时 数据 挖掘也有了越来越多不同的定义 但这些定义尽管表达方式不同 其本质都是近似的 概 括起来主要是从技术角度和商业角度给出数据挖掘的定义 从技术角度看 数据挖掘就是 从大量的 不完全的 有噪声的 模糊的 随机的实际应用数据中 提取隐含在其中的 人们事先不知道的 但又是潜在的和有用的信息和知识的过程 它是一门广义的交叉学科 涉及数据库技术 人工智能 机器学习 神经网络 统计学 模式识别 知识库系统 知 识获取 信息检索 高性能计算和数据可视化等多学科领域且本身还在不断发展 目前有 许多富有挑战的领域如文本数据挖掘 Web信息挖掘 空间数据挖掘等 从商业角度看 数 据挖掘是一种深层次的商业信息分析技术 它按照企业既定业务目标 对大量的企业数据 进行探索和分析 揭示隐藏的 未知的或验证已知的规律性并进一步将其模型化 从而自 动地提取出用以辅助商业决策的相关商业模式 1 21 2 数据挖掘方法数据挖掘方法 数据挖掘技术是数据库技术 统计技术和人工智能技术发展的产物 从使用的技术 2 角度 主要的数据挖掘方法包括 1 2 11 2 1 决策树方法 决策树方法 利用树形结构来表示决策集合 这些决策集合通过对数据集的分类产 生规则 国际上最有影响和最早的决策树方法是ID3方法 后来又发展了其它的决策树 方法 1 2 21 2 2 规则归纳方法规则归纳方法 通过统计方法归纳 提取有价值的if then规则 规则归纳技术在数 据挖掘中被广泛使用 其中以关联规则挖掘的研究开展得较为积极和深入 1 2 31 2 3 神经网络方法 神经网络方法 从结构上模拟生物神经网络 以模型和学习规则为基础 建立3种神 经网络模型 前馈式网络 反馈式网络和自组织网络 这种方法通过训练来学习的非线性 预测模型 可以完成分类 聚类和特征挖掘等多种数据挖掘任务 1 2 41 2 4 遗传算法 遗传算法 模拟生物进化过程的算法 由繁殖 选择 交叉 重组 变异 突变 三 个基本算子组成 为了应用遗传算法 需要将数据挖掘任务表达为一种搜索问题 从而发 挥遗传算法的优化搜索能力 1 2 51 2 5 粗糙集粗糙集 Rough Rough Set Set 方法 方法 Rough集理论是由波兰数学家Pawlak在八十年代初提出的 一种处理模糊和不精确性问题的新型数学工具 它特别适合于数据简化 数据相关性的发 现 发现数据意义 发现数据的相似或差别 发现数据模式和数据的近似分类等 近年来 已被成功地应用在数据挖掘和知识发现研究领域中 1 2 61 2 6 K2K2 最邻近技术 最邻近技术 这种技术通过K个最相近的历史记录的组合来辨别新的记录 这种 技术可以作为聚类和偏差分析等挖掘任务 1 2 71 2 7 可视化技术 可视化技术 将信息模式 数据的关联或趋势等以直观的图形方式表示 决策者可 以通过可视化技术交互地分析数据关系 可视化数据分析技术拓宽了传统的图表功能 使 用户对数据的剖析更清楚 1 3 1 3 数据挖掘在金融行业中的应用数据挖掘在金融行业中的应用 数据挖掘已经被广泛应用于银行和商业中 有以下的典型应用 1 3 11 3 1 对目标市场对目标市场 targeted targeted marketing marketing 客户的分类与聚类 客户的分类与聚类 例如 可以将具有相同储 蓄和货款偿还行为的客户分为一组 有效的聚类和协同过滤 collaborative filtering 方法有助于识别客户组 以及推动目标市场 1 3 21 3 2 客户价值分析 客户价值分析 在客户价值分析之前一般先使用客户分类 在实施分类之后根据 二八原则 找出重点客户 即对给银行创造了80 价值的20 客户实施最优质的服务 重点客户的发现通常采用一系列数据处理 转换过程 AI人工智能等数据挖掘技术来实现 3 通过分析客户对金融产品的应用频率 持续性等指标来判别客户的忠诚度 通过对交易数 据的详细分 分析鉴别哪些是银行希望保持的客户 通过挖掘找到流失的客户的共同特征 就可以在那 些具有相似特征的客户还未流失之前进行针对性的弥补 1 3 31 3 3 客户行为分析 客户行为分析 找到重点客户之后 可对其进行客户行为分析 发现客户的行为偏 好 为客户贴身定制特色服务 客户行为分析又分为整体行为分析和群体行为分析 整体 行为分析用来发现企业现有客户的行为规律 同时 通过对不同客户群组之间的交叉挖掘 分析 可以发现客户群体间的变化规律 并可通过数据仓库的数据清洁与集中过程 将客 户对市场的反馈自动输人到数据仓库中 通过对客户的理解和客户行为规律的发现 企业 可以制定相 应的市场策略 1 3 41 3 4 为多维数据分析和数据挖掘设计和构造数据仓库 为多维数据分析和数据挖掘设计和构造数据仓库 例如 人们可能希望按月 按地 区 按部门 以及按其他因素查看负债和收入的变化情况 同时希望能提供诸如最大 最 小 总和 平均和其他等统计信息 数据仓库 数据立方体 多特征和发现驱动数据立方 体 特征和比较分析 以及孤立点分析等 都会在金融数据分析和挖掘中发挥重要作用 1 3 51 3 5 货款偿还预测和客户信用政策分析 货款偿还预测和客户信用政策分析 有很多因素会对货款偿还效能和客户信用等级 计算产生不同程度的影响 数据挖掘的方法 如特征选择和属性相关性计算 有助于识别 重要的因素 别除非相关因素 例如 与货款偿还风险相关的因素包括货款率 资款期限 负债率 偿还与收入 payment to income 比率 客户收入水平 受教育程度 居住地区 信用历史 等等 而其中偿还与收入比率是主导因素 受教育水平和负债率则不是 银行 可以据此调整货款发放政策 以便将货款发放给那些以前曾被拒绝 但根据关键因素分析 其基本信息显示是相对低风险的申请 1 3 61 3 6 业务关联分析 业务关联分析 通过关联分析可找出数据库中隐藏的关联网 银行存储了大量的客 户交易信息 可对客户的收人水平 消费习惯 购买物种等指标进行挖掘分析 找出客户 的潜在需求 通过挖掘对公客户信息 银行可以作为厂商和消费者之间的中介 与厂商联手 在掌握消费者需求的基础上 发展中间业务 更好地为客户服务 1 3 71 3 7 洗黑钱和其他金融犯罪的侦破 洗黑钱和其他金融犯罪的侦破 要侦破洗黑钱和其他金融犯罪 重要的一点是要把 多个数据库的信息集成起来 然后采用多种数据分析工具找出异常模式 如在某段时间内 通过某一组人发生大量现金流量等 再运用数据可视化工具 分类工具 联接工具 孤立 点分析工具 序列模式分析工具等 发现可疑线索 做出进一步的处理 数据挖掘技术可 4 以用来发现数据库中对象演变特征或对象变化趋势 这些信息对于决策或规划是有用的 金融行业数据的挖掘有助于根据顾客的流量安排工作人员 可以挖掘股票交易数据 发现 可能帮助你制定投资策略的趋势数据 挖掘给企业带来的潜在的投资回报几乎是无止境的 当然 数据挖掘中得到的模式必须要在现实生活中进行验证 2 2 基于小波分析和支持向量机的指数预测模型基于小波分析和支持向量机的指数预测模型 小波分析理论是目前科学界和工程界讨论和研究最多的课题之一 它包含了丰富的数学 内容 又具有巨大的应用潜力 小波分析是在Fourier分析的基础上发展起来的 是调和分 析近半个世纪以来的结晶 其基本思想是将一般函数 信号 表示为规范正交小波基的线 性叠加 核心内容是小波变换 由于小波变换在时域和频域具有良好的局部化性质 能自 动调整时 频窗口 以适应实际分析需要 因而已成为许多工程学科应用的有力工具 在 进一步介绍小波分析理论之前 我们先了解一下金融时间序列的概念 支持向量机 support vector machine SVM 是数据挖掘中的一项新技术 是借助于最 优化方法解决机器学习问题的新工具 它成为克服 维数灾难 和 过学习 等传统困难 的有效办法 虽然他还处在飞速发展的阶段 但它的理论基础和实现途径的基本框架已经 形成 支持向量机目前主要用来解决分类问题 模式识别 判别分析 和回归问题 而股 市行为预测通常为预测股市数据的走势和预测股市数据的未来数值 而当我们将走势看作 两种状态 涨 跌 问题便转化为分类问题 而预测股市未来的价格是指为典型的回归 问题 我们有理由相信支持向量机可以对股市进行预测 2 12 1 金融时间序列概况金融时间序列概况 金融市场是国家经济生活的核心 寻找其中的变化规律 进行有有效合理的管理是各 国政府及相关研究机构孜孜以求的目标之一 同时 人们对金融预测也作了大量的探索 取得了丰硕的成果 典型的金融预测是时间序列预测 金融市场的数据绝大多数都是时间 序列数据 即指这些数据是按照时间的排序取得的一系列观测值 如股票或期货价格 货 币利率 外汇利率等 这些数据具有非常复杂的变化规律 而利用一定的数学方法对其进 行分析和研究将有助于制定更为精确的定价和预测决策 当然对于金融投资与风险管理活 动具有十分重要的意义 金融时间序列分析主要是以统计理论和方法为基础 通过模型假 设 参数估计 回归分析等技术来描述其内在的规律 适当的数学工具和真实的数据使金 5 融时间序列分析成为金融经济研究中独具魅力的一块领域 例如美国经济学家Engle和英国 经济学家Granger就因其提出的ARCH模型和协整理论而荣获2003年度诺贝尔经济学奖 一般来说 时间序列的分析可以通过时域和频域两个途径进行 但是很多金融时间序列 表现出较强的非平稳性和长记忆性 这使得许多传统的单独集中于时域或频域的研究分析 方法已经不再适用 而小波分析作为一种新型的信号分析方法 因其在时域和频域都具有 表征信号局部特征的能力 被誉为 数学显微镜 因而它非常适用于分析分平稳信号 小波分析是近20年发展起来的新兴数学分支 也是目前数学界和工程界讨论最多的话题之 一 并且已经在信号和图像处理 模式识别 语音识别 地震勘测等众多学科中得到了广 泛应用 相对来说 其在金融时间序列分析和建模中的应用却相对较少 但近年来 小波 分析方法在金融时间序列分析中的重要地位已经越来越受到人们的关注 2 22 2小波消噪在金融时间序列中的应用小波消噪在金融时间序列中的应用 金融市场中数据由于各种偶然因素的影响 即使不存在暗箱操作 或没有什么重要新闻 重要政策出台 也会表现一种小幅的随机波动 这些随机波动可以看成是信号的噪声 不具有 分析和预测的价值 而且这些随机波动往往严重地影响了进一步的分析和处理 因而在做金融 事件序列的建模分析之前 往往对数据进行预处理 消除这些噪音 小波消噪的步骤 为了更有效的预测金融市场的未来趋势 我们可以将大幅波动作为有用 信号保留 而将小的波动作为噪音消除 先将数据进行预处理之后 再做时间序列的建模分析 假设原始的时间序列 建模的基本步骤如下 0 S 1 小波分解 选择合适的小波函数和小波分解的层次 计算时间序列到第N层的小波分解 0 S 即首先对含噪音信号进行小波变换 得到一组小波系数根据多分辨率分析理 ks kjwf 论 分解的层次越高 去掉的低频成份就越多 而低频成份主要代表有用信号 因而分解 的层次越高 去噪效果越好 但是相应的失真程度也越大 2 阀值处理 将分解得到的小波系数进行阀值处理来区分信号和噪声 阀值的确定对消噪性能 有很大影响 阀值过高会使信号失真 阀值过低又会使得消噪不完全 一般来说 选定阀值可 以有以下几种常用准则 1 无偏风险估计准则 rigrsure 即一种基于Stein的无偏似然估 计原理的自适应阀值选择方法 对每个阀值求出对应的风险值 风险最小的即为所选 2 固 定阀值准则 sqtwolog 设n为小波系数向量长度 则设定阀值为 3 混合nTrlog2 6 阀值准则 用于最优预测变量阀值的选择 它是rigrsure准则和sqtwolog准则的混合 4 最 小最大阀值准则 minmax 是根据统计学中的绩效极大估计量而设定的一种固定阀值选择方法 以上四种阀值准则中 rigrsure准则和sqtwolog准则是相对比较保守的准则 它仅是部分系数 臵零 可以保留较多的高频信号 因而根据金融数据高频性特征 我们一般可以选择rigrsure 准则或sqtwolog准备来确定阀值 在我们实证中 阀值取的是140 3 小波消噪及重构 一般来说 除了简单的强制消噪方法 该方法直接将小波分解结构中的高 频系数臵零 阀值消噪方法可分为默认阀值消噪处理和软 硬 阀值消噪处理两种 后者在 实际应用中比前者更具有操作性 通过阀值选择的高频和低频系数及小波逆变变换公式 计算 出信号的小波重构 达到消噪的目的 常用的小波变换重构公式为 1 kjgkjWkjhkjSkjS fff 其中 为尺度系数 为小波系数 h和g分别为对应于尺度函数和小波函数 kjSf kjWf 的低通和高通滤波器 例 东风汽车时间序列消噪的实证分析例 东风汽车时间序列消噪的实证分析 首先我们对2011年5月至2012年3月共222个交易日的东风汽车收盘价信号进行去噪实验 原始的时间序列见下图1 根据上述的理论 对此金融序列进行小波分解 选择小波Daubechies 小波系 db4 并确定分解层次为4层 得到4层高半频和4层低半频序列 由于理论上通常认为噪 声部分包含在高频中 因此我们对小波分解的高频系数进行阀值量化处理 其中阀值处理选择 sqtwolog阀值估计准则 最后根据小波分解的第4层低频系数和经过量化处理后的1至4层高频系 数进行小波分析 图1 2011年5月至2012年3月共222个交易日的东风汽车收盘价信号 包含噪音 7 以下依次为小波分解后的第4层低频 图2 和高频第4 第3 第2和第1层信号 图3 图2 小波分解后的第4层低频 图3 小波分解后的高频第4 第3 第2和第1层信号 8 提取第4层的低频信号及根据固定阀值处理的高频信号 进行小波重构 得到新的消噪走势 如下图4 图4 第4层的低频信号及根据固定阀值处理的高频信号 进行小波重构 得到新的消噪走势 2 32 3 支持向量机在金融时间序列中的应用支持向量机在金融时间序列中的应用 2 3 12 3 1 支持向量机的原理支持向量机的原理 理论推导略理论推导略 持向量机 Support Vector Machine SVM 是Cortes和Vapnik于1995年首先提出的 它在解决小样本 非线性及高维模式识别中表现出许多特有的优势 并能够推广应用到函 数拟合等其他机器学习问题中 它是建立在统计学习理论的VC 维理论和结构风险最小原理 基础上的 根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷 以期获得 最好的推广能力 所谓VC维是对函数类的一种度量 可以简单的理解为问题的复杂程度 VC维越高 一个问题就越复杂 而SVM正是用来解决这个问题的 它基本不关乎维数的多 少 和样本的维数无关 有这样的能力也因为引入了核

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论