金融数据挖掘_第1页
金融数据挖掘_第2页
金融数据挖掘_第3页
金融数据挖掘_第4页
金融数据挖掘_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章:引言1。什么是数据挖掘?现代信息社会的特征:信息(数据)泛滥,知识匮乏。如何从海量数据中挖掘出对决策有用的信息(一个宽泛的概念)?数据挖掘是一项高科技技术,它结合了现代数学、统计学、机器学习、人工智能、数据库管理、计算机图形学、软件工程等领域,并于20世纪90年代出现在西方国家,从海量数据中挖掘有用的信息用于决策。20世纪90年代末,在对100名美国著名科学家的问卷调查中,数据挖掘被列为21世纪对人类发展影响最大的10项技术中的第三项。中国重视数据挖掘技术(开发与应用)1863963个项目;2.国家和省级重点科学领域;3.国家统计局在全国组织了数据挖掘培训(2000年);4.企业,尤其

2、是银行,重视数据挖掘技术;5.人民大学数据挖掘研究与应用中心。海量数据沙漠,隐藏的知识黄金,从沙漠中挖掘黄金的数据挖掘技术。第二,研究和开发不同学科的数据挖掘技术1。从数学、统计学、人工智能、计算机图形学等不同领域对各种数据挖掘技术的理论基础和理论基础进行理论研究;2.对采矿技术的研究,来自统计学、人工智能、机器学习、计算机图形学、软件工程等领域;3.从数据库管理技术等领域研究数据管理策略;4.研究数据挖掘技术的应用,其中数据挖掘技术在金融领域的应用是一个重要的方面。几种相对成熟的数据挖掘技术数据挖掘是一门新兴技术。近年来,几种非常重要且相对成熟的数据挖掘技术如下:1 .分类和预测2。表征、比

3、较和关联规则挖掘。聚类分析4。序列发现本课程的主要内容包括几种数据挖掘技术的基本原理、数据挖掘方法及其在金融领域的应用。第二章:分类和预测1。分类和预测的概念。对几个离散的和有限的类别进行分类,并判断或预测样本属于哪个类别。*某人是否患有某种疾病*上市公司是否会陷入财务困境,是否会被外资收购*借款人是否会违约*该客户是否会成为银行的潜在优质客户,是否会转向其他银行以Y表示类别变量,并且Y取几个离散值。分类是判断或预测样本的Y值。2.预测是指预测连续变量的值。例如:*借款人的违约概率是多少?*在明天99%的信心水平下,银行投资组合的最大损失是多少?*如果开放式基金因大量赎回申请而必须出售大量特定

4、证券,这些证券的价格会下跌多少?分类离散变量,预测连续变量,二。分类案例教学中上市公司财务困境预测模型的构建1。要求:将因财务状况异常而特别处理的科技公司定义为财务困境公司,将非科技公司定义为财务正常公司,利用上市公司的财务报表数据建立上市公司财务困境预测模型(提前一年预测,即利用第一年t-2的数据预测企业在第一年是否会陷入财务困境)。分类变量y的值是y=0。如果公司陷入财务困境,y=1。如果公司财务正常,2。类似案例:*外资并购目标公司预测*信用卡欺诈预警系统*银行客户关系管理*税务审计3。数据来源:CSMAR数据库1990-2004年资产负债表、损益表、1990-1997年财务状况变动表1

5、998-2004年现金流量表4。报表变动:1994年合并会计报表1998年资产减值准备;5.研究所需数据、选择预测变量的实践经验、其他文献中使用的预测变量、通过技术手段(统计技术、数据挖掘技术)选择预测变量,以及在一定理论指导下构建新的预测变量;样本数据的结构,采集样本数据时应注意的问题*尽量使用跨年度数据*需要删除的数据*尽量不使用成对抽样和随机构造的训练样本组和测试样本组(过度拟合现象),以及本案例的数据描述(SJ0):* 1995年底前上市的公司;*删除因其他原因受到特殊对待的公司;*数据跨度分别为1996-2001年和1998-2003年预测;*删除预测年度陷入财务困境的公司;*有10

6、08个非ST公司数据和111个ST公司数据;*使用的六个预测变量是(第一种方法):总负债/总资产、主营业务收入/总资产、总利润/总资产、(货币资金的短期净投资)/流动资产、留存收益/总资产和总资产的自然对数。随机抽样构建训练样本组和测试样本组的SAS方法:*将EXCEL数据库转换为SAS数据库;* SAS随机数函数一致(种子),随机种子数为奇数,且间隔0,1上的随机数生成* SAS程序#数据一;用于随机建立训练样本组和检验样本组;设置sasuser.sj0。k=均匀(15);快跑。已按k排序的数据库的# DataB设置a;m=int(_ n _/2);快跑。(sj1,sj2),2。构建分类预测

7、模型的方法1。判别分析和判别分析的统计原理假设有两个财务困难的公司和财务正常的公司,每个公司都可以用一个六维随机变量表示,不同的人群有不同的分布。预测一家上市公司是否会陷入财务困境,就是判断该公司对应的样本属于哪一类人群。判别分析使用距离(相似性的体现)来判断样本的属性。常用的距离测度是马氏距离,判别分析实际上是用距离差作为判断样本属性的判断指标。因为马氏距离是二次型,所以距离差也是二次型,计算起来很复杂。如果两个种群都服从正态分布,则距离差是一个线性函数(线性判别函数),可以用来建立预测规则。判别分析的SAS程序:y类;快跑。用SAS结果解释两个距离。现在,我们可以得到线和线的判别函数如下:

8、如何建立预测规则*指标的判断:正指标还是负指标(正指标)。*根据两次误判的损失估计,确定合适的临界值。现在,按照使两次误判尽可能接近的方法,得出:临界值:d=1.2,预测规则:计算每个上市公司对应的D,如果d1.2,则判断一年后不会陷入财务困境;如果是d1.2,则判断一年后将陷入财务困境。预测准确性测试:训练样本组测试样本组st公司:49/56=87.5% 47/55=85.4%非st公司: 442/504=87.7% 432/504=85.7%,讨论*判别分析仅适用于离散因变量预测,而不适用于连续预测*建立线性判别准则需要强约束正态分布和等协方差矩阵;*临界值的确定应考虑不同误判的损失函数和

9、用户的风险偏好;*使用判别分析方法,有必要预先确定预测变量。*也可以建立其他形式的预测规则。练习:交换sj1和sj2的状态,建立预测规则,并测试预测精度。或者为其他问题建立判别分析和预测模型。逻辑回归预测和统计原理在计量经济学中,回归模型具有预测功能,但目前的数据结构是:因变量是离散变量(虚拟变量),因此一般线性回归模型不适用。逻辑回归模型实际上是一个概率预测模型,其原理如下:建立一个如下形式的线性模型:然后得到一个概率预测模型,逻辑回归模型是一个非线性模型,模型的参数估计不能用最小二乘法,而是用最大似然估计法。逻辑回归程序逻辑下降数据=用户。y型=x1-X6;快跑。SAS结果、临界值确定和预

10、测规则:临界值为:0.09,预测规则为: P0.09,一年后上市公司将陷入财务困境;P0.09,一年后,上市公司不会陷入财务困境。预测准确性测试培训样本组测试样本组st公司46/56=82.1% 44/55=80%非st公司433/504=85.9% 425/504=84.3%,讨论*模型可用于分类预测和概率*在建立模型时应避免非随机抽样,否则模型参数估计会产生偏差,特别是在建立概率预测模型时;*如果需要分层抽样方法,应调整参数估计方法;*预先确定预测变量,否则可采用逐步回归方法。逐步回归法和预测变量的选择预测变量的选择是建立分类预测模型的关键步骤。通常,我们知道预测变量的大致范围,但是我们不

11、知道哪些变量具有大量的信息内容。使用逐步回归方法,我们可以选择一组更好的预测变量,在此范围内构建Logistic回归模型。现在,又选取了15个预测指标y1-y15,用逐步回归法对1119家上市公司建立了预测模型。逐步回归时,SAS程序处理逻辑递减数据=SAS user . sj00;y型=y1-y15 /选择=逐步;快跑。结果建立Logistic回归模型的变量为y3、y4、y5、y6、y10、y11、y12、y13和y14。预测规则和预测准确性预测规则:P0.09,一年后,上市公司将陷入财务困境;上市公司一年后不会陷入财务困境。ST公司预测准确率:92/111=82.9%;非科技公司:864/

12、1008=85.71%。3.Probir回归预测的数据结构为:因变量为离散变量(虚拟变量),一般线性回归模型不适用。Probit以下列形式建立回归模型:Probit回归还通过最大似然估计来估计模型参数。SAS程序procProbit数据=sasuser.sj1,用于概率回归;y类;(请注意,物流计划中没有此类项目)型号y=x1-X6;快跑。预测规则: P0.1一年后,上市公司将陷入财务困境,或不会陷入财务困境。预测准确性:培训样本组测试样本组st公司:46/56=82.1 46/55=83.6非St公司:428/504=84.9 419/504=83.1.4。与上述几种分类预测方法相比,决策树

13、方法是近年来出现的一种分类预测方法,其基本原理如下。熵和信息增量熵的概念是一个统计概念。假设Y是一个状态随机变量,它的熵定义为:在统计学中,熵是不确定性的度量。分类随机变量的熵越小,它的不确定性就越小,它的预测就越准确。从信息学的角度来看,如果一个变量能够降低分类变量的熵,那么这个变量就具有分类预测的信息价值。熵的减少越大,这个预测指标的信息值就越大。信息增量的概念以X为指标,选取一个,根据条件是否满足将样本分成两组,分别计算每组中Y的熵。指数X的信息增量定义为:其中它分别代表两组样本的比例。显然,以这种方式计算的信息增量与选择方法有关。对于每个索引,最好的一个可以通过计算机搜索找到,这样相应的信息增量可以最大化。对于每个索引,我们可以计算它的信息增量,以便我们知道哪个索引具有最大的分类预测信息内容。分类预测方法决策树方法利用信息增量的概念,创建一种用于数据挖掘中分类预测的决策树方法。其基本思想是用信息增量法对样本进行重复分割,直到不能再分割或达到先验一致。然后沿着决策树的树形结构,我们可以写出决策树方法的预测规则。决策树的预测规则由一系列预测结论组成。如何利用数据挖掘软件建立决策数预测模型*建立挖掘数据库,将SAS数据库转换为Excel数据库;更改Excel数据库的格式(格式/单元格/值),并将Excel数据库文件保存为格式化文本文件;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论