项目数据分析师在金融数据分析中易犯错误的几个方面.doc_第1页
项目数据分析师在金融数据分析中易犯错误的几个方面.doc_第2页
项目数据分析师在金融数据分析中易犯错误的几个方面.doc_第3页
项目数据分析师在金融数据分析中易犯错误的几个方面.doc_第4页
项目数据分析师在金融数据分析中易犯错误的几个方面.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CPDA项目数据分析师整理金融数据分析中易犯错误的几个方面一、回归模型的误用例1:研究金融发展与贫富差距的关系,认为金融发展先使贫富差距加大(恶化),尔后会使贫富差距降低(好转),成为倒U型。贫富差距用GINI系数表示,金融发展用(贷款余额/存款总额)表示。回归结果为:,模型参数都可以通过显著性检验。在x的有意义的变化范围内,GINI系数的值总是大于1,细致分析后模型变的毫无意义;同样的模型还有:GINI系数的值总是为负模型构建时缺乏考虑,可以采用成分数据的建模方法。例2:多元回归模型中的T检验问题(主要解释变量与控制变量)。例3:利用系数大小来解释被解释变量对被解释变量的影响大小问题。二、实证检验中的原假设的选择问题只能证伪,不能证实。在统计学的假设检验中,对原假设是倾向于保持的,因此假设检验只控制了弃真错误,而没有控制取伪错误,因此在原假设不真时,被误认为是真的概率很大。很多时候,我们会遇到这样的情况:如果原假设是A为伪,则原假设不能拒绝;如果原假设是A为真,那么原假设也不能拒绝。那么,A究竟是伪还是真?三、主成分分析的误用1、主成分分析介绍主成分分析的工作对象是高维定量变量形成的数据,即的数据,如在上市公司综合评价指标构建中、城市综合竞争力排序中、上市公司资本结构的影响因素等许多问题中,都均会遇到类似数据。例:福布斯中国最佳商业城市排行榜很显然,识辨系统在一个低维空间要比一个高维空间容易的多。如英国统计学家斯格特1961年在对157个英国城镇进行发展力水平调查时,原始的测量变量有57个。而通过主成分分析发现,只需要5个新的综合变量,就可以以95%的精度表示愿数据的变异情况,这样对问题的研究,一下子就从57维降低到5维。在统计学中,主成分分析的主要作用是:在尽量减少原始信息损失的条件,将高维问题转化为低维问题,并使转化后的低维数据具有某些良好的统计特征。2、主成分分析的基本原理统计学认为,变异的数据可以提供某种识辨信息,数据之间的变异越大,能够提供的识辨信息就越多。由于统计学通常采用方差来表示数据之间的变异大小,因此数据的方差越大,数据能够提供的识辨信息量就越大。在一个高维数据集中,各分量数据所提供的全部识辨信息量可以用各分量的方差之和来表示。很显然,采用一般的去维方法将高维数据降低为低维数据,会使原始数据集损失许多识辨信息。因此一种较好的办法是利用原始数据库建立新的数据库,新数据库能够保持原始数据库的全部识辨信息,并且新数据库所含有的识辨信息能够较多地集中在少数几个分量上,这样我们利用这几个分量就可以在尽量减少原始信息损失的条件,将高维问题转化为低维问题。如何能够做到这点?解释几何中的坐标旋转变换给我们提供了一个启发。依次寻找原始变量的线性组合(旋转坐标),使得到的新指标(原始变量构成的综合指标)具有最大的识辨信息。具体寻找这些新指标,可以转化为这样的数据问题:如果V为的方差-协方差矩阵,则V为非负定的对称矩阵,根据线性代数知识可知,其全部特征根均为非负数。假设为V的全部非零特征根,对应的特征向量为,则可以证明就是我们需要寻找的新的综合指标。注意,新的综合指标满足条件:各个能够提供的识辨信息量逐步减少,在主成分分析中,这些新的综合指标分别称为:第一主成分、第二主成分,前面几个主成分的方差和占原始指标的总方差和比率,就是保留前几个主成分时所保留的识辨信息量的百分比(在一般的主成分分析中,要求这个百分比不低于85%);各个主成分之间相互正交,即各主成分之间的线性相关系数为零。3、主成分分析的SAS实现例:对我国50家最大市值上市公司的主成分分析(假设用于综合评价)proc princomp data=a out=b;var x1-x7;run;SAS分析后,在数据库B中给出每家公司对应的每个主成分的值,在本例中,由于前5个主成分所提供的识辨信息量超过了85%,因此可以将原来的7维问题转变为现在的5维问题。4、金融研究中对主成分分析的误用利用主成分分析后得到的各个主成分,再构造新的综合变量来进行多指标综合评价。案例:利用企业财务指标提取主成分,再利用回归分析、或直接以各主成分的方差比为权重,构建综合评价指标。错误1:利用这种方法进行综合评价,违反了科学的综合评价所必须满足的一个条件当评价方法确定后,对两个对象的评价排序结果,不应该受到第三个对象是否也参与评价的影响。例如,福布斯在给出中国最佳商业城市排行榜的同时,也给出了中国数百个城市在各个指标上的取值,福布斯没有公布采取了怎样的办法来通过分析这些指标值来给城市排名,能否利用主成分分析法来给这些城市排名呢?如果去排名,会出现什么结果?我们采用这样的方法来排名,首先对原始数据进行主成分分析,提取识辨信息量超过85%的主成分构造综合评价指标(以方差比),以综合指标为依据来对各城市进行排序,得出中国最佳商业市场的排行榜。这样的做法是我国许多金融、经济研究文献中经常出现的做法。那么这种做法对吗?现在我们需要比较台州、金华与嘉兴这三个属于浙江省的地级市哪个具有更强的商业竞争力。方法1:分别取浙江省的哪些城市数据,进行主成分分析,再利用以上描述的做法进行三个城市的排序;方法2:分别取江浙沪的城市数据,进行主成分分析,再利用以上描述的做法进行三个城市的排序;方法3:取福布斯提供的全部城市数据,进行主成分分析,再利用以上描述的做法进行三个城市的排序。三种做法的结果是,每种方法都给出了不同的结果,那么哪中结果才是正确的?例:50家上市公司的例采用35家公司进行综合评价结果为上海机场排在中国石化前;采用全部50家公司进行综合评价,则中国石化排在上海机场前。那么到底那家公司应该排序在前?利用主成分作为解释变量,再进行线性回归分析问题在于,主成分的线性组合依然为原指标的一个线性组合,这个线性组合的识辨信息量还不如第一主成分,那么为什么被解释变量可以表示成不如第一主成分的这个线性组合?如果被解释变量可以表示为原始指标的线性组合,哪么最好的组合参数的估计应该采用最小二乘法(最初应该建立普通回归分析模型)。四、配对抽取样本,再利用最大似然估计方法估计模型参数。在许多问题的研究中,由于两类样本的比率严重失调,因此为了利用较少的一类样本的信息,研究者通常采用配对抽样的方式来抽取研究样本。这样产生的一个问题是,研究样本中的两类样本的比率与总体中的比率严重失调。由于这样的研究往往涉及到预测模型的构建,而许多预测模型的参数估计方法往往采用极大似然估计,而极大似然估计的基本原理是:样本是随机抽取的,因此各类样本点在研究样本中的比率与总体比率保持一致,在这个假设条件下去求使得抽到的样本出现概率最大的参数估计。如果研究样本不是随机抽取的,但利用基于随机样本的极大似然估计来估计模型参数,则估计的参数值与对模型的预测准确率检验都会出现系统性的偏差。我们可以在研究样本中逐步调整两类样本比率的方法,来实证检验这种偏差的存在性。五、在没有严格的经济学理论支撑的条件下,利用回归分析(特别是变量可以有较多选择的回归分析)方法来检验理论假设的正确性。前面已经看到,很多时候我们可以建立几个模型(如两个模型),这些模型都可以通过T检验和F检验,但同一个解释变量在两个不同模型中对被解释变量的影响方向(系数的符号)恰好相反。对假设的实证检验,不能变成从已有数据中想法挖掘出你希望的结论。六、统计分析中的悖论问题确定事件原则:统计学中的Simpson悖论treatment standard newdead 5950 9005alive 5050 1095 46% 11%A:Treatment standard new Dead 950 9000 Alive 50

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论