(数量经济学专业论文)上市公司财务报表欺诈鉴别.pdf_第1页
(数量经济学专业论文)上市公司财务报表欺诈鉴别.pdf_第2页
(数量经济学专业论文)上市公司财务报表欺诈鉴别.pdf_第3页
(数量经济学专业论文)上市公司财务报表欺诈鉴别.pdf_第4页
(数量经济学专业论文)上市公司财务报表欺诈鉴别.pdf_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 中国大陆上市公司的财务报表的欺诈行为由来己久,对投资人、债权人以及 整个罔民经济环境的危害十分严重,但同时对丁注册会计m l i 、审计师来说,对欺 诈财务报表的鉴别却一直是难题。本文首先根据公开信息选择出财务报表欺诈的 风险冈子( r e df l a g s ) ,建立起则务欺诈合理怀疑指标体系。然后利用r p 国沪市卜市 公司的则务报表历史数据训练出财务报表欺诈的预测模型,并对模型的预测效果 做出评估。由于欺怍财务报表在总体中的比例很少,所以我们采用小等概率概率 抽样,即在欺诈t 类别样本的抽样概率大于在非欺诈类别样本的抽样概率,在这种 情况卜- 传统的参数估计方法需要修难。本文列举了l o g i s t i c 回归的在不等概率抽 样条什下进行参数估计的方法,证明了神经网络模型在不等概率抽样条件下修正 输出的方法。另外,由于沦文的目的是估计财务报表欺诈的,叮能性,奉文还分析 的神经网络输出贝叶斯后验概事所需的条件。 关键字:财务报表欺诈鉴别预测模型神经网络l o g i s t i c 问归抽样设计 a b s t r a c t w h i l ef i n a n c i a lr e p o r t i n gf r a u di nc h i n ac a p i t a lm a r k e th a sb e c o m em o r ep r e v a l e n ta n d c o s t l yi nr e c e n ty e a r s ,f r a u dd e t e c t i o nh a sb e e nb a d l yl a g g i n g t h ep a p e rf i r s ts e l e c t st h er e d f l a g so ff r a u d u l e n tf i n a n c i a ls t a t e m e n t s ,a n dt h e n ,d e v e l o p st h ep r e d i c t i o nm o d eu s i n gt h ed a t a i ns h a n g h a is t o c km a r k e tt h ee f f e c to ft h ep r e d i c t i o nm o d ei se v a l u a t e da tl a s t i nt h ec a s eo f p r i o rp r o b a b i l i t yo ff r a u df i n m l c i a lr e p o r t i n gi np o p u l a t i o ni st o os m a l l ,w ew i l ln o tg e tt h e e n o u g hs a m p l e st oe s t i m a t et h ep r e d i c tm o d e i fw ea d a p tt m e q u a lp r o b a b i l i t ys a m p l ed e s i g n , t h ep a r a m e t e re s t i m a t i o nm e t h o d sn e e dt ob em o d i f i e dt h ep a p e rp r e s e n tt h em e t h o d st of i t l o g i s t i c m o d e la n dn e u r a ln e t w o r km o d e lu n d e rt m e q u a lp r o b a b i l i t ys a m p l ed e s i g n i n a d d i t i o n ,b e c a u s et h en e u r a ln e t w o r ko u t p u tc a no n l yb es e e na st h ed i s t a n c et oc l a s s i f i c a t i o n s u r l h c ew h i c hi sd i f f e r e n tf r o mw h a tw ew a n t t h ep r o b a b i l i t yo ff r a u df i n a n c i a lr e p o r t i n g t h e p a p e rp r e s e n tt h ec o n d i t i o no t t r a i n i n gt h en e u r a ln e t w o r kt oo u t p u tt h ep o s t e r i o rp r o b a b i l i t y k e y w o r d :f i n a n c i a ls t a t e m e n t s ,f r a u dd e t e c t i o n ,p r e d i c tm o d e ,n e u r a ln e t w o r k ,l o g i s t i c r e g r e s s i o n ,s a m p l ed e s i g n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得j e 直e 些厶堂或其他教育机构的学位或证书而使用过的材料。与我一同i :作的同 志对本研究所做的任何贡献均已在论文中作丁明确的说明并表示谢意。 学位论文作者签名:蹲形 签宁日期:年中月? 叶 学位论文版权使用授权书 本学位论文作者完全了解j e 直王些厶堂有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论 文被查阅和借阅。本人授权j 直至些太堂可以将学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:掰彬 导师签名: 签字日期:口 ! 螋墨l 。 i 工( x ) c ( 2j 1 ) 异j r = x :器绷鲁 n 1 l k b 叶斯判别规则可以表述为 艇g 2 撇得器 c ( 2 c ( i i 1 ) 2 ) 专 艇g 7 糊得器啦c ( 1 l m 2 ) 噜 应用此规则时仪仅需要计算: j 新样品点x o = ( x 叭,x 。) 。的密度比彳( z ) 石( 力 2 ,损失比c ( 1 2 ) c ( 2 1 ) 3 先验概率比8 4 贝叶斯判别与距离判别一样,如果两个总体的均值向量和 办方差矩阵未知,可以 用样本的估讣值来代替。这两种判别规则都是在正念总体的假设下推导出判剐规 则的。如果总体不服从正态分布,则两者在形式上依然成立,但不再是最优。在 北方工业大学硕士学位论文 概率分布形式未知的判别分析问题中费歇( f i s h e r ) 判别是最著名的一种。 贝叶斯判别是统计判别分析的重要基础,依据它漫计的分类器理论上具有最 优的性能,即所实现的分类错误率或风险在所有可能的分类器中是最小的,因此 经常被用来作为衡量其它分类器设计方法优劣的标准。 虽然,贝叶斯j - - i j 另l j 在理论上是最优的,但是它的使用要求有比较严格的前提, 就是各个类别的先验概率以及类条件概率密度均为已知。前者可以根据先验知识 分析得到,或者用训练样本巾各类的比例进行估计:而后者的估计要求各类样本 必须有大的样本容量,还要知道各类条件概率密度的形式( 如1 f 态假定) 。 具体到我们的问题,无欺诈行为的财务报表的样本可以获得很多,而欺诈行 为的财务报表的样本个数就比较少,而上土,假定用财务报表中的信息构成的指标 向量服从正态分布电是十分武断的。 将分类器没计问题转化为概率密度估计问题,这实际上沿用了人们一种习惯 的思维方式,就是当遇到一个具体问题时,看它是否能转化为一个更一股的问题, 如果这个一般问题得到了解答,那么作为其特例或推广的特殊i 、u j 题就迎刃而解 了。显然,这种解决问题方式的前提是,这个一般问题比这个特殊问题更容易解 决,但实际情况往往并非如此。 那么能否不依赖于上面的假设直接设计分类器呢? 有没有更鲁棒f r o b u s t ) 的判别分析方法呢? 我们后面介绍的神经网络、支持向量机都是这样的方法。 2 4 2l o g is t i c 回归模型 在l o g i s t i c 回归中,一个因变量y ( i 二l ,n ) 服从b e r n o u l l i 分布, p ( y :2 1 ) 2 7 1 ;,p ( y 3 0 ) = 1 7 1 ;,7 c 随着观测的不同而不同,它是向量x ,的l o g i s t i c 逆函数。向量x 包括一个常数项,k - 1 个解释变量: 1 y i b 。m 。“i ( y i “) 兀3 i : = i 手 b e r n o u l l i 分布的概率密度函数为:p ( yl 兀) = 7 【- y ,( 1 一丌) ”。未知参数 d = ( p 。,p 。) ,其中1 3 。是标量,既是k 一1 个解释变量的系数。 参数估汁是通过极大似然法估计的。假设各个观测之问是独立的,似然函数为 l ( n f 少) = 兀: i - r , ( 1 珥) 。 北方一l 业人学硕士学位论文 两边取对数得: l n ( bl y ) = l n ( 7 t ,) + l n ( 1 - 7 【,) = 一l n ( 1 + e 。2 。h 。) 极大似然估计就是求使上式取得最大值的b 的估计值曙。 2 42 f 基于选择抽样的l o g i s t i c 回归模型的参数估计 在线性同归中,如果抽样设计的抽样概率是根据凶变量决定的,那么随机抽 样的假定就遭到了破坏,对回归系数的估计就可能是有偏的。需要对每个样本按 照抽样概率进行加权。这个问题n a n t h a n 和s m i t h ( 1 9 8 9 ) 进行了洋细的讨论; 而在l o g i s t i c 回归中,同样的情况下,p r e n t i c e 和p y k e ( 1 9 7 9 ) 证明常数项是唯 一受基于选择抽样影响的回归系数。下面介绍两种在基于选择抽样下,g j - l o g i s t i c 回归模型的参数俐计的方法。 1 先验概率调整 先验概率调整的方法需要按照通常的极大似然方法估计l o g i s t i c 同归系数, 然后根据总体中因变量等于1 的观测所占的比例,以及样本中因变量等于1 的观 测所占的比例,修正估计参数。正如p r e n t i c e 和p y k e ( 1 9 7 9 ) 证明的那样,在 基于样本抽样f ,极大似然方法估计估计的6 ,仍然是无偏的,而6 。需要根据下 式修一: 瞎6 0 + i n p b p i r k 。一 r 。为总体中因变量等于1 的观测所占的比例,r 。为总体中困变量等于0 的 观测所占的比例。p i 为总体中因变量等于1 的观测所占的比例,p 0 为总体中因变 量等于0 的观测所占的比例。 r ,r 。可以根据已知的统计数据得到,如中国目前患糖尿病的人1 2 1 有5 千 万,j i g z , r :i 0 5 。如果没有已知的统计数据,i i r 以对总体进 j 二随机抽样,估计 总体比例指标p 。 先验概率调整的方法优点是容易使用,缺点是在模型误差( m o d 。 m i s s p e c i f i c a t i o n ) 的情况下,鲁棒性不如下一节要介绍的加权调整的方法。 2 ,加权调整 另外一种对总体中事件发生观测的比例同样本巾事件发生观测的比例不一一致的 北方- i 业大学硕二 学位论文 方法就是对样本中的每个观测根据抽中概率进行加权。具体的方法就是m a n s k i 和l e r m a n1 9 7 7 年的工作成果一加权的基于外生变量抽样的极大似然估计 ( w e i g h t e de x o g e n o u ss a m p l i n gm a x i m u m l i k e l i h o o de s t i m a t o r ) 。我们不再对对数 似然函数求最大值,而是对加权对数似然函数求最大值: l n ( b f y ) = w 1 i n ( 7 c ,) + w 。z l n ( 1 - 兀。) = 一w i n ( 1 + e 。2 邓) ,:= ij 7 = 0忙1 w ,:鱼y + 墅( 1 y ) 日盹 加权渊整的方法在大样本和模型误差( m o d e m i s s p e c i f i c a t i o n ) 的情况下,估 汁的效果都要优于先验概率调整的方法( x i ea n dm a n s k i1 9 8 8 ) 。而一致性方面, 收敛速度不如先验概率调整的方法( s c o na n dw i l d 】9 8 8 ) ,不过差距并不明显。既 然存社会科学中,模型误差是一个普遍的汕题,加权调整的方法可能更常用一些。 北方工业大学硕一l 学位论文 24 3 神经网络模型 神经网络模型是由大量的简单处理单元相互联结组成的复杂网络系统。它的 许多功能和特性是对人脑神经网络系统的模拟,是一种自然的非线性建模过程, 也被称为人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ) 。作为非参数的预测模型,它 克服了选择模型函数形式的困难,同时埘样本及变量的分布特征没有限制。其主 要分析模型如下: 神经网络模型 它的神经元般包括三种处理单元,也称为节t i ( n o d e ) :输入神经元,隐 层神经元和输出神经元。输入神经元接受外界环境信息的输入;输出神经元则将 经过神经网络处理后的信息送剑外界;而隐层神经元则处于前两种神经元之间, 不直接与外界环境发生联系,它接受输入神经元的信息,经过多层次的网络内部 运算,把数据结果转移给输出神经元。隐层神经元司以有多个层次( l a y e r ) 。 总体来说,神经旧络具有一些其他方法无法比拟的优点,体现在: 1 根据所提供的数据进行学习和训练,找出输入与输出之间的内在联系,通过 改变每个节点上的加权系数来求取问题的解,从而具有自适应的功能; 2 能够处理那些有噪声或不完全的数掘,具有泛化功能和很强的容错能力; 3 神经网络对于非独立因素组成的总体依然适用,并能够处理其中复杂的非线 性关系。 目前,主要采用的神经网络模型有反向传播( b a c k - - p r o p a g a t j o n ) 算法、 串级相关( c a s c a d ec o r r e l a t i o n ) 算法和遗传算法( ( ;e n e t i ca 【g o r i t h m ) 等。 神经网络模趔作为非参数的分类器,它克服了选择模型函数形式的困难,同 时对样本及变量的分布特征没有限制;但是在一般的应用中,神经网络分类器的 输出相当样本点距离分类曲面的距离,这距离我们的要求一输出后验概率还有一 雾一 北方- i :业大学硕士学位论文 段距离。实际上,是在一定的条件下,神经网络分类器的输出逼近于观测属于各 个类别的后验概率。需要注意的是,这里的后验概率是所有样本的捕样概率相等 的条件下得到的,在基于选择抽样下,清白公司和问题公司的抽样概率并4 i 十月等, 这时,神经网络分类器的输出就需要调整。 2 43 1 前馈神经网络估计贝叶斯后验概率 按照最小化均方误差( m e a ns q u a r ec r r o r l 和交叉熵( c r o s se n t r o p y ) 的标准训练 出的神经刚络输出在一定条件下可以看作是小叶斯后验概率的估计。即: 其中,g ( e w ) 是网络对第k 类的输出,p 油= k i 工) 足给定观测x ,x 属于 第k 类的后验概率。 当种训练神经网络输出为贝1 1 | _ 斯后验概率估计的损失函数( c o s lf u n c t i o n ) 都 被称为严格意义贝叶斯( s t r i c ts e n s eb a y e s i a n ,s s b ) 损失函数。严格意义贝叶斯损 失函数需要满足的条件可以在本文的参考文献中找到。可以证明,最小化均方误 差( m e a ns q u a r ee r r o r ) 和交叉熵( c r o s se n t r o p y ) 都是严格意义贝叶斯损失函数。当使 用,一格意义贝叶斯损失函数损失函数估计贝叶斯后验概率时,不需要任何关于数 据分布的前提假设。就是浼后验概率的估计跟各类的条件密度函数无关。 但是使用严格意义贝n l - 斯损失函数损失函数估计贝叶斯后验概率最大的问 题是训练样本的数量需要很火。现实情况往往是我们的训练样本数量不多。结果 导致网络输出无法估计后验概率,比如针对各类的输出相加不等于1 。 解决这一问题的一个方法是将隐层输出的激励函数设置为s o f l m a x 激励函 数。神经网络的输出由下式给出: 营。k 乙2 1 一 yc r i e r , , , 篇 其中槲 是网络对第k 类的隐层输出,共c 类,z k 是网络对第k 类的输出。 分类按照赢者通吃原贝1 ( w i n n e r - t a k e a 1 1 ) ,把观测分到毛最大的类。 24 32 在基于选择抽样下对前馈神经网络估计输出的调整 为方便论述,我们仅仪考虑两分类情况,我们的结沦很容易推广剑多类情况。 如果对两类子总体的抽样概率不同,那么样本就无法提供有关两类子总体先验概 率的信息,那么前馈神经网络的输出结果就需要根据先验概率进行调整。数学描 北方j 二业大学硕七学位论文 述如下: 我们引入一个随机变量s ,s = l 表示个体被抽样,s = 0 表示个体没被抽样。 p ( g o = 1x ,s = 1 ) 塑竺三! ! ! ! 三! 竖竺三堕、 p ( o = ox ) p ( s = lx ,o = o ) + p ( g o = l x ) p ( s = 1x ,g o = 1 ) 、 假设在两类子总体中的抽样与x 无关,拙样概率记为九,九。;那么 九:= p ( s = 1x ,g o = 1 ) = p ( s 2 10 ) 5 1 ) ( 3 2 ) 九。= p ( s = 1x ,( | ) 2 0 ) 2 p ( s 2 1l ( 0 2 0 ) ( 3 3 ) 把( 3 2 ) 和( 3 3 ) 代入( 3 1 ) 得: p ( y 2 l x ,s 2 1 ) = i i 五苫丽_ p i ( j g o i - :;i iii x ) 五1 三, 丽( 3 4 ) p ( = o lx ) 九。+ p ( 0 ) = 1x ) 九1 上而的公式清楚的表明如何根据未考虑先验概率的p ( g o = lx ) 得到考虑先验概率 的p ( o = ix ,s = 1 ) ,我们注意到如果丽类子总体的抽样概率相等,即_ = k , 月口么p ( ( o = lx ,s = 1 ) = p ( g o = lx ) 。 2 44 统计学习理论和s v m 与传统统计学相比,统计学习理论( s t a t i s t i c a ll e a r n i n g t h e o r y 或s l t ) 是一 种专门研究小样本情况下机器学习规律的理沦。该理论针对小样本统计问题建立 了一套新的理论体系,在这种体系下的统计推理规则不仅考虑了对渐近性能的要 求,而且追求在现有有限信息的条件下得到最优结果。vv a p n i k 等人从六、七 十年代开始致力于此方面研究,到九_ | 年代中期,随着其理论的不断发展和成 熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受 到越来越广泛的重视。 统计学习理论的一个核心概念就是v c 维( v cd i m e n s i o n ) 概念,它是描述函 数集或学习机器的复杂性或者说是学习能力( c a p a c i t yo ft h em a c h i n e ) 的一个重要 指标,在此概念基础上发展出了一系列关于统计学习的一致性( c o n s i s t e n c y ) 、收 敛速度、推广性能( g e n e r a l i z a t i o n p e r f o r m a n c e ) 等的重要结论。 统计学习理论是建立在一套较峰实的理论基础之上的,为解决有限样本学习问题 提供了一个统一的框架。它能将很多现有方法纳入其中有望帮助解决许多原来 难以解决的问题( 比如神经网络结构选择问题、局部极小点问题等) ;同时,这 一理论基础上发展了一种新的通用学习方法支持向量机( s u p p o r tv e c t o r 北方工业大学硕士学位论文 m a c h i n e 或s v m ) ,已初步表现出很多优于已有方法的性能。一些学者认为,s l t 和s v m 正在成为继神经网络研究之后新的研究热点。 支持向量机方法足建立在统计学习理论的v c 维理论和结构风险最小原理基础 上的,根据有限的样本信息在模型的复杂性( 即对特定训练样本的学习精度, a c c u r a e y ) 和学习h u j ( p , 0 无错误地识别任意样本的能力1 之间寻求最佳折衷,以期 获得最好的推广能力( g e n e r a l i z a t i n a b i l i t y ) 。支持向量机方法的几个主要优点有: 它是专门针对有限样本情况的,其目标是得到现有信息下的最优解而不仅仅是样 本数趋于无穷大时的最优值: 算法最终将转化成为一个二次型寻优问题,从理论上说,得到的将是全局最 优点,解决r 在神经网络方法中无法避免的局部极值问题; 算法将实际问题通过非线性变换转换到高维的特征空问( f e a t u r es p a c e ) ,在高 维空问中构造线性判别函数来实现原空问中的非线性判别函数,特殊性质能保证 机器有较好的推广能力,同时它巧妙地解决了维数问题,其算法复杂度与样本维 数无关; 在s v m 方法中,只要定义不同的内积函数,就可以实现多项式逼近、贝叶 斯分类器、径向基函数( r a d i a lb a s i cf u n c t i o n 或r b f ) 方法、多层感知器刚络等许 多现有学习算法。 统计学习理论从七十年代末诞生,到九十年代之前都处在初级研究和理论准 备阶段,近几年刁逐渐得到重视,其本身也趋向完善,并产生了支持向量机这一 将这种理论付诸实现的有效的机器学习方法。目前,s v m 算法在模式识别、回 归估计、概率密度函数估计等方面都有应用。例如,在模式识别方面,对于手写 数字识别、语音识别、人脸图像识别、文章分类等问题,s v m 算法在精度上已 经超过传统的学习算法或与之不相e 下。 2 45 模型的选择 考虑到贝叶斯判别需要估计两类总体的密度,而我们的样本容量太小,不足 以估计密度,所以贝叶斯判别不会被选择。同时由于支持向量机在比较流行的数 据挖掘工具还没有被支持,所以也不会被选择。神经网络和l o g i s t i c 回归都不要 求大的样本容量,在流行的数据挖掘工具c 也都被支持的很好,所以这两个模型 都会被选择。但是必须注意的是这两个模型卡阿比有着不同的优缺点: 北方:l 业大学硕士学位论文 l o g i s t i c 回归的优点是训练得到的模型坩我们来说是可以解释的,具体的说 就是回归方程的每一个变量、系数都有其经济含义,模型可以与我们的先验知识 相互印证。缺点是l o g i s t i c 回归还是对总体分布需要一些假定。 神经网络的优点是对总体分布没有什么假定,缺点是对模型的使用者来说模 型本身是不透明的,除了输出存定假定下可以看成足样本属于陔类别的概率 外,隐层个数、权重、激活函数都没有任何经济含义。 如果我们的目标仅仅是为了得到结果,那么这两个模型都可以使用,神经网 络在理论上可能更有优势。但我们的目标除了得到结果外,还要对造成结果的原 因作出解释。e 如我们的课题,我们的目标不仅要得到上市公司存在财务欺诈可 能性,还要建立上市公司财务欺诈合理怀疑指标体系,所以l o g i s t i c 回归更适合我 们的主题。 北方工业大学硕士学位论文 3 实证过程 我们所有的建模过程都在s a s 的基本模块和e n t e r p r i s em i n e r 内完成。 3 1 数据处理 在数据处理阶段我们要解决这样几个问题:用什么数据末代表是否自- 无欺 昨? 分析用的数据从哪里来? 用哪些数据来做分析? 这些数掘是否卜确? 数据 分布有什么特点,如何调整? 对以上问题的回答构成了数据处理阶段的主要工作: 1 定义目标变量( 根据业务分析如何定义用什么数据来代表是否有无欺诈) 2 数掘抽样( 用哪些数据来做分析) 3 数据探索( 这些数据是否正确) 4 数据调整( 数据分布有什么特点,如何调整) 5 数据划分( 把数据划分为那些部分) 6指标筛选( 运用那些指标建模) 3 1 1 定义目标变量 所谓目标变量就是代表预测结果的变量,根据本项目业务问题定义,目标变 量是一个o ,l 变量,即用l 代表有欺诈,0 代表没有欺诈。从字面上定义一个 变量并不困难,困难在于如何确定这个变量的取值,这也是挖掘项目成败的一个 关键环节。经过与财务专家多次讨论,最终我们确定,如果企业有受到监管机构 行政处罚、银行内部黑名单上榜、工商管理处铡或警告( 对于上市公司,则有证 监会通报批评、交易所通报批评等) 等记录,则该企业的目标变量为1 ,否则作 为0 来处理,有效地解决了目标变量问题。 3 1 2 抽样 在十年的年报数据( 1 9 9 4 2 0 0 4 ) 内我们共找到4 6 张被披露作假的报表,同 时在侮张报表所在年份的所有上市公一j 报表中随机抽取两张清白公司的报表进 行配对。样本结构如下表 l 欺咋公司样本个数 清白公司样本个数样本容量 4 69 21 3 8 北方工业大学硕十学位论文 我们前面曾经讲过,按照这种配对抽样的方法改变了两类观测在总体中的先验概 率,据此数掘建立的模型的输出需要调整。 31 3 数据探索 数据探索主要的目的有两个,是,通过描述性统计分析发现是否存在不合 理的数掘;二是,通过观测目标变量存分位数卜的分布,发现白变量与目标变量 的关系。对于第一种情况,我们丰要奄看每个指标的最小值,最大值,均值,标 准方羞,偏度,峰度,分位数,缺失值,零值,异常值和分柿,然后结合指标的 业务意义判断指标值是否合理。 314 数据调整 在数据探索阶段我们对数掘进行了详细的分析,了解了数据的分布特征、合 理性以及指标和目标变量的关系。在数据调整阶段就要住前面工作的基石 | 上针对 不同数据的不同特征进行相应的调整,目的是使每一个变量在进入模型前在取值 上是合理的,在分布一卜能够与目标变量分却相匹配。根据数据存在问题而财务策 略的不同,数据调整可以分为: 3 1 41 替换缺失值 在建模数掘集中,有一部分变量缺失值较多,财模型影响很大( 逻辑旧归模 型和神经网络模型对于有缺失值的观测一律去掉) 。我们考虑用( 1 ) 不删除含缺 失值的变量,( 2 ) 删除缺失值大于2 0 的变量,( 3 ) 删除缺失值大于l o 的变 量三种方法进行尝试,效高最好的是删除缺失值大于l o 的变量。因此,我们考 虑用缺失值比率不多余1 0 的数据建模。对于剩下的变量,如果该变量很显著, 则设置哑变量( 如果该值为缺失值,则设为1 ,否则没为0 ) ,对于那些不显著的 变量,在建模中不予考虑。这样做是为了减少缺失值刺模型的影响,这可能会去 掉一部分相对比较重要的变量,但由于财务指标之间存在省关联, 个变量不入 选可用其他相关的变量替代。 经过缺失值删除后,剩下个变量。对于缺失值,一股的处理方法是用最合理的数 据去取代,常见的方法是对于连续变量用均值、类均值和回归预测方法替代,对 于离散变量用众数替代。但无论用仆么方法替代,都可能会改变原始数据的分布。 预警一期项目中,用几种方法都进行了尝试,不进行替换的效果较好。这是由于 删掉缺失值比率高的变量后,再经过变量选择,最后剩下的覃= 要变量缺失值很少, 北方:l = 业大学硕二1j 学位论文 对模型影响不是很大。 3 142 极值控制 在原始财务指标中,可能存在些错误数据( 手工录入错误或其它因素导致 的错误) ,如上一节中我们提到主营业务收入为负。数据挖掘过程中,需要剔除 这些错误数据。 原始财务指标表中有些极值偏离9 9 分位数和标准偏差特别远,这些值对逻 辑网归和神经网络模型影响很大,如果不对这些值处理会严重影响模型评分精 度。常见的方法是用均值加减3 倍标准差或4 倍标准差去替换极值,我们用不替 换极值,均值加3 倍标准差替换极值,均值加4 倍标准差替换极值三种方法进行 尝试,发现用均值加三倍标准差替换极值的效果较好。 31 4 3 标准化 标准化是指通过一定的数学变换来消除原始变量量纲的影响。我们这里采用 对指标进行正态标准化( o ,1 ) 来消除量纲的影响。 标准化的行业原因是因为同一项财务数据在不同行业问可能存在比较大的 差异,如零售业的存货周转率可自远高于制造、i k 的存货周转率,经过行业标准化 以后丽个行业的存货周转率都转化为以0 为均值,在l ,i 之f h j n 除量纲的影 响的值。通俗讲没有行业标准化两个存货周转率是绝对值,在不同行业可能不具 备可比性,经过行业标准化是两个存货周转率在行业内偏离均值程度的相对值, 且标准化以后集中分布在一1 和l 之间。 标准化的数学原因是使进入模型的变量尽町能的符合模型所需的假定。尽管 l o g i s t i c 回归和神经网络都没有要求样本服从正态分布,但是很多论文都指出, 如果样本服从f 态分布的话,这两个模型的预测精度的都会提高。 通过观察各变量的分布,以及计算峰度系数、偏度系数,发现x 1 ,x 1 5 ,x 1 6 都需要 作正态转换,分别转化i o g ( x 1 ) , l o g ( x 1 5 ) ,l o g x ( 1 6 ) 。 3 1 5 数据集的划分 本文把样本分为洲练样本和校验样本,训练样本主要使用于建模过程中求解 模型参数,而校验样本主要用于模型检验,防止训练得到模型对训练样本的过度 拟合。因此模型检验阶段的主要工作是把验样本代入已经建立的模艰中,观察模 北方工业人学硕士学位论文 型的响应,通过比较模型的响应和真实的样本,从而评估模型的准确程度。数据 集结构如下 反应变量训练样本使验样本 t o t a l 问题公司 3 11 54 6 正常公司 6 2 3 0 9 2 t o t a l9 34 51 3 8 3 1 6 指标的筛选 对我们根据先验知识得到的2 0 个指标分别计算在u 欺诈样本和清白样本中 的均值,然后进行两总体均值相等t 检验,按照显著性降序排列的输出如1 - 指标名称 变量名称t 值p 值 资产周转率= 主营业务收入净额平均资产总值 x 1 43 2 9o 0 0 1 4 主营业务收入平均应收账款 x 1 52 7 40 0 0 7 5 主营业务收入净额应收账款年末余额 x l2 6 90 0 0 8 6 主营业务成本平均应收账款 x 1 6 2 6 50 0 0 9 7 ( 货币资金+ 短期投资净额) 流动负债 x 1 3 2 5 8 o o l l 3 年末存货余额流动资产总额 x 42 5 20 0 1 3 3 存货资产总额 x 1 7 1 80 0 7 5 2 年末应收款项余额流动资产总额 x 81 5 9o 1 1 5 7 所得税利润总额 x 91 3 70 1 7 8 8 负债总额资产总额 x 】2一1 2 80 2 0 q 5 主营业务成本存货年末余额 x 51 1 20 2 6 5 3 主营业收入销售税会及附) j h 主营! l k 收入净额 x 21 10 2 7 8 2 经营活动产生现金净流量主营业务利润 x 70 8 8( ) 3 8 1 5 ( 管理费用一销售费用) 主营业务收入净额 x 1 0o 6 3o 5 3 1 3 北方一l 业人学硕十学位论文 主营业务利润净利润 x 6o ,4 90 ,6 2 8 5 ( 资产。总额一流动资产总额一固定资产净值) 资 x 3 0 4 20 6 7 5 5 产总额 ( 丰营业务收入净额一主营业务成本) 5 营、f p 务 x l l o 1 20 9 0 3 4 收入净额 本文将选择显著性排在前面的几个指标,分别是:资产周转率:主营业务收 入净额平均资产总值,主营业务收入平均心收账款,主营、k 务收入净额应收 账款年术余额,主营、世务成本平均应收账款,( 货币资金+ 短期投资净额) 流动 负债,年末存货余额流动资产总额,存货资广:总额。 3 2 模型训练结果 3 2 1 l o g is t i c 回归 l o g is t i c 回归的极大似然参数估计如下表: a n a l y s i so i m a x j m u ml i k e i i h o o d s t i m a t e s p a r a m e t e rd fe s t i m a t est a n d a r dw a 】dp r )s t a n d a r diz e d e x p ( e sl ) 匕r r o r c h is q u a r ec h i s q u a r ee sl i m a t e 1 n l e r c e d tl2 4 4 8 01 0 9 1 45 0 30 0 2 4 91 1 5 6 6 l o g ( x 1 5 ) 10 0 5 4 3 1 0 4 9 2 o o o0 9 5 8 7 - 0 0 3 8 0 4 4 0 9 4 7 l o g ( x 1 6 ) 10 3 6 3 31 0 4 9 】o 1 20 7 2 9 20 2 7 5 0 5 80 6 9 5 l o g ( x 1 ) 0 o x 4l1 5 7 7 5 76 9 7 7 25 1 l0 0 2 3 81 2 2 1 4 1 50 0 0 0 x i 3l一2 0 9 0 31 0 2 0 74 ,1 90 0 4 0 60 9 0 6 7 5 00 1 2 4 x l41o 1 8 1 71 0 6 1 6o 0 30 8 6 4 10 0 4 2 2 5 90 8 3 4 x 1 711 3 9 8 8 49 2 5 5 22 2 80 ,1 3 0 70 7 1 8 3 2 39 9 9 0 0 0 根据上表,得到的回归方程可以写为 ! ! 查兰些盔堂堡主望笪堡苎 1 p 2 i 了 x = 2 a 4 8 0 - 0 0 5 4 3 * l o g ( x 1 5 ) - - 0 3 6 3 3 + l o g ( x 1 6 ) - 一1 5 7 7 5 7 + x 4 - 2 0 9 0 3 + x 1 4 + 1 3 9 8 8 4 + x 1 7 其中p 就是我们想要知道的一张财务欺诈的概率。x 1 5 为主营业务收入平均应 收账款,x 1 6 为主营业务成本平均应收账款,x 4 年末存货余额流动资产总额 x l7 存货资产总额。 32 2 神经网络 神经网络的模型参数比较复杂,忽略之。 3 3 模型的评估 lo g i s t i c 回归利神经网络拟合度的比较如下表 其中r o o t a s e = = :s s e n ,s s e 为回归残差平方和。s c h w a r z b a y ( s i a n c r i t e r i o n 为 萧氏指标,越是优秀的模型,其值越小。错分率( m i s c l a s s m c a t o nr a t e 、j 代表被错 误分类的样本个数占所有样本的比率。可以看出l o g i s t i c 回归模型的的拟合性优 于神经网络,但是推广能力1 二如神经网络。 评价一个分类模型的优劣的方法,除了错分率指标外,两个比较直观的工具是增 益图( c u i l l u l a t t i v eg a i n sc h a n ) 和提升图( l i rc h a r t s ) 。本文模型校验数据的提升图 如下: 北方3 2 , i k 大学硕+ 学位论文 模型提升比较图 该图是模型提升比较图,它代表每十分位数e 建模与不建模提高抓获能力的 倍数。如横坐标为1 0 的时候,用l o g i s t i c 回归建模后抓获能力提高到22 倍,神 经网络建模后抓获能力提高到2 3 倍。从图中可看出,和神经网络明显优丁二逻辑 回归。 北方工业大学硕_ 学位论文 4 结论 本文首先根据已有文献,以公开信息为基础,分析出上市公司财务欺诈合理 怀疑指标体系;然后对适合本文的建模方法做出分析和修正,然后利用沪市匕市 公司的历史数据训练出两个预测模型一l o g i s t i c 回归的财务欺诈预测模型和神经 网络的预测模型。这两个模型的都可以看成是对贝叶斯后验概率的种逼近。这 个后验概率具体到本文的问题,其实就足一张财务报表欺诈的概率,据此审计人 员或公众方便的对财务报表的真实性做出决策。 本文的创新点有以下两点: 1 基于选择抽样下如何调整l o g i s t i c 回归和神经网络的输出。 2 神经网络输出逼近贝叶斯后验概率的条件。 未完成的 :作:复杂抽样不仅对回归和神经网络的输出有影响,对其他任何一种 预测模型都是有影响的,应该存在一种统一的方浊,根据抽样设计,调整预测模 型的输出。 北方- l l k 大学硕士学位论文 5 参考文献 【1 mme i n i n g ,a n dj j w i l l i n g h a m 1 9 8 9a u d i t o r s le x p e r i e n c ew i t hm a t e r i a li r r e g u l a r i t i e s : f r e q u e n c y ,n a t u r e ,a n dd e t e c t a b i l i t y a u d i t i n g :aj o u r n a lo fp r a c t i c e t h e o r y9 ( f a l l ) :l 一2 8 1 2 l9 9 7 c o n s i d e r a t i o no f f r a u dj naf i n a n c i a 】s t a t e m e n ta u d i t s t a t e m e n to na u d i t i n g s t a n d a r d sn o8 2 n e wy o r kn y :a i c p a 3 】a c h e n ,c h r i s t o p h e ra 19 9 9 “r e t r o s p e c t i v es a m p l i n gi ni n t e r n a t i o n a lr e l a t i o n s ,”p r e s e n t e d a lt h ea n n u a lm e e t i n g s 【4 ja g r e s t i ,a 】9 9 2 “as u r v e yo fe x a c ti n f e r e n c ef o rc o n t i n g e n c yt a b l e s ( w i t hd i s c u s s i o n ) ” s t a t i s t i c a ls c i e n c e f 5 1a i c p a f a s b ) ,c o n s i d e r a t i o no ff r a u di naf i n a n c i a 】s t a t e m e n t ( p r o p o s e ds t a t e m e n t o na u d i t i n g 、,2 0 0 2 2 2 8 【6 1a m e m i y a ,t a k e s h i ,a n dq u a n gh v u o n g 1 9 8 7 “a c o m p a r i s o no f t w oc o n s i s t e n te s t i m a t o r s i nt h ec h o i c e ,b a s e d 7 la m e r i c a ni n s l i t u t eo f c e r t i f i e dp u b l i ca c c o o n t a n t s ( a i c p a ) 1 9 8 8t h ea u d i l o r s r e s d o n s i b i i i t vt od e t e c ta n dr e p o r te r r o r sa n di r r e g u l a r i t i e ss t a t e m e n to na u d i t i n gs t a n d a r d s n o 5 3n e wy o r k n y :a i c p a 【8 1a m e r i c a np o l i t i c s c a m b r i d g e ,m a :h a r v a r du n i v e r s i t yp r e s s 1 9 ja n a l y s i s ”i ns t r u c t u r a la n a l y s i so f d i s c r e t ed a t aw i t he c o n o m e t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论