基于贝叶斯网络分类器的财务信息失真识别研究.doc_第1页
基于贝叶斯网络分类器的财务信息失真识别研究.doc_第2页
基于贝叶斯网络分类器的财务信息失真识别研究.doc_第3页
基于贝叶斯网络分类器的财务信息失真识别研究.doc_第4页
基于贝叶斯网络分类器的财务信息失真识别研究.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于贝叶斯网络分类器的财务信息失真识别研究 上海立信会计学院数学与信息学院姚衡高瑞 上海立信会计学院立信会计研究院王双成 【摘要】企业财务信息失真识别越来越多地受到关注。本文使用条件高斯函数代替边缘高斯函数的乘积进行叠加,给出新的多元高斯核函数,在此基础上,建立扩展的连续属性朴素贝叶斯分类器,并将该分类器用于企业财务信息失真识别,实验结果显示,这种分类器具有良好的分类性能。 【关键词】财务信息失真识别朴素贝叶斯分类器高斯函数贝叶斯网络依赖扩展 一、引言 如何有效识别上市公司会计信息真伪一直受到广泛关注,已成为会计和其它学科交叉研究的热点。 但会计指标具有复杂性、非线性、不确定性和高噪声性等特征,使得对会计信息失真进行可靠识别非常困难。对这样复杂的问题需要进行跨学科和多种技术的综合研究,提高会计信息失真识别的可靠性。 分类器技术是融合了多学科理论与方法而形成的模拟人类概念学习的实用技术,是会计信息失真识别的有力工具,会计信息失真识别的科学化和智能化被认为是其发展的必然趋势。 贝叶斯分类器(Bayesianclassifier,BC)是一个基础概率分类器,由满条件概率的不同计算方法可产生一系列贝叶斯衍生分类器(Bayesianderivativeclassifier,BDC),朴素贝叶斯分类器(naiveBayesianclassifier,NBC)是最简单的BDC,以高效率和良好的分类准确性而著称,但这种分类器不能有效地利用属性之间的依赖信息,而这种信息也是分类的重要信息,因此,对NBC进行依赖扩展便成为BDC研究的一条主线。其中主要是针对离散属性BDC的研究。本文研究不离散化连续属性的NBC和依赖扩展(需要估计属性密度),其研究结果可推广到混合属性的情况。在属性密度估计方面,John和Langley使用高斯函数和高斯核函数估计属性边缘密度建立了GNBC(GaussiannaiveBayesianclassifier)和FBC(flexibleBayesianclassifier)两种分类器,虽然分类效果并不理想,但奠定了基于密度估计研究连续属性贝叶斯衍生分类器的基础。Prez和Larranga等通过为高斯核函数引入平滑参数,以及基于高斯函数和高斯核函数的连续属性互信息计算对NBC进行依赖扩展,使分类器的分类准确率得到改进,但当属性较多时,协方差矩阵的计算非常困难。夏战国等将高斯过程用于具有不均衡类的半监督分类器学习,取得了较好的分类效果。Liu等对复杂和简单的高斯过程分类器进行理论分析和实验比较,认为复杂的高斯过程分类器往往能够取得更好的分类效果。 使用高斯核函数能够估计复杂的属性密度,使分类器充分拟合数据,而且通过平滑参数调整又能够避免与数据集的过度拟合。但目前多元高斯核函数采用边缘高斯函数的乘积进行叠加,实质上也蕴含着条件独立性假设,因此会丢失属性之间的依赖信息,从而降低分类器的可靠性。为提高分类器的学习与分类效率。本文使用条件高斯函数代替二元高斯核函数中边缘高斯函数的乘积进行叠加,建立新的二元高斯核函数,对NBC进行一阶依赖扩展(将扩展后的分类器简记为OKNB),最后使用UCI数据和企业财务数据进行实验与分析。 二、KBDC概述 (一)分类器结构 NBC具有星形结构(用S表示),KBDC一般不再具有星形结构(用T表示),而是约束树或约束森林,两种分类器的结构如图(1)所示。 (三)KBDC结构学习与优化 KBDC结构学习就是在NBC的基础上,发现每一个属性新父结点的过程。首先根据Quinlan的信息增益率为属性排序;然后以分类准确性为标准,按照属性的顺序依次进行贪婪搜索来发现属性的新父结点,建立KBDC结构。 三、KBDC可靠性分析与应用 (一)KBDC的可靠性分析 在UCI中选择30个连续属性的分类数据集用于实验和分析,删除具有丢失数据的记录,数据集中记录的位置也进行随机初始化。选取十二个分类器,其中前四个是离散属性分类器(对连续属性采用Fayyad和Irani(1993)方法进行离散化),后八个是连续属性分类器,将其与KBDC进行分类准确性比较实验。用于比较的分类器的具体情况依次是: 离散属性NBC(DNB);基于Quinlan(1986)的信息增益率为属性排序,按照属性顺序对NBC进行链依赖扩展而得到的分类器(DB);Friedman等(1997)给出的TAN分类器(DTAN);采用属性排序和贪婪打分-搜索方法所建立的约束贝叶斯网络分类器(DCBN),其中属性排序采用Quinlan(1986)的信息增益率,打分函数使用MDL(minimaldescriptionlength)标准;基于高斯函数估计属性条件边缘密度而建立的NBC(GNB);使用Prez等(xx)方法建立的NBC(GKNB);使用Prez等(xx)方法建立的连续属性树结构分类器(CTAN);基于高斯函数估计属性联合密度,并结合分类准确性标准与前向贪婪属性选择而建立的完全贝叶斯分类器(GFB);使用高斯核函数估计属性联合密度,并结合分类准确性标准与贪婪搜索进行单平滑参数优化而建立的完全贝叶斯分类器(GKFB);最近邻域分类器(NNC);Quinlan(1986)的决策树分类器(C4.5);支持向量机分类器(SVM,libsvm,.csie.ntu.tw/);基于二元高斯核函数估计属性密度的一阶贝叶斯衍生分类器(KBDC)。 采用10折交叉有效性验证方法进行分类器的分类错误率估计,并使用WilcoxonSigned-RanksTest和FriedmanTestwithpost-hocBonferronitest(Demsarxx)进行两个分类器分类错误率之间差异的置信打分,其中表示KBDC和用于比较的分类器相对于给定的检验方法差别显著。十二个分类器与KBDC的分类错误率实验结果如表(2)所示。 综合分类器之间的分类错误率差异的显著性检验、分类准确性平均值比较和分类准确性差异百分比计算三方面的结果,显示了KBDC相对于其它十二个分类器在分类准确性方面具有明显的优势。 (二)基于KBDC的企业财务信息失真识别 根据专家信息确定与企业财务信息失真指标(KBDC属性),从Wind数据库获取xx年企业财务信息失真相关数据,通过学习建立KBDC,并检验使用KBDC进行企业财务信息失真识别的可靠性。 企业财务信息失真识别相关指标。用于企业财务信息失真识别的指标包括:企业财务信息失真情况(C)、总资产周转率(X1)、应收账款周转率(X2)、销售净利率(X3)、总资产净利率(X4)、流动比率(X5)、产权比率(X6)、担保总额占净资产比例(X7)、关联交易占总资产比例(X8)、关联交易占营业总收入比例(X9)、2年内公司层面存在内控缺陷(X10)、2年内存在合同管理内控缺陷(X11)、2年内存在投资活动内控缺陷(X12)、2年内存在筹资活动内控缺陷(X13)、2年内存在对外担保内控缺陷(X14)、2年内存在关联交易内控缺陷(X15)、2年内财务报告编制存在缺陷(X16)、2年内信息披露存在缺陷(X17)、2年内存在的其他缺陷(X18)。 用于企业财务信息失真识别的KBDC结构。根据企业财务信息失真识别的相关指标,KBDC的结构如图(2)所示。 器的可靠性比较。从Wind数据库获取xx年企业财务信息失真相关数据,使用上面13个分类器,进行企业财务信息失真识别。采用10折交叉有效性(10-foldcross-validation)验证方法进行分类器的分类准确性估计,如图(3)所示。 可以看出,使用企业财务数据,相对于其它12个分类器KBDC同样具有优势,这表明将KBDC用于企业财务信息失真识别将会得到更可靠的结果。 四、结语 针对连续属性NBC和多元高斯核函数存在的问题,本文使用条件高斯函数代替边缘高斯函数的乘积进行叠加,给出新的多元高斯核函数,结合这种多元高斯核函数和一阶依赖扩展方法建立OKNB。 使用UCI和企业财务信息失真识别数据的实验结果显示,OKNB具有良好的分类准确性和可扩展性。 参考文献 1梁杰,位金亮,扎彦春.基于神经网络的会计舞弊混合识别模型研究.统计与决策,xx(2):152-154. 2张玲,杜庆宣.上市公司会计信息失真识别研究:CART与MDA模型应用比较.南京师大学报(社会科学版),xx(4):53-58. 3于彪,陈思凤.会计信息失真识别的成本控制型支持向量机模型.商场现代化,xx(6):131-133. 4刘澄,胡巧红,孙莹.基于分类回归树的会计信息失真识别研究.中国管理信息化,xx,16(6):1-3. 5王双成,杜瑞杰,刘颖.连续属性完全贝叶斯分类器的学习与优化.计算机学报,xx,35(10):2129-2138. 6JohnGH,LangleyP.EstimatingContinuousDistributionsinBayesianClassifiers.InProceedingsoftheEleventhConferenceonUncertaintyinArtificialIntelligence(UAI-1995),MorganKaufmann,Canada,1995,338-345. 7PrezA,Larra?agaaP,InzaaI.SupervisedclassificationwithconditionalGaussianworks:IncreasingthestructureplexityfromnaiveBayes.InternationalJournalofApproximateReasoning,xx,43(1):1-25. 8XIAZhan-Guo,XIAShi-Xiong,CAIShi-Yu,等.Semi-supervisedGaussianprocessclassificationalgorithmaddressingtheclassimbalance.JournalonCommunications,xx,34(5):42-51. 9LiuGQ,WuJX,ZhouSP.ProbabilisticclassifierswithageneralizedGaussianscalemixtureprior.PatternRecognition,xx,46(1):332-345. 10QuinlanJR.Inductionofdecisiontrees.MachineLearning,1986,1(1):81-106. 11FayyadU,IraniK.Mult-intervaldiscretizationofcontinuous-valuedattributesforcalssificationlearning.In:Proceedingsofthe13thInternationalJointConferenceonArtificialIntelligence,Cham

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论