（计算机应用技术专业论文）基于动态分类组合的财务欺诈识别关键技术研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：69 大小：2.48MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）基于动态分类组合的财务欺诈识别关键技术研究.pdf_第2页

（计算机应用技术专业论文）基于动态分类组合的财务欺诈识别关键技术研究.pdf_第3页

（计算机应用技术专业论文）基于动态分类组合的财务欺诈识别关键技术研究.pdf_第4页

（计算机应用技术专业论文）基于动态分类组合的财务欺诈识别关键技术研究.pdf_第5页

已阅读5页，还剩64页未读，继续免费阅读

（计算机应用技术专业论文）基于动态分类组合的财务欺诈识别关键技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

江苏大学硕士学位论文摘要在现代市场经济中，公司的财务欺诈行为可谓层出不穷，对证券市场产生了巨大的冲击，引发了前所未有的信用危机。因此，对财务欺诈进行识别就显得尤为重要。利用数据挖掘中的分类技术，对公司财务数据进行分析、计算、处理，从数据中挖掘出蕴含其中的信息和规则，帮助投资者和会计师轻松应对各种复杂财务数据行为，具有较高的学术价值和广泛的应用前景。目前，面向财务欺诈识别的分类技术研究刚刚起步，现有分类方法直接应用于财务欺诈识别还存在许多问题。探索和研究适合于财务欺诈识别的分类方法具有十分重要的现实意义。论文介绍了财务欺诈识别的目的、意义和研究现状，并针对财务欺诈数据自身的特点及现有组合分类方法存在的问题，提出了一种基于聚类划分的动态组合分类方法，并利用公司财务数据对该方法的有效性进行了验证，同时采用面向对象技术设计并实现了财务欺诈识别原型系统。本文的主要工作如下： 1 、阐述了动态分类器组合及欺诈识别的研究现状，详细探讨了基于分类技术的财务欺诈识别的基本步骤，并介绍了目前常用的分类方法。 2 、提出了一种基于粗糙集理论的决策树构造方法sdt r e e 。该方法采用粗糙集理论中的属性重要度来代替传统方法中的信息增益率作为挑选测试属性的标准。同时，在构造决策树的过程中引入f a i l n o d e p r u n e 剪枝策略，实现了简化决策树的目的。 3 、提出了一种基于聚类划分的动态组合分类方法d c c c d 。首先根据数据类分布不平衡的特点，利用p a m 聚类算法对其进行划分重组，采用sdt r e e 方法训练成员分类器，最后通过动态组合分类方法输出融合结果。 4 、d c c c d 方法在公司财务欺诈识别中的应用。采用基于遗传搜索的特征选择方法得到最佳属性子集，并对d c c c d 方法实际应用的分类性能进行了验证。同时，采用面向对象技术设计并实现了财务欺诈识别系统。关键词：财务欺诈识别，聚类划分，多分类器动态组合，决策树，粗糙集，特征选择 n 江苏大学硕士学位论文 a b s t r a c t i nt h em o d e mm a r k e te c o n o m y , t h ef i n a n c i a lf r a u d so fc o m p a n i e se m e r g ei n e n d l e s s l y , t h a tp r o d u c e s at r e m e n d o u si m p a c to ns t o c km a r k e ta n dt r i g g e r sa n u n p r e c e d e n t e dc r e d i tc r i s i s t h e r e f o r e ，i ti se s p e c i a l l yi m p o r t a n t t o i d e n t i f yt h e f i n a n c i a lf r a u dp h e n o m e n o nf o rt h ec o m p a n i e s a n dt h e r ea r eh i g ha c a d e m i cv a l u e a n db r o a da p p l i c a t i o nf o r e g r o u n df o ra p p l y i n gc l a s s i f i c a t i o nt e c h n i q u e si nd a t am i n i n g t oa n a l y z e ，c o m p u t ea n dp r o c e s st h ef i n a n c i a ld a t a ，t h u sp o t e n t i a lv a l u a b l ei n f o r m a t i o n a n dr u l e sc o u l db em i n e dw h i c hc a nh e l pi n v e s t o r sa n da c c o u n t a n t st oe a s i l yc o n f r o n t v a r i o u sc o m p l e xb e h a v i o r so nt h ef i n a n c i a ld a t a c u r r e n t l y , t h er e s e a r c h e so n c l a s s i f i c a t i o nt e c h n i q u e sa p p l i e dt of i n a n c i a lf r a u di d e n t i f i c a t i o nh a v ej u s td e v e l o p e d m o r e o v e r , t h e r ea r eq u i t eaf e wp r o b l e m st h a ta p p l y i n ge x i s t i n gc l a s s i f i c a t i o nm e t h o d s d i r e c t l y t of i n a n c i a lf r a u di d e n t i f i c a t i o n c o n s e q u e n t l y , e x p l o r i n ge f f e c t i v e c l a s s i f i c a t i o nm e t h o d ss u i t e dt of i n a n c i a lf r a u di d e n t i f i c a t i o nh a si m p o r t a n tr e a ls e n s e t h et a r g e t ，s i g n i f i c a n c ea n ds t a t u so ft h er e s e a r c ha r ei n t r o d u c e di nt h i sp a p e r a n da l la p p r o a c hf o rd y n a m i cc o m b i n a t i o no fc l a s s i f i e r sb a s e do nc l u s t e r i n gd i v i s i o n b a s e do nc l u s t e r i n gd i v i s i o ni sp r o p o s e da c c o r d i n gt ot h ec h a r a c t e r i s t i co ft h ef i n a n c i a l f r a u dd a t aa n dt h ep r o b l e m si nt h ee x i s t i n ge n s e m b l em e t h o d s i no r d e rt oe v a l u a t et h e c l a s s i f i c a t i o np e r f o r m a n c e ，w ee m p l o yr e a lf i n a n c i a ld a t as e to fc o m p a n i e si nt h e e x p e r i m e n t m e a n w h i l e ，af i n a n c i a l f r a u di d e n t i f i c a t i o n s y s t e m i sd e s i g n e da n d i m p l e m e n t e du s i n go o dt e c h n i q u e t h em a i nw o r ko ft h i sp a p e ri ss t a t e da sf o l l o w s ： 1 a b r o a da n dd o m e s t i cr e s e a r c hs t a t u s e so fd y n a m i cc o m b i n a t i o no fc l a s s i f i e r s a sw e l la sf r a u di d e n t i f i c a t i o na r er e v i e w e d i na d d i t i o n ，b a s i cs t e p so ff i n a n c i a lf r a u d i d e n t i f i c a t i o nb a s e do nc l a s s i f i c a t i o nt e c h n i q u e sa r ei l l u s t r a t e di nd e t a i l s f u r t h e r m o r e ， s o m ef r e q u e n t l y u s e dc l a s s i f i c a t i o nt e c h n i q u e sa r et a l k e da b o u t 2 ad e c i s i o nt r e ec o n s t r u c t i o nm e t h o db a s e do nr o u g hs e tt h e o r yc a l l e d s p 卫e e i sp u tf o r w a r d ，w h i c he m p l o y sa t t r i b u t es i g n i f i c a n c ei n s t e a do fi n f o r m a t i o n g a i nr a t i oa st h es e l e c t i n gc r i t e r i ao ft e s t i n ga t t r i b u t e s m e a n w h i l e ，f a i l n o d e - p r u n e p r u n i n gs t r a t e g yi si n t r o d u c e di n t ot h ec o n s t r u c t i o np r o c e s si no r d e rt og e tar e d u c e d d e c i s i o nt r e e 3 a na p p r o a c hf o rd y n a m i cc o m b i n a t i o no fc l a s s i f i e r sb a s e do nc l u s t e r i n g i l i 江苏大学硕士学位论文 d i v i s i o nc a l l e dd c c c di sp r o p o s e d f i r s t l y , p a mc l u s t e r i n ga l g o r i t h mi su s e dt o d i v i d ea n dr e o r g a n i z et h et r a i n i n gs a m p l e sf o rr e s o l v i n gt h ep r o b l e mb r o u g h tb y u n b a l a n c e dd a s sd i s t r i b u t i o ni nf i n a n c i a ld a t a t h e n ，b a s ec l a s s i f i e r sa r et r a i n e du s i n g t h er e o r g a n i z e dd a t as e t sa n ds d t r e el e a r n i n gs c h e m e f i n a l l y , p r e d i c t i o n sf r o m b a s ec l a s s i f i e r sa r ed y n a m i c a l l yc o m b i n e dt og e tt h ef i n a lr e s u l t 4 d c c - c di sa p p l i e di nt h ef i n a n c i a lf r a u di d e n t i f i c a t i o n af e a t u r es e l e c t i o n m e t h o db a s e do ng ai sr a i s e dt oo b t a i nt h eo p t i m a lf e a t u r es e t a n dt h ec l a s s i f i c a t i o n p e r f o r m a n c e o fd c c c di np r a c t i c a la p p l i c a t i o ni se v a l u a t e d m e a n w h i l e ，af i n a n c i a l f r a u di d e n t i f i c a t i o ns y s t e mi sd e s i g n e da n di m p l e m e n t e du s i n go o d t e c h n i q u e k e yw o r d s ：f i n a n c i a lf r a u dd e t e c t i o n ，c l u s t e r i n gd i v i s i o n ，d y n a m i cc o m b i n a t i o no f c l a s s i f i e r s ，d e c i s i o nt r e e ，r o u g hs e t ，f e a t u r es e l e c t i o n i v 江苏大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于学位论文作者签名： 2 p l 年勿月8 日保密口，在年解密后适用本授权书。不保密匦 p 卑蛤止z叮日孙陟签月祀， j y ) 刻唱鼬年匕日 0 指渺独创性l 声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已注明引用的内容以外，本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：寺涵耳日期：厶f 口年6 月8e t 江苏大学硕士学位论文 1 1 课题研究背景与意义第一章绪论财务欺诈【4 】是指会计活动中相关当事人为了逃避纳税、分取高额红利、提取秘密公积金等目的，事前经过周密安排而故意制造虚假会计信息的行为。美国注册会计师协会在在财务报表审计中对欺诈的考虑中把财务欺诈定义为：在财务报表中蓄意报错、漏报或泄露以欺骗财务报表使用者。从我国证券市场建立至今，公司财务欺诈案层出不穷。从建市伊始的深圳原野、长城机电、中水国际集团“三大虚假验资案件，到举世震惊的蓝田、银广厦案。接连不断的财务欺诈，严重影响了投资者的投资信心，阻碍了股市的健康发展。进入2 1 世纪后，尽管相关管理当局加大了监管力度，但仍有许多公司的财务欺诈信息尚未被证监会发现，这些不仅导致整个社会的会计信息失真，形成内幕交易的温床，而且削弱了市场资源的配置功能，危害了整个社会经济的健康发展。为了积极营造公平竞争的市场经济秩序，推进经济持续、稳定、快速的发展，对公司财务欺诈的准确识别是十分必要的，并且具有重要的现实意义。针对财务欺诈问题，上级主管部门进行了许多有益的探索工作，其工作重点主要集中在政策、公司规章制度等的进一步完善上【4 】，例如：完善公司法人治理结构，强化公司建立现代企业制度，加强股东等财务信息需求者参与和监控的力度；完善会计审计制度，从制度层面降低财务信息的失真，阻止公司的财务欺诈；建立公司财务欺诈的赔偿机制，公司财务欺诈应受到严厉的惩罚，包括刑事责任和民事赔偿；加强诚信和道德教育，建立强大的舆论引导和监督体系，增强道德约束力，营造守信为荣、失德为耻的良好社会环境；加强政府信用，减少行政干预，推行经济责任审计。从一定程度上来讲，这些措施可以有效地遏制财务欺诈现象的发生。然而，随着科学技术的进步，财务欺诈的手段将越来越隐蔽化和专业化，仅凭上述这些行政手段或措施是很难及时识别公司的财务欺诈行为，因此，必须采用一种新的技术或方法来弥补现有方法的不足。财务欺诈识别实质上可以归纳为对公司财务数据的处理。目前的公司财务信江苏大学硕士学位论文息系统可以高效地实现数据的查询、统计等功能，但无法发现数据中存在的关联、规则等模式，无法根据现有的数据预测未来的发展趋势，缺乏挖掘数据背后蕴藏的知识的手段，导致出现了“财务数据爆炸但知识匮乏的现象。为了对财务数据进行全面、高速和准确的分析，可以使用数据挖掘中的分类技术来处理这些数据，从大量包含冗余信息的财务数据中提取尽可能多的蕴藏信息，抽取出有利于进行判断和比较的特征模型，根据这些模型，可以识别出公司的财务欺诈行为。分类【1 3 】是根据数据集的特点找出类别的概念描述，这些描述代表了数据的整体信息，并可以使用它们对未知数据进行归类。目前应用在财务欺诈识别中的分类方法主要包括：决策树、回归树、贝叶斯网络等。这些方法可以帮助投资者谨慎投资，减少不必要的损失；帮助会计师更加科学、可靠地完成企业信用风险评估工作，减少误判的可能性；同时还能帮助监管当局及时有效地发现和查处存在欺诈行为的公司。然而，随着财务数据量的不断扩大及数据分布不平衡现象的严重加剧，现有分类器的识别能力已不能满足相应的要求。为此，一些学者提出了多分类器组合【5 】的思想，多分类器组合技术以其较高的分类准确度和稳定性获得了广大研究者的关注，成为目前分类研究的一个热点。它是通过利用多个单分类器组合来解决同一个分类问题，由于各个单分类器之间存在信息互补性，单分类器各自的“长处”可以得到充分发挥j 从而得到最佳分类性能。一般情况下，多分类组合包括静态分类组合和动态分类组合。静态组合是对所有的待测样本都采用相同的分类器或分类器集合进行分类，而动态组合是对给定的待测样本选择那些最大程度上对其正确分类的分类器或分类器集合进行分类，更具有灵活性和针对性，通常会产生比静态组合方法更好的泛化性能。本文采用了动态组合分类技术来研究财务欺诈识别中的若干关键技术，论文的研究不但具有重要的理论意义，而且具有十分必要的现实背景。 1 2 国内外研究现状 1 2 1 动态分类器组合的研究现状动态分类器组合的思想可以追溯到h o 等人【6 魄出的“动态分类器选择”这一概念。此后，w o o d s 等人叼提出一种基于局部准确率的动态分类器选择方法。 p u u r o n e n 等人【8 】探究了叠加泛化( s t a c k e dg e n e r a l i z a t i o n ) 组合框架下的动态组合 2 江苏大学硕士学位论文技术。在他们的方法中，“留一”交叉验证法被用来估计各个分类器在总体训练样本上的分类错误率，这些误分类信息在接下来的训练过程中被并入到原始训练集中用以生成中间分类器。g i a c i n t o 和r o l i 4 2 】探讨了动态分类器选择的理论框架，给出了基于缸最近邻规则的动态分类器选择方法奏效所需要满足的条件，并据此提出了两种不同的动态分类器选择方法。t s y m b a l 1 0 】用实验验证了在b a g g i n g 和 a d a b o o s t 方法中引入动态组合规则的可行性。他们的实验结果显示，采用动态组合规则要普遍好于简单投票规则。g i a c i n t o 和r o l i 1 1 】在动态分类器选择的过程中 i a t 多分类器行为( m u l t i p l ec l a s s i f i e rb e h a v i o u r ) 信息，由此消除了邻域中 “假邻居对分类器性能分析造成的干扰，提高了动态选择方法的分类精度。 s h i n 和s o h n 1 2 】提出一种综合分类器融合和动态分类器技术的分类模型，用于预测某个用户是否是移动上网服务的潜在订购者，获得了令人满意的预测效果。z h u 等【1 3 】人提出一种基于动态分类器选择的数据流挖掘算法。f a g u n d e s 和 c a n u t o 1 4 1 探究了加权度量在动态分类器选择方法中的作用。征荆等人【1 5 】提出一种基于最小代价准则的分类器动态组合方法，在选择分类器的过程中采用了基于误识代价与时间代价最小化的准则，实现了识别率与识别速度之间的折衷。u u 和y u a n 1 6 】提出一种基于聚类的动态分类器选择算法。实验结果表明，该方法比h o 提出的方法效果还要好。唐春生和金以慧【1 7 , 1 8 】提出一种基于全信息矩阵的动态分类器组合方法。方敏对【1 9 a d a b o o s t 算法进行了改进，提出一种动态版本的a d a b o o s t 组合方法。刘明等人【刎提出一种将局部分类精度变换为分类置信度的方法，从而可以利用度量层分类器融合方法对得到的置信度进行处理。与动态分类器选择方法相比，度量层分类器融合方法能够利用更多的信息，从而能够取得更高的分类正确率。由此可见，动态分类组合方法【4 5 , 4 6 , 4 7 作为一个有效的学习方法，以其较好的分类性能获得了研究者的广泛关注，取得了一些研究成果，并已成功运用到了手写数字识别f 2 1 删、短文本分类【2 2 1 、入侵数据流【冽等方面，完全可以引入到财务欺诈识别中去。 1 2 2 欺诈识别的研究现状目前国内外应用于欺诈识别的分类方法主要有贾志强等人提出的把数据挖 3 江苏大学硕士学位论文掘技术应用于电信客户欺诈系统中的构想【2 4 1 ，着重介绍了用贝叶斯分类建模及其验证过程，实验结果表明，该方法能挖掘出潜在的风险行为；张小宝等人采用了数据挖掘方法应用到财务报表舞弊识别【2 5 】中，论文公司的财务数据为研究样本，采用了决策树c 4 5 、回归树m 5 、误差反向传播神经网络、k 最近邻法、逻辑回归、贝叶斯网六种分类方法进行了实证分析，并对各种分类算法的结果进行了比较；邹权等人提出的基于数据挖掘的信用卡申请者信用评分模型【猢，分别使用两种方法建立了信用卡申请者信用评分模型，包括决策树和逻辑回归，并对两者进行了比较，结果显示两个模型都有很好的预测能力，且逻辑回归模型要优于决策树模型；杨玺等人提出的一种基于支持向量机的信用卡欺诈检测的方法【2 刀，并根据该方法建立了一个欺诈风险检测实验系统，实验阶段，把支持向量机方法与i d 3 b p 的混合模型进行了比较，s v m 方法获得了更好的分类性能；刘道宏等人提出的基于决策树的电信客户欺诈预测模型【绷，主要是选用了建模速度快、预测准确率高的c 5 0 算法进行欺诈预测模型的建立，实验结果显示，该方法在欺诈预测中取得了较好的效果；聂丹丹等人提出的一种利用遗传算法改进 b p 神经网络的方法【2 9 1 ，并将它应用到了会计舞弊识别中，用实际财务数据检验了该方法，取得了比较好的识别效果。目前国内外应用于欺诈识别的分类组合方法相对较少，j o h a n 等人提出的一种新的基于市场信息的决策融合方法，通过将分类器组合方法应用市场信息欺诈识别中俐，并采用了实际数据对方法进行了验证，实验结果表明，该方法能够获得比较好的分类效能；h eh o n g x i n g 等人提出的一种基于神经网络的组合分类器方法用来进行医学图像欺诈识别【3 1 1 ，并采用实际应用中医学图像样本进行了实验，取得了较好的识别效果；庄韦等人提出的基于数据挖掘的信用卡欺诈行为识别模型【3 2 1 ，运用自组织映射神经网络算法和组合分类器原理，构建了基于数据挖掘的银行信用卡欺诈识别模型，建立了基于数据挖掘的银行信用卡欺诈识别模型的验证环境。编程实现了样本分类并对欺诈数据进行识别，取得了一定效果；吴婷等人提出的一种基于支持向量机和决策树的组合分类器【3 3 】方法，将它运用于信用卡欺诈识别中，并使用a d a c o s t 方法进行了分类结果的融合，通过实验验证了此方法的可行性：宋新平等人提出的基于集成分类方法的财务欺诈风险识别研究方法【3 4 1 ，论文采用了多元判别分析、支持向量机、决策树及组合分类方法 4 江苏大学硕士学位论文构建了财务欺诈识别模型，通过实验表明，四种模型都具有一定可行性，其中组合分类方法的识别准确率最高。由此可见，国内外分类组合技术在欺诈识别方面已展开了深入研究，并取得了一定成果，但就目前而言，面向欺诈识别的组合分类技术仍存在着许多不足，如对所有待测样本均采用相同的分类器或分类器集合，针对性不强，分类性能不能有进一步的突破。为此，本文采用了基于动态分类组合方法来研究财务欺诈的识别问题，并就其中的两个关键技术进行深入讨论，包括动态分类器组合中成员分类器的选择以及数据分布不平衡现象的处理等。 1 3 论文研究内容本文引入动态分类组合思想，以公司财务数据为研究对象，提出了一种基于聚类划分的动态分类组合方法，并就财务数据中的数据不平衡问题进行了研究。论文主要研究内容包括： 1 、阐述了动态分类器组合及欺诈识别的研究现状，详细探讨了基于分类技术的财务欺诈识别的基本步骤，并介绍了目前常用的分类方法。 2 、提出了一种基于粗糙集理论的决策树构造方法sdt r e e 。该方法采用粗糙集理论中的属性重要度来代替传统方法中的信息增益率作为挑选测试属性的标准。同时，在构造决策树的过程中引入f a i l n o d e p r u n e 剪枝策略，实现了简化决策树的目的。 3 、提出了一种基于聚类划分的动态组合分类方法d c c c d 。首先根据数据类分布不平衡的特点，利用p a m 聚类算法对其进行划分重组，采用sdt r e e 方法训练成员分类器，最后通过动态组合分类方法输出融合结果。 4 、构建了财务欺诈识别模型，该模型主要包括两个关键部分：基于遗传算法的特征选择和基于聚类划分的动态组合分类。利用公司财务数据对欺诈识别模型的有效性进行了验证。同时，采用面向对象设计方法，设计并实现了财务欺诈识别系统。 1 4 本文的结构全文共分七章，具体安排如下： 5 i 江苏大学硕士学位论文第一章介绍课题的研究背景、研究意义、国内外研究现状以及论文研究的主要内容和结构。第二章介绍了基于分类技术的财务欺诈识别研究的基本步骤，详细阐述了常用的特征选择方法和分类算法。第三章介绍粗糙集理论方面的预备知识，并且在该理论的基础上提出了算法sdt r e e ，并阐述了该方法的两个重要过程，最后通过实验对算法sdt r e e 的性能进行了分析。第四章阐述了不平衡数据及现有组合分类方法对构建财务欺诈识别模型带来的影响，提出了基于聚类划分的动态组合分类方法d c c c d 。第五章介绍了上述公司财务数据预处理过程，提出了一种基于遗传算法的特征选择方法，构建了财务欺诈识别模型。第六章基于财务欺诈识别模型，本文采用面向对象方法设计并实现了财务欺诈识别系统。第七章对本文研究工作进行了总结，根据自己的研究成果和体会，确定了下一步研究工作的重点与研究方法。 6 江苏大学硕士学位论文第二章基于分类技术的财务欺诈识别研究 2 1 基于分类技术的财务欺诈识别步骤 2 1 1 数据预处理建立分类模型前必要的准备步骤就是数据预处理，它是整个挖掘过程的重要阶段。数据积累过程中会出现许多噪声信息。缺少数据预处理这一步骤，就会潜在地影响模型的执行效率，降低模型的精确度。在数据预处理i j ，首先要对数据结构进行深入了解，同时还需要观察挖掘模型的预测信息、各个数据列的数据类型以及每列数据包含的潜在信息。数据预处理主要包括除去空值、除去无关属性、除去局外数据等步骤。对于在正常属性分布外围的数据样本，计算局外限定值并标记那些落在外围的记录行，然后决定删除该行。 2 1 2 特征选择特征选择通过使用某种评价标准和搜索策略减少已知数据集合中的特征数目，其目的在于优化模型。作为一种优化模型的方法，特征选择方法能自动从数据中选择判别性好、冗余度低的特征集，若能有效的运用，可以为财务欺诈识别模型的指标选取提供一种定量的科学方法。目前可用于财务欺诈识别的特征选择方法主要有：基于一致性的方法、基于相关性的方法、包裹法和r e l i e f f 方法等。 1 、基于一致性的方法【3 6 】如果某些样本对s 的取值相同，则这些样本的类别( 是否欺诈) 也应该趋于一致。这就是基于一致性方法所认为好的特征子集s 应该具有的特点。给定数据集合t 中的样本属予两个类别( 欺诈和非欺诈) ，可以使用下式来判断特征子集s 的好坏：， m a x ( n l i ，n ；) m c o w ( s ) 2 7 c 1 ) 江苏大学硕士学位论文上式中n 是t 的样本总数，j 是s 所有取值的数目。t 中具有s 第i 个取值的样本有n i 个，它们的集合设为d i ，其中有n ；个样本属于欺诈类，n ；个样本属于非欺诈类( n l i + n i = n ；) 。因为m a x ( n ；，砰) 越大( 最大为n i ) ，则表示d i 中样本的类别越趋于一致，故称肘缸( 厅；，砰) 为d i 的一致数。所有d i ( i = 1 ，2 ，j ) 的一致性之和占所有样本总数的比率就是特征子集s 的一致性比率。如果两个特征子集的一致性比率相同时，选择较小的特征子集。事实上，原特征集合的一致性比率最大，如果进行穷尽搜索，可以找到一致性比率与原特征集合相同的最小的特征子集。运用这种方法一方面能保留具有判别能力的特征，另一方面又可以有效地减少冗余的特征。 2 、基于相关性的方法【3 7 】基于相关性的方法评价特征子集的标准是：如果某个特征子集包含的每个特征( 财务指标) 与类别( 是否欺诈) 高度相关，同时这些特征相互之间不相关或弱相关，则它就是好的特征子集。若特征子集有k 个特征，则可以用下式来评价s 好坏： m c f s ) = 1 垒f _ 三( 2 2 ) 七+ k ( k 一1 ) 珞其中r h 是s 中每对特征的相关程度的均值，o 是s 中每个特征与类别的相关程度的均值。相关程度由“对称不确定性度量计算： r 巧= 2 x 嚣嵩器其中h ( x ) 表示x 的熵，h m 表示y 的熵，h ( x i y ) 是给y 时x 的条件熵。对称不确定性的分子称为互信息量，具有对称性：h h ( x i y ) = h ( y ) 一h l x ) 设x 和y 的取值范围分别为r x 和r y ，则有：日( x ) = 一p ( x ) l o g ( p ( x ) ) ( 2 4 ) h ( y ) = 一p ( y ) l o g ( p ( y ) ) ( 2 5 ) j ，唧 h ( xl y ) = 一p ( y ) p ( x iy ) l o g ( p ( x iy ” ( 2 6 ) x r xy e r y 对于连续的特征变量需要先对他们进行离散化处理，然后再用上面的公式计 8 江苏大学硕士学位论文算。 3 、包裹法【蚓包裹法使用分类准确率来作为判断特征子集好坏的标准。针对研究的数据样本容量不大，可以采用以交叉验证估计错误率的方法，用下式来判断特征子集s 的好坏： m 脚( s ) = 1 一e 矧( 2 7 ) 其中为用检验样本估计的分类错误率。运用包裹算法选择出的特征子集通常能提高用目标分类算法建立的分类模型的准确率。但是该方法在评价特征子集的过程中要启用目标分类算法建立模型并检验其结果，因此花费时间巨大，尤其是对规模大的数据集、耗时多的分类算法，包裹法可能由于耗时巨大而不能在实际中应用。 4 、r e l i e f - f 方法【3 9 加】 r e l i e f - f 方法对特征能否辨别相互邻近的样本来作为判断标准。如果对两个相邻的来自不同类别的样本，特征取值差别大；而对每个相邻的来自相同类别的样本，特征取值相同或相近，则就是较好的特征。用m 脚m ) 表示特征a 的判别能力，可用如下公式定量计算： d i f f ( a ，r ，d ，) - d i f f ( a ，r ，s ；) m 脚似) = ( 2 8 ) m 次随机从数据集合中抽取一个样本( m 是待设参数) ，r i 是第i 次从数据集合中随机抽取的一个样本，d i 是r i 最近邻的来自不同类别的样本，s i 是r 最近邻的来自相同类别的样本。d i f f ( a , * ，木) 表示两个样本对特征a 的取值之差( 经过正规化处理以保证不同特征之间的可比性) 。对于离散的特征，d i f f 取1 ( 两样本对 a 取值相同时) 或0 ( 两样本对a 取值不同时) 。在此基础上进一步改进，采用的办法是对k 个最邻近的样本的贡献值取平均，以平滑数据中的噪音。 2 1 3 建立分类模型建立一个模型即数据的训练阶段，描述预定的数据集或概念集。训练集是指数据库中为建立模型而被分析的数据元组集。训练集中的单个元组称为训练样 9 江苏大学硕士学位论文本，每个训练样本有一个类别标记。一个具体样本的形式可为：( v l , v 2 ，v 。，c ) ；其中v i 表示属性值，c 表示类别。训练数据样本在数据库中以表结构形式组织存放，该表有两种类型属性：一种称为类标号属性，另一种称为判定对象属性，也称条件属性。条件属性又因为类型不同，分为连续属性( 也称数值属性) 和离散属性( 也称种类属性) 两种。由于提供了每个样本的类标号，这一步也称为有指导的学习。 2 1 4 模型的评价该阶段用来评判分类模型的好坏，一般常用的指标是模型的准确率和计算的复杂度。 ( 1 ) 模型准确率：该指标描述分类模型正确地预测类别属性未知的财务数据类别的能力，通常情况下，可以使用测试集( 测试集中财务数据的类别指标是已知的) 来评估模型的准确率。 ( 2 ) 计算复杂度：该指标主要是衡量产生和使用模型的计算开销，依赖于具体的实现细节和硬件环境，若操作对象是非常巨大的，空间和时问复杂度是分类问题中必须考虑的一个重要环节。 2 2 常用分类方法下面主要介绍一些常用分类算法，主要包括：决策树、神经网络、贝叶斯网络、遗传算法。 2 2 1 决策树决策树是运用于分类的一种树结构。决策树中每个内部结点代表对某个属性的一次测试，每条边代表一个测试结果，叶结点代表某个类或者类的分布，最上面的结点是根结点。决策树是一种归纳学习算法。从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较，并根据不同的属性值从该结点向下分支，叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则，整个决策树就对应着一组析取表达式规则。 1 9 8 6 年q u i n l a n 提出了著名的i d 3 算法。在i d 3 算法的基础上，1 9 9 3 年 1 0 江苏大学硕士学位论文 q u i n l a n 又提出了c a 5 算法。为了适应处理大规模数据集的需要，后来又提出了若干改进的算法，其中s l i q 和s p r i n t 是比较有代表性的两个算法。 1 、i d 3 算法 i d 3 算法的核心是：在决策树各级结点上选择属性时，用信息增益作为属性的选择标准，在每一个非叶子结点进行测试时，获得关于被测试记录最大的类别信息。其具体方法是：检测所有的属性，选择信息增益最大的属性产生决策树结点，由该属性的不同取值建立分支，再对各分支的子集递归调用该方法建立决策树结点的分支，直到所有子集仅包含同一类别的数据为止。最后得到一棵决策树，它可以用来对新的样本进行分类。某属性的信息增益按下列方法计算。通过计算每个属性的信息增益，并比较它们的大小，就不难获得具有最大信息增益的属性。设s 是s 个数据样本的集合。假定类标号属性具有m 个不同值，定义m 个不同类c i ( i = 1 ，m ) 。设s i 是类c i 中的样本数。对一个给定的样本分类所需的期望信息e h - f 式给出：其中p i = s 洳是任意样本属于c i 的概率【刀。设属性a 具有v 个不同值 a l , a 2 ，a v 。可以用属性a 将s 划分为v 个子集 s l ，s 2 ，s v ，其中s j 中的样本在属性a 上具有相同的值a j ( j = 1 ，2 ，v ) 。设鼬是子集s j 中类c i 的样本数。熵值越小，子集划分的纯度越高。在属性a 上分枝将获得的信息增益是：g a i n ( a ) = i ( s l ，s 2 ，s i i i ) e ( a ) i d 3 算法的优点是：算法的理论清晰，方法简单，学习能力较强。其缺点是：只对比较小的数据集有效，且对噪声比较敏感，当训练数据集较大时，决策树可能会随之改变。 2 、c 4 5 算法 c 4 5 算法继承了i d 3 算法的优点，并在以下几方面对i d 3 算法进行了改进： ( 1 ) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足。 ( 2 ) 在树构造过程中进行剪枝。 ( 3 ) 能够完成对连续属性的离散化处理。 ( 4 ) 能够对不完整数据进行处理。 c a 5 算法与其它分类算法如统计方法、神经网络等比较起来有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对江苏大学硕士学位论文数据集进行多次的顺序扫描和排序，因而导致算法的低效。此外，c 4 5 只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。 3 、s l i q 算法 s u q 算法对c 4 5 决策树分类算法的实现方法进行了改进，在决策树的构造过程中采用了“预排序和“广度优先策略两种技术。 4 、s p r i n t 算法为了减少驻留于内存的数据量，s p r i n t 算法进一步改进了决策树算法的数据结构，去掉了在s u q 中需要驻留于内存的类别列表，将它的类别列合并到每个属性列表中。这样，在遍历每个属性列表寻找当前结点的最优分裂标准时，不必参照其他信息，将对结点的分裂表现在对属性列表的分裂，即将每个属性列表分成两个，分别存放属于各个结点的记录。 s p r i n t 算法的优点是在寻找每个结点的最优分裂标准时变得更简单。其缺点是对非分裂属性的属性列表进行分裂变得很困难。解决的办法是对分裂属性进行分裂时用哈希表记录下每个记录属于哪个孩子结点，若内存能够容纳下整个哈希表，其他属性列表的分裂只需参照该哈希表即可。由于哈希表的大小与训练集的大小成正比，当训练集很大时，哈希表可能无法在内存容纳，此时分裂只能分批执行，这使得s p r i n t 算法的可伸缩性仍然不是很好。 2 2 2 神经元网络人工神经网络是以工程技术手段模拟人脑神经网络的结构和功能，它的特点就是信息的分布式存储和并行协同处理，是巨量信息并行处理和大规模平行计算的基础，既是高度非线性动力系统，又是自适应组织系统。人工神经网络可用来描述认识，决策及控制的智能行为，主要用于分类、聚类、特征提取、控制系统、动态系统建模和模式识别等领域。在人工神经网络中，人工神经元又被称为处理单元( p e ：p r o c e s s i n ge l e m e n t ) 或节点( n o d e ) ，是神经网络的基本处理单元。一般地来说，一个神经元结构应具备以下几个要素： 1 、输入矢量x ( 勋勉，而) 和输出标量y 。 2 、权重矢量w ( w l ，w 2 ，w n ) 和阈值标量口。 3 、神经元功能，包括求和函数和传递函数f 。f 一般根据需要选取各种函 1 2 江苏大学硕士学位论文数形式。该人工神经元是一个多输入、单输出的非线性单元，我们用五表示神经元从各个连接获取的输入量，其输入输出关系可描述为 i ，= w 声z 厂幺 ( 2 9 ) j = l y ；= 厂( ，；)( 2 1 0 ) 上式中，x i ( j = 1 ，2 ，3 ，n ) 是从其它细胞传来的输入信号。o i 为阈值，w j i 表示从细胞j 到细胞i 的连接权值。将i i 统一表达成，j = w 直z ， ( 2 1 1 ) ，；o 上式中，w o i = - o , ，x o = 1 。传递函数f 伍) 可为线性函数，或s 状的非线性函数，或具有任意阶导数的非线性函数。常见的传递函数有如下形式： 1 、阶跃函数例如，当y i 取0 或者1 时，发f ( x ) 取刷- 妊三： m 矽 2 、s i g m o i d 型函数厂g ) 2 碉1 ( 2 - 1 3 ) 3 、高斯型函数例如，在径向基神经网络中，神经元的结构用高斯函数描述为咒：e x 0 一嘉g ，一) 2 、1 ( 2 1 4 ) 胪饮义一耳争协，一仁1 4 式中，盯? 为标准化参数。 2 2 3 贝叶斯网络贝叶斯分类法是统计学的分类方法，主要是利用9 2 叶斯定理来预测一个未知类别的样本属于各个类的可能性，选择其中可能性最大的一个类别作为该样本的最终类别。贝叶斯分类方法是一种具有

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于动态分类组合的财务欺诈识别关键技术研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于动态分类组合的财务欺诈识别关键技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档