(计算机应用技术专业论文)基于动态分类组合的财务欺诈识别关键技术研究.pdf_第1页
(计算机应用技术专业论文)基于动态分类组合的财务欺诈识别关键技术研究.pdf_第2页
(计算机应用技术专业论文)基于动态分类组合的财务欺诈识别关键技术研究.pdf_第3页
(计算机应用技术专业论文)基于动态分类组合的财务欺诈识别关键技术研究.pdf_第4页
(计算机应用技术专业论文)基于动态分类组合的财务欺诈识别关键技术研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)基于动态分类组合的财务欺诈识别关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江苏大学硕士学位论文 摘要 在现代市场经济中,公司的财务欺诈行为可谓层出不穷,对证券市场产生 了巨大的冲击,引发了前所未有的信用危机。因此,对财务欺诈进行识别就显 得尤为重要。利用数据挖掘中的分类技术,对公司财务数据进行分析、计算、 处理,从数据中挖掘出蕴含其中的信息和规则,帮助投资者和会计师轻松应对 各种复杂财务数据行为,具有较高的学术价值和广泛的应用前景。目前,面向 财务欺诈识别的分类技术研究刚刚起步,现有分类方法直接应用于财务欺诈识 别还存在许多问题。探索和研究适合于财务欺诈识别的分类方法具有十分重要 的现实意义。 论文介绍了财务欺诈识别的目的、意义和研究现状,并针对财务欺诈数据 自身的特点及现有组合分类方法存在的问题,提出了一种基于聚类划分的动态 组合分类方法,并利用公司财务数据对该方法的有效性进行了验证,同时采用 面向对象技术设计并实现了财务欺诈识别原型系统。 本文的主要工作如下: 1 、阐述了动态分类器组合及欺诈识别的研究现状,详细探讨了基于分类技 术的财务欺诈识别的基本步骤,并介绍了目前常用的分类方法。 2 、提出了一种基于粗糙集理论的决策树构造方法sdt r e e 。该方法采用 粗糙集理论中的属性重要度来代替传统方法中的信息增益率作为挑选测试属性 的标准。同时,在构造决策树的过程中引入f a i l n o d e p r u n e 剪枝策略,实现了简 化决策树的目的。 3 、提出了一种基于聚类划分的动态组合分类方法d c c c d 。首先根据数据 类分布不平衡的特点,利用p a m 聚类算法对其进行划分重组,采用sdt r e e 方法训练成员分类器,最后通过动态组合分类方法输出融合结果。 4 、d c c c d 方法在公司财务欺诈识别中的应用。采用基于遗传搜索的特征 选择方法得到最佳属性子集,并对d c c c d 方法实际应用的分类性能进行了验 证。同时,采用面向对象技术设计并实现了财务欺诈识别系统。 关键词:财务欺诈识别,聚类划分,多分类器动态组合,决策树,粗糙集, 特征选择 n 江苏大学硕士学位论文 a b s t r a c t i nt h em o d e mm a r k e te c o n o m y , t h ef i n a n c i a lf r a u d so fc o m p a n i e se m e r g ei n e n d l e s s l y , t h a tp r o d u c e s at r e m e n d o u si m p a c to ns t o c km a r k e ta n dt r i g g e r sa n u n p r e c e d e n t e dc r e d i tc r i s i s t h e r e f o r e ,i ti se s p e c i a l l yi m p o r t a n t t o i d e n t i f yt h e f i n a n c i a lf r a u dp h e n o m e n o nf o rt h ec o m p a n i e s a n dt h e r ea r eh i g ha c a d e m i cv a l u e a n db r o a da p p l i c a t i o nf o r e g r o u n df o ra p p l y i n gc l a s s i f i c a t i o nt e c h n i q u e si nd a t am i n i n g t oa n a l y z e ,c o m p u t ea n dp r o c e s st h ef i n a n c i a ld a t a ,t h u sp o t e n t i a lv a l u a b l ei n f o r m a t i o n a n dr u l e sc o u l db em i n e dw h i c hc a nh e l pi n v e s t o r sa n da c c o u n t a n t st oe a s i l yc o n f r o n t v a r i o u sc o m p l e xb e h a v i o r so nt h ef i n a n c i a ld a t a c u r r e n t l y , t h er e s e a r c h e so n c l a s s i f i c a t i o nt e c h n i q u e sa p p l i e dt of i n a n c i a lf r a u di d e n t i f i c a t i o nh a v ej u s td e v e l o p e d m o r e o v e r , t h e r ea r eq u i t eaf e wp r o b l e m st h a ta p p l y i n ge x i s t i n gc l a s s i f i c a t i o nm e t h o d s d i r e c t l y t of i n a n c i a lf r a u di d e n t i f i c a t i o n c o n s e q u e n t l y , e x p l o r i n ge f f e c t i v e c l a s s i f i c a t i o nm e t h o d ss u i t e dt of i n a n c i a lf r a u di d e n t i f i c a t i o nh a si m p o r t a n tr e a ls e n s e t h et a r g e t ,s i g n i f i c a n c ea n ds t a t u so ft h er e s e a r c ha r ei n t r o d u c e di nt h i sp a p e r a n da l la p p r o a c hf o rd y n a m i cc o m b i n a t i o no fc l a s s i f i e r sb a s e do nc l u s t e r i n gd i v i s i o n b a s e do nc l u s t e r i n gd i v i s i o ni sp r o p o s e da c c o r d i n gt ot h ec h a r a c t e r i s t i co ft h ef i n a n c i a l f r a u dd a t aa n dt h ep r o b l e m si nt h ee x i s t i n ge n s e m b l em e t h o d s i no r d e rt oe v a l u a t et h e c l a s s i f i c a t i o np e r f o r m a n c e ,w ee m p l o yr e a lf i n a n c i a ld a t as e to fc o m p a n i e si nt h e e x p e r i m e n t m e a n w h i l e ,af i n a n c i a l f r a u di d e n t i f i c a t i o n s y s t e m i sd e s i g n e da n d i m p l e m e n t e du s i n go o dt e c h n i q u e t h em a i nw o r ko ft h i sp a p e ri ss t a t e da sf o l l o w s : 1 a b r o a da n dd o m e s t i cr e s e a r c hs t a t u s e so fd y n a m i cc o m b i n a t i o no fc l a s s i f i e r s a sw e l la sf r a u di d e n t i f i c a t i o na r er e v i e w e d i na d d i t i o n ,b a s i cs t e p so ff i n a n c i a lf r a u d i d e n t i f i c a t i o nb a s e do nc l a s s i f i c a t i o nt e c h n i q u e sa r ei l l u s t r a t e di nd e t a i l s f u r t h e r m o r e , s o m ef r e q u e n t l y u s e dc l a s s i f i c a t i o nt e c h n i q u e sa r et a l k e da b o u t 2 ad e c i s i o nt r e ec o n s t r u c t i o nm e t h o db a s e do nr o u g hs e tt h e o r yc a l l e d s p 卫e e i sp u tf o r w a r d ,w h i c he m p l o y sa t t r i b u t es i g n i f i c a n c ei n s t e a do fi n f o r m a t i o n g a i nr a t i oa st h es e l e c t i n gc r i t e r i ao ft e s t i n ga t t r i b u t e s m e a n w h i l e ,f a i l n o d e - p r u n e p r u n i n gs t r a t e g yi si n t r o d u c e di n t ot h ec o n s t r u c t i o np r o c e s si no r d e rt og e tar e d u c e d d e c i s i o nt r e e 3 a na p p r o a c hf o rd y n a m i cc o m b i n a t i o no fc l a s s i f i e r sb a s e do nc l u s t e r i n g i l i 江苏大学硕士学位论文 d i v i s i o nc a l l e dd c c c di sp r o p o s e d f i r s t l y , p a mc l u s t e r i n ga l g o r i t h mi su s e dt o d i v i d ea n dr e o r g a n i z et h et r a i n i n gs a m p l e sf o rr e s o l v i n gt h ep r o b l e mb r o u g h tb y u n b a l a n c e dd a s sd i s t r i b u t i o ni nf i n a n c i a ld a t a t h e n ,b a s ec l a s s i f i e r sa r et r a i n e du s i n g t h er e o r g a n i z e dd a t as e t sa n ds d t r e el e a r n i n gs c h e m e f i n a l l y , p r e d i c t i o n sf r o m b a s ec l a s s i f i e r sa r ed y n a m i c a l l yc o m b i n e dt og e tt h ef i n a lr e s u l t 4 d c c - c di sa p p l i e di nt h ef i n a n c i a lf r a u di d e n t i f i c a t i o n af e a t u r es e l e c t i o n m e t h o db a s e do ng ai sr a i s e dt oo b t a i nt h eo p t i m a lf e a t u r es e t a n dt h ec l a s s i f i c a t i o n p e r f o r m a n c e o fd c c c di np r a c t i c a la p p l i c a t i o ni se v a l u a t e d m e a n w h i l e ,af i n a n c i a l f r a u di d e n t i f i c a t i o ns y s t e mi sd e s i g n e da n di m p l e m e n t e du s i n go o d t e c h n i q u e k e yw o r d s :f i n a n c i a lf r a u dd e t e c t i o n ,c l u s t e r i n gd i v i s i o n ,d y n a m i cc o m b i n a t i o no f c l a s s i f i e r s ,d e c i s i o nt r e e ,r o u g hs e t ,f e a t u r es e l e c t i o n i v 江苏大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部 内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 本学位论文属于 学位论文作者签名: 2 p l 年勿月8 日 保密口,在年解密后适用本授权书。 不保密匦 p 卑 蛤 止z叮 日 孙 陟 签 月 祀 , j y ) 刻 唱 鼬 年 匕日 0 指 渺 独创性l 声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:寺涵耳 日期:厶f 口年6 月8e t 江苏大学硕士学位论文 1 1 课题研究背景与意义 第一章绪论 财务欺诈【4 】是指会计活动中相关当事人为了逃避纳税、分取高额红利、提取 秘密公积金等目的,事前经过周密安排而故意制造虚假会计信息的行为。美国注 册会计师协会在在财务报表审计中对欺诈的考虑中把财务欺诈定义为:在财 务报表中蓄意报错、漏报或泄露以欺骗财务报表使用者。 从我国证券市场建立至今,公司财务欺诈案层出不穷。从建市伊始的深圳原 野、长城机电、中水国际集团“三大虚假验资案件 ,到举世震惊的蓝田、银广 厦案。接连不断的财务欺诈,严重影响了投资者的投资信心,阻碍了股市的健康 发展。 进入2 1 世纪后,尽管相关管理当局加大了监管力度,但仍有许多公司的财 务欺诈信息尚未被证监会发现,这些不仅导致整个社会的会计信息失真,形成内 幕交易的温床,而且削弱了市场资源的配置功能,危害了整个社会经济的健康发 展。为了积极营造公平竞争的市场经济秩序,推进经济持续、稳定、快速的发展, 对公司财务欺诈的准确识别是十分必要的,并且具有重要的现实意义。 针对财务欺诈问题,上级主管部门进行了许多有益的探索工作,其工作重点 主要集中在政策、公司规章制度等的进一步完善上【4 】,例如:完善公司法人治理 结构,强化公司建立现代企业制度,加强股东等财务信息需求者参与和监控的力 度;完善会计审计制度,从制度层面降低财务信息的失真,阻止公司的财务欺诈; 建立公司财务欺诈的赔偿机制,公司财务欺诈应受到严厉的惩罚,包括刑事责任 和民事赔偿;加强诚信和道德教育,建立强大的舆论引导和监督体系,增强道德 约束力,营造守信为荣、失德为耻的良好社会环境;加强政府信用,减少行政干 预,推行经济责任审计。从一定程度上来讲,这些措施可以有效地遏制财务欺诈 现象的发生。然而,随着科学技术的进步,财务欺诈的手段将越来越隐蔽化和专 业化,仅凭上述这些行政手段或措施是很难及时识别公司的财务欺诈行为,因此, 必须采用一种新的技术或方法来弥补现有方法的不足。 财务欺诈识别实质上可以归纳为对公司财务数据的处理。目前的公司财务信 江苏大学硕士学位论文 息系统可以高效地实现数据的查询、统计等功能,但无法发现数据中存在的关联、 规则等模式,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后蕴藏 的知识的手段,导致出现了“财务数据爆炸但知识匮乏 的现象。为了对财务数 据进行全面、高速和准确的分析,可以使用数据挖掘中的分类技术来处理这些数 据,从大量包含冗余信息的财务数据中提取尽可能多的蕴藏信息,抽取出有利于 进行判断和比较的特征模型,根据这些模型,可以识别出公司的财务欺诈行为。 分类【1 3 】是根据数据集的特点找出类别的概念描述,这些描述代表了数据的 整体信息,并可以使用它们对未知数据进行归类。目前应用在财务欺诈识别中的 分类方法主要包括:决策树、回归树、贝叶斯网络等。这些方法可以帮助投资者 谨慎投资,减少不必要的损失;帮助会计师更加科学、可靠地完成企业信用风险 评估工作,减少误判的可能性;同时还能帮助监管当局及时有效地发现和查处存 在欺诈行为的公司。然而,随着财务数据量的不断扩大及数据分布不平衡现象的 严重加剧,现有分类器的识别能力已不能满足相应的要求。为此,一些学者提出 了多分类器组合【5 】的思想,多分类器组合技术以其较高的分类准确度和稳定性获 得了广大研究者的关注,成为目前分类研究的一个热点。它是通过利用多个单分 类器组合来解决同一个分类问题,由于各个单分类器之间存在信息互补性,单分 类器各自的“长处”可以得到充分发挥j 从而得到最佳分类性能。一般情况下, 多分类组合包括静态分类组合和动态分类组合。静态组合是对所有的待测样本都 采用相同的分类器或分类器集合进行分类,而动态组合是对给定的待测样本选择 那些最大程度上对其正确分类的分类器或分类器集合进行分类,更具有灵活性和 针对性,通常会产生比静态组合方法更好的泛化性能。本文采用了动态组合分类 技术来研究财务欺诈识别中的若干关键技术,论文的研究不但具有重要的理论意 义,而且具有十分必要的现实背景。 1 2 国内外研究现状 1 2 1 动态分类器组合的研究现状 动态分类器组合的思想可以追溯到h o 等人【6 魄出的“动态分类器选择”这 一概念。此后,w o o d s 等人叼提出一种基于局部准确率的动态分类器选择方法。 p u u r o n e n 等人【8 】探究了叠加泛化( s t a c k e dg e n e r a l i z a t i o n ) 组合框架下的动态组合 2 江苏大学硕士学位论文 技术。在他们的方法中,“留一”交叉验证法被用来估计各个分类器在总体训练 样本上的分类错误率,这些误分类信息在接下来的训练过程中被并入到原始训练 集中用以生成中间分类器。g i a c i n t o 和r o l i 4 2 】探讨了动态分类器选择的理论框架, 给出了基于缸最近邻规则的动态分类器选择方法奏效所需要满足的条件,并据此 提出了两种不同的动态分类器选择方法。t s y m b a l 1 0 】用实验验证了在b a g g i n g 和 a d a b o o s t 方法中引入动态组合规则的可行性。他们的实验结果显示,采用动态 组合规则要普遍好于简单投票规则。g i a c i n t o 和r o l i 1 1 】在动态分类器选择的过程 中 i a t 多分类器行为( m u l t i p l ec l a s s i f i e rb e h a v i o u r ) 信息,由此消除了邻域中 “假邻居 对分类器性能分析造成的干扰,提高了动态选择方法的分类精度。 s h i n 和s o h n 1 2 】提出一种综合分类器融合和动态分类器技术的分类模型,用 于预测某个用户是否是移动上网服务的潜在订购者,获得了令人满意的预测效 果。z h u 等【1 3 】人提出一种基于动态分类器选择的数据流挖掘算法。f a g u n d e s 和 c a n u t o 1 4 1 探究了加权度量在动态分类器选择方法中的作用。 征荆等人【1 5 】提出一种基于最小代价准则的分类器动态组合方法,在选择分 类器的过程中采用了基于误识代价与时间代价最小化的准则,实现了识别率与识 别速度之间的折衷。u u 和y u a n 1 6 】提出一种基于聚类的动态分类器选择算法。实 验结果表明,该方法比h o 提出的方法效果还要好。唐春生和金以慧【1 7 , 1 8 】提出一 种基于全信息矩阵的动态分类器组合方法。方敏对【1 9 a d a b o o s t 算法进行了改进, 提出一种动态版本的a d a b o o s t 组合方法。 刘明等人【刎提出一种将局部分类精度变换为分类置信度的方法,从而可以 利用度量层分类器融合方法对得到的置信度进行处理。与动态分类器选择方法相 比,度量层分类器融合方法能够利用更多的信息,从而能够取得更高的分类正确 率。 由此可见,动态分类组合方法【4 5 , 4 6 , 4 7 作为一个有效的学习方法,以其较好的 分类性能获得了研究者的广泛关注,取得了一些研究成果,并已成功运用到了手 写数字识别f 2 1 删、短文本分类【2 2 1 、入侵数据流【冽等方面,完全可以引入到财务 欺诈识别中去。 1 2 2 欺诈识别的研究现状 目前国内外应用于欺诈识别的分类方法主要有贾志强等人提出的把数据挖 3 江苏大学硕士学位论文 掘技术应用于电信客户欺诈系统中的构想【2 4 1 ,着重介绍了用贝叶斯分类建模及 其验证过程,实验结果表明,该方法能挖掘出潜在的风险行为;张小宝等人采用 了数据挖掘方法应用到财务报表舞弊识别【2 5 】中,论文公司的财务数据为研究样 本,采用了决策树c 4 5 、回归树m 5 、误差反向传播神经网络、k 最近邻法、逻 辑回归、贝叶斯网六种分类方法进行了实证分析,并对各种分类算法的结果进行 了比较;邹权等人提出的基于数据挖掘的信用卡申请者信用评分模型【猢,分别 使用两种方法建立了信用卡申请者信用评分模型,包括决策树和逻辑回归,并对 两者进行了比较,结果显示两个模型都有很好的预测能力,且逻辑回归模型要优 于决策树模型;杨玺等人提出的一种基于支持向量机的信用卡欺诈检测的方法 【2 刀,并根据该方法建立了一个欺诈风险检测实验系统,实验阶段,把支持向量 机方法与i d 3 b p 的混合模型进行了比较,s v m 方法获得了更好的分类性能;刘 道宏等人提出的基于决策树的电信客户欺诈预测模型【绷,主要是选用了建模速 度快、预测准确率高的c 5 0 算法进行欺诈预测模型的建立,实验结果显示,该 方法在欺诈预测中取得了较好的效果;聂丹丹等人提出的一种利用遗传算法改进 b p 神经网络的方法【2 9 1 ,并将它应用到了会计舞弊识别中,用实际财务数据检验 了该方法,取得了比较好的识别效果。 目前国内外应用于欺诈识别的分类组合方法相对较少,j o h a n 等人提出的一 种新的基于市场信息的决策融合方法,通过将分类器组合方法应用市场信息欺诈 识别中俐,并采用了实际数据对方法进行了验证,实验结果表明,该方法能够 获得比较好的分类效能;h eh o n g x i n g 等人提出的一种基于神经网络的组合分类 器方法用来进行医学图像欺诈识别【3 1 1 ,并采用实际应用中医学图像样本进行了 实验,取得了较好的识别效果;庄韦等人提出的基于数据挖掘的信用卡欺诈行为 识别模型【3 2 1 ,运用自组织映射神经网络算法和组合分类器原理,构建了基于数 据挖掘的银行信用卡欺诈识别模型,建立了基于数据挖掘的银行信用卡欺诈识别 模型的验证环境。编程实现了样本分类并对欺诈数据进行识别,取得了一定效果; 吴婷等人提出的一种基于支持向量机和决策树的组合分类器【3 3 】方法,将它运用 于信用卡欺诈识别中,并使用a d a c o s t 方法进行了分类结果的融合,通过实验验 证了此方法的可行性:宋新平等人提出的基于集成分类方法的财务欺诈风险识别 研究方法【3 4 1 ,论文采用了多元判别分析、支持向量机、决策树及组合分类方法 4 江苏大学硕士学位论文 构建了财务欺诈识别模型,通过实验表明,四种模型都具有一定可行性,其中组 合分类方法的识别准确率最高。 由此可见,国内外分类组合技术在欺诈识别方面已展开了深入研究,并取得 了一定成果,但就目前而言,面向欺诈识别的组合分类技术仍存在着许多不足, 如对所有待测样本均采用相同的分类器或分类器集合,针对性不强,分类性能不 能有进一步的突破。为此,本文采用了基于动态分类组合方法来研究财务欺诈的 识别问题,并就其中的两个关键技术进行深入讨论,包括动态分类器组合中成员 分类器的选择以及数据分布不平衡现象的处理等。 1 3 论文研究内容 本文引入动态分类组合思想,以公司财务数据为研究对象,提出了一种基于 聚类划分的动态分类组合方法,并就财务数据中的数据不平衡问题进行了研究。 论文主要研究内容包括: 1 、阐述了动态分类器组合及欺诈识别的研究现状,详细探讨了基于分类技 术的财务欺诈识别的基本步骤,并介绍了目前常用的分类方法。 2 、提出了一种基于粗糙集理论的决策树构造方法sdt r e e 。该方法采用粗 糙集理论中的属性重要度来代替传统方法中的信息增益率作为挑选测试属性的 标准。同时,在构造决策树的过程中引入f a i l n o d e p r u n e 剪枝策略,实现了简化 决策树的目的。 3 、提出了一种基于聚类划分的动态组合分类方法d c c c d 。首先根据数据 类分布不平衡的特点,利用p a m 聚类算法对其进行划分重组,采用sdt r e e 方法训练成员分类器,最后通过动态组合分类方法输出融合结果。 4 、构建了财务欺诈识别模型,该模型主要包括两个关键部分:基于遗传算 法的特征选择和基于聚类划分的动态组合分类。利用公司财务数据对欺诈识别模 型的有效性进行了验证。同时,采用面向对象设计方法,设计并实现了财务欺诈 识别系统。 1 4 本文的结构 全文共分七章,具体安排如下: 5 i 江苏大学硕士学位论文 第一章介绍课题的研究背景、研究意义、国内外研究现状以及论文研究的 主要内容和结构。 第二章介绍了基于分类技术的财务欺诈识别研究的基本步骤,详细阐述了 常用的特征选择方法和分类算法。 第三章介绍粗糙集理论方面的预备知识,并且在该理论的基础上提出了算 法sdt r e e ,并阐述了该方法的两个重要过程,最后通过实验对算法sdt r e e 的性能进行了分析。 第四章阐述了不平衡数据及现有组合分类方法对构建财务欺诈识别模型带 来的影响,提出了基于聚类划分的动态组合分类方法d c c c d 。 第五章介绍了上述公司财务数据预处理过程,提出了一种基于遗传算法的 特征选择方法,构建了财务欺诈识别模型。 第六章基于财务欺诈识别模型,本文采用面向对象方法设计并实现了财务 欺诈识别系统。 第七章对本文研究工作进行了总结,根据自己的研究成果和体会,确定了 下一步研究工作的重点与研究方法。 6 江苏大学硕士学位论文 第二章基于分类技术的财务欺诈识别研究 2 1 基于分类技术的财务欺诈识别步骤 2 1 1 数据预处理 建立分类模型前必要的准备步骤就是数据预处理,它是整个挖掘过程的重要 阶段。数据积累过程中会出现许多噪声信息。缺少数据预处理这一步骤,就会潜 在地影响模型的执行效率,降低模型的精确度。 在数据预处理i j ,首先要对数据结构进行深入了解,同时还需要观察挖掘模 型的预测信息、各个数据列的数据类型以及每列数据包含的潜在信息。 数据预处理主要包括除去空值、除去无关属性、除去局外数据等步骤。对于 在正常属性分布外围的数据样本,计算局外限定值并标记那些落在外围的记录 行,然后决定删除该行。 2 1 2 特征选择 特征选择通过使用某种评价标准和搜索策略减少已知数据集合中的特征数 目,其目的在于优化模型。作为一种优化模型的方法,特征选择方法能自动从数 据中选择判别性好、冗余度低的特征集,若能有效的运用,可以为财务欺诈识别 模型的指标选取提供一种定量的科学方法。 目前可用于财务欺诈识别的特征选择方法主要有:基于一致性的方法、基于 相关性的方法、包裹法和r e l i e f f 方法等。 1 、基于一致性的方法【3 6 】 如果某些样本对s 的取值相同,则这些样本的类别( 是否欺诈) 也应该趋于一 致。这就是基于一致性方法所认为好的特征子集s 应该具有的特点。给定数据集 合t 中的样本属予两个类别( 欺诈和非欺诈) ,可以使用下式来判断特征子集s 的 好坏: , m a x ( n l i ,n ;) m c o w ( s ) 2 7 c 1 ) 江苏大学硕士学位论文 上式中n 是t 的样本总数,j 是s 所有取值的数目。t 中具有s 第i 个取值 的样本有n i 个,它们的集合设为d i ,其中有n ;个样本属于欺诈类,n ;个样本属 于非欺诈类( n l i + n i = n ;) 。因为m a x ( n ;,砰) 越大( 最大为n i ) ,则表示d i 中样本的 类别越趋于一致,故称肘缸( 厅;,砰) 为d i 的一致数。所有d i ( i = 1 ,2 ,j ) 的一致性之 和占所有样本总数的比率就是特征子集s 的一致性比率。 如果两个特征子集的一致性比率相同时,选择较小的特征子集。事实上,原 特征集合的一致性比率最大,如果进行穷尽搜索,可以找到一致性比率与原特征 集合相同的最小的特征子集。运用这种方法一方面能保留具有判别能力的特征, 另一方面又可以有效地减少冗余的特征。 2 、基于相关性的方法【3 7 】 基于相关性的方法评价特征子集的标准是:如果某个特征子集包含的每个特 征( 财务指标) 与类别( 是否欺诈) 高度相关,同时这些特征相互之间不相关或弱相 关,则它就是好的特征子集。若特征子集有k 个特征,则可以用下式来评价s 好坏: m c f s ) = 1 垒f _ 三( 2 2 ) 七+ k ( k 一1 ) 珞 其中r h 是s 中每对特征的相关程度的均值,o 是s 中每个特征与类别的相关程 度的均值。相关程度由“对称不确定性 度量计算: r 巧= 2 x 嚣嵩器 其中h ( x ) 表示x 的熵,h m 表示y 的熵,h ( x i y ) 是给y 时x 的条件熵。对称 不确定性的分子称为互信息量,具有对称性:h h ( x i y ) = h ( y ) 一h l x ) 设x 和y 的取值范围分别为r x 和r y ,则有: 日( x ) = 一p ( x ) l o g ( p ( x ) ) ( 2 4 ) h ( y ) = 一p ( y ) l o g ( p ( y ) ) ( 2 5 ) j ,唧 h ( xl y ) = 一p ( y ) p ( x iy ) l o g ( p ( x iy ” ( 2 6 ) x r xy e r y 对于连续的特征变量需要先对他们进行离散化处理,然后再用上面的公式计 8 江苏大学硕士学位论文 算。 3 、包裹法【蚓 包裹法使用分类准确率来作为判断特征子集好坏的标准。针对研究的数据样 本容量不大,可以采用以交叉验证估计错误率的方法,用下式来判断特征子集s 的好坏: m 脚( s ) = 1 一e 矧( 2 7 ) 其中为用检验样本估计的分类错误率。运用包裹算法选择出的特征子集 通常能提高用目标分类算法建立的分类模型的准确率。但是该方法在评价特征子 集的过程中要启用目标分类算法建立模型并检验其结果,因此花费时间巨大,尤 其是对规模大的数据集、耗时多的分类算法,包裹法可能由于耗时巨大而不能在 实际中应用。 4 、r e l i e f - f 方法【3 9 加】 r e l i e f - f 方法对特征能否辨别相互邻近的样本来作为判断标准。如果对两个 相邻的来自不同类别的样本,特征取值差别大;而对每个相邻的来自相同类别的 样本,特征取值相同或相近,则就是较好的特征。用m 脚m ) 表示特征a 的判 别能力,可用如下公式定量计算: d i f f ( a ,r ,d ,) - d i f f ( a ,r ,s ;) m 脚似) = ( 2 8 ) m 次随机从数据集合中抽取一个样本( m 是待设参数) ,r i 是第i 次从数据集 合中随机抽取的一个样本,d i 是r i 最近邻的来自不同类别的样本,s i 是r 最近 邻的来自相同类别的样本。d i f f ( a , * ,木) 表示两个样本对特征a 的取值之差( 经过正 规化处理以保证不同特征之间的可比性) 。对于离散的特征,d i f f 取1 ( 两样本对 a 取值相同时) 或0 ( 两样本对a 取值不同时) 。在此基础上进一步改进,采用的 办法是对k 个最邻近的样本的贡献值取平均,以平滑数据中的噪音。 2 1 3 建立分类模型 建立一个模型即数据的训练阶段,描述预定的数据集或概念集。训练集是指 数据库中为建立模型而被分析的数据元组集。训练集中的单个元组称为训练样 9 江苏大学硕士学位论文 本,每个训练样本有一个类别标记。一个具体样本的形式可为:( v l , v 2 ,v 。,c ) ; 其中v i 表示属性值,c 表示类别。训练数据样本在数据库中以表结构形式组织存 放,该表有两种类型属性:一种称为类标号属性,另一种称为判定对象属性,也 称条件属性。条件属性又因为类型不同,分为连续属性( 也称数值属性) 和离散属 性( 也称种类属性) 两种。由于提供了每个样本的类标号,这一步也称为有指导的 学习。 2 1 4 模型的评价 该阶段用来评判分类模型的好坏,一般常用的指标是模型的准确率和计算的 复杂度。 ( 1 ) 模型准确率:该指标描述分类模型正确地预测类别属性未知的财务数 据类别的能力,通常情况下,可以使用测试集( 测试集中财务数据的类别指标是 已知的) 来评估模型的准确率。 ( 2 ) 计算复杂度:该指标主要是衡量产生和使用模型的计算开销,依赖于 具体的实现细节和硬件环境,若操作对象是非常巨大的,空间和时问复杂度是分 类问题中必须考虑的一个重要环节。 2 2 常用分类方法 下面主要介绍一些常用分类算法,主要包括:决策树、神经网络、贝叶斯网 络、遗传算法。 2 2 1 决策树 决策树是运用于分类的一种树结构。决策树中每个内部结点代表对某个属性 的一次测试,每条边代表一个测试结果,叶结点代表某个类或者类的分布,最上 面的结点是根结点。 决策树是一种归纳学习算法。从一组无次序、无规则的元组中推理出决策树 表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属 性值的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的类。 从根到叶结点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取 表达式规则。 1 9 8 6 年q u i n l a n 提出了著名的i d 3 算法。在i d 3 算法的基础上,1 9 9 3 年 1 0 江苏大学硕士学位论文 q u i n l a n 又提出了c a 5 算法。为了适应处理大规模数据集的需要,后来又提出了 若干改进的算法,其中s l i q 和s p r i n t 是比较有代表性的两个算法。 1 、i d 3 算法 i d 3 算法的核心是:在决策树各级结点上选择属性时,用信息增益作为属性 的选择标准,在每一个非叶子结点进行测试时,获得关于被测试记录最大的类别 信息。其具体方法是:检测所有的属性,选择信息增益最大的属性产生决策树结 点,由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策 树结点的分支,直到所有子集仅包含同一类别的数据为止。最后得到一棵决策树, 它可以用来对新的样本进行分类。某属性的信息增益按下列方法计算。通过计算 每个属性的信息增益,并比较它们的大小,就不难获得具有最大信息增益的属性。 设s 是s 个数据样本的集合。假定类标号属性具有m 个不同值,定义m 个 不同类c i ( i = 1 ,m ) 。设s i 是类c i 中的样本数。对一个给定的样本分类所需的期 望信息e h - f 式给出:其中p i = s 洳是任意样本属于c i 的概率【刀。 设属性a 具有v 个不同值 a l , a 2 ,a v 。可以用属性a 将s 划分为v 个子 集 s l ,s 2 ,s v ,其中s j 中的样本在属性a 上具有相同的值a j ( j = 1 ,2 ,v ) 。 设鼬是子集s j 中类c i 的样本数。熵值越小,子集划分的纯度越高。在属性a 上 分枝将获得的信息增益是:g a i n ( a ) = i ( s l ,s 2 ,s i i i ) e ( a ) i d 3 算法的优点是:算法的理论清晰,方法简单,学习能力较强。其缺点是: 只对比较小的数据集有效,且对噪声比较敏感,当训练数据集较大时,决策树可 能会随之改变。 2 、c 4 5 算法 c 4 5 算法继承了i d 3 算法的优点,并在以下几方面对i d 3 算法进行了改进: ( 1 ) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取 值多的属性的不足。 ( 2 ) 在树构造过程中进行剪枝。 ( 3 ) 能够完成对连续属性的离散化处理。 ( 4 ) 能够对不完整数据进行处理。 c a 5 算法与其它分类算法如统计方法、神经网络等比较起来有如下优点: 产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对 江苏大学硕士学位论文 数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,c 4 5 只适合 于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。 3 、s l i q 算法 s u q 算法对c 4 5 决策树分类算法的实现方法进行了改进,在决策树的构造 过程中采用了“预排序 和“广度优先策略 两种技术。 4 、s p r i n t 算法 为了减少驻留于内存的数据量,s p r i n t 算法进一步改进了决策树算法的数 据结构,去掉了在s u q 中需要驻留于内存的类别列表,将它的类别列合并到每 个属性列表中。这样,在遍历每个属性列表寻找当前结点的最优分裂标准时,不 必参照其他信息,将对结点的分裂表现在对属性列表的分裂,即将每个属性列表 分成两个,分别存放属于各个结点的记录。 s p r i n t 算法的优点是在寻找每个结点的最优分裂标准时变得更简单。其缺 点是对非分裂属性的属性列表进行分裂变得很困难。解决的办法是对分裂属性进 行分裂时用哈希表记录下每个记录属于哪个孩子结点,若内存能够容纳下整个哈 希表,其他属性列表的分裂只需参照该哈希表即可。由于哈希表的大小与训练集 的大小成正比,当训练集很大时,哈希表可能无法在内存容纳,此时分裂只能分 批执行,这使得s p r i n t 算法的可伸缩性仍然不是很好。 2 2 2 神经元网络 人工神经网络是以工程技术手段模拟人脑神经网络的结构和功能,它的特点 就是信息的分布式存储和并行协同处理,是巨量信息并行处理和大规模平行计算 的基础,既是高度非线性动力系统,又是自适应组织系统。人工神经网络可用来 描述认识,决策及控制的智能行为,主要用于分类、聚类、特征提取、控制系统、 动态系统建模和模式识别等领域。 在人工神经网络中,人工神经元又被称为处理单元( p e :p r o c e s s i n ge l e m e n t ) 或节点( n o d e ) ,是神经网络的基本处理单元。一般地来说,一个神经元结构应 具备以下几个要素: 1 、输入矢量x ( 勋勉,而) 和输出标量y 。 2 、权重矢量w ( w l ,w 2 ,w n ) 和阈值标量口。 3 、神经元功能,包括求和函数和传递函数f 。f 一般根据需要选取各种函 1 2 江苏大学硕士学位论文 数形式。该人工神经元是一个多输入、单输出的非线性单元,我们用五表示神经 元从各个连接获取的输入量,其输入输出关系可描述为 i ,= w 声z 厂幺 ( 2 9 ) j = l y ;= 厂( ,;)( 2 1 0 ) 上式中,x i ( j = 1 ,2 ,3 ,n ) 是从其它细胞传来的输入信号。o i 为阈值,w j i 表示 从细胞j 到细胞i 的连接权值。将i i 统一表达成 ,j = w 直z , ( 2 1 1 ) ,;o 上式中,w o i = - o , ,x o = 1 。 传递函数f 伍) 可为线性函数,或s 状的非线性函数,或具有任意阶导数的非 线性函数。常见的传递函数有如下形式: 1 、阶跃函数 例如,当y i 取0 或者1 时,发f ( x ) 取 刷- 妊三: m 矽 2 、s i g m o i d 型函数 厂g ) 2 碉1 ( 2 - 1 3 ) 3 、高斯型函数 例如,在径向基神经网络中,神经元的结构用高斯函数描述为 咒:e x 0 一嘉g ,一) 2 、1 ( 2 1 4 ) 胪饮义一耳争协,一 仁1 4 式中,盯? 为标准化参数。 2 2 3 贝叶斯网络 贝叶斯分类法是统计学的分类方法,主要是利用9 2 叶斯定理来预测一个未知 类别的样本属于各个类的可能性,选择其中可能性最大的一个类别作为该样本的 最终类别。贝叶斯分类方法是一种具有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论