




已阅读5页,还剩68页未读, 继续免费阅读
(计算机应用技术专业论文)面向审计风险管理的聚类算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
、 p,。,。nr i !,扣, ; t ; 。r r班一簟譬-,i 、 :, 一 ,。 同意学校保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行 检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 保密口, 在年解密后适用本授权书。 不保密 学位敝作者签编嬲 如1f 年易月7 日 ? 孑吟 如f 7 年乡月庙 江苏大学硕士学位论文 江苏大学学位论文独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容以 外,本论文不包含任何其它个人或集体已经发表或撰写过的作品 成果。对本文的研究做出重要贡献的个人和集体,均已在文中以 明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名嘶凇 同期:加f ,1 年易月,。月 江苏大学硕士学位论文 i 笥要 聚类是数据挖掘中一种深层次的数据分析方法,在数据探索、识别数据的内 在结构和经济分析等方面具有极其重要的作用,已成为数据挖掘、统计学和机器 学习等领域的重要研究方向。聚类可以较好地发现数据中潜在的规律和联系,将 其应用于审计风险管理的研究中,能给审计人员提供审计依据和判断,对提高审 计效率和结果质量、降低审计风险和改善审计风险管理环境都具有重要作用。因 此,深入研究聚类技术在审讨风险管理中的应用将具有较高的理论意义和十分重 要的应用前景。 本文比较全面地介绍了聚类在审计风险管理应用的研究现状,总结了聚类和 审计风险管理的基本概念及知识体系,并重点探究了审计风险管理中的数据疑点 和抽样j x l 险对审计工作产生的影响,提出了一种基于聚类技术的解决方案。结合 相关研究成果,设计并实现了一个基于聚类的审计挖掘系统。 论文的主要研究成果包括以下几个方面: 1 、总结了数据挖掘及聚类在审计j x l 险管理中的研究现状,详细介绍了聚类和 审计风险管理的知识体系,探讨了聚类技术在审计风险管理中的应用。 2 、深入分析了划分算法k m e a n s 和层次算法c u r e ,提出了一种基于划分和 层次的混合动态聚类算法。该算法首先使用划分聚类快速生成一定数量的子簇, 然后根据整体相似度对测试样本进行自动聚类,并适时剔除孤立点。实验表明该 方法具有较高的准确率,并能够有效地减少样本训练时问。 3 、针对抽样审计方法在大规模数据集特征不明显情形下对审计风险评估不可 靠的问题,将聚类技术引入到分层抽样中,提出了一种基于聚类技术的审计分层 抽样算法。该算法通过改进聚类算法中的k m e a n s 算法,对审计抽样中的分层抽 样算法进行优化,在保证层次抽样数据代表性的前提下,不但缩小审计抽样的样 本量,缩短审计抽样的时间,而且降低审计风险,提高审计效率。 4 、在分析了j a v a 平台组件开发技术的基础上,综合所提出的改进算法,设计 并实现了一个基于j 2 e e 多层体系结构的审计数据挖掘系统。该系统功能包括数据 的提取、数据预处理、聚类分析挖掘和挖掘结果的表示等。 关键词:数据挖掘,聚类,审计风险管理,混合动态,审计分层抽样 t a s ko ft h ee c o n o m i ca n a l y s i s i th a sb e c o m eo n eo ft h em o s ti m p o r t a n tr e s e a r c ht o p i ci n t h ef i l e do fd a t am i n i n g ,s t a t i s t i c sa n dm a c h i n el e a r n i n g c l u s t e r i n gc a nb e t t e rf i n dt h e p o t e n t i a lr e g u l a r i t ya n dc o n n e c t i o no fd a t a ,a n dt h e np r o v i d eu s e f u la u d i te v i d e n c e sa n d j u d g m e n t sf o rt h ea u d i t o r si nt h ea u d i tr i s km a n a g e m e n t i tp l a y sa ni m p o r t a n tr o l ei n i m p r o v i n gt h ea u d i te f f i c i e n c ya n dq u a l i t yw h i l s tl o w e r i n gt h ea u d i tr i s k s t h e r e f o r e ,t h e r e s e a r c ho nc l u s t e r i n gi nt h ea u d i tr i s km a n a g e m e n th a si m p o r t a n tt h e o r i e sm e a n i n ga n d b r o a da p p l i c a t i o np r o s p e c t t h i sp a p e rc o m p r e h e n s i v e l yr e v i e w sa b r o a da n dd o m e s t i cr e s e a r c hs t a t u so ft h e c l u s t e r i n gi nt h ea p p l i c a t i o no fa u d i tr i s km a n a g e m e n ta n ds u m m a r i z e sb a s i cc o n c e p t s a n dk n o w l e d g eh i e r a r c h yo ft h ec l u s t e r i n gt e c h n o l o g ya n dt h ea u d i tr i s km a n a g e m e n t t h ee m p h a s i si sp l a c e do nt h ea n a l y s i so ft h ef a c tt h a td o u b t f u lp o i n t sa n d s a m p l i n gr i s k i n f l u e n c eo nt h ea u d i tw o r kw h i l eac o r r e s p o n d i n gs o l u t i o nb a s e do n c l u s t e r i n g t e c h n o l o g y i s p r o p o s e d m e a n w h i l e ,a n a u d i t m i n i n gs y s t e m i s d e s i g n e da n d i m p l e m e n t e do nt h eb a s i so ft h er e l a t e dr e s e a r c hm e n t i o n e da b o v e t h em a i na c h i e v e m e n t si no u rw o r ka r el i s t e da sf o l l o w s : 1 、s u m m a r i z e st h er e s e a r c hs t a t u so fd a t am i n i n ga n dc l u s t e r i n gi nt h ea u d i tr i s k m a n a g e m e n t ,i n t r o d u c e st h ek n o w l e d g es y s t e mo fc l u s t e r i n ga n da u d i tr i s km a n a g e m e n t , a n dm a k e sad e t a i ld i s c u s s i o nf o rc l u s t e r i n gt e c h n i q u ei nt h ea p p l i c a t i o no fa u d i tr i s k m a n a g e m e n t 2 、ah y b r i dd y n a m i cc l u s t e r i n ga l g o r i t h mb a s e do nt h ep a r t i t i o na n dh i e r a r c h i c a l t e c h n i q u e si sp r o p o s e db ym e a n so ft h ea n a l y s i so fk m e a n sa n dc u r ea l g o r i t h m s a t f i r s t ,t h ei n p u td a t as e ti sp a r t i t i o n e di n t oan u m b e ro fs u b c l u s t e r s ,a n dt h e nt h e s u b c l u s t e r sa r em e r g e dd y n a m i c a l l yi nah i e r a r c h i c a lm a n n e rw i t ht h eo v e r a l ls i m i l a r i t y u s e dt oe v a l u a t et h ec l u s t e r s q u a l i t y a tt h es a m et i m e ,a na p p r o a c hw h i c hi se m p l o y e d t oe l i m i n a t et h eo u t l i e r sd u r i n g c l u s t e r i n gi s a l s o d e s c r i b e d e x p e r i m e n t a lr e s u l t s s h o w e dt h a tt h ep r o p o s e dm e t h o dh a sah i g hp r e c i s i o nw h i l ee f f e c t i v e l yr e d u c i n gt h e t r a i n i n gt i m e 3 、i no r d e rt or e d u c et h er i s kb r o u g h tb yt h ei n c o n s p i c u o u sc h a r a c t e r i s t i co f 江苏大学硕士学位论文 l a r g e - s c a l ed a t as e t sw h i c hw o u l dl e a dt ot h eu n r e l i a b i l i t yo fe s t i m a t i n ga u d i tr i s k ,a n a u d i t i n gs t r a t i f i e ds a m p l i n gm e t h o dw h i c hi sb a s e do nc l u s t e r i n gi sp r o p o s e dt h r o u g h i n t r o d u c i n gc l u s t e r i n ga l g o r i t h mt ot h ep r o c e s so ft h ea u d i ts a m p l i n ga p p l i c a t i o n b a s e d o nt h ei m p r o v e dk - m e a n sa l g o r i t h m ,t h ep r o p o s e dm e t h o df u r t h e ro p t i m i z e st h e s t r a t i f i e ds a m p l i n gp r o c e s su n d e rt h ep r e m i s eo fg u a r a n t e e i n gr e p r e s e n t a t i v e n e s so ft h e s a m p l ed a t a ,t h a tn o to n l yr e d u c e st h en u m b e ro fa u d i ts a m p l i n ga n ds h o r t e n st h ea u d i t s a m p l i n gt i m e ,b u ta l s ol o w e r st h ea u d i t i n gr i s k s i na d d i t i o n ,i ta l s oi m p r o v e s t h ea u d i t e f f i c i e n c y 4 、o nt h eb a s i so fa n a l y z i n gt h ej a v ac o m p o n e n td e v e l o p m e n tt e c h n o l o g y , t h i s p a p e rd e s i g n sa n di m p l e m e n t sa na u d i td a t am i n i n gs y s t e mu n d e rt h ef r a m e w o r ko f j 2 e e m u l t i l a y e rs y s t e m i t s f u n c t i o n a lm o d u l e si n c l u d ed a t a e x t r a c t i o n ,d a t a p r e p r o c e s s i n g ,d a t am i n i n ga n dr e s u l t ss h o w i n g k e yw o r d s :d a t a m i n i n g ,c l u s t e r i n g ,a u d i tr i s km a n a g e m e n t , h y b r i da n dd y n a m i c ,s t r a t i f i e ds a m p l i n g 江苏大学硕士学位论文 目录 第一章绪论l 1 1研究背景与意义1 1 2 国内外研究王见状3 1 3 本文的研究目标及主要工作5 1 4 论文纬构安排6 第二章聚类与审计风险管理8 2 1聚类概述8 2 1 1 聚类的定义和要求一8 2 1 2聚类算法的分类1 1 2 1 3 聚类过程13 2 1 4 聚类中的数据类型1 4 2 2 审计风险管理l5 2 2 1 审计风险特征1 5 2 2 2审计风险成因1 6 2 2 3 审计风险管理18 2 3聚类在审计风险管理中的应用1 9 2 4 本章小结2 2 第三章基于划分和层次的混合动态聚类2 3 3 1 相关聚类算法2 3 3 1 1k m e a n s 算法2 3 3 1 2 c u r e 算法一2 4 3 1 3 孤立点检测和分析2 6 3 2 基于划分和层次的混合动态聚类算法2 8 3 2 1整体相似度2 8 3 2 2 算法思想2 8 3 2 3 算法实现2 9 3 3 实验结果分析3 2 3 3 1时间复杂度分析3 2 3 - 3 2算法性能比较3 2 3 4 本章小结3 5 第四章基于聚类技术的审计分层抽样一3 6 4 1审计数据抽样。3 6 4 2 分层抽样3 7 4 3 基于聚类技术的审计分层抽样算法3 9 4 3 1密度函数3 9 4 3 2 聚类质量评价标准一4 0 4 3 3算法思想4 1 4 3 4 算法实现4 2 4 4 实验结果分析4 6 4 4 1算法性能比较4 6 l v 江苏大学硕士学位论文 4 4 2 维数对算法性能的影响4 7 4 5 本章小结4 8 第五章审计数据挖掘系统的设计与实现4 9 5 1系统设计目标4 9 5 2 原型系统总体设计4 9 5 3系统应用举例5 2 5 3 1系统开发环境5 2 5 3 2 数据预处理5 2 5 3 3 聚类分析挖掘5 3 5 3 4 聚类结果分析5 5 5 4 本章小结5 6 第六章结论与展望5 7 6 1本文的主要工作及结论5 7 6 2 对今后工作研究的建议5 7 参考文献5 9 v 2 3 3 6 6 6 文目论项的的表与发参问问期期frr 研研读读 谢 : k;c、_i 录录致附附 江苏大学硕士学位论文 1 1 研究背景与意义 第一章绪论 在审计领域,计算机技术对审计的理论和实践产生了重大影响,传统的审计 理念和方法都受到了重大的冲击,计算机环境下的审计风险闯题越来越受到人们 的关注,其风险管理研究的理论体系尚未成熟,在审计风险管理中还存在很多问 题。因此,对审计风险管理进行研究是十分必要和迫切的i i 】,其意义与作用主要表 现在以下几个方面: ( 1 ) 审计风险管理的必要性。审计风险是客观存在的,它存在于审计项目的全 过程,只要有审计活动存在,必然就有审计风险的存在,它不以人的意志为转移 的。审计人员只能采取一定的措施去降低或控制审计风险,而不能刻意回避审计 风险。审计风险是一种潜在的风险,具有不确定性,一般难以计量,并且审计风 险一旦发生,就可能造成严重的危害或后果。因而,要求审计人员必须能主动地 去发现和识别审计风险,对其进行分析、比较、控制等等,对审计风险进行有效 管理具有现实的必要性。 ( 2 ) 审计风险管理的可行性。虽然审计风险是客观存在,而且不能完全消除, 但并不意味着审计人员对审计风险是无能无力的。理论和实践表明,通过恰当的 审计程序和运用完善的审计方法是可以将审计风险控制在一定可接受的水平。随 着现代风险管理理论和审计理论研究的不断发展,审计风险管理的思想和方法也 得到进一步拓展,为审计人员进行审计风险管理提供了基础。因此,对审计风险 进行有效管理具有现实的可行性。 ( 3 ) 审计风险管理的作用性。审计风险管理有助于审计人员提高审计质量,减 少审计风险。审计人员通过审计风险管理,可以促进审计业务的高质量进行,保 持良好的形象和信誉,有利于提高竞争优势。同时,对审计风险进行有效管理, 也有利于企业识别和控制各种潜在的风险,从而有效避免可能发生的损失,保障 社会公众利益和维护社会经济秩序等。 目前在审计风险管理研究中,特别在数据分析方面,审计模式逐步由制度导 向模式向风险导向模式发展【2 1 ,审计更注重审计风险的控制和识别,审计重心前移, 江苏大学硕士学位论文 配之以同步发展的计算机强大的数据分析能力,分析性复核作为现代风险导向审 计的重要特征之一被审计人员广泛地采用成为实质性测试的关键。但是分析性程 序的广泛使用也不能避免审计失败,审计风险是客观存在的,它存在于审计的全 过程中,这种客观存在是不可避免的。另外,控制抽样风险也是审计风险管理的 一种形式1 3 】,由于信息系统中积累的大量数据往往呈现规律性和关联性,以往国内 的审计专业人员面对这些开放、集成、大量的数据进行审计工作时,往往是凭审 计经验进行抽查,便得出一个审计结论。这种传统做法明显具有主观性,既不具 科学性,又不具较高的可信度,对这些数据中存在着丰富的信息常常无能为力。 于是如何有效地将数据转化为信息,进而得出审计知识、降低审计风险成为审计 理沦和实践的前沿问题。计算机技术的迅速发展使得处理数据成为可能,人们结 合统计学、数据库、机器学习等技术,提出数据挖掘来解决这一课题【4 j ,充分利用 数据库技术的最新成果,将数据挖掘技术中的分类、聚类以及离群点挖掘等应用 到审计风险管理中。数据挖掘在审计风险管理中的发展趋势是用模糊数学、统计 学等学科的方法建立数理模型,把j x l 险进行数量化,并利用聚类分析技术、审计 离群知识发现技术、关联规则挖掘技术、序列模式挖掘技术等先进技术将现实经 济关系进行高度抽象,从而减轻审计人员的负担,而且能够提高审计风险管理的 质量。 聚类是数据挖掘中一种深层次的数据分析方法,发展到现在已经是一个跨学 科多交叉的领域,它被应用于经济分析、模式识别、图像处理、数据分析等领域1 5 j 。 通过聚类,可以把无标识数据对象自动分为不同的类,并且可以不受人的先验知 识的约束和干扰,从而获取属于数据集合中原本存在的信息,进而发现整个全体 的分布模式,以及数据属性之间所存在有价值的相互关系,从而可以帮助专业人 员发现数据中所存在的规律和特征。聚类作为数据挖掘技术其中之一,在商业、 医学领域已经得到了很大程度的发展1 6 , 7 1 ,但是在审计中显得比较缺乏。在审计中, 对于特定交易记录群的分析可以将不同特征划分为不同的特征群,从而描述各个 群的特征,找出离群孤立点1 8 , 9 1 ,对其重点分析,确定审计风险,发现审计线索。 从这个角度讲,聚类分析技术可以满足审计风险管理的要求,它将审计对象按照 审计风险的等级进行归类,其优势是摆脱了审计人员的先验知识或知识局限,是 科学而非靠直觉地使得具有相似行为特征的对象聚为一类。在真实性审计和合法 2 江苏大学硕士学位论文 性审计中,离群数据可能意味着欺诈行为,因此离群数据检测和分析对于审计知 识的发现而言,是非常有意义的数据挖掘任务。一般来说,离群数据背后隐藏的 信息更有趣,也是发现知识、揭露舞弊的重要途径。因此引入聚类技术到审计方 法中,针对性极强,能更好的帮助审计人员做出判断。它在计算机软件的辅助下, 可以在保汪科学性的前提下,能够有效地提高审计效率并降低审计风险,有助于 揭示审计数据中隐藏的有价值的知识,并能辅助审计人员为得出审计结论、出具 合理保证的审计报告获取充分、适当的审计证据。这种实际结合的实例在现阶段 十分缺乏,并在实际审计工作中会得到长远的发展和广泛的利用,聚类方法在审 计中的应用有着极其重要意义。 本课题探讨聚类技术在审计中的应用前景,利用聚类技术对实际数据进行聚 类、孤立点发现等尝试性的探讨,按照数据挖掘的标准流程,设计聚类技术在审 计中应用的挖掘系统,以辅助审计实践中把握审计风险,锁定审计目标,弥补手 工审计不能全面把握数据的缺点,提高审计质量,降低审计风险,以期望找到解 决审计数据分析问题的突破口。 1 2 国内外研究现状 如何在计算机环境下有效地控制不确定因素引发的审计风险及其不良后果, 期望以最大限度的安全保障,达到最理想的审计结果,完善审计风险管理体系己 成为了审计理论界和实务界极为关注的课题。 在审计风险管理与数据挖掘结合方面,易仁萍等i lo j 在我国较早探讨审计框架 下的数据挖掘技术的应用,定义了一个工作流程为数据预处理、规则学习模块、 规则库的数据更新、审计系统的训练与测试的审计框架,提出基于该框架利用数 据挖掘技术对原始审计数据进行数据清洗并进行挖掘,形成可疑数据并对其进行 审计。该框架的实现为现代化审计提供新的思路和方法,同时还可克服传统的手 工审计手段已不能适应审计工作需求的缺陷,也可为解决审计系统的动态维护提 供便利。但文中只是提出了审计框架下的数据挖掘技术的应用方向,并没有具体 说明审计和数据挖掘的结合方法和方式。胡荣、陈月昆i l l l 针对现代审计数据复杂、 规模大的特点,借鉴数据挖掘技术在知识库、商务决策、医学等方面的成功应用 经验,构建了d m 审计应用过程模型,分析了审计工作与数据挖掘互动的工作流 3 江苏大学硕士学位论文 程,并尝试性的提出关联分析和聚类分析这两种常用数据挖掘方法在审 用。汪加才、朱艺华1 1 2 】结合数据挖掘技术,详细分析了数据挖掘服务的构造、发 现、合成、移动,提出了一个基于移动数据挖掘服务的计算机审计框架模型。但 以上方法仅是理论和逻辑上的探讨,缺乏实际数据的支持。 在数据挖掘应用于审计风险管理实务方面,苏光奎、苏彦l l3 j 针对目前商业银 行所面临的信用风险,明确指出了银行监管数据挖掘的实施步骤,阐明数据挖掘 技术在数据分析中的应用,并借鉴国外银行的成功经验,详细介绍了在风险管理 中从设定对象、目标,到具体实施的过程,最后设计了一个完整的商业智能系统, 但其方法多采用金融统计方法,没有体现出数据挖掘的可用空间。美国m e l l o n 银 行【1 4 1 自1 9 9 5 年开始与i b m 合作,重点研究一种称为数据智能挖掘者( i n t e l l i g e n t m i n e rf o rd a t a ) 的多平台数据挖掘工具。m e l l o n 银行将其运用于客户关系管理、市 场营销、风险管理、业务过程再设计,对客户资料进行不同角度的分析,其中的 风险管理更注重于对市场风险的监控,比如利用数据智能挖掘者构建信用卡损耗 模型来分析客户的消费模式,预测客户会放弃使用m e l l o n 银行的信用卡而转向其 他竞争对手的风险性,进而采取有效措施,这对m e l l o n 银行乃至美国银行业产生 深刻的影响。此外西方发达国家银行也纷纷将数据挖掘技术应用到风险管理中, 开发了许多有实用价值的数据挖掘模型,如j p m o r g e n 银行开发了c r e d i tm e t r i c s 模型,瑞士信贷第一波士顿的c r e d i tr i s k 模型等。 在公司财务审计风险管理研究方面,很多研究者引入了分类或者聚类挖掘方 法。k o t s i a n t i s 等人【”l 将多种识别方法以组件的形式构建混合的报表识别系统;刘 君、王丽平【m 】采用径向概率神经网络建立模型,并且与传统线性模型相比较,其 预测精度提高;李剑锋等【i7 】根据一些关键的财务指标将聚类分析方法应用于上市 公司财务分析;刘曼、罗慧8 】使用神经网络方法对比了判别分析法以及逻辑回归 法,并提出了一种混合模型,提高了预警效果;b e l l 等人1 1 9 j 设计并实现了一个逻 辑回归模型,为用户提供财务报表存在风险的可能性估计。 在审计风险的欺诈检测研究中,美国注册会计师协会于1 9 9 6 年4 月3 日发表 了公告财务报表审计中对舞弊的考虑后,审计师有责任在财务报表审计中发 现重大舞弊,审计的职责是计划和实施审计,以便对财务报告中是否含有由于错 误( e r r o r ) 和舞弊( f r a u d ) 弓 起的重大错报提供合理的保证:黄晓辉等【2 0 】针对传统的 4 江苏大学硕士学位论文 数据挖掘方法在处理欺诈检测问题时存在很大的局限性,进行了基于免疫网络的 分类应用于审计欺诈检测研究,提出了一种基于训练数据构建自我和非我网络来 提取j 下常模式和欺诈模式,并做了相应的试验验证,具有较好的分类能力和欺诈 检测能力;谯虹等人1 2 i j 利用g m d h 模型对我国上市公司虚假财务报告进行识别, 得到财务造假征兆的5 个关键异动指标,具有较高的识别率和预测能力;蔡志岳 等人【2 2 1 在财务定量指标的基础上引入治理指标等定性信息,建立了l o g i s t i c 回归分 析预警模型和混合b p 神经网络预警模型,其披露上市公司舞弊信息的预测能力更 强;e f s t a t h i o sk i r k o 等人f 2 3 】选取1 0 个财务指标运用决策树和贝叶斯信仰网络方法 对舞弊和非舞弊公司进行判别。上述的各种方法大都建立在传统的统计学基础之 上,当有足够且合适的数据时,可以获得较为满意的结果。然而,在财务报表识 别问题中,舞弊数据难以获得,另外,基于传统的统计学的审计方法的局限性在 很大程度上制约了舞弊行为识别技术发展。 从以上研究中发现,数据挖掘的重要性已经被审计界所接受,聚类技术在审 计领域中的应用研究存在以下几个方面的不足: ( 1 ) 对审计中疑点数据的检测未充分考虑聚类技术的应用。在审计数据分析方 面中可以运用聚类发现数据中的疑点问题,并对聚类算法进行参数优化,以此优 化算法的性能,降低审计风险; ( 2 ) 对审计方法的缺陷未有效地利用聚类技术进行弥补。在审计过程中可以运 用聚类技术对特征空间中样本具体的分布信息进行分析,来辅助审计人员抽取高 质量的样本和控制抽样风险。 为此,本文探究了在审计风险管理中的数据疑点和抽样风险对审计工作产生 的影响,并由此提出运用聚类技术进行相应的解决方案。设计实现了一个审计挖 掘系统,进一步论证了本文所提的方法的有效性和可行性。 1 3 本文的研究目标及主要工作 本文在分析了聚类技术在审计风险管理应用中的国内外研究现状基础上,提 出了多种支持聚类技术的改进方案。在研究划分和层次聚类算法的基础上,将二 者相结合,以确定审计重点为目的,提出一种基于划分和层次的混合动态聚类算 法。针对审计抽样风险的问题,提出了一种基于聚类技术的审计分层抽样算法。 江苏大学硕士学位论文 并在此基础上设计实现一个基于聚类的审计挖掘原型系统。 具体研究内容包括: l 、介绍了聚类的基本概念、常用聚类算法、审计j x l 险管理等,探讨了聚类技 术在审计风险管理巾的应用。 2 、基于划分和层次的混合动态聚类算法的研究与实现。深入分析了划分算法 k m e a n s 和层次算法c u r e 算法,并在此基础上实现了一种基于划分和层次的混 合动态聚类算法,该算法首先使用划分聚类快速生成一定数量的子簇,然后使用 整体相似度对测试样本进行自动聚类,并适时剔除孤立点。实验表明该方法具有 较高的准确率,并能够有效地减少样本训练时问。 3 、基于聚类方法的审计分层抽样的研究与实现。针对抽样审计方法在大规模 数据集特征不明显情形下对审计风险评估不可靠的问题,将聚类技术引入到分层 抽样中,提出了一种基于聚类技术的审计分层抽样算法。该算法通过改进聚类算 法中的k m e a n s 算法,对审计抽样中的分层抽样算法进行优化,在保证层次抽样 数据代表性的前提下,不但缩小审计抽样的样本量,缩短审计抽样的时间,而且 降低审计风险,提高审计效率和结果。 4 、初步设计实现了一个审计数据挖掘系统。在分析j a v a 平台组件开发技术 的基础上,综合本文所提出的改进算法,设计并实现了一个基于j 2 e e 多层体系结 构的审计数据挖掘系统,其功能包括数据的提取,简单的数据预处理,聚类分析 挖掘和挖掘结果的表示。根据挖掘结果可以推断出重点审计对象,发现审计数据 中的有效的规则和模式,并对数据作出预测给审计人员提供有价值的参考,从而 辅助审计人员进行判断。 1 4 论文结构安排 全文共分六章,具体安排如下: 第一章绪论部分,阐述了所选课题的研究背景和意义,重点介绍了数据挖掘 及聚类在审计风险管理中的研究现状,给出了课题的主要研究目标、研究成果以 及章节安排。 第二章对聚类的基本概念、知识体系进行了介绍,阐述了审计风险管理的相 关概念和定义,探讨了聚类技术在审计风险管理中的应用。 6 江苏大学硕士学位论文 第三章讨论了划分算法k m e a n s 和层次算法c u r e ,针对初始参数和孤立点 对算法的影响,提出一类基于划分和层次的混合动态聚类算法,该算法先使用改 进的k m e a n s 算法将训练样本划分多个簇。接着采用c u r e 对每个簇进行训练, 剔除孤立点,并通过整体相似度来合并每个簇。利用u c i 库中的数据集对改进后 的方法进行了实验验证。 第四章针对抽样审计方法在大规模数据集特征不明显情形下对审计风险评 估不可靠的问题,提出一种基于聚类技术的审计分层抽样算法。该算法首先通过 遗传算法对数据集原始特征集进行处理,对整个特征集进行搜索,寻找最优特征 子集。再采用改进的聚类算法k m e a n s 算法,产生高质量的分层。最后对审计抽 样中的分层抽样算法进行优化,从每层中选择出样本进行重点分析。 第五章介绍了整个审计挖掘系统的设计与实现。给出了基于聚类的审计挖掘 系统原型的详细结构,各模块的主要功能以及实现方法。最后给出了原型系统的 一个应用实例。 第六章对本文的工作进行了归纳和总结。展望了进一步的研究工作。 7 江苏大学硕士学位论文 第二章聚类与审计风险管理 数据挖掘技术已成为目前计算机审计领域研究的热点。国内外大量研究证明, 将数据挖掘技术应用于审计在理论上是可行的。将数据挖掘技术与审计技术相结 合,旨在从海量的审计数据中挖掘出有效的规则和模式,以加速审计人员决策的 过程和提高其决策的准确度。本章阐述了聚类的基本概念及其知识体系,介绍了 审计风险管理的相关概念,分析了聚类技术在审计风险管理中的应用。 2 1聚类概述 聚类技术是数据挖掘算法中非常重要的一种方法,它是一种基于无监督的学 习方法,可以把数据集合按定义的相似性进行分类。聚类技术主要应用于进行数 据探索,并给出数据描述,而且还可以作为数据预测等其他方面应用的前期准备 工作。 2 1 1 聚类的定义和要求 聚类的定义 4 , 5 , 2 4 , 2 5 1 是将物理或抽象对象的集合分组成为由相似的对象组成的 多个类的过程。简单的说,聚类( c l u s t e r i n g ) 是将数据对象分组成若干个类或簇,使 得同一个类内的对象彼此相似,而不同类中的对象相异。聚类又被称为无监督分 类,它与分类分析不同,分类的对象都有类别标记,而要聚类的对象则没有类别 标记,需要由聚类算法来自动确定,即聚类分析对数据对象划分类别之前并不明 确的知道划分的规则,把所有样本作为未知样本进行聚类,对于划分的规则要通 过对聚类结果的分析才能最终得出。因此,聚类和分类根本的不同点是:在分类 中,知道训练样本的分类属性值;而在聚类中,需要在训练样本中找到这个分类 属性值。 定义2 1 :设待聚类分析的数据集用一组有序对仪$ 或仪d ) 表示,这里斥缸l , x 2 ,x n ) ,s ,d 分别是度量样本间相似度或相异度的标准。样本经过聚类算法作用 后,分析数据集x 中的n 个样本所对应的模式矢量问的距离的分散情况,按照各 样本间的距离关系把x l ,x 2 ,x n 划分成一个子集c ,c = c 1 ,c z ,c 3 。,c k ) ,其 中c i ( i _ 1 ,2 ,k ) 是x 的子集。满足: r 江苏大学硕士学位论文 c luc 2u uc k = 五且c i r i c j = 1 2 i ( 1 f - ,k ) ( 2 1 ) 其中x 中的每个对蒙( 或样本讧k ( 1 k 玎) 常用有限个参数值来表示,每个参数 值表示x k 的某个特征。于是对象鲰就伴随着一个向量p ( x k ) = ( x k l ,x k 2 ,x k m ) ,其中 x k m 是x k 在第m 个特征上的赋值,p ( x k ) 称为x k 的特征向量或模式矢量。 集合c 中的成员c l ,c 2 ,c k 就是聚类所得出的类,在聚类中习惯称其每 个类为簇( c l u s t e o 。每个类( 簇) 都是通过一些特征描述的,通常有如下几个集中的 表现方式: ( 1 ) 通过类的中心或类的边界点表示一个类; ( 2 ) 使用样本属性的逻辑表达式表示类; ( 3 ) 使用聚类树中的节点图形化地表示一个类。 聚类技术的一个突出特点是处理复杂、大规模的数据集,根据潜在的各项应 用,对聚类分析方法提出了各种特殊的要求,主要包括几个方面1 4 , 5 】: ( 1 ) 可伸缩性 可伸缩性是指聚类算法不论对于小数据集还是大数据集都应该是有效的。聚 类要处理的数据量通常是大规模的,而超大规模的数据库要求快速的、有效的聚 类算法,其运行时问必须是可预测和可接受的,时间复杂度为指数的算法不具有 实用价值。 ( 2 ) 处理不同数据类型属性的能力 许多算法设计用来聚类数值类型的数据,但是实际应用可能要求聚类其它类 型的数据,如序数型、二元型、分类标称型或者这些类型的混合。 ( 3 ) 发现任意形状的聚类 由于聚类的具体特征在分析前一般是未知的,聚类可能是球形的、凹形的、 嵌套的、狭长形的、中空的等任意复杂的结构和形状,这就要求聚类算法能发现 任意形状的聚类。 ( 4 ) 处理高维数据的能力 低维数据的聚类结果能够比较容易直观地判断聚类的质量,但高维空间中数 据对象之间的关系变得复杂,此问题一直是聚类领域的研究难点。能否可以有效 处理高维数据是衡量一个聚类算法优劣的标准之一。 ( 5 ) 增量聚类和对于输入数据的顺序不敏感 9 江苏大学硕士学位论文 一些聚类算法不能将新加入的数据合并到已有的聚类结构中,而是需要重新 进行聚类。很多聚类算法对于输入数据的顺序是敏感的,例如,对同一个数据集 合进行聚类,当输入数据对象以不同的顺序提交给同一个算法时,可能生成差别 很大的聚类结果。开发增量聚类算法和对输入数据顺序不敏感的算法具有重要意 义。 ( 6 ) 最少的参数和确定参数值的领域知识 许多聚类算法要求用户输入一定的参数,这些预先给定的参数值在很大程度 上决定了聚类的结果,而在实际应用中,合适的参数值很难确定,如果参数值不 符合数据的分布特征,算法就不能获得满意的聚类结果,使聚类质量难以控制。 因此,用户希望算法能依据领域知识或某些原则估计参数的最佳取值。 ( 7 ) 处理噪声数据的能力 噪声普遍存在高维的和大规模的数据库中。一些聚类算法对这样的噪声数据 敏感,可能导致低质量的聚类结果,因此许多领域要求聚类算法具有识别噪声的 能力。另外,在某些特殊应用中,噪声的识别甚至比聚类的发现更有实际意义。 ( 8 ) 高维性 数据库或数据仓库可能包含若干维或属性。许多聚类算法擅长处理低维数据, 只涉及两到三个维。在低维的情况下,聚类算法可以能够很好的判断聚类的质量, 而在高维空间中聚类对象是非常有挑战性的,特别是考虑到这样的数据可能非常 稀疏,而且高度倾斜。 ( 9 ) 基于约束的聚类 实际应用中可能需要在各种约束条件下进行聚类。要找到满足特定约束的具 有良好聚类特性的数据分组是一项具有挑战性的任务。 ( 1 0 ) 可解释性和可用性 用户希望聚类结果是可理解的、可解释的和可用的,要求能够理解所发现的 知识,有效地评价这些知识,区分哪些是有用的、是常识的或孤立的情况。然而 聚类结果的描述却一直是个困难的问题,目前一类方法是利用可视化技术把高维 数据映射到低维空问,将模式以直观的图形方式呈现给用户,使用户可以交互地 分析数据,但是多数可视化技术不适合维数过高的数据空间。另一类方法是用简 单抽象的形式描述聚类,该方法的优点是不受维数的限制,缺点是可能把形状不 l o 江苏大学硕士学位论文 规则的聚类分割成若干区域,使得表达式过于复杂。另外,还可以利用决策树得 到聚类的规则及相关的统计信息,但对形状不规则的聚类同样很难得到简单的规 则。也就说,聚类可能需要与特定的语义解释和应用相联系。应用目标如何影响 聚类特征和方法的选择也是一个重要的研究课题。 2 1 2 聚类算法的分类 目前已出现了许多适用于各种数据类型和不同应用的聚类算法,这些算法一 般可以划分为:划分方法、层次方法、基于密度的方法、基于网格的方法和基于 模型的方法。 ( 1 ) 划分方法( p a r t i t i o n i n gm e t h o d ) 将含有n 个对象的数据集划分为k 个划分,每个划分表示一个簇,且k n 。即 将数据划分为k 组,同时满足:( 1 ) 每个簇至少包含一个对象;( 2 ) 每个对象属于且 只属于一个簇。但在某些模糊划分技术中,这两个要求可以放宽。划分方法一般
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山西省岢岚县高中化学 第四章 非金属及其化合物 4.2 富集在海水中的元素-氯说课稿 新人教版必修1
- 2025煤炭买卖合同
- 2025山东省荷泽市单县农村信用社房贷合同书
- 2025年建筑外墙真石漆施工合同
- 2025新款合同范本样例
- 拍皮球教学设计-2023-2024学年小学音乐一年级下册人音版(主编:曹理)
- 景德镇事业单位笔试真题2025
- 2025民宿租赁合同书范本
- 2025药品批发企业劳动合同书
- 2025职员雇佣合同
- 素养与情操-美术鉴赏的意义
- 2024年保育员考试题库加解析答案
- 2024上海高考英语句子翻译模拟试题及答案解析
- JTS 206-2-2023 水运工程桩基施工规范
- 培养自我控制力意志力培养和自我discipline1
- 2024建筑消防设施检测报告书模板
- 鼻腔冲洗护理技术
- GB 42298-2022手部防护通用技术规范
- 2024年中国人寿招聘笔试参考题库含答案解析
- L型和方形补偿器补偿器计算
- 人格诊断问卷PDQ
评论
0/150
提交评论