(会计学专业论文)基于数据挖掘的审计数据质量控制研究.pdf_第1页
(会计学专业论文)基于数据挖掘的审计数据质量控制研究.pdf_第2页
(会计学专业论文)基于数据挖掘的审计数据质量控制研究.pdf_第3页
(会计学专业论文)基于数据挖掘的审计数据质量控制研究.pdf_第4页
(会计学专业论文)基于数据挖掘的审计数据质量控制研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(会计学专业论文)基于数据挖掘的审计数据质量控制研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内容摘要 审计环境的变化在一定程度上影响着审计理论和实践的发展方向。随着信息技术的快 速发展和社会信息化水平的不断提高,各行业和机构对信息系统的依赖程度也越来越高, 审计人员所面对的不再是纸质账目系统,而是计算机信息系统和多种多样的数据库,首先 看到的不再是纸质账目,而是种类繁多的数据。数据式审计模式也正是在这样的背景下孕 育而生的,它以无可比拟的优势代表着“信息化环境下计算机审计的未来”。在审计环境 信息化条件下,审计证据主要以电子数据的形式存在于被审计单位的信息系统中,这使审 计数据质量日益成为影响审计风险的最重要因素之一。因此,我们应该看到控制审计数据 质量要求的紧迫性,以便在数据式审计模式下合理、有效地降低审计风险,实现审计目标。 论文在整体上采用规范研究的方法,首先从关于数据质量的相关理论谈起,说明了审 计数据质量的概念及其特征需求,提出控制审计数据质量的必要性。进而在分析数据式审 计模式下审计风险新特征的基础上,指出审计数据质量对审计风险,尤其是检查风险的影 响。其次,通过对数据式审计一般流程的细化分析,从技术角度讨论了从审计数据的采集、 整理到数据分析的各个阶段所存在的数据质量问题及其相应的控制方法,并将论文重点放 在了数据分析阶段。然后,根据审计数据分析的需求与数据挖掘技术的特点,指出了利用 数据挖掘技术控制审计数据质量的可行性。由于数据挖掘的实现方式多种多样,为了说明 问题,论文重点选取了基于b e n f o r d 法则的数字分析法,对其在审计数据质量控制中的应 用进行具体分析,并运用实际数据对基于数据挖掘的审计数据质量控制问题进行了解释。 关键词:审计数据质量数据式审计审计风险数据挖掘b e n f o r d 法则 a b s t r a c t t h ec h a n g e so fa u d i te n v i r o n m e n ti n f l u e n c et h ed i r e c t i o no fd e v e l o p m e n ta b o u ta u d i t t h e o r y a n dp r a c t i c ei ns o m ew a y s w i t ht h eq u i c kd e v e l o p i n go fi ta n dc o n t i n u o u se n h a n c i n go f i n f o r m a t i o n a ll e v e l s e v e r a lo fi n d u s t r i e sa n do r g a n i z a t i o n sr e l yo nt h ei n f o r m a t i o ns y s t e mm o r e a n dm o r e t h ea u d i t o r sd on o ta n yl o n g e rf a c eu pt ot h ep a p e ra c c o u n t i n gs y s t e m ,b u tt h e c o m p u t e r i z e di n f o r m a t i o ns y s t e m ;t h e yd on o ta n yl o n g e rs e et h ep a p e l a c c o u n t s ,b u tt h e d i v e r s i f o r md a t a d a t a b a s e da u d i te m e r g e dj u s ti nt h e s ec o n d i t i o n s i ts t a n d sf o rt h ef u t u r eo f t h ec o m p u t e ra u d i ti nt h ei n f o r m a t i o n a lc i r c u m s t a n c ew i t ht h eu n p a r a l l e l e ds u p e r i o r i t y i nt h e c o n d i t i o no fi n f o r m a t i o n b a s e da u d i t e v i d e n c e se x i s ti nt h ei so fe n t e r p r i s e sw h i c hw e r ea u d i t e d w i t ht h ee l e c t r o n i cd a t ac h i e f l y i tm a k e st h eq u a l i t yo fa u d i td a t ab e c o m e so n eo ft h em o s t i m p o r t a n tf a c t o r st h a ti n f l u e n c ea u d i tr i s k t h e r e f o r e w eh a v et o s e et h ep r e s s u r ea b o u t c o n t r o l l i n gt h eq u a l i t yo fa u d i td a t a s ot h a t w ec a nl o w e rt h ea u d i tr i s kr e a s o n a b l ya n d e f f e c t i v e l y , a n da c c o m p l i s ht h ea u d i to b j e c tf i n a l l y t h ep a p e ru s e st h es t a n d a r dr e s e a r c h i n gm e t h o di nt h eo v e r a l l b e g i n n i n gw i t ht h et h e o r y a b o u td a t aq u a l i t y , e x p l a i n st h ec o n c e p t i o na n df e a t u r e so ft h eq u a l i t yo fa u d i td a t a ,p u t sf o r w a r d t h ee s s e n t i a l i t yo fc o n t r o l l i n gt h eq u a l i t yo fa u d i td a t a w h e r e a f t e r , i nt h eb a s i co fa n a l y z i n gt h e n e wc h a r a c t e r i s t i c sa b o u ta u d i tr i s ku n d e rt h em o d eo fd a t a b a s e da u d i t ,i ti n d i c a t e st h e i n f l u e n c e st h a tt h eq u a l i t yo fa u d i td a t ai m p a c to na u d i tr i s k e s p e c i a l l yo nt h ed e t e c t i o nr i s k t h e n t h ep a p e rd i s c u s s e st h ep r o b l e m sa n dc o n t r o l l i n gm e a n sa b o u tt h eq u a l i t yo fa u d i td a t ai ne v e r y p h a s ef r o md a t ag a t h e r , d a t ac o l l a t et od a t aa n a l y s i s ,f r o mt h ev i e wo ft e c h n o l o g y , b ya n a l y z i n g t h ep r o c e s so fd a t a b a s e da u d i ti nd e t a i l ,a n de m p h a s i z e st h ep h r a s eo fd a t aa n a l y s i s a f t e r w a r d s , i tp o i n t so u tt h ef e a s i b i l i t yt h a tc o n t r o l l i n gt h eq u a l i t yo fa u d i td a t au s e sd a t am i n i n g ,a c c o r d i n g t ot h ed e m a n d so fa u d i td a t aa n a l y s i sa n dt h ef e a t u r e so fd a t am i n i n g t h e r ea r em a n yk i n d so f m e a s u r e sa b o u td a t am i n i n g , s oi no r d e rt oi l l u s t r a t et h es t a n d p o i n t ,t h ep a p e rt a k e st h em e t h o do f n u m e r a la n a l y s i sb a s e do nb e n f o r d sl o w , a n da s s a y st h ea p p l i c a t i o no ft h i sm e t h o df o rc o n t r o l t h eq u a l i t yo fa u d i td a t a a n dt h e n ,e x p l a i n st h ep r o b l e ma b o u tc o n t r o l l i n gt h eq u a l i t yo fa u d i t d a t ab a s e do nd a t am i n i n gb yr e a ld a t a k e yw o r d s :q u a l i t yo fa u d i td a t a ;d a t a - b a s e da u d i t ;a u d i tr i s k ;d a t am i n i n g ;b e n f o r d s l o w i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人己经发表或撰写过的研究成果,也不包含为获得天津财经 大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志 对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 糍 签字日期:年 月日 学位论文版权使用授权书 本学位论文作者完全了解天津财经大学有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论 文被查阅和借阅。本人授权天津财经大学可以将学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文, ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:名盏 导师签名: 签字日期:年 月日签字日期: 学位论文作者毕业后去向: 工作单位: 电话: 通讯地址:邮编: 年 7 白 月日 第1 章绪论 1 1 研究背景和选题意义 随着2 0 世纪8 0 年代后期信息技术的飞速发展,审计环境发生了巨大的变化。而在信 息系统环境下开展的审计工作,由于原始凭证的电子化,审计证据主要以电子数据的形式 存在于被审计单位的信息系统中,因而,数据成为审计取证的重要依据,审计的过程与手 段以及审计工具与传统审计相比具有很大的差异,审计数据质量对审计结果及其风险的影 响作用也日益突出。 目前,对数据质量的研究己在会计学、统计学、信息技术等相关领域具有较长的历史, 但学术界和实务部门对审计数据质量的研究却相对较少。然而,在信息系统迅速发展的今 天,数据作为审计取证的重要依据,其质量的高低直接关系到审计风险水平的高低。面对 审计对象这一质的变化,如何转变审计视角,更加有效地控制审计风险以实现审计目标是 我们迫切需要解决的问题,展丌相关研究是非常有必要的。虽然已经有相关学者对审计数 据质量问题展丌了有益的分析,但由于诸多方面的原因,其研究还处于初级阶段,该领域 中尚有许多问题需要探讨。本文正是基于这种思路,从技术角度分析控制审计数据质量的 方法,试探性地提出数据挖掘技术在控制审计数据质量方面的应用,相信这种研究在理论 和现实意义上对数据式审计模式下审计风险的控制研究都是有益的。 1 2 国内外研究概况 1 2 1 关于数据质量的研究 数据质量的研究在国内外萨热烈地丌展。其中,比较有影响力的是美图麻省理工学院 ( m i t ) 的r i c h a r dw a n g 及其所领导的全面数据质量管理( t o t a ld a t aq u a l it ym a n a g e m e n t , t d q m ) 小组。1 9 9 5 年,r i c h a r dw a n g 等人发表的一篇名为“af r a m e w o r kf o ra n a l y s i so f d a t aq u a li t yr e s e a r c h 的文章揭开了数据质量全面、系统研究的序幕。 人们常常抱怨所谓的“数据丰富,信息贫乏”,其中一个原因是缺乏有效的数据分析 技术,而另一个重要原因则是数据质量不高,如数据残缺不全、数据不一致、数据重复等, 导致数据不能有效地被利用。 直观上,数据质量的概念似乎很显然。但在当前的实践中,研究者们尚未给出一个恰 1 当的数据质量的定义。然而,研究者们普通认为,应该从数据使用者的角度定义数据质量。 例如,r i c h a r dw a n g ( 1 9 9 3 ) 认为数据质量是数据适合使用的程度( f i t n e s sf o ru s e ) 。 k a h n ( 1 9 9 8 ) 和c a p p i e l l o ( 2 0 0 4 ) 认为数据质量是数据满足特定用户期望的程度。a e b i ( 1 9 9 3 ) 则认为,数据质量主要指一个信息系统在多大程度上实现了模式( s c h e m a ) 和数据实例 ( i n s t a n c e ) 的一致性,及模式和数据实例在多大程度上实现了正确性( c o r r e c t n e s s ) 、一 致性( c o n s i s t e n c y ) 、完整性( c o m p l e t e n e s s ) 和最小性( m i n i m a l i t y ) 。 在数据质量的控制方法上,方幼林、杨冬青等参照c m m 对软件生产过程的定义建立了 个数据质量成熟度模型。他们将数据质量的成熟度分级为5 层,即初始级、可重复级、 已定义级、已管理级和优化级,分别针对不同等级洋谈了数据质量的控制方法。 也有学者专门从事数据质量和数据清洗工具的研究。其中,数据审计( d a t aa u d i t i n g ) 作为自动化数据清沈的方法,其思路是采用机器学习的方法来发现数据中蕴涵的语义结 构,与此不符的数据作为数据清洗时关注的对象。根据这一思路,l u e e b b e r ( 2 0 0 3 ) 提出了 一个具有代表性的数据质量提高框架。首先,根据应用由领域专家分析确认数据的分布特 征参数。然后,采用不同机器学习算法来推导数据隐含的结构并进一步发现数据偏差。这 个过程不断调整,直到正确识别偏差的比率用户满意为止。为了比较不同算法检测脏数据 的效果,作者提出了一套系统的模拟数据生成方法,以解决算法学习中要人工判断数据对 错的问题。最后这种定制的数据审计算法被数据质量引擎调用,完成对实际脏数据的检测 和错误纠正。这个工具在o u t s ( o u a i l t yi n f o r m a t i o ns y s t e m ) 中应用,证明是有效的。另 外,d a o u i n c i s 提出了一个在协作信息系统中通过各个不同数据源数据的比较、纠正来提 高整个协作信息系统的数据质量的框架。g u a r d i a n l o 和t e l c o r d i a 、i n t e l l i c l e a n 等都是 具有代表性的基于业务规则的数据质量提高工具。 1 2 2 关于数据质量在相关领域的研究 目前,学术界和实务部门对审计数据质量的研究才刚刚起步,但在相关领域如会计学、 信息技术等领域对数据质量的研究己具有较长的历史,这些研究成果对我们在审计背景下 研究数据质量具有参考价值。 ( 1 ) 会计信息质量的研究 有关会计信息质量的研究起步较早,目前已经形成了比较成熟的理论。我国会计信息 质量特征研究课题组探讨了会计领域内会计信息的质量特征。美国财务会计准则委员会 ( f a s b ) 认为,有用的会计信息必须具备相关性和可靠性两个特征,在符合效益大于所费成 会计信息质量特征研究课题组对建立我国会计信息质量特征体系的认识 j 会计研究,2 0 0 6 年第l 期:1 6 - 2 4 本和重要性这两个约束条件下,相关性和可靠性的提高,才使信息符合需要,从而对决策 有用。国际准则委员会( i a s c ) 1 9 8 9 年公布的编制和呈报财务报表的结构指出,使财务 报表提供的信息对使用者有用的质量特征包括可理解性、相关性、可靠性和可比性。其他 关于会计信息质量的研究主要集中在经济、制度和法律层面。 ( 2 ) 金融领域对数据质量的研究 金融信息化发展至今,虽然各个金融机构对如何利用信息技术打造核心竞争力有着不 同的策略和认识,却不约而同地将目光投向了数据。于是,继数据集中和新一代核心业务 系统上线后,c r m 、数据仓库、商业智能等管理分析类软件被当作解决客户问题、产品问 题、成本问题和决策问题的“法宝”,成为银行信息化建设的又一个热点。但是在已经实 施的相关项目中,达到预期效果的却为数不多,耗费巨资的i t 项目最终忽视了一个极其 重要的基础问题数据质量。 中国工商银行信息科技部副总经理吕仲涛指出:虽然银行积累了大量的数据,但是其 可利用率却并不高。他认为,针对数据质量的问题,有两方面的工作:一方面是i t 建设 本身,建立相对稳定的数据模型,是银行i t 工作的长期目标;另一方面,合理、有效地 利用现有数据,挖掘出与银行目前经济效益有关的知识和信息,是银行提高风险范防和经 营管理水平的当务之急。 ( 3 ) 信息技术领域对数据质量的研究 该领域中对数据质量的研究主要集中在信息系统、数据仓库与企业信息化建设等方 面。 信息系统建设中有一句俗语叫“垃圾进,垃圾出”,这就要求为信息系统提供的数据 在质量上是有保障的、是可靠的、能准确反映客观现实。如果数据质量得不到保证,信息 系统的建设就不可能达到预期的质量和效果。r e l f 认为信息系统是对数据进行采集、加工、 传播的全过程,数据是信息系统的根本。 从信息系统控制的角度来看,数据的质量是信息系统控制的一个重要内容,许多专业 组织都提出了数据质量控制的准则和指南。其中比较著名的有:c o b i t 、c o s o 、i s 0 1 9 9 7 7 、 e s a c 等。以c o b i t 为例,c o b i t 标准中有专门关于数据质量的控制标准和审计指南章节, 要求从输入、处理、输出、文档管理等环节进行严格控制和验证措施,以保证信息的质量。 数据是构成信息化的重要成分,所以数据质量也是影响信息系统运行的关键因素。谷 斌在信息系统建设中的数据质量管理体系研究一文中,将影响信息系统数据质量的因 素归纳为五个方面:一是历史原因;二是技术水平限制造成元数据不准确、数据不一致、 数据重复、数据二义性等| 、u j 题;三是设计时没有提供有效合理的数据更新维护途径;四是 信息服务机构缺乏数据质量监督管理措施;五是信息系统的数据质量还受到信息采集过程 中信息选择主体的影响。 业界目前对数据仓库比较公认的定义是美国著名信息工程学家w h i n m o n 博士在其 经典著作中所阐述的“数据仓库,的概念:“一个数据仓库通常是一个面向主题的 ( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e d ) 、相对稳定的( n o n v o l a t i l e ) 、反映时间 变化的( t i m e - v a r i a n t ) 数据集合,它是建立决策支持系统( d s s ) 的数据基础。 方幼林、 杨冬青等人指出,随着数据仓库的深入应用,数据质量问题成为关系到数据仓库建设成败 和数据能否有效应用的重要关键问题。在数据仓库建设过程中,数据建设的成功与否直接 决定着数据仓库的应用质量。他们将数据质量发生的错误分类为:不完整、不详细和不一 致数据。 朱曼如和李庆峰则在分析数据质量问题的研究现状和质量问题产生原因的基础上,得 出“数据质量问题对于企业信息化是一个至关重要的问题”的结论。他们构建了一个数据 质量管理平台,指出该平台不仅可以监控管理企业级数据流和数据质量,并且可以作为企 业数据交换平台。 1 2 3 关于审计数据质量的研究 在信息化条件下,审计工作的对象从传统的纸制账目转变成了种类繁多的电子数据。 针对审计对象这一质的变化,石爱中和孙俭提出了“数据式审计 的概念。他们指出,数 据式审计的最大特点就是对电子数据的直接利用。因而,电子数据成为审计证据的来源, 审计取证的方法由手工审阅账簿资料转向利用自动化分析工具进行数据分析。审计数据的 质量与审计结果的质量密切相关,直接影响审计风险。 面对新的审计环境,已有学者看到了对审计数据质量展开研究的必要性,并积极开展 立项研究。 王吴等首先从审计取证的视角分析了审计数据的需求特征,认为审计数据与审计取证 的需求具有一致性,在此基础上构建了审计数据质量的特征模型,利用一系列关键指标、 次级指标与约束性指标描述了审计数据的质量特征;其次,他们总结了对相关领域数据质 量的研究成果,从审计数据的生命周期( 包括数据生成、数据采集和数据使用三个阶段) 角度分析了数据质量风险成因与对策,以字段缺失为例提出一个数据质量检测的概念模 型,并提出了审计数据资料研究这一领域亟待解决的几个问题;再次,他们通过分析数据 石爱中,孙俭初释数据式审计模式 j 审计研究,2 0 0 5 年第4 期:3 6 质量对审计风险的影响,指出了研究审计数据质量的意义之所在,即:第一,通过研究审 计数据质量问题产生的原因、表现形式、对审计风险的影响,能够丰富和发展信息系统环 境下的审计理论;第二,通过发现审计数据质量问题的产生规律,就能够通过合理的制度 设计和工具选择进行规避和防范,第三,提供审计数据质量的评价和检验方法工具, 为 审计实务提供指导,提高审计工作效率,控制审计风险。 米天胜和张金城认为,出现数据质量问题将直接影响审计分析结果的准确性,降低分 析效率,给审计工作带来障碍。因此,他们在面向数据的计算机审计中数据质量问题的 探讨一文中通过分析计算机审计的一般流程,指出审计数据的采集和采集后数据的清沈、 集成、转换是与审计数据质量息息相关的关键环节。文章对多种数据质量问题进行了详细 分析和分类,提出了提高审计数据质量的一般处理方法和可实现的技术。 陈伟等则阐述了数据质量评估在面向数据的计算机辅助审计,特别是联网审计中的 重要作用,分析了审计数据质量问题产生的原因。结合审计工作的实际,他们给出了审计 数据质量的评估指标,并在此基础一k ,建立了审计数据质量评估模型,研究了审计数据质 量的评估方法。最后以实例介绍了如何评估审计数据质量,为研究联网审计环境下的审计 证据获取技术建立了理论基础。 1 3 本文的研究内容及研究方法 本文首先通过对相关问题研究背景的描述提出要研究的问题;其次对审计数据质量控 制的相关理论进行分析,包括数据质量的相关概念、审计数据质量的重要性以及审计数据 质量与数据式审计风险的关系等方面;进而从技术运用的角度出发,探讨数据式审计流程 中各个阶段的审计数据质量控制方法,并着重以基于b e n f o r d 法则的数字分析法为代表对 数据挖掘技术在审计数据质量中的应用做出了详细的分析;最后,按照数据式审计的一般 流程,通过运用基于b e n f o r d 法则的数据挖掘技术对一个具体实例的分析,证明其在审计 数据质量控制中应用的操作性与可行性。 在研究方法上,本文拟在整体上采用规范研究的方法,从风险导向审计的角度出发, 在归纳总结前人研究成果的基础上,对审计数据质量控制这一问题进行再认识。通过对比 数据式审计模式下的审计风险与传统审计风险的不同之处,分析控制审计数据质量的必要 性,说明利用数据挖掘技术控制数据审计质量的可行性,并在相关章节的分析后,通过对 具体实例的介绍进一步深入理解数据挖掘技术在审计数据质量控制中的应用,做到理论与 矗 实践相结合。最终,在此基础上得出本文的研究结论及对审计数据质量控制发展的进一步 展望。 第2 章审计数据质量控制的理论分析 2 1 数据质量的相关概念 2 1 1 数据质量的定义 数据是为反映客观世界而记录下来的可以鉴别的数字或符号。随着信息处理技术的不 断发展,各行各业已建立了很多计算机信息系统,积累了大量的数据。在这个变化、竞争 的环境里,数据的价值显而易见,数据足提高效率的关键资本。为了使数据能够有效地支 持组织的f 1 常运作和决策,要求数据可靠无误,能够准确地反映现实世界的状况。 据美国g a r t n e r 公司的调查,有1 4 的企业在与低质量的数据打交道。而在国内,这 一比例还要大得多。美国麻省理工学院( m i t ) 的一项调查则表明,只有3 5 的公司相信自己 的数据,1 5 的公司相信合作伙伴的数据。错误的或不充分的数据造成的损失是无法估计 的,在美国仅因“2 0 0 0 年问题 而引起的诉讼费用就达1 0 0 0 0 亿美元。 提到数据质量,人们首先想到的就是控制错误数据的输入,以保证所输入的都是合法 的数据值。实际上,数据质量的定义不仅如此,在不同时期,数据质量有着不同的概念和 标准。2 0 世纪8 0 年代以来,国际上对数据质量的标准基本上是以提高数据准确性为出发 点。但随着质量含义的不断延伸,对数据质量的概念也从狭义向广义转变,准确性不再是 衡量数据质量的唯一标准。2 0 世纪9 0 年代m i t 丌展了全面数据质量管理( t d q m ) 活动, 他们借鉴物理产品质量管理体系的成功经验,提出了基于信息生产系统生产的数据产品的 质量管理体系。t d q m 小组提出,应理解用户的信息需求、对由数据作为具有生命周期的产 品进行管理,要设置数据产品管理员管理数据生产过程和结果。在数据生产过程中形成的 质量,如精度、一致性、完整性等,成为基本要求,对数据用户要求的满意程度也成为衡 量数据质量的重要指标。 总的来看,现代数据质量的概念主要包括以下几个方面:一是注重从用户角度来衡量 数据质量,强调用户对数据的满意程度;二是数据质量是一个综合性概念,需要建立一套 有效的数据质量管理体系,应从多角度来评价数据的好坏;三是适用性、准确性、适时性、 完整性、一致性和可比性等构成了数据质量的基本要素罾。 2 1 2 数据质量的描述框架 许多研究表明,对于数据使用者而言,数据质量是一个多维度或者说是一组属性的概 谷斌信息系统建设中的数据质量管理体系研究【j 】情报杂志,2 0 0 7 年第5 期:6 5 6 7 商广娟有效的数据质量管理体系2 l 世纪管理的皋石 j 】航空标准化与质量,2 0 0 5 年第2 期:l8 - 2 2 念。通俗地讲,描述数据质量的框架应确定从哪些方面来描述数据质量。建立反映领域特 点的数据质量框架,也是数据质量评估首先要解决的问题。 按照数据源的不同可以将数据质量问题划分为4 类:单数据源模式层问题、单数据源 实例层问题、多数据源模式层问题和多数据源实例层问题。建立数据质量控制体系不仅要 明确质量问题的来源,也要明确数据质量的定义。传统的质量要素是指数据的准确性、完 整性、一致性、实时性和唯一性。但是这些指标太抽象,无法进行度量,更无从提供实质 性的指导以提高数据质量,而且数据质量与数据所处的环境密切相关,所以需要建立可以 反映数据用途、可以度量数据质量的定义。m i t 给出的数据质量是一个多维度的概念,它 从数据消费者的角度将与数据质量相关的l1 8 个属性归纳为4 个大类,共1 5 个维度,如 表2 1 所示: 表2 1m it 数据质量描述 类含义包含的维度 本质特性 质量同自属性 b e l i e v a b i l i t y , a c c u r a c y , o b j e c t i v i t y , r e p u t a t i o n ( i n t r i n s i cd a t aq u a l i t y ) 应用相关特性 环境相关的属性 v a l u e - a d d e d ,r e l e v a n c y , t i m e l i n e s s , ( c o n t e x t u a ld a t aq u a l i t y )c o m p l e t e n e s s ,a n da p p r o p r i a t ea m o u n to fd a t a 表现特性与计算机系统存储和表达信息相 i n t e r p r e t a b i l i t y , c a s eo f u n d e r s t a n d i n g , r e p r e s e n t a t i o n a lc o n s i s t e n c y , a n dc o n c i s e ( r e p r e s e n t a t i o n a ld a t aq u a l i t y ) 关的属性 r e p r e s e n t a t i o n 获取特性 信息必须可获取_ r 安全 a c c e s s i b i l i t y , a c c e s ss e c u r i t y ( a c c e s s i b i l i t yd a t aq u a l i t y ) 资料来源:韩京宇,徐立臻,董逸生数据质量研究综述计算机科学,2 0 0 8 年第2 期:卜5 其他一些机构和组织也都从满足用户需要的角度出发,定义了数据质量的标准。下面 是几种不同类型的数据质量描述框架: 国际金融基金会统计部经研究提出的数据质量描述框架( c a r o ls c a r s o n ,2 0 0 0 ) : 包括产品质量与制度质量两大方面,分为5 个域进行描述:完整性、概念一致性、准确性、 服务性及可访问性;每个域再细分为若干元素及指示元素。 欧盟统计局对统计数据质量的描述框架要求包括:适用性、准确性、及时性、可获 取性、衔接性、可比性、方法专业性或完整性。 美国联邦政府对联邦机构向公众传播的数据质量描述框架( o m bg u i d e l i n e s ,2 0 0 3 ) : 实用性、客观性( 准确、可靠、清晰、完整、无歧义) 、安全性。 美国国防部在其数据质量指南中提出的数据质量描述框架( d o dg u i d e l i n e s ,2 0 0 4 ) : 准确度、完整性、一致性、现实性、主键唯一性及值域的有效性。 2 1 3 数据质量的评估方法 8 由上文的分析可以看出,尽管对数据质量的属性描述有不同的看法,但一般认为数据 质量是一个层次分类的概念,每个质量类最终分解成具体的数据质量维度。数据质量评估 的核心就在于如何具体地评估每个维度,目i j 的方法主要分为两类:定性评估的方法和定 量评估的方法。 定性评估的方法主要是对各个维度来分析数据质量的“高”。和“低”,这是目前数据质 量评估方法的主流。例如,按照“c 4 r 数据质量度量法”,将数据质量问题所包含的众多 方面总结起来,高质量的数据至少应满足如下几项要求: ( 1 ) 正确性:在数据报告、转换、分析、存储、传输和应用流程中不存在错误。这项 要求我们又可以从以下两个方面进行考虑: 合法性( v a l i d i t y ) :也就是说数据必须服从业务规则的定义。合法性往往是类似于值 域约束这样的问题。比如,业务舰则定义“性别”字段的取值应该是“男 、“女”、“未知” 中的一个,如果出现“a 、“b 这样的取值,我们就认为数据的合法性存在问题。 准确性( a c c u r a c y ) :指数据能够真实反映企业业务运营的真实情况。准确性是指数据 的格式和内容虽然满足合法性的要求,但值是错误的。必须说明的一点是,合法的数据未 见得是准确的,而准确的数据则一定合法。 ( 2 ) 完整性( c o m p l e t e n e s s ) :大数据量不等于数据是完整的,完整性应体现在数据 的属性取值有无空值以及所取得的数据是否全面。比如,在采集到的所需数据中,有很多 字段都为空值,这可能代表了源系统的数据质量存在问题。 ( 3 ) 一致性( c o n s i s t e n c y ) :一致性体现在数据的定义和维护方面。在信息系统逐渐 扩充的情况下,纳入的数据之间有可能存在不一致的情况。一致性的问题产生的根源是多 方面的,一方面来源于底层数据存储的冗余,导致数据的不一致;另一面是因为某些数据 在企业的多个业务部门有不同的定义,由此导致了某些汇总数据的不一致。 ( 4 ) 当前性( c u r r e n c y ) :在指定的数据与真实的业务情况同步的时间容忍度内,简 单地讲,就是在指定的更新频度内,及时被刷新的数据的百分比。通常情况下,数据变化 得越快,容忍限度就越苛刻。非当前数据通常被认为是不准确的。但是,当前数据也可能 是不准确的。 ( 5 ) 可靠性( r e l i a b i l i t y ) :提供数据的数据源必须能够可靠稳定地提供数据。 但由于定性的分析缺乏客观性和可重现性,定量评估技术j 下逐渐成为一个值得关注的 方向,目前这个方面的研究主要集中在关系数据库数据的质量评估技术。p a r s s i a na 和 。王彦龙企业级数据仓库【m 】北京:电子t 业i l ;版社,2 0 0 6 年:2 4 6 - 2 4 9 s a r k a rs 采取取样计算的方法,对关系数据库数据质量的两个重要维度即精确度和完整度 进行量化,并具体分析了数据质量对四种常见的关系代数操作:选择、投影、笛卡尔积、 连接的影响。m o t r oa 和r a k o vi 提出对关系数据库划分成不同的数据质量区域,分别计 算各区域的数据质量好坏,从而获得相对准确的质量评估值。但这种量化评估方法要靠人 工逐一验证,在实际执行时是很困难的。m i s g i e rp 等则提出对于特定的领域可以通过元 数据来定义质量视图( q u a li t yv i e w ) ,通过这个质量视图来指导具体的数据处理过程。 总而言之,数据可以看作是信息系统环境下制造出的产品,这种特殊产品是为应用而服 务的,数据质量的高低归根结底表现为对应用的满足程度,卓有成效的数据分析应该和具 体应用紧密结合。 2 2 审计数据质量的重要性 2 2 1 审计数据质量概念的提出 随着信息化水平的不断提高,许多组织都建立了与之相应的计算机信息系统,用来存 储和管理组织中大量的业、财数据,人们对信息系统的依赖越末越高。环境的这种改变也 使审计模式发生了巨大的变化系统中输入、处理、输出的电子数据成为新的审计对象, 审计理论和技术、方法等方面也都有了新的内涵。 信息系统建设中有一句俗语叫“g a r b a g ei n ,g a r b a g eo u t ”,这就要求为信息系统提 供的数据在质量上是有保障的,是可靠的,能够准确反映客观现实。同样值得我们关注的 是,近年来审计领域的快速发展使得计算机与审计密不可分,数据式审计模式的理念已深 入人心并且j 下快速地走向实践,数据质量成为数据式审计的基本理论问题。审计数据的质 量与审计结果的质量密切相关,对审计人员而言,全面的、高质量的数据可以提高审计工 作的准确性和高效性,但反之则会给审计工作带来难以估量的影响,甚至可能直接影响审 计风险。因此,研究审计数据质量对完善和发展计算机审计理论与实践具有十分重要的意 义。 目前,学术界和实务部门对审计数据质量的研究才刚刚开始,还没有形成系统的理论, 关于审计数据质量也还没有一个确切的定义。但依照数据质量的概念,我们可以理解为, 审计数据质量是指审计数据真实、全面反映被审计经济活动的水平。 审计过程可以看成一个持续的信息加工和专业判断的过程。审计数据是重要的输入信 韩京宇,徐莎臻,蕈逸生数据质量研究综述【j 】计算机科学,2 0 0 8 年第2 期:l 一5 息之一,其质量对判断结果的影响至关重要。在信息系统环境下,由于交易的虚拟化、控 制的程序化、信息的数字化,以数据处理为基础的数据式审计模式成为必然。具体地说, 研究审计数据质量的意义在于:通过研究审计数据质量问题产生的原因、表现形式、对 审计风险的影响,我们能够丰富和发展信息系统环境下的审计理论:通过发现审计数据 质量问题的产生规律,就能够通过合理的制度设计和工具选择进行规避和防范;提供审 计数据质量的评价和检验方法工具,为审计实务提供指导,提高审计工作效率,控制审 计j x l 险。 这罩还有一点需要说明:本文所论述的审计数据,是指在信息化条件下,审计人员丌 展审计工作时从被审计单位信息系统中为获得审计证据而取得的电子数据。 2 2 2 审计数据质量的特征及需求 数据质量在本质上体现数据满足用户需求的程度。从需求工程的角度来看,一切需求 的目标都是为了解决具体领域的具体问题,因而需求是与具体领域、问题、任务密切相关 的,既有普遍性,也有特殊性。 审计数据作为实施计算机数据式审计的基础,其质量很大程度上决定着审计工作的整 体质量,要合理地评价审计数据质量,首先必须要有合理的评价指标体系。借助于前文所 提及的数据质量描述框架及评估方法,从定性的角度出发,我们可以将审计数据质量的特 征用一组属性值来表示,以满足审计工作对数据质量的需求( 如图2 1 所示) 。 审计数据质量 艾 l 业务层面 ll 逻辑层面 li 审计层面 7 l 客观原则完整原则一致原则唯一原则相关原! l ! u可利川原则约束原则 记属概值表冗标记性集 真 准录性念域达余识录质合 可可可可 效重 实确 r b - 唯唯相相 米验理分 证解析 缸要 兀兀 _ 关关 性性性性 性性性性整整致致致致 集 性性性性性性性性性性 资料来源:作者编制 图2 1 审计数据质量 数据式审计面对的是不同的行业和信息系统,这决定了审计数据的多样性,而多样的 数据使得审计行业很难从单一的业务应用角度去评估数据质量。因此,如上图,本节从业 务、逻辑和审计三个层面来讨论审计数据质量的特征及需求,每个层面按其特性又包含不 朱文明,王昊,胡汉辉审计数据质量:一个审计研究的新视角【j 】生产力研究,2 0 0 8 年第3 期:1 2 8 1 3 1 i l 同的评价原则,评价原则再划分为具体的属性指标,共7 条原则、1 8 个指标。 ( 1 ) 业务层面 该层面是从被审计单位的业务应用角度考虑数据质量,数据在这个层面需要满足的质 量要求有很多,但审计最关注的是客观和完整。 客观原则 ; 审计数据记录的是被审计单位的业务信息,这就要求它能忠于事实,真实、准确地反 映被审计单位实际发生的业务,包括真实性和准确性两个评价指标。其中真实性是指数据 所记录的业务是真实发生的;准确性是指数据对所记录业务表述的准确程度。 完整原则 取得的审计数据应该能够完整的描述规定期间所记录的业务活动,包括记录完整性和 属性完整性两个评价指标。记录完整性是指数据无重复地记录了指定期间所有应该记录的 业务;属性完整性是指数据中业务的关键属性应该是完整的。 ( 2 ) 逻辑层面 该层面是从数据的内部逻辑关系来讨论审计数据质量,数据在逻辑上应该是一致和唯 一的。 一致原则 审计数据中相关联的各个部分在概念、取值范围、表达方式和冗余存储上应该能够保 持一致。其中,概念一致性是指在数据的不同部分,同一概念所指的事物是相同的;值域 一致性是指同一概念的值域范围在数据的不同部分是相同的;表述一致性是指同一概念在 数据的不同部分表达方式是一致的;冗余一致性是指当数据存在冗余时,存放在不同位置 的同一数据应该相同。 唯一原则 数据中记录的业务、实体、事件和关系等对象应该能够被区分,当数据不能满足唯一 原则时,会影响审计过程的正确实施。标识唯一性是指数据所记录的业务、实体、事件和 关系都能够通过唯一标识区分,唯一标识可以是一个属性或者是由多个属性组成;记录唯 一性是指某一经济业务在数据中只被记录一次,不存在重复纪录的数据。 ( 3 ) 审计层面 该层面是从审计人员的角度出发考虑数据质量,数据应该是相关和可利用的。 相关原则 该原则是指数据与审计活动的相关程度,包括性质相关性和集合相关性两个评价指标。 1 2 性质相关性:性质相关是指数据与审计项目性质的相关程度。每个审计项目的性质足 不同的,取得的数据与审计性质的关联程度也不同。性质相关性要求取得的数据与审计目 的相关。 集合相关性:这里是指信息集合中数据元素之问的相关性。当信息系统将一个信息集 合提供给审计人员时,其中的数据元素之间应该具有较强的相关性。毫无关联的数据元素 所组成的信息集合将使得审计人员不知所云,无法使用。 可利用原则 指数据在审计过程中的可利用程度。根据审计数据处理的阶段性,数据的可利用性可 以分解为以下四个指标: 可采集性:审计数据是由信息系统生成和存储的,只有当其用于审计且被转移到审计 应用程序中时才成为审计数据,这就需要有合适的技术手段将数据从被审计单位转移到审 计应用系统中。数据采集要解决的问题包括技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论