审计数据采集与分析技术论述_第1页
审计数据采集与分析技术论述_第2页
审计数据采集与分析技术论述_第3页
审计数据采集与分析技术论述_第4页
审计数据采集与分析技术论述_第5页
已阅读5页,还剩162页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

审计数据采集与分析技术,计算机审计的含义,一般认为,计算机审计有3层含义:面向数据的审计面向现行信息系统的审计对信息系统生命周期的审计,面向数据的计算机审计流程,审前调查:电子数据的组织、处理和存储数据采集:审计接口、数据库访问技术、数据采集技术数据清理、转换、验证、建立中间表数据分析:数据分析技术、SQL、审计软件审计取证,一、审前调查及电子数据的组织、处理和存储,审前调查的内容和方法,对组织结构调查管理体制在管理集中度高的单位,系统相应是集中式的;数据由下级部门录入并上传,下级部门可能了解数据结构,也可能根本不知道数据结构;在上传前可能进行具体的数据处理,也可能不进行任何处理,只上传原始数据;通过对管理体制的调查,可以为以后确定索取哪些技术资料、数据,以及索取的方式方法等提供依据;部门设置情况部门的具体职能部门内计算机信息系统的情况并非所有的业务都一定运用计算机信息系统选择重点部门进行部门内计算机信息系统情况的调查,审前调查的内容和方法,对计算机信息系统的调查对计算机信息系统概况的调查硬件设备系统软件系统技术文档资料系统的主要功能系统的业务处理流程对数据库及数据的调查数据库相关技术情况系统设计说明书数据库详细设计说明书,基本包含以下内容:总数据流图和具体业务数据流图、软件结构图设计数据库表间关系图表结构描述数据库SQL文件(含表、视图、触发器、存储过程等)用户使用手册系统对业务处理的流程,审前调查的内容和方法,提出数据需求确定所需数据内容确定数据获取的具体方式提出书面数据需求,电子数据的组织、处理和存储,电子数据处理的特点,存储介质改变(纸张磁性、光电介质)基于一定的数据处理平台,有一定的数据模型(层次、网状和关系模型,利用DBMS存储和管理数据,会计信息组织与手工系统不同)数据表示编码化(各种编码)带来系统控制和数据安全性的新问题(传统的控制点正在发生变化,信息系统的控制与安全性问题日渐突出)审计线索改变(修改数据文件可以不留下痕迹,可以利用诸如系统日志和数据库日志等系统控制手段发现一些线索),如何表示数据,数据模型数据模型是对现实世界数据特征的抽象它提供模型化数据和信息的工具,数据模型的2个层次,在信息世界中,使用概念模型(用于信息世界建模,语义表达能力强)E-R模型是一种常用的概念模型,它用来描述实体以及实体之间的联系E-R模型的要素实体:客观存在并可以相互区分的事物,用方框表示属性:实体的特征或性质,用椭圆表示联系:实体之间的联系,用菱形表示在计算机世界中,使用具体DBMS支持的数据模型(用于机器世界,有严格的形式化定义)关系模型层次模型网状模型,数据模型的3个要素,数据结构描述模型的静态特征是刻画数据模型最重要的方面数据操作描述模型的动态特性数据检索数据更新(增加、删除、修改)约束条件一组完整性规则的集合实体完整性引用(参照)完整性用户定义的完整性,关系模型,关系模型是目前最常用的一种数据模型关系数据库采用关系模型作为数据的组织方式关系模型建立在严格的关系代数基础之上关系模型概念单一实体以及实体之间的联系都用关系来表示。关系之间的联系则是通过相容(来自同一个域)的属性来表示。关系必须是规范化的关系最基本的要求是每一个分量是一个不可分的数据项,亦即不允许表中还有表(满足第一范式,1NF)关系数据库的标准语言SQL是一种非过程化语言,使用方便,关系模型的术语,关系一张二维表,每一列都不可再分表中的行、列次序并不重要元组二维表中的每一行,相当于一条记录属性二维表中的每一列,属性有名称与类型。属性不可再分,不允许重复主键由表中的属性或属性组组成,用于唯一确定一条记录域属性的取值范围关系模式记录结构的描述,对应关系表的表头,关系模型的数据运算,传统的集合运算并(UNION)交(INTERSECTION)差(MINUS)笛卡儿积专门的关系运算选择(SELECTION)投影(PROJECT)连接(JOIN)连接的含义:相容属性之间的关系连接的类型(内连接、外连接、自然连接),关系模型的完整性约束条件,实体完整性(EntityIntegrity)关键字属性的组成部分不能为空值参照完整性(ReferentialIntegrity)参照表中的外关键字要么取空值,要么取被参照表中的某一主关键字的值用户定义完整性(User-DefinedIntegrity)具体应用环境的完整性约束,反映了某一具体应用所涉及的数据应满足的语义要求,“数据文件”的含义,“数据文件”这个概念具有非常丰富的内涵,它泛指各种用来存储数据的文件。在数据库技术诞生之前,它指的是存放数据的文件本身。数据库技术诞生后,数据由DBMS管理,数据文件是存放物理数据库的载体。不同的DBMS存储数据的方式是不同的。FoxPro一个逻辑上的表对应一个“库文件”(.dbf)Access所有的数据库对象放在一个数据库文件中(.mdb)IBMDB2一张表的数据可能分别放在不同的数据文件中除了DBMS产生和维护的数据文件之外,还有很多应用程序管理的数据文件,如各种临时文件、数据交换文件等。,数据库的规范化设计方法,运用软件工程的思想与方法,根据数据库设计的特点提出了各种设计准则和设计规程;逻辑数据库设计与物理数据库设计是关键与核心;对设计质量的控制是以大量的书面文档和数据字典为基础的;目前出现了许多可视化的规范化辅助设计软件;还没有支持数据库设计全过程的辅助工具。,生命周期法的6个阶段,需求分析概念结构设计逻辑结构设计物理数据库设计数据库实施运行维护,需求分析,需求分析的重点是获得两方面的需求:(1)信息需求定义未来信息系统使用的全部信息,了解各项数据间的本质联系,描述数据的内容和结构以及它们之间的联系等。(2)处理需求定义未来信息系统数据处理的功能及功能与数据之间的联系。同时考虑性能、安全性和完整性约束。,自顶向下的结构化分析方法,自顶向下的结构化分析方法(StructuredAnalysis,SA)是需求分析阶段的一种常用方法。它的核心思想是:自顶向下逐层分解,直到每一项功能都可以被容易地实现为止。SA方法中要用到数据流程图(DataFlowDiagram,DFD)来描述数据的处理过程。数据流图是从“数据”和“处理”两方面来表达数据处理过程的一种图形化的表示方法。,数据流程图(DFD),以储户取款业务为例,数据字典,数据字典(DataDictionary,DD)是在系统设计过程中对各类基本要素进行描述的集合。它是描述系统逻辑模型的重要工具。数据字典的组成部分:数据项数据结构数据流数据存储处理过程其中数据项是数据的最小组成单位,若干个数据项可以组成一个数据结构,数据字典通过对数据项和数据结构的定义来描述数据流和数据存储的内容。,“数据项”举例,销售业务中有很多数据项,其中“科目代码”数据项可以描述如下:数据项编号:Item001数据项名称:KMDM数据项含义说明:唯一标识每个科目别名:科目代码数据类型:字符型数据长度:9取值范围:100000000至999999999取值含义:前3位是一级科目,后面每2位是一个科目级别与其他数据项的逻辑关系:,“数据流”举例,数据流“工资结算单”可以描述如下:数据流编号:Flow001数据流名称:GZJSD说明:财务部门计算的工资结算单数据流来源:财务部门数据流去向:职工组成(数据结构):职工号姓名性别基本工资出勤工日缺勤工日病假事假工伤假应扣工资副食补贴物价补贴房租水电储蓄其他实发工资平均流量:1500/月(单位职工人数)高峰期流量:低谷期流量:,“处理过程”举例,处理过程“登记日记账”可描述如下:处理过程编号:Proc001处理过程名称:DJRJZ输入数据流:记账凭证输出数据流:现金及银行存款日记账处理说明:根据收款凭证、付款凭证逐笔顺序登记现金日记账和银行存款日记账处理要求:每月处理多次,每次处理时间小于15分钟,数据库表结构定义,概念结构设计的策略,自顶向下:首先定义全局概念结构的框架,再做逐次细化。自底向上:首先定义每一局部应用的概念结构,然后按一定的规则把它们集成起来,得到全局概念结构。由里向外:首先定义最重要的那些核心结构,再逐渐向外扩充。混合策略:把自顶向下和自底向上结合起来的方法。它先自顶向下设计一个概念结构的框架。然后以它为骨架再自底向上设计局部概念结构,并把它们集成起来。,概念结构设计的E-R方法,E-R方法用E-R图来描述现实世界的概念模型。将现实世界抽象为实体以及实体之间联系。E-R图的元素包括:方框:表示实体型(Entity),并在框内写上实体的名称;椭圆:表示实体的属性(Attribute),并用无向边将实体与其属性连接起来;菱形:表示实体间的联系(Relationship),菱形内写上联系的名称,用无向边将菱形分别与相关的实体相连,在无向边的旁边标明联系的类型。若联系也有属性,则把属性椭圆和联系菱形也用无向边连接起来。,E-R模型中的三种联系,一对一的联系(1:1)一个班级对应一个班主任一对多的联系(1:n)一个班级可以有多名学生,一个学生只能属于一个班级多对多的联系(m:n)一个学生可以学多门课程,一门课程可以有多名学生,E-R模型中的三种联系,E-R图,用E-R方法进行概念结构设计的简要步骤,设计局部E-R模型将局部E-R模型集成为全局E-R模型属性冲突命名冲突结构冲突对全局E-R模型进行优化,逻辑结构设计的步骤,形成初始关系数据库模式关系模式规范化和优化外模式设计提供了数据的逻辑独立性能适应用户对系统的不同需求具有一定的安全保密作用,索引设计,符合建立索引的条件:主关键字及外关键字上一般都应建立索引,以加快实体间连接速度,有助于引用完整性检查以及唯一性检查。用户经常访问的字段上应建立索引。以读操作为主的关系表尽可能多地建立索引。对等值连接查询而言,如果满足条件的元组数量小则可以考虑在有关属性上建立索引。有些查询可从索引中直接得到结果,不必访问数据块,此种查询可建索引,如查询某属性的MIN,MAX,AVG,SUM,COUNT等函数值可沿该属性索引的顺序集扫描直接求得结果。,聚簇设计,聚簇是将有关的数据记录存放在一个物理块或同一柱面内以提高查询效率。聚簇一般至少定义在一个属性之上,不仅适用于单个关系,也适用于多个关系。聚簇功能可以大大提高按聚簇属性进行查询的效率,但对于与聚簇属性无关的访问则效果不佳。在特定的情况下可以考虑建立聚簇。,二、审计接口,什么是审计接口,定义:审计接口是从被审计信息系统向审计应用系统传送审计信息的规范和程序。接口包含两方面内容:传送数据的格式和规范完成传送作业的程序数据传递的方式:系统内部多采用参数或共享数据来完成系统与系统之间传递信息需要开发专用的数据接口,审计接口的分类,按照不同的标准,可以将审计接口划分为不同的类型。按接口的用途划分,可以分为通用接口和专用接口;按接口与源系统和目标系统的耦合程度划分,可以分为强耦合接口、弱耦合接口和一般耦合接口;按接口中数据传输的频率来划分,可以分为实时接口与周期性接口。其他的分类方法,审计接口的分层模型,接口可以分为3层逻辑层:表示信息含义的语言,对信息的含义进行定义和描述;传输层:载运信息语言的方式,选择最合适的方式完成源系统到目标系统之间的信息传输;控制层:控制信息交换过程的规程,保证信息传输的适时性、正确性和有效性。,审计接口的分层模型,审计接口的逻辑层,又称为接口标准GB/T19581-2004信息技术会计核算软件数据接口中国软件行业协会98-001标准上海市地方标准国家电子政务标准描述接口标准的语法必须没有二义性,传输层的实现形式,被审计单位信息系统和审计系统之间采用数据库连接件(如ODBC)通过计算机网络直接相连。被审计单位信息系统和审计应用系统采用交换文件传输数据。,传输层实例一,传输层实例二,接口的控制层数据验证,核对总记录数、总金额检查借贷是否平衡顺序码断号、重号验证检查勾稽关系,审计接口的开发、管理和使用策略,审计接口开发的根本性要求:数据经过一系列的传输后,审计系统得到的数据与信息系统中的原始数据是一致的,没有发生变异。审计接口的开发需要被审计单位和审计部门双方共同参加。编程实现后,要由双方共同进行确认测试,确认接口功能的正确性,并对接口开发工作进行评审认定。审计接口开发工作滞后时,可以在审计人员监督下,由被审计单位技术人员当场编程,从系统中获取所需审计数据,转换成数据文件,交由审计系统读入进行处理。,审计接口的开发、管理和使用策略,审计接口开发完成后,不能随意更改审计接口在使用时,首先由双方人员对要使用的审计接口进行核查要对通过接口采集的数据的完整性进行确认,三、审计数据采集,异构数据库互访问技术,(1)MicrosoftODBCOpenDatabaseConnectivity(2)BorlandIDAPIIntegratedDatabaseApplicationInterface(3)MicrosoftUDAUniversalDataAccess,ODBC,ODBC是由Microsoft公司制订的数据库系统互连标准。它为客户端应用系统与数据库服务器之间的连接提供了一种开放的、标准的接口,使得支持ODBC的系统间能够实现互连,具有一定的可移植性。,ODBC的总体结构,ODBC驱动程序,基于文件的驱动程序既处理ODBC调用也处理SQL语句依据其访问数据的存取方式还可以分为两种直接存取数据采用客户机/服务器模式基于DBMS的驱动程序只处理ODBC调用把SQL语句的处理交给数据库引擎通过单独的引擎访问物理数据既可以和数据源存储在同一个机器上,也可以分别存储在网络中的不同机器上,甚至可以通过网关访问。,ODBC数据源,机器数据源存储在由用户定义名字的系统上可以分为用户数据源和系统数据源文件数据源存储于一个文件中允许连接信息由一个用户重复使用或者由几个用户共享驱动程序管理器用.dsn文件中的信息连接数据源这个文件可以像其他任何文件一样操作一个文件数据源没有数据源名,并且它不注册到任何用户或机器上,ODBC的使用,1创建ODBC数据源不同的驱动程序提供的ODBC数据源配置界面不同2使用ODBC获取数据在审计软件中使用在DBMS中使用在Excel等软件中使用,IDAPI,IDAPI是由Borland公司为首发布的一个异构数据库访问接口。它是一个强大的数据库引擎,基于驱动程序的体系结构和面向对象的设计方法为各种数据库的访问提供了一致的接口,扩展和定制起来很容易。,BDE基于驱动程序的体系结构,UDA,Microsoft的UDA为关系型或非关系型数据访问提供了一致的访问接口。这个一致的接口使得应用程序能够通过它来访问各种各样的数据。同时,UDA的多层结构和扩展能力使得它具有极强的生命力。,UDA的层次模型,UDA的两层软件接口,OLEDB系统级的编程接口,定义了一组接口,封装了各种数据系统的访问操作;提供了一组标准的服务组件,用于提供查询、缓存、数据更新、事务处理等操作;是新的底层接口,采用一种“通用的”数据访问范例,能够处理任何类型的数据,不需考虑格式和存储方法。ADO应用层的编程接口,以OLEDB为基础并对其进行了封装;通过OLEDB提供的接口访问数据,适合于各种客户机/服务器应用系统和基于Web的应用;具有更好的灵活性,使用方便,效率更高。,文本文件与电子表格文件访问,文本文件,优点:灵活方便数据量大小基本不受限制缺点:占用较大的存储空间较多的传输时间需要进行类型或字段名称的重定义分类:分隔符形式固定宽度,文本文件,分隔符形式的文本文件以回车换行符号作为记录间的分隔以分隔符作为字段之间的分隔第一行可以表示字段名可以有文本识别符号固定宽度的文本文件以回车换行符号作为记录间的分隔以起始位置和宽度来标识字段第一行一般不表示字段名一般没有文本识别符号,分隔符形式的文本文件,行号,代码,名称,利率,开始日期500,100,90年五年期财政债券利率,8.31,01/10/1997500,200,开发银行债券利率(12.5%),10.41,01/10/1997500,201,开发银行债券利率(14%),11.64,01/10/1997500,300,总行金融债券利率(11.5%),9.57,01/10/1997500,301,总行金融债券利率(11.25%),9.375,01/10/1997500,302,97年政策性金融债券利率(8.8%),7.32,03/19/1997500,1100,单位活期存款,1.2,07/01/1998500,1101,单位活期存款(协定),1.38,12/07/1998500,1200,单位活期存款,6.3,10/23/1997500,1201,同业存款,5.85,10/23/1997,固定宽度的文本文件,50010090年五年期财政债券利率8.3101/10/1997500200开发银行债券利率(12.5%)10.4101/10/1997500201开发银行债券利率(14%)11.6401/10/1997500300总行金融债券利率(11.5%)9.5701/10/1997500301总行金融债券利率(11.25%)9.37501/10/19975001100单位活期存款1.207/01/19985001101单位活期存款(协定)1.3812/07/19985001200单位活期存款6.310/23/19975001201同业存款5.8510/23/1997,Excel电子表格,Excel电子表格与关系数据库的对应关系,采集电子表格中的数据,在访问Excel电子表格中的数据时,要特别注意这样两个问题:关系数据库的规范化问题。应该保证每一列只有一个标题,且这个标题是最高层次的标题。数据类型的一致性问题。Excel工作表中每一个单元格都可以有不同的数据类型,因此每一列中的数据类型可能会不一致。而关系数据库要求表中每个字段的类型是固定的。如果出现这种情况,需要首先统一Excel工作表中每一列的数据类型。否则将不能访问数据。,四、数据清理与转换技术,数据质量的评价指标,准确性:数据值与实际值的一致程度。完整性:需要值的属性中无值缺失的程度。一致性:数据对一组约束的满足程度。唯一性:数据记录(及码值)的唯一性。适时性:在所要求的或指定的时间提供一个或多个数据项的程度。有效性:维护的数据足够严格以满足分类准则的接受要求。,为什么要进行数据清理,值缺失限制了审计人员的数据分析工作;数据表中的空值直接影响了数据分析结果的准确性;大量的冗余数据降低了数据分析的效率;数据值域定义的不完整性给数据审计工作带来障碍。,数据清理的主要工作,确认输入数据消除错误的空值(NULL)保证数据值落入定义域消除冗余数据解决数据中的冲突(不一致),数据清理的基本技术,解决不完整数据(即值缺失)的方法:大多数情况下,缺失的值必须手工填入;某些缺失值可以从自身数据源或其它数据源推导出来。错误值的检测及解决方法:用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值;使用简单规则库(常识性规则、业务特定规则等)检查数据值;使用不同属性间的约束;使用外部数据。不一致性的检测及解决方法:定义完整性约束用于检测不一致性;通过分析数据发现联系。,值缺失的解决方法,空值的处理,在SQLServer的查询分析器(SQLQueryAnalyzer)中执行下列SQL语句用“0”替换某些字段的空值:UPDATE清理数据表SETzj=0WHEREzjISNULLUPDATE清理数据表SETkl=0WHEREklISNULLUPDATE清理数据表SETmj=0WHEREmjISNULL,消除冗余数据,清理凭证数据表中科目代码以“s”开头的现金流量辅助信息冗余记录:DELETEFROM清理数据表WHEREkmdhLIKEs%,错误数据的处理办法,审计人员采集数据后,在下图所示的固定资产表中发现资产原值字段存在负值的情况,这与会计处理的常规不符。,错误数据的处理办法,在确认负的资产原值是错误数据后,审计人员可以在SQLServer的查询分析器中执行SQL语句:UPDATE固定资产表SET资产原值=ABS(资产原值)WHERE资产原值,=,范围测试:notBetween低表达式and高表达式,集合测试:notIn(常数集合)模式匹配:notlike(Access:*,?;Sql:%,_)空值测试:not(isnull)(isnotnull)复合搜索条件:And,Or,Not,分组和排序,Groupby子句Having子句Orderby子句,生成表查询,Selectall|distinct,IntoFrom,wheregroupby,havingorderbyAsc|Desc,Asc|Desc说明:如果存在相同的表名,则删除它,重新构造新表。,多表连接查询,分类:内连接、外连接(左、右)、自身连接多表连接的一般格式:inner|left|rightjoinon连接条件的一般格式:table1.table2.比较运算符主要有:,=,嵌套查询(子查询),子查询是出现在另一个sql语句的where或having子句中的查询。子查询搜索条件:1.子查

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论