《数据采集与分析》word版.doc_第1页
《数据采集与分析》word版.doc_第2页
《数据采集与分析》word版.doc_第3页
《数据采集与分析》word版.doc_第4页
《数据采集与分析》word版.doc_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

审计数据采集与分析技术计算机审计的含义 计算机审计有3层含义: 面向数据的审计 面向现行信息系统的审计 对信息系统生命周期的审计面向数据的计算机审计流程 审前调查:电子数据的组织、处理和存储 数据采集:审计接口、数据库访问技术、数据采集技术 数据清理、转换、验证、建立中间表 数据分析:数据分析技术、SQL、审计软件 审计取证一、审前调查及电子数据的组织、处理和存储1. 审前调查的内容和方法 对组织结构调查 对计算机信息系统的调查 提出数据需求2. 电子数据的组织、处理和存储电子数据处理的特点 存储介质改变 基于一定的数据处理平台,有一定的数据模型 数据表示编码化(各种编码) 带来系统控制和数据安全性的新问题 审计线索改变如何表示数据 数据类型与数据取值 数据类型决定了取值范围与运算范围 数据模型 数据模型是对现实世界数据特征的抽象 它提供模型化数据和信息的工具数据模型的2个层次 概念模型 E-R模型的要素 实体:客观存在并可以相互区分的事物,用方框表示 属性:实体的特征或性质,用椭圆表示 联系:实体之间的联系,用菱形表示 数据模型 关系模型 层次模型 网状模型数据模型的3个要素 数据结构 描述模型的静态特征 是刻画数据模型最重要的方面 数据操作 描述模型的动态特性 数据检索 数据更新(增加、删除、修改) 约束条件 一组完整性规则的集合 实体完整性 引用(参照)完整性 用户定义的完整性关系模型 关系模型是目前最常用的一种数据模型 关系数据库采用关系模型作为数据的组织方式 关系模型建立在严格的关系代数基础之上 关系模型概念单一,用关系表示实体以及实体之间的联系 关系数据库的标准语言SQL是一种非过程化语言,使用方便关系模型的数据结构 关系 一张二维表,每一列都不可再分 表中的行、列次序并不重要 元组 二维表中的每一行,相当于一条记录 属性 二维表中的每一列,属性有名称与类型。 属性不可再分,不允许重复 主键 由表中的属性或属性组组成,用于唯一确定一条记录 域 属性的取值范围 关系模式 记录结构的描述,对应关系表的表头关系模型的数据运算 传统的集合运算 并(UNION) 交(INTERSECTION) 差(MINUS) 笛卡儿积 专门的关系运算 选择(SELECTION) 投影(PROJECT) 连接(JOIN) 连接的含义:相容属性之间的关系 连接的类型(内连接、外连接、自然连接)“数据文件”的含义 “数据文件”泛指各种用来存储数据的文件。 在数据库技术诞生之前,它指的是存放数据的文件本身。 数据库技术诞生后,数据由DBMS管理,数据文件是存放物理数据库的载体。 不同的DBMS存储数据的方式是不同的。 FoxPro一个逻辑上的表对应一个“库文件”(.dbf) Access所有的数据库对象放在一个数据库文件中(.mdb) IBM DB2一张表的数据可能分别放在不同的数据文件中 除了DBMS产生和维护的数据文件之外,还有很多应用程序管理的数据文件,如各种临时文件、数据交换文件等。 关系模型的完整性约束条件 实体完整性(Entity Integrity)关键字属性的组成部分不能为空值 参照完整性(Referential Integrity)参照表中的外关键字要么取空值,要么取被参照表中的某一主关键字的值 用户定义完整性(User-Defined Integrity )具体应用环境的完整性约束,反映了某一具体应用所涉及的数据应满足的语义要求关系模型的特点 关系模型的概念单一 实体以及实体之间的联系都用关系来表示。 关系之间的联系则是通过相容(来自同一个域)的属性来表示。 关系必须是规范化的关系 最基本的要求是每一个分量是一个不可分的数据项,亦即不允许表中还有表 (满足第一范式,1NF) 在关系模型中,用户对数据的检索操作不过是从原来的表中得到一张新的表生命周期法的6个阶段 需求分析 概念结构设计 逻辑结构设计 物理数据库设计 数据库实施 运行维护 数据库设计方法(1)面向数据的方法,以信息需求为主,兼顾处理需求;(2)面向过程的方法,以处理需求为主, 兼顾信息需求需求分析需求分析的重点是获得两方面的需求:(1)信息需求定义未来信息系统使用的全部信息,了解各项数据间的本质联系,描述数据的内容和结构以及它们之间的联系等。(2)处理需求定义未来信息系统数据处理的功能及功能与数据之间的联系。同时考虑性能、安全性和完整性约束。自顶向下的结构化分析方法 自顶向下的结构化分析方法是需求分析阶段的一种常用方法。它的核心思想是:自顶向下逐层分解,直到每一项功能都可以被容易地实现为止。 SA方法中要用到数据流程图(Data Flow Diagram, DFD)来描述数据的处理过程。数据流图是从“数据”和“处理”两方面来表达数据处理过程的一种图形化的表示方法。 数据字典 数据字典是在系统设计过程中对各类基本要素进行描述的集合。它是描述系统逻辑模型的重要工具。数据字典的组成部分: 数据项 数据结构 数据流 数据存储 处理过程 其中数据项是数据的最小组成单位,若干个数据项可以组成一个数据结构,数据字典通过对数据项和数据结构的定义来描述数据流和数据存储的内容。 数据库表结构定义概念结构设计的策略 自顶向下:首先定义全局概念结构的框架,再做逐次细化。 自底向上:首先定义每一局部应用的概念结构,然后按一定的规则把它们集成起来,得到全局概念结构。 由里向外:首先定义最重要的那些核心结构,再逐渐向外扩充。 混合策略:把自顶向下和自底向上结合起来的方法。它先自顶向下设计一个概念结构的框架。然后以它为骨架再自底向上设计局部概念结构,并把它们集成起来。用E-R方法进行概念结构设计的简要步骤 设计局部E-R模型 将局部E-R模型集成为全局E-R模型 属性冲突 命名冲突 结构冲突 对全局E-R模型进行优化逻辑结构设计的步骤 形成初始关系数据库模式 关系模式规范化和优化 外模式设计 提供了数据的逻辑独立性 能适应用户对系统的不同需求 具有一定的安全保密作用 索引设计 聚簇设计二、审计接口什么是审计接口是从被审计信息系统向审计应用系统传送审计信息的规范和程序。接口包含两方面内容: 传送数据的格式和规范 完成传送作业的程序数据传递的方式: 系统内部多采用参数或共享数据来完成 系统与系统之间传递信息需要开发专用的数据接口审计接口的分类 按接口的用途划分,可以分为通用接口和专用接口; 按接口与源系统和目标系统的耦合程度划分,可以分为强耦合接口、弱耦合接口和一般耦合接口; 按接口中数据传输的频率来划分,可以分为实时接口与周期性接口。 审计接口的分层模型接口可以分为3层 逻辑层:表示信息含义的语言,对信息的含义进行定义和描述 ; 传输层:载运信息语言的方式,选择最合适的方式完成源系统到目标系统的信息传输 ; 控制层:控制信息交换过程的规程,保证信息传输的适时性、正确性和有效性 。 逻辑层 又称为接口标准 描述接口标准的语法必须没有二义性传输层的实现形式 被审计单位信息系统和审计系统之间采用数据库连接件通过计算机网络直接相连。 被审计单位信息系统和审计应用系统采用交换文件传输数据。控制层数据验证 核对总记录数、总金额 检查借贷是否平衡 顺序码断号、重号验证 检查勾稽关系三、审计数据采集ODBC驱动程序 基于文件的驱动程序 既处理ODBC调用也处理SQL语句 依据其访问数据的存取方式还可以分为两种 直接存取数据 采用客户机/服务器模式 基于DBMS的驱动程序 只处理ODBC调用 把SQL语句的处理交给数据库引擎 通过单独的引擎访问物理数据 既可以和数据源存储在同一个机器上,也可以分别存储在网络中的不同机器上,甚至可以通过网关访问。 ODBC数据源 机器数据源 存储在由用户定义名字的系统上 可以分为用户数据源和系统数据源 文件数据源 存储于一个文件中 允许连接信息由一个用户重复使用或者由几个用户共享 驱动程序管理器用.dsn文件中的信息连接数据源 这个文件可以像其他任何文件一样操作 一个文件数据源没有数据源名,并且它不注册到任何用户或机器上ODBC的使用1创建ODBC数据源不同的驱动程序提供的ODBC数据源配置界面不同2使用ODBC获取数据 在审计软件中使用 在DBMS中使用 在Excel等软件中使用IDAPIIDAPI是由Borland公司为首发布的一个异构数据库访问接口。它是一个强大的数据库引擎,基于驱动程序的体系结构和面向对象的设计方法为各种数据库的访问提供了一致的接口,扩展和定制起来很容易。UDAMicrosoft 的UDA为关系型或非关系型数据访问提供了一致的访问接口。这个一致的接口使得应用程序能够通过它来访问各种各样的数据。同时,UDA的多层结构和扩展能力使得它具有极强的生命力。UDA的层次模型 UDA的两层软件接口 OLE DB 系统级的编程接口,定义了一组接口,封装了各种数据系统的访问操作; 提供了一组标准的服务组件,用于提供查询、缓存、数据更新、事务处理等操作; 是新的底层接口,采用一种“通用的”数据访问范例,能够处理任何类型的数据,不需考虑格式和存储方法。 ADO 应用层的编程接口,以OLE DB为基础并对其进行了封装; 通过OLE DB提供的接口访问数据,适合于各种客户机/服务器应用系统和基于Web的应用; 具有更好的灵活性,使用方便,效率更高。用文本文件交换数据 优点: 灵活方便 数据量大小基本不受限制 缺点: 占用较大的存储空间 较多的传输时间 需要进行类型或字段名称的重定义 分类: 分隔符形式 固定宽度 分隔符形式的文本文件 以回车换行符号作为记录间的分隔 以分隔符作为字段之间的分隔 第一行可以表示字段名 可以有文本识别符号 固定宽度的文本文件 以回车换行符号作为记录间的分隔 以起始位置和宽度来标识字段 第一行一般不表示字段名 一般没有文本识别符号Excel电子表格采集电子表格中的数据在访问Excel电子表格中的数据时,要特别注意这样两个问题: 关系数据库的规范化问题。应该保证每一列只有一个标题,且这个标题是最高层次的标题。 数据类型的一致性问题。Excel工作表中每一个单元格都可以有不同的数据类型,因此每一列中的数据类型可能会不一致。而关系数据库要求表中每个字段的类型是固定的。如果出现这种情况,需要首先统一Excel工作表中每一列的数据类型。否则将不能访问数据。 数据采集的工具 审计软件 DBMS及数据仓库工具 DBMS,如Access、 FoxPro等 数据库实用工具,如数据库附加 数据(仓)库导入/导出工具,如MS DTS等 一些通用的数据分析工具 基于表格的分析工具EXCEL 数据库编程工具 PowerBuilder等 数据库访问对象、方法,如ADO等数据采集的策略 直接拷贝 审计人员具有一定的经验 被审计系统相对简单 分析工具能够支持 使用专门的审计(数据)接口 被审计单位的信息系统已有专门的数据接口 这个接口能够满足审计的要求 实现临时的审计接口 被审计单位的信息系统没有实现数据接口 实现了的数据接口不能满足审计要求临时审计接口的两种实现方式 交换文件(文件传输) 被审计信息系统按照审计要求,将原本不符合审计软件要求的数据转换成与审计软件要求相一致的格式提供给审计人员 数据库连接 审计人员通过ODBC等数据库访问接口直接访问被审计信息系统的数据,并把数据转换成审计所需的格式。数据采集的实现 使用移动存储介质拷贝数据文件; 通过简单设备建立审计人员的计算机与被审计单位的计算机之间的连接; 将审计人员的计算机接入被审计单位的局域网络中; 通过广域网络远程采集数据。四、数据清理与转换技术数据质量的评价指标 准确性:数据值与实际值的一致程度。 完整性:需要值的属性中无值缺失的程度。 一致性:数据对一组约束的满足程度。 唯一性:数据记录(及码值)的唯一性。 适时性:在所要求的或指定的时间提供一个或多个数据项的程度。 有效性:维护的数据足够严格以满足分类准则的接受要求。为什么要进行数据清理 值缺失限制了审计人员的数据分析工作; 数据表中的空值直接影响了数据分析结果的准确性; 大量的冗余数据降低了数据分析的效率; 数据值域定义的不完整性给数据审计工作带来障碍。数据清理的主要工作 确认输入数据 消除错误的空值(NULL) 保证数据值落入定义域 消除冗余数据 解决数据中的冲突(不一致)数据清理的基本技术 解决不完整数据(即值缺失)的方法: 错误值的检测及解决方法:用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值;使用简单规则库(常识性规则、业务特定规则等)检查数据值;使用不同属性间的约束;使用外部数据。 不一致性的检测及解决方法:定义完整性约束用于检测不一致性;通过分析数据发现联系。值缺失的解决方法 空值的处理 在SQL Server的查询分析器(SQL Query Analyzer)中执行下列SQL语句用“0”替换某些字段的空值 : UPDATE 清理数据表 SET zj=0 WHERE zj IS NULL UPDATE 清理数据表 SET kl=0 WHERE kl IS NULL UPDATE 清理数据表 SET mj=0 WHERE mj IS NULL 消除冗余数据 清理凭证数据表中科目代码以“s”开头的现金流量辅助信息冗余记录: DELETE FROM 清理数据表 WHERE kmdh LIKE s%错误数据的处理办法 审计人员采集数据后,在下图所示的固定资产表中发现资产原值字段存在负值的情况,这与会计处理的常规不符。错误数据的处理办法 在确认负的资产原值是错误数据后,审计人员可以在SQL Server的查询分析器中执行SQL语句: UPDATE 固定资产表 SET 资产原值=ABS(资产原值) WHERE 资产原值0 改正资产原值的错误取值。 为什么要进行数据转换 被审计单位信息系统的多样性带来了数据的不一致性; 被审计系统的安全性措施给审计工作带来障碍 ; 审计目的的不同决定了审计数据的范围和要求不同; 数据转换是数据分析、处理的前提 。数据不一致性的表现 同一字段在不同的应用中具有不同的数据类型 同一字段在不同的应用中具有不同的名称 同名字段,不同含义 同一信息,在不同的应用中有不同的格式 同一信息,在不同的应用中有不同的表达方式数据转换的内容和任务1、 将被审计单位的数据有效地装载到审计软件所操纵的数据库中;2、 明确地标识出每张表、每个字段的含义及相互之间的关系。数据转换的基本类型1简单变换(1)数据类型转换(2)日期/时间格式的转换(3)代码转换(4)值域转换2清洁和刷洗(1)有效值检查(2)复杂的重新格式化简单变换 它是数据转换中最简单的形式 它是所有数据转换的基本构成单元 它一次改变一个字段的属性 它不考虑该属性的背景或与它相关的其他字段的信息简单变换数据类型转换 最常见的简单变换是转换一个数据元的类型。它是将一种类型的数据转换成另一种类型的数据。 数据转换的前提是类型相容。类型相容指的是一种类型数据的值域可以通过常用的转换函数映射到另一种类型的值域上。 这种映射不会丢失数据的精确度。简单变换日期时间格式转换简单变换代码转换简单变换值域转换 代码转换可以看成是一类特殊的值域转换。清洁和刷洗 清洁和刷洗指的是比简单变换更复杂的一种数据变换。 在这种变换中,要检查的是字段或字段组的实际内容而不仅是存储格式。 一种清洁和刷洗是检查数据字段中的有效值。这可以通过范围检验、枚举清单和相关检验来完成。数据转换的一般方法 专用工具 SQL语言 程序编码必须运用程序编码的场合 对非关系型数据库中的数据进行转换 对复杂的数据文件中的数据进行转换 数据转换的要求固定而使用频繁时五、审计数据验证不同阶段的数据验证 数据采集阶段 检查被审计单位提供资料的完整性,保证数据采集工作准确有效地进行,同时对采集到的数据进行确认,排除遗漏和失误。 数据清理阶段 确认数据清理工作没有损害数据整体的完整性和正确性。 数据转换阶段 数据转换中,审计人员会将原始电子数据中表名、字段名、记录值代码以及表表关联的经济含义明确标识出来,这需要进行大量的查询、替换修改、插入数据、更新数据、删除数据等操作,每一步转换工作都有可能影响到数据的完整性和正确性,所以在这一阶段进行数据验证确有必要。数据验证的技术和方法 数据采集阶段 核对总记录数、总金额,检查借贷是否平衡,顺序码断号、重号验证等。 数据清理阶段 核对总金额、保持借贷平衡等。 数据转换阶段 核对总金额、勾稽关系,数据结构确认等。六、审计数据分析审计数据分析的具体操作 核对: 检查: 复算: 判断: 分析模型的演变 随着用户对数据分析的深度和灵活程度要求越来越高,数据分析渐渐从静态数值的相互比较转变到从多个数据源中综合数据,从多个角度观察数据的复杂、动态的分析。 根据处理数据的范围、用户分析人员的交互需要、多维分析需求及现有工具的支持等因素,可以将数据分析分为4种模型,这4种数据分析模型一种比一种深入,从描述基本事实到寻找原因,从代入变量值进行预测到寻找关键变量。四种数据分析模型 绝对模型 解释模型 思考模型 公式模型绝对模型(Categorical Model) 它属于静态数据分析 它通过比较历史数据值或行为来描述过去发生的事实 查询比较简单,仅是值的比较 综合路径是原有数据库设计时定义好的,用户交互少 支持工具广泛(包括一般的查询表格工具)。 解释模型(Exegetical Model) 主要还是静态数据分析 用户分析人员利用系统已有的多层次的综合路径层层细化,找出事实发生的原因 如果分析人员感兴趣的数据不能通过已有路径进行综合,则需要临时建立多维视图。 思考模型(Contemplative Model) 它属于动态数据分析 它旨在说明在一维或多维上引入一组具体变量或参数后会发生什么 需要较高层次的数据分析人员介入 分析人员在引入确定的变量或公式关系时,须创建大量的综合路径 这类模型的支持工具相当少,大多只提供单一维上的数据子集处理。 公式模型(Formulaic Model) 公式模型是动态性最高的一类模型,用于表示在多个维上,需要引入哪些变量或参数,以及引入后所产生的结果。 3种类型的数据分析方法与工具 查询型分析 验证型分析 发掘型分析查询型分析(Query) 主要指用户对数据库中的记录进行访问查询; 关系数据库管理系统是目前数据库管理系统的主流,查询型分析主要的对象就是关系数据库中的二维表。 要进行查询型分析,必须先对目标系统的数据模型有所了解。 可以采用SQL等语言来交互描述查询要求; 采用SQL可以十分灵活地进行交互式查询,但要求用户掌握SQL语言,并对访问的数据库的结构有所了解;查询型分析中的数据建模 根据相关法律法规建立模型 根据系统数据之间的勾稽关系建立模型 根据不同系统数据之间的关系建立模型 根据审计业务流程建立模型 根据以往审计经验建立模型 根据自然规律建立模型根据相关分析指标建立模型验证型分析(Verification)验证型分析指用户先提出自己的假设,然后利用各种工具通过反复的、递归的检索查询以验证或否定自己的假设。从用户的观点来看,他们是在从数据中发现事实。多维分析工具进行的就是典型的验证型分析。它通过对信息的多种可能的观察角度进行快速,一致和交互性的存取,从而能够对数据进行深入地分析和观察。发掘型分析(Discovery)发掘型分析是指用户从大量数据中发现数据模式,预测趋势和行为的一种数据分析方法。发掘型数据分析工具主要指数据挖掘(Data Mining)软件工具。发掘型分析能挖掘数据间潜在的模式,发现用户可能忽略的信息,并为审计业务人员做出前瞻性的、基于知识的决策做出贡献。 三种分析方法的特点比较 查询型分析基本上是在已知数据结构的情况下对细节信息的存取,数据分析的成分很少 验证型分析处于较浅的层次 发掘型分析是较深层次的数据分析。三种分析方法涉及的分析模型 查询型分析基本上不涉及数据分析模型; 验证型分析主要实现了绝对模型、解释模型和思考模型; 发掘型分析则实现了公式模型。操作型处理和分析型处理 近年来,人们逐渐认识到计算机系统中存在着两类不同的处理:操作型处理和分析型处理。 操作型处理也叫事务处理,是指对数据库联机地进行日常操作,通常是对一个或一组记录的查询和修改,主要是为特定的应用服务。人们关心的是响应时间、数据的安全性和完整性。分析型需求的产生要求数据仓库技术作为支撑 OLTP系统的长期运行会积累大量的原始数据,有效对这些原始数据进行分析,发现数据中蕴涵的模式和规律,帮助人们判断和决策,是一种有别于联机事务处理的数据处理需求,可以称之为分析型数据处理,或称为面向决策支持系统(Decision Support System,DSS)的数据处理,它用于管理人员的决策分析。 分析型数据处理仅靠传统的数据库技术是不够的,需要有新的数据处理技术,数据仓库技术就是为解决这一要求应运而生的。分析型数据处理的技术数据仓库技术包括: 数据仓库(Data Warehouse) 联机分析处理(Online Analytical Processing,OLAP) 数据挖掘(Data Mining)什么是数据仓库 数据仓库的创始人Inmon对数据仓库的定义是:数据仓库就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。数据仓库的特征 与联机事务处理领域的数据库技术相比,数据仓库具有以下特征: 数据仓库的数据是面向主题的 数据仓库的数据是集成的 数据仓库的数据是稳定(不可更新)的 数据仓库的数据是随时间变化的 数据仓库的体系结构数据仓库系统的八个组成部分 数据源 数据抽取、转换、装载和刷新工具 数据建模工具 监控和管理工具 元数据仓储 数据仓库和数据集市的目标数据库 OLAP服务器 前端数据访问和分析工具 数据仓库系统的一般应用过程 从业务处理信息系统等外部数据源获取数据,经加工整理后进入数据仓库 根据数据分析挖掘的需求特性对数据进行建模和组织,用户利用各种前端数据分析和挖掘工具,通过OLAP服务器,对数据仓库中的数据作各种查询、分析、挖掘工作数据仓库技术在数据审计中的应用 审计数据的采集和获取 审计数据在审计数据库中的组织和存储 审计数据的访问和分析 什么是联机分析处理(OLAP) OLAP是一类软件技术,它使用户能够从多种角度(维)对原始数据进行分析;通过快速、一致、交互地存取来获得对原始数据的深入了解。 OLAP的目标是满足决策支持或多维查询和报表的需求,它的技术核心是“维”

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论