




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据环境下的审计信息化(思路篇)前言:审计信息化工作十余年, 面临着云计算、 物联网、 大数据、移动通讯和社交网络等新技术的挑战。本文希望通 过对大数据的理解、审计中的应用分析,提出大数据服务与 审计的一个角度或方向,进而形成相关信息化配套建设的思 路。本文的编写希望得到读者的回馈,能够收到您的批评、 指正。 一、大数据的定义和理解(一)广泛定义对于大数 据的理解现在并没有一个标准的定义,不过大家对于大数据 都有一个共同的认识, 那就是 4V( Volume 、Velocity 、Variety 、 Veracity ):1.(Volume )数据量大, TB,PB ,乃至 EB 等 数据量
2、的数据需要分析处理。 2.( Velocity )要求快速响应, 市场变化快,要求能及时快速的响应变化,那对数据的分析 也要快速,在性能上有更高要求,所以数据量显得对速度要 求有些“大”。.(Variety )数据多样性:不同的数据源,非 结构化数据越来越多,需要进行清洗,整理,筛选等操作, 变为结构数据。 4.( Veracity )价值密度低, 由于数据采集的 不及时,数据样本不全面,数据可能不连续等等,数据可能 会失真,但当数据量达到一定规模,可以通过更多的数据达 到更真实全面的反馈。而简化一下描述,其实“大数据”是一 个体量特别大,数据类别特别多的数据集,并且这样的数据 集无法用传统数
3、据库工具对其内容进行抓取、管理和处理。(二)审计的大数据特征从“大数据”概念产生的缘由来看审 计行业是一个天然需要大数据概念及其实现技术的行业。我 们分析如下:首先,审计行业的“生产对象”是被审计对象的 数据,虽然说审计是对财政财务收支的监督。但是为了了解 财务的真实情况,必然需要关注业务数据,这些行业的数据 每一个都可以说是数据体量巨大。同时这些数据也是复杂多 样的,结构化数据不用说了(二维表数据、立方体数据、空 间数据等),非结构化数据例如:被审计单位的各种制度、 文件、影像等。其次,审计的职责是查处财政财务的真实、 合法和效益问题。查处过程中,需要在这些海量数据中进行 关联、汇聚的查询或
4、计算工作,而且这些计算需要同时作用 在结构化、半结构化、非结构化数据之上。在没有大数据技 术支撑之前,采用抽样或按领域分开的方式进行审计分析, 无形中形成了数据之间的壁垒和分析的局限性。最后,审计 工作中的审计思路、方法,虽然有章可循,但最终还要依赖 于具体参与审计工作的人的智慧。这也就决定了所有的分析 工作不能像其他的数据中心、数据分析、数据挖掘、决策支 持系统一样, 是相对“固化”的。而思路的火花是稍纵即逝的, 对任何一个突然闪出的分析思路都应该在“秒级”响应。 (三) 大数据的关键技术大数据关键技术包括数据抽取与集成、数 据分析、数据解释 3 个领域。 1数据抽取与集成。大数据 的一个重
5、要特点是多样性。意味着其数据来源极其广泛。数 据类型极为繁杂,这种复杂的数据环境要求必须对数据源中 的数据进行抽取和集成。并采用统一定义的结构来存储这些 数据。为保证数据质量,需要在数据抽取与集成后进行数据 清洗。( 1 )数据采集: ETL 工具负责将分布的、异构数据源 中的数据如关系数据、平面数据文件等抽取到临时中间层后 进行清洗、 转换、集成,最后加载到数据仓库或数据集市中, 成为联机分析处理、数据挖掘的基础。 ( 2)数据存取:关系 数据库、 NOSQL 、 SQL 等。(3)数据处理:自然语言处理 (NLP ,NaturalLanguageProcessing) 是研究人与计算机交互
6、 的语言问题的一门学科。处理自然语言的关键是要让计算机 理解 自然语言,所以自然语言处理又叫做自然语言理解 (NLU , NaturalLanguage Understanding) ,也称为计算语言 学 (Computational Linguistics 。一方面它是语言信息处理的 一个分支,另一方面它是人工智能 (AI, Artificial Intelligence) 的核心课题之一。 2 数据分析数据分析是大数据发挥其核 心价值的重要流程, 主要的分析技术有统计分析、 数据挖掘、 模型预测等,分析的结论可用于推荐系统、专家系统、商业 智能和决策支持系统等。 (1)统计分析:假设检验、
7、显著性 检验、差异分析、 相关分析、 T 检验、 方差分析、 卡方分析、 偏相关分析、距离分析、回归分析、简单回归分析、多元回 归分析、逐步回归、回归预测与残差分析、岭回归、 logistic 回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多 元对应分析(最优尺度分析) 、 bootstrap 技术等等。( 2 )数 据挖掘:分类 ( Classification )、估计( Estimation )、预测 (Prediction )、相关性分组或关联规则 ( Affinity grouping or association rules
8、)、聚类( Clustering )、描述和可视化、 Description and Visualization )、复杂数据类型挖掘 (Text,Web , 图形图像,视频,音频等 )(3)模型预测:预测 模型、机器学习、建模仿真。 3数据解释在数据分析的基 础上,终端用户往往最关心的是数据的展示方式,如果分析 结果没有采用适当的解释方法,所得到的分析结论往往让用 户难以理解,极端情况下甚至会误导用户。传统的解释方法 仅是文本、图表等电脑终端上的直观显示,未来提升数据解 释能力可以引入标签云 (tag cloud) 、关系图等可视化技术解 决,甚至可以采用人机交互技术,在交互过程中逐步引导用
9、 户进入分析流程,达到最佳的数据解释效果。4基础架构大数据价值的完整体现需要多种技术的协同。为了便于数据 管理,需要建立云存储系统等存储结构化、非结构化、半结 构化类型的数据。为了加速数据处理,需要采用云计算、云 存储、分布式文件存储等分布式计算技术。通过索引与查询 技术,提供搜索引擎服务,提高用户对大数据的使用效率。 二、大数据技术为审计打开的“窗”我们都知道传统的审计, 无论是计算机辅助审计、计算机审计、自动化审计,都是在 既定计划、既定方向上开展的,这对于制定计划、制定审计 方案的人是一个考验,同时执行人也将艰难的去践行。原来 在电子审计体系发展的研究中,有人曾提出过智能审计和智 慧审计
10、的概念,如何定义智能、智慧呢,如何实现智能、智 慧呢?其实一直没有很好的可执行方案,大数据时代的来临, 大数据技术的发展为我们破题了。我觉得大数据技术的运用 至少能够带来以下几个方面的进化: (一)审计计划彻底放 开看到这个小标题,大家不要误会,不是说不要计划、随性 开展审计项目。今后的计划分为两类:一是固定审计工作, 二是专题审计工作。 1固定审计类似现在每年都要开展的 部门预算执行审计一样,今后像社保、税收、环资、投资等 审计都会进入固定审计工作。就因为大数据时代的来临,对 于审计来说数据已经极大丰富,而且能够提供应对这些数据 的采集、存储、处理、分析的大数据技术。 2专题审计(或 者叫随
11、机审计)不再像原来一样,年初制定计划,年中调整 计划。而是采用征集审计专题,组织评审后形成专题审计工 作(当然这里会有一些安全保密的问题需要处理) 。征集的 已经不再是一个思路,而是有大数据分析的结论依据支撑的 审计方案。这也就意味着,专题审计的方向、形成时间都不 固定了,虽然是无计划性的,但是很有“市场味”,不但广开 思路,而且对外界响应更快、更灵活。 (二)审计思路彻底 解放大数据时代来临,审计工作已经不再是计划经济了,对 于审计人员来说可以去研究自己擅长的、关注的数据,通过 大数据分析去寻找审计专题,形成审计项目。审计署通过鼓 励 10 万审计人员进行“科研”,并择优支持 (即形成专题审
12、计 项目)。专题提出人或团队获得支持(数据、资金、人员、 政策等),开展审计实践,形成审计成果和审计研究成果, 即完成审计的揭示、预防功能,又形成审计抵御积累。在现 今的社会,已经不强求全面发展的人才,木桶原理也已经略 显过时了。所以对于审计思路,也不要用条条框框去限制, 让所有审计人员像创业者一样去发挥自己的特长,做某一点 的冒尖者,何愁没有审计思路,没审计成果。 (三)审计效 能进入蓝海我们都知道全国审计机关的人数已经有很多年 没有增加了, 但国民生产总值、 财政资金总量都在大幅增长, 经济社会的复杂度更是呈几何增长。通过计算机审计、数字 化审计等方式,让审计效能也获得了大幅度提升。但是随
13、着 互联网时代的信息大爆炸(即摩尔第三定律) ,现有的信息 化技术已经无法持续提升审计效能。审计效能的评价通常以 审计人员数量作为基数,而提升审计效能的方法却不是以审 计人员数量为基数。在大数据时代来临,我们将审计工作转 向每一个审计人员都是效能提升的一个节点,才能使我们能 够适应几何式的增长。而且效能提升节点之间可以进行网状 连接,获得更强的效能提升可能,也是下一步效能提升的重 点,只有让每个节点(审计人员)的都是效能提升因素,才 能使审计效能进入蓝海。三、利用大数据服务审计工作的思 路从上述分析,如果利用大数据服务审计,将形成怎样的审 计工作方式:(一)审计模式的变化之前已经提到过,今后
14、的审计没有什么计划规定,而只有固定和专题(随机)审计 两类,固定的不需要计划,专题的无法计划。作为固定的审 计工作,就像走流程一样,安排人去执行,类似巡逻,发现 异常拉响警报,派人去调查。作为随机的审计工作,首先是 由思路提出人申报(当然也可以安排专门的团队去研究) 然后通过评审确定为审计项目。审计项目也往往不再是一个 点、一个区域的项目,全部都是跨领域、跨地域(全国性) 的综合性审计项目。(二)审计工作的工作变化可以说审计 人员不再像传统审计项目,在项目执行阶段不断地去寻找审 计思路。而是在项目确定之前,通过数据分析确定好审计思 路(想明白如何审计),真的下项目了,更多的是“体力活” 审计项
15、目的执行方式也不再是派项目组到处跑,而是通过将 专题审计分析的方案发给相关审计区域、领域的接口人,由 他们帮助完成“体力活”。(三)审计成果的变化审计成果的内 容也将得到极大的扩展:首先成果的梳理方式都要像全国统 一组织项目的成果一样进行梳理;其次由于所有的成果都不 再是单点的,所以数额都会成线性增长;最后每年提出的专 题审计数量、质量将直接影响当年的审计成果数量和质量。四、大数据信息化的基础配套建设内容(一)以大数据方式 建设的数据中心大数据信息化,首先必须有一个大数据的数据中心。主要有以下几个特征: 1 任何数据都是中心、又 不是中心,数据之间的关联性是核心特征之一。数据之间的 关联不会因为数据量、 数据类型、 数据形态而受影响。 2数 据的检索速度都在秒级。对于数据的检索与查询都在秒级完 成,这样才能提供最基础的数据服务。 (二)大数据的应用 建设思路大数据应用功能可以拆分为四个层次:1 统计展示。此阶段的目的是描述“发生了什么 (whathappened)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 砖瓦行业发展趋势与国际市场分析考核试卷
- 探究双十二与传统媒体的互动
- 硕士之路:策略与指导
- 江西省婺源县重点达标名校2025年下学期初三语文试题强化训练考试试卷含解析
- 山东省潍坊市昌乐县2025届高三下学期总复习质量调查(二)英语试题试卷含解析
- 克拉玛依职业技术学院《移动营销设计》2023-2024学年第二学期期末试卷
- 天津河北区市级名校2025年初三第二次统测化学试题试卷含解析
- 江苏省扬州市、仪征市2025年新中考语文试题总复习含解析
- 皖西卫生职业学院《茶树分子生物学》2023-2024学年第二学期期末试卷
- 江苏省泰兴市实验达标名校2025年下学期4月月考初三数学试题试卷含解析
- 手机媒体概论(自考14237)复习题库(含真题、典型题)
- 琴行老师劳动协议合同
- 垫付运输合同协议
- 2024年河北承德公开招聘社区工作者考试试题答案解析
- 以科技赋能医疗打造透明化的肿瘤疾病诊断平台
- 新疆维吾尔自治区和田地区2024-2025学年高三5月考试题语文试题试卷含解析
- 环保安全知识课件
- 重庆建峰工业集团有限公司招聘笔试题库2025
- 江苏省苏、锡、常、镇2025年高考物理三模试卷含解析
- 2024北京朝阳城市发展集团有限公司社会化招聘专场笔试参考题库附带答案详解
- 山东临沂市罗庄区兴罗投资控股有限公司招聘笔试题库2025
评论
0/150
提交评论