版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据分析审计概论
当下,大数据分析之于审计是十分必要的,也是时髦
的,我亦凑个热闹撰此文以抛砖引玉。
大数据,在数据业界已经应用得趋于成熟了,但对于
我们审计人员来说,还是比较新鲜的事物。何谓大数据?通
常地说,大数据指无法在一定时间范围内用常规软件工具捕
捉、管理和处理的数据集合,是需要新处理模式才能具有更
强的决策力、洞察发现力、流程优化能力的海量的、高增长
率和多样化的信息资产。根据此定义,我们要把关注点放在
大数据是数据集合与数据资产这两个方面,同时还要关注大
数据在得到充分有效分析之后,可以给数据资产拥有者所提
供的决策力、洞察力和流程优化能力。基于此,我们进一步
挖掘大数据分析的概念是什么?《大数据时代-生活、工作
与思维的大变革》的作者肯尼思-库克耶认为:大数据分析
是指不用随机分析,而采用所有数据分析处理的分析方法。
大数据的概念基本清楚了,与此对应的小数据又是什
么?其实,小数据的概念是大数据概念出来以后才应运而生
的。小数据指通过抽样调查方法获得的数据;小数据分析遵
循统计分析原理,运用统计工具、统计理论来开展分析论
证,因此小数据也就是我们平常说的统计数据,小数据分析
也就是我们平常所应用的各种抽样调查分析。
基于以上,我们就比较清楚地知道了,小数据和小数据
分析是与大数据和大数据分析应运而生的概念,是与大数据
和大数据分析相对的概念。
说了半天大数据的相关概念,我们不妨再看看大数据具
有哪些特征?
第一个特征是全量数据(volume)。全量数据是什么
意思?大数据,数据大,大到全量,大到百分百的数据,占
有一定比重的数据不是大数据;但若以占有一定比重的某个
特征数据作为整体进一步挖掘分析时,这一部分数据就成为
大数据了,是某个特征数据的大数据。因此,我们可以进一
步说,全量数据就是事关于此的全部的所有数据。就商业银
行来说,各项存款总额、各项贷款总额、不良贷款总额、银
行卡透支总额、信用卡发卡总卡片数、员工总数等等,所有
这些纳入分析范畴之维度下的总数据就是该类大数据概念下
的全量数据。根据大数据的全量数据这一特征,我们应正确
定义,没有使用全量数据的分析,就不能说是大数据分析。
这是大数据分析的第一个显著特征,也是衡量是不是大数据
分析的第一个标准C
第二个特征是高速(velocity)。高速是指高速产生
数据和高速处理数据。大数据是高速产生的,产生于日常生
产和生活之中,处于时刻产生与时刻变化之中,且速度非常
快。比如我们曾经在〃光棍节〃那一天看到马云在阿里巴巴电
子显示屏前观看交易量数据变化的情形就很直观了。对于老
百姓,每天要生活,就要与对方产生交易,这种非常多的交
易数据产生并储存于交易对手的生产系统中,形成了高速产
生的大数据。基于大数据的高速特征,数据使用者做大数据
分析也只有高速分析才能适应大数据产生的这种高速特征。
第三个特征是多样性特征(variety)。这个特征表现
为数据种类多样和数据渠道来源多样;数据种类包含了数
字、音频、视频、符号、方位等等日常生活中所涉及的种类
和所有能采集得到的渠道。比如我们国家天网系统中所产
生、收集、存储的视频、声频数据,通讯服务商所收集存储
用户的短信字符、使用位置等大数据。大数据多样性来源于
老百姓日常生活交易种类和场景的多样性和提供给生产交易
的多样性。
第四个特征是大数据的低价值密度和大数据的高价值
度同时存在(value)。这个特征,读起来有点儿拗口,但
略加思考就很好懂了。大数据全量数据中真正有价值的数据
并不多,受到污染的数据需要清洗掉,但数据一旦结构化且
不断挖掘的话,合理运用大数据就能以低成本创造出高价
值;相同的数据聚合在一起「团结就是力量"的真理就体现
出来了,我们可以比较形象地表述为,离散的乌合之众,每
天聚合在一起就有连续的力量了。大数据的离散只是空间上
的离散,成乌合之众状"旦在时间上是连续的,成连续状;
在数据质量上有同质性和统一性,同质性就是同一个生产系
统提供的大数据结构都是一样的,且统一于一个生产系统
内,由一家公司掌握着。
第五个特征是真实(veracity)。因为是同类数据的
集合,且数据的生产者与数据的利用者是隔离的,更多情况
下数据的生产者并不知晓自己的交易数据被数据利用者集合
起来做大数据分析了。基于这样的机理,数据的生产者并无
造假冲动,且都是实际生产生活中,具有实际交易背景下所
产生的数据,因此,使得大数据具有直实性的显著特征.
以上就是大数据的五个最显著的基本特征,因其英文
的第一个字母都是V,因此又被业界通称为大数据的5V特
征。
交待好大数据及其特征以后,我们可以进入本文主题
了:大数据分析审计具有哪些特征?
前面所说大数据及其特征,在大数据分析审计中均存
在,除此以外,大数据分析审计还应具备以下特征:
第一,分析审计结果的可视化。大数据分析审计以后
输出的结果需具备可视化特征,即呈现出来的结果,所有阅
读大数据分析审计报告的人都看得懂,或者以阅读者的需要
而输出结果;按照大数据分析审计深入程度之不同,这种可
视化的成果可以分为描述性分析审计成果、预测性分析审计
成果、指导性分析审计成果三个层次。描述性分析审计成果
就是大数据的事实描述,这是审计人员就某一类审计专题所
作出来的大数据分析审计的事实描述。比如商业银行裸贷客
户治理专题,属于事实性描述的有:客户总数,其中符合裸
贷认定标准的客户总数及其占比,再其中对公类裸贷客户总
数及其占比、机构类裸贷客户总数及其占比等等就属于描述
性分析审计成果。预测性分析审计是在描述性分析成果的基
础上,根据大数据分析所具有的洞察力所作出的预测。比如
不良贷款的大数据分析审计预测,现有的大数据描述性分析
审计结果显示该类客户的不良率是多少,即可以预测未来该
类客户的不良率亦将是多少。同时,据此可以呈现指导性分
析审计成果,即为尚未出现不良的该类客户出具审计建议。
我们可以清晰地观察到,大数据分析审计的洞察力、流程优
化能力、决策力在大数据分析审计所呈现出来的三类成果中
都能充分有效地实现。大数据分析审计的魅力大概也就在于
此了。
第二,大数据分析审计过程在逻辑结构上的圈层挖
掘。大数据分析要象挖掘机那样在宽度和深度这两个维度上
进行圈、层化的挖掘;所谓的圈就是宽度,不断增加挖掘的
宽度也就是增加分析审计的维度;所谓的层就是深度,在同
一维度下持续向下层挖掘;无论怎么圈层挖掘,其数据总是
表现出全量数据且分析圈层下加总等于全量数据的数据封闭
状态,不应该出现数据敞口或者丢失的现象,否则就不是真
正意义上的大数据分析;大数据圈层挖掘,呈现出来的成果
可以用大数据分析树来呈现,分析树的种类有多种,目前,
我们比较推崇目录树,因为目录树在逻辑结构方面能更好地
体现圈层挖掘,文字阐述更为清晰。
大数据分析树就是一个倒置的树型结构,这个树型结
构,既可以树形图来表示,树形图比较适合于简单一些、圈
层少一些的指标关系,优点是比较直观。除了树形图以外,
还可以目录树来表示。什么是目录树?大家看看一本书的目
录就比较有概念了c一般来说,我们的大数据专题分析审计
目录树,可以按照三个主体部分来编制。开头帽子部分是阐
述该专题大数据分析审计的基本原理、逻辑,要讲清楚〃为
什么〃。主体第一部分是该专题下大数据分析审计风险揭
示,体现审计的风睑导向;比如裸贷专题,所谓裸贷,通俗
讲就是客户在某家商业银行获得贷款以后即将贷款划转其他
商业银行,不在贷款银行办理日常受托支付,日常资金回笼
归集不在贷款银行C这样的裸贷客户的风险会有哪些呢?最
大的风险就是因为脱离了贷款银行的监管,从而产生不良贷
款的风险,第二个风险就是给贷款银行没有产生综合收益的
风险,如存款账户日均余额很低、叙做中间业务很少。因
此,这两类风险,就需要在裸贷专题的大数据分析审计第一
部分中予以充分有效揭示。所谓充分有效揭示就是进行全量
数据分析,提供描述性分析审计成果、预测性分析审计成
果。第二部分是原因溯证,即上述揭示风险问题的原因何
在?一般来说,商业银行对外经营所产生的风险问题都在内
部管理上有显著表现,也可以说内部管理的不足是对外经营
风险问题的成因。前面有讲,开头帽子部分需要解决〃为什
么〃的问题,第一部分和第二部分是要解决'是什么〃的问
题。第三部分是审计建议,要解决〃怎么办〃的问题,需要呈
现指导性分析审计成果。一般来说,指导性分析审计成果,
要把侧重点放在内部管理上,内部管理的本质是为对外经营
服务的,对外经营出现了风险,根源在内部管理上。
第三.大数据分析审计具备良好的预测性。这是大数
据分析审计的核心价值所在、基础价值所在;所谓良好是基
于大数据分析所允许的不精确之下的良好;不精确是指模
糊,单个数据在大数据分析中十分渺小,多一个不多,少一
个不少。但全量数据集中起来,模糊中就会展现出精确的一
面,这种精确,可以用占比来表述。因此,大数据分析审计
报告中,必须要用某种情形的占比来准确描述整体状况。这
一点,与我们传统的审计很不一样,传统审计大多表述为个
别、部分等定性语言,而无大数据分析审计这样具体的数量
表述。大数据分析审计的预测性与大数据分析的预测性分析
成果是一脉相承的C
第四,大数据分析审计通常会遇到非结构化数据,非结
构化数据需要建立语义引擎。打通数据隔膜,转化为结构化
数据,才能作为大数据来分析审计。打通隔膜最典型的案例
是音乐,音乐是非结构性数据,但经过乐谱就可以转化为结
构化数据了。大数据分析审计中更是需要打通数据隔膜,那
些音频、视频等非结构化数据需要转化为结构化数据,审计
人员才能更有效的应用,这方面还有很长的路要走。
第五,大数据分析审计需要持续的数据质量管理和数据
累积管理。大数据之所以有力量,一是因为大到全量,因而
具有团体的力量、整体的力量;二是因为是连续生产出来的
数据,因而具有趋势的力量。二者的力量汇聚在一起,才是
大数据的力量。这需要数据本身是真实的生产环境里产生
的,又需要连续不断的数据累积。这个过程就是大数据的质
量管理与数据累积管理。一天的数据基本上说明不了问题,
长期积累起来的数据才具说服力。这就是让数据说话、让数
据发声的含义所指C
最后,我们不妨再说说,大数据分析与小数据分析的
区别有哪些?
一是数量上的区别。大数据是全量数据,小数据是抽
样数据;这表现为大数据分析的更多;二是结论上的精确性
区别。大数据分析的结论是庞大而又混杂的,允许不精确,
小数据分析的结论是精确的,遵循统计原理"旦大数据的庞
大而又混杂的不精确中包含了精确,这需要好好地去理解;
这表现为大数据的更庞大;三是数据分析结论揭示的关系区
别。大数据分析的结论揭示是相关关系,可以用相关系数来
表述,讲述〃是什么〃;小数据分析的结论揭示的是因果关
系,讲述〃为什么〃。这表现为大数据分析的更好用;同样是
用数据发声讲话,但讲的不是一样的关系。讲相关关系更容
易,更快
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 26年银发护理质控要点总结课件
- 26年慢病老人饮食调理课件
- 2025年中广核笔试试题及答案
- 中小学教师副高级职称晋升讲课答辩真题附答案初中语文部分
- 房地产销售个人工作总结
- 财务成本专责个人工作总结
- 腹膜透析置管术前术后护理
- 残障人士现金业务办理指南
- 2025-2026学年鸡西市高三3月份模拟考试历史试题含解析
- 基于小学生体验式学习的城市垃圾分类政策实践探索教学研究课题报告
- 衡阳县岣嵝峰林场招聘社区网格员考试试题附答案详解
- DB-T29-1-2026 天津市居住建筑节能设计标准
- 视频监控系统技术规范书
- 2026云南昆明市国和勘察规划设计院有限公司招聘工作人员3人考试备考试题及答案解析
- 低碳城市智慧路灯节能改造升级方案
- 第二轮土地承包到期后再延长30年试点工作意见政策解读
- 2026年监考人员培训试题及答案
- 2026年上海市奉贤区高三二模数学试卷及答案解析
- 医院屋顶光伏施工造价预算方案模板
- 2026年大连市教育基金会招聘工作人员备考题库含答案详解(满分必刷)
- 2026年原料药国际注册策略与实践
评论
0/150
提交评论