




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,大数据与审计概述,马西涛,.,目录,1.信息技术的相关背景知识2.大数据的由来及技术体系3.大数据在审计中的应用4.关于大数据审计的几点建议,.,信息化技术发展的三次变革,.,数据的度,计算机中数据大小的表示1Byte=8Bit(=bps)1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes,.,数据的量,在2006年个人PC迈入TB,全球产生数据总量为180EB(0.18ZB)在2010年时,全球数据总量增加到了1.8ZB据预计到2020年,全球将总共拥有44ZB的数据量我国将达到8ZB,占全球总量的18%,.,大数据起源(BigData),2008年9月科学(Science)杂志发表了一篇文章“BigData:ScienceinthePetabyteEra”,从此“大数据”这个词开始广泛传播所谓大数据,泛指规模达到级,包含结构化、非结构化以及半结构化数据集合,如文本、图像、声音、视频等。,.,大数据4V特征,结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,网络日志、音频、视频、图片、地理位置信息等,对数据的处理能力提出了更高要求,数据更新速度快据统计,淘宝每日的数据量约在10万G左右,百度搜索每日的搜索量达70亿次,新浪微博每日更新数达5千万次,人人网的每日访问量达4亿次。,数据量巨大全球在2010年正式进入ZB时代,预计到2020年,全球将总共拥有44ZB的数据量,沙里淘金,价值密度低虽然数据量很大,但是价值密度较低。通过强大的机器算法更迅速地完成数据价值“提纯”,是目前大数据亟待解决的难题,1.海量(Volume),3.速度(Velocity),4.价值(value),2.多样(Variety),.,8,大数据的定义,定义大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。维基百科大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。百度百科,.,google的三大论文(三驾马车),Google公开的三篇论文(2003,2004,2006)TheGoogleFileSystem分布式文件存储系统MapReduce:SimplifiedDataProcessingonLargeClusters分布式并行计算Bigtable:ADistributedStorageSystemforStructuredData分布式数据库,.,Hadoop的诞生,Hadoop之父DougCuttingDougCutting根据Google公开的三篇论文思想,以JAVA语言,实现了论文中关于分布式存储、分布式并行计算的机制,由此开启了大数据应用的新时代,.,大数据核心技术,分布式存储,分布式处理,MapReduce,大数据,HDFS,.,HADOOP的体系结构,Ambari(安装、部署配置和管理工具),HDFS分布式文件管理系统,MapperReduce2/Yarn,Hive数据仓库,Pig数据流处理,Mahout数据挖掘,Zookeeper(分布式协调服务),Sqoop(数据库TEL工具),Flume(日志收集),HBase(分布式数据库),.,13,大数据平台下数据挖掘算法,分类(Classification)支持向量机(SVM)神经网络(NeuralNetwork)与深度计算朴素贝叶斯(NaveBayes)决策树(DecisionTrees)聚类(Clustering)关联规则挖掘,参数估计(ParametersEstimation)高维度数据降维(DimensionReduction)集成学习(EnsembleLearning)大图数据算法图聚类图分类/图划分图模式匹配(子图同构、最大公共子图),.,大数据与传统数据,GB/TB级高质量干净强结构化关系简单,传统数据vs大数据,传统数据,PB级以上有冗余非结构化有缺失关系复杂,大数据,分布式存储,分布式并行计算,特征,.,当前大数据审计的开展形式,15,两项工作:1、建立标准表2、建立数据分析指引,.,大数据审计的标准表,16,1、标准表含义:就是按一定规则对被审计单位数据整理后的具有一定规则的数据表2、如何建立标准表:1)部分市局已经统一建立(如财政)2)个别可以交给专业人员建立,或者直接使用,.,大数据审计的数据分析指引,17,1、数据分析指引的含义:就是审计项目中所有问题形成的清单2、如何建立数据分析指引:将审计事项清单能用SQL语句实现的,写上SQL语句,不能查询的写上怎么查资料,.,当前大数据审计中的本质,18,定义:实质是建立在常规数据基础上信息技术的全面应用技术:主要运用的技术是以SQL查询、比对与关联分析等方法特点:数据类型多,关联性强,各类数据的相互验证应用更加突出,.,如何开展大数据审计,19,1、转变思路:必须彻底改变传统的思维模式,真正树立数据先行的理念,从原来的经验到账本,变为经验到语句。2、树立信心:大数据审计针对的是常规数据,采用的常规方法。3、学点知识:目前只需要掌握SQL查询语言就可以,.,开展大数据审计的SQL语言,20,1、需要掌握的内容:1)查询一张表select*from财务数据2)查询两张表select*from财务数据join业务数据2、需要掌握的命令:绝大部分:Selectfromwherejoinon(5)一少部分:groupbyhaving(3)系统函数:sumcount(2)3、需要牢记的格言:学习三天和学习三年,差距只有一步之遥,.,大数据审计工作思路,21,1、重点完成统一开展的数据分析项目2、围绕项目,集思广益,发掘思路,建设体系3、提升财务审计智慧化程度4、积极开展大数据核心技术领域的研究,.,大数据审计工作思路,22,重点完成统一开展的数据分析项目1、学习、领会统一编发的数据分析指引2、调通数据分析指引的语句3、结合实际经验,完善数据分析思路,丰富指引内容,.,大数据审计工作思路,23,围绕项目,发掘思路,集思广益,建设体系1、常规项目中树立建立数据指引意识2、积极汇聚数据分析思路,建立行业数据分析指引,.,大数据审计工作思路,24,提升财务审计智慧化程度1、积极固化财务审计方法和思路2、大胆的开拓审计思路3、发掘数据分析思路4、整合数据分析成果,提升审计工具智慧化,.,大数据审计工作思路,25,积极开展大数据核心技术
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生物样本液氮罐租赁与生物样本安全存储及运输服务合同
- 纺织品质量检验补充合同
- 《晶体管开关特性》课件
- XXX学校校园体育一小时活动安全应急预案范文
- 《神经系统结构概要》课件
- 商品管理与营销策略
- 会展策划师职业培训体系
- 《临床护理操作》课件
- 动土作业安全培训
- 食品安全案例警示与维权指南
- GB/T 35428-2024医院负压隔离病房环境控制要求
- 《传感器及检测技术》说课-完美动画
- 2023年新高考全国I卷数学真题
- 2024年高中生物学业水平合格考及答案
- 《DAO:元宇宙经济组织》记录
- 安徽省合肥市科大附中2025年第二次中考模拟初三数学试题试卷含解析
- 2024年重庆市大渡口区中考第二次适应性考试物理试题(原卷版)
- 2024年7月中央电大本科《法律文书》期末考试试题及答案
- 五年级上册小数除法竖式计算100道及答案
- GB/T 15597.2-2024塑料聚甲基丙烯酸甲酯(PMMA)模塑和挤出材料第2部分:试样制备和性能测定
- 信息素养测试一附有答案
评论
0/150
提交评论