版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘与联网审计相关理论概述,审计论文本篇论文目录导航:【题目】【第一章】【第二章】数据挖掘与联网审计相关理论概述【第三章】【4.1】【4.24.3】【结论/以下为参考文献】第2章数据挖掘与联网审计相关理论概述2.1数据挖掘的概述。随着大数据时代的到来,云存储技术的应用,这就导致人们对海量的数据有着亟待分析的渴望。另外不同学科理论的之间穿插研究和学科之间的界线的模糊,利用不同类型的数据库和数据仓库技术存储数据管理数据,利用数理统计方式方法和机器学习中的不同技术分析探寻求索数据,这种多学科之间相互学习,相互借鉴实践的思想,逐步促使来自各学科或各领域的人们从不同角度研究并运用同一种技术-数据挖掘。首届知识发现和数据挖掘国际学术会议在1995年的加拿大蒙特利尔召开。数据挖掘这个词语从此就迅速的传播出去了。人们则把数据库中存储的数据当做亟待开发的矿石一样,数据挖掘技术则被形象的比喻成是从数据矿中开挖知识的经过。接着便是,国内外诸多学者和机构都将自个的研究领域放在了数据挖掘理论和应用研究这方面上,继而大量的商业应用成功案例、学术论文以及著作就出现了。而且这些大量成果牵涉的领域各有不同而且侧重点也极为广泛。有的在计算机数据仓库和数据库视角下研究数据挖掘经过中的数据管理理论和技术,有的从人工智能和机器学习角度重点讨论各种算法改良策略,有的则是从应用角度讨论怎样施行数据挖掘以及解决诸如客户关系管理、购物篮分析、信誉卡评分、产品制造、Web点击流分析等诸多现实问题,构成了史无前例的蓬勃局面。2.1.1数据挖掘的定义。数据挖掘的多学科融合特征使得在数据挖掘诞生的时候,不同研究者对数据挖掘的理解和定义就有所差异不同。例如,美国的麦克贝里和戈登利诺夫在其1997年所著的(数据挖掘技术:市场营销、销售与客户关系管理领域应用〕[19]和2000年的所著(数据挖掘--客户关系管理的科学与艺术〕[20]著作中指出,数据挖掘是一种通过自动半自化的工具对大量的数据进行探寻求索和分析的经过,其目的是发现华而不实有意义的形式和规律.美国的MehmedKantardzic2002年著的书(数据挖掘:概念、模型、方式方法和算法〕对数据挖掘下的定义为数据挖掘是一个从已经知道数据集合中发现各种模型、概要和导出值的经过。[21]薛薇,陈欢歌2018年的著作(Clementine数据挖掘方式方法及应用〕中所采纳的定义:数据挖掘是一个利用各种方式方法,从大量数据中提取隐含和潜在的,对于决策有用的信息和知识的经过。[22]DavidHand于2003年所著的(数据挖掘原理〕中对于数据挖掘采用的定义是:数据挖掘就是对观测年到的数据集〔通常是很庞大的〕进行分析,目的是发现未知的关系和以数据拥有者能够理解并对其有价值的新颖方式来总结数据。[23]袁梅宇在2020年所著的(数据挖掘与机器学习-WEKA应用技术与实践〕中对于数据挖掘的定义是:数据挖掘就是在数据中寻找形式的经过。[24]随着数据挖掘研究的深切进入和应用领域的不断扩展,学者对于数据挖掘的所下的定义已经达成趋于一致观点,这里我们采用邵峰晶和于忠清书(数据挖掘原理与算法〕的定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在华而不实的、人们事先不知道的、但又是潜在的有用信息和知识的经过。[25]2.1.2数据挖掘的步骤。很多数据挖掘问题的解决步骤都包括下面几个方面:〔1〕定义问题和指定前提假设很多依靠于建立数据模型来进行的研究都是在其相应的适用专业范围里进行的。于是,假如想提出一个好的问题,没有相关专业领域的经历体验与知识是不行的然而,很多运用数据挖掘技术来进行的研究的人,往往太专注于数据挖掘技术上了,却无法给自个研究的问题下一个清楚定义,并给模型指定一些前提假设〔2〕数据提取:假如进行审计活动,则要根据被审计的对象的存储情况,从存储数据的数据库、数据仓库或数据集市中提取相关的数据。由于不同单位的所应用的数据库软件不同,所以能提取数据也并不是一件比拟容易的事。当然对于内部审计人员来讲,经过本单位管理层的同意,对本单位的数据存取便比拟容易了。〔3〕数据预处理:数据提取出之后便要对其进行初步的加工,例如:对于提取的数据,检查他们能否与以前的数据值有连贯性,数据的采集能否完好。对提取的数据中异常数据和噪声数据要进行处理,对与噪声数据能够进行删除,对于丢失的数据能够根据某种规则进行填补。但在审计活动中,数据存在异常点〔异常数据〕却可能是是审计线索的一种提示,由于这些异常点可能是随机产生,可以能是人为的。异常值通常暗示此处被审计数据能否可能是审计主体对审计对象的伪造或篡改。假如在审查数据时发现了一些离群数据,则能够根据企业或单位的历史数据或同行业其他单位的一些指标进行比照分析。〔4〕知识提取:运用选定的数据挖掘算法,从数据中提取用户所需要的知识,这些知识能够用一种特定的方式表示或使用一些常用的表示方式。这一步也就牵涉到数据挖掘各种算法的运用,假如不能选定适宜的数据挖掘算法来处理数据,则能够用多种算法来对数据进行挖掘,根据相关的指标〔例如ROC曲线〕对所用的算法进行比拟。随后的本文的数据实证部分能够看到,我们采用了五种模型来进行数据挖掘,并不是简简单单项选择用华而不实某一种。评估模型要求必须选择华而不实与数据处理最契合的一种或几种。〔5〕评估模型:把挖掘到结果或某种隐含信息用某种方式表示出来,再根据这种挖掘出来的结果应用于实践活动中,看能否与实践结果相匹匹配,假如不能匹配就需要进一步的优化模型,或重新设置相关参数值,或采纳更好的挖掘算法,直到知足用户要求。假如评估模型的结果不能知足用户的要求,则能够从之前的步骤循环做下去。在归纳出知识后,数据挖掘技术强调该知识是能够被解释的,尽管这种解释可能无法立即得到,但假如我们总是无法解释它,那我们同样应怀疑它的真实性,因而数据挖掘能够被看作确定目的-归纳-解释的数据分析经过。2.1.3当下的数据挖掘技术的在各个领域应用的简单介绍。数据挖掘技术已被应用到下面几个领域:〔1〕电子商务领域。如今淘宝网的客户只要登录其账户后,页面首页便出现其以前输入在搜索栏里搜索过某类商品,或客户曾经购买过的商品。阿里巴巴的数据挖掘分析系统会在诸多商品中通过数据挖掘技术锁定客户的偏好程度,向客户推荐客户可能偏好的产品,极大的增加了交易时机。同样在亚马逊有过购物经历体验的人们也会有类似的体验。在亚马逊网页上阅读过网页上的商品,你会好奇的发现,自个搜索的商品附近有自个曾经感兴趣,或阅读过的商品。这是亚马逊网站对大量网站用户的阅读记录数据挖掘之后,对其挖掘结果的出现的商品向客户进行推荐,据讲这种基于数据挖掘的推荐系统帮助亚马逊提高了30%以上的销售额。〔2〕零售业领域。百货商场、大型超市如沃尔玛等都在对其每日客户购买商品的历史数据进行数据挖掘,以便猜想最近顾客的消费习惯,预测以后商品的大概销售情况或不同种商品之间的关联度。数据挖掘技术并不是通过历史数据的分析预测客户的行为,只是分析历史数据隐含的某种信息形式。实际上客户连自个可能都不明确下一步要做什么。所以,数据挖掘技术并没有人们现象中神秘,它也不可能是完全正确的。〔3〕欺诈甄别领域。电信业、保险业和银行信誉卡部门经常面临客户的欺诈行为,如信誉卡恶性透支,谎报保险事故等,这给保险业和银行业的造成了不少经济损失。假如能区别正常客户和非正常客户的话,提早对潜在的诈骗行为和其客户群体进行预测,即便能够获得很少的预测,都能够让电信业、保险业和银行减少损失。通常应用于欺诈甄别的主要是数据挖掘中的聚类算法,通过对正常行为和诈骗行为、风险系数小客户和风险较大的客户进行聚类,得到具有潜在诈骗行为客户的某些特点。并把这些特征和特点运用到以后的业务活动中,假如出现了类似的特征的,就能够对其重点关注,提早做好防御准备。〔4〕医学领域。通过对医学大数据的挖掘、分析,并应用智能决策技术,对常见疾病如心绞痛、心肌梗死、脑血管疾病、糖尿病、高血压病、肿瘤、哮喘病、结缔组织病等疾病发生几率的预测和疾病风险的预测,预测遗传性疾病和多发性多因素疾病,有重大的临床意义和广泛的社会效益。通过对大量医学数据的挖掘分析,以及应用智能决策技术,还能够揭示发生医疗缺陷的原因、趋向、相关因素,以便制定科学的管理,减少、甚至杜绝医疗缺陷和纠纷。例如,加拿大安大概省癌症防治中心通过研发、施行安大概省预防医学与癌症防治体系,对全省的肿瘤大数据进行数据挖掘,开展病人安全与事故的预防,即利用数据挖掘方式方法揭示临床事故的趋势,研究和识别引起各种事故的关键因素,指导预防措施。〔5〕反洗钱领域。金融方面的洗钱活动是最令监管这头痛的一件事,而金融交易活动是洗钱犯罪行为的一个重要环节。金融监管者只需要通过分析金融机构的客户信息和交易数据,运用适宜的数据挖掘方式方法,结合这些客户背景,就能够辨别出可疑金融交易记录,最后根据贝叶斯断定原理,综合各个层次的可疑信息,得到交易记录的整体可疑度,最终为数据挖掘技术就能够为反洗钱监测提供快速准确的参考。2.1.4数据挖掘技术的分类。数据挖掘能做一下几种不同的事情:分类、估值、预测、关联规则、聚类。这几种数据挖掘的分析方式方法从机器学习方面来进行区别,能够分为两类:直接数据挖掘〔DirectedDataMining〕和间接数据挖掘〔UndirectedDataMining〕。直接数据挖掘是一种需要设定目的变量的数据挖掘,通过研究其他变量的属性与目的变量属性之间的关系,挖掘出目的变量知足一定条件的结果。而间接数据挖掘是一种不使用目的变量〔至少不明确使用〕的数据挖掘,而是在所有的属性中寻找某种关系。固然间接数据挖掘没有使用任何目的变量,但仍然需要解决业务目的。如异常值检验则属于间接数据挖掘。分类、估值、预测属于直接数据挖掘,关联分析和聚类属于间接数据挖掘。各种分析方式方法简介如下:〔1〕分类。分类的目的是找出某种形式或函数,函数能把要被挖掘的数据分别归类到不同的集合中。如银行的信誉卡申请者的信誉能够分为可靠、普通、危险三类,在这个经过中,类的个数是事先确定的。构造一个分类函数的方式方法有很多,如:统计方式方法中的贝叶斯法和非参数法,机器学习方式方法中的决策树法和规则归纳法,还有神经网络方式方法和粗糙集等。〔2〕估值。估值与分类类似,所不同的是估值最终输出结果是连续型的数值,而分类最终输出的是表示类别的离散型数值。另外对于分类来讲,挖掘数据之前我们首先要事先决定最后分好的类数,而对于估值来讲,我们并不能事先确定的估计的值到底是多少。例如,根据一个顾客的购买形式估计他的月收入。〔3〕预测。预测是通常是建立在估值或分类的基础上进行的,无论是估值还是分类,我们队所挖掘的结果都能产生一个模型,假如对于检验样本组而言该模型具有较高的准确率,则能够将该模型用于对未知变量进行预测。〔4〕关联规则。这种判定方式方法的目的是发现某些事情或事物存在不易被观测到的联络。例如某些客户在超市中购买婴儿的尿布的时候,经常会顺带着一起购买啤酒。为什么会出现这种现象呢?通过观察发现,这些顾客基本上是青年男性,孩子的母亲需要留在家里照管婴儿,父亲们在负责购买尿布的时候总是喜欢为自个买些啤酒。〔5〕聚类。聚类是一种自动寻找并建立分组规则的方式方法,它通过判定数据或样本之间的类似性,把类似的数据或样本划为一个集群中。聚类和分类的区别是:聚类不需要事先定义好类的数量,而是要自动分析当下数据集所自然呈现出类的数量,它不需要训练集。聚类通常作为数据挖掘的第一步。例如通常债权人会将贷款放贷给具有财务指标特征的企业,对于这个问题,首先应对样本集合中的每一种财务指标各自进行聚类,将这些连续的数据转换为离散型数据,这样可能会更快地找到答案:。不仅如此,对于很多数据挖掘算法,很多都是需要输入离散型数据。2.2联网审计的概述。2.2.1联网审计的定义。联网审计在我们国家研究的起步不是很早,国内的学者对其也没有统一的定义。但大多数人都倾向于这种解释:审计机关与被审计单位进行网络互连后,在对被审计单位财政财务管理相关信息系统进行测评和高效率的数据采集与分析的基础上,对被审计单位财政财务收支的真实、合法、效益进行适时、远程检查监督的行为。[26]这里的审计机关能够是担任外部审计主力军的会计师事务所,可以以是的审计部门,另外还能够是组织的内部审计机构。假如是组织的内部审计部门呢,也就使详细到内部审计方面来讲,由企业的内部审计师对企业的内部的信息系统或与之相关的内部控制流程或经营活动方案,进行大范围的检查监测,并对之进行评价和最后向企业高级管理层进行报告的经过。联网审计是由于网络技术在审计中的应用而构成的一种新的审计形式。在国外有些人将联网审计称作连续审计,或在线审计。这点我不甚赞同,由于连续审计是指:审计人员在一个愈加连续或持续的基础上所使用的执行审计相关活动的所有方式方法。它是从连续控制评估到连续风险评估-关于控制风险连续的所有工作-的所有活动的连续集合。联网审计能够做到持续的执行审计活动,但并不是所有处在的连续审计活动中的单位都是经过互联网或其他媒介互联的。并不能做到实时审计,所以充其量连续审计有着与联网审计类似的某些特点。2.2.2联网审计的特点。联网审计主要有下面几个特点:〔1〕审计时间的不固定性从内部审计方面来考察,内部审计人员只要在得到管理层的受权后,就随时通过网络访问到本公司的相关电子记录信息,如访问财务数据库,企业的交易记录。大大缩短了审计人员提取信息的时间和周期。同时,对于被审计单位正在发生的经济事项,审计人员能够在经济活动结束前介入施行审计活动,可以以在经济活动结束后施行审计活动。完美的实现了事中与事后审计的结合,也不再拘泥于以往的静态审计了,充分具体表现出动态审计的优越性。〔2〕审计的地点不确定性有了网络的连接,地点也不再是审计人员头痛
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 双鸭山市专职消防员招聘考试题及答案
- 26年儿童生育力保护随访指引
- 深圳市辅警招聘面试题及答案
- 虹膜后粘连护理查房
- 继发性多发性关节病护理查房
- 工资结构发放协议书
- 快递装货协议书
- 会计代理协议书
- 婚外协议合同写范本
- 慈善救助协议书
- 《C++程序设计及项目实践》 课件 第16章 标准模板库
- 2025版《煤矿安全规程》解读
- 精神科护理安全与风险防范
- 下列属于监理员岗位职责的是
- 成都市劳动仲裁申请书
- 武威事业单位笔试真题2025
- GB/T 10454-2025包装非危险货物用柔性中型散装容器
- 2025年安徽港口物流有限公司招聘12人备考考试试题及答案解析
- 读后续写 每日一练
- 2025年社工初级考试试题及答案
- 南宁邕宁世乐加油站新增LNG撬装加气设施项目环评报告
评论
0/150
提交评论