版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、孤立点分析在税务审计上的开展运用孤立点分析在税务审计上的开展运用引言审计作为一种独立性的经济监视活动,对被审计单位相关经济活动具有特有的制约和促进作用。审计的职能就是通过对数据的检查,监察财务收支的真实、合法性,总结效益情况,同时发现和提醒重大问题或风险隐患。近年来,随着经济建立的不断开展,税务审计的任务也越来越重,在日积月累的数据量的不断增加下,使用原有的审计也难以满足实际要求。随着审计技术运用的不断深化,内部审计人员感觉可发现的审计线索少了,问题越来越隐蔽。而以往的分析技术倾向于发现个案的存在,但对审计对象的整体风险情况无法进展全面的把握。对审计部门困扰的主要有以下问题,一是由于各单位业务
2、逐步出现了高度电子化,数据海量化,关注广泛化,产品衍生化,环境多样化的情况,让审计效率明显降低。二是审计在其执行过程中,所用的工具和程序都是基于事先的审计假设,而审计假设那么是由审计人员通过以往的正常情况或者开展趋势进展人工分析得出判断和说明,但是由于个人的经历和知识是有限的,随着时间的开展,业务流程的更新,产品和技术的产生,造成了模型相对滞后,对面新的情况和海量的数据着手困难1。针对这些问题,人们逐步开始利用数据挖掘技术来进展解决。本文主要描绘基于数据挖掘的孤立点分析在税务审计方向上的开展与运用。1 数据挖掘技术数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其
3、中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它可以进展历史数据的查询和遍历,发现数据仓库中对象演变特征或对 象开展趋势,也能找出过去数据潜在的关系,从而进展信息的挖掘,还可以根据过去的数据对将来进展预测和分类。数据挖掘与传统的数据分析的本质区别就是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘现阶段在税务审计中主要应用了聚类技术、分类与预测技术、关联技术、孤立点发现技术等等2。2 孤立点的定义与产生2.1 孤立点的定义孤立点分析是数据挖掘中的一个重要研究方向。利用数据挖掘技术可以在海量的数据处理过程中获得一般模型,但这些数据并不是全部适用于这个一般模型,比方一些特
4、殊值。这些不符合一般数据模型的数据从数据处理的目的来说可能就是数据整体的孤立数据、异常数据、偏向数据或者噪声数据。它们也有它们的共同特性,就是与海量数据中的其他数据有着明显的不一致,这些数据,我们统称为孤立点。一般的孤立点分析在数据挖掘中存在两个根本任务:一是在给定的数据集合中定义什么样的数据可以被认为不一致的;二是找到一个有效的方法来挖掘这样的孤立点3。2.2 孤立点的产生孤立点的产生原因是多方面的,简单来说,可以归纳为以下几个方面: 二是人为欺诈行为所致。为了某种目的而直接对数据进展违犯事实的更改或者添加,造成数据值与实际情况有很大区别。个别单位虚报的统计数据就属于此类。三是由于仪器或者设
5、备出错导致。在数据采集过程中测量仪器或者设备难免不会受到外界的影响而使得采集到的数据出现错误。四是数据系统的变化或者故障。数据系统在运行或者搬迁的时候,可能因为个别不可意料的操作对其中的数据造成影响。比方数据库的搬迁,恢复时出现小范围报错的情况。五是数据发生自然偏向导致。事物是不断开展和变化的,在这个过程中是符合自然规律的,而这些变化和开展也会对其中的数据产生影响。比方同一个公司里职员升职为经理后工资就会高出不少,但这些变化却是合理的存在从上面的原因来看,孤立点不管是怎么产生的,都并不是毫无意义的异常数据。这些孤立点数据对总结海量数据得出一般模型不会产生积极作用,但从这些估计点进展分析却可以获
6、取到有价值的信息。作为税务审计人员,就应该特别重视孤立点数据,从中深究出审计线索。3 孤立点在税务审计上的运用因为税务审计业务的性质,决定了在税务审计中运用数据挖掘技术来对海量数据的孤立点进展分析可以获得比较好的审计线索,从而到达审计的目的。在税务审计工作中,通过基于数据挖掘的孤立点分析来查找审计线索特征主要分为以下三个步骤。3.1 寻找孤立点的数据准备数据的准备可以分为三个主要步骤:一是数据选取,二是数据预处理,三是数据变换。数据选出主要是为了确定目的任务的操作对象,它是根据用户的需要从原始数据库抽取出来的一局部表和字段。所以在数据选取之前先要对详细的审计事项进展分析,综合数据字典和数据说明
7、文档对数据的含义和业务流程等方面的情况进展分析,对数据的产生有个全面的理解。数据预处理是一个相当消耗时间的过程,它包括数据噪声的消除、缺值数据的推导与计算、重复记录的处理、数据类型的转换等等。比方在处理空值和噪声时一般可以采取如下几个方法:一是均值法,即用数据库中该属性的属性填充,详细为当前点kk可自定义个不为空的数据点的平均值来交换。二是平滑法,假设当前数据点是噪声数据或者空值,那么取出当前点a个a可自定义不为空的数据点的加权平均值来交换。三是预测法,采取回归、拟合、插值、归纳等方法,推断空值或噪声数据属性最可能的取值。四是统计频率法,此法既适用离散数据,也可用于经过离散化的连续数据的数据缺
8、损处理,假设数据库中的属性存在有噪声数据或者空值,属性a的值域为,P表示值在该系统中出现的频率。可以用最大出现频率的值maxP进展填充4。数据变换的主要目的那么是数据维数消减,主要可分为两种:一种是从有关变量中消除无关、弱相关或冗余的维,寻找一个变量子集来构建模型,即子集选择策略;另一种就是把p个原始变量变换为pprime;个变量,即数据变换策略。3.2 可疑孤立点的检测一般来说,孤立点的发现可以分为以下几种:一是基于统计的孤立点检测方法。这种方法是将全部的数据集合假设成一个概率模型,根据模型再采用不一致性检测来寻找和确立孤立点。基于统计的孤立点检测挖掘方法比较简单,实现起来也相对容易,但它的
9、缺点也比较明显,就是大局部的检测仅对数据分布满足一定概率分布的数值型单维数据集较为有效,然而许多采用数据挖掘技术就是要求在多维空间中发现孤立点的。同时,统计学的方法要求关于数据集合参数的知识,但是,这参数有可能是未知的。当没有特定的检验时,该类方法不能确保所有的孤立点被发现。二是基于间隔 的孤立点检测方法。为了可以解决基于统计的孤立点检测方法的实用性局限,拓宽在多维数据上的应用,Knorr和NG引入了基于间隔 的孤立点的概念,他们认为假设某个点与数据集中大多数点之间的间隔 都超过了某个阀值,这个点就是孤立点5。但他们的这种方法也有着缺乏:阀门需要用户自己合理设置,使得产生了比较大的人工介入和干
10、预。我们比较用到的基于间隔 的孤立点算法有:Cell-based算法、Index-based算法和Nested-loop算法。三是基于密度的孤立点检测方法。它是在基于间隔 的方法根底上建立起来的,根据数据点之间的间隔 参数以及某一给定范围内的数据点的个数参数结合在一起就是密度的概念。基于密度的孤立点检测可以很好的检测出基于间隔 所不可以识别的局部孤立点,也不容易遗漏掉周围的孤立点数据。四是基于聚类的孤立点检测方法。这种方法主要是指在数据挖掘的聚类过程中,在产生有意义的聚类信息的同时产生的多余孤立点数据。在聚类过程中,算法会将数据集中异常的信息作为噪音而忽略掉,虽然不利于异常信息的检测,但它扫描
11、数据集效率非常高,适用于如今的海量数据。五是基于偏离的孤立点检测方法。基于偏离的孤立点检测时通过对检测数据集的主要特征来确定孤立点的,与指定的主要特征描绘不一致的所有数据集都会被认为是孤立点。比较常见的基于偏离的孤立点检测技术是序列异常技术和OLAP数据立方体技术6。3.3 可疑孤立点的判断接下来就需要对找出的孤立点进展人工分析,看是否为疑点数据。发现的孤立点虽然都符合挖掘的条件,但不一定对税务审计工作有利用价格。比方,有些孤立点虽然是异常的,但却是合理数据,有些孤立点虽然是异常的,但影响却非常小,达不到需要关注的程度。这些都需要审计人员根据业务的目的进展详细问题详细分析,从而从中选出适宜的孤
12、立点数据。再对初步选择出来的疑点数据进展审计专业判断,通过专业的方法最终确定审计线索。常见的方法主要有:一是审阅法,它主要是指对各种书面、电子资料的检查。通过审阅法,可以对孤立点有关的其它资料包括经济信息材料等等进展审阅,来确认该孤立点是否属于问题数据。二是复算法,复算法主要指通过对有关数据的重新整理和计算,以验证其结论是否可靠的一种方法。根据实际情况,通过对检测出的可疑孤立点进展再次计算,屡次重复来确认该孤立点是不是问题数据。三是存盘法,存盘法指的是通过对财产物质的清点、计算,验证可疑孤立点的数据的真实性。四是函证法,因为被审计单位的业务不可能是孤立的存在,肯定会跟其它的单位有着各种各样的联络,所以,可以发送函件给其它单位,来验证数据是否合理,确定孤立点是否为问题数据。4 结论总之,运用一定的数据挖掘算法对被审计的海量数据采取聚类或其它的检测方法,找出数据的一般规律,挑选出孤立点,并以图、表等方式展现给审计人员,审计人员就能根据专业知识和方法判断其正确性与合理性,经过屡次的挖掘、分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河道植物生态修复方案投标文件(技术标)
- 辽宁省沈阳二中2025-2026学年度下学期模拟考试三模物理试卷
- 上海政法学院《安全监察和管理》2025-2026学年第一学期期末试卷(B卷)
- 支原体肺炎的呼吸支持护理
- 二次函数考试题及答案
- 上海现代化工职业学院《安全系统工程学》2025-2026学年第一学期期末试卷(B卷)
- 上海现代化工职业学院《安全与危机管理》2025-2026学年第一学期期末试卷(A卷)
- 上海海洋大学《安全学原理》2025-2026学年第一学期期末试卷(A卷)
- 上海海关学院《安装工程基础知识》2025-2026学年第一学期期末试卷(A卷)
- 质量体系内审员考试e及答案
- 雨课堂学堂云在线《人工智能原理》单元测试考核答案
- ktv食品安全管理制度
- 临床试验研究者职责
- 解读《2023年中国血脂管理指南》
- ARCGIS空间统计课件
- 华为技术有限公司公文处理暂行办法
- 全国大学生数学建模竞赛
- ISO 30401-2018知识管理体系 要求(雷泽佳译-2022)
- 辽宁省普通高等学校本科实验教学示范中心建设项目任务书
- YY∕T 0868-2021 神经和肌肉刺激器用电极(高清正版)
- (高清版)JGJ340-2015建筑地基检测技术规范
评论
0/150
提交评论