基于B-S架构的电子数据相似检测审计方法研究_第1页
基于B-S架构的电子数据相似检测审计方法研究_第2页
基于B-S架构的电子数据相似检测审计方法研究_第3页
基于B-S架构的电子数据相似检测审计方法研究_第4页
基于B-S架构的电子数据相似检测审计方法研究_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    基于b/s架构的电子数据相似检测审计方法研究    陈文佳摘要:在一个或者多个被审计数据源中可能存在相似重复实体,这些相似重复实体可能隐藏着审计项目中需要查找的疑点,笔者采用了基于b/s架构的软件开发方法分析并设计出相似检测审计方法。本文中介绍了相似检测方法的定义和工作原理,并应用了审计案例数据对该方法的实用性进行了检验。关键词:相似检测;电子数据审计;案例应用:tp31 文献识别码:a :1001-828x(2017)003-0-02在笔者研读文献和参与实践的过程中发现,一种用于数据清理的相似检测方法可以有效地适用于审计工作中。在一个或者多个被

2、审计数据源中可能存在相似重复实体,这些相似重复实体可能隐藏着审计项目中需要查找的疑点。一、相似检测方法的定义审计数据中也常常出现冗余或有意重复的部分,通过应用相似检测方法,一方面可以提高电子审计数据的质量,另一方面审计人员在分析相似重复记录时也可能挖掘出新的审计线索。相似重复记录的产生通常发生在数据取得和传递过程中,审计人员需要结合审计数据本身的作用、来源等分析相似重复记录产生的情况是否可以合理解释,以及相似重复记录产生后是否会引起重大的后果。二、相似检测方法的工作原理(一)相似检测的参数设置两条记录是否相似,常常是通过其具有代表性的属性值判断。因此计算相似度之前,首先需要选定判断相似的属性字

3、段并分配字段权重。现实生活中,每个实体都有着多个属性,判断相似时,需要综合各个属性的相似情况。另外,每个属性的重要性也是有差别的,因此,对每一个属性需要设置权重来反映其在判定相似度的重要程度,权重的分配一般需要基于人员对数据属性的理解和需求来自主地确定。(二)记录相似度的算法和度量1.字符型字段的相似度计算方法对于字符型字段,其匹配算法采用编辑距离算法,这种算法是计算一个字符串通过插入、替换、删除字符等编辑方式转换成另一个字符串所需要的最少的编辑次数,根据计算出的编辑距离,需要对应地给出一个介于0和1之间的小数表示其相似的程度(完全不同时为0,完全相同时为1),这个数值的确定方法可以根据操作人

4、员的需要自行设定,汉字表述为主的数据通常适用这个算法。2.数值型字段的相似度计算方法对于数值型字段,可以通过计算数字间的相对差异取得其相似度:其中a与b为数值型字段。值得注意的是,通常情况下s(a,b)的取值范围为0,1,而当两个数值符号不同时,会导致s(a,b)0,在该情况下,相似度取值为0。3.布尔型字段的相似度计算方法对于布尔型字段,如果相同,则相似度为1,如果不同,则相似度为0。计算完每个字段对应的相似度后,结合参数设置时确定的字段权重,计算出两条记录的整体相似度,这个相似度的值应当也介于0和1之间,数值越大代表其为相似记录的可能性也越大。三、电子数据相似检测审计的应用在多个被审计数据

5、源中可能含有相似的内容,这些相似内容在某些情况下也许会成为审计問题的突破口。下文将以某审计案例数据为例介绍本系统的应用。为了审计某省应取消的行政审批事项是否及时取消,审计人员搜集了国务院取消行政审批事项的发文,并让省法制办公室提供该省行政审批事项的清单。审计人员的审计方法是将国务院发文中每项取消的事项带入该省行政审批事项清单中查找是否存在应取消的审批事项,随时将可疑的审批事项记录下来。然而,2013年以来,国务院通过取消和下放行政审批事项共618项,进行完所有的查找至少需要一个小时。如果使用本系统的相似检测审计方法,只需要简单的几步操作,具体如下:1.将待对比的两个文件转换为数据库文件的格式。

6、具体操作过程为:打开access并新建“空白桌面数据库”,选择从外部获取数据,在对应类型下选择数据文件导入即可。本案例中的文档应当是国务院取消行政审批事项的发文和该省行政审批事项的清单。2.在网页界面中,选择进行匹配的数据库文件,将数据库文件上传到系统指定的目录下,并界面中显示出两个文件中的内容,同时,左侧的“表一字段”和“表二字段”下方的下拉菜单直接获取表头的字段名。3.根据审计的需要,首先选择需要进行相似检测的字段,并根据字段的数据类型选择相应的相似检测算法,再设置每对字段在此次匹配中的权重,接着设置“字段间阈值”和“记录阈值”,用于判断字段相似度和记录相似度是否满足审计人员认定的相似程度

7、。本案例中,两张表的对应字段为:表一的“项目名称”与表二的“权力名称”相对应,表一的“审批部门”和表二的“行使主体”相对应。其中,“权力名称”的相似比“部门”的相似更重要,所以暂且设置“权力名称”的权重为0.7,“权力名称”的权重为0.3,假设将字段阈值控制在0.3,记录阈值为0.4,执行命令后获得了两组记录(详细内容见图1),这两组数据可以作为审计线索进行下一步审计工作。四、结语上述案例中,使用本系统的相似检测审计方法得到的结果与审计人员得到的结果是一致的,因此,使用相似检测审计系统能够更加便于审计人员发现更多的审计线索,提高审计工作的效率和效果。参考文献:1陈伟.大数据环境下基于模糊匹配的审计方法j.中国注册会计师,2016(11):84-88+3.2殷秀叶.大数据环境下的相似重复记录检测方法j.武汉工程大学学报,2014(09):66-69.基金项目:本文系2016年南京审计大学研究生科研创新计划项目(项目编号:mz2016001)的研究成果之一。 现代经济信息2017年3期现代经济信息的其它文章

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论