下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 文本挖掘分析技术在审计稽核中的应用探索 罗江筑摘 要:随着大数据时代的来临,审计作为一个综合的经济监督部门也必将面临其带来的巨大挑战,在企业系统中产生了海量的非结构化数据,仅靠人工进行审计,成效杯水车薪,针对非结构化数据的审计已经成为审计业务的盲区,利用高科技手段与工具实现非结构化数据的分析与挖掘为审计业务提供数据支撑的需求已迫在眉睫。本文基于文本挖掘技术,采用信息抽取方法从非结构化文档中提取关键信息,进行结构化存储,然后进行自动稽核,既大大减少因人工操作耗费的大量人力、财力成本,又避免了因人为疏忽造成审计问题遗漏的情况,更加全面的审计各种
2、问题。关键词:审计稽核;文本挖掘;信息抽取随着大数据时代的来临,审计作为一个综合的经济监督部门也必将面临其带来的巨大挑战,在企业系统中产生了海量的非结构化数据,如何对这些非结构化数据进行分析是推动大数据审计开展的重要内容。随着大数据在审计领域的广泛推广和运用,文本挖掘技术对审计数据分析的重要性已逐步凸显,它不再仅仅以结构化的审计数据为分析对象,可以深入地对大量非结构化数据进行挖掘分析和利用。以企业合同数据的审计为例,结合文本挖掘技术特点,本文探讨了基于文本挖掘分析技术的审计稽核方法,为文本挖掘分析技术在审计稽核的应用做出了探索。本文内容安排如下:首先企业合同审计问题进行了介绍,之后根据数据特点
3、采用信息自动抽取技术从企业合同数据中抽取关键数据,将非结构化数据进行结构化存储,最后对提取的企业合同关键数据进行稽核,发现审计问题。一、数据及问题在企业合同管理系统中存在有大量的合同数据,企业合同审计主要是针对合同的执行情况,特别是合同付款情况的审计,包括合同总价,第一次付款时间、金额,第二次付款时间、金额等。企业合同数据属于非结构化文档数据,对这类数据的审计,目前需要人为提取合同的关键数据(合同金额、付款时间等),需要耗费大量的人力成本。如何快速的从这些非结构化数据中提取我们需要的信息,是解决企业合同快速审计的关键所在。二、信息抽取信息抽取的宗旨在于抽取指定的信息,信息抽取有多种不同的技术,
4、根据采用的模型不同可以分为三类:基于词典的抽取、基于规则的抽取和基于隐马尔可夫模型(hmm)的抽取。基于词典的信息抽取需要构造抽取模式词典,然后使用模式词典从未标记文本中抽取所需信息。基于词典的信息抽取需要对概念节点进行定义,建立和维护相关的模式,知识工作量比较大,最佳词典的产生也比较麻烦,领域相关性太强,应用不是很广泛。基于规则的信息抽取需要先构造抽取规则集,然后利用这些通用的规则从文本中抽取信息。基于规则的信息抽取比较常用,在很多情况下精度也非常令人满意。缺点是规则构造比较复杂,适应性较差。利用隐马尔可夫模型(hmm)进行文本信息抽取是一种基于统计学习的抽取方法。企业合同数据需要提取的信息
5、主要包括以下几类:(一)合同编号、合同名称在企业合同中,合同编号、合同名称数据都有明确的关键字标记,根据关键字确定信息位置,提取对应的信息即可。(二)合同总价在企业合同中,合同总价会有明确关键字进行标识,如服务费总额,根据关键字定位到所属的段落之后,采用货币正则表达式提取金额数据。货币数据识别的正则表达式为(三)付款时间在合同中,如果付款时间有明确的说明,直接按时间的正则表达式提取数据即可,不同格式展示的时间其提取表达式不同,最简单的日期格式如yyyy/mm/dd,正则表达式为更为复杂的是,在合同中并没有明确的说明付款时间,而是“合同签订后几个工作日内”,此时就需要先提取合同签订日期,然后采用
6、时间推理方法,推算确定的合同付款日期。(四)付款金额付款金额与付款时间会出现在同一段落中,在提取付款时间之后,采用与提取合同总价相同的方式提取付款金额。(五)付款方和收款方信息付款方信息主要是付款单位名称,收款方信息包括开户银行、账号和开户名,这类信息在合同里一般有明确的说明,根据信息关键字定位到具体的段落提取信息即可。提取的付款方和收款方信息用于从银行返回的资金流数据中获取与合同对应的数据,以便对合同付款情况进行稽查。将从企业合同中提取的关键信息存储于数据库提前建好的数据表中,实现结构化存储,方便对合同进行审计。三、自动稽核对企业合同的审计稽核策略是从企业合同中提取关键信息与资金流数据(此数
7、据来源与财务系统中银行返回的数据)对比,进行自动稽核,发现审计问题。具体的实现方法如下:(一)根据关注的审计问题,制定审计规则根据审计问题表象(如未按合同条款执行付款a1,提前付款a2,付款金额不一致a3)定义审计问题规则,形式为b*:a*a*,如b1:a1、b2:a2、b3:a3、b4:a2a3,其中b*为规则编号,a*a*为规则所满足的条件。(二)对合同信息按照规则进行稽核根据收款账户信息,找到需要审计的合同对应的资金流数据,对比关注的信息项,主要是付款时间、金额,多次付款金额之和即为付款总额。如果没有找到对应的资金流数据,则为未按合同条款执行付款b1;如果付款时间提前,则为提前付款b2;
8、如果金额不一致,则为付款金额不一致b3;如果付款时间提前且金额不一致,则为b4。满足制定的审计规则的合同认为存在审计问题,根据满足的条件不同,标记不同的规则编号。(三)对审计问题进行进一步分析按规则编号对存在的审计问题进行分组,对每类问题进行集中处理。针对企业合同数据,采用信息抽取方法抽取需要审计的信息之后,与银行返回的资金流数据进行比对,发现存在的审计问题,将审计结果存入数据库,方便进行查询。因审计结果涉及到保密问题,这里只给出审计结果表的表结构,如下表所示:针对审计结果表,既可以按照规则编号,对审计问题进行分组集中处理,也可以按照合同编号查询指定合同的审计结果。将合同数据以及银行返回结果关
9、联到一张表中,可以更方便的验证审计结果。四、结论本文利用信息自动抽取技术,基于企业合同数据,从中自动抽取合同关键数据,将合同中的非结构化数据进行结构化,然后与银行返回的资金流数据进行自动比对,发现审计问题。本文只是文本挖掘技术在审计稽核应用的一个探索性尝试。在审计工作中引进文本挖掘技术,不仅可以大大降低纯粹人工审计耗费的人力、财力成本,而且可以降低因人为疏忽造成审计问题遗漏的情况发生。虽然目前文本挖掘技术在审计稽核工作中的应用尚处于起步阶段,但随着信息技术的迅猛发展和人们对文本挖掘技术的深入研究,文本挖掘在审计稽核工作中的应用将会不断发展和完善。参考文献:1张志恒,成雪娇.大数据环境下基于文本挖掘的审计数据分析框架j.会计之友,2017,16:117-120.2吴芬芬.信息抽取算法研究.吉林大学硕士论文,2006:1-10.3郭喜跃,何婷婷.信息抽取研究綜述j.计算机科学报,2015,02:14-17.4李保利,陈玉忠,俞士汶.信息抽取研究综述j.计算机工程与应用,2003,10:1-5.5张素香.信息抽取中关键技术的研究d.北京:北京邮电大学,2007.6张晓艳,王挺,陈火旺.命名实体识别研究j.计算机科学,2005,04:44-48.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026上半年安徽事业单位联考旌德县招聘20人备考题库含答案详解(轻巧夺冠)
- 2026上半年海南事业单位联考省直属(部门所属)及中央驻琼事业单位招聘备考题库附答案详解(轻巧夺冠)
- 2026南昌市劳动保障事务代理中心招聘劳务派遣人员2人备考题库及答案详解(各地真题)
- 2026上海市退役军人事务局系统招聘4人备考题库附答案详解(基础题)
- 山西师范大学现代文理学院《纳米生物材料与技术》2023-2024学年第二学期期末试卷
- 山西警官职业学院《广告设计学》2023-2024学年第二学期期末试卷
- 2026广东中山市沙溪隆都医院第一期招聘合同制人员6人备考题库附答案详解(研优卷)
- 初中生物实验教学与信息技术融合的亲子关系模拟研究课题报告教学研究课题报告
- 2026天津能源投资集团有限公司社会招聘创新服务中心副主任的1人备考题库带答案详解(b卷)
- 2026内蒙古赤峰敖汉旗招募就业见习人员的79人备考题库附答案详解(巩固)
- 高级消防设施操作员试题及答案-3
- 反三违安全知识培训课件
- 2025年住院医师规培-广西-广西住院医师规培(骨科)历年参考题库含答案解析(5卷套题【单选100题】)
- 医院收费员个人年终总结范文(2篇)
- 肝性脑病的分级及护理
- 2025年中考数学二轮复习专题一 数与式中的化简与计算(含答案)
- T/CECS 10011-2022聚乙烯共混聚氯乙烯高性能双壁波纹管材
- GA/T 2157-2024毛细管电泳遗传分析仪
- 《胰高血糖素抵抗》课件
- 艾滋病实验室课件
- (高清版)AQ 1056-2008 煤矿通风能力核定标准
评论
0/150
提交评论