版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
V审计数据与数据挖掘技术分析概述目录TOC\o"1-3"\h\u471审计数据与数据挖掘技术分析概述 1193601.1审计数据挖掘 185841.1.1合规审计概述 1196981.1.2审计数据挖掘过程 2119061.2关联规则算法分析 3237701.2.1关联规则概述 375261.2.2Apriori算法 4273831.2.3FP-growth算法 6160851.2.4基于矩阵的Apriori算法 838321.3离群点检测算法分析 8304781.3.1离群点检测算法概述 8169591.3.2基于K-means聚类的离群点检测算法 9285411.3.3基于LOF局部离群点检测算法 10122201.3.4基于CLOF离群点检测算法 12审计数据挖掘合规审计概述在进行合规审计时,审计机关可以根据审计决定,对违反纪律的,可采取经济制裁措施;对严重违反纪律的,可禁止其通过财政拨款、银行贷款等措施获取资金支持。根据武汉某会计事务所提供的活动数据。其中,活动数据作为审计数据,活动作为审计对象,活动属性中的活动类型、活动部门、参加活动人数、活动时间、活动支出等作为审计关注点。审计数据表总共52个字段(Event_C3_Id,Event_Status,Event_Process_Name,Event_RAE_Functional_Area,Event_Created_Date,Event_Start_Date,Meeting_Participants等),数据具有离散、序数、连续和数值的属性。课题研究合规审计的目的:从大规模的审计数据中,发现一般性规律并找出审计疑点,实现更有效的抽样决策,从而安排审计人员到现场进行合规检查,以发现是否存在不合规的现象。合规审计的流程:(1)审计准备阶段。首先,根据审计计划,审计项目经理筛选出活动状态为Approved的活动数据。接着,根据审计关注点,如果发现审计疑点,则安排审计人员进行现场合规审计;如果没有发现审计疑点,则按照审计计划随机抽取审计样本,进行现场合规审计。(2)审计实施阶段。首先,审计人员联系活动直线经理,到达活动现场。然后,根据审计任务检查活动是否合规,记录审计结果。(3)审计终结阶段。将合规审计任务和合规审计结果形成合规审计报告,进行审计报备,至此,完成合规审计。审计计划主要是计划每个月的审计样本的数量。审计任务是具体的合规审计项目。审计项目:如活动时间,活动人数、活动部门、活动类型和各种可能存在的违规行为。审计合规结果:0-无问题,1-有问题。审计疑点是指在审计过程中审计人员发现存在违背惯例、规定和约定等各种现象。如,在审计活动数据时,发现审计数据的活动创建时间和活动开始时间存在疑点。一般活动创建后,需要一定的时间间隔去准备活动,所以活动开始时间与活动创建时间具有一定的时间间隔,但是如果活动创建时间和活动开始时间是同一天,即时间间隔为0,则可以判定这项活动存在审计疑点。审计数据挖掘过程审计数据挖掘的目的是,及时、准确地从数据海洋中挖掘出对审计有参考意义的数据,以便审计人员做出最佳审计决策。审计数据挖掘既要遵循数据挖掘常用步骤,也要参考审计领域中审计数据的特征,从而选取合适的审计数据挖掘方法。审计数据挖掘过程具体如下。(1)确定挖掘目标。重点在业务和数据理解,明确挖掘的目的。业务理解,审计部门根据系统申请的活动,由于活动众多,考虑成本因素,选取部分活动作为审计样本,进行现场合规审计,检查活动是否合规。关键在于如何进行抽样,难点在于抽样决策。数据理解,推广商的活动数据,包括活动C3编号、活动城市、活动创建时间、活动开始时间、活动举办类型、活动部门和参加活动人数等。挖掘的目的是为了发现审计数据的一般性规律和审计疑点,从而进行有效的抽样决策,提高审计效率。(2)准备数据。首先,计划需要挖掘的审计数据,根据相关业务需要采集活动信息的数据。然后,对数据进行预处理。数据来源于武汉某会计事务所提供的C3data数据表,总共52个字段。52个字段主要有:Event_C3_Id,Event_Status,Event_Process_Name,Event_RAE_Functional_Area,Event_Created_Date,Event_Start_Date,Meeting_Participants等。(3)挖掘数据。根据客户需求和数据特征,对于序数属性的数据,采用关联分析来发现一般规律;对数值属性的数据,采用异常分析来发现审计疑点。(4)结果分析。依据挖掘出的结果,分别对关联规则和异常点信息进行知识的解释和说明,从而帮助审计人员更有效地实现抽样决策。关联规则算法分析关联规则概述关联规则的提出和应用,是针对购物篮分析问题。通过购物篮分析,发现顾客购买尿不湿的时候,通常也购买啤酒,给零售商带来商机。零售商将尿不湿和啤酒放在一起,刺激消费,增加销售量,获得利润。通过关联分析,可以了解顾客的购物习惯,从而为他们开发更好的营销策略[52]。根据韩家炜等[53]观点,关联规则中相关定义如下:定义2-1 关联规则可以表示为M⟹N的逻辑蕴含式,其中M⊆I,N⊆I,且M∩N=∅。定义2-2 支持度是D中事务同时包含M、N的概率,见式(2-1)。SupM→N定义2-3 置信度是D中事务已经包含M的情况下,包含N的概率,见式(2-2)。ConfM→NApriori算法Apriori算法是一种迭代的算法。在该算法中,存在多个概念,包括项集、频繁项集和强关联规则。具体定义如表2-1所示。表2-1Apriori算法相关定义表名称定义项集所有项目的集合频繁项集满足min_sup的项集强关联规则满足min_conf的频繁项集Apriori算法的实现过程如图2-1所示。图2-1Apriori算法实现的流程图为了对Apriori算法作更加详细的说明,下面举一个实例。数据库事务集D如表2-2所示。表2-2事务数据库D对应表TIDTransactionT1I1,I2,I5T2I2,I4T3I2,I3T4I1,I2,I4T5I1,I3T6I2,I3T7I1,I3T8I1,I2,I3,I5T9I1,I2,I3假设最小支持度阈值min_sup为2/9。Apriori算法发现频繁1-项集L1、频繁2-项集L2、频繁3-项集L3的过程如图2-2所示。图2-2候选项集和频繁项集的产生过程图FP-growth算法FP-growth是一种采用分治策略的频繁项集挖掘算法。主要思想是将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree)中[55]。在该算法中,存在多个概念,如FP-Tree、条件模式基和条件树。具体定义如表2-3所示。表2-3FP-growth算法相关定义表FP-Tree首先计算支持度,然后将支持度以降序的方式插入树中,与此同时,将支持度记录在该结点处条件模式基前缀路径的集合,与FP-tree与后缀模式一起出现条件树按照FP-Tree构造原则将条件模式基形成一个新的FP-Tree为了对FP-growth算法作更加详细的说明,下面举一个实例。数据库事务集和最小支持度阈值设置同Apriori算法的数据库事务集和阈值。首先构造出条件树FP-tree如图2-3所示。图2-3条件树FP-tree图当得到条件树之后,下面以数据项I5为例说明如何从FP-tree得到包含I5的频繁项集。首先得到I5的条件模式基为{{I2,I1,I3:1},{I2,I1:1}},再根据条件模式基得到I5的条件FP-tree为<I2:2,I1:2>,最后从I5的条件FP-tree产生包含I5的所有频繁项集为{I2,I5:2},{I1,I5:2},{I2,I1,I5:2}。基于矩阵的Apriori算法基于矩阵的Apriori算法,通过矩阵存储的形式来存储事务数据库,逻辑“与”运算计算支持度[57]。基于矩阵存储的Apriori算法实现的过程如图2-4所示。图2-4基于矩阵存储的Apriori算法实现的流程图离群点检测算法分析离群点检测算法概述离群点指的是在数据集中少量的数据,具有低概率性。离群点并非随机因素产生,有可能产生于不同的体系。离群点检测的目标是发现不同于寻常的数据点。基于K-means聚类的离群点检测算法K-means算法由MacQueenJ[58]首次使用,是一种迭代求解的算法。相较于其他聚类算法,K-means算法由于思想简单、较易实现等优点被广泛使用。之后,DavidArthur等人针对k-means初始聚类中心的随机选取问题提出K-means++算法,实现流程如图2-5所示。图2-5K-means++算法流程图其中,概率P计算,见式(2-3)。p=d(x)假设数据集X包含k个簇x1,x2,∙∙∙,定义2-4 误差函数(E):指每个数据点p到各自聚类中心CiE=i=0K-means++聚类算法的性能由误差函数E来评价。K-means++算法是改进K-means初始聚类中心的选取。迭代过程如图2-6所示。原始数据集有3个簇,经过两次迭代后得到最终的聚类结果。图2-6K-means++迭代过程图基于LOF局部离群点检测算法LOF算法于2000年由Breunig[59]等最先提出,离群程度通过数据对象在数据集中的离群系数来描述。定义2-5 信息熵设x为随机事件,其取值集合为s(x),p(x)表示随机事件x的概率,则x的信息熵计算,见式(2-5)。Ex设数据集中的属性集合A,被划分为两个部分:A-{Ai}和{Ai},记为C={EC∆A如图2-7所示,给定原始数据集,经过LOF算法得出,C1、C2和C3集合中的点是正常点,O1、O2和O3点相对孤立,是离散点。蓝圈表示正常的数据点,红圈表示检测出来的离群的数据点。图2-7LOF算法的原始数据图和离群数据图若2个数据集分别为p=(p1,distp,o定义2-6 LOWF算法在LOF算法中,数据对象p到数据对象o的可达距离为p到o的距离与p的k近邻距离间的最大值。借鉴文献[60],引入加权距离来计算的方法,加权距离见式(2-8)。定义2-7 对于给定数据集D,p是数据集中任意数据对象,NkAwk定义2-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年江苏省苏州市立达中学中考英语调研试卷(二)(含答案)
- 本科预防医学大三:人感染H7N9应急处置虚拟仿真实验教案
- 本科临床医学专业三年级《医学微生物学》切片考试深度解析教学设计
- 八年级上册历史 第17课《长征:理想信念的伟大远征》教案
- 初三化学中考专题复习教案:基于核心概念建构的初高中衔接深度教学
- 初中八年级历史上册第25课《经济与社会生活的近代化转型》导学案
- 初中八年级地理(人教版上册)核心知识清单:我国气候的主要特征及影响因素
- 北师大版(2024)一上数学《我上学啦》大单元教学设计
- 初中八年级地理《中国河流全览》知识清单
- 八年级化学(鲁教版五四学制2024)第五单元 定量研究化学反应 知识清单
- YDT 5102-2024 通信线路工程技术规范
- 2025年7月浙江省普通高中学业水平考试化学试题(解析版)
- 煤矿自然发火培训课件
- 2024年云南高中学业水平合格考历史试卷真题(含答案详解)
- 专题六持续增进民生福祉切实提高人民群众获得感幸福感-2024秋形势与政策课件
- 灌溉施工方案
- 网络传播概论(第5版)课件 第五章 智能时代与智能传播走向
- GJB179A-96军品抽样方案
- 《现代汉语(二 )》期末试卷A
- O型圈新国标尺寸表
- 前处理方式对新冠病毒痰液及粪便样本核酸检测的影响分析
评论
0/150
提交评论