已阅读5页,还剩50页未读, 继续免费阅读
(石油与天然气工程专业论文)基于数据挖掘的纳税数据异常检测研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 硕士生:张欣( 签名)! 屋垒 特狮:燃;凝 李海燕( 签名)缝2 孬级。 摘要 随着税务信息化的发展,税务信息系统已逐渐成为保证税收工作顺利完成的重要手 段。在税务信息系统的运行过程中积累了大量的税务数据,只有对这些数据进行深层次分 析,发现其中存在的有用信息,才能利用这些信息来改进税务信息系统、提高税务管理水 平,最终为税收决策提供信息化、智能化的支持。 数据挖掘是一种十分有效的从大量数据中发现潜在信息的方法,可以帮助人们分析、 理解甚至可视化这些数据中的信息。本文首先介绍了数据挖掘技术,并根据税务工作现状, 分析了各种数据挖掘技术在税务信息化中的应用模式。 本文以税务信息系统为基础,以智能化税务监控为目标,针对税务领域的偷漏税、税 务欺诈等问题,采用数据挖掘领域的孤立点检测技术,设计了基于质心距离的孤立点检测 方法。该方法充分利用同一类型纳税人具有相同纳税模式的特点,先对纳税数据进行分类, 再分别在每一类中采用基于质心距离的孤立点检测方法进行纳税异常检测,以取得更好的 孤立点检测效率和精度。 最后,在基于质心距离的孤立点检测方法的基础上,设计了一个纳税数据异常检测系 统方案,开发了纳税数据异常检测原型系统,并利用税务信息系统中实际数据对该系统进 行了实验分析,分析结果表明该方法可为税务机关提高税收执法水平提供决策支持。 关键词:数据挖掘,孤立点,税务信息,数据异常,质心距离算法 论文类型:应用研究 王i 英文摘要 s u b j e c t :r e s e a r c ha n da p p l i c a t i o no ft a x p a y i n gd a t ae x c e p t i o nd e t e c t i o nb a s e do nd a t a m i n i n g s p e c i a l i t y :o i la n d g a se n g i n e e r i n g n a m e : z h a n g x i n l n s t r u c t o r :z h uz h a n l i l ih a i y a n a b s t r a c t a l o n gw i t ht h ed e v e l o p m e n to ft a x a t i o ni n f o r m a t i o n i z a t i o na n dt h ei m p l e m e n t a t i o no f g o l d e nt a x a t i o ne n g i n e e r i n g ,t a x a t i o ni n f o r m a t i o ns y s t e mh a sg r a d u a l l yb e c o m ea ni m p o r t a n t m e a n st oe n s u r et h ee x e c u t i o no ft a x a t i o nt a s k s al a r g ev o l u m eo ft a x a t i o nd a t ai sa c c u m u l a t e d w i t ht h er u n n i n go ft a x a t i o ni n f o r m a t i o ns y s t e m b ya n a l y z i n gt h et a x a t i o ni n f o r m a t i o nd a t a i n - d e p t ha n df i n d i n gt h ei n t e r e s t i n gi n f o r m a t i o nb i d e di nt h ed a t a , t h ep e r f o r m a n c eo ft a x a t i o n i n f o r m a t i o ns y s t e mc a l lb ei m p r o v e da n dt h em a n a g e m e n tl e v e lo ft a x a t i o nc a nb ep r o m o t e d ,a n d i n f o r m a t i o n i z i n ga n di n t e l l i g e n t i z i n gs u p p o r tc a r lb ep r o v i d e df o rt a x a t i o nd e c i s i o nm a k i n g s y s t e m d a t am i n i n gi se f f e c t i v em e t h o dt od i s c o v e rt h el a t e n tk n o w l e d g ei nl a r g ev o l u m eo fd a t a i t c a nb eu s e dt oh e l ph u m a nt oa n a l y z e ,u n d e r s t a n da n de v e nv i s u a l i z ei n f o r m a t i o ni nt h ed a t a f i r s t l y , t h ed a t am i n i n gt e c h n i q u e sa r ei n t r o d u c e di nt h i sd i s s e r t a t i o n d a t am i n i n gt e c h n i q u e a p p l i c a t i o nm o d e l si nt a x a t i o ni n f o r m a t i o n i z a t i o na r ea n a l y z e db a s e do nt h es t a t eo ft a x a t i o n a d m i n i s u a t i o n t a k e nt h et a x a t i o ni n f o r m a t i o ns y s t e ma sb a s ea n di n t e l l i g e n t i z e dt a x a t i o ns u r v e i l l a n c ea s g o a l ,a i m i n ga ts o m ep r o b l e m si nt a x a t i o na r e a , s u c ha st a xd o d g i n g t a xe v a s i o na n dt a x a t i o n f r a u d ,ac e n t r o i dd i s t a n c eb a s e do u t l i e rd e t e c t i o nm e t h o di s d e s i g n e dt of i n de x c e p t i o n a l t a x p a y i n gd a t ai n t h i sd i s s e r t a t i o nu s i n go u t l i e rd e t e c t i o nt e c h n i q u e t h i sm e t h o da d e q u a t e l y u t i l i z e st h ec h a r a c t e rt h a ts a m ek i n do ft a x p a y e r sh a v es i m i l a rt a x p a y i n gp a t t e r n i no r d e rt o a t t a i nb e n e ro u t l i e rd e t e c t i o ne f f i c i e n c ya n dp r e c i s i o n ,t h et a x p a y i n gd a t aa r ec l a s s i f i e df i r s to fa l l , a n dt h e no u t l i e rd e t e c t i o nm e t h o db a s e do nc e n t r o i dd i s t a n c ei su s e dt od e t e c tt a x p a y i n g e x c e p t i o ni ne v e r yc l a s so fd a t ar e s p e c t i v e l y f i n a l l y , t h ea r c h i t e c t u r eo ft a x p a y i n gd a t ae x c e p t i o nd e t e c t i o ns y s t e mi sd e s i g n e do nt h i s c e n t r o i d d i s t a n c eb a s e do u t l i e rd e t e c t i o nm e t h o d t h ep r o t o t y p es y s t e mo ft a x p a y i n gd a t a e x c e p t i o nd e t e c t i o ni sd e v e l o p e d i ti st e s t e da n da n a l y z e du s i n ga c t u a lt a x p a y i n gd a t af r o m t a x a t i o ni n f o r m a t i o ns y s t e m e x p e r i m e n t a lr e s u l t ss h o wt h a tt h i sm e t h o dc a np r o v i d et a x a t i o n d e p a r t m e n tw i t hd e c i s i o ns u p p o r tt op r o m o t el a we x e c u t i o nl e v e lo ft a x a t i o n k e yw o r d s :d a t am i n i n g ,i s o l a t e dp o i n t ,t a x a t i o ni n f o r m a t i o n ,d a t ae x c e p t i o n , o u t l i e rd e t e c t i o nm e t h o db a s e do nc e n t r o i dd i s t a n c e t y p eo ft h e s i s :a p p l i c a t i o nr e s e a r c h i i i 学位论文创新性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人 已经发表或撰写过的研究成果;也不包含为获得西安石油大学或其它教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确 的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名: ! 丝缱 日期:塑兰! ! :笪 学位论文使用授权的说明 本人完全了解西安石油大学有关保留和使用学位论文的规定,即:研究生在校攻读学 位期间论文工作的知识产权单位属西安石油大学。学校享有以任何方法发表、复制、公开 阅览、借阅以及申请专利等权利,同时授权中国科学技术信息研究所将本论文收录到中 国学位论文全文数据库并通过网络向社会公众提供信息服务。本人离校后发表或使用学 位论文或与该论文直接相关的学术论文或成果时,署名单位仍然为西安石油大学。 论文作者签名: ! 丛垒 导师签名:墨坦 日期:塑21 1 :垡 日期:竺牲 注:如本论文涉密,请在使用授权的说明中指出( 含解密年限等) 。 第章绪论 1 1 研究背景与意义 第一章绪论 从1 9 8 2 年到1 9 9 3 年的1 1 年间,中国税务信息化走过个从萌芽到起步的阶段。为了 加强税收征管,规范税收秩序,国务院子1 9 9 4 年开始实施金税工程。金税工程初期以增 值税监管为主要目标;二期时,内容已拓宽为增值税防伪税控开票系统、防伪税控认证系 统、增值税计算机交叉稽核系统、发票协查信息管理系统的四个系统;到了三期,其目标 已经成为:在二期基础上,建立7 个子系统和3 5 个模块。目前,税务信息化的发展阶段 已开始向成熟阶段过渡。 我国税务系统在实施以增值税专用发票防伪税控系统、稽核协查系统、综合征管系统、 出口退税系统、多元化电子申报纳税系统和行政管理办公自动化等项目为主要内容金税工 程一、二期的信息化建设中,相继实现了市级以上的数据集中模式,初步形成了多个应用 系统共享一个网络的格局。这些系统运行产生了大量有用数据,积累了大量宝贵的信息资 源,但由于原有分立系统的限制,各应用系统的数据彼此独立,信息孤岛现象严重,系统 间信息共享程度还不高,导致目前的数据还比较零散,信息共享程度低,大量数据沉积在 操作层,不能将其转换为决策管理层的信息,浪费了现存数据背后隐藏的信息和规律。同 时,各类应用软件对流程监控还存在较大差距,基于数据综合分析利用强化税收征管的工 作水平还存在很大的欠缺,税收信息化效能未得到充分发挥。 陕西省国税局的信息化工作也取得了显著成果,到2 0 0 8 年底,已经建成了较为完善 的网络,形成了一定规模硬件资源配置,已经应用了大约2 0 多种应用软件,主要包括增 值税管理系统、税收征管信息化系统、出口退税管理系统、公文处理系统、全省统一的纳 税人数据受理平台等。税收信息化的应用层次逐步提高,即从局部的信息化向全局的信息 化发展,由基层的信息化向决策的信息化发展。信息化建设已经具有了一定规模和基础。 十多年的税收信息化建设历程证明,信息化手段和理念是新税制得以顺利实施的重要推动 力。与此同时,陕西省国家税务局信息化建设也出现了一些问题,主要体现在以下几个方 面。 1 资源利用效率低下。目前税务部门的硬件配置日益现代化,但设备和信息的利用程 度与效益却很低。一些基层税务部门计算机的应用水平仅停留在税务登记、纳税申报、税 款征收、发票管理及税收会计核算等初级阶段,信息系统的强大管理功能、分析功能、数 据处理、交换功能和监控功能远槠出来。 2 多个业务系统形成信息孤岛,导致多个查询系统,使用起来极不方便。基于联机事 务处理( o l t p ) 的查询系统面对分析人员随时发生变化的需求不够灵活,在执行复杂、大量 西安石油大学硕一j :学位论文 计算的查询、分析、监控方面表现出极低的效率。 3 对多个查询系统中发掘有价值的数据,需要人工方法进行加工,降低了数据应用的 时效性和准确性。查询系统对统计和报表方面缺乏灵活性,且缺乏对数据的分析和挖掘功 能,不能发现隐藏在数据后面的经营规律,也不能进行税务监控和风险预测。 4 欠缺与信息化建设相匹配的管理创新。基层税收部门信息数据采集的随意修改性仍 然很大,对完整、准确、即时采集数据的功能重视不够,从而形成了大量的垃圾数据。同 时,税务机关的信息数据采用的是手工输入微机的办法,由于现在的办税窗口服务是登记 制而非审核制,致使信息资料可信程度不高。缺乏以涉税经济信息管理为基础的行政管理、 行政执法及决策的税收数据分析支持。 由于计算技术和存储技术的飞速发展,使人们在短时间里就可以从各种来源搜集和存 储大量的人工难以管理的资料。虽然现代数据库技术可对这些资料进行经济的存储,但人 类还需要一种技术以帮助人们分析、理解甚至可视化这些资料。因此就产生了 k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 技术。它是一个从较低级资料中抽取高级知识的总 体过程,就是从数据库中识别有效的,新颖的,潜在有用的并最终可被理解的模式的一个 非平凡过程。k d d 包括很多内容,其核心部分就是数据挖掘( d a t am i n i n g ) t 1 1 。 在税务数据库中进行数据挖掘,可以发现数据中潜在的模式或知识。利用这些知识可 以进行税务系统的管理水平并进行决策支持,从而能够提高我国税务征管和监管的水平, 增强税收工作的指导性和针对性,使有限的人力、物力用在问题出现概率最高的地方,提 高执法的质量和效率,解决以往一般性的工作部署所带来的基层工作效率不高等问题。可 以预见,随着金税工程三期的实施,深层次的数据分析工作必将成为各级税务机关特别是 国家税务总局和省级税务机关信息化建设中的一项重要工作。 正是基于此种认识,本文从提高税务信息系统应用水平的角度,以智能化税务监控为 目标,对税务数据进行分析,研究了税务数据异常检测方法,针对税务信息系统中的数据 异常、税务欺诈等问题,采用数据挖掘领域的异常点检测技术来及时发现纳税企业纳税异 常问题,设计了一个基于质心距离的孤立点检测方法,该方法充分利用同一类型纳税人具 有相同纳税模式的特点,采用简单实用的检测算法,达到了较好的检测效率和精度。在基 于质心距离的孤立点检测方法的基础上,分析设计了一个纳税数据异常检测系统构架方 案,并开发了相应的原型系统,通过该系统可对纳税企业的异常情况、税源发展趋势、以 及税务机关的依法行政进行实时、有效、智能化监督,为税务机关提供税务欺诈检测信息 支持,为政府把握经济良好运行提供决策参考。 1 2国内外研究现状 数据挖掘概念始于上世纪8 0 年代中期,随着人们对大型数据库系统研究、管理、维 护等方面的深刻认识和不断完善,为数据挖掘提出了更为精确的定义【2 】,即数据挖掘是在 2 第一章绪论 企业管理和决策中面向主题的、综合的、与时间相关的、相对稳定的的数据集合。 国际上数据挖掘技术成功应用的案例为数不少,比如i b m 帮助新西兰国税实施了 c r m :1 9 9 8 年帮助加州税务启动了基于i b md b 2 数据库软件的综合逃税人监察项目数据 仓库解决方案( i n c ) 项目,使加州税务能够在超过2 2 亿项的独立税务信息中利用商业智 能技术进行业务分析。又比如n c rt e r a d a t a 已经成功地实施了包括美国国家税务局( i r s ) 、 澳洲国家税务局( a t o ) 等在内的数据仓库和数据挖掘项目。数据挖掘的效益仅1 9 9 6 年 就帮助美国国家税务局追回补交税款两亿笔、增收2 0 0 亿美元的税金和罚款,并进行了1 2 0 万笔帐目审计p j 。 国内目前这方面的内容涉及不多,基本还处于起步阶段。 1 3 主要研究内容与工作 本文主要从数据挖掘的角度探讨了如何从大量的税务信息数据中提取潜在有用的知 识和模式,并进行深入利用以提高税务管理水平。本文研究内容和工作主要包括以下几个 部分。 1 首先简要介绍了数据挖掘技术的概念、功能和方法,并根据税务信息化应用需求的 特点,从不同数据挖掘的功能的角度,分析了常见的几种数据挖掘方法在税务信息化工作 中的应用模式。 2 针对数据挖掘方法在税务信息化应用的重要方面纳税数据异常检测,采用孤立点分 析技术,设计了一个基于质心距离的纳税数据异常检测算法。纳税数据中有些例外的异常 数据,对于一般的数据分析方法来说,这些数据是噪声,需要清除,但实际上这些数据对 于发现纳税过程中的各种异常现象具有重要的意义。本文从税务数据监控应用的角度,根 据纳税数据的特点,设计了一个基于质心距离的异常检测算法,基于不同类别纳税人具有 相同纳税行为的特点,对每一个数据类别进行孤立点检测,尝试性地从纳税数据中发现其 中潜在的异常信息。 3 对纳税数据异常检测方法在税务行业中的应用进行了分析,设计了一个基于质心距 离的异常检测算法的税务数据异常检测系统的构建方案,并用c 群语言开发实现了异常检测 模块的原型系统,采用陕西省国税局实际增值税纳税数据对该系统进行了测试,经分析测 试结果,该检测方法能够发现增值税征收数据中的异常情况。 1 4 论文组织结构 本文对数据挖掘技术在税务信息化中的应用作了分析和探讨,重点研究了税务数据异 常检测方法。 第一章介绍了研究背景、国内外研究现状和主要研究内容与工作。 两安石油大学硕士学位论文 第二章简要介绍了数据挖掘技术的主要内容及主要的挖掘算法,并结合税务领域的特 点,分析了各算法在税务信息化中的具体应用模式。 第三章详细介绍了数据挖掘领域中的孤立点( 异常) 检测技术,并研究了税务数据的 异常检测方法,设计了一种基于质心距离的孤立点检测方法来发现纳税数据中的异常数 据。 第四章设计了一个纳税数据异常检测系统系统架构,并设计开发了一个原型系统,实 现了异常检测模块的核心功能,最后给出了采用实际纳税数据对该异常检测方法的测试结 果,给出了实验结果分析。 第五章在总结本文的工作的同时,给出进一步工作的展望分析。 4 第二章数据挖掘技术及其在税务系统中的应用分析 第二章数据挖掘技术及其在税务系统中的应用分析 2 1数据挖掘技术 随着数据库技术的飞速发展以及人们获取数据手段的多样化,人类所拥有的数据急剧 增加,可是用于对这些数据进行分析处理的工具却很少,理解它们已经远远超出了人的能 力。目前数据库系统所能做到的只是对数据库中已有的数据进行存取和简单的操作,人们 通过这些数据所获得的信息量仅仅是整个数据库所包含的信息量的很少的一部分,隐藏在 这些数据之后的更重要的信息是关于数据的整体特征的描述及对其发展趋势的预测,这些 信息在决策生成的过程中具有重要的参考价值。这就引起了对强有力的数据分析工具的急 切需求。 面对这种挑战,数据库中的知识发现( k d dk n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 技术 逐渐发展起来。k d d 是指从大量数据中提取出可信的、新颖的、有效的、潜在有用的并能 被人理解的模式或知识的非平凡处理过程【4 】。其中,数据是指有关事实的集合,记录和事 物有关的原始信息。模式或知识是一个用语言来表示的一个表达式,它可用来描述数据集 的某个子集,是对数据所包涵信息更抽象的描述。对大量数据进行分析的过程,包括数据 准备、模式搜索、知识评价,以及反复的修改求精。该过程要求是非平凡的,意思是要有 一定程度的智能性、自动性( 仅仅给出所有数据的总和不能算作是一个发现过程) 。有效 性是指发现的模式对于新的数据仍保持有一定的可信度。新颖性要求发现的模式应该是新 的。潜在有用性是指发现的知识将来有实际效用,如用于决策支持系统里可提高经济效益。 最终可理解性要求发现的模式能被用户理解。 k d d 不但能够学习已有的知识,也可以发现未知的规律。同时,k d d 也是一门新兴 的交叉学科,汇聚了数据库、人工智能、统计、可视化和并行计算等不同领域的技术。 般将k d d 中进行知识学习的阶段称为数据挖掘( d a t am i n i n g ) ,它是整个数据库中 的知识发现过程中一个非常重要的处理环节。数据挖掘技术作为基于机器学习、统计学等 领域而发展起来的从数据中获取知识的技术,正在多行业得到广泛的应用。数据挖掘技术 只有面对特定行业领域才有应用价值,它并不是要求发现无处不在的真理,所有发现的知 识就是相对的,并且对特定的行业才有指导意义。在这里主要从税务信息化的角度分析数 据挖掘的应用。税务系统中的数据挖掘也可以从技术和应用两个角度叙述。 技术角度的定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实 际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的 过程。 应用角度的定义:从税收应用角度来说,数据挖掘从本质上是一种新的税收数据( 信 息) 处理技术。数据挖掘就是按照税务行业的既定业务目标,对大量的税收数据进行深层 西安石油大学硕士学位论文 次分析以揭示隐藏的、未知的规律性并将其模型化从而支持税收决策活动。 数据挖掘技术把人们对数据的应用,从低层次的联机查询操作提高到决策支持、分析 预测等更高级的应用上。它通过对数据进行采集、转换、分析和其他模型化处理,发现数 据间的关联性、未来趋势以及一般性的概括知识,这些知识性的信息可以用来指导高级税 收决策活动,如图2 1 所示。从税务信息化的角度刻画数据挖据技术,可以使我们更加全 面地了解数据挖掘的真正含义。 2 2数据挖掘过程 图2 - 1 数据挖掘和税收决策 从面向税务系统的角度来看,数据挖掘过程可分为数据选择与集成、数据预处理、挖 掘过程以、模式评估和知识表示、辅助决策制定等几个步骤【5 _ 刀,如图2 2 所示。 1 数据选择与集成:也可称为数据采集,就是根据数据挖掘目标,从税务信息系统的 多种数据源( 如征管软件、稽核系统、其他外部数据源等) 中检索与分析任务相关的数据, 并将不同数据源中的数据集成起来,建立目标数据集( 如纳税人、税种、征收数据、发票 数据、纳税人财务数据等数据集) ,以确定数据挖掘的操作对象。 2 数据预处理:数据采集之后须利用税务领域专门知识对数据集中不完整、不一致、 不精确和重复的数据( 称为脏数据) 进行清洗,对数据进行数据消减,缩小数据的规模。 并根据分析任务目标,选用关键特征表示数据,并将数据通过汇总、聚集、离散化、规范 化等操作转换为适于数据挖掘的形式。 3 挖掘过程:使用智能方法提取税务数据种潜在的模式。这些方法包括数据概括、分 类、回归预测和聚类分析、序列分析等。 4 模式评估知识表示:采用有关方法对数据挖掘发现的模式进行评价,根据某种兴 趣度度量,识别表示知识的真正兴趣的模式。并使用可视化和知识表示技术,向税务专业 6 第二章数据挖掘技术及其在税务系统中的应用分析 用户提供得到的知识,帮助用户理解发现的模式。 5 辅助决策制定:利用获得的知识辅助税务管理人员制定相关业务决策。 稽、r * 数据库等) 图2 - 2 数据挖掘的过程 由上述过程可知,整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现 选择的数据不太好,或使用的挖掘技术产生不了期望的结果,这时,用户需要重复先前的 过程,甚至从头重新开始。 基于这种观点,j i a w e ih a r t 等人提出典型的数据挖掘系统具有咀下主要成分,如图 2 - 3 所示。 1 数据库、数据仓库或其它信息库这是一个或一组数据库、数据仓库、电子表格或 其它类型的信息库。可以在数据上进行数据预处理和集成。 2 数据库或数据仓库服务器根据用户的请求负责提取相关数据。 3 知识库用于指导搜索,或评估结果模式的兴趣度。 4 数据挖掘引擎这是数据挖掘系统的基本部分,由一组功能模块组成,用于特征化、 关联、分类、聚类分析以及演变和偏差分析等工作。 5 模式评估模块通常使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在 有趣的模式上。它可能使用兴趣度阐值过滤发现的模式。 6 图形用户界面在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据 挖掘的任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。 西安石油大学硕_ :学位论文 数据清 图2 - 3 典型的数据挖掘系统结构 2 3数据挖掘的功能和方法 2 3 1数据挖掘的功能 数据挖掘的功能反映了数据挖掘算法发现的模式的种类。在税务系统中,根据履行功 能的不同,这里将数据挖掘问题分为数据概括、关联分析、分类和预测、聚类、孤立点分 析以及演变分析等几个类别【5 】,分别介绍它们的作用及在税务信息系统的数据分析中的应 用。 1 数据概括 数据库数据是最基本的信息,但不能满足不同层次的用户希望从不同的层次和角度对 数据进行处理或浏览的需求。数据概括是一种把数据库数据从低层次抽象到高层次的过 程,即对数据进行浓缩,用紧凑形式重新对其进行表示。 对于复杂的税务信息系统,用其大量各种业务数据构建成一个税务数据仓库,在其上 进行各种形式的数据概括操作,能够满足税务管理人员对各种税务数据的统计分析处理和 浏览的要求。 2 关联分析 数据联接关系是数据库中存在的一类重要的、可被发现的知识。两个或两个以上变量 的取值之间存在某种相关规律性,就称为关联。关联分为简单关联、时序关联和因果关联。 关联分析用于重新建立数据对象之间业已存在的隐含联系,找出数据对象中隐藏的关联 网。一般用支持度和可信度两个阈值来度量关联规则的相关性,同时研究者们还不断引入 兴趣度、相关性等参数,使得所挖掘的规则更符合需求。 8 第二章数据挖掘技术及其在税务系统中的应用分析 关联规则分析能够发现大量数据中对象( 比如属性、项目等) 之间有趣的关联模式或 相关联系。关联模式能表示不同项目之间的依存关系,可以反映同时频繁出现的数据对象 之间的蕴涵关系,即一组项目出现,在多大程度上另外一些项目也会出现。 关联规则挖掘的应用很广泛,在税务信息系统中具有广泛的应用需求。比如,在稽查 选案中【8 ,9 ,1 0 】,可以使用关联规则判断各个指标间的关联程度,然后可以进行指标合并,从 而简化选案的复杂度。 时序关联表示数据对象之间按照时间变化的隐含联系,序列模式便是一种时序关联, 它能表明时态数据中频繁出现的事件序列。在税务信息化中,序列模式挖掘能够发现顺序 发生的税务事件之间的联接关系,找到频繁发生的税务事件序列模式,这样就可以发现新 的税收模式以及税收行为异常状态,为改进税收工作方式、发现税务欺诈等工作提供技术 支持。 3 分类和预测 分类和预测是两种数据分析形式,可以用来抽取描述重要数据类别或预测数据趋势的 模型。 分类能够预测离散类别标签,把数据项目( 或对象) 根据其属性划分到预先定义好的 类别之中。实际上它是根据一个分类模型,在数据库中的对象集合中找到一些共同的属性, 并把它们分成不同类型的过程。其目的在于根据历史数据自动创建能预测未来行为的分类 规则。分类规则反映的是属性数据对象和类别标识之间的因果关系。在分类问题中,待产 生的类别的数目是事先知道的,而且,训练数据中同时包含有属性数据和类别标识数据。 通过对训练数据进行分析可以获得数据集的类别概念模型,利用该模型可以对未知类别的 新数据进行类别的预测。分类的应用很广泛,比如可以建立分类模型来把税务中的纳税人 状况分为重点纳税人和非重点纳税人。 预测可以用于预测数据对象的连续取值,主要采取回归分析的方法。在税务信息系统 中,预测模型可以根据给定纳税人的纳税数据( 连续数值型数据) ,来预测该纳税人的纳 税数据未来的走势。例如通过对给定的纳税数据推导出偷漏税情况的泛化规则,可以发现 偷漏税这种异常规则。 4 聚类 数据的聚类分析是根据使类内部的相似性最大,而使类间的相似性最小化的原则将一 组数据分组,但没有预先定义的类属性。这种将实际的或抽象的对象分成相似对象的类的 分组过程叫做聚类。聚类分析有利于在大量对象集合上建立有意义的划分,而这种划分是 一种分而治之的方法,即将大规模的系统分解成较小的组成部分以简化设计和实现。聚类 也便于分类编制,将观察到的内容组织成类分层结构,把类似的事件组织在一起。 税收征管系统中的许多数据,由于事先缺乏确切的线索,使用分类分析的方法是不切 实际的。而聚类分析往往可以发现纳税人的群体行为,例如,大批纳税人可能在发票领购 使用、经营销售模式或财务处理方式上具有相当大的类似性,因而形成了具有共性的纳税 9 西安石油火学硕士学位论文 人群体。经过聚类分析,发现他们的共性,就可以在此基础上进行比传统的比对更深入、 更有效的税收监管n 。 5 孤立点分析 数据库中可能包含一些数据对象,它们与数据的一般行为或分布模型不一致。这些数 据对象就是孤立点( o u t l i e r ) 。大部分数据挖掘方法将孤立点视为噪声或异常而丢弃。然而, 在一些应用中,罕见的事件可能比正常出现的那些事件更应引起注意【1 2 】,比如税务欺诈检 测,罕见的异常事件可能是某些纳税人的偷漏税行为。孤立点分析的主要任务就是发现数 据中的潜在有意义的孤立点。 6 演变分析 演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管演变分析也包 括了时态数据的分类、聚类和关联分析等,但时间序列数据分析、序列或周期模式匹配和 基于相似性的数据分析等是演变分析区别于其它方法的特征。 其中,时序数据挖掘对税务数据分析具有重要意义。时序数据库是指由随时间变化的 序列值组成的数据库。数据值通常是在等时间间隔测得的数据。许多应用中时间序列数据 库很普遍,如股票市场的每日波动,动态产品加工过程,科学实验等等。时序数据库也是 一种序列数据库。然而序列数据库是指由有序事件序列组成的数据库,它可以有时间标记, 也可以没有。时序数据库主要包括以下几个方面: 趋势分析,主要分析趋势变化、循环性、季节性变动和非规则变动。 时序分析的相似搜索,负责找出与给定查询序列最接近的数据序列。 序列模式挖掘,挖掘相对时间或其它模式出现频率高的模式。 周期分析,对周期模式进行挖掘,即在时序数据中找出重复出现的模式。 在税务信息化系统数据分析中,通过对一段时间内的随时间变化的税务数据、以及周 期性变化的税务数据进行时序数据挖掘,可以发现纳税人缴税的变化趋势、纳税人周期性 变化的纳税行为、缴税行为的相似性模式等信息,可以为提高税收预测、税务监管的水平 提供参考。 2 3 2 数据挖掘方法 数据挖掘方法研究旨在提供数据挖掘的方法论【5 1 ,制定实现知识发现目标的宏观策略。 数据挖掘方法主要包括决策树方法、遗传算法、神经网络方法、贝叶斯网络方法、粗糙集 方法、规则归纳方法、数据库方法、可视化方法等。随着数据挖掘研究的更加深入和应用 的日益广泛,各种数据挖掘方法会相互融合,全新的数据挖掘方法也会出现。因此,和其 它许多领域一样,数据挖掘方法无法穷尽。 1 0 第二章数据挖掘技术及其在税务系统中的应用分析 2 4 数据挖掘算法组成 数据挖掘算法是对某种数据挖掘方法的具体实现,可以看作是些基本技术和原理的 综合体。数据挖掘算法一般由三个部分组成啼1 模型;性能准则;搜索算法。 数据挖掘有许多不同的算法。这些算法的区别在于它们所作用的数据种类( 如文件、 事务数据库、事态数据库和空间数据库等) 和所发现的知识类型( 如分类规则、聚类规则 和序列模式等) 各异。本节我们按照所发现知识类型的不同,介绍一些税务信息化可用的 且比较成熟的数据挖掘算法。 2 4 1分类和预测算法 数据分类包括训练建模和分类两个步骤。在训练建模过程中,通过分析训练数据集中 由属性所描述的数据库元组( 又称为样本、例子、或对象) 来构建一个模型。其中假定每 个元组属于一个预定义的由一个属性来定义的分类。此过程又称为有监督的学习。学习获 得的模型以分类规则、决策树或数学公式的形式来表示。在分类过程,首先要估计模型的 预测精度,如果认为精度是可接受的,就可以使用分类模型来对未知类别元组进行分类。 目前最常见的分类方法有【l 】:决策树归纳分类、贝叶斯分类( 朴素贝叶斯分类和贝叶 斯信念网络) 、后向传播式分类( 一种神经网络学习算法) 、基于关联的分类、k 近邻分 类、基于案例的推理、遗传算法分类、粗糙集分类、模糊集方法等。 连续值型数据的预测可以用回归统计学方法来模拟。许多问题可以通过线形回归来解 决,甚至可以通过对变量运用变换技术来把非线性问题转换为线形问题来解决。预测分析 可以包括随时间变化的趋势分析,也可以包括周期性分析,它们对于核电运行参数的变化 分析都具有重要意义。 分类方法的评估标准包括: 准确率:模型正确预测新数据类标号的能力。 速度:产生和使用模型花费的时间。 健壮性:有噪声数据或空缺值数据时模型正确分类或预测的能力。 伸缩性:对于给定的大量数据,有效地构造模型的能力。 可解释性:学习模型提供的理解和观察的层次。 影响一个分类器错误率的因素包括:训练集的记录数量,属性的数目,属性中的信息, 预测记录的分布。 2 4 2聚类规则挖掘算法 聚类,即“物以类聚 ,是采用“分而治之”的方法,把一系列对象划分成在某些方 面、在某种程度上相似的对象组成的若干个类的过程。聚类算法也得到了广泛的研究。 两安石油大学硕十学位论文 大体上,主要的聚类算法可以划分为以下几类【l 】: 划分方法主要包括库k 平均算法和k 中心点算法。 层次的方法主要算法包括b i r c h 、c u r e 、c h a m e l e o n 等。 基于密度的方法主要包括d b s c a n 和o p t i c s 算法。 基于网格的方法包括s t i n g 、c l i q u e 和w a v e c l u s t e r 等算法。 基于模型的方法包括统计学方法( 如c o b w e b 算法) 和神经网络方法。 2 4 3关联规则算法 关联规则是具有形式x 匕硝、并满足置信度c 和支持度s 的一种逻辑蕴涵关系。其 中x 和y 是两个项集,且x n y = a 。 根据不同的标准,可以把关联规则分为以下几类。 基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 基于规则中数据的抽象层次,可分为单层关联规则和多层关联规则。 基于规则中涉及到的数据的维数,可以分为单维的和多维的。 布尔型关联规则是最广泛被研究的关联规则,它处理的变量值都是离散的、种类化的 数据,显示了这些变量之间的关系。对于这一类关联规则一般采用经典的频集算法。最早 的关联规则挖掘算法是由a g r a w a l 等于1 9 9 4 年提出的,他们提出了一个挖掘顾客交易数据 库中项集( 商品集) 间的关联规则的重要方法a p r i o r i t l 3 】,其核心是基于两阶段频集思想的 递推算法。这种关联规则在分类上属于单维、单层、布尔关联规则,现在很多关联规则算 法都是基于该算法进行的。 2 5税务信息系统中数据挖掘技术的应用分析 如何以一种有效的方式逐步整理各个业务系统中积累下来的历史数据,并通过灵活有 效的方式为各级业务人员提供统一的信息视图,从而在整个系统内实现真正的信息共享, 一个可行的办法是先分步骤完成数据仓库的建设,再逐步开展数据挖掘应用。本文下面对 税务数据仓库和税务数据挖掘系统的构建技术进行分析。 2 5 1面向税务系统的数据挖掘设计 对于国税系统业务来说,管理型系统围绕各种业务功能进行设计,比如税务登记、申 请文书、购买发票、纳税申报缴款、税务稽查等。而数据挖掘则针对主题进行构建,比如 纳税人、购票纪录、缴款纪录、稽查结果等。主题的排列次序关系到数据仓库的设计和实 现。管理型系统需要考虑过程的设计,而数据挖掘不需要决策分析所不需要的数据。 和一般数据挖掘系统类似,税务数据挖掘从逻辑上也应分五个层次,即:数据源层、 第二章数据挖掘技术及其在税务系统巾的应用分析 数据导入层、数据存储与管理层、中间服务层和前端应用层,如图2 4 所示。 数据源层包括税务业务数据( 征管系统、出口退税系统等) 、外部数据( 包括工商、 地税、海关等有关单位信息) 和其他数据等。 数据导入层主要完成源数据向数据挖掘系统的抽取、传输、转换和加载,需要配备数 据加载转换( e t l ) 服务器。 前端应用层 人机交可:界面( 税务系统联机分析,税 务数据挖掘) ,综合壹询界面等 由问瞻堑巨 计算展现引擎( 0 l ap 服务器。数据 挖掘服务器,报表展现服务器等) 千 黼鹪镪爸审 数据导入层 数据翻m 工具( 数据抽取,转挺清洗和装载) y 图2 4 数据挖掘的体系结构 数据存储与管理层是整个系统的核心,通过数据挖掘统一存储和管理各种数据,这些 数据通过逻辑数据模型( l d m ) 进行组织和重构;为了数据挖掘的需要,还可以在该层根 据用户层的不同,建立相应的数据集市。 中间服务层主要包括o l a p ( 联机分析系统) 服务器、数据挖掘服务器等,o l a p 技 术主要通过多维的方式来对当前的和历史数据进行分析、查询,能够很快地向业务人员提 供一定范围内灵活的多维分析报表,比传统的通过编程来生成报表的方式要快捷得多,从 而实现访问方式的多样化和信息存取的透明化。 应用层主要为决策分析用户提供o l a p 服务器访问、对数据仓库进行直接存取、随机 查询、统计报表和决策分析等功能;为数据挖掘用户提供专用的数据挖掘工具以及进行前 端访问和开发功能。 目前税务系统已经着手开展数据挖掘系统的建设工作,从数据的规模、人员技术的积 累、市场竞争的要求等客观情况来看,分析和构建数据仓库的时机和条件已经具备。然而, 在目前的条件下,税务数据挖掘的还面临系统可用性不高、灵活性不够、稳定性差等问题。 西安石油大学硕士学位论文 数据挖掘是在螺旋式开发方法学的指导下开发的,需要一个持久的过程,税收业务部门在 业务的开展过程中会不断提出新的需求,也就是说模型的开发同样也是无止境的,这将是 一个不断探索、不断完善的循序渐进的过程。 2 5 2税务信息数据挖掘应用分析 从技术上讲,陕西省国税局开展数据挖掘的技术条件已经成熟。因为业务集中提供了 统一的业务规范和可靠的数据质量,这为数据挖掘的实现准备了良好的数据环境,金税工 程三期的开展为税务数据挖掘系统地实现提供了良好的硬件环境。目前,陕西省国税局的 业务发展对构建税务信息数据挖掘系统提出了迫切需求。这里根据现有数据挖掘系统的研 究、开发和应用情况,结合陕西省国税局的信息化工作现状,对税务数据挖掘系统中的相 关功能需求进行简要分析。 数据挖掘一般是在数据仓库基础上实施的,在实施过程中应充分考虑数据仓库与数据 挖掘的关系,即数据仓库是基础,数据挖掘是数据仓库之上的高层应用。二者需整体规划、 分步实施。在进行数据挖掘工作之前,必须明确数据挖掘所需要解决的问题和需要达到的 目标。也只有在目标明确的前提下,数据挖掘工作才有方向和意义。 税务数据挖掘系统可以针对税务系统数据仓库应用领域实际情况,提供从深层次知识 发现和应用、多维数据库管理系统、交互式联机分析等全方位解决方案,其应用的主要领 域主要包括监控纳税企业的信息、偷漏税的稽查、纳税评估、税收计划、税源分析等方面 n 4 惦1 。税务数据挖掘系统从多种观察角度对数据进行分析、查询和生成报表,用来帮助数 据分析人员、管理人员和决策人员洞察数据、发现规律,为科学决策提供辅助支持。 目前,税务系统中数据挖掘的主要主题包括:纳税人分析、税种分析、纳税行为分析、 纳税趋势分析、纳税异常检测等。 1 纳税人分析:主要对纳税人的基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年注册会计师之注册会计师会计题库练习备考题附完整答案详解【必刷】
- 2026年医学检验技术考前冲刺模拟题库及参考答案详解【培优】
- 两角和与差的正切课件2025-2026学年高一下学期数学苏教版必修第二册
- 痔疮术后饮食改善建议书
- 疼痛评估的跨学科合作
- 2026年汉语语音测试题及答案
- 2026年翻译概论 测试题及答案
- 2026年核算采样测试题及答案
- 2026年IG口语测试题目及答案
- 2026年情侣测试智商的测试题及答案
- 商务英语专科毕业论文
- 2026年中考复习必背初中英语单词词汇表(精校打印)
- 生物安全培训考试题目含答案
- 集体备课培训课件
- 建筑机电安装知识点课件
- DB11T945.1-2023建设工程施工现场安全防护场容卫生及消防保卫标准第1部分
- 老年康复护理培训教育课件
- 人教部编版七年级语文下册全册教案(附课后反思)
- 2025年四川省攀枝花市仁和区人才引进33人历年高频重点提升(共500题)附带答案详解
- 企业建筑施工安全生产管理制度汇编
- 2024年河北高中学业水平合格性考试地理试题(含答案)
评论
0/150
提交评论