




已阅读5页,还剩63页未读, 继续免费阅读
(计算机软件与理论专业论文)数据挖掘技术在税务稽查中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
题目:数据挖掘技术在税务稽查中的应用 专业:计算机软件与理论 硕士生:陈仕鸿 指导教师:印鉴 摘要 目前,一些企业偷税漏税手段复杂、花样翻新,成为税务稽查的一个难题。 传统的稽查选案是以举报信息为主要依据的,这很大程度上依赖于专业的稽查人 员根据以往的工作经验和某些直觉上的判断来圈定那些不法纳税人的特征。而本 文将数据挖掘技术应用于税务稽查领域,可以从税务机关拥有的大量的数据中提 取隐含在其中的、人们事先不知道的、但是又有潜在有用的信息知识,大大提高 了工作效率与管理水平,以及稽查选案的准确率,为税务稽查工作提供有力的技 术支持。 文章主体分为四部分:一、概述税务稽查选案相关的理论知识;二、具体介 绍了数据挖掘的定义、技术方法等理论知识;三、详细介绍了回归分析相关的理 论,并结合某市税务局的样本数据,使用回归分析法研究其税务稽查工作,识别 出诚实纳税户和不诚实纳税户,最后简单分析了使用回归分析法识别纳税户数据 的可行性,并计算出相关的准确率,得出一定的结论;四、分析了聚类分析法, 详细介绍了最短距离的层次聚类法,并利用层次聚类法研究了企业的纳税行为。 对稽查选案样本数据进行分类,得出分类的结果图形,进而识别诚实纳税和不诚 实纳税行为,并与实际纳税行为结果比较,计算出使用该方法的准确率,并与之 前使用回归分析法锝出的准确率比较,得出结论,哪种方法更适合于实际的税务 稽查工作,希望对实际工作提供一定的建议。 关键词:税务稽查,数据挖掘,l o 百s t i c 回归分析,聚类分析 t i t l e : r e s e a r c ha n da p p l i c 撕o no f d a t am i n i n gi 1 1t 奴一c h e c h n g m a j o r :c o m p u t e rs o f w a r ea n dn l e o r y n a m e :c h e ns h i h o n g s u p e r v i s o r :y i nj i a i l a b s tr a c t n o w ,s o m ee m e r p r i s e sh a v em l l l t i p h c a t er r i e a n so f 伽( d o d 舀1 1 9 觚dt a xe v a s i o n , w h i c hb e c o i n eo n ep u z z l ci nt a ) ( - c h e c h n g t h et r a d i t i o n a l 鞠m p l i n go f 伽( 一c h e c 虹n gi s 粒c o r d i i l g 嬲让屺a c t i v 时o f p r o v i d i n gi n f o r r n a t i o n n l i sm e m o d t 0f i n di l l e g a l t a ) 【p a y e rd e p e n d so nt h ee x p e r i e r l c ea n ds o m ei n s t i n c t j u d g c m e mo f t l l es p e c i a l t a x c h e c k i n gp e r s o n 。珊sr e s e 眦hu s e sd 缸am i n i n gi nt 磐c h e c k i n gt od i 锄ls o m e l l s e f i l l i 缸| o r m a t i o nt l l a tp e o p l ed or i o tk n o wi na d v a n c ef b m t l l e 铲e a td e a lo f d a t a n l a t b c l o n g st o 协x 捌1 1 i s m n i o n t h em e t h o d c a nh e l pt oi m p m v et h cw o r ke f f i c i e n c y , m a n a g e m e n tl e v e la n dt h ev e r a c 岭o f 抽( - c h e c k i n gs 锄p l i n ga n dp o w e f f l l is u p p o no f t e c l l r l o l o g y w ed i s c l l s st h et a x - c h e c k i n gs y s t e mmf b l l rp a r t s f i r s t ,w es m m n 撕z em e m e 枷n ga 1 1 df i l n c d o i l so f 协et a x - c h e c k i n gs 锄p l i n g s e c o n d i y ,w e 协协硼u c em e d e 丘n i 如na 1 1 dt e c h n o l o g yo f d a c am i i l i n g 1 1 1 i r d l y ,w ei n 们d u c et h et h e o r yo f r e g r e s s i o na i l a l 姻n gm 幽d i i ld e 诅i l b 船e do nt l l e1 0 c a l 毋伽【a u 拙i n gp m c t i c e ,t l l i s p 印e r u s e sl o g i s t i cr e 伊e s s i o nm e t l l o dt oi n v e s t i g a t e1 l l e 、v o r ko f t a ) ( - c h e c 虹n go f i t w ei d e n l i 母t h ch o n e s tt a x p a y e r 趾d 血ed i s h o n e s tt a 】( p a y e r ,卸dw ea n a l y z et l l e f e a s i b i l i t yo f l l s i n gl o g i s t i cr e g r c s s i o nm e m o dt oi d e 砸母t a x p a y e r w ec a l c u l a t et l l e v 锄c 时o f t l l i sm e t l l o da n dg e ts o m ec o n c l l l s i o n f i n a l l y ,w ea i l a l y z et l l ec l u s t e r i n g m e m o d w eu s et h ch i e r a r c l l i c a lc 1 咄r i n gm e t h o dt or e s e a r c ht h cr a t e p a y i n ga c 廿o n o f e m e 叩r i s e w ec l 躯s i 句m es 锄p l i n go f t a x - c h e c “n g ,a n dg e t l ec l 勰s i 每i n gr e s u l t f i g u r e b yi tw e c a i li d e n t i 锣t 1 1 ea c t i o no f h o n c s ta i l dd i s h o n c s tr a t e p a y m g 1 1 1 e nw e c o m p a r c t l cr c s u nw i t ht l l ef k tm c e p a y i n g a t l a s tw eg e t 也ev e r a c i t ya n dc o n l p a r e “ 诵t ht 1 1 el o g i s 廿cf e g r c s s i o nm l 汕o d w et e s t i 母m a tt h i sm 甜l o di se 侬蛾i v e k e y r d s :t a x - c h e c k i n g , d a t af n i i l i n g , l o g i s t i cr e g r c s s i o nm e t l l o d ,c l 蛐g m e t l l o d n l 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:弼- t 多磐 日期;弘口了年邸月7 d 日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学 位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其 他方法保存学位论文。 学位论文作者签名:p 咖;鸣 日期:w 乜释叶月z o 日 导师繇印甏 日期。懈年妒月哕 第一章引言 1 - 1 论文选题背景及意义 常说:税收是国家的命脉。由此可见,税收的重要性是不言而喻的。税收是 国家财政收入的主要来源。国家依靠社会公共权力,根据法律法规,对纳税人包 括法人企业、非法人企业和单位以及自然人强制无偿征收,纳税人依法纳税,以 满足社会公共需求和公共商品的需要。税收体现了国家主权和国家权力。随着对 外开放的扩大和社会主义市场经济的发展,税收在国民经济中的地位和作用日益 增强。 税收是国家的基本财政收支与保障,而纳税人足额纳税自然成了税收的保 障。现在犯罪分子的手段恶劣,偷逃税金额之巨大,令人触目惊心,使国家的税 款大量流失,引起了社会各界的关注。 税务稽查是税务机关对纳税人、扣缴义务人履行纳税义务、扣缴义务i 青况所 进行的税务检查和处理工作的总称。税收稽查作为税收执法工作的一个重要组成 部分,对打击偷逃骗税等违法活动,增强纳税入的守法意识,发挥着重要的作用。 传统的稽查选案以举报信息为主要依据,这方面的工作在很大程度上是依靠 专业的稽查人员根据以往的工作经验和某些直觉上的判断来圈定那些不法纳税 人的特征,虽然这种稽查选案的结果在初期可能会有很大的帮助,但是随着税务 体制的改革,经济的发展,自然而然的引起了税源和税种的增加。这时,政府的 税务管理部门仍在使用以往总结的凭经验和直觉判断的方法去区分判断哪些是 违法的纳税人,势必会导致产生以下问题:稽查人员的增加,引起稽查成本增大; 选案的不科学性,引起稽查效率低下;同时,对于个案稽查过程中,由于没有证 据来源,增加了个案稽查的时间成本,而且稽查效果也不是十分明显。因此,稽 查选案具有较重的人为因素,较大的不确定性,无法保证税务执法的公正性与透 明度。同时对市场经济下涌现出的偷逃税手法,传统的人工选案也越来越无能为 力。 税收的根本原则是以最小的耗费,收回最多的税收,税收成本的高低是衡量 税收征管水平高低的标准,税务稽查无疑要坚持这一原则,必须做到以最少的人 力、物力消耗,取得最好的稽查成果。因此,采用现代的计算机技术,如人工智 能,数据挖掘技术,来完成稽查选案工作,是税务稽查部门日益关注的课题。现 有的基于决策支持系统的税务稽查系统功能有限,虽然积累了大量税务稽查历史 数据,但这些数据却没有得到有效利用,满足不了稽查决策人员对数据深层次的 分析需求。 随着计算机技术的发展和数据挖掘应用的逐渐成熟,数据挖掘技术引起了越 来越多的行业的重视。在国外,政府应用数据挖掘技术发现欺诈行为已经有了3 0 多年的历史。如今,中国的各级政府机关在信息化的进程中也都不约而同的将数 据挖掘应用提到了议事日程上来。借鉴国外的成功经验,使用数据挖掘技术,与 我国税收系统实际相结合,对税务管理部门所辖的纳税户进行纳税评估和稽查选 案的工作,将会大大提高监管工作的效率,提高稽查工作的效果。 随着市场经济的发展,经济成分趋向多元化,征纳双方保护税收和流失税收 的矛盾将更加突出。而经营方式的多样性与个人收入渠道的多元化更增加了税收 的征管难度,使税款流失变得更加容易。目前,一些企业逃税漏税手段复杂、花 样翻新,成为税务稽查的一个难题。 现有的基于决策支持系统的税务稽查系统功能有限,虽然积累了大量税务稽 查历史数据,但这些数据却没有得到有效利用,满足不了稽查决策人员对数据深 层次的分析需求。在目前的研究成果中,较多地还是使用数理统计中的判别分析 方法来解决这一问题,但是由于其判别函数的线性结构,难以适应财务数据与逃 税行为的很强的非线性关系,因而,在判别精度方面存在较大的局限性,而人工 神经网络则对非线性问题具有较强的适应性,为较好地解决稽查选案问题提供了 可能。 为了最大限度地减少税款流失,本文利用数据挖掘技术分析税务稽查数据样 本,利用两分类l o g i s t i c 回归分析方法以及层次聚类分析法,分析稽查数据,并 比较两种方法的优劣,为税务稽查选案系统的智能选案方法提供选择,增强系统 的稽查选案能力,提高税务稽查的工作效率。 2 本文所讲述的是如何通过两种数据挖掘技术从税务局的数据库中挖掘出可 疑的不诚实纳税的企业的情况,辏助稽查选案,提高稽查选案的科学性和准确度, 并比较它们的优越性。 1 2 国内、外研究现状综述 稽查选案是税务稽查的重要环节,一般是指根据企业定期呈报给税务部门的 数据资料,利用各种技术方法对企业呈报的财务数据,税务数据进行处理判断, 得出一些可能不诚实纳税的企业,然后进行稽查的方法。由于在实践中有很多客 观因素诸如信息系统不健全等,阻碍了这些技术的应用,所以,这些研究几乎都 还停留在学术层面上。 1 国外税务系统数据挖掘应用概述 利用统计分析的方法进行税务识别。在发达国家和地区早已实行,如美国9 0 以上的税务稽查案件,都是通过计算机分析筛选出来的。美国国内收入局装有一 套“货币银行企业”的检查系统,它的数据库里储存着来自银行、企业和货 币使用者的流动信息。无论是经济实况稽查还是分行业专业稽查,一般都采用电 脑计分、选样抽查的方法确定稽查对象。纳税人的纳税申报表根据国内收入局制 定的标准,由电脑来客观打分。一般而言,收入越高、减项越大、错误越多者, 分数越高,被选定查税的可能性就越大。美国国内收入局通常每3 年实行一次“衡 量纳税人遵法稽查计划”,每次通过电脑选择数万件,对每件都彻底稽查,再根 据结果改进电脑打分及选样抽查等的标准。 随着技术的发展,国外一些发达国家,尝试着将数据挖掘应用到税务系统中。 2 0 0 3 年,美国在征管软件中启用了数据挖掘技术,较好的保障了信息的真实性, 减少了偷漏税现象。 澳大科亚己在全国税务机关内部全面运用计算机系统管理纳税申报,遥过多 种途径获得税务信息,建立数据仓库,并有效地利用数据仓库和数据挖掘技术对 税源进行控制,有针对性的开展税务审计和税收预测。 z 国内税务系统数据挖掘应用现状 目前,国内针对税务系统应用的数据仓库和数据挖掘理论还很匮乏,这主要 是税制改革1 0 年来,税收法律和制度建设较快,变化较多,没有数据仓库和数据 挖掘的具体应用规划。 随着税收征管数据的积累和信息技术的发展,近年来国内一些税务机构和研 究机构开始进行数据仓库和数据挖掘方面的探索,取得了一定的成绩。 广东省国税局2 0 0 3 年为进一步加强税务信息化建设,提出建设税务分析与决 策支持系统。广东省国税的税务分析与辅助决策支持系统项目完成了立项工作。 作为国家税务总局关于税务信息化“一个网络,一个平台,四个系统”总体规划 的重要组成部分,广东国税希望在规范统一、高度共享的综合性主题数据库的基 础上,建设一个分析性的平台,实现四大目标:其一,建立数据仓库,实现数据 集成,也就是将分散在各业务系统中的格式不一致、口径不统一的数据进行规范 化、标准化、集成化处理:其二,对历史数据进行分析处理,找出事物发展规律: 其三,快速获得综合性数据:其四,发现数据间的隐含的相关关系。 南京市地税局2 0 0 3 年启动数据仓库技术,该项目旨在解决南京地税局原有业 务系统在查询,报表统计及纳税质量分析等方面的业务需求。 东软公司也推出了税务管理系统,通过对纳税人各种申报表的分析,总结出 纳税人各方面的纳税情况。国内一些软件公司也已做出尝试,如“浪潮软件”推 出的“浪潮税务总体解决方案”,“南开戈德”推出的“戈德税务系统解决方案” 等都是应用人工智能和数理统计方法给出纳税评估部分问题的方案,国外i t 公司 如i b m 为天津地税、武汉地税、西安地税、北京地税等提供了不同的解决方案。 广东省地方税务局在2 0 0 6 年开始稽查选案系统的建设,利用先进的计算机技术, 将大集中系统中现有的数据和一些外部数据,通过合理的整合,建立一个稳定的、 安全的、开放的和可扩充的综合运行平台,以确保选案的正确性和合理性,提高 稽查信息化建设。 但国内税务管理研究没有系统的理论为支撑,专业人才缺乏,整体起点低, 智能化水平不高,目前还难以达到预期目标。总体说来,数据挖掘在税务系统的 应用不多,还处于起步阶段,和国外还有一定的差距。 对营利事业所得税的稽查,我国台湾地区从2 0 世纪7 0 年代起,就开始利用厂 商结算申报资料,采用计算机进行选案。经过数据的测算和反复的验证,到2 0 世纪8 0 年代,逐渐形成了一套完善的方案。一个纳税厂商是否补缴税款,以诚实 4 申报与不诚实申报两个群体为基础,利用厂商结算申报资料中营业收入等2 9 个项 目进行统计分析,经过行业归并、资料整理、统计分析、选案处理等一系列步骤 来完成。 在技术方法上,目前用于稽查选案的技术方法大致有以下几种。在目前的研 究成果中,较多地还是使用数理统计中的判别分析方法来解决这一问题,统计方 法中的判别分析法、t o b i t 模型、l o g i s t i c 回归法。李选举在t o b i t 模型与税收 稽查中提出利用差别分析识别逃税,利用t o b i t 模型估测逃税额的基本思路, 建立判别模型与逃税额估澳4 模型捌。但是,由于其判别函数的线性结构,难以适 应财务数据与逃税行为的很强的非线性关系,因而,在判别精度方面存在较大的 局限性。陈健在税务稽查选案的k d d 应用中,提出以k 叻技术为核心的税务稽 查选案系统,但k d d 技术发展时间比较短,它本身具有不够完善的地方。王宏 争,陈俊杰在决策树生成算法在税务稽查选案中的应用中,利用决策树生成 工具对纳税人的税收数据进行挖掘,分析结果具有一定的参考价值,但是产生的 结论比较简单“1 。马庆国,王卫红等在神经网络在税务稽查选案中的应用研究 一文中利用b p 网络模型来对诚实纳税企业和非诚实纳税企业进行分类。3 。由于神 经网络方法中的b p 网络的非线性,所以,对处理这种非线性问题有明显的优势。 其判别结果与统计分析中的判剐分祈方法比较,b p 的效果要明显好一些。研究中 选用了1 9 个财务比率的指标。构建了三层的网络结构。但是。使用b p 网络是建立 在对历史样本的模拟基础上的,样本的不完整和偏差都会导致训练效果的不理 想,预铡效果自然不好。 1 3 本文的主要研究内容及研究思路 1 - 3 1 本文的研究内容 本文主要研究了数据挖掘技术在税务稽查中的应用,内容上主要分为两个方 面,一方面讲述了l 0 9 i s t i c 回归分析法在税务稽查中的应用,并通过一定的样 本数据的检测,得出了使用该方法进行税务稽查的准确率;另一方面,使用聚类 分析法来研究税务稽查,也通过相同样本数据的计算,得出聚类分析法在税务稽 5 查中应用的准确性规律,最后对以上两种方法的准确性进行比较,得出一定的结 论,从而对实际税务稽查工作效率的提高具有一定的帮助。 论文的第一章引言部分,主要阐述选题的背景和意义、国内外研究现状,对 论文的主要研究内容和基本框架进行简要说明。 第二章、税务稽查简介及我国税务稽查工作的现状。本章首先概述了税务稽 查管理方面的相关的理论知识,而后详细介绍了税务稽查选案相关的知识,包括 税务稽查选案在稽查中的重要作用,以及税务稽查选案系统工作流程等。最后本 章从几个方面介绍了我国税务稽查工作的现状。 第三章、数据挖掘基本知识介绍。这一章阐述了对数据挖掘理论知识的认识, 分析了数据挖掘技术的定义,研究内容和技术。同时又论述了数据挖掘与统计学 之间的关系,从理论上分析了几种统计学中常用的分析方法,例如,关联规则, 聚类分析等。 第四章、回归分析法在税务稽查中的应用。这一章是本文的核心内容之一, 通过第二章和第三章的介绍,我们初步了解了税务稽查以及数据挖掘相关的理论 知识,这一章在前面理论知识的基础上,首先介绍了回归分析相关的理论,进而 对已有的样本数据使用回归分析法研究税务稽查工作,从而识别出税务稽查中的 诚实纳税户和不诚实纳税户,最后简单分析了使用回归分析法识别纳税户数据的 可行性,并计算出相关的准确率,得出一定的结论,以备后用。 第五章、聚类分析法在税务稽查中的应用。这一章也是本文的核心内容之一, 它用聚类分析法建立一定的模型,研究了企业的纳税行为。本章介绍和分析了模 型的建立和实现过程,并使用编写的聚类分析算法对已有的企业的样本数据进行 分类,得出分类的结果图形,进而识别诚实纳税和不诚实纳税行为,最后对所得 到的结果图形进行分析,从而与实际纳税行为结果比较,计算出使用该方法的准 确率,并与第四章使用回归分析法得出的准确率比较,得出结论,哪种方法更适 合于实际的税务稽查工作,希望对实际工作提供一定的建议。 最后一部分,总结和展望,主要是把整篇文章的内容进行一定的回顾,提出 本文的研究所存在的不足,并在此基础上对各种分类方法应用于税务稽查工作的 发展趋势提出了预测和估计。 6 1 - 3 2 本文的研究思路 本文的研究采用“数学建模”与“算法”相结合的方法,通过建立各种数学 公式来分析研究税务稽查工作中影响各个实体纳税行为的因素与纳税行为结果 之间的关系,并建立一定的数学模型。同时,我们使用编写的聚类分析算法对前 面得出的数学模型进行研究分析,得出结果图形。文章采用了使用两种分析方法 对相同的一组样本数据进行研究分析的思路,计算并比较两种分析方法的优越 性,从而对实际的税务稽查工作提供一定的建议。 7 第二章税务稽查概述 税收是国家意志的体现,是调节分配的杠杆和“阀门”,对各级税务机关来 说依法组织税收收入,保障政府职能正常运转,发挥好税收杠杆在国民收入分配 方面的调控作用,是应尽之责。在社会转型期存在的各种涉税违法行为,侵蚀了 依法治税乃至依法治国的坚实根基,税务稽查成了一把护法剑,剑锋所指便是各 种涉税违法行为。税务稽查如何维护公正、公平、公开的税收秩序,如何担负起 巩固堤坝、堵住蚁穴的重任,是当前各级税务机关所面i 瞄首当其冲的重要课题。 2 1 税务稽查管理概述 税务稽查管理既是税收管理的重点,也是税收管理的难点。无论在什么样的 税收制度下,也无论税收管理体制多么健全,偷税与反偷税的斗争始终贯穿于整 个税收管理的全过程。其直接目标和要求是强化依法进行税务稽查管理的刚性和 力度,以增大对少数纳税人企图实施偷税、逃税、骗税等非法行为的威慑力,最 大限度地提高税收征收率和依法治税的质量。 2 1 1 税务稽查管理的概念及分类 税务稽查管理是税务机关依照国家有关税收法律、行政法规、规章和财务制 度的规定,对纳税人、扣缴义务人履行纳税义务、代扣代缴义务情况进行的审查、 监督和管理活动。它是确保国家财政收入和税收法律、行政法规、规章贯彻落实 的重要手段,是对纳税人监督的重要内容,也是国民经济监督体系中不可缺少的 重要组成部分。 税务稽查管理包括下面四层涵义: 8 重要手段:是保证勤政廉洁、公正执法、依法纳税、加强监督的重要措施;是增 强公民法制观念,提高公民依法纳税意识,促进社会主义市场经济公平竞争的重 要途径。 2 1 3 税务稽查管理应遵循的原则 我国的税务稽查管理工作是一项政策性、法律性、原则性很强的工作。在税 务稽查管理工作中,应遵循以下几项原则:第一,坚持依法治税的原则。这是税 务稽查管理工作的基本原则。国家制定的各种法律、规章、规定是税务稽查管理 工作的依据。第二,坚持专业选案与群众举报相结合的原则。搞好税务稽查管理 工作,离不开相关职能部门的配合和群策群力。第三,坚持专业稽查与征收管理 部门的日常检查相结合的原则。专业稽查和日常检查应互相配合,互为补充。第 四,坚持处罚与教育相结合的原则。处罚是手段。不是目的。在处罚的同时,辅 之以教育手段,增强处罚效果,增强公民依法纳税的意识。 2 2 税务稽查的基本过程 税务稽查基本过程是:稽查选案、稽查实施、稽查审理、处理决定执行。这 四个环节实行分工负责,形成相互合作、相互制约、彼此促迸的运行机制,以保 证准确有效地执行税法。1 1 稽查选案 稽查选案是指稽查对象的确定,一般是指根据企业定期里报给税务部门的资 料,利用各种技术方法对企业呈报的财务数据、税务数据进行处理判断,得出一 些可能不诚实纳税的企业,然后进行稽查的方法。稽查对象确定和任务分配管理 是税务稽查机关最初的环节。稽查选案管理包括选案分析、案源登记、任务分配 处理、外部的案源信息核查反馈等系列管理活动。 2 稽查实施 稽查实施是税务稽查的第二个环节,也是核心环节,即税务稽查人员按照税 收法律、法规、规章及稽查方案所确定的稽查范围、种类、方式和内容等要求, l n 依据稽查标准,采取科学有效的方法,有目标、有步骤地进行稽查的实务操作活 动。 3 稽查审理 稽查审理是税务稽查的第三个环节,即是税务机关及其专门机构按照职责分 工,在查明案件事实的基础上,依法对纳税人、扣缴义务人或者其他当事人是否 有违法行为,应否处以什么行政处罚或者作其他处理的审查判断过程。通过税务 稽查审理,有助于使稽查处理做到事实清楚、证据确凿、定性准确、手续完备、 客观公正。 4 处理决定执行 处理决定执行是稽查工作的最后一道工序,即将发生法律效力的税务处理决 定付诸实施的活动,这是税务稽查程序中的最后一个阶段,也是完成税务稽查任 务,使税法得以真正实施的重要环节。 2 3 稽查选案的概述 2 ,3 。l 稽查选案的简要定义 稽查选案就是为稽查工作确定具体的检查对象,具体来说,通过计算机、人 工或两者相结合的方法,对各类税务信息进行归集分类处理,在众多纳税人、扣 缴义务人中选定最有可能的违反税收法律法规的对象。选案具有典型性、全面性、 及时性、针对性、独立性和科学性等多种性质,它是稽查工作的第一个环节,也 是基础环节,它既要紧密联系税收征管实际又要起到把握稽查全局,驾驭稽查方 向的重要作用。目前稽查选案分为:人工选案、计算机选案、举报、领导和上级 交办、内部转办、外部转办、自行选案、专项或专案检查、协查等。其中计算机 选案对提高稽查质量和效率起着越来越重要的作用,所以加快建立以计算机网络 为依托的稽查系统,已成为提高稽查质量和效率的关键。 稽查选案的内涵可以从以下几方面来理解9 】: l 、稽查选案的主体是税务机关,目前主要有省、地、县级国家税务局和地 方税务局设立的执行税务稽查职能的税务机构。 2 、稽查选案的客体是纳税人履行纳税义务的情况和扣缴义务人履行代扣代 缴、代收代缴义务的情况。 3 、稽查选案的依据是国家的税收法规,以及国家为实现财政分配和财政监督而制定的企业财务通则、企业会计准则和分行业财务会计制度等。 4、稽查选案的目的是依据国家税收法规,对有可能存在税收违法行为的纳 税人实行选定。2 3 2 稽查选案在税务稽查中的作用 税务稽查的主要作用是惩处税务违法,追缴流失税款,维护税收秩序,保障 税法的贯彻执行,强化税收征管。稽查选案是整个税务稽查的第一环节,也是税 务稽查的重要环节,起着为后续工作提供方向和目标的作用。税务稽查的目的最 终能否实现,与选案是否科学有着直接的关系。2 3 3 税务稽查选案系统工作流程 图21给出了计算机税务稽查选案系统工作流程(或运行方式)。首先采集有 关数据,根据数据执行模型得到重点稽查名单及可疑之处(上述步骤主要由计算 且是极其重要的。因为稽查选案问题是一典型的半结构化问题,存在大量的不确 定因素,所以必须依靠人的经验、智慧对结果进一步判定、修正、补充,尽量做到准确无误。经稽查人员确认后,对有疑问的纳税人通过电话、信函或派人进行 询问,对疑点进行质询,如果回答结果不能消除疑点,则进行现场稽查。 图21税务稽查选案系统工作流程 稽查选案只有在充分了解和掌握本地区企业生产经营情况和纳税情况,具有 利用计算机对大量的企业数据进行处理和分析能力前提下,采用随机抽样的方法,才能使稽查选案适应和符合现代税收征管工作的需要。 2 3 4 稽查选案常用方法研究一、利用随机抽样方法进行稽查选案 利用随机抽样方法进行稽查选案。3 的前提条件有以下两点: 1 必须了鳃掌握辖区内企业的生产经营情况积纳税情况,对辖区内企业的 投资规模、行业性质、经营收入、实现宿善。孺名埴衙瓣漾罐m i j f 油; i 嘤涩缓臻噶搭添淄按高攀雾鞘餮掣黪鹭剁乓垦_ 誊。旭艨鞘雾吾擎 鬈即e 魍e ;巨墅r 生如e 掣恩谗孳焉;税靛萎手骶叠漓强鼋垮囊础鬈列瞎烂 世鬟驯辫爱;噬泽缘搿塌羹辫丛墨毽璎登售碍暴醚烈裂敬i 谨灌罐靖镥滴箫蕊 潮刨名霭俨铺隰丽 商机帮助企业主动管理业务 关系,促进业务的增长,并解答一些复杂的问题,这些问题可能是,谁是最能带 来利润的客户,如何改善客户的满意度、忠诚度、以及长期价值等,通过回答这 些问题可以识别出业务机会,实施一些业务战略,从而增加利润、减少支出、取 得新的竞争优势。 数据挖掘( d a tam i n i n g ) 是一个多学科交叉研究领域,经过十几年的研究, 第三章数据挖掘理论概述 早在1 9 8 2 年,趋势大师约翰奈斯比在他的首部著作大趋势中就提到: “人类正被信息淹没,却饥渴于知识。”计算机硬件技术的稳定进步为人类提供 了大量的数据收集设备和存储介质;数据库技术的成熟和普及已使人类积累的数 据量正在以指数方式增长;技术的出现和发展已将整个世界连接成一个地球村, 人们可以穿越时空般地在网上交换信息和协同工作。在这个信息爆炸的时代,面 对着浩瀚无垠的信息海洋,人们呼唤着一个去粗取精、去伪存真的能将浩如烟海 的数据转换成知识的技术,数据挖掘就是在这个背景下产生的。 数据挖掘是一种分析工具。它基于人工智能、机器学习、统计学等技术,高 度自动化地分析企业收集的数据,做出归纳性的推理,从中挖掘潜在模式“,镪 助企业决策管理者通过描述以往客户行为,预测未来商机帮助企业主动管理业务 关系,促进业务的增长,并解答一些复杂的问题,这些问题可能是,谁是最能带 来利润的客户,如何改善客户的满意度、忠诚度、以及长期价值等,通过回答这 些问题可以识别出业务机会,实施一些业务战略,从而增加利润、减少支出、取 得新的竞争优势。 数据挖掘( d a t am i n i n g ) 是一个多学科交叉研究领域,经过十几年的研究, 产生了许多新概念和新方法。特别是最近几年,一些基本概念和方法趋于清晰, 它的研究正向着更深入的方向发展。 3 1 数据挖掘的定义 数据挖掘的定义主要分两种,一种是技术上的定义,另种是商业上的定义 【i 观【l 帕 o l 、技术上的定义为:数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、 有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知 1 7 道的、但又潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必 须是真实的、大量的、含噪声的:发现的是用户感兴趣的知识:发现的知识要可 接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现 问题。 2 、商业上的定义为:数据挖掘是一种新的商业信息处理技术“”,其主要特 点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理, 从中提取辅助商业决策的关键性数据。因此,数据挖掘可以描述为:按企业既定 业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知 的规律性,并进一步将其模型化的先进有效的方法。 数据挖掘是在大型数据中发现隐含模式和关系的过程。数据挖掘解决了普遍 的疑惑:拥有越多的顾客信息,有效地分析和得出有意义的结论则越困难,越耗 时间。数据有大量有价值的信息,却经常由于缺少有效方法而未被开发。数据挖 掘是用一个清晰的理论基础和强大的分析技术来快速、完全地挖掘山一样的海量 数据,取出有价值的、有用的信息即企业或单位所需要的规律性信息。 3 2 数据挖掘与一些概念的区别联系 数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别是 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的 信息应具有未知,有效和实用三个特征。 3 2 1 数据挖掘和o l a p 、报表的区别 报告和o l a p 是用于理解过去所发生事务的重要工具“”。数据挖掘则是用于了 解将来可能发生事务的方法。数据挖掘用预测性模型( 包括统计和机器学习技术 例如神经网络) 来预测将来。例如,查询和报告告诉显示上个月的总体销售 情况,0 l a p 则层层深入地展现出上个月各项产品的销售情况。然而,数据挖掘会 得到一个将来的预测信息下个月谁可能购买产品。而且,为了最好的商务效 益,将开发和数据挖掘相结合,能够发现如何使产品个性化以导致最大可能性的 3 3 数据挖掘的特点 数据挖掘技术具有以下特点“”: 1 、处理的数据规模十分庞大,达到g b 、t b 数量级,甚至更大。 2 、查询般是决策制定者( 用户) 提出的即时随机查询,往往不能形成精 确的查询要求,需要靠系统本身寻找其可能感兴趣的东西。 3 、在一些应用( 如商业投资等) 中,由于数据变化迅速,因此要求数据挖 掘能快速做出相应反应以随时提供决策支持。 4 、数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适用 于所有数据,而是当达到某一临界值时,即认为有效。因此,利用数据挖掘技术 可能会发现大量的规则。 5 、数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的 规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。 3 4 数据挖掘的体系结构 数据挖掘的体系结构包括以下几个方面“州咖: 1 数据挖掘环境 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有 效的,可实用的信息,并使用这些信息做出决策或丰富知识。 数据挖掘环境可示意如图2 1 示: 图2 一l 数据挖掘环境框架图 2 数据挖掘过程 图2 2 描述了数据挖掘的基本过程”。和主要步骤。 知识 图2 2 数据挖掘的一般过程 过程中各步骤的大体内容如下: ( 1 ) 确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘 的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据 挖掘则带有盲目性,是不会成功的。 ( 2 ) 数据准备 数据清理:消除噪声与不一致的数据。 数据集成:多种数据源可以整合到一起。 数据选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选 择出适用于数据挖掘应用的数据,即从数据库中检索和分析出任务相关数据。 数据的预处理:研究数据的质量,为进一步的分析做准备,并确定将要 进行的挖掘操作的类型。 数据变换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法 建立的,即将数据转换或统一成适合挖掘的形式。 ( 3 ) 数据挖掘:选择适当的算法来找到感兴趣的模式,对所得到的经过转换 的数据进行挖掘。 ( 4 ) 结果分析:解释并评估结果,其使用的分析方法一般应由数据挖掘操作 而定,通常会用到可视化技术。 2 t ( 5 ) 模式评估:根据兴趣度量识别表示知识的有用模式。将数据挖掘系统发 现的知识以用户能了解的方式呈现,并根据需要进行知识评价。 ( 6 ) 知识表示:使用可视化和知识表示技术,提供挖掘出的知识。 3 5 数据挖掘主要技术方法 数据挖掘技术是通过对大量的数据进行分析,寻找隐藏在数据中的,不易被 人识别的规律和知识,用以对决策进行支持。常用的数据挖掘方法有关联分析、 分类分析、预测分析、聚类分析、序列模式分析、回归分析等几种。 3 5 1 关联分析 关联规则数据挖掘是数据挖掘中最活跃的研究方法之一。最早是由a g r a w a l 等人提出的( 1 9 9 3 ) o ”。最初提出的动机是针对购物篮分析问题提出的,其目的是 为了发现交易数据库中不同商品之间的联系规则。典型的关联规则的例子就是 “9 0 9 6 的顾客在购买面包和黄油的同时也会购买牛奶”。 从关联规则被提出以后,诸多的研究人员对关联规则的挖掘问题进行了大量 的研究,关联规则用于表示数据库中诸多属性( 项集) 之间的关联程度。而关联规 则挖掘则是利用数据库中的大量数据通过关联算法寻找属性间的相关性。关联规 则挖掘的数据对象一般是事务数据或关系数据。 关联分析采用关联挖掘算法可以有效的识别出数据中不同字段之间内在的 关联关系,经典的算法是a p r i o r i 算法。它是挖掘布尔关联规则频繁项集的算 法,利用频繁项集性质的先验知识,基本思想是通过逐层搜索的迭代方法,即将 k - 项集用于探察( k + 1 ) 一项集,来穷尽数据集中的所有频繁项集。关联挖掘算法一 般用以发现交易数据库中不同商品之间的关联关系,用这些规则找出客户的购买 行为模式,这种规则可以用于超市商品货架设计、货物摆放以及根据购买模式对 客户进行分类。阱1 关联规则在实际运用中需要注意的问题是规则中所处理的值类型、规则中所 涉及的数据维和数据抽象层。 3 5 2 分类与预测 一、数据挖掘中分类和预测的定义 分类是指把数据映射到预先定义好的群组或类中。根据数据的不同特征,将 其划归为不同的类,这些类是事先利用训练数据建立起来的。分类方法是一种有 指导的学习,类别必须明确,并且必须有一定的己经获取到分类结果的数据,用 以创建分类模型。最常用的是决策树、神经网络等,然后可以采用这个分类模型 对新的数据进行分类,常用于对客户群的分类,对属于不同类别的客户采取不同 的营销手段。 在数据挖掘理论中。与分类意思相近的概念是预测,预测可视为将一个属性 值分类到某一个可能的类别集合。逶常,当被预测的值是连续值对称之为预测: 当被预测的值是离散值时称之为分类。预测分析也称时间序列分析,根据按照时 间顺序的一定数量的连续的历史数据,对于未来个时间点或者几个时间点的数 据进行预测。预测分析是被经常采用的分析手段,对于一些数值型属性,经常采 用这种分析手段来获取未来的发展趋势,并且根据预测结果,进行预警分析。嘲 二、数据分类过程 数据分类过程主要包含两个步骤: 第一步,建立一个描述已知数据集类别或概念的模型。该模型的核心是分类 算法。一个包含若干个数据元组的训练样本集作为输入,通过分类算法提取出分 类规则。每一数据元组都可认为是属于一个确定的数据类别,其类别值是由一个 被称为类别标记属性进行描述。 第二步,利用所获得的模型进行分类操作。需要注意的是首先对模型分类准 确率进行估计,一般通过由该模型所正确分类的测试数据样本个数所占总测试样 本比例得到。另外,单个测试样本容易出现过拟合造成对模型测试准确率的估计 过于乐观,因此需要使用一个测试数据集来对学习所获模型的准确率进行测试工 作。 三、常用的分类和预测方法 分类器的构造方法有统计方法,机器学习方法,神经网络方法等。 统计方法:包括贝叶斯法和非参数法等。常见的临近学习或基于事例的学习 属于非参数方法。对应的知识表示则为判别函数和原型事例( 原型事例即有代表 性的典型的记录,它的表示是原始记录形式) 。 机器学习方法:包括决策树法和规则归纳法。前者对应的表示为决策树或判 别树,后者则有决策表( d e c i s i o nl i s t ) 和产生式规则等。 神经网络方法主要是b p 算法。它的模型表示是前向反馈神经网络模型( 由代 表神经元的结点和代表联接权值的边组成的一种体系结构) ,b p 算法本质上是一 种非线性判别函数。 另外,许多技术,如粗糙集等,都可以用于分类器构造中。怡盯 预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值 空间。预测和分类的相同点是两者都需要构建模型并用模型来估计未知值。预测 当中主要的估计方法是回归分析,包括线性回归和多元回归以及非线性回归等 等。在统计学等领域有许多预测的成熟模型和实际应用。 3 5 3 聚类分析 聚类就是根据所处理的数据的一些属性,将数据对象分组成为多个类,这种 分类是基于当前所处理的数据。经过分类以后的数据,在同一个类中的对象之间 具有较高的相似度,而不同类中的对象相似程度很小,差别较大。相异度是根据 描述对象的属性值来计算的。距离是经常采用的度量方式。分类结束后,每类中 的数据由唯一的标志进行标识,类中数据的共同特征也被提取出来用于对该类的 特征描述。 聚类与分类很相似,都是对数据进行分组。但与分类不同之处的是,聚类中 的组不是预先定义的,而是根据实际数据的特征按照数据之间的相似性来定义 的。聚类中的组被称之为簇。 聚类分析与分类分析的不同之处在于,分类分析中。在构建模型的时候,必 须有己知的类别,属于一种带监督的学习,而聚类分析则是一种无监督的学习, 不要求数据己经有明确的类别,聚类分析算法自动实现数据的分类。 聚类是一项有趣而又有挑战性的任务,它的许多特性决定其复杂程度,比如: 关于簇没有任何先验知识,簇的合理数目未知的:不属于任何簇成员的孤立点处 理比较困难;一些算法数据敏感,难于处理实际中不同的数据和各种数据的混合; 3 5 5 回归分析 回归分析用来分析两个或者两个以上的变量相互影响的程度,可以通过一个 或者多个属性的值来预测另一个变量的值。比如,在商品流通领域,经常用回归 分析来分析商品价格与商品需要量之间的关系,以便对商品的价格和需求量进行 控制。 3 5 6w e b 挖掘技术 w e b 挖掘可以理解为:针对包括w e b 页面内容,页面之间的结构,用户访 问信息,电子商务信息等在内的各种w e b 数据,应用数据挖掘方法以帮助人们 从w 1 】| 1 w 中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特 网的商务活动提供决策支持。 w e b 挖
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高考政治艺体生文化课八大专题复习课件(全套专题课件)
- 生态经济学视角下的生态保护政策-洞察及研究
- 5G物联网平台的去中心化与自适应研究-洞察及研究
- 人教统编版高中思想政治必修4第三单元文化传承与文化创新检测试题
- 北京第一六六中学2024-2025学年八年级下学期期中语文试题(含答案)
- 部门级安全培训的必要性
- 数字化转型创新驱动力-洞察及研究
- 避光输液课件
- 2025年广东省广州市中考物理二轮复习《热学-温度、内能、热量辨析》
- 基于循环经济理念的氯乙基环己基碳酸酯闭环回收技术探索
- 第八届全国职工职业技能大赛(网络和信息安全管理员)安徽选拔赛试题及答案
- 2024年秋新译林版英语三年级上册 Unit 3第1课时 Cartoon time 教学课件
- (部编版)统编版小学语文教材目录(一至六年级上册下册齐全)
- 送教上门记录24篇
- 2025届广东省佛山市南海区数学七上期末统考试题含解析
- JGJT384-2016 钻芯法检测混凝土强度技术规程
- 《大学生美育》 课件 第七章 艺术美
- 《智慧农业关键技术与装备》课件-第09章 农业信息传输技术概述
- 2024年江门市蓬江区侨盛发展集团有限公司招聘笔试参考题库附带答案详解
- 血透进修汇报
- 艺术设计学专业导论
评论
0/150
提交评论