(计算机科学与技术专业论文)基于税源数据挖掘的税收分析预测研究.pdf_第1页
(计算机科学与技术专业论文)基于税源数据挖掘的税收分析预测研究.pdf_第2页
(计算机科学与技术专业论文)基于税源数据挖掘的税收分析预测研究.pdf_第3页
(计算机科学与技术专业论文)基于税源数据挖掘的税收分析预测研究.pdf_第4页
(计算机科学与技术专业论文)基于税源数据挖掘的税收分析预测研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机科学与技术专业论文)基于税源数据挖掘的税收分析预测研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 | l i | i | | | | | i | | | i 川| | i i i l | | | i y 17 8 8 0 4 9 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 加i 口箩口 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名: 渔童 导师签名: 摘要 税收收入的预测是国家进行经济决策和编制预算重要参考和依据。长期以 来我国税收收入的预测一直采用简单直观的“基数法”。但随着市场经济体系的 逐步完善,“基数法 越来越不适应税收收入预测的需要。把数据挖掘技术应用 到税收分析预测工作中,通过对大量相关数据的分析,找出各种相关因素对税 收影响的规律,建立税收分析预测模型,对提高税收分析预测的准确性和及时 性有着重要意义。 传统的税收收入预测方法大多是结合选取一些对税收收入影响较大的宏观 经济指标,如:国内生产总值、投资、消费、价格和进出口等,对税收总值与 经济的关联进行挖掘分析,得出预测模型,对税收收入进行预测。然而由于税 收成分的复杂性,对税收收入总值直接进行挖掘分析的预测方法的准确度难以 进一步提高。 本文研究分析了常见的税收分析预测模型的预测算法及特点,提出了基于 税源数据的商业税收分组预测方案。该方案基于自g b l 8 2 4 0 7 商业自动化管理 税控系统获取的详细税源数据,使用带权b i r c h 算法对各商品类别的销售额 变化特点进行聚类分析,然后依据聚类结果对各类商品的销售额进行分组汇总, 对各不同的分组选用其适合的预测模型进行税收收入预测,最后对各分组的预 测结果求和得到商业税收收入总值的预测结果。并且在最后讨论了如何实现了 一个商业税收分组预测系统,从g b l 8 2 4 0 7 样机系统中获取数据,进行商业税 收收入预测。 关键词数据挖掘;税收分析预测;分组预测;b i r c h 算法 北京t 业大学工学硕士学位论文 a b s t r a c t i i 觚r e v 锄u ef o r e c a u s ti sa ni m p o r t a n tr e f 醣e n c ea i l db 弱i sf o rn a t i o n a l le c o n o m i c p o l i c y _ m d k i n g 锄db u d g e t i n g f o ral o n gt i i n ec h i n a t s 锹r e v e n u ef o r e c a s th 嬲b e e i l u s i n g ”b a s em e t h o d l ,w h i c hi ss i i i l p l ea n di n t i l i t i v e b u tw i n l l em a 血e te c o n o m y 黟a d u a l l yi m p r 0 v e d ,”b a s em e m o d f c 锄n 01 0 n g e rm 鳅t i l en e e d so ft a ) 【r e v e n u e f o r e c a s t a p p l ) ,i n gd a t am i n m gt e c h i l i q u e st ot h ew o r ko ft a xr e v e n u e 觚a l y s i s f 0 r c c a s t ,b y 趾a l y s i i l gal a r g em m l b 盯o f r c l a t e dd a d i s c o v e r i n gm el a wt h a ts o m e f a c t o r sw o r k s0 nm et a xr e v 饥u e ,a n de s t a b l i s l l i n gm ei n o d e lo ft a ) 【a i l a l y s i sf o r e c a s t , a r e 埘【u 6 hs i g 越6 c a n t 向rr a i s i n gt h ea c c u r a c y 锄d 廿m e l i n e s so ft a x e sr e e l m e 趾a l y s i sf o r e c 弱t t 硼i t i o n a lf o r e c 硎n gm e t l l o d s m o s u yp i c ku p s o m em a c r 0e c o n o m i c i n d i c a t o l l s 、) l ,:t l i c hd e 印r e l a t e dt o 锨r e ve 1 1 _ u es u c h 嬲g d p ,i n v e s 缸n e n t ,c o n 鲫m p t i o n , 砸c e si i i l p o r t 觚de x p o 地t 0 锄a l y s em e 嬲s o c i a t i o no fg r o s s 锨r e 、,e 肌ew i 吐lm e e c o l l o m yi n d i c a t o f s a n dm 懿t a :b l i s h 向r e c 船tm o d d ,t 0m a l 【eat 强r e v 删骼 f o r e c a s t h o w e v e r ,d l l et 0m ec o m p l e x i 哆o ft h et 强跏p o n 咖s ,廿l ea c c u r a c yo fm e f b i 优a s tm e t h o dm a td i r e c t l ya n a l y s eg r o s st a xr c v e 肌ei sv e 巧d i 伍c l l l tt 0b e 缸陆e f e n h a n c e d t m sm 骼i s 锄a l y z 骼廿l ec 0 删n o nt 强觚a l y s i sf 0 1 优a s tm o d e l s f e a h 鹋觚d f 0 僦嬲ta l g o r i 妇a n dm a k 髂ac 0 删:n e r c i a lt a ) 【- e v e i l u ep a 生i t i o i l i n g 如r e c 嬲ts o l 砸o n b a s e do nt a xr e s o u r c e sd a t a t h es o l u t i o ni sb a s e do nt a xi e s o u r s ed a t af r o m g b18 2 4 0 7 切xc o n l 加ls y s t e mf b rc ( 腿m e r c i a la u t o m a t i o nm a n 艇;e m e n t ,l 硌i n g w e i g h t e db i r c ha l g o r i t h mc l u s t 盯a l l a l y z 懿c 0 伽:n o d i t yc a t e 9 0 r i 韶b yt l l ec h 觚g e c h a r a 曲斑s t i c so fs a l 髓a c c o r d i n gt 0c l u s t 耐n gr e 龇l t s ,s u mn 圮s a l 鹤o fv a d o l l s c o m m o d i 锣c a t e g o r i e sp 枷t i o i l ,锄dm e i ll l s em o s ta p p r o 研a t ef o r c c 嬲t i n gi n o d e l 缅 e a c hc 0 吼m o d i 哆c a t e 9 0 r i e sp a n i t i o nt 0m a k et h ep a r t i t i o nt 弧v e n u ef o r e c a s t f i n 2 l 1 1 y ,s u ma l l 1 ep a t i t i o n sr e s u l tt 0g 雠m e 目_ 0 s st a xr e v e m 孢f o r e c a s tf 0 f c o m m e r c e a n da tt h e1 a s t 印i s o d e ,1 i sn l e s i sd i s c u s s e sh o wt 0i i i l p l e m e n tas y s t 锄 o fc o m m e r d a lt a xr e v 饼m ep a t i t i o n i r 培f o r c c 嬲t ,h o wt oc x 由r a c td a t a 自o mg b18 2 4 0 7 p r o t o t y p es y s t e m ,觚dm a k e t a xr e v 伽ef o r e c 嬲t sf o rc 0 恤m e r c e k e y w o r d sd a t am i l l i n g ;1 觚r e v u ea n a l y s i sf o r e c 嬲t i n g ;p 疵i t i o i l i 】唱f o r e c 嬲t ; b i r c h a l g o r i c l l m 目录 目录 摘要”i a b s t r a c t 一i i 第1 章绪论l 1 1 研究背景与实际意义1 1 2 国内外数据挖掘技术在税务系统的应用现状2 1 2 1 国外税务系统中应用情况2 1 2 2 国内税务系统数据挖掘应用现状2 1 3 课题来源及本文的组织结构3 第2 章数据挖掘与税收分析预测一5 2 1 数据挖掘简介5 2 1 1 数据挖掘与知识发现5 2 1 2 数据挖掘的常用方法5 2 2 税收分析预测中的数据挖掘1 0 2 3 本章小结1 0 第3 章税收收入预测方案设计1 1 3 1 税收收入预测的概念1 1 3 2 税收收入预测的方法1 1 3 3 基于税源数据的商业税收分组预测方案1 2 3 3 1 什么是税源数据1 2 3 3 2 分组预测方案的提出1 3 3 3 3 分组预测方案的总体模型1 3 3 3 4 预测算法的选择1 4 3 3 5 如何对商品类别进行划分1 4 3 4 本章小结1 9 第4 章税源数据抽取及目标数据库建立一2 l 4 1 数据仓库简介2 1 4 1 1 数据仓库的概念2 1 4 1 2 数据仓库的构建方法2 2 4 2 税源数据的抽取2 3 4 2 1 目标数据2 3 4 2 2 定位数据2 3 m 北京工业大学工学硕+ 学位论文 4 2 3 抽取数据2 5 4 3 建立挖掘用数据库2 5 4 4 本章小结2 6 第5 章商业税收的分组预测2 7 5 1 商品类别聚类分析前的数据预处理2 7 5 2 带权b 瓜c h 算法的实现2 7 5 2 1 算法的伪代码描述2 8 5 2 2 实现w c f 树的构建2 8 5 3 商品类别销售额的分组汇总3 l 5 4 商业税收收入的预测3 2 5 4 1 线性回归预测模型3 2 5 4 2 季节指数预测模型3 5 5 4 3 预测结果的评价3 7 5 4 4 税收收入总额的预测3 8 5 5 本章小结3 8 结论3 9 参考文献4 l 攻读硕士学位期间所发表的学术论文4 5 致谢4 7 第l 章绪论 第1 章绪论 1 1 研究背景与实际意义 我国税务信息化建设已经走过2 0 多年的历程,随着金税二期工程的完成、 金税三期工程的推进,我国税务信息化建设取得了较快的发展,到如今已经成 为税收工作中的重要基础设施。 商业税收是国家财政的重要组成部分,为了对商业销项税进行管理,掌控 销项数据,国家先后出台了税控收款机标准g b1 8 2 4 0 1 g b1 8 2 4 0 6 等六个部 分,建立了以商业收款机+ 税控器+ 税控卡+ 税控收款机管理系统的基本工作模 式,明确了以票控税的基本原则【l 】。2 0 0 4 年,为切实加强税源管理,国家税务 总局制定了税控收款机推广应用实施意见,要求力争大中城市和经济发达地 区符合条件的用户用3 年左右时间,小城镇和欠发达地区用5 年左右时间基本 普及税控收款机。凡从事商业零售、饮食业、娱乐业、服务业、交通运输业等 适合使用税控收款机系列机具行业,并具有一定规模和固定经营场所的纳税人, 必须按规定购置使用税控收款机【2 】。 目前,北京【3 1 、湖南【4 】等地已普及国标税控收款机,并在不久后会普及至 全国范围。而自2 0 0 9 年1 月1 日起,机动车零售企业必须使用税控系统开具机 动车销售统一发票【5 】。在不久的将来全国各级税务部门就可以获得海量零售、 饮食、服务等行业的生产、销售、利润等基础税源数据。 税控收款机的普及,不仅能够防止税源流失,保证税收收入;能够减低税 收成本,提高征管效率;更为通过税源数据的挖掘获取知识提供了前提条件。 通过税源数据的挖掘可以获得大量知识,进而经有效的知识管理可以使税 务机关及时、完整、系统地掌握企业税源信息,及时掌握经济及税收指标情况 变化,分析经济发展趋势,把握收入发展方向;同时对企业生产经营变化趋势、 纳税数量、诚信纳税等方面进行全面了解和掌握,最终达到掌握情况,把握方 向,指导征收,均衡入库,应收尽收,达到对组织收入工作的指导效应,更好 地实现组织使命【6 j 。 税收收入的预测是是国家进行经济决策和编制预算重要参考和依据,其重 要性不言而喻。长期以来我国税收收入的预测一直采用“基数法,这种方法是 以税收入库数作为基数,以一定的增长率来计算,并考虑一些特殊因素人工进 行调整【7 1 。这种方法比较直观,可操作性强。但随着市场经济体系的逐步完善, “基数法”越来越不适应税收收入预测的需要。把数据挖掘技术应用到税收收 入预测工作中,通过对大量相关数据的分析,找出各种相关因素对税收收入影 响的规律,建立税收分析预测模型,对提高税收预测的准确性和及时性有着重 北京t 业大学工学硕七学位论文 要意义。 1 2 国内外数据挖掘技术在税务系统的应用现状 1 2 1 国外税务系统中应用情况 在国外的一些发达国家,已经有不少数据挖掘在税务系统中应用的成功案 例。数据挖掘技术的应用,较好地保障了信息的真实性,减少了偷漏税现象, 并带来了可观的效益。1 9 9 8 年美国加州税务启动的基于i b md b 2 数据库软件 的综合逃税人监察项目数据仓库解决方案( i n c ) 项目,使加州税务能够在超 过2 2 亿项的独立税务信息中利用商业智能技术进行业务分析。【8 】 又如n c r 删a t a 公司实施的美国国家税务局( m s ) 数据仓库和数据挖 掘项目,仅1 9 9 6 年就帮助美国国家税务局追回补交税款两亿笔、增收2 0 0 亿美 元的税金和罚款,并进行了1 2 0 万笔帐目审计。【8 】。 1 2 2 国内税务系统数据挖掘应用现状 目前,国内针对税务系统应用的数据仓库和数据挖掘理论还很匮乏,这主 要源于税收行业自1 9 9 4 年税制改革1 0 几年来,税收法律和制度建设较快,变 化较多,税收征管软件的框架经常调整,历史征管数据垃圾数据较多,没有数 据仓库和数据挖掘的具体应用规划等原因。 随着税收征管数据的积累和信息技术的发展,近年来国内一些税务机构和 研究机构开始进行数据仓库和数据挖掘方面的探索,取得了一定的成绩。 广东省国税局2 0 0 3 年为进一步加强税务信息化建设,提出建设税务分析与 决策支持系统。该系统建立在商业智能平台上,应用数据仓库、o l a p 分析和 数据挖掘等技术,实现税收宏观分析、税收分析、税收征管分析、出口退税分 析、专用发票分析、纳税人分析等功甜9 】。 南京市地税局2 0 0 3 年启动数据仓库技术,该项目旨在解决南京地税局原有 业务系统在查询,报表统计及纳税质量分析等方面的业务需求,通过将原有业 务系统与数据仓库进行有效集成,利用数据仓库和数据挖掘技术,对税收收入 预测、稽查选案、纳税评估等应用主题进行了深入研究【1 0 1 。 目前,国家税务总局已考虑了税务系统数据仓库和数据挖掘技术应用规划 问题,选取了多家数据仓库产品进行选型测试,有望在金税工程( 三期) 项目 中逐步推广数据仓库和数据挖掘技术应用。 总体说来,数据挖掘在国内税务系统的应用不多,还处于起步阶段,和国 外还有一定的差距。 第1 章绪论 1 3 课题来源及本文的组织结构 本课题来源于税控收款机国家标准g b l 8 2 4 0 第七部分:商业自动化管理的 样机研发项目。g b l 8 2 4 0 7 的标准制定面向大、中型商业流通企业,在其企业 内已有的商业管理信息系统( m i s ) 基础上进行税控功能的改造。通过驻留在 商用收款机操作系统核心层中的软件模块,时时监控企业的销售数据源,依照 发票的使用情况缴纳税款,满足税务机关进行税收监管的工作需要。 本文共分为五章,每章的主要内容如下: 第一章为绪论,主要介绍了本课题的背景与研究意义、数据挖掘在税务系 统中的应用情况以及当前国内外的研究现状,最后阐述了课题的来源以及本文 的组织结构。 第二章介绍了数据挖掘的基本概念及其与知识发现过程的关系,对常用的 数据挖掘技术和方法,包括关联分析、分类挖掘、聚类分析、预测性分析等进 行了简单地讲解。并说明了数据挖掘技术在税收分析预测中的应用领域。 第三章研究了常用税收收入预测算法的特点,在此基础上提出了基于税源 数据的商业税收分组预测模型。并对b i r c h 算法进行了扩展,提出了带权的 b i r c h 算法,使之更适合商业税收分组预测模型的需要。 第四章是税源数据的抽取与挖掘平台的搭建。针对课题国标g b l 8 2 4 0 7 中 税源数据库结构进行了研究,并将其中存储的大量监控数据抽取出来,建立税 收分析预测平台,为后续的挖掘阶段打好坚实的基础。 第五章为应用平台,介绍了如何设计实现商业税收分组预测系统。分为聚 类前的数据预处理,对各类商品销售额的变化情况进行聚类分析,根据分析结 果对销售额进行分组汇总,如何用多种模型进行税收收入预测等几个部分具体 描述。 北京工业大学工学硕十学位论文 4 2 1 数据挖掘简介 计算机科学家经常提到摩尔定律:计算机的处理速度大约每1 8 个月翻一 番。但是很少有人知道计算机的存储容量大约每9 个月翻一番【l l 】。计算机的数 据的高速膨胀,使得人工处理消化的方法不再有效可行,于是人们开始考虑如 何利用计算机技术从从大量数据中提取有价值的信息。为此,在过去的1 0 多年 中,一种称作数据库中的知识发现( k h o w l e d g cd i s c o v e 巧i nd a t a b a s e ,k d d ) 的过程逐步发展完善。数据挖掘算法就包含在k d d 过程中。 2 1 1 数据挖掘与知识发现 对于数据挖掘和知识发现,大部分的书籍作者都有不同的定义。g o e b e l 和 g n 】e n w a l d 将k d d 定义为“识别数据中有效的、新颖的、潜在有用的和易于理 解的模式的非平凡过程”,而将数据挖掘定义为“观测数据中的模式或模式提取” 1 1 。b e f z a l 等将l d 定义为“隐含( 先前未知的) 信息的大量数据中潜在有用 信息的非平凡提取 ,而将数据挖掘定义为“一般术语,涵盖用于大型数据库中 提取有用信息的研究成果、技术和工具 【1 2 1 。 g o e b e l 和g m 钮w a l d 的k d d 模型表明数据挖掘是如下所示的整个l ( d d 过 程的一个步骤: 1 ) 确定和逐步理解应用领域。 2 ) 选择所研究的数据集。 3 ) 选择补充数据集。集成这些数据集。 4 ) 数据编码、清理重复和错误数据、变换数据。 5 ) 开发模型、构建架设。 6 ) 选择合适的数据挖掘算法。 7 ) 解释结果。使用合适的可视化工具显示结果。 8 ) 检验结果。 9 ) 管理发现的知识。 尽管数据挖掘只是l ( d d 过程的一部分,但是数据挖掘技术提供了推动 k d d 过程的算法。前面展示的l ( d d 过程是一个永不休止的过程。数据挖掘是 k d d 过程的核心。如果讨论数据挖掘,则应当理解为讨论l d 过程【1 3 1 。 2 1 2 数据挖掘的常用方法 数据挖掘的目的是发现隐藏的有价值的知识,而知识要通过一定的模式才 北京工业大学工学硕十学位论文 能表现出来,数据挖掘中有许多知识表示模式及其所采用的方法,比如关联知 识挖掘、类知识挖掘等。 要挖掘必须要有挖掘的对象。数据库作为常用的挖掘对象已屡见不鲜。数 据库技术作为一种基本的信息存储和管理方式,仍然以联机事务处理( 0 l 1 p ) 为核心应用,缺少对决策、分析、预测等高级功能的支持( d 积s i o ns u p p o f t ) 机制。随着数据库容量的膨胀,特别是数据仓库( d a t aw a r e h o l l s e ) 以及w 曲、 文本等新型数据源的日益普及,联机分析处理( o l a p ) 分类、聚类方法等复 杂应用逐渐成为必然,大量的挖掘方式和方法也渐渐地进入研究领域。通过对 挖掘中知识模式以及挖掘方法的研究,我们可以更清楚地了解数据挖掘的本质 和特点。下面简要介绍一下常用的数据挖掘技术和方法【1 4 】【1 5 】【1 6 】: 1 ) 关联分析 关联关系表达的是一个事件和另一个事件之间的依赖关系。关联分析,即 利用关联规则找出数据之间联系的方法它主要是指集中在数据库对象之间的 关联程度的刻画。人们提出了多种关联规则的挖掘算法,如s t e m 、a i s 、d h p 等算法。最为著名的是a 伊删a 1 等提出的a p r i o r i 及其改进算法,它表示了一组 项目关联在一起的需要满足的最低联系程度。关联规则的研究是数据挖掘中比 较常用的方法并日渐趋于成熟。 2 ) 分类( c l a s s i 6 c a t i o n ) 挖掘 分类分析是数据挖掘中一个重要的目标和任务,目前应用在商业中比较多。 分类的目标是构造一个分类的模型,该模型可以将数据库中的数据按照指 定的规则映射到给定的类别当中去。依照此规则,数据库中的所有信息总体以 几大特征( 几类) 来最终呈现。要构造此分类器,必须要抽出一个数据样本作 为原始输入源,然后对源数据进行过滤、抽取、以及概念提取等。构造分类器 的方法大体有以下几种: a ) 决策树 决策树经常使用分治策略来处理问题,需是要慎重考虑训练数据过渡拟合 的情况,特别是推广到独立的训练集上。i d 3 算法是最典型的决策树分类算法, 之后口d 4 ,i d 5 ,c 4 5 等都对其做了进一步改进,但是他们的缺点就是对大训 练样本集很难适应 b ) 贝叶斯分类 贝叶斯分类来源于概率统计学,并且在机器学习中被很好的应用。贝叶斯 分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概 率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属 的类。目前研究较多的贝叶斯分类器主要有n a i v eb a y c s 、即闲、b a n 和g b n 。 c ) 人工神经网络: 6 ( 而这些比较是基于不同情况下的自动学习和要实际解决的问题的复杂性所决 定的) 它能够推理产生一个可以自动识别的系统,具有较强的干扰力。 d ) 遗传算法 遗传算法是一类可用于复杂系统优化的具有鲁棒性的搜索算法,是一种基 于进化理论的机器学习算法。由于与传统的优化算法相比,它具有以决策变量 的编码作为运算对象、以适应度作为搜索信息、使用多个点的搜索信息以及使 用概率搜索技术等特点,在函数优化、组合优化等研究领域等到了很好的应用。 分类规则是知识发现中应用最为广泛的数据挖掘技术。例如,金融业中可 以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营 销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此,采用 分类技术,可以将客户分成不同的几大类别,比如呼叫中心设计时可以分为呼 叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户等,帮助呼叫中心寻找 出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类 别客户的分布特征;另外在设计一个电子商店时,要涉及到商品分类的原则; 安全领域有基于分类技术的入侵检测等。总之在数据挖掘和机器学习领域、分 类规则起着不可替代的作用。 3 ) 聚类( c l u s t e r ) 分析 聚类是以统计学、机器学习等为依托,把一组个体按照相似性规则归成若 干个类的方法,目的是使的属于同一类别的个体之间的差别尽可能的小,而不 同类别上的个体间的差别尽可能的大。聚类分析是由若干模式组成的。通常, 模式是一个度量的向量,或者是多维空间中的一个点。聚类分析以相似性为基 础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。 聚类的用途是很广泛的。在商业上,聚类可以帮助市场分析人员从商业 m i s 数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式 或消费观念,可以帮助税务部门更好的了解企业或个人的消费行为。它作为数 据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深 层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以 作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的 一个预处理步骤。 现代的聚类方法可以分成层次、划分、密度、网格和模型五类【1 3 1 ,它们在 目前的应用中具有典型的代表性: a ) 层次方法( h i e r 锄舡c a lm e d s ) 这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具 7 北京工业大学工学硕七学位论文 体又可分为“自底向上 和“自顶向下 两种方案。例如在“自底向上 方案 中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那 些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满 足为止。代表算法有:b i r c h 算法、c u r e 算法、r o c k 算法等; b ) 划分方法( p a n i t i o i l i n gm e c l l o d s ) 给定一个有n 个元组或者纪录的数据集,分裂法将构造k 个分组,每一个 分组就代表一个聚类,k ,n 。而且这k 个分组满足下列条件:一是每一个分组 至少包含一个数据纪录;二是每一个数据纪录属于且仅属于一个分组;对于给 定的k ,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分 组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同 一分组中的记录越近越好,而不同分组中的纪录越远越好。使用这个基本思想 的算法有:k i m e a n s 算法、k - m e d o i d s 算法、c i ,a ra n s 算法。 c ) 基于密度的方法( d e i l s i 妒b a s e dm e t h o d s ) 基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距 离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的 聚类的缺点。这个方法的知道思想就是,只要一个区域中的点的密度大过某个 阀值,就把它加到与之相近的聚类中去。代表算法有:d b s c a n 算法、o p t i c s 算法、d e n c u j e 算法等: m 基于网格的方法( g r i d b 鹪e dm e m o d s ) 这种方法首先将数据空间划分成为有限个单元( c e l l ) 的网格结构,所有的 处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很 快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少 个单元有关。代表算法有:s t g 算法、c l i q u e 算法、w a v e c l u s t e r 算 法: e ) 基于模型的方法( m o d e l b a s e dm e m o d s ) 基于模型的方法给每一个聚类假定一个模型,然后去寻找能很好的满足这 个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其 它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。 通常有两种尝试方向:统计的方案和神经网络的方案。 在自然科学和社会科学当中,存在着大量的分类聚类问题。分类分析与聚 类分析相辅相成,它们之间既存在相同点也存在不同点。聚类分析是研究分类 问题的一种统计分析方法,起源于分析方法学。他们的目标最终都是把特定的 数据源归成几类,但聚类与分类不同。前者是通过对数据的分析生成新的类标 识,而后者是在特定的类标识下找出新元素的归属类。 聚类没有训练事例和预先定义的类标识。在通常情况下,聚类分析形成一 第2 章数据挖掘与税收分析预测 些概念,即一组数据可以用一个概念来概括,由此大量的源数据可以按照一定 的算法归纳成几个类或簇,这样一来我们最终可以根据不同簇的特点性质得出 不同的结论。 4 ) 预测性分析 预测是数据挖掘中非常重要的任务之一,它指的是根据历史的和当前的实 例数据总结出知识、模式,并能推测未来数据趋势走势的方法。预测型挖掘主 要有两大方法:分类预测和统计预测( 又称时间序列预测) : a ) 分类预测 分类预测首先对输入样本进行分析处理,得出数据的分类模型。这个过程 可以利用分类技术的各种算法( 决策数、遗传算法等) ,然后利用当前剩余的大 量数据进行模型的验证并不断地对模型进行修正,最后对未来新的数据依照模 型进行归类,达到预测的目的。 b ) 统计预测 和分类预测有很大的不同,在统计学中的预测是指根据时间序列建立数学 模型,然后对未来的某一时刻可能发生的情况进行预测。由于这类预测方法是 以时间为关键属性的,所以又称为时间序列分析。如对数据源中某一个变量x ( t ) 按照时间先后顺序进行观察和分析,在一段观察时刻t l ,t 2 ,t 3 ,t l i ( t 为时间的先 后顺序) ,会得到一组离散的数值。这就组成了一个时间序列集合。时间序列分 析是对系统观测得到的时间序列数据建立模型的理论依据,一般采用曲线拟合、 参数估计和回归预测方法。 预测型的数据挖掘是建立在统计学、神经网络和机器学习技术之上的。现 在已经有了成熟的几类模式: 幻趋势预测模式 趋势预测模式主要针对那些具有时序属性的数据,如股票价格,蔬菜价格 等。 b ) 序列模式 序列模式主要是指在一段时间内根据某几个事件序列发生的次序以及出现 的频繁程度来进行预测的模式。在商场应用中,它可以从顾客序列中挖掘出大 多数人的连续购买模式。例如很多顾客先买了油漆,然后买家具,接着买家电, 那么 就很有可能是一条序列模式。 曲神经网络模式 神经网络模式通过对历史数据的分析建立神经网络模型,但是需要基于时 时数据不断地更新此网络模型。 北京工业大学t 学硕士学位论文 2 。2 税收分析预测中的数据挖掘 根据税收数据挖掘的定位,其主要目标是:评价纳税行为,监控执法过程, 用数据描述现状、预测趋势,为决策服务,为管理服务,为基层服务【1 7 1 。为此 有常常应用在以下领域: 1 ) 评价纳税行为 通过对纳税人纳税申报、办理涉税事项、发票使用等一系列数据实施监控, 进行挖掘分析,建立税源检测数据模型,可以帮助税务机关对纳税人的纳税行 为进行合理的评价,帮助解决困绕税务机关多年的零税负申报、低税负申报、 虚假申报、发票违章等难题。 2 ) 监控执法过程 通过对征管数据梳理与整合,运用挖掘技术建立执法行为监控体系,监控 税务部门的执法行为,监督管理流程,对税收执法疑点,做到事前、事中和事 后的监控,规范执法行为。 3 ) 提供决策支持 数据挖掘技术不仅可发现税收管理中的瑕疵,同时也为领导决策提供智能 支持:通过数据的分类处理与分析,可全面分析宏观税负、行业税负等指标, 了解税收收入总量增减的变化,科学判断税收收入增减的原因以及发展趋势。 4 ) 优化纳税服务 运用现代数据挖掘手段,展开纳税服务数据的关联性分析,可以了解纳税 人涉税事项的发生频率以及涉税事项之间的关联程度,可以为办税服务厅的窗 口设置、办税流程的设定提供数据支持,从而科学安排服务流程,提高服务水 平。 2 3 本章小结 本章首先介绍了数据挖掘的基本概念,数据挖掘是知识发现过程的核心步 骤,通常讨论数据挖掘,应当理解为讨论l d 过程。然后对常用的数据挖掘 技术和方法,包括关联分析、分类挖掘、聚类分析、预测性分析等进行了简单 地讲解。最后说明了数据挖掘技术在税收分析预测中的应用领域。 第3 章税收收入预测方案设计 第3 章税收收入预测方案设计 3 1 税收收入预测的概念 税收收入预测( f o r e c 嬲t i n g ) 有广义和狭义两个概念。从狭义上说是对一个 国家( 地区) 在未来某一时期可能的税收收入的测算,是根据相关的历史资料 和数据对未来税收收入趋势的推测。从广义上讲,税收收入预测还应包括税收 收入测算( e s 缸l a t i o n ) 和税收收入估算( 嬲s e s s m e n t ) 。前者是指在税收政策、 制度或征管方式发生变化和调整的情况下对税收收入量的影响的推算;后者是 通过摸清税源或税基的特征,按现行税收政策的征收要求对税收收入能力加以 推断【l 引。本文中的税收收入预测是指它的狭义概念。 3 2 税收收入预测的方法 税收收入预测是按照事物连贯性和类推性的特点,在定性分析的基础上, 运用定量方法对未来税收收入总量和结构等发展趋势所作的分析、判断和推测。 对税收收入进行预测是一件很困难的事情,主要原因是影响税收收入的因素太 多,如g d p 、投资、消费、价格、进出口等经济指标数据都对税收收入有影响。 我们需要在不同时期收集大量与税收相关的数据,结合各种数据挖掘方法,根 据各种历史数据进行预测。 常用的税收收入预测法有: 1 1 一元线性回归预测法。一元线性回归预测是用一元线性回归模型,对具 有线性趋势的税收问题,只使用一个影响因素所作的预测。比如通过税收收入 与g d p 的关系,建立关于税收收入与g d p 的一元回归模型,用未来g d p 的预 测值或计划数值预测税收收入的规模。 2 ) 多元线性回归预测法。多元线性回归预测法是用多元线性回归模型,对 具有线性趋势的税收问题所作的预测。一元线性回归预测法和多元线性回归预 测法都是线性趋势预测法,该法只适用于具有线性趋势的现象之间的关系。 3 ) 非线性预测法。非线性预测法是对利用非线性模型进行预测的一系列方 法的总称。最常用的非线性预测法有二次曲线预测法、指数曲线预测法等。二 次曲线预测法是在确认税收与某个经济变量之间存在二次曲线趋势时,利用二 次曲线模型预测税收收入的方法。指数曲线预测法是用指数曲线模型对呈固定 速度增长的税收问题预测的模型。 4 ) 指数平滑预测法。指数平滑是画拟合曲线的一种方法,同时还可以对将 来进行预测。指数平滑就是将最近的观察数据赋予较高的权重,较早的数据赋 予相对较低的权重,权重以一个常数的比率进行几何递减,使得较近的数据对 北京工业大学工学硕士学位论文 将来的预测分析起的作用大一些。根据用户选择的参数不同,可以分为平稳时 间序列指数平滑、趋势时间序列指数平滑和季节周期性指数平滑。 5 ) 神经网络预测法。神经网络近来越来越受到人们的关注,因为它为解决 较大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容 易的解决具有上百个参数的问题( 当然实际生物体中存在的神经网络要比我们 这里所说的程序模拟的神经网络要复杂的多) 。 上述列出的预测方法在本质上也可以分为两大类:一类是解释性预测方法, 即找出被预测量的各影响因素,建立回归分析模型;另一类为时间序列分析方 法,只依赖于被预测量的历史观测数据,通过序列分析进行外延类推,换一句 话说就是把过去直接延续到未来。 3 3 基于税源数据的商业税收分组预测方案 3 3 1 什么是税源数据 经济决定税收,税收来源于经济。税源,是税收的来源或税收的源泉,它 来源于社会经济活动的总量,也即是来自国民经济各部门所创造的价值的一部 分。税源有广义和狭义之分【1 9 】: 广义的税源概念,是指根据我国现行有关税法规定可能产生税收的一切社 会资源,包括各种社会经济活动中形成的物质生产量、业务交易量、新创造的 价值、占用的社会资源、劳动所得及某些特定的经济行为。既包括一定税制条 件下已开征的税源,也包括由于诸多原因还没有开征的税源,如遗产税、环境 保护税、物业税等的税源。 狭义的税源概念,是指直接产生某一具体税种并据以计算这一税收数量的 经济量或行为活动量,也就是我们通常所说的税基。典型的狭义税源有计税收 入和计税产销量。 本文所说的税源数据使用税源狭义概念,在商业税收领域,特指商家的各 类商品销项数据。 作为本课题来源的g b l 8 2 4 0 7 国标样机系统研发项目,主要针对使用p o s 系统、业务系统进行企业管理、财务管理的大型零售商场、超市、大卖场以及 大型连锁快餐业目前在用的收款机系统进行税控改造。该系统的主要思想是“以 票控税 ,即在销售打印小票的过程中进行计税控税,每一笔销售都会记录在案, 商家无法自行删除销售数据,而税务部门可以轻松查到每一笔销售记录,获得 i r 实的税源数据。不仅能够有效地防止商场超市的偷税漏税行为,而且可以对 税收收入来源的现状和发展变化情况进行统计、分析、预测,为税收征管提供 科学的决策的依据。 第3 章税收收入预测方案设计 3 3 2 分组预测方案的提出 如3 2 小节中介绍的,各种常用的预测方法都有其自身的特点,所适用的 ( 或者说有较好效果的) 分析对象也各不相同。 就商业税收的情况进行分析,其税收收入主要来自商品销售的增值税和企 业所得税,与应税销售额密切相关。对于一些日常用品,其需求与整体经济形 势关系不大,销量一般比较稳定,可以使用平稳时间序列分析法;而数码相机 等电子产品目前处于其s 型产业发展阶段的快速增长期,销量呈固定速度增长 趋势,适合指数曲线预测法;又如一些高档消费品( 如汽车等) 的销售额则受 价格、收入水平影响较大,加入这些经济数据的多元线性回归预测法会有比较 好的效果;再如服装等季节性商品,就必须重点考虑其季节周期性。 但是在以往的一些税收分析预测研究中,大多是结合选取一些对税收收入 能力影响较大的宏观经济指标,如:国内生产总值、投资、消费、价格和进出 口等,单一使用某种预测模式( 模式本身可能是几种算法复合的) 对税收总值 与经济的关联进行挖掘分析,得出预测模型,对税收收入进行预测。然而由于 税收成分的复杂性,使用单一模式对总值进行挖掘分析的预测方法的准确度难 以进一步提高。 g b l 8 2 4 0 税控系统推广应用后,通过采集每张购物小票的内容,对商场的 每笔销售进行统计,从而获得详实的商业税源数据,为进一步的细致分析预测 创造了条件。在此本文提出一种将商品按销量变化特点分组后汇总销售额,对 不同的分组使用不同的税收收入预测模型的商业税收分组预测方案。 3 3 3 分组预测方案的总体模型 自然商品划分的种类繁多,若对每类商品一一进行预测,不仅在时间、空 间性能的要求上难以满足,而且这么做也是没有必要的。因为很多商品销量不 高,销售额随机性较强、难以预测,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论