




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 数据挖掘是涉及数据库、统计学等学科的一门相当活跃的研究领域,是从 数据集中识别出有效的、新颖的、潜在有效的以及最终可理解的模式的非平凡过 程。预测是数据挖掘技术中重要的组成部分。 税收收入预测直是税务部门的一项重要工作,它决定着税收计划的制定, 而税收计划的制定是经济活动的一项重要内容。针对目前税收计划的制定仍以基 数加预计增长率这一方式进行的现状,要求尽快建立起一套以税收收入预测为基 础的科学预测的体系,从而掌握组织收入的主动性。因此利用统计学及数据挖掘 的方法科学正确的进行税收预测工作对于税务部门具有非常重要的意义。 本文对数据挖掘的相关概念、过程,统计学的相关知识进行了介绍,将数 据挖掘应用于税收预测中,通过对大量历史数据的记录和与之相关的各种数据的 分析,使用回归和滚动预测方法建立预测模型,对税收收入情况进行了预测,实 现了对2 0 0 5 年度税收收入年度和分月预测。并对各预测模型进行了实验结果的 对比分析,指出滚动预测方法较回归预测方法能更好地进行税收收入分月预测, 从而更好地指导税收计划的完成,为科学地建立税收计划进行了有效地探索,并 为税收计划工作提供了重要的科学依据。 本文的主要工作是对郑州市国税局征管系统中的征收数据进行挖掘分析,建 立回归和滚动预测模型。通过对税收收入问题的研究与实现,从中探索了一些可 行的方法,这为税收预测问题提出了一个新的视角。本课题的成果对于税收收入 预测体系,特别是基于回归预测和滚动预测的方法具有一定的参考价值。 关键字:数据挖掘滚动预测回归预测税收收入 a b s t r a g t d a t am i n i n gi sar a t h e ra c t i v er e s e a r c hd o m a i nt h a ti n v o l v e sd a t a b a s e , s t a t i s t i c s ,e t c i t sa nu n u s u a lp r o c e s st h a tf o u n d so u tt h ee f f e c t i r e , f r e s h ,l a t e n t e f f e c t i v em o d ew h i c hc & nb ef i n a l l ya p p r e h e n s i b l e p r o g n o s t i ca n a l y s i sp l a y sac r i t i c a lr o l ei nd a t am i n i n g r e v e n u ep r o g n o s t i ci sa l w a y sa ni m p o r t a n tw o r ki nr e v e n u ed e p a r t m e n t i td e c i d e sm a k i n gt h ep l a no fr e v e n u ea n dt h er e v e n u ep l a ni sa ni m p o r t a n t c o n t e n ta b o u tp r o g n o s t i co fe c o n o m i ca c t i v i t y n o wt h ef o r mo fr e v e n u e p l a ni sa l s ow o r k e db yt h et r a d i t i o n a lp a t t e r no fu s i n gb a s i cn u m b e ra d d p e r c e n to fm o u n t s oi tn e e d st oe s t a b l i s has c i e n t i f i es y s t e ma b o u t r e v e n u ep r o g n o s t i ca ss o o na sq u i c k l yt oc o n t r o lt h ef o r mo fr e v e n u e u s i n g t h em e t h o do fd a t am i n i n ga n ds t a t i s t i c st of o r e c a s tr e v e n u ei st h em o s t i m p o r t a n tt h i n gt or e v e n u ed e p a r t m e n t t h i st h e s i si n t r o d u c e st h ec o n c e p t i o na n dp r o c e s s ,r e l e v a n tk n o w l e d g e o fd a t am i n i n ga n ds t a t i s t i c s i ta p p l i e sd a t am i n i n gt ot h er e v e n u e p r o g n o s t i c t h r o u g ht h ea n a l y s i so ft h el a r g ea m o u n to fh i s t o r i c a l r e c o r d e r sa n da l lk i n d so fd a t ar e l e v a n tw i t hi t ,am o d e li sd e v e l o p e d b a s e do i lt h er e g r e s s i o na n dr e l1f o r e c a s tt op r e d i c tt h er e v e n u eo fo u r c i t y c a r r y i n go u tt h er e v e n u eo fy e a ra n dm o n t ho f2 0 0 5 t h er e s u l t so f e x p e r i m e n t sa b o u td i f f e r e n tm o d e l sa r ec o n t r a s t e da n da n a l y z e d i tp o i n t s o u tt h a tr o l lf o r e c a s ti sb e t t e rt h a nr e g r e s s i o nf o r e c a s ti nr e v e n u e p r o g n o s t i co fm o n t h s s oi t c a ng u i d et oc o m p l e t et h ep l a no fr e v e n u e m yr e s e a r c hc a no f f e ri m p o r t a n ta n ds c i e n t i f i cb a s i st ot h ep l a no f r e v e n u e t h em a i nw o r ko ft h i st h e s i si sm i n i n ga n da n a l y z i n gt h ed a t ao ft a x i n f o r m a t i o ns y s t e ma b o u tz h e n gz h o us t a t et a x a t i o nb u r e a u t h er e g r e s s i o n a n dr o l1f o r e c a s tm o d e lsa r ef o u n d e d t h r o u g ht h er e s e a r c ha n dr e a li z a t i o n a b o u tt h ep r o b l e mo fr e v e n u e ,t h et b e s i se x p l o r e ss o m em e t h o d sw h i c hc a n b ef e a s i b l e s oi tb r i n g sf o r w a r dan e wa n g l eo fv i e w t h er e s u l to ft h e t h e s i sc e r t a i n l yh a sr e f e r e n c ev a l u et or e v e n u ep r o g n o s t i c s y s t e m , e s p e c i a l l yt ot h em e t h o do fr e g r e s s i o nf o r e c a s ta n dr o l lf o r e c a s t k e y w o r d s :d a t am i n i n g r o l lf o r e c a s t r e g r e s s i o nf o r e c a s t r e v e n u e 郑重声明 v7 8 2 2 1 5 本人的学位论文是在导师指导下独立撰写并完成的,学位论文没 有剽窃、抄袭等违反学术道德、学术规范的侵权行为,否则,本人愿 意承担由此产生的一切法律责任和法律后果,特此郑重声明。 学位论文作者:岳瑞 知啦年多月) 7 日 第1 章引言 1 1 本研究课题的学术背景 随着社会发展,人类的生产、生活越来越离不开信息。谁拥有了更多更有效 的信息,谁就将在竞争中处于有利地位。目前在各个领域产生了大量的数据,显 然在这些数据中蕴藏着丰富的信息,如何处理这些纷繁复杂、规模庞大的数据从 中得到有益的信息是摆在我们面前的一个新的课题。 信息产业正在成为一个国家的支柱。数据作为信息的载体,其管理工具及数 据库对于信息技术的重要性,正日益得到人们的重视。人们希望能够更好地利用 这些数据,目前的数据库系统可以高效地实现数据的录入、查询等功能,但无法 发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。只有 拥有了先进的数据库技术,才能有效地管理好浩如烟海的数据,并从中提取出对 自己有用的信息来加以利用。针对这一情况,数据挖掘技术应运而生,并显示了 强大的生命力。 数据挖掘( d a t am i n i n g ) ,简单地说,就是从大量的数据中,抽取出潜在 的、有价值的知识的过程。它是一种新的数据处理技术,主要特点是对数据 库中的大量数据进行抽取、转换、分析和其它模型化处理,从中提取辅助决策的 关键性数据。数据库系统的广泛应用及计算机硬件的快速发展,使得大量数据用 于事务管理、信息检索和数据分析。于是利用数据挖掘工具进行数据分析,从而 发现重要的数据模式,成为经济领域、知识库、科学和医学研究等领域的重要方 法。 1 2 数据挖掘的研究现状 数据挖掘研究被认为是继互联网之后信息技术领域的又一个新浪潮,许多高 科技经济预测专家认为:不久的将来,以数据挖掘为基础的知识管理将迎来高科 技发展的新高峰。 在美国等西方经济发达国家,对数据挖掘的研究进行得比较早。在1 9 8 9 年举 行的第十一届国际联合人工智能学术会议上,数据挖掘概念就被提出。到目前为 止,数据挖掘和知识发现被i e e e 、计算机网络、信息工程等国际学会、学刊列 为专题和专刊讨论。大量研究数据挖掘的公司也纷纷成立,仅在美国,就有数百 家公司从事数据挖掘相关产品的研发。 在国内,对数据挖掘的研究虽然起步较晚,但发展也非常迅速。目前,国内 许多科研单位竟相开展知识发现的基础理论及其应用研究。如模糊方法在知识发 现中的应用、数据立方体代数的研究、关联规则开采算法的优化和改造等等。 1 3 选题意义和工作概要 1 3 1 选题意义 数据挖掘作为一个有着广阔应用前景的技术,对其理论进行研究并将其和实 际应用相结合,有十分重要的理论价值和现实意义。 在近二十年的时间里,我国税收信息化建设经历了从无到有、从分布到集中、 从单一到复合、从分散到统一的历程。税收信息化的建设有力地促进了税收收入 的稳定增长,大幅度提高了税收管理的质量和水平,使税务干部素质和依法治税 水平迈上了新的台阶。通过近几年计算机广域网络建设,国税系统从总局、省局、 地市局到区县局的四级广域网己全部联通。它是税务系统的“信息高速公路”,是 税务管理信息化的基础和依托。 税务系统应用计算机局域网技术来进行税收业务管理,积累了大量的税收业 务管理数据,特别是2 0 0 2 年推行了中国税收征管系统以来,将县区级的数据集 中到了市局。目前数据库中的数据己达上千万条,但对于这些历史数据,只是广 泛应用于查询。这样对大量的数据进行管理,就仅仅局限于日常事务处理的计算 机化及对数据的存储和查询等内容,并没有对数据进行深层次的应用,造成了数 据资源的浪费。如何对这些数据进行有效合理的分析和利用,以及从中挖掘出对 我们决策有帮助的知识,对领导的决策分析提供依据,是研究的重点课题。如何 从大量的数据中经过深层分析,获得有利于税收征管的信息就要求系统地开发数 据挖掘工具,将数据坟墓转换成知识的“金块“。通过数据挖掘方法来对这些 宝贵的资源进行处理,为加强税收业务管理和领导决策分析提供有力的支持,已 成为信息化建设的重要任务。 数据挖掘的目的主要是从现有的数据中发现并证实一些过去不了解的信息, 2 达到“了解过去、掌握现在、预测未来”的目的,从而更好地改进税务工作,做 出更可信的决策。目前在国税系统内,如何利用税收征管系统内的数据进行执法 水平检测、征管工作质量的监督、税收收入的预测等,一直是大家关注的热点问 题。特别是税收收入预测,它关系到税收计划的制定,间接影响到税务工作者年 度工作计划的安排。过高地预测税收收入,可能会导致违法收税现象的发生,而 过低地预测税收收入,又可能使该收的税不收,造成工作的被动。因此科学地进 行税收收入预测,是税务工作的一项重要内容。目前税务部门的收入预测主要采 用上年总数与g d p 相乘与人工预测相结合的方法。这种预测有一定的科学道理, 但它忽略了各种各样的经济因素对税收的直接或间接的影响,而且无法进行分月 的税收收入预测。 把数据挖掘技术应用到税收收入预测工作中,通过对历史存放的大量相关数 据的分析,找出各种相关因素对税收收入影响的规律,建立税收收入预测模型, 可以对各月及年度的税收收入情况进行预测,以此为税收计划工作提供重要的指 导和帮助,提高税收计划制定的准确性和及时性,从而大大提高工作的效率。 1 3 2 所做的主要工作 1 、完成对相关数据的收集和整理工作。 2 、分析问题和数据的特点,选择合适的预测方法。 3 、对回归预测、滚动预测进行深入研究。 4 、建立回归预测模型,并和滚动预测方法进行比对,确定较优的预测方法。 本论文将数据挖掘理论和实际应用相结合,并对在实践中碰到的问题,提出 了自己的看法和相应的解决方案。 1 4 论文的组织 本文利用以下五部分对税收收入预测进行论述,内容如下: 第一章引言 介绍了本研究课题的学术背景及研究现状。简要说明了将数据挖掘引入税收 收入预测的意义,从整体上介绍了自己做的主要工作。 第二章数据挖掘技术 介绍了数据挖掘相关知识,包括数据挖掘产生的背景、概念、类型、过程、 技术演变和应用发展趋势。为下面实际的数据挖掘过程作了理论上的准备。 第三章统计学相关知识 介绍了统计学相关知识,包括相关分析、回归预测方法、回归方程的统计检 验、时间序列分析和滚动预测方法。为建立税收收入预测模型作了理论上的准备。 第四章税收收入数据分析及预处理 介绍了税收收入现状及预测的分类。介绍了数据选取的依据,对2 0 0 1 年至 2 0 0 4 年的数据进行了提取,并对数据进行预处理,为税收收入预测模型的建立 做了数据上的准备。 第五章税收收入预测 详细介绍了建立元回归、多元回归、滚动预测税收收入预测模型的过程, 其中包括训练样本的选取和处理、算法的设计和训练的过程荠对2 0 0 5 年度收入 进行预测。得出滚动预测比一元回归和多元回归预测模型预测数值更准确,在实 际应用中更具有利用价值的结论。 第六章结束语 总结了所做的主要工作,并指出了工作需要改进的地方。 4 2 1 数据挖掘定义 第2 章数据挖掘技术 数据挖掘( d a t am i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程“1 。还有一些术语,具有和数据挖掘类似但稍有不同的含义, 例如: 数据库中知识挖掘( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d ) “, 知识提取( k n o w l e d g ee x t r a c t i o n ) , 数据模式分析( d a t a p a t t e r na n a l y s i s ) , 数据考古和数据捕捞( d a t aa r c h e o l o g y ) , 信息收获( i n f o r m a t i o nh a r v e s t i n g ) , 商务智能( b u s i n e s si n t e l i g e n c e ) 。 在广义的观点里人们将数据挖掘与数据库中的知识发现( k d d ) 视为同义词, 即数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据中挖掘有趣 知识的过程。 数据挖掘涉及多学科技术的集成,包括数据库技术、统计学、机器学习、 高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理和 空问数据分析。通过数据挖掘,可以从数据库提取有趣的知识、规律或高层信息, 并可以从不同角度观察或浏览。发现的知识可以用于决策、过程控制、信息管理、 查询处理,等等。因此,数据挖掘是一门交叉学科。 2 2 数据挖掘技术的演变 数据挖掘其实是个逐渐演变的过程,电子数据处理初期,人们就试图通 过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器学习 的过程就是将一些已知的并己被成功解决的问题作为范例输入计算机,机器通过 学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决 某一类的问题。随后,随着神经网络技术的形成和发展,人们的注意力转向知识 工程,知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是 直接给计算机输入已被代码化的规则,而计算机是通过使用这些规则来解决某些 问题。专家系统就是这种方法所得到的成果。但它有投资大、效果不甚理想等不 足。8 0 年代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上, 并将其成果应用于处理大型商业数据库。随着在8 0 年代末新的术语k d d ( 数 据库知识发现) 的提出,它泛指所有从源数据中发掘模式或联系的方法,人们接 受了这个术语,并用k d d 来描述整个数据发掘的过程,包括最开始制定业务目标 到最终的结果分析,而用数据挖掘来描述使用挖掘算法进行数据挖掘的子过程。 最近人们逐渐开始使用统计方法来完成数据挖掘中的许多工作,并认为最好的策 略是将统计方法与数据挖掘有机结合起来。 由此可见,数据挖掘技术的出现是具有革命性的。它的出现使得更多的信 息不仅仅只是单纯地增长,人们更多的是利用这项新流行的技术从信息中及时发 现有用的知识、提高信息利用率,从而利用得出的知识为下一步的工作做出预测。 现在数据挖掘技术在商业应用中越来越流行,并且已经投入使用,原因是 对这种技术进行支持的三种基础技术己经发展成熟,它们是:海量数据搜集,强 大的多处理器计算机,数据挖掘算法。 f r i e d m a n 1 9 9 7 列举了四个主要的技术理由激发了数据挖掘的开发、应用 和研究的兴趣: 1 、超大规模数据库的出现,例如数据仓库和计算机自动收集的数据记录; 2 、先进的计算机技术,例如更快和更大的计算能力和并行体系结构; 3 、对巨大量数据的快速访问; 4 、对这些数据应用精深的统计方法计算的能力。 2 3 数据挖掘的任务 数据挖掘是从数据中发现模式,模式是一个用语言l 来表示的一个表达式e , 它可用来描述数据集f 中数据的特性,e 所描述的数据是集合f 的一个子集f e 。 e 作为一个模式要求它比列举数据子集f e 中所有元素的描述方法简单。例如,“如 果年龄在o 3 岁之问,则是婴儿”可称为一个模式,而“如果年龄为1 、2 、3 岁,则是婴儿”就不能称之为一个模式。 模式有很多种,按功能可分有两大类:预测型( p r e d i c t i v e ) 模式和描述型 ( d e s c r i p t i v e ) 模式。 预钡9 型模式是可以根据数据项的值确定某种结果的模式。挖掘预测型模式所 使用的数据也都是可以明确知道的。 描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数 据分组。描述性模式不能直接用于预测。 数据挖掘通过预测未来趋势及行为,做出基于知识的决策。数据挖掘的目标 是从数据库中发现隐含的、有意义的知识,主要有分类和预测、关联分析、聚类、 概念描述、孤立点分析、演变分析六类功能。 在分类和预测功能中,数据挖掘自动在大型数据库中寻找预测性信息,以往 需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。 分类( c l a s s i f i c a t i o n ) 是这样的过程,它找出描述并区分数据类或概念的 模型( 或函数) ,以便能够使用模型预测类标记未知的对象类。导出模型是基于 对训练数据集的分析。导出模式可以用多种形式表示,如分类规则、判定树、数 学公式或神经网络。 当希望预测的值是数值数据,而不是类标识时,通常称之为预测。预测也包 含基于可用数据的分布趋势识别。 2 4 数据挖掘的步骤 在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什 么样的目标是必要的,好的计划才能保证数据挖掘有条不紊地实施并取得成功。 很多软件供应商和数据挖掘顾问公司都提供了一些数据挖掘过程模型,来指导他 们的用户逐步进行数据挖掘工作。比如s p s s 。1 的5 a 评估( a s s e s s ) 、访问 ( a c c e s s ) 、分析( a n a l y z e ) 、行动( a c t ) 、自动化( a u t o m a t e ) 和s a s 的s e 眦 采用( s a m p l e ) ,探索( e x p l o r e ) ,修正( m o d i f y ) ,建模( m o d e l ) ,评估( a s s e s s ) 。 数据挖掘过程并不是线性的,要取得好的结果就需要不断重复数据挖掘的步 骤。数据挖掘过程一般需要经过下面的步骤“: 定义应用目标 创建目标数据集 数据预处理 选择合适的数据挖掘方法 选择合适的算法 实施 1 、定义应用目标 清晰地定义出应用目标,认清数据挖掘的目的是数据挖掘的重要一步。挖掘 的最后结果是不可预测的,但要探索的问题是有预见的,为了数据挖掘而数据挖 掘则带有盲目性,是不会成功的。 2 、创建目标数据集 这一步是关于数据是怎样产生和收集的。一般要从获得的原始数据中抽取一 定数量的子集作为数据挖掘库。 3 、数据的预处理 原始的数据一般不适合直接进行数据挖掘。需要对数据进行一系列的预处理 工作。数据的预处理主要有以下几方面: 数据清理:现实世界的数据一般是脏的、不完整的和不一致的。数据清理例 程试图填充空缺的值,识别孤立点、消除噪声,并纠正数据中的不一致。 数据集成:数据集成是将多个数据源中的数据结合起来存放在一个一致的数 据存储中。这些源可能包括多个数据库、数据立方体或一般文件。 数据选择:数据选择是从数据库中检索与分析任务相关的数据。 数据变换:数据变换将数据转换成适合于挖掘的形式,如通过平滑或聚集操 作。通过数据的概化把高层次的概念替换底层次的原始数据( 如具体的年收入可 以概化为高、中、低) ;在一些算法中要求数据的取值落入一定的区间如 0 ,1 内,这时需要对数据用一定的方法进行归一化处理,使之符合要求。 数据归约:数据归约即数据集的压缩表示,它比原数据集小得多,但能够产 生同样的( 或几乎同样的) 分析结果。 4 、选择合适的数据挖掘方法 主要根据应用的目的和数据的特点选择要进行什么功能的数据挖掘,如关 联、聚类、分类、回归等。 5 、选择合适的算法 每种数据挖掘可以用不同的算法去实现,要在这些算法中选择最合适的去进 行挖掘。算法的选择除了根据数据和应用的具体特点外,有的时候需要对多种算 法通过实验进行比较、筛选。 6 、建立模型 这一般是一个反复实验、检测的过程。在建立模型的过程中,需要对得到的 模型反复进行验证和修改,最终得到最符合需要的较优的模型。 7 、实施 这一步是指对所发现知识的使用。 2 5 数据挖掘的应用 数据挖掘是信息技术自然演化的结果。目前看来,数据挖掘的应用主要在以 下几方面: l 、针对生物医学和d n a 数据分析的数据挖掘 在过去的十年里,生物医学研究有了迅猛的发展,从新药物的开发和癌症治 疗的突破,到通过大规模序列模式和基因功能的发现,进行人类基因的识别与研 究。由于目前生物医学的大量研究都集中在d n a 数据的分析上,这里我们重点研 究此应用的情况。近期9 n a 分析的研究成果已经导致了对许多疾病和残疾的基因 成因的发现,以及对疾病的诊断、预防和治疗的新药物、新方法的发现。 2 、针对金融数据分析的数据挖掘 大部分银行和金融机构都提供丰富多样的储蓄服务、信用服务和投资服务。 有些还提供保险服务和股票投资服务。在银行和金融机构中产生的金融数据通常 相对比较完整、可靠和高质量,这大大方便了系统化的数据分析和数据挖掘。主 要有以下应用:为多维数据分析和数据挖掘设计和构造数据仓库:贷款偿还预测 和客户信用政策分析;对目标市场客户的分类与聚类;洗黑钱和其他金融犯罪的 侦破。 3 、零售业中的数据挖掘 零售业是数据挖掘的主要应用领域,其拥有大量的销售数据,顾客购买历史 记录,货物进出,消费与服务记录,等等。其数据量在不断地迅速膨胀,特别是 由于日益增长的w e b 或电子商务上的商业方式的方便和流行。零售数据为数据挖 掘提供了丰富的资源。零售数据挖掘可有助于识别顾客购买行为,发现顾客购买 模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销量 比率,设计更好的货品运输与分销策略,减少商业成本。零售业中的数据挖掘主 要在以下几方面:基于数据挖掘的数据仓库的设计与构造;销售、顾客、产品、 时间、和地区的多维分析;促销活动和有效性分析;顾客保持力顾客忠诚分 析;购买推荐和商品参照。 4 、科学和统计数据挖掘 目前数据挖掘技术已经扩展到科学以及经济或社会科学数据中,主要采用了 以下方法; 回归:一般来说,这些方法用来预测从一个或多个预测器( 自) 变量来的响 应( 因) 变量的值,它们是数值类型的。有很多种回归方法,如线性回归,多元 回归,加权回归,多项式回归,无参数回归,强回归。 概化线形模型( g e n e r a l i z e dl i n e a rm o d e l ) 。 回归树( r e g r e s s i o nt r e e ) 。 方差分析( a n a l y s i so fv a r i a n c e ) 。 混合效应模型( m i x e d e f f e c tm o d e l ) 。 因素分析( f a c t o ra n a l y s i s ) 。 判别式分析( d i s c r i m i n a n ta n a l y s i s ) 。 时间序列( t i m es e q u e n c e ) 幸存分析( s u r v i v a la n a l y s i s ) 。 质量控制( q u a l i t yc o n t r 0 1 ) 。 2 6 本章小结 本章简要介绍了数据挖掘的基本理论,首先介绍了数据挖掘的概念、技术的 演变和任务,然后重点介绍了数据挖掘的步骤。 l o 第3 章统计学相关知识 数理统计学是一门关于数据资料的收集、整理、分析和推理的科学,在时下 数据挖掘热潮中,数理统计方法仍是一种不可或缺的方法f 3 l 。 税收预测的方法总是和统计学联系在一起的,一般有专家会议法,德尔菲法, 时间序列法,回归分析法,趋势外推论、马尔可夫模型。现将本文用到的方法及 相关知识介绍如下: 3 1 资料的表示 在本论文里,用符号x 表示输入变量。如果x 是向量,则其分量可以用x t 访 问。定量的输出变量用y 表示。引用变量整体时,用大写字母,如x 、y 。观测 值用小写字母表示。例如,n 个输入p 向量x ;( i = l ,2 一,n ) 的集合将用n x p 的 矩阵x 表示。 3 2 基本统计量 l 、平均值 平均值是描述资料数字平均状况的量,可作为要素总体数学期望的一个估计。 任何一个总体都是由许多总体单位所构成,在一个确定的研究目的下,各总体单 位具有共同的标志,但却具有不同的标志值或称为观察值。这些不同的数值使人 们无法概括出总体的特征,然而,如果从整体上去观察这些标志值,便会看到这 些各不相同、千差万别的观察值在总体中存在着一个共同的倾向。对于n x p 个 变量,可分别求出它们的平均值x 。,x :,x 由p 个变量的平均值可以构成1x p 的矩阵。 i = 瓦_ ,乏) ( 3 一1 ) 2 、标准差和方差 标准差是描述样本中资料与平均值差异平均状况的统计量,它用来衡量资料 围绕平均值的变化幅度。我们常用标准差的平方一方差来进行表示,其计算公式 为: = i l 厶n 。如,一z ) 2 3 3 相关和回归分析 ( 3 2 ) 相关分析:相关关系即变量之间存在着密切的关系,但不是确定的依存关系。 其特点是对于一个( 或一组) 变量的每一个确定的值,另一变量有多个值与之对 应,这种关系不能用普通函数表达。例如单位面积上的粮食产量与施肥量有关, 即在一定范围内,随着施肥量的增加,粮食产量也相应有所提高。但是施肥量相 同时,产量也不相同,它是个随机变量,这种关系是不确定性的,不能用普通函 数来表达,这种关系就是相关关系。相关关系从变量之间关系的密切程度来看, 相关可以分为完全相关、不相关和不完全相关。相关分析和回归分析研究的主要 是不完全相关的问题。我们用相关系数p 来反映变量之间的相关关系的方向和密 切程度,即确定各种指标间是否具有相关关系以及这种关系的作用大小,比如历 年的税收总额和g d p 是相关的,而每年二者的比值在一定程度内是保持相应的一 致性( 一定程度内指这种比值可能不变,也可能以一定的趋势在变化) 。 回归分析:回归指变量之间的依存关系。它研究变量之间的具体相关形式, 对具有相关关系的变量之间的数量联系进行测定以确定一个相关的数学方程式。 回归分析按自变量的多少可分为一元回归分析和多元回归分析;按变量之间的具 体变动形式可分为线性回归分析和非线性回归分析。总之回归分析是相关分析的 延续,相关分析是回归分析的前提。 还是以税收总额和g d p 为例,相关分析只是指出了二者是相关的,给出了相 关的程度,但是利用某年g d p 还是无法给出具体的税收总额,这里就需要回归分 析对二者的关系给出一个具体的数学方程式,利用一元回归分析这个方程式可能 是税收总额e ( y ) : e ( y ) = c t + 肼 ( 3 3 ) 利用最小二乘法求出n 及f j ,从而通过某年的g d p 数值得出税收总额数值, 而且误差的范围可控。 实际上,影响税收总额的因素非常的多,除g d p 外,可能还有进出口总额, 引进内资外资总额等等,这就需要采用多元回归模型来进行预测。利用多元回归 分析,我们可能会得到如下方程: 税收总额:a x g d p + b 进出口总额+ c 引进内资外资总额+ d , 3 4 回归方程的统计检验 1 、拟合优度检验 得到回归直线方程后,这一方程与观测值拟合优度如何,关系到回归方程的 应用价值。因此,需对回归方程的拟合优度加以测定。 拟合优度系数: r 2 = 面丽s s r ( 3 - 4 )s s e + s s r 其中,s s e 为残差平方和,记为: 她= 位一或) 2 ( 3 5 ) 它表示未被回归方程所解释的部分,是自变量x 对因变量y 的影响以外的一切因 素对y 的影响而造成的,它的大小反映了这些因素共同对y 的影响程度。 s s r 为回归平方和,记为: 姗= 位一霉) 2 ( 3 6 ) 它表示由回归方程( 即自变量x ) 所解释的部分,它的大小反映了自变量的重要 程度。 s s e 与s s r 的和为总离差。如果在总离差中回归平方和所占的比重越大,则 回归直线与所有样本点拟合优度就越好。如果残差平方和所占的比重越大,则回 归直线与所有样本点拟合优度就越差。 由公式3 4 可知,如果r :越接近于l ,表示回归直线与样本点拟合优度越好。 当r 2 = l 时,表示完全拟合。如果r :越接近于0 ,表示回归直线与样本点拟合优度 越差。当r 2 = o 时,表示白变量x 与因变量y 没有线性关系。 2 、回归方程的显着性检验 对于任何一组数据( x ;,y i ) ( i = l ,2 一,n ) ,不管y 与x 问是否存在线性关系, 都可以用最小二乘法形式地求出一个回归方程。如果y 与x 之间不存在线性关系 或线性相关程度很小,那么所求出的回归方程是无意义的。 在公式3 - 3 中,判断y 与x 之间是否存在线性关系,可转化为检验假设乩: b = 0 是否成立的问题。方差o2 的估计量 艘2 :s s r ( 3 7 ) s e2:sse(3-8) 聍一2 当h o :0 = 0 成立时,s r 2 与s e 2 之比服从f 分布,即 f:罂(3-9) 一2 可 对于给定的显着性水平f 。,当f f 。时,有1 一n 把握认为y 与x 之间的线 性关系显着。 3 5 时间序列分析 时间序列是把同一现象在不同时间上发展变化的指标数值按时问先后顺序 排列而成的数列。由于时间序列中的每一时刻的数值都可以视为事物内部状态 的过去变化与外部所有因素共同作用的结果,该时刻的状态量反映了事物本身的 过去所有信息和外部影响信息,因此,一旦当采集时刻足够多,也即样本长度足 够长时,状态变量就能包含该事物发展的全部信息“”“。通过时间序列的研究可 以描述现象在不同时间发展状态,了解现象的发展趋势和速度,探索其发展变 化趋势,从而对现象发展前景进行预测。在这里介绍移动平均预测法和指数平滑 预测法。 1 、移动平均预测法 在对数据趋势进行预测时,经常用到修匀法中的移动平均法。它是对原有时 间数列按一定的时间跨度逐项移动,计算一系列的平均发展水平,形成一个新的 时间数列,以消除短期的、偶然的因素引起的变动,显现出现象发展变化的长期 趋势。移动平均法是消除周期变动,从而较为准确地提示现象长期趋势的重要方 法。对于平稳型的时间序列,可取最近的1 1 项数值的平均数作为下期的预测值。 即: f :兰j 三二! :兰= ! ! ! ( 3 - 1 0 ) 1 4 y t + l :兰三= ! :兰= 壁! ( 3 1 1 )一、ji i , 力 移动平均法只能预测最近一期数值、逐期移动、逐期预测。 2 、指数平滑法预测 指数平滑法是由移动平均法演变而来的。即: z 。= 蟛+ ( 1 一口:舷 口:一1 ( 3 一1 2 ) 拧 指数平滑法有以下特点: 1 、只需要本期实际值和本期预测值便可预测下期数值,不需要保存大量数 据。 2 、a 称平滑系数,它表示由于本质性因素引起的误差所占比例,而其余则 为偶然的、随机因素引起的误差。当n = l 时,1 n = l ,1 - 1 n = o ;当n 很大时,1 n o ,卜1 n l ,故a 必定在o 1 之间。可通过d 的取值来控制下期预测值的误 差。一般时间数列愈平稳,a 取值愈小;时问数列波动愈大,如呈阶梯式或按某 种比率上升或下降,a 取值愈大,使预测值能够敏感地跟踪实际值的变化。 3 6 滚动预测 3 6 1 滚动预测的定义及步骤 滚动预测是预测的三种重要类型之一。它是预测近期活动发展态势常用的 预测方法。按预测期间长度的变化与否来分类,有两种基本形式:一种是给定固 定长度的预测期问的不断递推,来实现滚动预测,即预测期间总的长度根据需要 是给定不变的,随着近期活动的完成,再加一个单位的预测期间继续向前预测。 比如给定的预测长度是5 个月,第一次的预测期是卜5 月,待1 月的活动完成后, 第二次的预测期即为2 - 6 月,以此类推,实现不断地滚动预测。另一种是预测期 的终点是给定的,随着近期活动的不断实现,预测的期间也不断地缩短,在己实 现数据的基础上修正预测参数,继续滚动预测其余期间的态势。它适合于预测短 期数据,正好可以满足税收征管信息管理系统中征管数据时期相对较短的不足。 由于税收收入是按年度计划和考核的需要,选择第二种形式的滚动预测。其 基本思路和步骤是: ( 1 ) 利用平均发展水平对数据库中的数据项进行修正,计算出的税收收入的月 分布曲线; ( 2 ) 利用指数平滑法求出实现税收的增长系数: ( 3 ) 求出预测年度各月的税收; ( 4 ) 每实现1 个月的税收,对实现税收增长系数进行滚动调整,预测其余各月 的税收,直至1 2 月: 3 6 2 模型基本计算公式 模型计算公式如下: 咒= a 7 + e y + b 7 + f ( 3 - 1 3 ) t ,为给定税收预算年度( y ) 的总的预测数。 a 、e 、b 和f 为行向量,其中: a i 为i 月的实际收入; b 。为i 月的预测收入; e :当i 月有实际收入时为1 ,否则为0 ; f 。当i 月未实现收入时为1 ,否则为0 ; i = l ,2 ,3 ,1 2 ) ,表示预算年度各月份的序号。 如果e m 一= 1 ,相关预算年度给定月份( i ) 的预测收入计算如下: 龟( ,) = r - i ) 0 ( 3 一1 4 ) 如果o m 一”= o ,相关预算年度给定月份( i ) 的预测收入计算如下: 6 ;( ,) = b 4 y - ) + 0 ( 3 一1 5 ) 增长系数0 是下列两项内容的加权计算数: ( 1 ) 预算年度( y ) 相对于( y 一1 ) 的预期经济增长率; ( 2 ) 预算年度( y ) 相对于( y - 1 ) 的税收实际增长率; 计算如下: 恻+ 器g d p y + ( 1 占) 籍 伊 一】 、 4 :】+ e 。 权重6 ,在。一l 之间呈线性变化,当能取得预算年度各月的税收数据时, 为0 ;当不能取得预算年度各月的税收数据时,为1 。计算如下: 1 6 3 7 本章小结 j :! 二薹幺盟 聍 ( 3 1 7 ) 本章介绍了统计学相关知识,包括相关分析、回归预测方法、回归方程的统 计检验,拟合优度系数检验和回归方程显著性检验、时间序列分析和滚动预测方 法。为建立税收收入预测模型作了理论上的准备。 1 7 第四章税收收入数据分析及预处理 4 。1 税收收入现状 目前郑州市国税机关所用的数据库系统为基于o r a c l e 的税收征管信息管理 系统“1 。它的系统功能包括基层和市局两个层次:基层税收征管信息系统:包括 管理服务、征收监控、税务稽查、税收法制和税务执行五个部分;市局管理与监 控系统;包括日常业务、查询统计、分析监控、质量考核和报表管理五个部分。 它具有以下显着特点“: 1 、业务比较规范和完整,流程非常明确、严谨,它的推广有利于规范执法, 减少税收征管过程中的随意性。 2 、操作层面的业务,功能齐全。除了申报征收、管理服务、计会统等功能 外,还实现了税务稽查、税务咨询、税收执法、征管文书、抄税报税数据的传入、 发票稽核比对、缺联票向协查系统传输、金税工程交叉稽核的业务等功能,基本 满足基层的操作要求; 3 、通过c t a i s 的推广,对基层征收单位税收监控的作用会有效发挥出来,可 以实现“站在网上看征管”; 4 、综合查询功能强大; 5 、部分功能仍不够完善,甚至没有开发出来,如免、抵、退等; 6 、对硬件和网络的带宽要求高。 自2 0 0 1 年元月开始使用以来,目前系统中存在的征收数据已达三百多万条, 在这浩瀚的数据海洋中寻找有意义的数据是单纯的手工作业所无法完成的。数据 和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块” 【l 】 税收征管信息管理系统虽对税收预测模块进行了编写,但操作复杂,数据准 确性低,在实际应用中已失去了意义。现多用主观判断法进行税收预测,手工进 行计算,劳动强度大,而且相对比较麻烦。 正是基于这种现状,利用c t a i s 系统中存在的大量征收数据,用数据挖掘中 预测的方法对每年的实际税收收入进行分析,建立税收预测模型,从而达到利用 预测模型进行准确的税收收入预测,使税收计划的制定具有理论的指导意义。 4 2 税收收入预测与分类 一般意义上讲的税收收入预测是指运用历史的或当前的相关经济资料和数 据对当前或未来可能的税收收入总量进行推测和估算。 进行税收预测的基本方法主要有两类,一类是从人的主观意识出发,进行预 测的人员依靠积累的经验,以及对税收工作的整体把握情况进行预测,可以称之 为主观判断法,常用的有税务人员意见调查法、领导人员意见调查法、专家意见 调查法等。另一类是按照各种历史数据或即时数据,运用各种统计模型和分析工 具,进行科学正确的预测分析,可以称之为统计模型法。这两种方法各有优缺点: 主观判断法便于操作,不需要有专业的统计学背景,预测人员可以较为自由的对 预测结果进行调节;缺点就是缺乏统计理论支持,不具有科学性和可信度,预测 的结果往往和实际情况偏差较大。统计模型法的缺点就是预测人员需要具有一定 的统计分析知识,掌握一些统计分析工具用法,对预测需要的数据质量要求较高: 而它的优点非常明显,即预测结果具有系统科学的统计分析体系的支持,可信度 高,而且预测结果与实际情况的偏差是在可估计可控制的范围之内。 在我们现实工作中经常可以遇到下列几种情况分类: ( 1 ) 按样本数据和计算目的不同分类 i 税收收入预测( f o r e c a s t i n 曲: 所谓预测,是根据历史资料和数据对未来趋势的推测。那么
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新质生产力如何赋能人文发展
- 2025年建筑医院环境设计与规划试题答案及解析
- 2025年内科疾病临床诊断考试答案及解析
- 2025年药学学习药物不良反应的模拟测试答案及解析
- 2025年皮肤科皮肤疾病诊断鉴别考核答案及解析
- 2025年急诊医学生命体征监测技能考核答案及解析
- 湾区新质生产力布局
- 民族团结与爱国主义课件
- 吉林省新质生产力的发展探索
- 2025年全科护理围手术期护理技能测评答案及解析
- 超级充电综合站及配套设施建设项目可行性研究报告
- 中国心房颤动管理指南2025解读
- 《云计算与大数据》课件第3章“大数据”关键技术与应用
- 2025-2026学年人教大同版(2024)小学英语三年级上册教学计划及进度表
- 2025-2026学年陕旅版(三起)(2024)小学英语四年级上册(全册)教学设计(附目录)
- 2025年血液净化护理知识测试题库附答案
- 心电监护血氧饱和度监测技术
- 局工作秘密管理暂行办法
- 智能仓储物流管理平台的设计与开发
- 2025上海戏剧学院辅导员考试试题及答案
- 2023年黑龙江省汤原县事业单位公开招聘辅警31名笔试题带答案
评论
0/150
提交评论