




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、西安石油大学硕士学位论文数据挖掘技术及其在税收预测中的应用研究姓名:曹思思申请学位级别:硕士专业:计算机技术指导教师:程国建20091015中文摘要论文题目:专业:硕士生:指导教师:数据挖掘技术及其在税收预测中的应用研究计算机技术曹思恩(签名)程国建(签名)当前,数据挖掘研究发展十分迅速,税务系统的信息化建设也正由扩张走向集成和数据管理阶段。但是,长期以来,税收工作中使用的信息系统对数据的利用,只是基于汇总、分类、简单计算基础之上的原始税收数据的展现和对税收现象的一般描述。运用数据挖掘技术来处理税收业务数据、提高决策水平、降低管理成本、是“科技加管理”的最好体现。税收收入预测一直是税务部门的一
2、项重要工作,它决定着税收计划的制定,而税收计划的制定是经济活动的一项重要内容。针对目前税收计划的制定仍以基数加预计增长率这一方式进行的现状,要求尽快建立起一套以税收收入预测为基础的科学预测的体系,从而掌握组织收入的主动性。因此利用统计学及数据挖掘的方法科学正确的进行税收预测工作对于税务部门具有非常重要的意义。本文对数据挖掘的相关概念、过程、基本理论及应用进行了介绍,将数据挖掘应用于税收预测中,通过对大量历史数据和与之相关的各种数据的分析,使用神经网络和多元回归方法建立预测模型,对税收收入情况进行预测,实现了雁塔区国税局年度税收预测,并对各预测模型进行了实验结果的对比分析,为税收计划工作提供重要
3、的指导和帮助,提高税收计划制定的准确性和及时性,从而大大提高工作的效率。关键词:数据挖掘税收预测神经网络多元回归论文类型:应用研究英文摘要:(:(,:,:学位论文创新性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安石油大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名:吼日期:学位论文使用授权的说明本人
4、完全了解西安石油大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安石油大学。学校享有以任何方法发表、复制、公开阅览、借阅以及申请专利等权利,同时授权中国科学技术信息研究所将本论文收录到中国学位论文全文数据库并通过网络向社会公众提供信息服务。本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名单位仍然为西安石油大学。论文作者签名导师签名注:如本论文涉日期的说明中指出(含解密年限等)。必第一章绪论第一章绪论研究背景现代世界是一个数据驱动的世界。随着科学技术的飞速发展,我们被数据所包围着,这些数据是数值型数据或其它类型,其中不乏有大量的无用信息
5、,它们都必须经过分析和处理,转换成通知、指导、回答或帮助理解和作出决策的信息。现在是互联网、内联网、数据仓库和数据集市的时代,改变经典数据分析的基本范型的时机成熟了。极大的数据集被储存在中心数据仓库中,允许分析人员使用更为综合、更为强大的数据挖掘方法。同时数据量很大而且还在增加,数据源是无限的,所覆盖的领域是广泛的,包括工业、商业、金融和科学等。要想使数据真正成为有用的资源,只有充分利用它为之服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。有鉴于此,一个新的数据挖掘学科被专门研发出来,以便从这些巨型数据集中提取有价值的信息。税务部门这几年开发了一些软件系统,如税收征管系统()、金税系统、电
6、话报税系统、出口退税系统、网上认证系统,为我国税务机关的信息化技术装备、基础设施、业务系统开发应用和办公自动化方面打下了基础,同时也积累了海量税收业务数据。而数据挖掘技术正是帮助我们发现在这些数据中不能直接发现的有用决策信息的最好方法。一直以来,依法治税作为依法治国的重要方略,都发挥着税收聚财、税收调节和监督职能。目前,在增强社会主义综合国力、规范和整顿税收秩序、促进社会主义市场经济健康发展等方面,都需要加快推进依法治税进程。但由于现今存在税收征管信息不对称、基层税务执法缺位、越位;公民纳税意识不强等主客观原因,纳税人纳税申报信息失真、偷税等现象还在一定程度上存在,从而造成税款流失和不公平竞争
7、,直接影响依法治税工作和市场经济秩序的稳定,这就迫切需要进行税收预测工作,以促进税收管理体系的进一步完善和规范。数据挖掘是一个从大量的数据中抽取出潜在的、有效的有用信息,并将其进一步模型化的过程。从数据库中发现知识()一词首次出现在年举行的第十一届国际联合人工智能学术会议上。到目前为止,由美国人工智能协会主办的国际研讨会已经召开了次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。年,亚太地区在北京召开的第三届会议收到篇论文,空前热烈。的会刊率先在年出版技术专刊。并行计算、计算机网络和信息工程等其他领域的
8、国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。西安石油大学硕士学位论文与国外相比,国内对的研究稍晚,没有形成整体力量。年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川
9、联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及数据挖掘。研究意义及实用性把数据挖掘技术应用到税收收入预测工作中,通过对历史存放的大量相关数据的分析,找出各种相关因素对税收收入影响的规律,建立税收收入预测模型,可以对各月及年度的税收收入情况进行预测,以此为税收计划工作提供重要的指导和帮助,提高税收计划制定的准确性和及时性,从而大大提高工作的效率。在近二十年的时间里,我国税收信息化建设经历了从无到有、从分布到集中、从单复合、从分散到统一的历程。税收信息化的建设有力地促进了税收收入的稳定增长,大幅度提高了税收管理的质量和水平,使税务干部素质和依法治税水平迈上了新的台阶。通过近几年
10、计算机广域网络建设,国税系统从总局、省局、地市局到区县局的四级广域网已全部联通。它是税务管理信息化的基础和依托。税务系统应用计算机局域网技术来进行税收业务管理,积累了大量的税收业务管理数据,特别是年推行了中国税收征管系统以来,将县区级的数据集中到了市局。目前数据库中的数据已达上千万条,但对于这些历史数据,只是广泛应用于查询。这样对大量的数据进行管理,就仅仅局限于日常事务处理的计算机化及对数据的存储和查询等内容,并没有对数据进行深层次的应用,造成了数据资源的浪费。如何对这些数据进行有效合理的分析和利用,以及从中挖掘出对我们决策有帮助的知识,对领导的决策分析提供依据,是研究的重点课题。如何从大量的
11、数据中经过深层分析,获得有利于税收征管的信息就要求系统地开发数据挖掘工具。通过数据挖掘方法来对这些宝贵的资源进行处理,为加强税收业务管理和领导决策分析提供有力的支持,己成为信息化建设的重要任务。数据挖掘的目的主要是从现有的数据中发现并证实一些过去不了解的信息,达到“了解过去、掌握现在、预测未来的目的,从而更好地改进税务工作,做出更可信的决策。目前在国税系统内,如何利用税收征管系统内的数据进行执法水平检测、征管工作质量的监督、税收收入的预测等,一直是大家关注的热点问题。特别是税收收入预测,它关系到税收计划的制定,间接影响到税务工作者年度工作计划的安排。过高地预测税收收入,可能会导致违法收税现象的
12、发生,而过低地预测税收收入,又可能使该收的税第一章绪论不收,造成工作的被动。因此科学地进行税收收入预测,是税务工作的一项重要内容。目前在税务系统的工作实践中,税收收入预测准确性还不太高,主要有以下几点不足:一是存在税收预测人员凭经验估算的情况。随着社会经济的发展,税收信息化程度的提高,税收结构状况越来越复杂,影响税收收入的因素也越来越多。凭经验估算的方法已不能适应发展的需要,从事税收收入预测的人员要掌握一定的经济税收预测方面的理论知识才能做到科学预测。二是缺乏科学的预测方法和预测工具。目前使用的预测方法看,大多都是从数理统计的角度来研究税收与经济变量之间的数量关系,是从纯数学的角度进行推导。事
13、实上,税收作为最复杂的经济现象,除了受到经济因素的影响之外,还要受非经济因素的较大影响,而这些影响有些是无法进行量化的。经济变量和许多非量化变量因素对税收的多重影响,使现有预测方法和预测工具不能全面推导出这些因素对税收收入影响的准确值或相对准确值。三是预测人员缺乏系统科学的训练。国税系统对税收收入预测方法的培训极少,许多税收管理员连基本的预测方法也没有掌握,只是靠经验进行估算。税收收入预测要在科学理论指导下才会有科学的结论,要将实践与理论技能进行有机结合,而要提高理论和预测技能就是靠加强训练,否则无法有准确的预测结果。主要研究工作本文对数据挖掘的相关概念、过程、基本理论及应用进行了介绍,将数据
14、挖掘应用于税收预测中。通过对大量历史数据和与之相关的各种数据的分析,使用神经网络和多元回归方法建立预测模型,对税收收入情况进行预测,并对各预测模型进行了实验结果的对比分析。指出神经网络方法较多元回归分析法能更好地进行税收收入预测,从而更好地指导税收计划的完成,为科学地建立税收计划进行了有效地探索,并为税收计划工作提供了重要的科学依据。本课题的主要研究内容包括以下三个方面:理解并掌握数据挖掘的基本概念和基本理论,了解数据挖掘的发展、现状和在现实中的应用。介绍了人工神经网络的基本原理和神经网络的算法、多元回归模型。讨论了神经网络、多元回归模型两种预测型数据挖掘技术在税收预测中的应用。论文结构论文共
15、分六章,各章的内容概述如下:第一章,绪论。介绍了本研究课题的研究背景及研究现状,说明了将数据挖掘用于税收收入预测的意义及实用性,介绍了自己所要做的主要工作。西安石油大学硕士学位论文第二章,数据挖掘概述。介绍了数据挖掘的基础概念、国内外现状、分类、挖掘过程和方法,以及数据挖掘的应用,本章详细介绍了数据挖掘的概念和一般过程及数据挖掘的研究现状、数据挖掘的分类、过程、任务和方法、应用等,并且介绍了数据仓库的基本概念,为税务数据挖掘过程作了理论上的准备。第三章,税务数据挖掘的应用。介绍了现有税务系统的缺陷,税务数据挖掘的目的、过程、实施以及税务数据挖掘的预测分析。第四章,税务数据挖掘的模型建立。介绍了
16、神经网络模型和多元回归模型的基本原理,为建立税收收入预测模型做了准备。第五章,税收收入预测分析模型的实现。详细介绍了建立神经网络模型和多元回归模型对税收收入预测的过程,包括税收收入预测现状、经济指标的选取、算法的设计和训练的过程,并对两种模型得出的结果进行比较和分析。第六章,结论。对整篇文章进行总结和展望。两安石油大学硕士学位论文掘技术来分析银行客户的信用等级和资产发展趋势,用以规避银行风险。从此,数据挖掘就广泛地应用到国外金融行业,比如后来的保险业,借以此技术来防止保险欺诈行为。以及慢慢渗透到税收、零售行业以及国家安全系统的保障等等。国内现状与国外相比,国内对的研究稍晚,没有形成整体力量。其
17、实,数据挖掘在上世纪九十年代就进入了中国,年国家自然科学基金首次支持对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究乍结构化数据的知识发现以及数据挖掘。并且,随着经济的发展和国内企业的不断壮大
18、,现在许多中国企业都有这种需求,并开始引用数据挖掘技术,不过还处于相对比较初级的阶段。和国外大企业自身就拥有强大的数据挖掘技术团队的情况相比较,因为专业人才难以培养、企业制度和软件开发等原因的欠缺,也使得国内企业自己建立和发展数据挖掘技术团队变得格外困难。由此可见,经济的发展情况和企业的规模也将成为限制数据挖掘技术发展的必然条件。数据挖掘的分类数据挖掘的核心模块技术历经了数十年的发展,受到多个学科的影响,其中包括数据库系统、可视化、数理统计、人工智能、机器学习。此外,数据挖掘算法依赖于其他学科的技术,例如神经网络、模糊数学、归纳逻辑设计、知识表示和高性能计算。数据挖掘系统也有赖于信息检索、空间
19、数据分析、模式识别、图象分析、信号处理、计算机图形学甚至经济学、生物学、心理学的有关领域技术的发展。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段啦!。如何给数据挖掘系统分类,要根据数据挖掘来源于多个学科领域来综合考虑。一种常见的分类方法是:根据挖掘的数据库类型分类。数据库系统本身可以根据不同的模型分类,每一类可能需要自己的挖掘技术。例如根据数据模型分类,有关系的、事务的、面向对象的或数据仓库的数据挖掘系统。根据挖掘的知识类型分类。即根据数据挖掘的功能,如特征化、区分、关联、分类聚类、孤立点分析、演变分析、偏差分析等分类
20、。同时,数据挖掘系统还可以根据第二章数据挖掘概述所挖掘的知识的粒度或抽象层分类等等。根据所用的技术分类。数据挖掘系统可以根据用户交互程度、所用的数据分析方法分类。根据应用分类。例如,有的数据挖掘系统特别适合于金融、电信、商业零售、股票等等。不同的应用通常需要集成对于该应用特别有效的方法,因此,普通的全能的数据挖掘系统并不存在。数据挖掘的过程数据挖掘是一个需要经过不断反复的多次处理过程。在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊的实施并取得成功。数据挖掘的处理过程为数据挖掘提供了宏观指导和工程方法。合理的处理过程能将
21、各个处理阶段有机地结合在一起,指导人们更好地开发及使用数据挖掘系统。数据挖掘过程一般有如下几个步骤:陈述问题和阐明假设理解和完善所应用领域的问题、相关的先导知识,清晰明确的定义最终应用目标。在成功的数据挖掘应用中,数据挖掘应和应用之间密切的相互协作,并且持续整个数据挖掘的过程。建立目标数据集收集、描述数据,并把要挖掘的数据都收集到一个数据库中。这通常分为两种方法:第一种是当数据产生过程在专家的控制之下时,被认为是“设计实验”;第二种情况是当专家不能影响数据产生过程时,这种方法被认为是“观察法”。观察设置,也就是数据随机产生,在大多数数据挖掘应用中都被采用。数据的预处理与清洁由于各种各样的数据质
22、量问题,数据域中可能包含了不正确的异常点,需要对其进行检测和去除。异常点是与众不同的数值,这些数值和大多数观察值不一致,一般是由于测量误差、编码和记录误差产生的,有时也来自于自然的异常值。这种不具备代表性的样本以后会严重影响模型的产生。对异常点有两种处理办法:)把检测并最终去除异常点作为预处理阶段的一部分。)寻找不受异常点影响的健壮性建模方法。数据变换和归约发现一些有用的特征来表示依赖于任务目标的数据,将数据转换成适合于挖掘的形式,利用维数精简或变换方法来缩减变量的有效数量。对各种比例缩放和不同类型的编码应进行比例缩放并使他们加权相同以进行进一步的分析。选择数据挖掘任务西安石油大学硕士学位论文
23、包括决定数据挖掘过程的目标,如发现关联规则、聚类、分类、排序或者预测。选择数据挖掘算法根据数据和应用的具体特点进行算法的选择,有时还需要在通过对多种的实验比较来确定最终用哪一种算法。建立模型此过程需要查找与数据挖掘相关的一系列特定的表达方式,并根据反复进行验证和修改而得到的挖掘方式,确定最终的最优模型。评价和解释模型建立好之后,评价他的结果,解释他的价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,随着应用数据的不同,模型的准确率会发生变化,并且,准确度自身并不一定是选择最好模型的正确评价方法,需要进一步了解错误的类型和由此带来的相关费用的多少。实施模型建立并经验证之后,
24、可以有两种主要的使用方法,第一种是提供给分析人员作参考,由分析人员通过察看和分析这个模型之后提出行动方案建议。另一种是把此模型应用到不同的数据集上。模型可以用来标示一个事例的类别,给一项申请打分等,还可以用模型在数据库中选择符合特定要求的记录,以用分析工具做进一步的分析。数据挖掘的任务和方法数据挖掘的功能大致有两种,预测检验功能和描述功能。数据挖掘的任务主要有项:概念描述,即对数据进行浓缩,给出某类对象内涵的紧凑表示。发现关联规则,通过分析给出两个或多个变量间存在的相关性规律。聚类,即簇聚同类对象,使在抽象空间中属于同一类别的个体距离尽可能小,反之尽量大。偏差检测,寻找观察结果与参照值间的差别
25、,这些偏差往往包含很多潜在有意义的知识信息口。应用较普遍的数据挖掘与知识发现方法有:遗传算法其基本原理是:类比生物进化过程,每一代同时存在许多不同的种群个体(染色体)。这些染色体的适应性以适应性函数()表征,染色体的保留与淘汰取决于它们对环境的适应能力,优胜劣汰。适应性函数()的构成与目标函数密切相关,往往是目标函数的变种。遗传算子主要有种:选择(复制)算子、交叉(重组)算子和变异(突变)算子。遗传算法可起到产生优良后代的作用,经过若干代遗传,将会得到满足要求的后代(问题的解)。粗糙集方法其基本原理是:将数据库中的行元素看成对象,将列元素看成属性。设为等价关系,定义为不同对象在某个(或几个)属
26、性上取值相同。那些满足等价关系的对象构成第二章数据挖掘概述集合,称为该等价关系的等价类。设为条件属性上的等价类,设为决策属性上的等价类,则和存在种情况:包含称为下近似;与的交非空,称为上近似;与的交为空,称为无关。对下近似建立确定性规则,对上近似建立不确定规则(含可信度),对无关情况则不存在规则。决策树方法决策树方法是以信息论原理为基础,利用信息论中互信息(信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个结点。然后再根据字段的不同取值建立树的分支,在每个分支集中重复建立树的下层结点和分支。这种方法实际上是依循信息论原理对数据库中存在的大量数据进行信息量分析,在计算数据特征的互信息或
27、信道容量的基础上提取出反映类别的重要特征。神经网络方法其原理是:模拟人脑的神经元结构,以模型和学习规则建立起前馈式网络、反馈式网络和自组织网络大类多种神经网络模型。基于神经网络的数据挖掘工具对于非线性数据具有快速建模能力,其挖掘的基本过程是先将数据聚类,然后分类计算权值,神经网络的知识体现在网络连接的权值上。神经网络方法用于非线性数据和含噪声的数据时具有更大的优越性,比较适合于市场数据库的分析和建模,通过对市场数据库中行业数据的精密分析,为市场人员提供顾客、用户、市场状况和市场走势等方面的分析结果。覆盖正例排斥反例法利用“覆盖所有正例,排斥所有反例”思想来寻找规则,比较典型的有的方法、洪家荣改
28、进的和方法。公式发现在工程和科学数据库中,对若干数据项进行一定的数学运算,求得相应的数学公式。发现系统完成了对物理学中大量定律的重新发现。模糊论方法利用模糊集和理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇集分析。系统的复杂性越高,精确能力就越低,模糊性就越强。统计分析方法在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用回归分析、相关分析、主成分分析等方法。可视化技术拓宽了传统的图标功能,使用户对数据的剖析更加清楚。每一种数据挖掘方法都有各自的特点和应用领域,数据挖掘权威站点对近年数
29、据挖掘产品和工具采用技术进行统计,表就是该网西安石油大学硕士学位论文站统计结果。这一统计是根据该网站访问用户的投票调查结果得出的,尽管网上投票往往带有一些偶然性,可能还不够全面,然而由于目前缺乏正式的调查,这个结果仍然具有相当的参考价值。表数据挖掘工具调查表数据挖掘方法年月年月年月年月决策树统计神经网络贝叶斯网络关联规则聚类可视化文本挖掘数据挖掘技术的应用数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们也希望能够在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统
30、分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘从大量数据中提取出隐藏在数据之后的有用的信息,它被越来越多的领域所采用,并取得了较好的效果,为人们的正确决策提供了很大的帮助。主要应用于以下几方面的研究:用于科学研究可分为三类:理论科学、实验科学和计算科学。计算科学是现代科学的一个重要标志。计算科学工作者主要和数据打交道,每天要分析各种大量的实验或观测数据。随着先进的科学数据收集工具的使用,如观测卫星、遥感器、分子技术等,数据量非常大,传统的数据分析工具无能为力,因此必须有强大的智能型自动数据分析工具才行。数据挖掘在天文学上有一个非常著名的应用系统:()。它是美国加州理工学院喷气推进
31、实验室(即设计火星探测器漫游者号的实验室)与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。利用,天文学家己发现了个新的极其遥远的类星体,该项发现能帮助天文工作者更好地研究类星体的形成以及早期宇宙的结构。数据挖掘在生物学上的应用主要集中于分子生物学特别是基因工程的研究上。基因第二章数据挖掘概述研究中,有一个著名的国际性研究课题人类基因组计划。据报道,年月,科学家宣布已完成第一步计划:绘制人类染色体基因图。然而这仅仅是第一步,更重要的是对基因图进行解释从而发现各种蛋白质(有,多种不同功能
32、的蛋白质)和分子的结构和功能。近几年,通过用计算生物分子系列分析方法,尤其是基因数据库搜索技术已在基因研究上作出了很多重大发现。用于市场行销由于管理信息系统和系统在商业尤其是零售业内的普遍使用,特别是条形码技术的使用,从而可以收集到大量关于用户购买情况的数据,并且数据量在不断激增。对市场行销来说,通过数据分析了解客户购物行为的一些特征,对提高竞争力及促进销售是大有帮助的。利用数据挖掘技术通过对用户数据的分析,可以得到关于顾客购买取向和兴趣的信息,从而为商业决策提供了可靠的依据。数据库数据挖掘在行销业上的应用可分为两类:数据库行销()和货篮分析()。数据库行销的任务是通过交互式查询、数据分割和模
33、型预测等方法来选择潜在的顾客以便向它们推销产品,通过对已有的顾客数据的分析,可以将用户分为不同级别,级别越高,其购买的可能性就越大。为进行行销分析,首先必须将已有的用户信息进行手工分类,分类的依据可以由专家根据用户的实际表现给出,这样得到训练数据后,由数据挖掘进行学习将用户进行分类的模式,这样当一个新用户到来时,可以有已经学习后的系统给出其购买可能性的预测结果,从而可以根据结果有针对性地对顾客进行推销。货篮分析是分析市场销售数据(如数据库)以识别顾客的购买行为模式,例如:如果商品被选购,那么商品被购买的可能性为,从而帮助确定商店货架的布局排放以促销某些商品,并且对进货的选择和搭配上也更有目的性
34、。这方面的系统有:,它可用于超市商品销售异常情况的因果分析等;另外公司也开发了识别顾客购买行为模式的一些工具(和中的一部分)。用于金融投资典型的金融分析领域有投资评估和股票交易市场预测,分析方法一般采用模型预测法(如神经网络或统计回归技术)。由于金融投资的风险很大,在进行投资决策时,更需要通过对各种投资方向的有关数据进行分析,以选择最佳的投资方向。目前国内有很多进行股票分析的软件,并且定期有专家进行股票交易预测,这些人工的预测一般是根据自己的经验再通过对已有的股票数据的分析而得到的,由于是人工处理,很难对更大量的股市数据进行分析。无论是投资评估还是股票市场预测,都是对事物发展的一种预测,而且是
35、建立在对数据的分析基础之上的。数据挖掘可以通过对已有数据的处理,找到数据对象之间的关系,然后利用学习得到的模式进行合理的预测。这方面的系统有,。前者的任务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法技术来辅助管理多达亿美西安石油大学硕士学位论文元的有价证券。用于欺诈甄别银行或商业上经常发生诈骗行为,如恶性透支等,这些给银行和商业单位带来了巨大的损失。对这类诈骗行为进行预测,哪怕正确率很低的预测,都会减少发生诈骗的机会,从而减少损失。进行诈骗甄别主要是通过总结正常行为和诈骗行为之间的关系,得到诈骗行为的一些特性,这样当某项业务符合这些特征时,可以向决策人员提出警告。这方面
36、应用非常成功的系统有:系统和系统。是公司开发的信用卡欺诈估测系统,它已被相当数量的零售银行用于探测可疑的信用卡交易;的数据格式主要针对一些流行的信用卡公司,如,等,因此它的应用面很大。则是一个用于识别与洗钱有关的金融交易的系统,它使用的是一般的政府数据表单。用于产品制造随着现代技术越来越多地应用于产品制造业,制造业已不是人们想象中的手工劳动,而是集成了多种先进科技的流水作业。在产品的生产制造过程中常常伴随有大量的数据,如产品的各种加工条件或控制参数(如时间、温度等控制参数),这些数据反映了每个生产环节的状态,不仅为生产的顺利进行提供了保证,而且通过对这些数据的分析,得到产品质量与这些参数之间的
37、关系。这样通过数据挖掘对这些数据的分析,可以对改进产品质量提出针对性很强的建议,而且有可能提出新的更高效节约的控制模式,从而为制造厂家带来极大的回报。这方面的系统有(由公司用发现工具开发的),已用于诊断和预测在制造波音飞机制造过程中可能出现的问题。用于通信网络管理现代社会越来越依赖于通信系统来沟通信息,通信系统的结构非常复杂,如何保证通信系统安全运转成为一个极其重要的问题。在通信网络运行过程中,会产生一系列警告,这些警告有的可以置之不理,而有的如果不及时采取措施则会带来不可挽回的损失。由于警告产生的随机性很大,究竟哪些警告可以不予理睬,哪些警告必须迅速处理往往很难判断,一般需要由人工根据经验进
38、行处理,效率不高。数据挖掘可以通过分析已有的警告信息的正确处理方法以及警告之间的前后关系的记录,得到警告之间的关联规则,这些有价值的信息可用于网络故障的定位检测和严重故障的预测等等任务中。根据当前的警告信息,就可以得到其后续发生各种情况的可能性,对危险事件可以起到预防的作用,从而使通信网络得以安全运转。这方面的系统有:芬兰大学与一家远程通信设备制造厂家合作的系统。应用的迅猛发展,尤其是的全球普及,使得上信息量无比丰富,上的数据信息不同于数据库。数据库有规范的结构,如关系数据库的二维表结构;毕竟数据库的创建是为了机器可读,因此有统一的格式,它是一种结构化的文件。上的第二章数据挖掘概述信息则不然,
39、主要是文档,它的初始创建目的是为了人类使用。文档结构性差,好者半结构化,坏者如纯自然语言文本则毫无结构。因此上的开采发现需要用到不同于常规数据库开采的很多技术。数据仓库数据仓库的概念数据仓库()是一个面向主题的()、集成的()、相对稳定的()、反映历史变化()的数据集合,用于支持管理决策。数据库是面向事务的设计,数据仓库是面向主题设计的。传统的数据库技术是以单一的数据资源,即以数据库为中心,进行从事务处理、批处理到决策分析等各种类型的数据处理工作。然而,不同类型的数据处理有着各自的处理特点,以单一的数据组织方式进行组织的数据库并不能反映这种差异,满足不了数据多标准化的要求。当前数据可以大致分为
40、两大类:操作型数据和分析型数据。操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组记录的查询和修改,注重的是响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。两者之间的巨大差异使得操作型处理和分析型处理的分离成为必然。数据库系统作为数据管理手段,主要用于事务处理,在其数据库中已经保存了大量的日常业务数据。尽管数据库在事务处理方面的应用获得了巨大的成功,但它对分析处理的支持却不能令人满意,人们逐渐认识到,事务处理和分析处理具有极不相同的性质,直接使用事务处理环境来支持是行不通的,主要有以下几个方面差异:事务处理与分析处理的性能特点问
41、题在事务处理环境中,用户的行为特点是数据的存取操作频率高以及每次操作处理时间短;而在分析处理环境用户的行为模式则完全不同,一个应用程序可能会连续运行几个小时,消耗大量的系统资源。数据集成问题需要集成的数据,全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。而事务处理的目的在于使业务处理自动化,一般只需要与本部门有关的当前数据,而对整个企业范围内的集成应用考虑很少,当前绝大部分企业内数据的真正状况是分散的而不是集成的。数据的动态集成问题数据的静态集成就是仅在开始对所需数据进行集成,以后就一直以这部分集成的数据作为分析的基础,不再与数据源发生联系。静态集成最大
42、的缺点是不能将数据源的变化反映给决策者,导致决策者使用过时的数据。因此,集成数据必须以一定的周期进行刷新,即动态集成。显然事务处理系统不具备动态集成的能力。西安石油大学硕十学位论文历史数据问题事务处理只需当前数据,在数据库中一般也只存储短期数据;但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史为依托。没有对历史数据的详细分析,是难以把握发展趋势的。数据的综合问题在数据处理系统中积累了大量的细节数据,一般而言,并不直接对这些细节数据进行分析,而是在分析前对细节数据进行不同程度的综合,而事务处理系统不具备这种综合能力。基于以上矛盾,企业发现要从积累的大量业务数据中获得有意义的
43、信息,并利用现有的数据来指导企业决策和发掘企业的竞争优势,即要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离,必须把分析型数据从事务处理环境中提取出来,按照处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。数据仓库的主要特点数据仓库中的数据除具有传统的共享性、完整性和独立性外,还具有以下几个基本特征:数据仓库是面向主题的传统数据库是面向应用进行数据组织的,主要是对每个部门的基础数据进行处理,能较好的将数据的数据库模式和企业的现实业务活动对应起来,具有良好的可操作性,但对于跨部门、跨模块查询日常
44、业务数据可能需要很长的时间,并且这种面向应用的数据组织方式并未实现数据与数据处理分离。所以在这种传统模式下,数据库侧重于,将数据应用逻辑与数据又捆绑在一起,使本来是一个完整的客观实体的数据分散在不同的数据库模式中,抽象程度不够高。而数据仓库中的数据是面向主题进行组织,主题即是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的对象,逻辑上对应于企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式即是在较高层次上对分析对象的数据进行完整的一致的描述,能够完整统一地刻画各个分析对象所涉及企业的各项数据以及数据之间的关系。当然,在实际业务处理中各个主题既独立又有联系,这几个主题之间
45、往往通过一条主线重叠,不仅是逻辑上的重叠,而且是同一数据内容的物理重叠,是细节性的重叠。这种面向主题的数据组织方式是根据分析要求将数据组织成一个独立完备的分析领域,即主题域。数据仓库的数据是集成的数据仓库中的数据可分为内部数据和外部数据,内部数据是企业内生成的、现在的和历史的数据,外部数据包括行业报告、市场调查、评测结果和顾问评估等。在进人数第二章数据挖掘概述据仓库前要将面向应用的原始内、外数据在消除各语义矛盾的基础上,按数据仓库中面向主题的数据结构加以变换和组织。不论数据来源何处,进人数据仓库之后都应具有统一的编码规则,保证数据仓库数据的一致性。数据仓库中的数据是非易失的在实际的业务处理系统
46、中,不断有更新、删除、插入数据的操作,其数据是时时更新、时时变化的,而数据仓库中的数据是供企业分析、决策用的,所涉及数据不光是查询,一般情况下并不进行修改操作,即数据所反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合以及基于这些快照进行统计、综合和重组得到的导出数据,而不是联机处理的数据,数据库中的日常业务处理数据经过集成输入到中,一旦存放的数据已经超过存放期限,这些数据将从中删去,一旦数据加人到中,从相对角度来讲,它不能被改变,某一用户在不同时间运行相同查询时,应该得到相同的结果,以避免出现报表数据不一致的问题。值得注意的是:中的数据不可更新是针对于应用系统而言的。的用
47、户进行分析处理时是不进行数据更新操作的,但并不是讲在从数据集输入开始到最终被删除,每个数据生存周期中所有的数据都是永远不变的。其非易失性也是相对的,指在某一数据存储周期内,数据是相对不变的。数据仓库的数据是随时间不断变化的日常业务系统是以响应时间为设计目标的,所以一般保存天的数据,而为了适应趋势分析的要求包含有历史数据和上次加载时的当前数据,超过数据存储时间范围的老数据归档在光盘或磁带上,它一般保存年时间内的数据,所以是随时间不断删去旧的数据内容,即不断捕捉中数据库数据的变化,追加到中,不断生成快照,经统一集成后增加到中去。中包含有大量的综合数据,这些综合数据大多跟时间有关,数据要随时间变化不断地进行重新组合。在公司定义的数据仓库中,其体系结构中的关键模块有:设计模块、数据获取模块、数据管理员模块、管理模块、信息目录模块、数据访问模块、中间件模块、数据传递模块。数据仓库的建立步骤建立数据仓库的步骤主要有以下几步:收集和分析业务需求建立数据模型和数据仓库的物理设计定义数据源选择数据仓库技术和平台从操作型数据库中抽取、净化、和转换数据到数据仓库选择访问和报表工具西安石油大学硕士学位论文选择数据库连接软件选择数据分析和数据展示软件更新数据仓
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025江苏徐州鼓楼区招聘公益性岗位人员16人考试模拟试题及答案解析
- 2025广东佛山市华英三水学校招聘语文合同制教师1人考试模拟试题及答案解析
- 2025年海洋科技领域成果转化专项资金申报指南报告
- 合肥市城市社区文化养老模式与发展路径探析
- 押题宝典教师招聘之《小学教师招聘》通关考试题库附答案详解(培优)
- 演出经纪人之《演出经纪实务》试题预测试卷有答案详解
- 2025呼伦贝尔农垦集团有限公司社会招聘50人考试备考附答案详解(突破训练)
- 教师招聘之《小学教师招聘》考前冲刺测试卷(培优b卷)附答案详解
- 2025年教师招聘之《小学教师招聘》考前冲刺练习题库【历年真题】附答案详解
- 2025年教师招聘之《小学教师招聘》考前冲刺模拟题库附参考答案详解(轻巧夺冠)
- 融资风险评估报告
- 画法几何及土木工程制图课件
- 第2课 树立科学的世界观《哲学与人生》(高教版2023基础模块)
- 录入与排版教学计划
- 2023免拆底模钢筋桁架楼承板图集
- 云计算技术基础应用教程(HCIA-Cloud)PPT完整全套教学课件
- 呼吸衰竭小讲课课件
- 成人学士学位英语1000个高频必考词汇汇总
- 全屋定制家居橱柜衣柜整装安装服务规范
- 沥青及沥青混合料试验作业指导书
- 义务教育阶段学生艺术素质测评指标体系小学音乐
评论
0/150
提交评论