




已阅读5页,还剩67页未读, 继续免费阅读
(计算机科学与技术专业论文)基于dw的国税税源分析决策系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提 供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国 家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目 的的前提下,学校可以适当复制论文的部分或全部内容用于学术活 动。 学位论文作者签名:f 曾淬 沙移为年| 只8b 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名: 年月日 学位论文作者签名:学奔 溯g 年月艿日 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进 行研究工作所取得的成果。除文中已经注明引用的内容外,本学位 论文的研究成果不包含任何他人创作的、已公开发表或者没有公开 发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个 人和集体,均已在文中以明确方式标明。本学位论文原创性声明的 法律责任由本人承担。 签名:f 孝游 渺5 年月8 e l 摘要 摘要 在税务系统建立数据仓库,以联机分析处理( o l a p ) 和数据挖掘 ( d a t a m i n i n g ) 工具为手段进行决策支持分析具有很强的必要性和可行性。建 立决策支持系统是信息化建设的必然趋势,是建立现代化的税收管理体系需要, 也是适应市场经济发展,提高税务机关科学决策水平的需要;税务系统已有多 年的信息化建设经验,金税二期工程、征管系统、公文管理等系统已经广泛应 用,并积累了大量的业务数据,税收业务的主题数据在税收业务的不断变化之 中保持了相对稳定和延续,全国统一的税务信息分类代码已经制定。税务系统 需要进一步发挥信息技术这一先进生产力的作用,逐步建立一套完善的税务决 策支持系统,应用现代手段更好地进行管理决策,减少决策风险,提高内部管 理水平,使业务迈上一个新台阶。 本论文酋先介绍了税源分析决策系统的概念及其应用前景。在介绍了分析 和设计基于税源分析决策系统过程中所必须具备的理论基础后,对税务分析决 策进行了需求分析,功能介绍和可行性分析,本沦文的后半部分是对基于d w 的 国税税源分析决策系统的数据仓库的设计进行了规划,设计了该系统的数据仓 库的总体结构,然后给出了该系统中各核心模块的功能描述。 本文最后对目前已完成的税源分析决策系统的优点和需进一步改进之处进 行了简单的分析,并对全文做了总结和展望。 关键字:数据仓库;o l a p :数据挖掘;决策支持 a b s t r a c t a b s t r a c t w i t ht h er e p i dd e v e l o p m e n ti nd a t aw a r e h o u s e 。o l a pa n dd a t am i n i n g t e c h n i q u e s g r e a tp r o g r e s sh a sb e e na c h i e v e di nd e c i s i o ns u p p o r ts y s t e m ( d s s ) a n i n t e g r a t e dd s s i sm a i n l yb a s e do n ad a t aw a r e h o u s ep l a t f o r mw i t ht h eu s eo f0 l a p a n dd a t am i n i n gt o o l s d s si sas o l u t i o nr a t h e rt h a na p r o d u c t a na c c e p t e dr u l ei n t h er e a l i z a t i o no fd s si st o l a y o u t as y s t e ms t r u c t u r e ,i m p l e m e n tt h es y s t e m i n c r e m e n t a l l yb e n e f i tf r o mt h ev e r yb e g i n n i n g ,a n di m p r o v e t h ed e s i g no v e rt i m e i nt h i st h e s i s ,t h ec o n c e p t s ,i m p l e m e n t a t i o na n dd e v e l o p m e n to gd a t aw a r e h o u s e a n dd a t a m i n i n ga r ei n t r o d u c e db r i e f l yt h el o c u so ht h et h e s i st h e nc e n t e r so n a p p l y i n gt h e s et e c h n i q u e st ot h ed e v e l o p m e n to ga l li n t e g r a t e ds e r v i c ea n a l y s i sa n d d e c i s i o ns y s t e mo fs t a t et a xb u r e a u a si ti sw e l lk n o w t h e r eh a sb e e ng r e a t e d e m a n di nm e e t i n gt h en e wc h a l l e n g st h a tg o v e m m e n t a lr e v e n u ed e p a r t m e n t sa r e f a c i n g :b e t t e rc l i e n ts e r v i c e s ,s t r e n g t h e n e dt a xa d m i n i s t r a t i o n ,i m p r o v e rr e s o u r c ea n d t h er e q u i r e m e n ti ne v a l u a t i n gn e wt a xr u l e sa n dp o l i c i e s af r a m e w o r kh a sb e e nb u ii tf o rt h es o l u t i o no fi n t e r g r a t e ds e r v i c ea n a l y s i sa n d d e c i s i o ns y s t e mo fs t a t et a xb u r e a u m o d u l e sw i t h i nt h i sf r a m e w o r kh a v eb e e n g e n e r a t e d e x a m p l e sh a v eb e e ng i v e nt h r o u g ht h et h e s i st od e m o n s t r a t et h ec o n c e p t s a n ds u p p o r tt h ed e s i g n c o n c l u s i o n sh a v eb e e np r o v i d e da tt h ee n do ft h et h e s i st o s u m m a r i z et h ec u r r e n tw o r k ,a n dt op o i n to u tf u t u r er e s e a r c hd i r e c t i o n s k e y w o r d s :d a t aw a r e h o u s e ;o l a p ;d a t am i n i n g ;d s s 2 第l 章引言 第1 章引言 1 1 课题研究背景 当前,电子政务已经成为全球关注的热点,受到世界各国的广泛重视。中 国的税收信息化建设作为国家电子政务建设的重要组成部分,经过1 0 几年的努 力,在网络建设、硬件配置、应用软件的开发和推,一等方面都取得了很大的成 绩。但是,目前的信息化建设还不能完全适应我国税收制度和征管体制改革的 需要,按照一体化的原则,逐步整合当前的税收管理信息系统,在电子政务的 框架下建立适合我国国情、税情的电子税务,是税收信息化建设的高级阶段。 新税收征管法已经明确:“建立、健全税务机关与政府其他管理机关的信 息共享制度。 目前税收管理信息化基础建设工作取得长足发展。截至2 0 0 3 年底,国税系 统四级广域网已全部联通;各省级税务局已全部与总局联网,各省开通运行了 本系统的广域网。硬件配备初具规模,翻前共有小型机1 2 0 0 多台,p c 服务器 2 5 0 0 0 多台,p c 机3 2 万多台。税务信息系统已成为全国规模最大的行业信息管 理系统之一。税收管理信息化应用水平不断提高,增值税防伪税控系统的实施, 以及今年以来增值税申报纳税“一窗式 管理的推行,大大加强了增值税管理, 较好地解决了犯罪分子利用增值税专用发票和虚假申报偷骗国家税款的问题, 虚开增值税专用发票案件呈大幅下降趋势,增值税收入形势明显好转。综合征 管软件和各地税收征管信息系统的推j 。运行,进步提高了税务机关的业务处 理、数据利用和管理监控水平,推进了税收征管工作的科学化和规范化。出口 退税管理、办公自动化等系统的推行,也推进了税收管理现代化进程。 但是同时也反映出了很多问题。首先,信息孤岛现象严重,共享度比较差。 主要表现在系统间数据标准不统一、造成应用系统间相互封闭,信息分散在各 个系统中难以共享;应用系统和数据的集中度不高,对信息共享也产生很大的 困难。主要原因是在业务需要的提出、确定和系统的开发、应用和管理中有过 分专业化的倾向,只重视单个系统的建设,对系统间如何合理的共享信息考虑 较少,使许多系统各自为政。二是数据向信息、知识的转化能力差。主要表现 6 第1 章引言 在对数据的查询分析的准确性差,难以建立全方位的监控分析系统和决策支持 辅助系统。原因首先是对数据、信息、知识的认识不清,数据是对客观事物某 一方面特征的数字化描述,信息是将数据进行加工处理后,对决策有帮助意义 的数据,而知识又是通过对信息的分析,总结出来的带有规律性的内容,具有 指导性和创新性。拥有大量数据不等于掌握了有价值的信息,更不等于获得了 知识。 1 2 课题研究现状分析 中国税务系统信息化建设经过近二十年发展已经初具规模,积累了丰富的 建设经验和成果。然而也存在问题,这些问题突出表现在以下,l 个方面:虽然 积累了大量基层税收数据,但是数据零散,应用之问形成信息孤岛;数掘应用 水平较低,大量数据无法快速转换为决策信息;对内考核、对外监控难以全面 实时等许多矛盾和闯题。因此,国家税务总局提出了税务信息。体化建设的总 体建设规划,并在“余税三期 工程建设目标中明确提出建设“以数据仓库技 术为基础的税务决策支持系统 。 “税务大集中 是税务信息化发展的必然趋势,它的内在动力是税务管理 的需要,将有利于集约化管理和信息深层次应用,将促进为纳税人服务的品质、 依法治税和廉政机制效能的提高。“税务大集中”的内涵是数据和应用的集中、 业务再造和机构重组。数据集中指的是数据的物理和逻辑集中,应用集中是应 用系统的整合、规范和优化,业务流程再造就是根据信息化带来的科技进步改 造税务业务,简化和优化业务流程,实现业务流程的科学化;机构重组是根据 信息化和流程的再造实现从组织结构从直线型向扁平化、网络化发展。 税务数据信息的有效综合利用主要表现在三个层面:一是税务r 常查询, 如f :1 常业务综合性查询、某个体相关的关联查询等;二是统计监控分析,如报 表统计、纳税人信息的分析和监控、对税务执法权和行政管理权的监督和制约; 三是税收宏观分析与预测,如税收同宏观经济的综合分析等。 利用先进技术和管理科学,创新管理来全面实现查询、分析、宏观决策三 个层面的功能。第一提高数据集中度,将各类涉税数据集中起来,建立综合数 据查询系统,一方面实现快速灵活的查询和报表生成应用,满足各级的业务需 求;另一方面也可以缓解征收管理系统集中后查询压力;第二通过利用数据仓 7 第1 章引言 库技术,通过数据的抽取、转换和加载,实现对各类数据全面分析和监控;第 三利用数据仓库技术、数据挖掘技术、数理统计分析技术、联机分析技术等信 息技术和决策科学,进行数据的深度挖掘和分析。形成数字化税收征管质量考 评系统和建立决策辅助系统,实现宏观决策分析,为税收业务决策和战略发展 提供辅助支持。 2 0 世纪9 0 年代后期,数据仓库和在线分析( 0 l 。a p ) 技术及数据采掘技术有 了实用产品化的快速突破,为决策支持系统( d s s ) 提供了技术上的支持,也为 d s s 开辟了一条新的途径。在税务系统建立数据仓库,以联机分析处理( 0 1 。a p ) 和数据挖掘( 1 ) a l ,a m in in g ) 工具为手段进行决策支持分析具有很强的必要性和 可行性。建立决策支持系统是信息化建设的必然趋势,是建立现代化的税收管 理体系需要,也是适应市场经济发展,提高税务机关科学决策水平的需要;税 务系统已有多年的信息化建设经验,金税二期工程、征管系统、公文管理等系 统已经广泛应用,并积累了大量的业务数据,税收业务的主题数据在税收业务 的不断变化之中保持了相对稳定和延续,全国统一的税务信息分类代码已经制 定。税务系统需要进一步发挥信息技术这一4 先进生产力的作用,逐步建立。套 完善的税务决策支持系统,应用现代手段更好地进行管理决策,减少决策风险, 提高内部管理水平,使业务迈上一个新台阶。 1 3 课题研究内容 税务决策支持系统的目标是:以数据仓库技术为基础,逐步建立“地市一 省局一总局 三级数据处理中心,将征管数据、行政数据、外部数据按主题建 立成规范统。、高度共享的数据仓库;并在此基础上,应用联机分析处理( o l 。a p ) 和数据挖掘( d a t a m i nj n g ) 等先进分析技术,对事物( 如:税收收入) 的规模、 构成、分布、发展速度、平均水平、平衡程度等特征以及增长变化规律和发展 趋势,事物之间( 如:g i ) p 与税收收入) 的相关关系、强度及均衡性等问题进 行分析、挖掘,为操作、管理、决策等各级税务人员提供日常查询、统计监控 分析和宏观经济税收预测分析功能的数据分柝利用平台。 税务分析决策系统包括税务日常查询、统计分析监控、税收经济分析与预 测三大类功能。 一、税务日常查询:应用者主要为部门业务主办人员或部门主管人员,用 8 第1 章引言 于查询本环节及相关环节的一般性业务数据信息。 二、报表分析监控:应用者主要为各职能工作部门的特定人员,用于定义 或产出本部门所需的统计报表、进行业务数据的横向纵向综合分析、对税务机 关部门的各项工作指标进行考核、对重点业务进行监控及时发现并处理各类 “告警”信息。 三、税收宏观分析预测:应用者主要为高级管理人员和高级经济分析人员, 通过税收和国民经济的综合分析,利用不断完善的经济数学模型,不断发掘税 收经济的潜在运行规律,辅助领导者进行科学合理的宏观决策。 1 4 本文的章节安排 本文详细描述了税务决策支持系统的需求分析,系统设计以及系统实施, 这个系统的优点是操作简单,使用方便,各种报表在界面中一目了然,能够及 时发现税务管理中的问题,本文共分为7 章: 第一章阐述了本课题的研究背景和现状、研究和开发目标、研究的主要内 容。 第二章叙述了本课题研究的理论基础,包括:数据仓库理论、数据挖掘基 础、税务统计分析、税务决策支持系统的简介。 第三章对基于d w 的税务决策支持系统进行了详细的需求分析,给出了该 系统的数据流图和需求规格说明。 4 第四章对基于d w 的税务决策支持系统进行了总体设计,给出了该系统的 该系统的总体结构图和各模块的功能说明。 第五章叙述了基于d w 的税务决策支持系统的实现结果,包括:该系统中 的数据字典、数据表及其之间的关系图、主要模块的实现算法和程序。 第六章描述了基于d w 的税务决策支持系统测试结果,实际应用的效果。 第七章对全文进行了总结,并对存在的问题进行了说明,同时提出一些根 据目前实际情况的改进方法。 9 第2 章理论基础 第2 章理论基础 本章节将介绍实现税源分析决策系统所需要的理论基础,即数据仓库理论、 数据挖掘、税收统计分析、税收决策支持等方面的知识。 2 1 数据仓库理论 2 1 1 数据仓库( d a t aw a r e h o u s e 删) 的定义 斯坦福大学数据仓库研究小组是这样定义数据仓库的:“数据仓库是集成信 息的存储中心,这些信息可用于查询或分析”。 w h inmon 对数据仓库的定义为:数据仓库是支持管理决策过程的、 面向主题的、集成的、稳定的、不同时间的数据集合。四个关键词,面向主题 的、集成的、时变的、非易失的,将数据仓库与其它数据存储系统( 如,关系 数据库系统、事务处理系统、和文件系统) 相区别。主题是数据归类的标准,每 个主题对应一个客观分析领域,如客户、商店等,它可为辅助决策集成多个部门不 同系统的大量数据。数据仓库包含了大量的历史数据,经集成后进入数据仓库的 数据是极少更新的。数据仓库内的数据时间一般为5 年至1 0 年,主要用于进行 时间趋势分析。 2 1 2 数据仓库的体系结构 数据仓库既是一种结构和富有哲理性的方法,也是一种技术,数据和信息从 不同的数据源提取出来,然后把这些数据转换成公共的数据模型并且和仓库中 已有的数据集成在一起。当用户向仓库进行查询时,需要的信息已经准备好了, 数据冲突、表达不一致等问题已经得到了解决。这使得决策查询更容易、更有 效。 l o 第2 章理论基础 图:2 1 数据仓厍体系结构 作为一个系统,数据仓库至少应包括3 个基本的功能部分:( 1 ) 数据获取这 个部分负责从外部数据源获取数据。数据被区分出来,进行拷贝或重新定义格式 等处理后,准备载入数据仓库。( 2 ) 数据存储和管理这个部分负责数据仓库的内 部维护和管理,提供的服务包括数据存储的组织、数据的维护、数据的分发、数 据仓库的例行维护等。( 3 ) 信息访问信息访问部分属于数据仓库的前端,面向不 同种类的最终用户,这里主要由桌面系统的各种工具组成。数据仓库的最终用户 在这里提取信息、分析数据集、实施决策,从而可望取得竞争优势。进行数据访 问的软件工具,主要是查询生成工具、多维分析工具和数据挖掘工具等。 “数据仓库的结构是什么样的? 如图2 2 所示。 第2 章理论基础 查询报告 项层: 前端工具 图2 2 - 三层数据仓库的结构 在数据仓库中数据存在着不同的细节级:早期细节级( 通常是备用的、批量 的存储) 、当前细节级、轻度综合数据级( 数据集市) 以及高度综合数据级。数据 是由操作型环境导入数据仓库的。相当数量的数据转换通常发生在由操作型级 别向数据仓库级别传输过程中。一旦数据过期,就由当前细节级进入早期细节 级。综合后的数据由当前细节级进入轻度综合数据级,然后由轻度综合数据级 进入高度综合数据级。 建立数据仓库不是一蹴而就的。相反,数据仓库只能一次一步地进行设计 和载入数据,即它是进化性的,而非革命性的。突然建立一个数据仓库的费用、 需要的资源和对环境的破坏,都表明数据仓库的建立要采用有序地反复和一次 一步的方式。建造数据仓库有两个主要方面一与操作型系统接口的设计和数据 仓库本身的设计。 1 2 第2 章理论基础 2 2 数据挖掘 2 2 1kdd 的定义和处理阶段 从19 8 9 年到现在,kdd ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 的定义随着人们 研究的不断深入也在不断完善,目前比较公认的定义是f a y y a d 等给出:kdd 是 从数据集中识别出有效的、新颖的、潜在的有用的以及最终可理解模式的高级 处理过程,该过程是一个多步骤的处理过程,各步骤之间相互影响、反复调整,形 成一种螺旋式上升过程。 kdd 包括以下步骤:( 1 ) 数据准备。kdd 的处理对象是大量的数据,这些 数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数 据上面进行知识挖掘,需要做数据准备工作,一般包括数据的选择( 选择相关的数 据) 、净化( 消除噪音、冗余数据) 、推测( 推算缺失数据) 、转换( 离散值数据与连 续值数据之间的相互转换,数据值的分组分类,数据项之间的计算组合等) 、数据 缩减( 减少数据量) 。如果kdd 的对象是数据仓库,那么这些工作往往在生成数 据仓库时已经准备妥当。数据准备是kdd 的第一个步骤,也是比较重要的一个 步骤。数据准备是否做好将影响到数据挖掘的效率和准确度以及最终模式的有 效性。( 2 ) 数据挖掘。数据挖掘是kdd 最关键的步骤,也是技术难点所在。研究 k dd 的人员中大部分都在研究数据挖掘技术,采用较多的技术有决策树、分 类、聚类、粗糙集、关联规则、神经网络、遗传算法等。数据挖掘根据kd d 的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式模型。( 3 ) 评估、 解释模式模型。上面得到的模式模型,可能是没有实际意义或没有实用价值的, 也有可能是其不能准确反映数据的真实意义,甚至在某些情况下是与事实相反 的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经 验,有些模式也可以直接用数据来检验其准确性。这个步骤还包括把模式以易于 理解的方式呈现给用户。( 4 ) 巩固知识更新。用户理解的、并被认为是符合实际 和有价值的模式模型形成了知识。同时还要注意对知识做一致性检查,解决与以 前得到的知识互相冲突、矛盾的地方,使知识得到巩固。( 5 ) 运用知识。发现知识 是为了运用,如何使知识被运用也是kdd 的步骤之一。运用知识有两种方法: 一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是 要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优 第2 章理论基础 化。kdd 的过程kdd 过程可能需要多次的循环反复,每一个步骤一旦与预期 目标不符,都要回到前面的步骤,重新调整,重新执行。 2 2 2kdd 的核心数据挖掘 数据挖掘( d a t am i n i n gd m ) 是kdd 最核心的部分,是采用机器学习、 统计等方法进行知识学习的阶段。数据挖掘算法的好坏将直接影响到所发现知 识的好坏。目前大多数的研究都集中在数据挖掘算法和应用上。 卜一黼叫卜蝴叫卜糊嘲秘_ 叫 图:2 3 数据挖掘过程示意图 数据挖掘的任务是从数据中发现模式。模式是一个用语言l 来表示的一个 表达式e ,它可以用来描述数据集f 中的数据的特性,e 所描述的数据是集合f 的一个子集。e 称为一个模式要求它比列举数据子集中所有元素的描述方法简 单。例如,“如果成绩在8 1 9 0 之间,则成绩优良”可称为一个模式,而:“如果成 绩为8 1 、8 2 、8 3 、8 4 、8 5 、8 6 、8 7 、8 8 、8 9 或9 0 ,则成绩优良”就不能称之为 一个模式。 模式有很多种,按功能可分有两大类:预测型( p r e d i c t i v e ) 模式和描述型 ( d e s c r i p t i v e ) 模式。预测型模式是可以根据数据项的值精确确定某种结果的模 式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。在实际应用中, 往往根据模式的实际作用细分为六种:分类模式;回归模式;时间序列模式;聚类模 式;关联模式;序列模式。要解决实际问题时,经常要同时使用多种模式。分类模 式和回归模式是使用最普遍的模式。分类模式、回归模式、时间序列模式也被 1 4 第2 苹理论基础 认为是受监督知识,因为在建立模式前数据的结果是已知的,可以直接用来检测 模式的准确性,模式的产生是在受监督的情况下进行的。一般在建立这些模式时, 使用一部分数据作为样本,用另一部分数据来检验、校正模式。聚类模式、关联 模式、序列模式则是非监督知识,因为在模式建立前结果是未知的,模式的产生不 受任何监督。 2 2 3 基于数据仓库的数据挖掘技术 作为数据仓库系统三要素之一的信息访问部分,是最终用户从数据仓库中 提取信息、分析数据、实施决策的必经途径。基于数据仓库的数据挖掘能更好 地满足高层战略决策的要求。而且,数据仓库机制大大降低了数据挖掘的障碍, 一般进行数据挖掘要花大量的力量在数据准备阶段,而在数据仓库中数据已经 被充分收集起来,进行了整理、合并,并且有些还进行了初步的分析处理。这样, 注意力更集中于数据挖掘的核心处理阶段。另外,数据仓库中对数据不同粒度的 集成和综合,更有效地支持了多层次和多种知识的挖掘。数据仓库面向决策支 持。数据仓库的体系结构努力保证查询( query ) 和分析的实时性。而一般 的联机事务处理( 0ltp ) 系统主要要求更新( update ) 的实时性,对查询 的性能要求相对较弱。一般的数据仓库设计成只读方式,最终用户不能直接更新 数据仓库。数据更新由专门的一套机制保证,通常由系统自动更新和管理员控制 来协同完成。数据仓库对查询的强大支持使数据挖掘效率更高,挖掘过程可以做 到实时交互,使决策者的思维保持连续,有可能挖掘出更深入、更有价值的知识。 基于数据仓库的数据挖掘系统一般由以下六层组成:o l t p 数据前端应用 系统、o l t p 数据库、数据采集、数据仓库、数据挖掘工具和知识解释和表示, 如图4 1 所示。 第2 章理论基础 图2 4 数据仓库的数据挖掘系统 2 2 4 数据挖掘的功能 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据 挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。 一、自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分 析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测 问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户, 其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。 二、关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变 量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、 因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据 库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有 可信度。 关联规则挖掘是从大量数据中发现数据之间有趣或相关联系,它是数据挖 掘的重要研究方向。关联规则的基本概念:设i = i l ,i 2 i n 是项的集合。设任务 相关的数据d 是数据库事务的集合,其中每个事务t 是项的集合,使得t i 。 每个事物有一个标识符,称作t i d 。设x 是一个项集,事务t 包含x 当且仅当 x t 。关联规则是形如x = y 在事务集d 中成立,其中x 称为前提或左部 ( a n t e c e d e n t ) ,y 称为后续或右部( c o n s e q u e n t ) ,具有支持度:,其中:是d 中事务包 1 6 第2 章理论基础 含x u y ( 且px 和y 二者) 的百分比,它的概率为p ( x uy ) 。规则x u y 在事务集 d 中具有v 信度。:如果d 中包含x 的事务同时也包含y 的百分比是。,这便 是条件概率p ( y x ) ,即:s u pp or t ( x = y ) = p ( x uy ) c o nr i de nc e ( x = y ) = p ( y x ) = s u p p o r t ( xuy ) s up p o a ( x ) 同时满足最小支持度闭值( m i n s u p ) 和最小置信度阂值( m i n c o n f ) 的规则称为 强规则。有多种关联规则挖掘算法。如:货篮分析的关联规则挖掘、多层次的关 联规则挖掘、多维关联规则挖掘、有条件限制的关联规则挖掘。 涉及两个和多个维或谓词的关联规则称为多维关联规则。关系数据库和数 据仓库中的数据存储是多维的。例如,除了记录销售事务中购买的商品之外, 在关系数据库中还记录了与商品有关的其他属性,如购买数量,或价格。另外, 还可能记录了购物顾客的信息,如顾客的职业、收人等信息。将数据库中的每 个属性或数据仓库的每个维看作一个谓词,如:a g e ( x ,”3 0 3 9 ”) 入i n c o m e ( x , ”4 2 k 4 8 k ”) = ) b u y s ( x ,”l a p t o p ”) ,这种涉及多个维的关联规则就称为多维 关联规则。 多维关联规则可以分为: 维间关联规则:具有不重复谓词的关联规则称为维间关联规则 ( i n t e r d i m e n s i o na s s o c i a t i o nr u l e ) 。如上面的规则,包含( a g e ,i n c o m e ,b u ys ) - - 个不 同的谓词。 混合维关联规则:具有重复谓词的多维关联规则称为混合维关联规则。如下 面的规则: a g e ( x ,”3 0 3 9 ”) 八b u y s ( x ,”b wp r i n t e r ”) = b u y s ( x ,”l a p t o p ”) 维间关联规则挖掘 发现维间关联规则可以构建在数据仓库及o l a p 之上,其特征是利用多维 数据模型即数据立方体进行关联挖掘,也称为联机分析关联挖掘。数据立方体 是包含多维属性的统计实体。在数据立方体中,一部分数据是数字测量值( 如销 售量、投资额、收人等) ,它们是依赖于一组“维 的,这些维提供了侧量值的 上下文关系。例如销售量与城市、产品名称和销售的时间有关,这些相关的维 惟一决定了销售量这个测量值。因此,数据立方体就是在这样一些有层次的维 构成的多维空间中存放数字测量值的。由于关联挖掘的特点,在构建用于关联 挖掘的立方体时在数据立方体的单元格中存储了与其对应的各属性值同时出现 的次数,用“c o u n t ”表示,这样可以直接存取立方体单元格中c o u n t 值来计算 1 7 第2 苹理论基础 候选集的频度。具体解释为:假设要对维a 1 ,a 2 ,a n 。进行关联规则的挖掘, 先把数据仓库中的相关数据物化为n 维的数据立方体。数据立方体的每个维包 含 a i ) + 1 个数值,在这里 a i ) 为维a 具有的不同数值的个数。在这些维的每个 单元中存储的是原始数据的计数值,最后一个数据单元是一个由a n y 表示的值, 它存储的是前面的计数值的聚合。一般情况下,可以把一个n 维的数据立方体 映射成一个具有n + 1 个属性的表。 三、聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人 们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括 传统的模式识别方法和数学分类学。8 0 年代初,m c h a l s k i 提出了概念聚类技术 物其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有 某种内涵描述,从而避免了传统技术的某些片面性。 四、概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。 概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者 描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有 对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 五、偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。 偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结 果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找 观测结果与参照值之间有意义的差别。 2 2 5 数据挖掘常用技术 1 、人工神经网络 神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了 一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参 数的问题( 当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的 神经网络要复杂的多) 。神经网络常用于两类问题:分类和回归。 1 8 第2 章理论基础 图2 5 一个神经兀网络 2 、决策树 决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。 比如,在贷款申请中,要对申请的风险大小做出判断,图7 是为了解决这个问 题而建立的一棵决策树,从中我们可以看到决策树的基本组成部分:决策节点、 分支和叶子。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据, 同样也可以用来作预测( 就像上面的银行官员用他来预测贷款风险) 。常用的算 法有c h a i d 、 c a r t 、 q u e s t 和c 5 0 。建立决策树的过程,即树的生长过程 是不断的把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。 对每个切分都要求分成的组之间的“差异”最大。 各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。对具 体衡量方式算法的讨论超出了本文的范围,在此我们只需要把切分看成是把一 组数据分成几份,份与份之间尽量不同,而同一份内的数据尽量相同。这个切 分的过程也可称为数据的“纯化”。看我们的例子,包含两个类别一低风险和高风 险。如果经过一次切分后得到的分组,每个分组中的数据都属于同一个类别, 显然达到这样效果的切分方法就是我们所追求的。 3 、遗传算法 基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的 优化技术。 4 、近邻算法 将数据集合中每一个记录进行分类的方法。 5 、规则推导 从统计意义上对数据中的“如果一那么”规则进行寻找和推导。 采用上述技术的某些专门的分析工具已经发展了大约十年的历史,不过这 1 9 第2 章理论基础 些工具所面对的数据量通常较小。而现在这些技术已经被直接集成到许多大型 的工业标准的数据仓库和联机分析系统中去了。 2 2 6 数据挖掘的流程 图2 6 数据挖掘的基本过程和主要步骤 过程中各步骤的大体内容如下: 1 、确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步挖掘 的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据 挖掘则带有盲目性,是不会成功的 2 、数据准备 数据的选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数 据挖掘应用的数据 数据的预处理 研究数据的质量,为进一步的分析作准备并确定将要进行的挖掘操作的类 型 数据的转换 将数据转换成一个分析模型这个分析模型是针对挖掘算法建立的建立一 个真正适合挖掘算法的分析模型是数据挖掘成功的关键 3 、数据挖掘 对所得到的经过转换的数据进行挖掘除了完善从选择合适的挖掘算法外, 第2 章理论基础 其余一切工作都能自动地完成 4 、 结果分析 解释并评估结果其使用的分析方法一般应作数据挖掘操作而定,通常会用 到可视化技术 5 、知识的同化 将分析所得到的知识集成到业务信息系统的组织结构中去 2 3 操作数据库系统与数据仓库的区别 由于大多数人都熟悉商品关系数据库系统,将数据仓库与之比较,就容易 理解什么是数据仓库。 联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称 为联机事务处理( o l t p ) 系统。它们涵盖了一个组织的大部分日常操作,如购 买、库存、制造、银行、工资、注册、记帐等。另一方面,数据仓库系统在数 据分析和决策方面为用户或“知识工人”提供服务。这种系统可以用不同的格 式组织和提供数据,以便满足不同用户的形形色色需求。这种系统称为联机分 析处理( o l a p ) 系统。 o l t p 和o l a p 的主要区别概述如下。 用户和系统的面向性:o l t p 是面向顾客的,用于办事员、客户、和信息 技术专业人员的事务和查询处理。o l a p 是面向市场的,用于知识工人( 包括 经理、主管、和分析人员) 的数据分析。 数据内容:o l t p 系统管理当前数据。通常,这种数据太琐碎,难以方便 地用于决策。o l a p 系统管理大量历史数据,提供汇总和聚集机制,并在不同 的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。 数据库设计:通常,o l t p 系统采用实体联系( e r ) 模型和面向应用的数 据库设计。而o l a p 系统通常采用星形或雪花模型和面向主题的数据库设计。 视图:o l t p 系统主要关注一个企业或部门内部的当前数据,而不涉及历 史数据或不同组织的数据。相比之下,由于组织的变化,o l a p 系统常常跨越 数据库模式的多个版本。o l a p 系统也处理来自不同组织的信息,由多个数据 存储集成的信息。由于数据量巨大,o l a p 数据也存放在多个存储介质上。 访问模式:o l t p 系统的访问主要由短的、原子事务组成。这种系统需要 并行控制和恢复机制。然而,对o l a p 系统的访问大部分是只读操作( 由于大 2 l 第2 章理论基础 部分数据仓库存放历史数据,而不是当前数据) ,尽管许多可能是复杂的查询。 o l t p 和o l a p 的其它区别包括数据库大小、操作的频繁程度、性能度量 等。这些都概括在表2 1 中。 表2 1o l t p 系统和o l a p 系统的比较 特性 0 l t po l a p 特征操作处理信息处理 面向事务分析 用户办事员、d b a 、数据库专业人员知识工人( 如经理、主管、分析员) 功能日常操作长期信息需求,决策支持 d b 设计基于e - r ,面向应用星形,雪花,面向主题 数据当前的;确保最新历史的;跨时间维护 汇总原始的,高度详细汇总的,统一的 视图详细,一般关系汇总的,多维的 工作单位 短的、简单事务复杂查询 存取读,写 大多为读 关注数据进入 信息输出 操作 主关键字上索引,散列大量扫描 访问记录数量数十个数百万 用户数 数千数百 d b 规模1 0 0 m b 到g b1 0 0 g b 至口t b 优先高性能,高可用性高灵活性,端点用户自治 度量事务吞吐量查询吞吐量,响应时间 但是,为什么需要一个分离的数据仓库? “既然操作数据库存放了大量数 据”,你注意到,“为什么不直接在这种数据库上进行联机分析处理,而是另 外花费时间和资源去构造一个分离的数据仓库? 分离的主要原因是提高两个 系统的性能。操作数据库是为己知的任务和负载设计的,如使用主关键字索引 和散列,检索特定的记录,和优化“罐装的”查询。另一方面,数据仓库的查 询通常是复杂的,涉及大量数据在汇总级的计算,可能需要特殊的数据组织、 存取方法和基于多维视图的实现方法。在操作数据库上处理o l a p 查询,可能 会大大降低操作任务的性能。此外,操作数据库支持多事务的并行处理,需要 加锁和日志等并行控制和恢复机制,以确保一致性和事务的强健性。通常,o l a p 查询只需要对数据记录进行只读访问,以进行汇总和聚集。如果将并行控制和 恢复机制用于这种o l a p 操作,就会危害并行事务的运行,从而大大降低o l t p 系统的吞吐量。最后,数据仓库与操作数据库分离是由于这两种系统中数据的 第2 苹理论基础 结构、内容和用法都不相同。决策支持需要历史数据,而操作数据库一般不维 护历史数据。在这种情况下,操作数据库中的数据尽管很丰富,但对于决策, 常常还是远远不够的。决策支持需要将来自异种源的数据统一( 如,聚集和汇 总) ,产生高质量的、纯净的和集成的数据。相比之下,操作数据库只维护详 细的原始数据( 如事务) ,这些数据在进行分析之前需要统一。由于两个系统 提供很不相同的功能,需要不同类型的数据,因此需要维护分离的数据库。然 而,许多关系数据库管理系统卖主正开始优化这种系统,使之支持o l a p 查询。 随着这一趋势的继续,o l t p 和o l a p 系统之间的分离可望消失。 多维数据模型上的o l a p 操作: 上卷:上卷操作( 有些人称之为“上钻 操作) 或者通过沿概念分层向上 攀升,或者通过维归约,在数据方上进行聚集。 下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻 可以通过沿维的概念分层向下或引入新的维来实现。 切片和切块:切片操作在给定的数据方的一个维上进行选择,导致一个子 方。 转轴:转轴( 又称旋转) 是一种目视操作,它转动数据的视角,提供数据 的替代表示。 其它o l a p 操作:有些o l a p 还提供其它操作。例如,d r i l la c r o s s 执行 涉及多个事实表的查询;d r i l lt h r o u g h 操作使用关系s q l 机制,钻到数据方的 底层,到后端关系表。 其它o l a p 操作可能包括列出表中最高或最低的n 项,以及计算移动平 均值、增长率、利润、内部返回率、贬值、流通转换、和统计功能。 2 4 由数据仓库到数据挖掘 “数据仓库和o l a p 如何与数据挖掘联系? 我们先来研究用于信息处 理、分析处理和数据挖掘的数据挖掘技术。我们还将介绍联机分析挖掘 ( o l a m ) 。o l a m 将o l a p 与数据挖掘集成在一起。 数据仓库和数据集市已在广泛的应用领域使用。几乎每个行业的商务管理 人员都使用收集、集成、预处理和存储在数据仓库与数据集市中的数据,进行 数据分析和决策。在许多公司,数据仓库用作企业管理的计划执行一评估“闭 第2 苹理论基础 环”反馈系统的一部分。数据仓库广泛用在银行、金融服务、消费物品和零售 分配部门,以及诸如基于需求的产品生产。 通常,数据仓库使用时间越长,它进化得越好。该进化进行多遍。开始, 数据仓库主要用于产生报告和回答预先定义的查询。渐渐地,它用于分析汇总 的和细节的数据,结果以报告和图表形式提供。稍后,数据仓库用于决策,进 行多维分析和复杂的切片和切块操作。最后,数据仓库可能用于知识发现,并 使用数据挖掘工具进行决策。在这种意义下,数据仓库工具可以分为存取与检 索工具,数据库报表工具,数据分析工具和数据挖掘工具。商业用户需要一种 手段,知道数据仓库里有什么( 通过元数据) ,如何访问数据仓库的内容,如 何使用数据分析工具分析这些内容和如何提供分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 空山鸟语说课稿-2025-2026学年小学音乐三年级下册人音版(主编:曹理)
- 2025标准企业股权转让合同协议模板
- 2025企业劳动合同协议
- 宁夏事业单位笔试真题2025
- 2025仓库租赁合同示范文本
- 2025担保借款合同
- 2025企业依法终止无固定期限劳动合同
- 安徽考公2025真题
- 2025设备租赁合同之解除权的行使
- 橡胶厂采购合同实施办法
- GB/T 16545-2025金属和合金的腐蚀腐蚀试样上腐蚀产物的清除
- 无人机公司飞手管理制度
- 房地产抵押贷款合同电子版预览
- 电池(组)装配工职业技能鉴定经典试题含答案
- 公路机电安全培训课件
- 质量策划与质量控制培训
- 泥水盾构培训课件
- 个体诊所药品管理制度
- 智联招聘公司管理制度
- 2025年学前教育专业课程考试试题及答案
- 25春国家开放大学《物流信息技术》形考任务1-4参考答案
评论
0/150
提交评论