




已阅读5页,还剩61页未读, 继续免费阅读
(控制理论与控制工程专业论文)税务数据仓库系统的研究及系统设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
r e s e a r c h a n d s y s t e m d e s i g n o f t a x a t i o n d a t a wa r e h o u s e s y s t e m ab s t r a c t i n t h i s p a p e r , w e d o m u c h c l o s e l y r e s e a r c h o n b u i l d i n g a g l o b a l t a x a t i o n d a t a w a r e h o u s e s y s t e m ( t d ws ) i n s c o p e o f c l a s s - fr e e a d m i n i s t r a t i o n s o f t a x a t i o n o f s t a t e w i d e . w e e x e r t t h e o r y a n d t e c h n i q u e o f d a t a w a r e h o u s e , b r i n g f o r w a r d t h e g e n e r a l p l a n n i n g , a n d t h e n w e d o m u c h d e t a i l e d a n d i n - d e p t h s t u d y i n t h e t d ws s y s t e m d e s i g n . a t f i r s t , w e m a k e a d e q u a t e d e m o n s t r a t i o n f o r t h e f e a s i b i l i ty a n d n e c e s s i ty o f t d ws t h r o u g h o b j e c t i v e a n a l y s i s o f t a x o r g a n i s a t i o n p r e n s e n t s i t u a t i o n , s u c h a s t a x p e r s o n n e l , d a t a d i s t r i b u t i o n , c o m m u n i c a t i o n n e t w o r k a n d s o o n , b r i n g f o r w a r d t h e b u i l d i n g p o l i c i e s a n d t a r g e t s . t h e n , a c c o r d i n g t o t h e g e n e r a l g o a l , w e c o n c l u d e d e t a i l e d r e q u i r e m e n t s a n d b u i l d i n g c o n t e n t . b a s e o n t h a t , w e e x p a t i a t e o n t h e b u i l d i n g s t r a t e g i e s , e s t a b l i s h t h e fr a m e c o n s t r u c t i o n o f t d ws a n d m a k e a f u l l s e t o f d e s i g n s c h e m e s . i n o r d e r t o t h e r e a l d e m a n d s , w e d e s i g n t h e o n l i n e a n a l y s i s p r o c e s s i n g ( o l a p ) r u n n i n g d r a f t , p o i n t o u t t h e a p p l i e d a s p e c t s t h a t w i l l a s s i s t a n t d e c i s i o n s u p p o r t s y s t e m ( d s s ) w i t h c l a p a n d d a t a m i n i n g ( d m ) . b y t h e w a y , w e a l s o c l o s e l y a p p r o a c h t h e o t h e r c r i t i c a l p h a s e s , s u c h a s d a t a a c q u i s i t i o n , m e t a d a t a , d a t a t r a n s m i s s i o n a n d e t c . a t l a s t , b a s e d o n s y b a s e d a t a w a r e h o u s e p r o d u c t p e r f o r m a n c e s , w e i n t r o d u c e s y b a s e d a t a w a r e h o u s e p r o b l e m s o l v i n g s c h e m e f o r t d ws . k e y w o r d s : t a x a t i o n d a t a w a r e h o u s e s y s t e m ( t d w s ) , d a t a w a r e h o u s e , c o n s t r u c t i o n p l a n n i n g , s y s t e m d e s i g n , d a t a mi n i n g ( d m) 第一章绪论 第一章绪论 1 . 1研究背景及意义 随着社会的发展,人类的生产、生活越来越离不开信息。谁拥有了更多更有效的信息,准 就将在竞争中处于有利地位。在全球经济日 趋一休化的进程中,信息产业必将逐步成为未来国 民经济的支柱产业。数据作为信息的载体,其管理_ _ 具对一 于 信息技术的重要性己得到业界极大 的关注。只有拥有先进的数据管理技术,才能有效地管理好浩如烟海的数据,并从中提取出对 有价值的信息并加以利用。近些年来,伴随着信息高速公路建设的迅猛发展,特别是网络通信 技术的长足进步和日益普及,使得数据的采集、传输和远程交互能力少 大增张,进而为将各种 类型的数据纳入一个共同的、海量的信息处理体系奠定了基础。人们开始尝试着对原来数据库 中的数据进行再加工,形成一个综合的、面向分析的环境,以辅助产生科学决策。 妇 此,数据 仓库的思想、技术、产品逐渐开始形成,并成为信息技术领域非常热门的话题之一。 近几年来,随着加入wt o步伐的加快,国内经济己步入复杂多 变的转型期,呈现出多元化 发展的趋势。税务征收管理工作必须走科学化、法制化、规范化的道路,刁能适应经济形势的 需要,确保税收收入任务的完成。面对当前形势,各级管理人员特别是制定政策者和高层决策 者,必须运筹帷幌,冷静、 敏捷、稚确地分析经济动态和税源变化, 及时做出正确的判断并力 求切实可行。为此,他们需要及时、准确、全面地掌握税收的发展动态、纳税企业的经营状脱 及其他相关信息,并对这些信息进行快速、综合、深层次的分析。进而从中把握税收动向、评 估纳税人信用等级、预测未来的 税收增隔 范围和经济发展趋势,作出正确决策。 n 1 我国的税收电子化工作最早从 s o 年代初开始,从 “ 六五”到 “ 九五 , ,历经了 近 2 o 年的摸 索和积累。随着税收体制改革和税务系统信9 北建设的不断深入,各级税务机关采集的各类涉 税数据大幅度增加。但由于受地域所限,它们分散在不同的地方、异构的数据管理系统中,很 难实现信息的充分共享和有效利用,不能进行快速有效的统计、分析和评估,总之,无法转化 成有用的信息。近几年发展起来的数据仓库技术正是为解决这一类问题而逐步成熟和完善的。 数据仓库的出现和发展是计算机应用到一定阶段的必然产物。数据仓库技术为管理大量异构、 分散数据、提供决策支持提供了强有力的手段。 数据仓库技术做为一种先进的数据管理理念,它是一个环境,而不是一件产品,书要提供 用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中是很难或无法得到的。 数据仓库技术是为了有效地把操作型数据集成到统一的环境中,以提供决策型数据访问的各种 技术和模块的总称。它所做的一切都是为了让用户更快、更方便地查询所需要的信息,提供决 策 支 持。 z 本文的研究工作主要基于上述背景。我们首先针对税务系统当前的综合现状,对建立中国 税务数据仓库系统进行了可行性研究。另外,重点对税务数据仓库系统的建设方案进行了全面 的探讨和深入研究,同时,本文还对仓库建设中的关键环节进行了具体分析和设计。 .1. r-一一一一一一一一一一一 1 . 2 数 据仓库 技 术综 述 粼. 2 . 1基本概念 数据仓库技术是近两年来计算机领域一个热门的话题,也是今后数据库市场的一个主要增 长点。世界上许多大公司都己成功地建立了木企业的数据仓库系统,但数据仓库系统对于国内 用户来说还是一个比较新的概念。 数据仓库是信息技术领域的新概念,是近几年迅速发展起来的一种数据存储和管理的新技 术。 随着c l i e n t/ s e r v e : 技术的成熟和并行数据库的发展, 信息处理技术的发展趋势是: 从大量的、 历史的、异构的、分散的数据从联机事务处理系统 ( o l t p )中抽取出来,经过清洗将这些数据 转换成集中统一、随时可用的信息数据源,并能方便地提供随机查询和各种分析处理,以提供 决策支持服务。1 9 , 4 ) 1 . 数据仓库 ( d a t a wa r e h o u s e ) 目 前,i t业界对数据仓库还没有一个统一的定义。尽管各个)家对数据仓库的定义和描述 很多,用词各有区别,但几乎一致的观点是:数据仓库绝不是数据的简单堆积。被誉为数据仓 库之父、 现任p i n e c o n e s y s t e m s 公司 总裁的w . h . i n m o n 在 建立数据仓库一书中指出 “ 数据 仓库是面向 主题的、 集成化的、 稳定的、 随时间 变化的 数据集合, 用以 支持决策管理的一个过程。 ” 8 9 这一定义指出了数据仓库和事务处理系统之间的主 要差异。数据仓库的目 标是为了 制定管 理的决策提供支持信息,这显著地与 o l t p系统的快速响应需要不同。正像企业为了 发展要进 行业务重组一样,为了支持管理决策需要也要按决策业务科目的要求重组 o l t p系统中的数据, 并要按不同决策,分析内容分别组织使之方便使用。这种基于工 题的模式从用户角度来看就是 多重的数据重组结构。9 1 数据仓库表面上看是一个大的数据库,其实质是由多种技术和服务组成的完整的解决方案。 数据仓库处理的数据与一般的信息系统的数据不同,它来自 不同的分散数据源, 包括操作数据、 历史数据、外部数据等,对这些数据进行提炼和综合,集成到一个单一的关系数据库中2 1 。对这 个集成的数据库进行管理,将其规范为面向主题的格式,以便于最终用户进行数据访问和分析。 因此,就软件技术而言,数据仓库的核心是关系数据库,而让集成的数据发挥效益,则需要一 个先进的关系型联机分析处理 ( r o l a p )工具及数据挖掘 ( d m)工具。 2 . 数 据集市( d a t a m a r t ) 数据集市,也叫部门级数据仓库,是中央数据仓库的一个子集, 价途径。 它主要针对某一个或几个特定的主 题或具体部门 级的应用, 比访问中央数据仓库本身更快的查询分析速度。2l 是提供数据分 析的一条廉 通常更为概括,以便实现 数据集市的特征及建立方式 数据集市的特征包括:规模小:有特定的应用;面向部门:山业务部门定义、设计和开发; 业务部门管理和维护;能快速实现;购买较便宜:投资回报快速;t具集集成紧密;提供更6 f 细的、 预先存在的、 数据仓库的摘要子集;可升级到完整的数据仓库等特征。9 1 - 2- 第一章绪论 有两种方式来建立数据集市:一是先建数据集市,再建中央数据仓库,即 “ 自 底向上”的 方式;二是先建中央数据仓库,根据需要再建立相应数据集市 央数据仓库,即 “ 自顶向下”的方法。 , 数据集市的数据完全来源于中 3 . 元数据( m e t a d a t a ) 元数据在数据仓库的设计、 运行中起着极其重要的作用,它描述了数据仓库中的各个对象, 遍及数据仓库的所有方面,是整个数据仓库的核心 元数据( m e t a d a t a ) 是关于数据的数据,它描述了数据仓库的数据和环境。元数据可以分为 两类: 一类是 管理元数据( a d m i n i s t r a t i v e m e t a d a t a ) , 它是对源数据及其内容、数据仓库主 题、 数据转换及各种操作信息的描述。如元数据中对记录、 域进行编辑的过程名,当每个字段域装 载进数据仓库时,由 元数据所标识的域编辑过程对其进行合法性校验,由 记录编辑过程在域间 进行一致性检查。具体实现既可采用解释方式也可 采用编译方式 另一类是用户元数据( u s e r m e t a d a t a ) ,它帮助用户查询信息、理解结果、了 解数据仓库中 的数据和组织。囚 粼. 2 . 2 数据仓库的 技术 特征 数据仓库面向主题、反映了客观需要 数据仓库的构件是直接反映业务需求的主题。 这些主题的确定可 满足实际分析的需要而不 必受限于o l t p 系统的现状。 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析 利用的抽象。在逻辑意义上,它是针对某一宏观分析领域所涉及的分析对象,是针对某一决策 问 题而设置的。 面向主题的数据组织方式,是在较高层次上 对分析对象的数据的一个完整的、 统一的、一致的描述,能完整、 统一地刻画各个分析对象所涉及的各项数据,以及数据之间的 联系。川 目 前,数据仓库的实现主要是基于关系数据库,每个主题山一组关系表或逻辑视图实现 这些表和视图的内容与原来各个运行系统数据源的数据本质上 是一致的,但为了方便支持分析 数据处理,对数据结构进行了重组,其中还可能会增加一些数据冗余。 数据仓库是整合的 数据仓库中存贮的数据是从原来分散的各个子系统中提取出来的,即所有业务系统的有价 值信息都要整合到数据仓库的主题中去。但这并不是原有数据的简单拷贝,多个业务数据源数 据的差别应该在装载到数据仓库之前进行协调。 首先,由于原有数据库系统记录的是每一项业务处理的流水帐,这些数据不适合于分析处 理,在进入数据仓库之前必须经过综合、计算,抛弃分析处理不需要的数据项,增加一些可能 涉及的外部数据。其次,数据仓库每一个主题所对应的 源数据在原分散数据库中有许多重复或 不一致的地方,必须将这些数据转换成全局统一的定义,消除不一致和错误的地方,以保证数 据的质量。否则,对不准确,甚至不正确的数据分析得出的结果将不能用于指导用户作出科学 的决策。11 0 1 对源数据的集成是数据仓库建设中 最关键,也是最复杂的一步。 3 第一童绪论 数据仓库的数据不是多变的 从数据的使用方式上看,数据仓库的数据, 这是指当数据被存放到数据仓库中以 后,最终 用户只能通过分析l具进行查询、分析,而不能修改其中存贮的数据,也就是说,数据仓库的 数据对最终用户而言是只读的。这意味着不同人员对同一信息的需求将获得相同的回答,这也 意味着在分析过程中 数据不会改变,数据仓库的数据装载应是适时的和叮 用于预测的。1 0 , 1 1 从数据的内容上看,仓库存贮的是当前的和历史的数据。在一定的时间问隔以后,当 前的 数据需要按一定的方法转换成历史数据:老旧的、查询 率低的数据需要从数据仓库脱离到廉价 慢速设备 ( 如磁带)上;对分析处理不再有用的数据则需要从仓库中删除。但这些工作是山系 统管理员来做,或由 系统自 动完成。因此,也可以说数据仓库在一定时间间隔内是稳定的。 山于具有数据的时段稳定性,所以对数据仓库来说就可以减少许多传统关系型数据库管理 系统 ( r d b m s )必须的资源消耗,如:记 录的锁机制、参照完整性的检查、数据操作的日 志、以 及检查点 / 回 退 ( r o l l b a c k ) 等。1 . 2 1 数据仓库数据随时间不断变化并提供信息的历史回顾 数据仓库的数据针对应用而言,即用户进行分析处理时不对数据进行更新操作,但不是说, 数据从进入数据仓库以 后就永远不变。数据仓库中的数据随时间变化而定期地被更新,每隔一 段固定的时间间隔后,运作数据库系统中 产生的数据被抽取、转换以后集成到数据仓库中,而 数据的过去版本仍被保留在数据仓库中,如同“ 定期摄影” ;随着时间的变化,数据以更高的综 合层次被不断综合,以适应趋势分析的要求。当 数据超过数据仓库的存储期限,或对分析不再 有用时,这些数据将从数据仓库中删去。2 关于数据仓库的结构信息、维护信息被保存在数据仓库的兀数据中,数据仓库维护工作由 系统根据元数据中的定义自 动进行,或 h 系统管理员定期维护, 用户不必关心数据仓库如何被 更新的细节。 数据仓库对查询功能是优化的 由于数据仓库的查询数据量往往很大,所以对数据查询 性能、查询界而的友好和数据的表 示提出了 更高的要求,因为对数据仓库进行查询分析的用户多是高层管理者和决策者, 他们是 所在领域的专家, 但对计算机操作却不一定熟悉。, j 性能优化通常需要对数据进行预汇总、预索引和顶取子集。将数据分隔和组合成许多可能 的 组合 ( 分片和切块)的能力和有效地反复查询大量数据的能力是数据仓库的基本要求 数据仓库必须与分析工具项匹配 装载和维护数据仓库只是过程的一部分。一个数据仓库只有在具备了辅助的决策支持工具 时才是完善的,这一决策支持工具应反映和利用数据仓库的结构。 1 .3 数据仓库的 构建过程 总体看, 数据仓库的构建过程大致包括三大步 骤 即汇集各 种源数据 ( g e t t in g d a t a in ) 、 存 储并管理数据 ( m a n a g e m e n tt h e d a t a )和获取所需信息 ( g e t t i n g d a t a o u t ) 。数据仓库的建设 涉及到 两类人员:信息技术人员和业务人员,这两类人员作用于不同的层次。一个数据仓库建设成功 与否很大程度上取决于这两方面的人员是否密切配合。 数据仓库建立的出发点就是在保证数据的完整性和安全性的同时,还要满足用户的查询、 .q. 第一章绪沦 传送及分析需求。使用数据仓库不仅可以方便地对数据进行存取、管理和协调,最关键的是能 够为用户提供决策支持。一般的步骤划分如下: 接收数据 从各种途径收集源数据,其中大部分数据来源于遗留系统,即未仓库化系统中的业务数据 同时也包括一些最新数据。 数据转换 数据仓库的数据模型是面向主题的, 源数据加载到数据仓库之前必须经过数据转换。 数据 转换的方式有:析取、条件、合并、关系识别、扩展、校验、更新和加载等。数据仓库的建设 很大一部分工作量就在数据转换上。 数据净化 对转换后的数据要再进行必要的擦洗工作,如检查数据格式的一致性、识别错误、执行及 量检查、删除劣质数据、创建元数据等。 元数据用来说明数据的转换和概括, 它包括数据仓库的要点、 数据的来源以及其它发生在 数据转换过程中的转换信息。这些信息在用户完成数据迁移之后是非常重要的。 有时,也将数据的转换与净化同时交叉进行。 数据迁移与复制 将数据和元数据定期地装载到数据仓库。另外,利用数据复制与传播工具,数据集市还能 决 速地从中央数据仓库复制数据, 保证数据仓库与数据集市的数据同步。 信息存取工具 利用信息存取工具可以 进行查询、可以产生各种报表和统计图形, 这些工具主要包括图形 化的查询和报表工具、e i s 工具、开发工具、多维o l a p 工具等。 知识发现和数据挖掘 利用知识发现和数据挖掘工具能帮助业务人员找到数据间隐含的、内在的关系,能预测以 后的发展方向和模式。这类工具集成了人工智能和机器自 学习等先进技术和功能。 由以上步骤可以看出,数据仓库本身牵涉到许多方面,它实际 卜 是一个综合解决方案 5 1 .4 数据挖掘技术 建立数据仓库的目的实际上是为了数据挖掘,从而使决策人员利用数据挖掘工具查询数据 仓库,这里的查询己不同于传统意义卜 的数据库查询。 p r i s m s o l u t i o n :的创始人之一b i l l i n m o n 说,数据仓库为数据挖掘提供了 有效的结构, 这有 利于数据挖掘。若未建立数据仓库,直接对分散的、未集成的、不精炼的信息进行挖掘,效率 将非常低。2 8 3 , 定义 数 据 挖 掘( d a t a m in i n g ) 是在 数 据仓 库 的 基 础r .进行 知识 发 现( k n o w l e d g e d i s c o v e r )通过 预处理数据源,采用查询、规则推理、神经网络、机器学习、统计方法等模型进行搜寻有用信 息,为决策分析人员提供分析依据,从而采取相应措施。2 5 j 盯. 4 . 1 工作内 容 数据挖掘为分析人员提供了一个平台,因此系统开发人员必须了解分析人员的工作,而且 还需了解数据源及分析人员用来评估的知识和经验。一般的数据挖掘应用是用高级的知识表达 工具来逻辑地描述数据本身的内容, 然后将此一 元数据层映射到真实的物理数据层。 数据挖掘工具在数据中查找模型,这个搜寻过程可以由 系统自 动执行,自 底向卜 搜寻原始 事实以发现它们之间的某种联系。也可以加入用户交互过程,由分析人员主动发问,自 _ 卜 而下 地搜寻验证假定的正确性。对于一个问题的搜寻过程可能用到许多上具,例如:神经网络、基 于规则的系统、基于实例的推理、机器学习和统计方法等等。 2 2 ,2 7 , 一般地,数据挖掘的搜寻过程是需要反复多次的。因为当分析人员评价输出结果后,他们 可能会形成一些新的问 题或要求对某一方面做更深的查询。一旦这种多次交互过程完成之后, 可生成最后的结果报告,从而完成了数据挖掘的任务。 四 粼. 4 . 2 数 据 挖掘工具 目前数据挖掘工具有的是从其它领域借鉴得到的,有的是全新的,尽管智能型的数据挖掘 工具性能更好,但仍存在无智能型的工具。 1 .智能代理工具 其出发点是开发一个智能的代理人,能够帮助顶处理或筛选出大量的口常数据信息;能够 通过挖掘数据揭示出新的关系和模型,执行一些例行的处理。目 前己有的智能代理 一 具中,包 括需要手工操作以执行特定的查询或搜寻模型,也包括以预定的时间间隔在后台自 动执行业务, 必要时可以将信息返还给用户的。对于用户来说,可以利用智能代理工具筛选大批原始数据, 自 动查找可能存在的关联,形成假设,对该假设 进行检验,必要时作出相应的修改,根据假设 得出适当的应对策略。由于好的数据挖掘工具会从大量数据集中推出某种内 在的联系,因此数 据挖掘越来越受到欢迎。目 前具有智能技术的数据挖掘工具有 i d i s ( i n f o r m a t i o n d i s c o v e ry s y s t e m ) 等。 12 6 , 3 3 , 7 3 1 6. 第一章绪论 2 .多维分析工具 多 维分 析 ( m d a : m u lt i d i m e n t i o n a l a n a ly s i s ) 是 将数 据分 解成n维的 矩阵, 称 之为 超方体。 以一个直属征收分局为例,税收统计分析人员可以利用数据超方体和在线分析 _ 具 ( o l a p o n - l in e a n a ly t i c a l p r o c e s s in g ) 反 复计 算, 以 探寻一 维或多 维 之1h l 的 联系。 n维超方 体共有n * ( n - 1 ) 个视图,多维分析工具能自 动将数据分解成多维信息, 并依次考察 n维超方体的n * ( n - i ) 个面, 以 挖掘它们之间有意义的联系。多维分析支持用户交互,可以 对数据做仔细和全而的检查,不 断 地精炼问 题, 逐步 聚集, 而且 可以 检查 假设 的正 确性。 现有的 在线分 析工具 有e s s b a s e . d s s a g e n t 等。(2 9 ,4 0 / 引. 5 本文的 主要贡献 本文针对在全国税务系统范围内建命 数据仓库系统进行了全面深入的研究,并对数据仓库 系统的设计进行了具体详细的探讨。考虑到目前 税务系统电子化建设的现状,垂点研究制定了 税务数据仓库的建设原则并提出了建设目 标,进而确立了一套完整的系统结构框架和设计方案。 同时针对业务需要,设计了 在线分析处理的运行方案,并具体探讨了数据挖掘技术及其在辅助 税收业务决策方面的应用方向。另外,对建立税务数据仓库的一些关键环节,进行了深入分析 并 提出了 具体 解决方 案; 在文章的 最后部分, 还给出了 基于 s y b a s e 数据仓库平台的 税务数 据仓 库系统的实现方案,为进一步开发打下了 基础。本文的主要贡献包括以下几个方面: 1 、制定仓库系统建设总则 针对数据仓库建设项目 覆盖范围了 ,投资浩大,建设周期长的特点,我们首先对税务系统 现状进行了全面审慎的分析和考察,对建立税务数据仓库系统进行了可行性和必要性研究。接 着, 提出税务数据仓库系统的建设方案、建设原则,即全面体现脚踏实地、密切联系实际、稳 步推进的建设方针。其次, 在各级仓库系统的建设内容、建设目 标上,我们立足长远, 积极向 业务协同和业务智能化的方向靠近;同时,在实施策略上仍坚持先进性和实用性平衡发展,尽 量减低投资风险,并力争实现边开发边见效的初衷。 2 、系统设计 在数据仓库设计上,经广泛深入的调查研究,并多次征询有关专家的意见建议,主要完成 了以下工作: 1 ) 确定采用 “ 自 底向上”的设计策略,即从最关心的业务分析领域开始,先建立 针对具 体特定应用的数据集市, 然后再以各数据集市中 经过格式转换的轻度综合数据为基础, 建设全局的数据仓库。 2 ) 在体系结构设计上,在技术体系结构和系统实现结构方面进行了 深入i寸 论,确立了 税 务数据仓库系统技术架构。 3 ) 在详细设计方面, 提出了数据模型设计 框架, 全面分析了 数据的组织与结构, 4 ) 根据业务工作需要, 对已 确立的o l a p 主题进行了 详细的分析和设计。 5 ) 有侧重地讨论了 数据挖掘技术理论, 提出了比 较有实用价值的挖掘主 题。 3 、关键环节设计 针对数据仓库设计中的三个关键环节 ( 数据采集、元数据和数据传输) ,结合税务系统自身 建设需要, 提出了具体的解决方案。数据采集在把数据装载到数据仓库之前,先要进行数据转 换,以做到使数据完整、统一,确保数据质量。元数据是整个数据仓库的核心,本文提出了税 务数据仓库的元数据体系结构。另外,为肩负起各级数据仓库系统的数据整合、传输止作,税 务系统将建立起总局、省局、地市局三级的数据交换/ 处理中心。 .7. a , 基于s y b a s e 数据仓库平台的解决方案设 计 做为面向 税务 系统的 数 据仓库解决方 案, 我们设 计了s y b a s e 系列的点 对点方案, 用来设计、 建伙 和管理数 据仓 库和数 据集市 。本文 不仅 概括评价了s y b a s e 数据仓 库产品的 技术 性能、 产品 策略。而巨根据业务需求,设计出了遵循税务数据仓库系统建设原则的解决方案。 1 .6 本文组织安 排 木论文共分六章,具体安排如下: 第一章是全文绪论。该章对数据仓库及数据挖掘技术进行了 较为全面的评述。首先,详细 介绍了 采用数据仓库技术的背景和初衷,接着介绍了 d w 的概念、技术特征及构建过程,最后 评述了做为d w最终目 的的数据挖掘技术的有关内容,包括定义、_ 作内容、挖掘工具等。 第二章全面深入地讨论了 建设税务数据仓库系统的总体思路。首先针对税务系统当前的综 合现状,对建立中国税务数据仓库系统进行了可行性和必要性研究。接着,明确提出中国税务 数据仓库系统的建设原则、建设策略。指出税务数据仓库建设的最终目 标是实现业务协同的信 息一体化及信息处理智能化,并分别提出了 近期、中期和远期的建设目 标。在建设内容 匕 结 合各 级税务部门的实际需要, 分层次 全面阐述了 面向高层、中层和墓层的建设 侧重点。 第三章详细探讨了税务数据仓库系统的设计方案。首先,从技术角度提出税务系统数据仓 库的构建框架; 接着,结合税收业务实际,制定了仓库系统建设的实施策略,并引入了 数据集 市的概念。最后,深入展开了数据仓库的系统设计,包括数学模型、数据组织与结构、联机分 析处理以 及数据挖掘技术的理论和实现等 第四章主要分析研究了系统建设中的几个关键环节, 包括数据采集、元数据管理和数据传 输等的设计 理论、设计要点及应用策略等。数据采集, 或称” 整合” 处理,核心任务是保证数据准 确、干净、到位。本章重点分析了在目 前条件下进行数据采集时,应引起注意和着a . 解决的问 题。元数据在数据仓库的设计、 运行中 起着极其重要的作用, 它描述了数据仓库中的各 个对象, 遍及数据仓库的所有方面,是整个数据仓库的核心,木文设 计并分析了 税务仓库的元数据体系 结构。数据仓库要求实现数据的集中 存放和管理, 税务系统在 “ 金税工程”以 后, 将形成总局、 省局、地市局三级的数据处理/ 交换中心,以肩负起各级数据仓库系统的数据整合和数据传输工 作 第五章以s y b a s e的 数据仓库平台 为 例, 提出了 基于该 平台 技术特点的, 基木满足实 施策略 及实际 工作需 要的 数据仓库系统 应用解决 方 案。 首先, 阐 述了s y b a s 。 数据仓库平台的 技术 特点, 接着介绍了s y b a s 。数据仓库的 技术策略, 提出 系统设计 的业务需求, 并设计了 基于s y b a s e平 台技术性能特点的税务系统解决方案。 第六章为本文的总结部分。这部分对论文的整个工作做了全面的总结和回顾,并对今后的 研究工作中还存在的问题做了简要描述。 第止章税务数据仓库系统建设研究 第二章 税务数据仓库系统建设研究 2 . 1必 要 性及可 行 性 分析 我国的 税收电子化工作最早自8 0年代初开始,从大量 报表稽核的计 算机处理,到以 后逐步 发展为税收计会、统计方面的应用:直至 8 0年代末期,税务管理部门开始了税收征收管理的电 子化工作从 “ 六五”到 “ 九五” ,税收电子化的工作已经历经了 2 0年的时间。由于涉税业务 种类繁多,存储数据量大,所以不仅积累了大量重要的数据资源,而且随着业务深度和) 度的 扩大及网上税收的展开,电子信息量还在以成倍的速度增t纳税时间( x , 1 - 3 日” ) 这里就涉及到二个维上的数据:企业类型、企业性质、纳税时间 根据是否允许同一个维重复出 现,可以又细分为维间的关联规则 ( 不允许 维重复出现) 和 i e 合维关联规则 ( 允许维在规则的左右同时出现) 。 一般纳税人等级 ( x , a , b , c ) u纳税( x , “ 增值税” )= 二 )纳税( x , “ 所得税” ) 这个规则就是棍合维关联规则。 在挖掘维间关联规则和n合维关联规则的时候,还要考虑不同的字段种类:类西 , 和数值型。 在 o l a p中挖掘多层、多维的关联规则是一个很白 然的过程。因为 o l a p本身的基础就是一 个多 层多维分析的工具, 只是在没有使用数据挖掘技术 之前, o l a p只能做一些简单的统计, 而 不能发现其中一些深层次的有关系的规则。当 将 o l a p和 d a t a m i n i n g技术结合在一起就形成了 一个 新的 体系o l a m ( o n - l i n e a n a l y t i c a l m i n i n g ) . 如果不考虑关联规则的支持度和可信度,那么在事务数据库中存在无穷多的关联规则。 事 实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣在文献中,一般称满足一 定要求的( 如较大的支持度和可信度) 的规则为强规则。因 此,为发现有意义的关联规则,需要 给定两个闲值:最小支持度和最小可信度。前者即用户规定的关联规则必须满足的最小支持度, 它表示了一组事务项集在统计意义上的需满足的 最低程度,后者即用户规定的关联规则需满足 的最小可信度,它反应了关联规则的最低可靠度。 在实际应用中,一种更有用的关联规则是泛化关联规则。因为数据的可取值项间 存在一种 层次关系。例如企业所得税、个人收入调i y 税属于 所得税,所得税、增值税义属于 国税征收。 有了 层次关系后, 可以帮助发现一些更有意义的规则。如 纳所得税、纳增值税” ,由于 具有纳税 义务的纳税人有很多种,平均来讲, 每种税日( 如个调 税) 的支持度很低,因 此有时难以发现有 用规则;但如果考虑到较高 层次的上级税目( 如所得税) ,则其支持度就较高,从而可能发现有 用的规则。 另外, 关联规则发现的思路还可用于 序列模式发现。例如,企业在办理中报纳税时, a ,; 了 几 3 3 第二章税务数据仓库系统设汁 有上述关联规律, 还有时间上或序列上的规律。因为。 t 多时候纳税户会先到国税窗口 办理中 报, 再到地税窗口 办理中 报:如办税者本身也是纳税人,则他也会顺便进行个人纳税中 报。另外, 银i i : 也是重要的关键环节。如纳税人中 报单 填写的银行帐户上的存款余额不足,税务机关有权 责令其重新中报。 3 .关联规则价值衡量的方法 当 我们用数据挖掘的算法得出了一些结果之后,数据挖掘系统如何知道哪些规则对于 用户 来说是有用的、有价值的?这里有两个层面:) 月 户土观的层面和系统客观的层面。 . 系统客观层面 很多的算法都使用 “ 支持度一 可信度”的框架。这样的结构有时会产生一些错误的结果。石 如 卜 的一个例子: 假设某征收分局的 税收统计人员调查了4 0 0 0名自由 职业纳税人的纳税情况, 得到的结果是 2 2 0 。 人纳个人所得税, 2 7 5 。 人纳营业税,1 8 0 。 人既纳个人所得税,又纳营业税。那么如果设 最 小支持 度( m i n s u p ) 为4 0 % ,最小可信度( m i n e o n f ) 为6 0 % , 我们可以 得到如卜 的关联规则: 纳个人所得税: 纳营业 税( 曰 这条规则其实是错误的,因为纳营业税的人的比例是 6 8 % ,甚至大于6 0 % 0然而纳个人所得 税与纳营业税可能是否定关联的,即当我们考虑如 卜 的关联时: 纳个人所得税( 不) 纳营业税( 2 ) 虽然这条规则的支持度和可信度都比那条蕴涵正向关联的规则 ( 1 )低,但是它更精确。 ( 如可能部分人是公司白 领人事,部分人是个体户,也有企业经理等)总之,没有一对支 持度 和可信度的组合可以产生完全正确的关联。 于是人们引入了兴趣度,用来修剪无趣的规则,即避免生成 “ 错觉”的关联规则。一般一 条规则的兴趣度是在基于统计独立性假设卜 真正的强度与期望的强度之比, 然而在许多应用中 已 发现,只要人们仍把支持度作为最初的项集产生的土要决定因素, 那么可把支持度设 得足够 低以使得不丢失任何有意义的规则 . 用户主观层面 上面的讨论只是基于系统方面的考虑,但是一个规则的有用与否最终取决于 用户的感觉。 只有用户可以决定规则的有效性、可行性。所以应将用户的需求和系统更加紧密的结合起来。 可以采用一种基于约束( c o n s r a i n t - b a s e d ) 的挖掘。具体约束的内容可以有: . 数据约束:用户可以 指定对哪些数据进行挖掘,而不一定是全部的数据。 今 指定挖掘的维和层次:用户可以指定对数据哪些维以及这些维上的哪些层次进行挖掘。 令 规则约束:可以 指定哪些类型的规则是确实需要的。引入模板 ( t e m p l a t e )的概念, 用户使用它来确定哪些规则是令人感兴趣的而哪些则不然:如果一条规则匹配一个包 含的模板 ( i n c l u s i v e t e m p l a t e ) ,则是令人感兴趣的;但如果 一 条规则匹配一 个限制 的模板 ( r e x t r i c t i v e t e m p l a t e ) ,则可认为是缺乏兴趣的。 其中有些条件可以和算法紧密的结合,从而即提高了效率,又使挖掘的日的更加的明确化 了。 4 .结论 总之,对于关联规则的发展,我们认为还有以卜 方面应进行的深入研究:在处理极大徽的 数据时,如何提高算法效率的问 题;对于 挖掘迅速更新的数据的挖掘算法;在挖掘的过程中, 提供一种可与用户进行交互的方法,以便将用户的领域知识结合在其中:对于 数值刑字段在关 联规则中的处理问题:生成结果的可视化方面等。 - 3 4- 第二章税务数据仓库系 统没计 那. 7 . 3税务 系统内 数 据 挖掘 辅助 决策 支 持 税务决策支持系统由o l t p系统、数据仓库、 数据挖掘环境三部分构成。建立在税务系统现 有各数据库基础上的数据仓库从多个 o l t p信息源收集相关数据,由多 种数据挖掘 _ 具 ( e x p i a , e d t , c 4 5 等) 构成的数据挖掘环境提供动态数据分析,使用户尽可能不依赖数据采掘专家执行多 种类型的数据采掘任务。 初步确定的数据挖掘课题有: 税收统计指标间的关联和建模; 税收分析指标的周期和预测分析; 税收增减幅度与国民生产总值的关系 纳税申报质量和税负率关系的分析。 税收成本顶测、税源和的挖掘; 把数据仓库、o l a p 、数据挖掘、模型库结合起来形成的综合决策支持系统,是更高级形式 的决策支持系统。其中数据仓库能够实现对决策主题数据的存储和综合, o l a p实现多 维数据 分析, 数据挖掘用以挖掘数据库和数据仓库中的知识, 模刑库实现多个) 义模型的组合辅助决 策, 专家系统利用知识推理进行定性分析。它们集成的综合决策支持系统, 将相互补充、 相互 依赖,发挥各自的辅助决策优势,实现更有效的辅助决策。 3 . 8 本章小结 本章是全文的重点章节, 对税务数据仓库系统的规划设 计进行了详细的论述。 首先,介绍了 税务系统当前的数据仓库体系化环境。由于 税务系 统机构庞大,遍布各地, 所以 税务的仓库建设必须是建立分层次的、分布式数据仓库系统,即在总局、省级税务局分别 开发建设二级 ( 总局、省级)数据仓库系统、在地市一级开发建设 ( 地市级) 综合数据杳询分 析系统。同时,要开发建设基于各级数据仓库之上的杏询分析和辅助决策支持系统,以满足税 务机关各级、各部门 领导查询、分析和辅助决策的需要。 接着,我们对数据仓库设计方法的 特点、 侧重点进行了详细介绍,仓库系统的设计将主要 采用数据驱动法, 立足现有数据资源,但在组织、 布局及综合提炼上,又将超越原来的 起点, 为决策支持服务。 在设计策略上,根据数据仓库建设的特点,结合本系统的实际情况,经) 泛借鉴兄弟单位 的经验,以 及有关专家的咨询, 确定采用 “ 白 底向上”的策略,即从最关心的业务分析领域开 始,先建立针对具体特定应用的数据集市,然后再以各数据集市中经过格式转换的轻度综合数 据为基础, 建设全局的数据仓库。 在过程中, i t小组应对各集市的建设 严格把关, 尽举保证各 局部数据仓库在数据模式和数据格式方面的 统一,以利于 后期数据更易于向 全局数据仓库转换。 在体系结构设计上, 土要针对税务系统的实际睛 况,在技术体系结构和系统实现结构方面 进行了深入讨论。至于仓库的详细设计,是对概念设计的细化。在数据模 0 设计框架、数据的 组织与结构确定后, 着重对o l a p 的土题分析进行了详细的分析和探讨。 数据挖掘做为数据仓库系统的主要应用的技术之一,在税务数据仓库系统内也有1 泛的应 用前景。数据仓库系统可从多个 o l t p信息源收集相关数据,本文重点讨论了多层和多维关联规 则的原理及适用。 把数据仓库、o l a p 、 数据开采、 模型库结合起来形成的综合决策支待系统,是更高级形式 的决策支持系统。其中数据仓库能够实现对决策土题数据的存储和综合,o l a p实现多 维数据 分析,数据开采用以 挖掘数据库和数据仓库中的知识模j a 库实现多个) 义模型的组合辅助决策, 专家系统利用知识推理进行定性分析。它们集成的综合决策支持系统,将相互补充、相互依赖, 3 5 第四章关键环节设计 第四章 关键环节设计 4 . 1 数据采集 歼. 1 . 1数据流动过程 数据仓库中的数据流动过程跨越操作环境和信息分析环境。这个过程首先进入现有的操作系 统,开始是为支持数据仓库而设的后台处理, 最后以访问和运用数据仓库内数据的用户 _ 具而结 束。 在中间 还有一个分散过程,它使数据以 一种局部而不是集中的方式来支持用户。 至于 其他系 统,则是覆盖这些处理过程技术的基础,如安全系 统,它不仅控制着在终端数据仓库的输入过程, 还控制着用户在数据仓库的前台访问能力四。税务数据仓库处理的部件配置如图: 后台处理 操作系统数 据存储器 中间处理前置处
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省雅安市2024-2025学年高一下学期期末教学质量检测英语试卷(含答案)
- 2025年事业单位工勤技能-湖南-湖南城管监察员五级(初级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-湖北-湖北电工二级(技师)历年参考题库典型考点含答案解析
- 2025年金融反欺诈技术升级路径解析:大数据应用实战案例分享与启示
- 2025年事业单位工勤技能-湖北-湖北兽医防治员四级(中级工)历年参考题库含答案解析
- 生态补偿机制在生态补偿与生态环境保护生态补偿科技创新体系中的应用报告2025
- 2025年事业单位工勤技能-海南-海南客房服务员四级(中级工)历年参考题库含答案解析
- 2025年能源行业智能电网在数字化转型中的电力系统优化报告
- 2025年消费金融公司奢侈品分期用户画像分析与精准营销方案
- 2025年事业单位工勤技能-河南-河南地质勘查员五级(初级工)历年参考题库典型考点含答案解析
- 2025年水利工程监理员网络培训考试试题与答案
- 保险车险知识培训总结课件
- 施工合同 补充协议
- 楼梯切割安全生产合同范本
- 2025年银发族市场洞察报告
- 加油站秋季安全知识培训课件
- 部队课件的教学设计方法
- 2025-2026学年人教版2024八年级上册开学摸底考试英语模拟卷
- 2025至2030中国CPU市场运行现状与发展前景分析报告
- DB37-T4899-2025深远海养殖管理工作指南
- 污水处理企业生态环境合规管理指引
评论
0/150
提交评论