




已阅读5页,还剩78页未读, 继续免费阅读
(计算机科学与技术专业论文)数据挖掘技术在税控系统中的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或 部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:导师签名:日期: 工口,彳名 j 摘要 摘要 从国家实行金税工程以来,国家税务管理不断加强,也形成了多项国家标准 和规范。从2 0 0 7 年开始,我校税控系统项目组为国家税务局开发针对大型商场 的税控系统,并编写了国标七规范,但系统的机制还不是很完善,只是为税收管 理提供了技术支持,并不能为国家税务局的提供决策支持。本文针对国税部门在 国税征管、监控工作中的实际需要,对数据仓库技术、数据挖掘技术在国税总局 网络税控系统中的应用进行了较为系统、深入的研究。本文的研究内容和成果主 要有以下四个方面: ( 1 )介绍了税控系统技术、数据仓库技术、数据挖掘技术、联机分析处 理( o n - l i n ea n a l y s i sp r o c e s s i n g ,o l a p ) 等相关技术及数据挖掘技术在国 税总局网络税控系统中的应用。 ( 2 )对单属性变化的增量关联规则更新算法的改进。 对关联规则数据挖掘算法进行了重点研究,详细分析了单属性变化的增量 关联规则更新算法的不足和性能瓶颈,并在此基础上,结合国税总局税源数据量 巨大的特点,提出了相应的改进算法多属性变化的增量关联规则更新m a c a 算法,借助属性矩阵和原有的关联规则的频繁项集,通过对新增各项频繁项集和 原有频繁项集构造矩阵,然后按列做与运算,解决了多属性变化关联规则快速更 新问题和大大减少了运算的时间复杂度。 ( 3 )对决策树挖掘进行了研究 本文对决策树算法了研究和总结,结合国家税务部门需要从海量的税源数 据中提取有用信息进行决策支持的需要,重点分析了经典决策树算法i d 3 的优势 和不足,并研究了其改进算法c 4 5 。 ( 4 ) 设计了网络税控系统数据仓模型和数据挖掘子系统模型。 本文还探讨了网络税控系统数据仓库模型的设计,详细论述了设计国税总局 网络税控系统数据仓库的整个过程、构建网络税控系统数据仓库的目的。本文设 计了网络税控系统数据仓库的体系结构、概念模型、逻辑模型和物理模型。最后, 本文利用在网络税控系统数据仓库的基础上,将多属性变化增量关联规则更新挖 掘应用于网络税控系统中,构建了网络税控系统数据挖掘子模型,详细阐述了多 属性变化增量关联规则更新和决策树挖掘在税控系统中的应用,包括挖掘目标, 算法的实现和挖掘过程等。 关键词数据仓库;数据挖掘;管理与决策支持;网络税控系统;o l a p 北京t 业人学工学硕j j 学位论丈 a b 汀r a c t a b s t r a c t f r o mt h ei m p l e m e n t a t i o no fg o l d e nt a xp r o j e c t ,o u rc o t m t r yc o n t i n u e dt o s t r e n g t h e nt a xa d m i n i s t r a t i o n ,h a sa l s oc r e a t e dan u m b e ro fn a t i o n a ls t a n d a r d sa n d s p e c i f i c a t i o n s b e g i n n i n gi n2 0 0 7 ,o u rs c h o o l st a xc o n t r o ls y s t e mt e a md e v e l o p e d s y s t e mw h i c hu s e di nl a r g es h o p p i n gc e n t e r sf o rt h es t a t ea d m i n i s t r a t i o no ft a x a t i o n , a n dc o m p i l e dt h en a t i o n a ls t a n d a r ds e v e ns p e c i f i c a t i o n b u tt h em e c h a n i s mo f s y s t e mi s n tp e r f e c t ,o n l yt op r o v i d et e c h n i c a ls u p p o r tt ot a xa d m i n i s t r a t i o na n dc a n n o tp r o v i d ef o rd e c i s i o n m a k i n gs u p p o r t i nt h i sp a p e r , i no r d e rt os u p p l yt h en e e d so f s t a t et a x d e p a r t m e n t si nt h e n a t i o n a lt a xc o l l e c t i o na n dm a n a g e m e n t ,h a v ea s y s t e m a t i c ,i n d e p t h r e s e a r c ho fd a t aw a r e h o u s ea n dd a t am i n i n gt e c h n o l o g y s a p p l i c a t i o ni nn e tt a xs y s t e m t h ec o n t e n ta n dr e s u l t so ft h i ss t u d ya r em a i n l yt h e f o l l o w i n ga r e a s : 1 i n t r o d u c et h et e c h n o l o g yo ft a xc o n t r o ls y s t e m ,d a t aw a r e h o u s e ,d a t am i n i n g , o l a pa n do t h e rr e l a t e dt e c h n o l o g i e s a p p l i c a t i o ni nt a xc o n t r o ls y s t e m 2 h a v eai m p r o v e m e n to fa c a f o c u s e do nr e s e a r c ho fa s s o c i a t i o nr u l e s a l g o r i t h m ,d e t a i l e da n a l y s i st h ed i s a d v a n t a g e sa n dp e r f o r m a n c eb o t t l e n e c k so ft h e i n c r e m e n t a lc h a n g ei ni n c r e m e n t a lu p d a t i n ga l g o r i t h m sf o rm i n i n ga s s o c i a t i o nr u l e s a n do nt h i sb a s e ,c o m b i n e ds a t sah u g ea m o u n to fd a t a s o u r c e s ,p r o p o s e c o r r e s p o n d i n gi m p r o v e da l g o r i t h m - - m a c a b ys t r u c t u r i n gt r a n s a c t i o n - a t t r i b u t e m a t r i x ,t h e no p e r a t i n g “& ”b yc o l u m n ,i te f f e c t i v e l ys o l v et h ep r o b l e mo fm u l t i p l e a t t r i b u t ec h a n g ei n c r e m e n t a la s s o c i a t i o nr u l e su p d a t i n ga n dg r e a t l yr e d u c e st h e c o m p u t a t i o n a lt i m ec o m p l e x i t y 3 h a v eas t u d yo nt h ed e c i s i o nt r e em i n i n g t h i st h e s i sh a v er e s e a r c h e da n d c o n c l u d e dt h ed e c i s i o nt r e em i n i n ga l g o r i t h m s w i t ht h en a t i o n a lt a xd e p a r t m e n t n e e d so fu s e f u li n f o r m a t i o nw h i c he x t r a c tf r o mt h ef l o o d so ft a xs o u r c e sd a t a , f o c u s i n go ni d 3d e c i s i o nt r e ea n a l y s i so ft h ea d v a n t a g e sa n dd i s a d v a n t a g e s ,a n di t s i m p r o v e da l g o r i t h mo f c 4 5 4 d e s i g nan e tt a xc o n t r o ls y s t e md a t aw a r e h o u s em o d e la n dad a t am i n i n g s u b s y s t e mm o d e l t h i st h e s i sa l s od i s c u s s e sd e s i g no ft h em o d e lo fd a t aw a r e h o u s ei n n e tt a xc o n t r o ls y s t e m ,d e t a i l e dd i s s e r tt h ee n t i r ep r o c e s so fd e s i g nd a t aw a r e h o u s e , t h ep u r p o s eo fb u i l d i n gt h en e tt a xc o n t r o ls y s t e m sd a t aw a r e h o u s e d e s i g n e dd a t a w a r e h o u s ea r c h i t e c t u r e ,c o n c e p t u a lm o d e l ,l o g i c a lm o d e la n dp h y s i c a lm o d e l f i n a l l y , b u i l dan e tt a xc o n t r o l s y s t e m s d a t am i n i n gm o d e la n dd e t a i l e d p r e s e n tt h e 北京t 业人学t 学硕十学位论文 a p p l i c a t i o no fm a c a a n dd e c i s i o nt r e em i n i n gi ni t ,i n c l u d i n gm i n i n gg o a l s ,m e t h o d s o fi m p l e m e n t a t i o na n dm i n i n gp r o c e s s e s k e y w o r d sd a t aw a r e h o u s e ;d a t am i n i n g ;o l a p ;n e tt a xc o n t r o ls y s t e m ;m a n a g e m e n t a n dd e c i s i o ns u p p o r t l v 目录 目录 摘要i a b s t r a c t i i i 第1 章绪论1 1 1 课题的研究背景和意义1 1 2 相关技术研究及应用现状2 1 2 1 税控系统技术,2 1 2 2 数据仓库技术3 1 2 3 数据挖掘技术3 1 2 4o l a p 4 1 3 论文的研究内容及文章组织结构4 1 3 1 研究内容4 1 3 2 文章组织结构5 第2 章相关技术概述及应用7 2 1 税控系统技术7 2 2 数据仓库与数据挖掘7 2 2 1 数据仓库概述7 2 2 2 数据挖掘概述1 0 2 3o l a p 技术1 3 2 3 1o l a p 的1 2 条准则1 3 2 3 2o l a p 分类1 4 2 3 3o l a p 的典型操作和特点1 4 2 4 数据挖掘在系统的应用1 5 2 5 本章小结1 5 第3 章关联规则数据挖掘算法研究1 7 3 1 关联规则挖掘的基本概念1 7 3 1 1 关联规则的概念1 7 3 1 2 关联规则的相关定义1 7 3 2 单属性变化的增量关联规则更新算法1 8 3 3 改进关联规则算法多属性变化增量关联规则更新算法1 9 3 3 1 算法背景1 9 3 3 2 相关定义与性质2 0 3 3 3 多属性变化的增量关联规则算法2 2 3 4 本章小结2 8 第4 章决策树算法研究2 9 4 1决策树算法的相关概念2 9 4 1 1 分类与预测2 9 4 1 2 决策树2 9 4 2 经典决策树算法3 0 4 3 改进的决策树算法3 2 v 北京t 业大学t 学硕l j 学位论文 4 4 本章小结3 3 第5 章网络税控系统数据仓库模型设计3 5 5 1构建网络税控系统数据仓库的目的3 5 5 2网络税控系统数据仓库模型体系结构的设计3 5 5 3网络税控数据仓库模型的设计3 7 5 3 1 概念模型设计3 7 5 3 2 逻辑模型设计3 9 5 3 3 物理模型设计4 5 5 4 本章小结4 8 第6 章数据挖掘在网络税控系统中的应用4 9 6 1网络税控系统数据挖掘子系统模型4 9 6 1 1 用户层4 9 6 1 2 管理层5 0 6 1 3 任务实现层5 0 6 1 4 数据层5 0 6 2网络税控系统数据挖掘系统功能设计5 1 6 3 系统实现5 2 6 3 1系统登录界面及用户管理模块的实现5 2 6 3 2 数据查询统计模块的实现5 4 6 3 3 系统说明模块的实现5 5 6 4多属性变化增量关联规则更新挖掘模块的实现5 6 6 4 1多属性变化增量关联规则更新挖掘目标5 6 6 4 2多属性变化增量关联规则更新挖掘算法的实现5 6 6 4 3多属性变化增量关联规则更新挖掘结果分析5 9 6 5 决策树挖掘在网络税控系统中的应用6 0 6 4 1 决策树挖掘目标6 0 6 4 2 决策树挖掘算法的实现6 0 6 4 3 决策树挖掘过程6 3 6 6 本章小结6 4 结论6 5 参考文献6 7 攻读硕士学位期间发表的学术论文7 l 致 射7 3 第1 审绪论 第1 章绪论 1 1 课题的研究背景和意义 随着科学技术的快速发展,经济和社会都取得了巨大的进步。与此同时,在 各个领域都产生了大量的数据,而信息对企业的生存和发展的作用是至关重要 的,而传统的数据库技术以数据库为中心进行从事务处理,批处理到决策分析等 各种类型的数据处理工作,面对如此多的海量数据,数据库技术已经无能为力。 在这种情况下,面向主题的,集成的,包含历史的,不可更新的,面向决策支持 的数据集合数据仓库就应运而生。数据仓库作为数据库的高端扩展技术成为 研究热点,从i b m 推崇的商业智能( b u s i n e s si n t e l l i g e n c e ,b i ) ,微软的s q l s e r v e r 7 0 绑定o l a p 服务器,到w a l m a r t 拥有2 4 t b 数据量的数据仓库无不体 现了数据仓库技术研究应用之热。 数据挖掘和数据仓库技术作为决策支持新技术在近几年得到了迅速的发展。 在计算机产生的过去数十年中。我们产生和收集了大量的数据,希望计算机能自 动智能地分析数据仓库中的大量数据以获取我们所需要的知识,是数据挖掘产生 并发展的强大动力。数据挖掘是通过预测未来趋势及行为,做出前瞻性的,基于 知识的决策。数据挖掘是基于发现的方法,通过分析大量的数据,了解已经发生 了什么,分析发生的原因并预测未来将发生什么。数据中蕴含着知识,我们利用 数据挖掘方法通过分析数据可以获取我们所需要的知识。如w a l m a r t 著名的“啤 酒与尿布 的故事就是通过挖掘数据仓库中每天的销售信息,从而发现下班前来 购买婴儿尿布的男性顾客往往同时购买啤酒,从而使得商品的销量成倍增长,这 是数据挖掘产生经济效益的典型例子。现在越来越多的大中型企业已经利用或开 始利用数据挖掘来分析公司的数据,以辅助决策,数据挖掘也开始成为大中型企 业在激烈的市场经济立于不败之地的一个法宝。 网络税控系统是北京工业大学开发的基于大型企业的税收控制管理的平台, 该系统包括网络税控器,税控服务器,税控客户端和开票终端等几个模块,目前 已经在试运行阶段,并制定了国标七规范。该系统结构还不是很完善,目前只是 针对大型企业的税收情况进行管理,但并不能为各个大企业在进行税收管理的同 时,提供一些决策性的支持,如某一地区在某个季度某一种产品热销,可以加大 投资力度,某些产品进行捆绑销售可以使产品销售成倍增长等,从而为企业的决 策和国家税务部门出台相应的政策进行调控,进而进一步提高企业的经营效益和 税务管理部门的管理水平。由于全国大型企业的销售数据是极巨大的,为这些数 北京t 业人学t 学硕l :学位论文 据建立数据仓库,并对这些信息进行数据挖掘,根据产品的利润情况,对税率做 出相应的调整。 1 2 相关技术研究及应用现状 1 2 1 税控系统技术 税收是国家财政收入的主要来源,是国民经济的命脉;是确保国民经济健康 发展,政治稳定和谐的强制性手段。准确,及时,公平地收纳税款体现社会公平, 国家意志和公民利益。自从我国实行“金税工程以来,多元化报税、税银等系 统的应用,使税务信息系统由相对封闭和低风险逐渐转变为更加开放和高安全风 险。 从1 9 9 4 年3 月底,开始税制改革,实施以加强增值税管理为主要目标的“金 税工程”,形成了由一个主干网即覆盖总局、省、地、县级的计算机网络和开票 子系统、防伪税控认证子系统、增值税计算机稽查子系统、发票协查子系统四个 子系统。2 0 0 1 年,金税工程二期开始进行运作,以增值税专用发票为主要监控 对象,建立将纳税人发票开具情况与税款申报、交纳情况相互稽查的机制,全面 实现金税工程的税控功能,从法律上明确规定纳税人应该按照规定安装、使用税 控收款装置;2 0 0 3 年起,金税三期工程开始建设,以建立基于规范的应用系统 平台,依托税务系统计算机广域网,以总局为主、省局为辅高度集中处理信息, 功能覆盖各级税务机关税收业务、行政管理、决策支持、外部信息应用等所有职 能的功能齐全、协调高效、信息共享、监控严密、安全稳定、保障有力的中国电 子税务管理信息系统为目标。2 0 0 4 年,国税总局正式发出关于推广应用税收 款机加强税源监控的通知,标志着税控市场启动加速,税控收款机产业进入春 天;2 0 0 5 年,国家税务总局联合四部委召开全国推广应用税控收款机电视电话 会议,全国范围内推广税控收款机的时机已经成熟【3 5 1 。 但随着我国的税务制度的改革,税率多元化,如何有效地征收商业销售税, 避免税收处置中的随意现象,在处罚偷税漏税行为时更加有理有据;对大中型商 场和流通企业的营业税进行征收,如何有效地控制和管理税收成为了税务部门迫 在眉睫的问题。 在国外税务系统的应用中,i b m 的税务商业智能解决方案围绕数据仓库, 采用数据筛选工具和管理应用程序,为税务机关有效执行税收征管,改善客户服 务,提供信息获取手段,利用数据挖掘技术,提供商业智能等工具,为客户提供 决策支持;在欧洲和澳大利亚,数据仓库和数据挖掘技术在税务部门中已经得到 了广泛的应用,投入回报率也非常蒯3 6 1 。 第1 章绪论 自1 9 9 4 年税务系统“金税工程展开以来,我国的税务部门利用信息技术 提升税务系统的工作效率,工作的透明度,工作的科学化,透明化已经逐见成效, 税收体制的信息化改革逐渐完善,各级税务部门的业务基本上都在网上运营。但 在税收征管以及为客户提供一些决策支持方面还是有较大的差距。虽然有各个地 方税务部门针对税务征管进行了相应的研究,但都没有形成一定的规范和国家标 准。2 0 0 7 年一2 0 0 8 年,北京工业大学联合青岛海信和北京雅普兰公司为国家税务 局的税收征管开发了网络税控系统,并制定了国标七规范,目前已经处于推广使 用阶段。 1 2 。2 数据仓库技术 数据仓库概念最早是由w h i n m o n 在2 0 世纪8 0 年代在他的书中提出, w h i n m o n 把数据仓库定义为“数据仓库是面向主题的,集成的,稳定的,随时 间变化的数据集合,用于支持管理决策过程”r 0 , 2 1 】。到1 9 9 5 年数据仓库开始盛 行起来,数据仓库作为数据库的高端扩展技术成为研究热点。各大世界知名企业 也相继开始建立自己的数据仓库系统,如y a h o o 拥有世界上最大,最忙的数据仓“ 库- e b a y ,其容量高达2 p b ,每月有5 亿用户的访问行为。 相比国外的数据仓库技术的迅速发展,中国的数据仓库技术呈现出起步晚, 投入大,产出大的特点。2 0 0 1 年中国移动开始规划建设数据仓库,到2 0 0 5 年建 成容量达8 4 2 t b 的数据仓库成为当时世界上最大的数据仓库。后来,中国移动 又联合北京大学成立“移动通信数据仓库联合实验室”,旨在加速中国的数据仓, 库技术发展,缩短与世界发达国家在数据仓库技术发展上的差距。 1 2 3 数据挖掘技术 数据挖掘( d a t am i n i n g ,d m ) 就是从大量的、不完全的、有噪声的、模糊的、 随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息 和知识的过程。通常与数据分析,数据融合,决策支持,从数据库中发现知识 ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d ) 术语联系在一起。数据挖掘和从数据 库发现知识通常都联系在一起,又称为k m d d ( k n o w l e d g ed i s c o v e r ya n dm i n i n g i nd a t a b a s e s ,k m d d ) 。1 9 8 9 年,在美国底特律召开的第十一届国际人工智能联 合会议的专题讨论会上,首次提出了数据库中的知识发现这一新技术。k d d 是 一个从数据库中挖掘有效的,新颖的,潜在有用的和最终可理解的模式的复杂过 程,涉及数据库,机器学习,统计学,高性能计算,模式识别,数据可视化等。 数据挖掘是k d d 过程中随机数据真正应用算法抽取知识的一步,是k d d 中的 重要环节【5 】。目前常用的数据挖掘技术有聚类检测方法,决策树方法,关联分析 北京t 业大学t 学硕十学1 市论文 方法,遗传算法,基于记忆的推理算法,人工神经网络方法等。目前在国外数据 挖掘技术应用的领域非常广泛,已经扩展到金融业,保险业,科学研究,零售业, 医疗保健,运输业,行政司法等各个社会部门;成功案例也很多,如n b a 的大 部分球队都使用i b m 的a d v a n c e ds c o u t 系统来优化他们的战术组合,世界上最 大的汽车网站a u t o t r a d e r c o m 选用s a s s p d s 来对下一年的访问流量进行预测 等。与国外相比,我国的数据挖掘技术研究起步较晚,到1 9 9 3 年,国家自然科 学基金首次支持数据挖掘领域的研究。目前国内许多科研单位和众多高等院校已 经相继建立研究机构,对数据挖掘技术的理论和应用进行深入的研究。但由于中 国企业对数据发展技术关注不够以及市场上的数据挖掘工具过多地关注技术本 身而忽视了中国企业的特点,致使中国企业在投入产出比低,数据挖掘技术的应 用还不够广泛。 目前国内外数据挖掘的研究方向主要集中在网络环境下的数据挖掘技术, 数据挖掘过程中的便于用户理解的及人机交互的可视化方法,专门用于知识发现 的形式化和标准化的数据挖掘语言,加强对各种非结构化数据的挖掘等方面。 1 2 40 l a p 随着信息技术的飞速发展,企业在几十年的信息化建设中,企业原有的信息 系统产生了大量的数据;同时市场竞争日益激烈,这就要求企业在决策的时对决 策的及时性和准确性有更高的要求;如何从海量的历史数据中对提取企业决策分 析有用的信息成为了企业管理层的难题;这就要求以支持企业决策管理分析为目 的的o l a p 应用快速发展。目前,各大厂商也纷纷推出了自己的o l a p 产品, 主要有四大主流产品:i b m 的d b 2o l a ps e r v e r ,h y p e r i o n 的h y p e r i o ne s s b a s e o l a ps e r v e r , o r a c l e 的e x p r e s ss e r v e r 及c o g n o s 的p o w e r p l a y 等【3 7 部】。 1 3 论文的研究内容及文章组织结构 1 3 1 研究内容 在本论文中,在网络税控系统的基础上,对来自各个企业的销售数据,库存 数据和进货数据经过抽取、清洗、转换后建立数据仓库,根据数据挖掘的聚类算 法和决策树算法建立挖掘模型,对数据仓库中的数据针对面向企业销售和面向税 务管理两个主题建立数据挖掘模型,通过网页的形式,将分析结果展示出来,以 支持国家税务部门的管理决策和向企业提供决策参考以便税务部门更好地为企 业服务,主要完成以下两个方面的内容: 第1 章绪论 ( 1 ) 建立数据仓库,采用数据驱动【1 9 1 开发生命周期方法来设计数据仓库,通 过数据仓库建模,数据抽取、转换和加载( e x t r a c t i o n t r a n s f o r m a t i o n l o a d i n g ,e t l ) , 按统一的规则集成,完成数据从各种数据源到目标数据仓库转化,然后构建数据 仓库,进行数据仓库模型个阶段的设计等。 ( 2 ) 实现数据挖掘算法并进行相应改进:以数据仓库中已构建的主题为基 础,根据已有数据通过两种数据挖掘算法发现数据间深层次间的关联,建立聚类 模型,决策树模型两种数据挖掘模型进行分析,以提供决策支持。 1 3 2 文章组织结构 本文的组织结构如下: 第1 章:介绍了课题的研究背景和相关技术研究及应用现状,数据仓库、数 据技术的发展历程及现状,国家金税工程的三期建设及目前税控系统中存在的问 题,对理解数据仓库、数据挖掘技术在税控系统中的应用和发展前景有较大帮助。 第2 章介绍了网络税控技术,数据仓库与数据挖掘技术以及联机分析o l a p 技术,并介绍数据挖掘与o l a p 在网络税控系统当中的应用。 第3 章介绍多属性变化的增量关联规则更新算法,其中包括多属性变化的 增量关联规则更新算法的具体流程,实验结果以及与但单属性变化的增量关联规 则更新算法的比较。 第4 章介绍决策树算法,详细阐述了决策树算法的相关概念,经典决策树 算法i d 3 和改进的决策树算法c 4 5 的思路和流程,并对两种算法各自的优点和 缺点进行了比较。 第5 章介绍税务监控数据仓库系统的设计与实现,其中包括设计目的,体 系结构设计,技术平台的选择,数据仓库的概念模型设计、逻辑模型设计和物理 模型设计。 第6 章介绍数据挖掘在网络税控系统中的应用,其中包括网络税控系统数 据挖掘子系统的系统结构,网络税控系统数据挖掘子系统的功能设计、多数性变 化的增量关联规则算法和决策树算法在网络税控系统中的挖掘目标、挖掘算法的 实现和挖掘的基本过程。 北京t 业人学下学硕l j 学位论文 6 第2 章相关技术慨述及应用 第2 章相关技术概述及应用 2 1 税控系统技术 从金税工程开展以来,我国税控系统技术先后经历了税控外挂器和税控机顶 盒两种方案。其中税控外挂器方案是g b l 8 2 4 0 3 规范中规定的税控器只能连接 到带有通信接口的收款机上,通过收款机的键盘、显示器、打印机,利用税控客 户端软件,税控器在打印机打印统一格式的发票同时自动记录数据,并加载到后 台数据库中以供税务部门稽查,来完成商品销售和税收管控功能;该方案的优点 是统一用税控发票来代替电脑小票,缺点是由于需要对超市原有软件进行改造, 适用性不好,改造成本代价太高;还存在对税务征管上缺乏关键数据,当商家有 偷税行为时,税务部门缺乏证据。针对这种情况,北京工业大学联合青岛海信提 出了机顶盒方案,机顶盒是用于在不改变原有模拟电视机基础上,把数字信号转 变为模拟信号,以供模拟信号电视机播放;税控机顶盒方案是借用机顶盒的思想, 在不改变超市原有系统的基础上,加入类似机顶盒功能的税控模块,添加了税控 卡用来存储税控数据,并对数据进行加密和身份认证等安全处理。当商家要交税 时可以用税务部门颁发的税控卡去税务部门报税,而一旦发现有偷税、漏税现象 就定期或者实时地向税务征管部门报告;并就一系列的安全问题进行了,如如何 保证税源数据的安全性,如何防止商家卸载税控软件及损坏税控器来进行偷税漏 税的行为,进行分析并提出一系列的解决方案。在利用海量的税源数据方面,尽 管已有少数研究人员已经开始了利用税源数据来检查偷税、漏税的研究,但在分 析当前各行业经营盈利情况,从而有利于国家税务部门调整商品税率,以宏观调 控行业的发展上研究得很少,甚至没有。 2 2 数据仓库与数据挖掘 2 2 1 数据仓库概述 2 2 1 1 数据仓库的起源和定义 随着信息技术的发展,许多公司的信息系统都积累了记录企业采购、生产、 销售过程中的海量信息,并且随着企业的运转,事务性数据会持续快速增长;而 通常这些信息都由不同的信息系统管理,存储在不同的地方,组织方式也不一样, 北京t 业大学t 学硕1 :学位论文 现有的数据存储形式已经远不能满足进行动态信息分析,以支持企业决策的需要 1 2 3 , 2 4 1 。 从2 0 世纪8 0 年代开始,对数据仓库的研究越来越多,对数据仓库的定义也 非常多,但被广泛接受的是数据仓库之父b i l li n m o n 在1 9 9 1 年出版的“b u i l d i n g t h ed a t aw a r e h o u s e ”一书中对数据仓库的定义:数据仓库是面向主题的、集成的、 随时间变化的、持久的数据集合,用于支持管理决策过程。 从数据仓库的定义可以发现数据仓库有五个基本特征: ( 1 ) 面向主题的:与传统数据库中的面向应用相对应,主题是指一个分 析领域,是指在较高层次上企业信息系统中的数据综合、归类并进 行利用的抽象。数据仓库中的数据是按照一定的主题域主题进行组 织的,这与操作型数据库的数据面向事务处理任务,各业务系统之 间各自分离不同。 ( 2 ) 集成的:数据源的数据往往是异构的,对外部的信息进行必要的变 换和集成包括格式转换,消除冲突、运算、总结、综合、设置时间 属性、设置缺省值,消除源数据中的不一致性,使得数据仓库中的 数据是整个企业的一致的全局的信息。 ( 3 )反映历史变化的:是指数据仓库内的信息并不只是反映企业当前的 状态,数据是从过去某个时间点到目前各个阶段的信息,利用信息 对过去的发展历程和未来趋势作出定量分析和预测。 ( 4 ) 数据随时间变化的:每隔一定时间后,系统要更新,新的数据经过 抽取、转换等操作集成到数据仓库中,或者对数据进行按时间段综 合、按时间片抽样等。 ( 5 ) 相对稳定的:是指一旦某个数据进入数据仓库以后,一般很少进行 修改,更多的是对信息进行查询操作;反映的是历史信息内容,而 不是处理联机数据,每个数据项对于一个特定的时间,需要大量的 查询操作,很少进行修改和删除,通常需要定期加载和更新。 2 2 1 2 数据仓库的体系结构及实现方式 数据仓库系统体系结构可以划分为四个层次:数据源、数据的存储与管理、 o l a p 服务器、前端工具。 图2 - 1 数据仓库系统体系结构层次图 f i g u r e2 - 1d a t aw a r e h o u s es y s t e ma r c h i t e c t u r el e v e lm a p ( 1 ) 前端工具 主要包括各种报表工具、数据分析工具、查询工具、数据挖掘工具以及基 于数据仓库或数据集市的应用开发工具。当前的数据仓库系统中主要有三类前端 工具:联机分析的联机分析查询工具、决策支持系统的分析预n - f 具、数据挖掘 的挖掘型工具。 ( 2 ) 0 l a p 服务器 联机分析处理o l a p 对分析需要的数据进行有效集成,按多维模型予以组 织,以便进行多角度、多层次的分析和发现趋势。目前主流的实现方式有三种: 关系型o l a p 、多维度性o l a p 和混合型o l a p 。 ( 3 ) 数据的存储与管理 数据仓库的核心是数据的存储与管理,数据仓库的组织管理方式决定其外 部数据的表现形式,同时也决定了它不同于传统的数据库;需要从数据仓库的技 术特点着手分析、针对现有各业务系统的数据,进行抽取、清理、并有效集成, 按照主题进行组织,决定采用何种产品和技术来建立数据仓库的核心。按数据的 覆盖范围,数据仓库分为企业级数据仓库和部门级数据仓库。 ( 4 ) 数据源 数据源是整个数据仓库的基础,通常包括存放于关系型数据库管理系统的 各种业务处理数据和各类文档数据的企业内部信息和包括法律法规、市场信息和 竞争对手信息的企业外部信息等。 2 1 1 3 数据仓库的建立步骤 ( 1 ) 收集和分析业务需求 北京t 业人学t 学硕1 j 学位论文 ( 2 ) 建立数据模型和数据仓库的物理设计 ( 3 ) 定义数据源 ( 4 ) 选择数据仓库技术和平台 ( 5 ) 从操作型数据库中抽取、净化、和转换数据到数据仓库 ( 6 ) 选择访问和报表工具 ( 7 ) 选择数据库连接软件 ( 8 ) 选择数据分析和数据展示软件 ( 9 ) 更新数据仓库 2 1 1 4 数据仓库的发展趋势 在国外,数据仓库的应用已较为普遍。在美国多数的大中型企业的数据仓 库已经建设完毕或者在建设当中。在国内,随着近几年市场激烈的竞争和企业信 息化过程的深入,国内多个行业也已经开始着手企业数据仓库的建设,主要是在 电信行业应用较多,邮政行业也开始引入数据仓库进行基本业务分析,铁道部建 立数据仓库来分析客流情况。 在未来,数据仓库技术的发展将主要集中在数据抽取、存储管理、数据表 现和方法论四个方面。在抽取方面,为适应数据仓库本身或数据源的变化,将数 据的互连互通、复制、转换、调度和监控进行标准化的统一管理的系统集成化是 研究的热点。在数据管理方面,开发数据仓库引擎作为服务器产品和数据库服务 器的配套产品,生产带有决策支持的并行关系数据库将具备极大的发展潜力。结 合i n t e r n e t w e b 技术,将数理统计的算法和功能普遍集成到联机分析产品中,研 发出适用于i n t e m e t 、终端免维护的数据仓库访问前端是数据表现方面的发展趋 势。而按行业应用特征细化的数据仓库用户终端软件将使得数据仓库实现过程的 方法论更加普遍。 2 2 2 数据挖掘概述 大容量数据库的出现,先进计算机技术应用,现代化经营管理的需要,对 数据挖掘精、深能力的要求四个方面的原因促进了数据挖掘技术的产生、快速发 展和广泛应用。 2 2 2 1 数据挖掘的对象及任务 数据挖掘的对象是数据仓库中各种格式的信息,包括文本数据库、多媒体 数据库、面向对象数据库、空间数据库、关系数据库、时态数据库、异质数据库 第2 覃相关技术慨述及应h 】 及i n t e m e t 等【1 1 ,1 2 , 1 b , 1 4 】。 数据挖掘的任务就是从用户的多个角度来进行分析,找出各关联数据之间 的联系和规律。常见的任务包括: ( 1 ) 分类分析:利用训练数据集通过一定的算法球的分类规则,找出一 个类别的描述,并利用这种描述来构造模型。 ( 2 ) 聚类分析:从宏观的角度出发,把数据按相似性归纳成若干级别, 以发现数据的分布模式和数据属性之间的相互关系。 ( 3 ) 关联分析:找出数据库中隐藏的关联网,用支持度、可信度,兴趣 度、相关性等参数来分析、发现之间的关系。 ( 4 ) 偏差分析:寻找观察结果与参照之间的区别来发现数据库中存在的 异常情况。 ( 5 ) 时序模式分析:通过实践序列搜索出的重复发生概率比较高的模式, 用所处时间不同的已知数据来预测未来的值。 ( 6 ) 预测:利用历史数据找出变化规律,建立模型,并由此模型对未来 数据种类及特征进行预测,用预测方差来度量预测的精度和不确定 性。 2 2 2 2 数据挖掘的流程及方法 数据挖掘的流程主要分为以下五个阶段 1 5 , a 6 1 : ( 1 )确定业务对象 清晰地定义出业务问题,从而明确地认清数据挖掘的目的是数据能否成 功的重要一步;盲目地进行数据挖掘,往往会导致数据挖掘结果的错误,甚 至影响对问题的判断。 ( 2 )准备数据 准备数据包括:从大型数据库和数据仓库中目标中提取数据挖掘的目标 数据集的数据选择过程;研究数据质量,为进一步的分析做准备而进行数据 再加工的数据预处理过程;将数据转换成一个真正适合挖掘算法的分析模型 的数据转换过程。 ( 3 )挖掘数据 根据数据功能的类型和数据的特点完善和选择合适的挖掘算法,对经过 净化和转换过的数据集上进行挖掘。 ( 4 )分析结果 对挖掘结果进行解释和评价,运用可视化技术,转换为能够最终被用户理 解的知识。 ( 5 )同化知识 】一 北京t 业人学t 学硕l j 学位论文 将分析结果所得到的知识集成到业务信息系统的组织结果中去。 数据挖掘的方法【1 7 ,1 8 】: ( 1 )关联规则 关联规则是发现大量数据库中项集之间的关联关系,随着大量数据的 增加和存储,许多人士对于数据库中挖掘关联规则越来越感兴趣【6 ;从大量 商业事务中发现有趣的关联关系,可以帮助许多商业决策的制定,如分类 设计、交叉购物等。 ( 2 )决策树 利用信息论中互信息寻找数据库中具有最大信息量的字段,建立决策树 的一个结点,再根据字段的不同取值建立树的分支,再由每个分支的数据 子集重复建树的下层结点和分支的过程,建立决策树。 ( 3 )聚类算法 聚类分析是对输入集中的记录进行分类,由聚类分析工具根据一定规 则,合理划分记录集合,把相似的记录放在一个聚集里,用显式或隐式的 方法描述不同的类别,是对群体及成员进行分类的递归过程。 ( 4 )神经网络方法 神经网络方法是模拟了人脑神经元结构,以神经元的数学模型和h e b
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 福建宁德2024~2025学年高一下册期末质量检测数学试题学生卷
- 相声中的即兴表演技巧考核试卷
- 乡土民俗资源在内陆养殖产业升级中的作用考核试卷
- 农药废水处理中吸附材料研究动态考核试卷
- 上海市普陀区2024-2025学年七年级(五四制)下学期期末语文试题(含答案)
- 丝印印刷品背面油墨凝固问题及处理技巧考核试卷
- 食品安全分子检测中的免疫分析技术进展分析考核试卷
- 2025年中国PP-R粉碎下角料数据监测报告
- 2025年中国MPEG测试仪数据监测研究报告
- 2025年中国FD管理册数据监测报告
- 建筑陶瓷砖检测报告及原始记录
- 施工现场安全生产(文明施工)检查评价表
- 液氧试题(试题复习)
- 中国急诊重症肺炎临床实践专家共识
- RAL色卡颜色对照表
- (新)全国LNG加气站分布统计
- 初二地理会考答题卡模板
- 分数加减法计算常见错误及分析
- 妇产科学智慧树知到答案章节测试2023年浙江大学
- 去极端化教育课件
- 国开本科《西方行政学说》期末考试总题库及答案
评论
0/150
提交评论