国地税数据清理【ETL技术在地税数据集中项目中的应用探讨】_第1页
国地税数据清理【ETL技术在地税数据集中项目中的应用探讨】_第2页
国地税数据清理【ETL技术在地税数据集中项目中的应用探讨】_第3页
国地税数据清理【ETL技术在地税数据集中项目中的应用探讨】_第4页
国地税数据清理【ETL技术在地税数据集中项目中的应用探讨】_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国地税数据清理【ETL技术在地税数据集中项目中的应用探讨】 摘要:随着国家税务部门对涉税数据精确化管理的需要,迫切要求将各级税务机关的征管数据汇总,并进行分析和预测。鉴于我省核心征管系统省、市两级部署,分散应用,所以在数据集成的过程中对数据的准确性和及时性要求比较严格,就必须使用ETL技术来实现三级数据的集成。 关键词:ETL技术;税务部门;数据集成应用 :TP311:A:1009-3044(xx)21-5255-03 ETL Technology in Land Tax Data Centralized Project TANG Liang (Local Taxation Bureau of Anhui Province,Electronic Tax Information Management Center,Hefei 230061,China) Abstract:Along with the national tax authorities on tax data aurate management needs, requires the tax authorities at all levels of adminis tration and data collection, analysis and prediction. In view of our province core collection system of provincial and municipal levels, de ployment, distributed application, so the data integration in the process of data auracy and timeliness requirements more stringent, you must use ETL technology to achieve level three data integration. Key words:ETL technology;tax department;data integration application 为了加大地税系统数据向国家税务总局集中的力度,进一步提高税务系统税源监控和分析的能力,不断深化“信息管税”工作,国家税务总局于xx年5月底下发了国家税务总局关于做好抽取全国地方税务系统税收征管有关数据准备工作 _(国税函xx235号),要求各省地方税务部门做好数据抽取相关准备工作,为了推进这一项目的实施,我省于xx年1月3月启动了这项工作,经过近半年时间的施工和试运行,实现了全省17个市局核心征管数据的集中工作,系统目前运行情况比较稳定。 1系统功能 本项目为了完成从17个市局征管系统抽取数据的功能,将系统分别从功能、数据、技术三个角度描述系统的设计内容。功能实现方面,系统提供配置管理、数据抽取、质量管控、系统管理四个功能域。数据存储方面,将源系统表、目标系统表、系统配置表归属到抽取数据层、目标数据层、控制数据层三个层面中。技术实现方面,系统按照分层的思想将系统划分为了数据层、控制层、展现层三个层面。数据层采用Oracle、Sybase等主流数据库以及ETL平台进行数据的实际存储和抽取;控制层采用先进的工作流技术,完成抽取流程的定制和控制;展现层主要使用Ext/Flex等富客服端技术实现友好的客户界面。 2 ETL过程 数据抽取过程是首先检查17个市局系统数据库中的数据合理性,检查正确后将数据抽取到抽取数据层。系统进一步根据控制数据层的内容对抽取数据层的数据进行转换,将转换后的结果加载到目标数据层,目标数据层的数据供总局进行数据抽取。上述过程构成一个数据抽取的流程作业,每个作业都可以配置自动后台执行或页面上手工抽取,在执行过程中的某个环节一旦出现异常时,将通过异常管理模块进行通知和干预。 2.1数据检查环节 在数据检查环节,主要从接口数据的正确性、及时性和完整性等三个方面进行检查,同时根据入库是否异常、接收文件的时间等角度进行分析;对于业务应用系统的数据库接口,则主要从接口的及时性和一致性方面进行检查,通过比较源系统的相关指标,分析数据的可信度。 2.2数据抽取环节 数据抽取是指从数据源系统中获取数据,抽取策略包括抽取方式(增量、全量)、抽取周期等。 系统支持多种不同系统平台和数据类型的数据抽取。包括各种关系型数据库系统和各种文件格式的源数据等。 本次的数据抽取是从17个市局征管系统中把征管相关数据抽取到本系统的抽取数据层。每月初,系统17个市局征管系统将数据以数据文件的形式,完成全量复制;每天通过数据库接口通过数据抽取工具以增量复制方式完成数据同步。 2.3数据转换环节 数据转换包括格式和类型数据的转换、数据翻译、数据匹配、数据聚合以及其它复杂的计算等。多数情况下,数据源到本系统之间主要的转换是格式转换、数据翻译、数据匹配。 本次系统的数据转换主要是将各个数据源的数据按照国家税务总局的代码表进行转换,将转换的结果放到目的数据层。 2.4数据加载环节 数据加载是指将抽取转换后的数据加载到本系统中,包括数据行加载和数据块加载。在综合考虑效率和业务实现等因素基础上确定数据加载周期和数据追加策略。 2.5异常管理 主要通过计数/统计数平衡、拒绝数据量等方便评估数据复制、ETL的具体运行情况,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论