工商数据质量管理校核解决方案.doc_第1页
工商数据质量管理校核解决方案.doc_第2页
工商数据质量管理校核解决方案.doc_第3页
工商数据质量管理校核解决方案.doc_第4页
工商数据质量管理校核解决方案.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

源于数据 缔造价值 IBM Corporation 2010 All Rights Reserved IBM is a registered trademark of International Business Machines Corporation in the United States other countries or both 数据质量管理校核系统方案建议书数据质量管理校核系统方案建议书 源于数据 缔造价值 目目 录录 IBM 目目 录录 第第 1 章章摘要摘要 1 1 1我们对您的目标的理解 1 1 2我们如何帮您实现目标 方案简述 2 1 3方案价值 2 1 4成功案例 3 第第 2 章章工商数据质量管理校核系统解决方案介绍工商数据质量管理校核系统解决方案介绍 4 2 1总体架构 4 2 2功能模块 4 2 3典型配置 8 2 3 1Spss modeler 数据服务器配置说明 8 源于数据 缔造价值 第 1 页 IBM 第第 1 章章 摘要摘要 1 1我们对您的目标的理解我们对您的目标的理解 国家于 2007 年底陆续开始实施金信工程一期 依托国家电子政务网络 建立了涵盖全国市场 主体的经济户口数据库 为国家电子政务重点工程提供了有力支撑 通过数据整合 建立了为企 业监管 12315 执法和商标知识产权保护服务的专题数据库群 为各级工商行政管理部门监督 管理市场主体提供及时 准确的信息支持 建立覆盖全国各级工商行政管理机关的 12315 行政 执法信息处理网络和企业信用分类监管两类业务应用系统 整合了现有业务 优化了企业监管与 行政执法业务应用支撑系统 实现了申诉举报信息的全面采集 逐级汇总和综合利用 实现行政 执法的网上操作 网上调度指挥和网上信息流转 但是 通过数据现状分析发现还存在很多问题 各个单位都普遍存在数据缺项 冗余 不准 确等问题 为此 2010 年 总局在 关于在全国工商行政管理系统开展 数据质量建设年 活动 的通知 工商办字 2010 80 号 中 明确要求 在制定数据质量管理制度的基础上 建设数据 质量评价校核管理系统 利用先进的技术手段 进行数据质量评价校核 实施数据质量的全面检 查 目前大部分地方工商系统还没有较为成熟的数据质量管理系统 一般采用的是 SQL 拼接的方 式来进行数据质量检查 这种校核方式存在以下弊端 基于 SQL 查询比对进行数据质量管理 技术门槛高 数据质量的问题大多来源于业务部 门 而业务部门大多不能也难于操作 SQL 查询 技术门槛成为数据质量校核的一大瓶颈 基于 SQL 的查询比对基本是基于命令行的操作 参数选择和任务配置较为繁琐 很难实 现灵活的模型管理和任务流调度管理 系统架构较为死板 灵活性与开放性均较差 数据质量校核的模型管理没有专业的工具来进行 只能借助数据库的现有的工具来进行 当模型数量增加时 管理较为吃力 业务变动时或者新增需求时模型的修改与新建较为繁琐 很难进行基于统计意义的数据质量校核 例如孤立点探测 离群值探测等等 源于数据 缔造价值 第 2 页 IBM 为解决以上问题 缩短与国际先进数据管理方式的距离 数据共同打造工商数据质量管理校 核系统 引入专业的数据管理分析工具 Spss modeler 结合工商总局现有的业务规则以及各地工 商实际业务特点量身打造本系统 推进工商数据精细化和科学化 其建设目标在于 实现领先的数据质量管理理念 形成科学 实用的数据质量管理体系 数据质量校核模型体系 建立数据质量管理长效协同机制 扩展 深化数据管理内容 为进一步工商数据分析应用奠定基础 1 2我们如何帮您实现目标 方案简述 我们如何帮您实现目标 方案简述 工商数据质量管理校核系统 是为工商管理领域提供的联合解决方案 该系统针对目前工商 管理中存在的数据质量问题 例如完整性问题 一致性问题 准确性问题 规范性问题以及问题 数据的追溯反馈问题 整合了数据仓库 数据分析 数据挖掘 可视化展现以及工作流等多项信 息技术 结合了工商总局现有的业务规则设计开发数据质量完整性模型 规范性模型 准确性模 型 离群值模型 孤立点探测模型等 近 1000 条业务规则模型 涵盖目前工商市场主体 案件 12315 等基本业务主题 实现对各地方工商业务数据的全面 专业 高效的数据质量校核与监控 同时 工商数据质量管理校核系统也为进一步数据分析应用奠定了技术支撑 数据质量模型设计可视化 可视化操作 降低业务人员技术门槛 数据管理校核任务流程化 采用工作流管理模式 可方便进行模型间的组合形成工作流 同时对该工作流的调度管理按照任务管理模型进行 方便易用 问题数据追溯智能化 对于问题数据按照业务归属自动推送到相 关业务归口单位 实 现智能推送 闭环管理业务流程 标准八大业务模块 平时检查模块 集中检查模块 问题追溯模块 模型管理模块 可 视化展现模型 数据质量监测评价模块 数据质量分析模块 任务管理模块 1 3方案价值方案价值 工商数据质量管理校核系统适用于省 市 区县工商管理部门 省 市 区县工商管理部门 能够满足现有工商业务数据 质量管理的基本需求 内嵌总局规范的数据质量管理模型体系 校核规则近 1000 条 能够根据 源于数据 缔造价值 第 3 页 IBM 各地实际业务需求进行灵活定制开发 快速响应新业务需求 可以深化和扩展数据管理内容 实 现数据应用分析的扩展需求 实施本方案将为您带来如下价值 极大地提高了工商数据管理效率极大地提高了工商数据管理效率 按照工商总局实际应用统计 本系统对全国存量数据进行扫描校核 处理时间在 20 小时以内 对于周新增数据进行扫描校核 处理时间在 2 小时以内 而以往采用 SQL 进行数据质量校核 存 量校核处理时间在 3 天以上 可见 应用系统后数据质量管理效率明显提高 大大降低了数据质量管理成本大大降低了数据质量管理成本 本系统采用先进的工具软件进行模型设计 大大降低了模型设计开发与维护的技术门槛 普 通业务人员经过简单培训就可以快速上手 缩短了与技术人员交流的时间 大大降低了管理成本 同时本系统可方便进行存量数据和增量数据检查 系统针对不同业务主题进行合理的选择 实现 数据质量的增量检查和分环节检查 降低了检查负荷 提高了检查监控的频率 从而降低了检查 成本 为实现进一步数据分析应用奠定了基础为实现进一步数据分析应用奠定了基础 数据质量管理校核内嵌全面系统的总局数据质量校核模型 可大大提高现有工商数据质量 同时本系统采用的工具软件 Spss modeler 内嵌丰富先进的数据挖掘模型 可实现对现有工商数据 的深度应用分析 例如市场活跃度指数构建与分析 市场主体存活路径分析 信用风险模型体系 构建等等 1 4成功案例成功案例 国家工商总局数据质量管理校核系统 源于数据 缔造价值 第 4 页 IBM 第第 2 章章 工商数据质量管理校核系统解决方案介绍工商数据质量管理校核系统解决方案介绍 2 1总体架构总体架构 工商数据质量管理校核系统设计按照分层设计理念 分为网络通讯层 系统设施层 数据层 模型层 分析展现层 应用系统层和界面层 系统建设的同时建设数据质量评价校核的安全体系 标准体系和协作体系 具体如下图所示 图表 1 逻辑结构图 其中集中检查的外业部分采用客户端进行 客户端自身携带检查任务 检查工作流 问题数 据库 当外业工作完成后 可以将检查结果 问题数据库 提交到服务器端的问题数据库中 2 2功能模块功能模块 工商数据质量管理校核系统包括数据质量监测评价校核 问题数据追溯反馈和数据质量模型 管理三大核心模块以及前端展示模块和数据质量分析模块等组成 其中数据质量监测评价校核模块的主要功能如图 2 所示 源于数据 缔造价值 第 5 页 IBM 图 2 数据质量监测评价校核模块功能图 问题数据追溯反馈模块的主要功能如图 3 所示 图 3 问题数据追溯模块功能图 问题 数据 追溯 模块 问题数据查询 问题数据发布 修正进度监控 数据分析报告 数据 质量 监测 评价 校核 模块 平时检查 平时检查总体评价 市场主体信息 黑名单一人公司数据互联网应用 企业数据动态更新情况 数据规则统计查询 检查范围核准 源于数据 缔造价值 第 6 页 IBM 数据质量模型管理模块的功能如图 4 所示 图 4 数据质量模型管理模块功能图 数据质量前端展现主要完成对现有数据的质量分析查看 帮助深入了解数据质量主要存在的 问题 区域分布特点 业务分布特点 质量变化趋势等等 主要借助 Cognos 展现工具来实现 数据质量分析模块包括 设计评价模型 设计评估模型 使用工具软件采用 Spss modeler Spss Spss modeler 13 0 通过看我们已经做好的国家工商行政管理总局数据质量评价校核管理系统的一些截图 可以 使读者更了解本解决方案 下面的是平时检查模块的页面截图 如图 5 所示 图 5 平时检查页面截图 以下是平时检查部分的模型开发列表 如图 6 所示 数据 质量 模型 管理 模块 流文件管理 任务流调度 规则表管理 源于数据 缔造价值 第 7 页 IBM 图 6 平时检查模型开发列表图 以下是模型设计图 通过一个个的节点构成模型 如图 7 所示 图 7 模型设计图 源于数据 缔造价值 第 8 页 IBM 2 3典型配置典型配置 应用系统 工商数据质量管理校核系统 数据库 IBM DB2 数据库接口 SPSS Access Pack 提供的 ODBC 工具软件 Spss modeler Spss modeler 操作系统 Windows 2000 Windows 2003 or Windows XP 硬件平台 IBM X3850 存储系统 IBM DS4800 2 3 12 3 1 SpssSpss modelermodeler 数据服务器配置说明数据服务器配置说明 2 3 1 12 3 1 1 数量对性能的影响数量对性能的影响 每个 CPU 的核心速率都会影响到数据挖掘性能 几乎所有的数据挖掘操作 尤其是建模 更 依赖于处理器性能 因此提升 CPU 速率相应地就能给许多 Spss modeler 操作带来相应的益处 当运行多个数据流时多 CPU 或是多核 CPU 平台能够有很好的性能改善 这就意味着用户 数量是决定 CPU 数量的决定因素 多 CPU 能够提升并行处理能力 但更大的好处就在于能够支 持更多的并发用户 用户个数CPU数量 1 21 3 42 5 104 11 208 21 16 表 1 CPU 数量与用户关系的建议表 源于数据 缔造价值 第 9 页 IBM 使用 SPSS 在生产服务器上执行数据挖掘任务 CPU 的数量则要考虑同时执行的独立作业的 个数 同时建立多个模型或者把一个模型评分过程分解成多个平行步骤分派给多个 CPU 执行能够 让数据挖掘过程的性能达到最大 2 3 1 22 3 1 2 内存对性能的影响内存对性能的影响 大多数 Spss modeler 操作只需要很小的内存就能够处理大数据集 只有一些特殊的操作 如 排序 联合和建模需要把数据临时存放在内存中 如果内存不足 这些操作会把部分数据作为虚 拟内存存放在外部存储器中 此时性能会受到影响 因为磁盘的读写访问速度要远远低于内存 同 CPU 使用建议一样 用户数的多少同样对内存的需求有着密切关系 当然也与数据量的大 小有关 用户个数最小内存需求 1 21GB 3 42GB 5 104GB 11 208GB 21 16GB 表 2 内存需求与用户关系的建议表 大数据集模型建立大数据集模型建立 在数据挖掘过程中模型建立是对内存需求非常敏感的操作步骤 一般来说想要得到较好的效 果 模型建立的过程应当是在小数据集上建立多个模型 然后从中选择一个最佳模型应用 而不 是在一个大数据集上只建立一个模型 这种模型建立方式通常能够对内存的需求降到最低 虽然使用更多的数据未必能让模型的准确度更高 但是如果实际中确实需要处理大规模数据 的话 增加内存有助于性能的提升 源于数据 缔造价值 第 10 页 IBM 列数列数 行数行数 百万 百万 1010202050

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论