浅谈数据中心在我厂的应用.doc_第1页
浅谈数据中心在我厂的应用.doc_第2页
浅谈数据中心在我厂的应用.doc_第3页
浅谈数据中心在我厂的应用.doc_第4页
浅谈数据中心在我厂的应用.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浅谈数据中心在我厂的应用吴明媛 吴志骏上海烟草(集团)公司上海卷烟厂_ 【摘要】文章提出了维度建模在数据中心建设过程中的应用,并且结合卷包机台产量这个主题描述了建立维皮模型的整个过程,最后对数据中心在我厂的应用作了一些设想和展望。【关键词】业务系统 数据转储方式 维度模型 维度表 事实表_一、前言 随着我们企业近几年信息化工作的蓬勃开展,包括办公自动化的推进,各业务处理系统的开发,以及数据采集系统的建成,产生了大量纷繁复杂的数据,而且数据量正在以指数级增长。如果我们仅仅停留在数据本身的操作上,那是对数据资源的极大浪费。如何灵活、高效地获取经过规范的数据,从而科学、全面、快速地分析、挖掘这些数据,找出数据背后隐藏的规律,为企业的决策提供支持,是我们企业信息化工作开展到今天急待解决的一个问题。二、数据中心与业务系统的区别 数据中心是企业内部数据交换、存储、分析中心,是向企业各部门传递数据的一种工具,它为我们提供了获取数据的平台。数据中心不同于我们日常使用的业务系统,业务系统主要面向的是具体业务过程,它是存入数据的地方,总是按一次一条记录的方式进行数据的处理,并不断地重复这样的操作型作业。如果将业务系统直接作为面向应用的系统,那么无论是其对安全封闭运行的要求,还是共独立运行的机制都是与信息共享这个目标相互矛盾的。数据中心集成了各业务系统的数据,它是用户索取数据的地方,可以对成百上千行的跨系统的记录进行查询,这种查询并不需要事先根据用户的需求预先定制,而是以不可预期的方式进行。建立数据中心将大大提高用户对数据的获取能力,为数据的再分析、再利用提供支持。总体来说,业务系统是以事务处理为核心,而数据中心是以数据应用为核心。三、 维度建模在数据中心建设过程中的应用 数据中心由数据聚集环节和数据展示环节两部分组成(如下图所示),数据聚集环节主要实现数据的析取、转换、存储和加载,将初始操作型数据转换成适合于用户查询和使用的库结构形式。数据展示环节是为用户查询、制作报表以及数据分析型应用提供直接存取操作的场所。 这里,我们探讨的是数据聚集环节有关数据转储方式的设计问题。数据中心结构示意图 图1所示的是关于卷包机台产量的实体一关系模型,类似于蜘蛛网状的连接将数据表链接在一起,不但会让用户感到眩晕,而且运行起来速度会很慢。通过查阅相关资料后发现维度模型是为数据中心用户提交数据最可行的技术手段,是为提供决策支持的数据建立模型的最好方法。 1.维度模型与实体一关系模型的区别 实体关系模型的设计目标是消除数据冗余,其对于规范化结构的要求非常有助于操作性处理性能的提高,适用于处理事务。但是实体一关系模型的结构对数据中心的查询来说显得过于复杂,在用户的可理解性与查询的高性能性上存在诸多缺陷。 维度模型是一种星型连接模式(如图2所示),虽然也是连接关系表,但其规范化进行的程度与实体一关系模型有很大不同,维度模型的设计目标正是基于用户的可理解性和查询的高性能性,它的逻辑设计几乎可独立于预想的查询模式来完成,而且有着很好的扩展性。 2.维度模型的组成 维度模型由事实表和维度表两部分组成。 事实表是维度模型的基本表,存放业务性能度量值,通常是数字型和可加性事实。另外,事实表有两个或两个以上的外关键字,外关键字连接到维度表的主关键字,事实的存取通常要通过与事实表相连的维度表来进行。例如关于卷包机台产量,我们可以根据具体的业务处理过程建立卷接机台产量事实表、包装机台产量事实表、调试机台产量事实表、在制品下存量事实表等等。维度表是进入事实表的入口,由一个主关键字和一系列的属性组成。主关键字与事实表相应的外关键字相连。属性是查询约束条件与报表标签生成的基本来源,其质量直接影响到用户数据分析的能力,所以定义维度属性是一项非常重要的工作。与关系型数据库不同的是维度表在物理上尽量保持平面的特点,要最大限度地减少编码在维度表中的使用,用文本属性取代编码。这样做的目的是以存储空间为代价,换取用户的易理解性和查询的高性能性。图1 实体关系模型 3.维度建模的步骤 (1)选取要建立维度模型的业务处理:将实体一关系框图分解成独立的业务处理,然后对每个业务处理单独建模。例如我们将图1的ER模型分解为各个业务处理,分别是卷接机台产量、包装机台产量、调试机台产量、在制品下存量、装箱机产量等等。 (2)定义业务处理的粒度:我们将粒度定义为原子级的最细节数据,它与事实表的行相对应。通常会存在这样一种误解,即维度模型与数据中心只应用于概要性数据,从而导致设计出无法扩展的维度模型。由于业务用户的需求是无法预见的,所以必须向他们提供最细节性数据,而概要数据是作为提高查询性能的一种补充。 (3)通过设计出一套在企业范围内具有统一解释的标准化的维度与事实,建立起一个数据中心总线框架。这样做的优点在于数据中心开发团队可以按照总线规范异步地、独立地、递增地建立各个数据集市,最终构建成数据中心。例如下表显示的是数据中心总线矩阵子集,它标识了有关卷包产量的各个业务处理过程和常见维度。业务处理 维度日期维度卷接牌号维度包装牌号维度位置维度系统维度车间维度班别班次维度调度方式维度停机原因维度卷接机台产量包装机台产量在制品产量装箱机产量调试机台产量机台坏烟量机台停机记录产品入库表(4)建立维度表,列出文本属性。 下表显示的是日期维度表。日期关键字日期日期完整描述年季月日星期12004/1/12004年1月1日2004年1季度1月1日星期四22004/1/22004年1月2日2004年1季度1月2日星期五32004/1/32004年1月3日2004年1季度1月3日星期六下表显示的是位置维度表。位置关键字设备名称车间区域系统机型机种台时产量标准产量传送标志1P201二车间AA1卷接PROTOS70375000420000传送2P202二车间AA1卷接PROTOS70375000420000传送3P203二车间AA1卷接PROTOS70375000420000传送下表显示的是卷接牌号维度表。卷接牌号关键字卷接牌号标准名称烟支规格包装类型件转换率是否名优烟等级焦油含量所属系列牌号111mg硬盒中华84mm硬盒10000是甲级11mg中华211mg硬盒红双84mm硬盒10000是甲级11mg红双喜317mg硬盒上海84mm硬盒10000是甲级17mg上海上述维度表都是可以根据实际需求进行扩展的。 (5)建立事实表卷接机台产量事实表的粒度为每日每个机台每个牌号的产量。我们根据生产指挥系统中的卷接机台产量表生成卷接机台产量事实表。左图显示的是生产指挥系统中的卷接机台产量表,根据建立的维度表将物理卷接机台产量表转储成卷接机台产量事实表。日期日期键班别、班次班别班次键设备号、机台号位置键来源车号位置键牌号卷接牌号键 事实为实际产量、计划产量、下存数、付出数、收入数、机台产量、计划工时、扣除计划产量。 几个需要探讨的问题: 累计实际产量和累计计划产量是否要放入事实表:由于累计值与事实表的粒度不一致,如果将共放入事实表,在进行汇总计算时会使结果成倍增加,产生非常荒谬的结果,所以应该将其剔除在事实表之外。业务用户在查询或制作报表时可以根据实际需要将累计值计算出来。 完成率是否要放入事实表:笔者曾经认为将计算后的完成率直接放入事实表可以为业务用户的查询提供方便。但是查阅相关资料后发现,由于完成率是不可加性事实,如果将其放入事实表,在进行汇总计算时,系统会将完成率相加或简单平均,而不是进行加权平均,从而产生错误的结果。所以不应该将计算好的完成率放入事实表,业务用户可以在查询或制作报表时输入公式计算这个指标值。 机台状态作为不可加性事实按理说不应该加入事实表中,但是由于其值并不是固定不变的,而是每天都有可能发生变化,所以也不应该将其作为属性放在位置维度表中。经过权衡后,笔者认为可以建立一个机台状态维度表,在事实表中放入机台状态关键字。 车号和来源车号同时与位置维度表存在着联系,但是它们不能同时连接到位置维度表这个物理表,因为SQL会将这两路同时连接解释成相同条件的数据而引起混淆。所以应该将车号和来源车号分别连接到位置维度表的两个独立的视图上,即车号位置视图和来源车号位置视图。 (6)建立维度模型 下图显示的是为卷接机台产量这个业务过程建立的维度模型。图2 星型模式模型关系 当维度模型被加载刭数据呈现服务器后,我们可以利用数据查询工具对卷包机台产量数据进行直观的、高性能的数据检索,进行任意角度的切片;利用报表工具制作出各种格式的报告和台帐;还可以将数据导出,利用专业的数据分析工具和挖掘工具对产量数据进行更深入一步的分析和挖掘。 四、 数据中心在烟厂应用的设想 数据中心作为一个数据集市,对各业务系统的数据进行整合和优化,能实现业务数据流程的畅通,为我们提供规范、统一的数据标准。利用数据中心我们可以实现下述目标。 1.形成统一、有效的数据规范:在建立数据中心的过程中,首先要建立一整套一致性的维度和标准化的事实,它们必须经过企业统计主管部门的论证后再发布,具有一定的权威性,从而确保每位用户使用的是基于共同定义的相同指标和数据。2.取消部分手工报表:用户对报表的需求可能会随着业务系统的使用而逐步发展,由于业务系统的报表需要预先定制,包括数据源和报表样式,所以当业务系统验收结束后如果再提出开发报表需求,会经历一个比较长期的过程,包括项目立项、需求分析、需求调研,程序开发等阶段。目前部分手工报表无法取消正是因为系统没有再做后续开发,例如一些考核表和台帐等。数据中心建成后,用户无需任何关于数据库方面的知识就可以自行从中抓取系统数据,利用Business objects等报表生成工具定制出各种报表,并发布到网上共享。可以说建立数据中心是取消部分手工报表的前提。 3业务处理系统与数据资源管理系统相分离:变化较大、灵活性较强的报表系统、台帐系统、分析功能和管理模块(例如考核管理模块等)可以不再由业务系统开发,而是在数据中心实现。这样,业务系统将专注于数据的生成、流转和校验,而数据中心将专注于数据的展现和分析。 4统计口径变化凸显灵活性:生产过程中各因素变化常常会导致统计口径改变,从而造成诸如历史数据的统计口径被新口径所替代等问题,使数据的准确性得不到保障。数据中心建成后,我们不仅可以通过数据中心及时记录历史数据的方式,实现统计口径变化的灵活性,还可以通过历史统计口径备忘录,追溯历史统计口径的变化,使统计田径变化建立在规范和受控的范围内,为进一步提升数据基础管理工作奠定基础。 5为数据的分析应用提供有力保障:用户随时可以从数据中心抓取各业务系统数据,并利用SAS、MINITAB等统计分析工具进行各种深入的分析,而不会因为拿不到数据而觉得无从着手,或者因为频繁读取数据库服务器的信息而影响业务系统的性能。 6随着产销集成、物料、质量集成等系统的相继开发,卷烟制造的产、质、损信息将会更加完整,将这些数据纳入数据中心后,信息不再是一个个孤岛,而是可以追溯的有机整体,将它们串联起来分析,可以揭示数据背后更多的规律,使跟踪产品质量成为可能。另外,数据中心可以保留长期大量的有效数据,我们可以沿着时间坐标追溯,进行跟踪和预测。 7数据中心的建立可以解决原来业务系统数据的迁移问题。由于职责的分离和明确,业务系统将不再保留大量的历史数据而由数据中心统一保存,而且查询的职能也将由数据中心承担,这样生产指挥系统的效率会大大提高,而海量数据的保存和灵活快速的查询也正是数据中心的强项所在。 五、结束语 数据中心一旦在烟厂建立完成后,可以将全厂乃至全公司的数据汇总在一起,如此不但将规范各部门对数据的获取途径、简化获取过程,还可为我们进行多层面的数据分析应用提供数据平台。但是由于数据中心的工作在我厂的开展只是刚刚起步,还有许多实际的问题有待解决,因此我们只能在此对数据中心的应用提出一些自己的看法。希望数据中心在建成以后,能为烟厂的数据保存、获取及应用分析工作提供最大的帮助。 【参考文献】 1数据仓库生命周期工具箱 电子工业出版社 肖明王永红【点评】 论文对数据中心在卷烟

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论