中国联通经营分析系统技术规范_第1页
中国联通经营分析系统技术规范_第2页
中国联通经营分析系统技术规范_第3页
中国联通经营分析系统技术规范_第4页
中国联通经营分析系统技术规范_第5页
已阅读5页,还剩165页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

开始开始报表级指标值域的核对数据核查模块处理系统内异常异常异常结束正常报告生产系统错误正常数据质量问题处理流程当发现任何数据质量问题时,需要进入此流程。根据数据质量问题的原因,可以进入不同的处理流程:如果是经营分析系统内部问题,即转入经营分析系统变更处理流程;如果判断为不是经营分系统内部问题,则提交数据质量事件报告,申请数据质量小组协调,数据质量小组评估数据质量事件报告,确定责任归属。数据质量小组中业务系统接口员由各个业务系统的代表担任,在评估过程中,各业务系统的代表应该提供业务系统的实际情况,并结合自身的业务系统经验,协助数据质量小组确定问题的根本原因。责任确定以后,确定的责任归属业务系统的代表应该推动相应的业务系统修改相应的系统,并在系统修改完毕以后,发业务系统变更通知到经营分析系统,经营分析系统根据业务系统变更通知进入系统变更处理流程。最后,对于已经发生错误的数据,则进入错误数据维护流程。数据质量事件报告:基本要素包括报告时间,报告人,报告原因,问题详细描述,是否发生过的问题,问题发生的节点,估计发生错误的业务系统,估计发生错误的原因,错误影响的数据,错误数据影响(在数据的下游,哪些衍生数据需要重新生成,哪些报表需要重做)等。变更处理流程可能有3种类型的原因导致进入此流程:经营分析系统内部数据异常:如果经营分析系统中发生数据质量问题,并且可以确认数据质量问题是由于经营分析内部的处理错误所致。本流程从管理和技术两个方面规范数据异常事件的处理流程,以确保整个流程中的任何数据异常事件都能得到正确及时的处理,并保证类似的质量问题不会重复发生。为了应对市场环境的变化,经营分析系统增加功能模块,版本升级等都可以引发经营分析系统变更处理流程。业务系统也是一直处在不断的发展变化中,业务系统的变化也可能引发本流程。业务系统的变更将产生业务系统变更通知,要求通知必须是及时的,通知内容必须是足够的。业务系统变更通知:基本要素括变更发起业务系统,变更时间,变更原因、变更影响的数据结构,变更影响的数据接口文件,变更内容(新增加的数据字段,新增加业务代码,变更业务代码等),业务变更详细描述。错误数据维护流程在系统中由于历史原因导致了现有数据库中数据存在错误,需要进行维护。错误数据的维护必须得到数据质量管理员的同意,并在维护完成后提交数据维护报告,数据质量管理员可以采取适当的检查以验证数据维护操作的执行情况。数据维护报告:维护时间,维护人,维护原因,维护方法(维护程序代码,手工/自动),检查方式(如何判断维护成功完成,错误的数据已经修改为正确的数据,而且维护不会影响到正确的数据),维护内容(表名,字段名,本次维护影响的记录数),检查人,检查的结果,在数据的下游,本次维护所涉及数据的衍生数据是否已经重新生成,需要重做的报表是否已经重做等。统计口径差异控制流程统计口径对于经营分析系统具有重要的意义,系统之间的统计口径的差异会对经营分析系统的实施产生很大影响。发生统计口径差异问题进入本流程,主要包括以下几种情况:经营分析系统报表某个指标统计结果与业务系统报表的对应指标统计结果存在差异,经营分析系统通过自身检查,认为经营分析系统的计算并无错误,而且通过数据质量小组的协调活动,确定业务系统向经营分析系统提供的数据接口文件也没有问题,经营分析系统怀疑是统计口径差异所致,向数据质量小组提交统计口径差异问题报告。经营分析系统的使用者和经营分析系统建设或者维护单位之间对统计口径的理解产生分歧,其中任何一方都可以向数据质量管理员提交统计口径差异问题报告。数据质量管理员接受统计口径差异问题报告,判断是否已经确定的统计口径(已经确定的/企业内有明确的文档明确规定的),如果不是,则需要通过数据质量小组协调。数据质量小组中包含了各部门的代表,数据质量管理员要求相关的系统或者业务部门的代表提供本部门对该统计口径的定义,理解,计算办法,计算公式,并确定关注和使用该统计口径的部门。统计口径应该以该统计口径的定义和使用部门的解释为准。如果有多个部门对同一个统计口径的给出了不同的定义,并且使用了该统计口径,数据质量管理员应该申请更高层次的协调。统计口径差异问题报告:基本要素包括报告时间,报告人,统计口径名称,统计口径描述,报告人理解的统计口径计算公式,关注统计口径的部门,定义统计口径的部门,统计口径差异情况(双方的理解差异情况都可以记录)等。管理流程及相关标准的检查检查的内容主要包括:有针对常见数据质量问题建立的管理流程和机制;有对各管理流程的具体执行步骤描述;有明确的数据质量标准及检测办法;管理流程定期检查应生成以下报告:管理流程报告:基本要素包括报告时间,报告人,管理流程完成时间,管理流程完成情况,管理流程相关子流程文档编号等。管理流程变更应生成以下报告:管理流程变更报告:基本要素包括报告时间,报告人,变更时间,变更原因、变更前流程内容,变更后流程内容,变更切换计划描述等。质量管理运作的检查检查的内容主要包括:每月、季度发布数据质量状况报告;有数据质量问题处理记录;有数据质量问题结果监测和评估记录;有每月、季度进行数据质量抽测和评估报告;有每月维护和更新数据质量标准等规则性文档;有每月对系统业务和设计完备性的评估报告;保证数据质量的技术手段保证数据质量通常从统一管理和验证检查两方面进行详细的设计。元数据作为数据仓库统一的数据描述,在数据质量管理中起着非常关键的作用。所以元数据的统一管理是保证数据质量的前提和条件。另一方面,在数据进入数据仓库时,我们还要设置多个控制点,进行数据质量的验证检查,以保证错误和脏数据及时的被发现和修正。元数据的统一管理元数据类型元数据是描述数据的数据。按照元数据的使用情况和面向对象的不同,元数据分为业务元数据、技术元数据和操作元数据。操作元数据指与操作系统和数据库管理系统等相关的数据。业务元数据业务元数据用业务术语、名称、定义等描述来表示数据仓库和业务系统中的各种项目或属性,直接供业务人员使用。业务元数据使经营分析系统使用人员能够更好理解、使用经营分析系统。经营分析系统以及相关各个系统的业务元数据的统一,保证了各个系统使用人员对术语一致的理解,避免了对指标,角度等分析内容的理解歧异性。这些信息包括:报表和查询结果的格式定义信息。内部字段到页面数据显示字段的名字的翻译信息。指标维度的定义信息等。技术元数据技术元数据包含关于数据仓库数据的技术层面的信息,描述了数据源、数据转换、抽取过程、加载策略以及目标数据库的数据格式定义等。技术元数据主要供信息系统人员,用来统一描述各个相关系统以及经营分析系统内部数据的对应关系以及相互影响。技术元数据可以用来进行分析源系统数据变化对经营分析系统数据的影响,使经营分析系统数据及时、正确地得到应用和维护。这些信息包括:接口的信息:包括接口的对象名称,格式,抽取周期等。ODS以及数据仓库信息:包括所有的定义,维度、度量、层次、属性的定义等。数据仓库对象的映射信息,用于构造ETL操作的信息,ETL操作的调度和控制信息元数据统一管理要求元数据管理涉及到经营分析系统接口,抽取,转换,加载,ODS,数据仓库等各个层次以及设计、开发、维护的整个生命周期,是数据仓库构建过程中十分重要的一环。元数据管理应达到以下要求:提供图形化元数据管理工具,通过在数据库中储存和管理元数据,使得对数据源、目标及转换规则的数据描述的管理更简便;元数据交换:能够导入和导出系统元数据,并支持以XML等标准进行数据交换。元数据集中控制:元数据为整个经营分析系统的信息资源提供了记录,应对元数据集中管理控制,以确保信息的一致性和准确性。数据质量验证数据质量验证是发现数据质量问题的直接方式,通过对数据各个阶段的检查,能够有效、及时地发现数据中存在的质量问题。数据稽核的方法分为:总量稽核和分量稽核。总量稽核:在ETL的两个相邻环节中,对数据总量进行验证,包括:总记录数、所有度量指标的总值、均值。总量正确说明在本次ETL环节中数据没有丢失,没有不符合业务规则的脏数据被装载进来。如果总量不正确,则需要检查本环节装载日志中是否有被丢弃的记录。如果没有数据被丢弃,则需要检查数据运算规则是否正确。分量稽核:在总量稽核正确的情况下,需要对数据的分布情况进行稽核,即对某个度量在所有维度上的分布进行查询。如果度量在每个维度上的分布都正确,则在进行组合查询时数据的结果也是正确的,可以保证OLAP分析的正确性。为了发现数据质量问题,必须从各个环节上分别采取相应的数据质量检查措施,按照数据处理的主要流程,包括三个检查步骤:接口数据的检查、数据仓库的检查以及数据展现的检查。接口数据的检查接口数据提供可以是以文件的形式提供也可以是以数据表的形式提供,因此检查针对接口文件和接口数据表。通过对接口数据完整性和及时性等方面的检查及时发现问题,以保证在数据在进入数据仓库之前不存在明显的数据质量问题和隐患。接口文件的检查主要包括对文件格式、文件大小、记录长度、传送数量等方面的检查;接口表的检查主要包括对表的属性、数据时间等方面的检查;数据仓库的检查数据仓库检查是对进入数据仓库的数据进行数据完整性、一致性、正确性和及时性方面的检查,以保证数据仓库内部的数据不存在数据质量问题。指标的检查数据展现的检查主要检查数据的正确性方面存在的质量问题;以保证数据能够真实反映业务实情。接口文件检查接口文件的数据质量检查通过文件传送及时率、文件传送完整率、文件加载正确率、文件记录合法率四个指标的检查来实现。接口文件检查的内容是源数据以文件方式提供给经营分析系统的所有接口。其中对于详单、帐单等每天多个文件以最后文件的信息为准。文件传送及时率在接口规范中规定的文件传送时间窗口内传送至经营分析系统的文件个数百分比。计算公式:文件传送及时率=(每日在规定时间窗口内传送至经营分析系统的文件个数/每日应传送至经营分析系统的文件个数)*100%。检查方法:在规定时间窗口内传送至经营分析系统的文件个数的获取方法:接口文件在ETL服务器上会保留一定时间,因此可以到ETL服务器的文件保存目录下查看指定日期的文件生成时间即文件传送到经营分析系统的时间。将文件按照源系统分类,然后将文件按照生成时间排序,生成时间在时间窗口之前的文件总数即为在规定时间窗口内传送至经营分析系统的文件个数。文件加载正确率每日接口文件加载到经营分析系统时的正确百分比。计算公式:文件加载正确率=(加载正确的接口文件个数/接口文件的总个数)*100%。检查方法:加载正确的接口文件个数获取办法:在ETL加载任务过程中,加载正确的文件与加载失败的文件是区别放置的,直接到加载正确的文件保存目录,选中所有的文件,系统会在状态栏显示当前选中的文件个数,即为加载正确的接口文件个数。文件记录合法率接口文件记录中能够正确加载的记录的百分比。计算公式:文件记录合法率=(接口文件中正确加载的记录数/接口文件中记录总数)*100%。检查方法:接口文件中数据项均合法的记录数与接口文件中记录总数获取方法:在ETL日志中有文件加载时处理的总记录数、正确记录数、错误记录数等信息,因此只要提取正确记录数、总记录数即可。数据仓库检查在数据仓库检查中,一般是采用抽样的方式选取一部分主要实体,对实体数据的合法性、完整性、一致性进行检查。检查的方法可以通过在数据仓库中直接运行SQL语句的方式得到。实体主键取值合法性实体主键取值合法性检查:检查在满足限定条件的情况下,某个数据仓库实体中是否存在主键值重复或为空的记录。计算公式:实体主键合法率=(实体中主键取值合法(唯一并非空)的记录数/实体总记录数)*100%。关键属性的完整率实体关键属性完整率检查用于检查数据仓库实体的各关键属性是否存在相应的代码表。计算公式:关键属性的完整率=(实体中关键属性有对应代码表的属性个数/实体关键属性个数)*100%。关键属性合法率实体属性合法率检查:用于检查在满足限定条件的情况下,数据仓库实体的各关键属性的取值是否存在为空(NULL)、未知、不详或不符合相应的约束条件的记录。计算公式:属性合法记录的百分比=(属性取值符合约束条件的记录数/实体总记录数)*100%属性合法率=(∑(实体中各个属性合法记录的百分比)/实体属性个数)*100%外键取值合法率外键及其取值合法率检查:用于检查在满足限定条件的情况下,数据仓库实体中各外键的取值是否符合对应主表值域范围。计算公式:属性取值未超出外键值域范围的百分比=(属性取值未超出值域的记录数/总记录数)*100%外键取值合法率=(∑(实体中各个属性取值未超出外键值域范的百分比)/实体中存在外键关系的属性个数)*100%指标检查指标处理及时率指标处理的及时率是指每日或者每月的数据指标的生成是否及时。指标处理的及时率主要检查全部指标在规定时间内,完成数据处理指标数占总抽样指标的百分比。检查时采取抽样方式,在规定的检查时间点从经营分析系统前台展现结果或者在经营分析系统的报表中提取抽样数据指标是否处理的标志,然后用展现的指标数/抽样指标数,计算参见计算公式。计算公式:指标处理及时率=(每日或者月在规定时间窗口内完成数据处理的指标数/接受检查的指标个数)*100%。数据指标准确性和一致性数据指标的准确性和一致性的检查主要是数据指标误差率。按照总量稽核的方法,从经营分析系统前台展现结果或者经营分析系统的报表中提取数据指标的值,与标准核对值进行总量对比。按照分量稽核的方法,采取指标抽样方式,对样本指标值进行分量稽核。检查指标在各个维度上的分布,与标准核对值进行对比。计算公式:指标误差率=((标准核对值-检查取得数值)/标准核对值)*100%促进使用的技术措施只有经营分析系统被充分使用了,才能不断的获取新的需求和改进建议并在此基础上逐步完善,经营分析系统才能体现出其巨大的价值,并进一步促进系统的使用。系统的使用涉及到了制度、管理和技术等诸多方面,本节将就技术方面应采取的措施加以规范,以便形成良性循环,同时也对其他手段、措施的实行提供有力的支持。促进系统使用的方案为了促进系统的使用,经营分析系统要满足各级用户的需求,特别是迫切的报表查询,分析等前期遗留的功能。从技术上看,在理解和解决用户要求的同时,着重处理好功能性和可用性两个方面,即保证给用户提供强大功能的同时,也要给用户提供易用的方式。此外,经营分析系统可以建立激励积分子系统,主动吸引用户使用。功能性功能性是指产品完成任务的能力。产品能完成更多的任务,那么产品的功能性就越强。具体的说,经营分析系统要满足以下功能性要求:客户端零维护管理Web方式的客户端软件能实现自动安装和升级,无需技术人员介入,系统自动提示用户安装最新的版本,减少业务用户的管理工作,方便使用。灵活的报表功能由于业务和管理的需求不断变化,许多需求在系统设计之初不会考虑到,因此需要在用户页面前端展现中,既能按照总部和本地化需求,开发出满足需求的定制报表,也能利用客户端快速的开发出新的自定义报表。报表格式和结果能迅速以所见即所得方式进行显示。针对相同的报表数据需求,报表可根据需要打印、常见文件格式输出、email输出、Web发布等,而不需要分别生成查询数据。强大的交互式分析和丰富的展现功能。除已预先设计的各类多维分析之外,应能由分析人员通过向导等方式方便地建立定制的分析指标,实现OLAP分析的动态化处理。具有切片、切块、旋转、钻取和钻透等多维分析基本操作。具有数据表格和图形在同一张报表中同时在线分析、同时显示、同时发布到门户Web上,并在同一张报表上打印输出的功能。具有丰富的分析功能。如最优/最差分析、例外分析、排名分析、比较分析等。具有对分析指标指定警告值的功能,在分析报表或图形中以突出方式进行显示,并能通过email或Web等方式自动将相关分析数据发送给预定的分析和决策人员。完整的安全性设计不仅可按使用人员的访问权限和职责范围进行分组,对各类分析报表权限分配,而且可将访问权限控制到数据细粒度单元级。使得经营分析系统在完整的安全性策略的基础上,实现各种分析需求。良好的可扩展性系统应该建立在可扩展的体系结构上,支持多服务器之间的负载平衡、支持服务器的容错、支持大数据量、多用户和并行访问。针对存储和查询速度,提供多种优化手段灵活的即席查询功能提供语义层,将复杂的数据库技术对应为熟悉的商业术语,经营分析系统使用人员无需了解数据库中数据结构和SQL的复杂性,只需按业务逻辑规则就可快速简洁地定义查询需求,系统自动完成连接操作、条件定义等复杂的SQL定义操作。访问结果也能输出到多种通用文件格式中。能够监控查询的运行进程,可以停止长时间运行的查询,控制资源使用效率。具有查询预测能力,能够在运行查询之前,告诉查询所需时间。可靠的数据质量保障功能数据的质量关系到经营分析系统的成败,它不仅包括输入数据的格式合法性,还包含数据的一致性和完整性以及业务规则的合理性。要重视数据清洗工作,只有可靠的数据,才能保证分析统计结果的准确性。可用性可用性是一个衡量标准,用来衡量使用一个产品完成指定任务的难易程度。系统的开发过程应该把用户而非系统置于中心地位,从设计过程的开端便把用户所关注的东西包含于其中,并规定用户应该是任何设计决定中最重要的因素。在可用性测试中,需要用户对产品界面进行交互式的测试,并与开发、设计人员交流他们的观点和所关注的问题。具体地说,在可用性方面,经营分析系统应当至少满足:统一的展示界面和个性化的展示内容集成查询、分析、报表功能于一体,并为各种平台下的客户/服务器方式和Web方式的用户提供一个统一的界面,易于掌握熟悉。同时要结合不同使用者的特定要求展现相关内容,做到内容的可定制化,提供向导帮助用户或管理员快速设置用户界面的展示内容。丰富的帮助提示提供各种向导式界面、联机帮助、提示窗口等,使业务人员无需经过专业的培训,通过简单的鼠标拖拉操作即可实现查询、分析和发布等大部分功能。在联机帮助文档中不但要有系统的使用介绍,还有业务介绍,分析方法介绍,分析主题、专题的介绍。联机帮助根据业务发展的需要可以进行更新。安全可靠性提供两层数据安全管理,一层是数据库的安全性,可以充分利用现有数据库的安全性功能提供一致的安全管理;另一层是展示部分独立的安全性,更加灵活的配置用户资源的可见性。离线分析和速度信息可以存储在本地进行分析处理,包括排序、统计,下钻等各种分析,而不需要与数据库连接,拓宽了系统的使用范围,也减轻经营分析系统压力。响应及时性在对存储空间具有较高利用率的基础上,能及时响应使用者的各种应用,以达到使用者对系统所提供服务与支持的满意度。关键绩效指标预警在经营分析系统中,应该能够快速设置可反映当前市场的KPI,以及他们的预警值,预警信息可以根据特定用户的要求发送到用户邮箱或在自定义门户(Portal)中,也可打印正式呈报给管理层,由管理层作出正确战略决策。信息导航提供信息检索功能,按照用户输入的查询关键字检索并显示相应的分析主题。主动分发报表数据或系统分析的结果,可以通过多种方式推送给用户,如打印,WEB,EMAIL,短信,WAP等在线交流系统应提供用户在线交流能力。分析报告多维分析角度比较多、分析范围比较广,内容含量很大,要想有明确的分析目标就要求使用人员具有较高的业务分析能力。在二期建设中,可以根据需要重点生成一些分析报告:对一些典型的应用分析进行流程化的解析,生成一个包含分析数据和分析结果的文档。通过将分析的方法和思路等传达给每一位使用人员,使大家逐步理解和加深分析,进而可以举一反三,自主的进行其他内容的分析。激励性经营分析系统应保留对用户登陆以及使用主题分析的日志,用来分析统计用户对经营分析系统的依赖程度,为鼓励使用,可以考虑每次登陆给一定的积分,当达到一定的积分的时候,给予鼓励。系统使用情况统计系统日志WEB应用系统和数据库系统应当提供日志功能,而且用户可以配置日志的具体粒度。日志功能使信息技术部门可以对用户的活动进行分析,以找出使用高峰,使用数据表和模型的情况,以及查询的运行时间和数据量,这使得信息技术部门能够调节数据库的运行,建立一些公共的标准模式和报表,并且指导那些用低效率的查询”阻塞”网络的用户。应用日志为便于分析用户使用系统的特征,统计前端对象的使用情况,前端设计开发中,建议包含日志功能,建立独立的存储结构存储这些信息,为今后的统计和利用奠定基础。应用日志应包括:系统点击率:通过对不同报表、不同多维分析以及即席查询的点击率统计,了解用户对不同分析手段的偏好,以及用户关心的热点问题。热点用户群:通过了解不同职能部门、不同用户角色对系统的访问点击率、访问停留时间,了解不同职能部门中用户的使用情况。并可以进一步了数据仓库系统在哪些部门的使用情况比较好,在哪些部门的推广效果不佳;以及特定部门、特定用户角色所关心的分析主题/专题,以及他们关心的业务问题。系统登陆日志:系统自动记录用户登陆情况。系统根据用户登陆日志自动生成系统使用日报,周报,月报等。如统计每个员工登陆情况以及排名,每个部门系统登陆情况以及排名,每个地区系统登陆情况以及排名等。系统配置估算系统存储要求估算经营分析系统的存储主要由三部分构成,按照经营分析系统功能结构,自上而下分别是:多维数据存储,数据仓库存储,接口文件存储。总的存储是这三部分的和。令T为系统的存储总量,Ta为多维数据存储所需的存储量,Td为数据仓库存储所需的存储量,Ti为接口文件存储所需的存储量,三者单位均为GB(230Byte),则T=Ta+Td+Ti接口文件存储所需的存储量(Ti)接口文件存储区主要用于存放生产系统传送到经营分析系统的数据文件和一些经验分析系统从其他系统抽取的部分数据文档。所占存储空间最大的是用户详单文件,其他类型的文件数据量可以按详单文件数据量的一定比例来计算。由此可得出如下公式:Ti=U*(1+Pi)*Ni*Nu其中,U为单个用户每天的详单数据量,单位为GBPi为其他类型文件所占比例因子,通常可取0.05Ni为接口文件在经营分析系统中的保存天数,考虑到目前系统不太稳定,建议取值为7,待日后系统稳定后可缩减Nu为用户数量单用户每天详单数据量(U)单用户每天详单数据包括语音话单数据,来访漫游数据,数据业务、新业务数据,网间结算数据,193、165业务数据等,其中占存储空间较大的是语音话单数据,其他的数据可以按照一定的比例因子折合到语音话单数据。总的数据量可按如下公式计算:U=Ncdr*Dcdr*(1+Pr+Pd+Pl+(1+Pd)*Ps)其中,Ncdr为每用户每天话单数量,一般可取8D为每条话单的数据量,单位为GB,一般为230*2-30Pr为漫游数据因子,一般取0.1Pd为数据业务、新业务数据因子,一般取0.2Pl为193、165业务数据因子,一般取0.2Ps为结算数据因子,结算数据和语音、数据业务之和成比例,一般取0.5数据仓库所需存储量(Td)计算数据仓库所需的存储量,主要考虑ODS层和DW层存储所需的磁盘空间,其中ODS层占用绝大部分。这里需要考虑承载数据的数据库系统、文件系统、RAID、数据冗余等对存储的影响。这些系统所占用的空间都将折合成所需存储的纯数据量的比例因子。这里的纯数据由两部分构成:用户详单数据和客户资料数据。其中用户详单数据量可以由用户数,存储时间和单用户每天数据量得到,单用户每天数据量的计算公式已经在上节得出。则有如下公式:Td=(C+U*Nd)*Nu*Pdb*Praid*Pfs*Predu其中,C为客户资料数据量U为单用户每天数量数据量Nu为用户数量Pdb为数据库相关因子Praid为RAID相关因子Pfs为文件系统和软件相关因子Predu为系统冗余因子客户资料数据量(C)客户资料数据包括用户档案、开户记录、缴费记录、变更记录、欠费记录等。一般假设客户档案和开户记录不变,则单客户的客户资料可按如下公式计算:C=Dbas+Dscr+(Dpay*Pp+Dchg*Pc+Dowe*Po)*Nmon其中,C为Nmon个月的客户资料Dbas为用户档案数据量,单位为GB。Dscr为开户记录数据量,单位为GB。Dpay为缴费记录数据量,单位为GB。Dchg为变更记录数据量,单位为GB。Dowe为欠费记录数据量,单位为GB。缴费记录、变更记录和欠费记录根据实际情况都是以月为计量单位的。Pp为缴费记录因子,即平均每月每用户缴费记录数Pc为变更记录因子Po为欠费记录因子多维数据存储所需存储量(Ta)这部分所占的存储空间和应用相关,主要是多维分析所需要的磁盘空间。空间的大小取决于分析的业务数量、维度数量和层次、分类等因素,还和具体采用的产品相关。凡是和时间相关的多维分析,其所占用的空间计算公式如下:Ta=(Dmea+Ddim*Ndim)*Nserv*Nfact*(Nserdim^Nlev^Ntype)*Ptdim*Nkp*Ncpr其中,Dmea为事实表中度量字段的平均数据量,单位为GBDdim为事实表中维度字段的平均数据量,单位为GBNdim为事实表中维度字段的平均个数Nserv为多维分析业务类型平均个数Nfact为每个业务类型分析的事实表平均个数Nserdim为事实表中除时间维外的维度个数,一般为Ndim-1Nlev为事实表中维度的平均层次数Ntype为事实表中每个维度层次的平均类型个数Ptdim为时间维因子,如果分析到日,则为365,到月为12Nkp为数据保存周期,单位是年Ncpr为多维数据压缩因子,和具体的产品有关经营分析系统数据备份要求(×)主机性能要求估算模型数据生成工作流程分析正如上图所示,联通经营分析系统后台数据生成工作包括以下工作内容:将数据抽取至(或生产系统将数据传送到)数据接口区;数据加载/清洗/转换(ETL),生成中央数据仓库;从中央数据仓库生成数据集市;从数据集市生成OLAP&MDB数据模型;从中央数据仓库获取数据挖掘样本数据。相应地,系统中需要的主机平台在逻辑上划分为数据抽取服务器、ETL/数据仓库管理服务器、OLAP服务器、数据挖掘服务器、WEB服务器等。建议将数据抽取、ETL以及生成数据集市工作在ETL/数据仓库管理服务器(以下简称数据仓库服务器)上实现逻辑功能的集成;生成OLAP&MDB数据模型工作由OLAP服务器完成;数据挖掘样本数据由数据仓库管理服务器生成并传送给数据挖掘服务器。生成数据挖掘样本数据的工作与生成OLAP&MDB数据模型工作可以为并行机制。假设经营分析系统需要在5个小时内完成上述所有数据生成的工作,从设备综合效率的角度出发,我们建议抽取工作在1个小时之内完成,ETL在2个小时之内完成,生成数据集市在1个小时之内完成,生成OLAP数据模型在1个小时之内完成,数据挖掘样本数据的获取工作与生成OLAP数据模型工作同步进行。数据仓库服务器处理能力需求分析数据仓库服务器主要的处理工作包括以下方面:接收生产系统提供的源数据或从其他系统抽取数据。(我们将这个工作简称为W1)将接口文件包含的数据进行格式转换,进行数据清洗,重新整理,并与客户资料配合生成新格式的记录插入数据库或形成的文件,装载入数据仓库中,整个过程要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论