【新版】烟草专卖行业数据综合分析应用项目可行性研究报告_第1页
【新版】烟草专卖行业数据综合分析应用项目可行性研究报告_第2页
【新版】烟草专卖行业数据综合分析应用项目可行性研究报告_第3页
【新版】烟草专卖行业数据综合分析应用项目可行性研究报告_第4页
【新版】烟草专卖行业数据综合分析应用项目可行性研究报告_第5页
已阅读5页,还剩27页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 烟草专卖行业数据综合分析应用可行性研究报告目录 TOC o 1-5 h z 一、建设背景 3二、建设思路 3三、建设目标 4四、总体设计 4、设计原则 4、设计思路 64.3、总体架构 7五、系统实现 75.1、整合内容 75.2、采集处理方式 8、数据采集 8、数据整合 1.0、数据应用 1.7、应用定制 1.7、数据展现 2.5、应用主题数据 2.6.、主要功能 2.6、数据来源管理 2.6.、主题和指标管理 2.7.、报表定制 2.7、图表定制 2.8、热点定制 2.8、连接资源管理 2.8.、页面定制 2.9、用户及角色管理 2.9.六、系统价值 2.9 、企业报表 2.9、主题分析

2、 3.0、运营监控 3.1.七、成功案例 错误. !未定义书签。、河北省省级卫生数据整合共享和综合信息管理平台 错误!未定义书签。、国药乐仁堂信息采集整合展现管理平台 错误!未定义书签。八、公司及产品优势 错误!未定义书签。、公司优势 错.误. !未定义书签。、产品特色 错.误. !未定义书签。、建设背景近几年,中国烟草行业信息化飞速发展,各个企业目前己经基本完成了基础 设施建设和业务系统建设,如营销系统、专卖系统、物流系统、财务系统、0A系统等。这些信息系统之间相对独立,缺乏有机联系,形成了信息孤岛,无法做 到信息资源的共享,进而影响了许多正常业务的效率。由于各单位前期在实施信 息系统过程中

3、分别采用了各自的系统标准, 因而导致了现有各信息系统之间很难 做到“无缝连接”,并且在各系统间存在大量的“手工连接”,进而造成大量的信 息失真和信息延时,这种情况还对信息管理部门增加了很多工作量, 每天为数据 而忙碌。同时各业务系统侧重于业务处理, 不能进行充分的价值挖掘,缺乏为企 业领导或业务处室的综合分析、宏观决策提供有力支持。因此,在烟草企业数据 综合分析应用系统的建设与完善就显得尤为重要。二、建设思路三、建设目标通过建立烟草数据综合分析应用系统, 实现收集目前的营销系统、 专卖系统、 物流系统、财务系统、 0A 系统等以及其他业务系统的相关数据,并对数据进行 整合,加工形成涵盖管理、采

4、购、客服、物流、质管、运营、财务七大领域的信 息域,并对信息进行多维度的综合展现, 提供各业务所需的综合报表, 从而充分 挖掘利用现有信息资源, 为领导提供决策支持, 并更好的为各业务科室和一线业 务人员服务。四、总体设计、设计原则本项目在系统设计、 软硬件采购、 应用开发、 系统集成和服务过程中应采用 已有的国家标准、 行业标准和主流国际标准, 遵循但不仅限于下列标准体系和要 求:烟草行业信息化标准体系及其有关标准烟草行业信息化建设统一技术平台要求烟草行业数字证书应用接口规范烟草行业信息系统安全等级保护定级指南国家 SOA 标准体系 除了遵循上述标准,在整个项目设计开发过程中,需要遵守下面的

5、 5 项原 则。技术的先进性系统应采用先进成熟的技术,以保证投资的有效性和延续性。支持常用的操作系统平台、常用的数据库系统、常用的应用服务器平台 和常用的开发工具,与 XX 烟草现有系统互联互通,以保证系统的兼容 性。系统的稳定性保证系统能够正常运作,系统应能够7 X24小时连续稳定工作。软件版本升级或改进应在不影响业务的情况下进行, 保证系统可以稳定、 平滑过渡。系统可维护性 系统应能使系统管理员集中方便地配置、监视、控制、诊断整个系统, 并且能够监视和控制用户情况、提高效率、消除隐患。 对于系统各功能模块的配置、控制、监视、诊断等工作能够通过专用的 系统管理工具方便的进行,无须进行专门的编

6、码工作。数据中心系统将按照集中的模式进行部署, 因此对系统处理并发任务的 能力提出了很高的要求, 投标方需要提供大规模并发流量的处理机制以 及发生性能问题时的解决方案; 并提供实时交易量 (并发交易量及其硬件 配置 )和并发用户量 (并发用户数及硬件配置 )的相关测试报告和案例说 明;系统安全性 系统应保证信息的安全性,即保证此系统中的信息能够安全存储,并有 良好的数据备份和快速恢复方案; 采用分级的安全体系,保证数据在处理和传输全过程的安全性。系统支 持对关键的信息(如:用户密码)进行加密保存,同时支持对一些比较重要的业务数据在传送和存储过程中进行加密保护; 保证系统中的信息不被非授权用户访

7、问, 按组织结构划分操作人员的操 作权限,使用烟草办公自动化系统的用户身份认证系统,且各种使用权 限所能调用的应用软件模块可按要求灵活配置; 系统在身份认证方面支持多种的认证手段,如:口令认证、数字证书认 证等; 系统支持基于角色和基于资源的授权方式,支持用户到角色的映射,并 采用角色的身份来控制对特定操作的访问权,支持层次化,结构化和区 域化的角色设定; 系统需要有对系统数据的关键操作(如授权操作、流程环节变更)进行 追踪和回溯的能力;、设计思路1、模块化的系统结构系统结构采用三层(3-tier )或多层(N-tier )设计模型;设计模式为B/S模 式。由合理分划、边界清晰的子系统和模块组

8、成,形成组装式、插件式的体系结 构,以利于系统的升级、扩充和发展。支持业务流程的可调整性;支持业务信息 的可调整性和延续性。2、面向服务的整体架构( SOA ) 系统模块都是向系统内部和外部提供服务的逻辑单元; 采用标准的协议提供服务。采用松耦合的机制与外部系统进行信息交换和系统之间的互操作。3、无缝集成的应用提供与其他相关信息系统的数据接口、 支持开放的XML标准接口规范。不 同的异构系统之间可以无缝地实现数据集成,也可以无缝地实现业务流程的集成。4.3、总体架构系统基于SOA设计理念,架构信息采集、整合、展现信息系统,为增值服 务管理奠定总体架构基础,并以“服务”方式,扩展将来主题业务数据

9、分析、服 务系统*僅氯利用 11值蘇柑miI 按長丽碍倉讓势SMSecii cK1 副T1*18x1 殆跖十五、系统实现5.1、整合内容数据来源主要为营销系统、专卖系统、物流系统、财务系统、0A系统以及其他业务系统、采集处理方式、数据采集、功能设计通过整合完善数据采集系统, 更加高效的接收和处理来自各系统的数据, 实 现数据采集工作的灵活设置和快速部署, 使数据采集工作更专业化和规范化, 减 轻数据提供单位的负担, 提高数据采集效率和质量。 支持基于事件发生时接收数 据消息、支持数据库改变时数据同步、支持定时提取数据、支持外部文件导入、 支持异地全局数据库。 并且支持基于消息的数据传输, 在前

10、置机感知数据改变后, 通过 WebService 机制项服务器传递消息;支持通过各类数据传输中间件进行 消息的传递。数据采集方式包括:自动采集、定时采集。自动采集是指通过系统接口, 自动实时从数据源采集数据, 适用于实时性要 求较高的数据信息。定时采集是指在设定好的时间点对数据源数据进行采集, 适用于数据源有规 范的数据传输技术架构。数据审核:在数据加载到数据库前对采集的数据的格式及数据内容进行校验 和审核,保证数据采集平台采集的数据质量。自动采集: 支持自动采集和定时采集方式, 实现采集系统自动获取数据源数 据的功能。数据加工处理:包括数据信息清洗、信息转换、信息加载等功能,将从数据 源获取

11、过来的数据进行规范化处理, 实现多源数据组合、 冲突数据处理、 数据格 式检查等功能。 并将其转换成数据仓库需要的格式。 数据加载功能是将经过规范化处理后的数据存放到数据仓库中。 需要定义数据的加载频率和加载方式。 数据 的加载频率根据数据的产生频率和数据仓库对数据的分析粒度决定, 可以根据需 要来定义加载的间隔。采集平台系统功能结构如下图:数据采集模信息采宾漠块数据古核数据清洗数据捷换521.2、技术实现1、技术架构通过各种采集方式把现有各部门、企业的诸多系统通过数据交换平台抓取进入数据中心,并可以通过业务报表填报的功能补充信息,支持暴扣文档、多媒体、XML、文件以及数据库等多种方式的数据采

12、集。数循滨采圭方式f9丈件媒体 XML地聲报表攻报.9.调査冋巻删一.U拠附燥呼数据利用負苗共童R综會分析敷摒其享2、数据接口本系统采集通过建立数据口的方式与现有的营销系统、专卖系统、物流系统、 财务系统、0A系统以及其他业务系统进行数据采集,并将采集数据进行审核与 加工处理。与此同时考虑到与新系统的整合,系统将预留数据交互模块并建立数 据交换机制,为新业务系统的接入提供准备。522、数据整合利用完善的ETL工具,通过节点控制库、信息共享与管理库把采集来的数 据按照业务内在关联形成能够表述完整业务链信息的整合信息,并为下一步的数据应用打定基础。5.2.2.1、技术架构1、ETL工具介绍ETL负

13、责将分散的、异构数据源中的数据如关系数据、 平面数据文件等抽取 到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成 为联机分析处理、数据挖掘的基础ETL 是数据仓库中的非常重要的一环。 它是承前启后的必要的一步。 相对于 关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际项目应用。 所以从项目应用的角度来考虑, 按着物理数据模型的要求加载数据并对数据进行 一些系列处理, 处理过程与经验直接相关, 同时这部分的工作直接关系数据仓库 中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。ETL 的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时 效性

14、和可获取性等几个特性。 而影响质量问题的原因有很多, 由系统集成和历史 数据造成的原因主要包括 :业务系统不同时期系统之间数据模型不一致;业务系 统不同时期业务过程有变化;旧系统模块在运营、人事、财务、办公系统等相关 信息的不一致;遗留系统和新业务、管理系统数据集成不完备带来的不一致性。实现ETL,首先要实现ETL转换的过程。它可以集中地体现为以下几个方面: 空值处理: 可捕获字段空值, 进行加载或替换为其他含义数据, 并可根据字段空 值实现分流加载到不同目标库。规范化数据格式 可实现字段格式约束定义,对 于数据源中时间、数值、字符等数据,可自定义加载格式。拆分数据:依据业务 需求对字段可进行

15、分解。 验证数据正确性: 可利用 Lookup 及拆分功能进行数据 验证。数据替换:对于因业务因素, 可实现无效数据、 缺失数据的替换。 Lookup 查获丢失数据 Lookup 实现子查询,并返回用其他手段获取的缺失字段,保证 字段完整性。建立 ETL 过程的主外键约束 对无依赖性的非法数据,可替换或导 出到错误数据文件中,保证主键唯一记录的加载。2、整体结构系统将各个业务系统中采集到的销售、 财务、物流、仓储等基本业务数据进 行整合,形成节点前置库, 并进行数据加载, 形成结构化的综合信息共享库与管理数据库,最后通过加工处理形成数据集市,并通过综合分析、统计报表、智能分析、决策支持等方式展

16、现给用户。如下图所示:522.2、数据资源整合刿比尊導 E豐垄抹去,1現与甘析区I用户)主要功能是实现将分散、异构的数据和记录进行规范化整理并实现聚合处理,生成基本数据集所规范的、全面动态的企业业务综合数据信息(宏观或个案级别 综合业务视图)共享库,该综合共享库支持动态、交互、智能的综合业务管理, 可发布(提供)综合集成的“全景业务信息”以支持全局性同步信息共享。主要 功能模块包括数据规范化整理(数据校验、语法学清洗、语义学清洗等)和数据 聚合处理(数据解析、整合存储/主数据管理、展现预处理等)流程如下图:獸裝&上*1 抽氐,叫發*显枚1載曲帙令址PB1、数据校验清洗数据质量问题分类: 根据处

17、理的是单数据源还是多数据源以及问题出在模式层还是实例层我们 将数据质量问题分为 4 类:单数据源模式层问题、单数据源实例层问题、多数据 源模式层问题和多数据源实例层问题,具体的质量问题表现如下:1)缺少完整性约束 ,糟糕的模式设计, 2 )数据记录的错误 ,3 )异质的数据 模型和模式设计,4)冗余、互相矛盾或者不一致的数据,5)唯一性约束,(11)引用约 束,6)拼写错误,7)相似重复记录 ,8)互相矛盾的字段 ,9)命名冲突,10)结构冲 突,11)不一致的汇总 ,12)不一致的时间选择。问题数据处理:单数据源情形中出现的问题在多数据源的情况下会变得更加严重.多数据源没有列出在单数据源情形

18、中就已经出现的问题.模式层次上的问题也会体现在实例层次上 .糟糕的模式设计、缺少完整性约束的定义以及多个数据源之间异质的 数据模型、命名和结构冲突等 ,都属于该类问题 .可以通过改进模式设计、模式转 化和模式集成来解决模式层次上的问题 .实例层次上的问题在模式层次上不可见 , 一些可能的情况有数据拼写错误、无效的数据值、重复记录等。对于第 1 种情形 ,由于在数据输入时不知道电话字段的值 ,因此在数据库中以 存放一个无效值来表示 .如果针对电话字段定义一个规则存放在数据清洗库中,清洗工具就能够根据这条规则判断出哪些是无效值.对于第 2 种拼写错误的情形 ,需要在数据清洗库中建立一个存放所有城市

19、名的查找表 ,通过与该查找表中的城市 名相比较 ,就可以判断出数据库中存放的本来应该是哪个城市.对于第 3 种情况 ,一般也需要利用外部的查找表才能检测出来并加以改正.在数据清洗工具中 ,一些 典型的查找表应该是内建的 ,此外也应该具备可扩展性 ,允许用户加入新的查找表对于第 4 种情形 ,在一个自由格式的文本类型的字段里包括了很多部分,每个部分都可以单独作为一个字段 .如果每个部分的先后顺序一定 ,且互相之间有分隔符或 者保留字 ,比如 Street,Road 等等 ,就比较容易处理 .但是,实际中的情况往往不是 这样 ,因此要通过机器学习或者其他办法来解决.由领域专家选定学习样本 (相对于

20、所要处理的数据集 ,样本数量少得多 )来训练系统 ,等训练好了以后 ,再由系统自 动处理大规模的数据集 .由于采用机器学习的办法 ,因此一般来说 ,需要折衷考虑 记忆率和准确率 .我们将利用隐马尔科夫模型 (HMM) 的解决办法 .第 6 种情形的问题是字段之间不对应 .为了改正,需要知道哪个字段更可信 , 这必须利用其他信息才能决定。第 8 种和第 9 种情形表示的是相似重复记录的情况 .在第 8 种情形里 , 一个记 录的 name 没有简写 ,而另一个记录的 name 被简写了 ,通过定义合适的编辑距离 函数,或者内建常用的缩写规则 ,清洗工具可以检测出这类重复记录 .在第9 种情形 中

21、,同一个现实实体 (两个记录的 name 值相同),但是两个记录的 bdate 值不一样 , 在合并这两条记录时 ,如何选择一个合适的 bdate 值 ,是一个棘手的问题 .相似重 复记录的匹配和合并 ,是数据清洗过程中一个很重要的问题.首先 ,选择一个好的距离函数很重要 .另外 ,记录的匹配过程非常耗时 .如果采用最简单的方法 ,所有记 录之间两两进行比较,以此来决定是否匹配,其计算复杂度为0(n2),这里n为数据 库中的记录数 .对很大的数据库来说 ,这样的时间开销是无法忍受的。在检测相似重复记录之前 ,需要先对数据进行一些处理 .典型的处理操作包 括:字段分裂.从自由格式的文本字段中抽取

22、结构 ,分离各个部分 .验证和改正 .根据查找表来验证字段值的正确性 ,若发现错误 ,则加以改正 .如 果提供合适的领域知识 ,该过程也可以验证字段之间的依赖关系 .数据标准化 .将同一类型的数据用统一的格式来表示 ,比如日期、电话号码、 性别等.在完成大部分的数据转化和其他清洗步骤以后 ,就可以执行相似重复记录的 匹配和合并了。通常情况下 ,指向同一个现实实体的两条记录的信息是部分冗余 的 ,它们的数据互为补充。因此 ,通过将其合并 ,能够更准确地反映该实体 .相似重复记录清除可以针对两个数据集或者一个合并后的数据集.首先 ,需要识别出标识同一个现实实体的相似重复记录 ,即记录匹配过程 .随

23、后 ,将相似重复 记录合并成一个包含该实体的更多属性 ,而且无冗余信息的记录 ,同时从数据集中 删除多余的记录。,我们还考最简单的情况是 ,数据记录具有这样的属性集 (或者属性 ),它总能够惟一标识 一个实体 .这时 ,只要对两个记录集在该属性集上作等值连接 ,就完成了记录匹配 过程 .对单个记录集的情形 ,先根据该属性集进行排序 ,然后通过检查相邻的记录 , 就可以判断出它们是否为相似重复记录 .如果不存在这样的键属性集 ,而且数据中 可能还存在错误 ,例如拼写错误等 ,上面的简单办法就不合适了 .这时可以通过引 入匹配规则来完成模糊匹配 ,规则是描述性的 ,而且可以利用用户自定义的函数 .

24、 例如,可以有这样的规则 :如果 name 字段相同 ,而且 address 字段相似度也很大 , 那么这两条记录是重复记录 .字段之间的相似度 ,一般用 01 之间的数值来表示 , 而且不同的字段对记录之间总的相似度的贡献 ,具有不同的权值 .相似度的定义和 权值的分配 ,要由领域专家来确定 .对字符串类型的数据 ,精确匹配或者基于通配 符、词频、编辑距离、键盘距离和发音相似度的模糊匹配是很有用的虑了字符串的缩写形式并结合信息检索的向量空间模型来定义文本元素之间的 相似度。在处理大的数据集时 ,匹配重复记录是一个非常耗时的过程 .因为是模糊匹配 所以整个过程相当于要对两个记录集做笛卡尔积 .

25、然后 ,根据相似度进行排序 ,那 些相似度超过某一阈值的记录被认为是重复记录 ,低于某一阈值的记录则不被认 为是重复记录,而相似度介于这两个阈值之间的记录是候选的相似重复记录,需要用户作出决定。因为这类记录的数量不多 ,所以由用户来决定是可行的。2、数据聚合处理 根据信息采集整合展现信息系统的建设需求,把清洗后的数据抽象为采购、 客服、物流、质管、运营、财务 6 个业务域。、数据分类存储1、标准数据标准数据是系统运行的数据基础。 标准数据包括业务数据的所有数据标准规 范,通过这个库和数据校验机制对数据中心的数据进行标准化保障。 由于数据标 准存在着时效性, 因此针对有时效性的数据进行版本控制,

26、 不同的版本有各自的 生命周期,不同生命周期中的业务数据对应不同版本的数据。2、业务数据业务数据是指从各业务系统中各环节收集上来的业务数据, 如财务信息、 物 流信息、采购订单信息等等。这些数据将会存储到相应的业务域中进行统一管理。3、主题数据 业务数据以主题的方式进行整合和预处理,本系统主要包括的数据主题有:采购、客服、物流、质管、运营、财务、中间库存储服务 是承接信息获取服务所加载的数据集并实现按数据提供将原始数据集归档。根据业务需求和技术能力其具体实现可做多种策略选择: “基于自定义建模的关 系数据存储”,或“基于自定义建模的关系数据存储 + 基于主数据管理模式的操 作数据存储”。区别在

27、于对业务需求变化扩展的适应性和实施成本效益,另外基 于主数据管理模式的操作数据存储可以直接支持面向全局同步信息共享视图展 现,同时可相当程度支持数据利用业务需求变化。 数据仓库存储服务是面向决策 支持、基于决策模型的信息展现引擎。当综合数据信息共享库 (综合数据存储服务) 包含基于主数据管理的操作数 据存储和基于决策模型的面向主题存储时, 综合管理信息平台对因业务需求变化 (决策模型变化或信息共享规范扩展)的适应性和支持能力得以提高。、数据聚合数据仓库是为了系统建立的数据库 ,其用来对业务进行统计分析、 业务监督、 绩效考核、应急指挥及决策支持等。其是通过从各系统数据中抽取归纳出来的, 主要包

28、括共享资源数据库和主题数据库。、数据应用数据应用模块采用 SOA 构架 ,统一了 Web 应用构架,统一了元数据,能够 访问企业资源系统的所有数据源,为所有用户提供了基于纯浏览器的全面的 BI 功能。、应用定制 系统主要应用定制方式为:报表定制、热点定制、图形定制、数据挖掘四部分,主要实现技术路线为下图:JU A淀制热八淀吿ll5忌;I?制I1、热点定制定制文本数据混合的输出方式,简称热点定制。可提供可编辑页面,支持从 WORD或网页直接黏贴内容以规范文本输出。提供指标选择功能,让用户可以 自行选择汇总指标到编辑页面,并在选择时指定汇总指标的各种条件的默认值。保存热点名称和用到的汇总指标定义到

29、数据库,把可编辑页面的HTML代码保存到数据库,并可以进行修改。如下图:2、报表定制通过指定汇总指标及其分组项、条件,形成各种类型的报表。树形结构列出 所有的汇总指标以备用户选择,可以多选,并可以选择上月数、去年同期数。综合选择的汇总指标, 列出其共有的分组因素, 并分为三栏显示。 根据用户指定的 纵向分组因素和横向分组因素生成预览表。 并可保存所有用户定义到指定的报表 名称。如下图 :3、图形定制通过指定汇总指标及其分组项、 条件,形成各种类型的图形。 树形结构列出 所有的汇总指标以备用户选择, 只能单选。 分析用户用户选择的汇总指标并将其 分组因素列为两栏。 其一为输出分组项选择, 选择后

30、可以预览报表和图形、 其二 为条件或默认条件指定区域, 在分组因素外多出时间范围条件。 允许用户选择输 出图形的类型包括比例图、直方图、日线趋势图或月线趋势图,如果用户 选择的是趋势图则分组项选择失效, 只能按照时间进行分组。 允许用户预览输出 结果(不含数据或随机数据) ,并对图表位置进行调整。如下图:4、数据挖掘对展现的数据进行深入挖掘探索,一直到基础数据或相关链接系统。 上级中规定了在数据输出的同时把每个数据项的元数据属性同时输出, 该属 性包括:该数据项对应的汇总指标的指标 ID ;该数据项已经包含的条件;该数 据项已经包含体现的分组因素; 该报表、图形或热点本身定义中规范的链接方向

31、(可以为空)。依据以上元数据的定义,有两种分支: (1)如果该报表、图形或热点本身定义中规范的链接方向不为空,则1、2、31)如果链接方向为本系统中的其他数据资源则把元数据属性中的部分分别传递给该数据资源, 并把当前点击的数据项的值和其分组项关系也作为 条件传输给目标数据资源,然后调用数据输出功能对目标数据资源进行输出。2)如果链接方向为其他业务系统中的页面资源,则利用单点登录功能模拟 出登录效果,并打开该页面资源。(2)如果该报表、图形或热点本身定义中规范的链接方向为空,则 1)分析该汇总指标已经体现了哪些分组因素, 条件中考虑了哪些分组因素, 从而获得没有涉及到的分组因素列表, 并用弹出菜

32、单的方式请求用户选择向下展 开至哪个分组因素,菜单末尾为“基础数据” ;如果没有未涉及到的分组因素则 直接进入基础数据查询。2)如果进入的还是汇总指标的查询,则系统形成新的临时图形分析定制, 依据用户选择的分组项和原数据项含带的元数据生成, 如果是绝对数指标则默认 以比例图方式展现,如果是计算指标则默认以直方图展现。3)如果进入的是基础数据查询,则判断该汇总指标通过哪些基础数据视图 的数据汇总得来, 并提取这些基础数据视图中列表显示的基础数据指标, 配合汇 总指标的分组因素 (本次涉及到的) 形成基础数据列表的输出表头, 同时依据汇 总指标的条件设置和基础数据视图的关联关系形成 SQL 语句,

33、从而得到数据。 5.2.1.2 、数据分析支撑实现应用定制的支撑工具包括元数据模型设计和管理工具、 多维分析服务器、 报表工具、多维分析工具、数据管理工具1、元数据模型设计和管理工具 本系统采用统一的元数据模型。 应用统一的元数据模型设计和管理工具, 通 过图形化的界面,就可以对多数据源进行描述,并且能够同时描述 DB , OLAP等各种数据源。 为应用提供统一一致的数据访问。 同时元数据模型设计和管理工 具支持通用的 CWM 标准能够和各种第三方的工具实现元数据交换。可直接使 用第三方工具生成的元数据模型。从而: 1 、减小了开发工作量; 2、减小了系 统维护和修改工作量; 3、提高了应用开

34、发效率; 4 、具有良好的元数据的层状 扩展性。是应用和数据库之间的语义层,他封装数据库底层表和字段,建立表连接, 为后续开发人员和最终用户提供一个贴合业务术语的数据库结构视图。 在元数据 模型中可以对已有的数据库结构进行描述, 加入各种计算字段, 绑定数据的过滤 器等,同时可以采用动态 SQL,使查询的语句根据不同的条件和情况灵活的适 应数据库结构。他可以连接多个数据源,能够连接 OLAP,DB 等各种数据源。提 供对元数据的定制和管理以及安全性控制等相关控制。 可直接使用各种标准工具 制作的元数据模型。2、多维分析服务器 从各类数据源(数据库、数据仓库、平面文件)中精心筛选出来的“黄金”

35、数据创建成称为 PowerCubes 的多维数据立方体。 立方体是按探察业务的 OLAP 多维因素分析模型的设计创建,通过对多维数据立方体的 OLAP 分析,用户可 以辨明趋势、跟踪业务运作、创建高效的统计汇总报表。支持异构数据源访问, 能够适应用户从简单到复杂的应用数据环境, 支持虚 拟 Cube 技术 (可按时间生成不同的子 Cube ,可针对单个子 Cube 进行增量更 新,通过虚拟 Cube 访问多个子 Cube, 支持虚拟 Cube 的各子 Cube 维度不同, 以适应变化 )。 Cognos OLAP Modeling 生成的 Cube 为压缩方式,通常为原 始数据占用空间的十分之

36、一甚至更小。 同时具有足够的灵活性, 支持手工自定义 层次和节点,支持维度中不同层次节点之间的计算,支持指标层次灵活设计3、报表工具可以通过其制作各种类型的报表, 制作报表时不仅能够连接数据库, 还能连 接 OLAP 服务器,能够同时连接数据库, OLAP 数据源。用户直接通过在没有 插件,没有 Applet 的纯浏览器界面中鼠标托拽就可以实现各种列表,交叉表, 图表,分段报表,主从报表等各种常用报表 ,以及中国特色的非平衡报表,动态 仪表盘, KPI 报表等各种高级报表报告。报表可以分页面设计,每页可以有多个 查询,每个查询可以连接多个数据源, 甚至异构数据源。 报表的内容采用的是化 繁为简

37、的方式, 可以精确控制报表中每一个对象的各种属性。 可以通过鼠标拖拽 方式将包括声音,视频,图形,表格,文字,关系型数据库内容, OLAP 等任何 有用的信息集成在报表中。还可以方便实现报表数据和 GIS 地图数据的无缝集 成。报表布局可以精确控制和排版, 支持所见即所得的打印。 报表设计好之后可 以批量生成,也可以通过用户交互条件生成, 甚至基于时间以及事件等进行调度, 也可以通过 Email 等方式主动推送给用户。 同时采用直接保存即发布的方式, 大 大简化了报表的发布和管理。对于报表应用, 主要由即席报表工具和即席查询工具来实现。 通过报表工具 可以制作各种固定格式的报表报告等, 通过即

38、席查询工具用户可以方便的进行自 助式报表的制作。工具提供了一个完全基于 Web 方式的交互式数据查询、报表 定制和报表浏览界面, 能够实现各种复杂的报表, 并提供定时运行、 报表数据监 视预警、多渠道报表分发(如通过 Email )等功能。本工具还提供了强大的仪表 盘,多媒体报表,地图报表等各种报表报告功能。工具支持用户直接在没有插件,没有 Applet 的纯浏览器界面中通过鼠标拖 拽的方式进行报表的制作, 同时报标志制作完成后, 直接通过点击鼠标, 就能够 将报表进行发布,实现信息的共享。由于系统采用统一的元数据, 能够同时访问国药乐仁堂医药有限公司的各个 数据源,所以用户在进行报表制作的过

39、程中不需要了解数据源的具体结构, 而只 需要从业务的角度出发, 通过鼠标拖拽就能够将多数据源的数据整合在一张报表 中展现通过统一的元数据模型设计之后,就可以支持用户直接通过纯浏览器界面, 进行从简单到复杂的各种报表的制作, 制作的过程中通过各种对象的拖拽, 属性 设置,不需要编写代码, 同时用户通过点击鼠标就能实现报表的发布, 真正做到 了端对端的报表的展现。4、多维分析工具联机分析处理主要指的是多维分析。它提供将数据组织成多维立方体(不论逻辑的还是物理的 ),而用户可以对这些数据立方体进行切片、旋转、汇总等多 角度的查询和统计。 这种查询和统计可完全出自用户对业务的考虑, 而不必关心 数据的

40、物理结构和技术上的组织形式。联机分析应用是业务智能应用中最主要, 也是最广泛应用形式。本方案中的 OLAP 应用主要由多维分析工具来实现。多维分析工具提供完 全基于 Web 方式的 OLAP 应用界面,能实现不同主题 Cube 之间的钻取, 并能 与报表工具构成穿透钻取环境,融合查询报表和 OLAP 应用,为用户提供一个 贯穿宏观和细节的全景数据视图。该工具是面向最终用户的多维分析展现, 进行方便的多维度, 多层次, 多指 标的分析。用户只需要在 Web 界面中通过简单的鼠标拖拽等操作,就可以进行各种 OLAP 分析,如上钻,下钻,切片,旋转,切块等,另外可以支持图表起展现和图表联动,支持柱图

41、,饼图,折线图,堆积图,面积图,散点图等各种 二维、三维图形,支持用户自定义子集功能, 支持同比,环比,百分比等各种 比例分析,支持 TOP N/ Bottom N分析,支持 2/8 分析,支持压缩零。支持排名排序功能, 支持维度中不同粒度的混合分析, 支持不同维度的非平衡混合分 析,支持不同层次维度节点之间的计算,支持用户在纯浏览器界面上进行各种 OLAP 分析,不需要安装插件,不使用 Applet ,确保数据安全性,支持用户使 用简单的拖拽的方式进行多角度分析, 支持从 Cube 和 Cube 信息之间的钻取支 持 Cube 和关系型数据库信息之间的钻取, 支持将分析结果导出 EXCEL,

42、 PDF 等 各种格式, 采用保存即发布的方式, 不需要另外的发布工具它能够让系统中的每 一位用户都能够轻松自如地访问对应权限的数据, 从而更有效地管理其业务, 作 出正确决策。5、数据管理工具是个数据抽取、整合、传输、加载的(ETL)工具。它对所有的数据源提供唯 一地点来定义元数据和业务规则, 定义描述用户业务特征的信息目录, 创建数据 集市或数据仓库, 形成数据中心。 通过有效的单结构模型, 实现了多种异构数据 源、多数据源或多个应用的元数据定义。 本工具主要提供数据转换、 传输和加载 服务,它能快速生成 BI 应用的信息目录,以及面向主题的数据集市。这种数据 集市既可是关系型的数据库表也

43、可是多维数据结构存储的数据立方体OLAP数据源。这些数据将是信息系统用户在网上做数据访问分析的基础数据。它确保了所有用户能够迅速访问一致性的数据, 进行全业务指标整体分析、 报表制作和 决策支持用来自任何普通关系型格式、 ERP 数据源、平面文件格式的数据或者可以通 过 ODBC (开放数据库连接)应用协议接口访问的数据。基于数据的集成性, 本工具可以采用各种格式提供数据结果, 例如维度框架、 关系型表格等, 用户还 可以将数据从一个环境移动复制到另一个环境。可以简化 IT 部门的数据抽取、转换和加载工作。 DataManager 使用单一 的界面,该界面具有用来架构数据仓库的生动的构造流程(

44、 build )图形,可以 让穿透钻取关系更加清晰直观, 使属性的显示和修改更加方便。 自动化向导可以 帮助开发人员分步骤的创建一个维度构造流程( dimension build )或事实构造 流程( fact build )以及众多的转换函数。自动化的维度管理过程和支持汇总和 合并的强大引擎可以简化 IT 的工作,为 IT 工作提供支持。成功的数据仓库项目建立在维度框架结构基础之上。 维度设计可以消除在数 据集市或数据仓库环境的设计、实施和维护过程中最常见也是最重要的困难。跨部门、流程和业务领域的共享或一致维度的使用意味着可以将分布式数据 源集成到一个一致的视图中。为了实现这个目的,本工具会

45、将公共描述符 ( descriptor )组织成维度表并将事实内容组织成事实表。、数据展现系统展现采用基于 JAVA 平台、 B/S 应用模式,支持图、文、表集成输出, 易于用户理解, 同时有利于用户从多维度分析数据。 系统数据挖掘简单易用, 并 支持形成动态报表,自动从后台提取数据,及时更新。数据展现终端分为页面端展现与移动端展现。 即用户可以通过 PC 机了浏览 器获取数据, 同时可以通过手机端安卓系统浏览数据。 对于移动端展现系统同样 支持图、文、表集成显示,并保证数据所产生的单位流量最低。、应用主题数据系统可以根据用户的实际需求, 快速建立应用主题数据库, 将相关某一主题 的数据进行集

46、成展现, 既方便高级管理者从公司全局层面获取数据, 又方便针对 公司某一业务线路进行数据挖掘。以卷烟销售、财务管理、经济运行、专卖监管等业务领域为主线,满足公司 中层以上对报表统计、业务分析、多维分析、辅助决策支持的需求。针对地市级 用户的业务需求应用分析主题内容侧重较微观的业务操作层面。 其应用主题主要 包括:客户主题分析供应商主题分析销售主题分析库存主题分析成本毛利主题分析商品主题分析市场投放主题分析。、主要功能5.4.1 、数据来源管理数据来源是指系统的每一项基础数据的来源途径, 包括逻辑概念的数据来源 和物理概念的来源服务器, 逻辑概念的数据来源包括各种系统、 以及机构, 例如 专卖系

47、统、营销系统、物流系统等;而物理概念的来源服务器主要是指服务器、 数据库或应用服务等,例如位于 192.0.0.2 上的端口为 1521 的数据库;或者位 于 192.0.2.3 上的端口为 8020 的 getData 服务等。1、数据来源 提供对数据来源的增、删、改、查的功能,逻辑数据来源的信息项应当至少 包括:名称、资源说明、注册者、注册时间、发布者、发布时间、失效时间等。2、来源服务器在数据来源下管理来源服务器, 提供注册, 修改和删除的功能, 来源服务器 的管理信息应当至少包括:名称、地址、端口、类别等信息,注册后作为系统实 际的数据提取来源被管理起来。、主题和指标管理提供树形关系的

48、主题和域的管理,包括增加下级、增加同级、删除、修改等 各种操作,管理的信息内容包括名称、说明信息、注册者、注册时间、发布者、 发布时间、停用时间的基础信息。作为对信息分类的基本管理单元,本功能应当能够把所有的指标包括 基础数据指标和管理指标均注册到分别的主题和域, 系统支持注册基础数据指标、 注册管理指标以及相应的反向操作。 其中包括: 主题树和主题管理、 基层数据指 标管理、管理数据指标管理、数据来源、来源服务器、 基础数据视图等,如下 图所示:、报表定制主要实现报表定制, 通过选择报表要查询的管理指标项, 对报表的数据行的 分组项,并且选择报表的查询条件和该查询条件的默认值进行定制, 同时支持报 表表样预览区域, 可以根据业务变化方便快捷的调整所需要的报表, 不需做任何 程序改动。其如下图所示:、图表定制通过设定图表要查询的管理指标项、 图表的查询条件和默认值、 图表关联的 热点、图表展现的形式等条件进行图表的制定。其如下图所示:、热点定制 对热点内容进行编辑,并且进行定义,如定义“想得到门急诊人次是多少, 选择门急诊人次,选择时间范围”等。、连接资源管理 本功能应用环境为应用端管理人员为信息资源本身进行编目管理, 从而内接 系统的主题和域等范畴,外连门户中的目录体系。具体管理内容包括: 1、管理者能够对信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论