商务智能平台应用研究_第1页
商务智能平台应用研究_第2页
商务智能平台应用研究_第3页
商务智能平台应用研究_第4页
商务智能平台应用研究_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、商务智能平台应用研究杨志蓉(经济管理学院 指导教师:顾忠伟)摘 要:商务智能在中国的发展方兴为艾,竞争也日趋激烈。如何更多的了解商务信息,并将这种信息转变为“知识”,从而为管理人员方便,迅速地提供更准确,高质的信息以支持商务智能,已经成为企业商务决策的一个紧迫的课题。 Pentaho是一个完整的开源BI平台。Pentaho BI项目提供了企业级的报表、多维分析、仪表盘、数据挖掘和工作功能、帮助组织更加有效率的运营 本文是基于Pentaho 平台进行BI研究,分析了零售业所处的竞争环境和自身的特点,然后提出了完整的针对零售业的商务智能解决方案。该解决方案的主要特点是:提供一体化的商务智能解决方案

2、包括查询、报表、分析、仪表盘 、数据整合及数据挖掘等各方面完善的功能关键词:商务智能;Pentaho;数据仓库;数据挖掘Abstract:Business intelligence (BI) has a very good prospect in China, but the competition will become fiercer and fiercer. The problem how to understand further business information and transfer them into the knowledge, so as convenient an

3、d rapid to provide managers with better accurate and high quality information to support valuable business decision, has become a very urgent project which the business decision of enterprises are facing. Pentaho is a integrated BI platform in Open Source Business Intelligence. The Pentaho BI Projec

4、t provides enterprise-class reporting, analysis, dashboard, data mining and workflow capabilities that help organizations operate more efficiently and effectively.This paper based on the pentaho BI platform for research, analyzes the competition environment and characteristics of the retail industry

5、, and then puts forward complete BI solutions. The main characteristic of pentaho BI solution is to provide the perfect functions of Query、RePorting、Analyze、Dashboard、Data Integration and Data mining for the integration of business intelligence solutions.Key words:BI; Pentaho; Data Warehouse;Data mi

6、ning 第一章 绪论第一节 引言随着全球信息化的发展,现代企业信息化进程得到巨大发展和广泛应用,各种业务系统的广泛应用以及互联网的蓬勃发展,为计算机应用系统的运行积累了大量的历史数据。但在很多情况下,这些海量数据在原有的作业系统中是无法提炼并升华为有用的信息并提供给业务分析人员与管理决策者。现在,大多数企业并不缺少数据,而是苦恼于海量数据而总嫌知识不够。无怪乎未来学家奈斯比特(John Naisbitt)惊呼:“人类正被信息淹没,却饥渴于知识。” 林杰斌 刘明德 陈湘 编著数据挖掘与OLAP理论与实务清华大学出版社面临浩瀚无边的数据,人们呼唤从数据的汪洋大海中去芜存精,去伪存真。如何才能不被

7、信息的汪洋大海所淹没,解决企业中普遍存在的“数据监狱”和“数据贫穷”现象,为企业决策分析人员方便、迅速地提供更准确、高质的信息,已成为企业当前迫切需要解决的问题,而传统的数据分析工具、方法对海量数据的处理和及时、准确的商务分析力不从心,因此商务智能技术就是在这样的背景下应运而生和蓬勃发展,并越来越显示出强大的生命力 。本文就是要探讨如何针对企业现存的问题,通过收集、整理和分析企业内外部的各种海量数据,转换成更有价值的商用信息,以便用于支持决策,提出可行性商务智能应用解决方案。第二节 论文背景及意义信息时代,对信息处理和利用能力的强弱成为决定企业兴衰成败的关键。现今功能强大的以交易为基础的信息系

8、统已经在各个主导工业领域变得越来越普遍。这一趋势极大地改变了中国乃至全球的市场架构,并迫使每个企业不得不全力以赴来获得竞争中的优势地位,包括使用大量的商务智能系统。因为商务智能系统使得企业能对数据进行二次开发和利用,将数据转为信息,信息转为知识,再将知识转为企业的竞争优势。作为当今企业业务主管或者信息主管,您会认识到无论您身处于哪一个行业,我们都面临着知识经济时代的挑战。您是否能够最大限度地使用信息资源来管理和影响企业决策流程,将决定企业是否能拥有最大程度的竞争优势。举例来说:在超级市场通过条码扫描,把每一宗商品交易输入数据库中,一个中型超市买卖的商品就数万种,每天的交易量上万笔,如此大量的数

9、据,传统的数据库不能很好的回答老板所关心的问题:商品在不同季节或一天的不同时间中销售量有何变化规律?商品A销售量的增加是否会同时带动商品B的销售?如何调整商品的资金比例以达到最佳的资源调配?各种商品的销售之间是否存在一定的关联(如美国Wall Mart 超市通过“知识发现”技术意外地发现,尿布和啤酒常常摆在一起销售,原来先生们为小孩买尿布时又随手带回啤酒,而WalMart将尿布和啤酒放在同一货架,使得销售量双双增长)?这些问题,一方面是希望对当前情况进行更加深入的了解,比如哪个商品销售创造的利润最可观,另一个方面是希望能够预测未来可能发生的情况,比如预测未来六个月内顾客可能希望购买的商品。“了

10、解现在,预测未来”,这正是商务智能可以完成的工作。 林杰斌 刘明德 陈湘 编著数据挖掘与OLAP理论与实务清华大学出版社那么,在商务智能系统中所有这些宝贵信息是从何得出呢?令人吃惊的是,几乎所有的企业都已经具备了回答以上问题的原始数据。事实上,企业的信息生产系统每天都在产生并储存大量的产品市场和客户信息,也许信息来自于销售,预定,客户服务以及技术支持系统。而企业面临的真正挑战是如何从中发掘出全部的潜在商机。大多数企业只利用了很少比例的数据资源用于战略分析,而余下的数据资源(经常与其他一些外部资源混杂在一起,像各种政府报告,研究成果,销售记录等等)将作为一座金矿等待被发掘,被筛选。在过去的几年里

11、,几乎每个企业都建立了自己的信息中心,收集和整理了大量的历史数据。但是这些数据数量之大远远超出了可以控制和理解的范围,数据库变成了“数据监狱”,数据成了数据监狱中的“囚犯”,有些数据成为了历史数据,等于被判处了无期徒刑。怎样将这些“数据囚犯”变成有价值的生产力要素,就是使用商务智能的目的所在。第三节 国内外研究现状企业大量的数据带来巨大的动力,为企业BI舞台上实现商务解决方案提供了竞争优势。支持商务决策,数据须从整个企业中集合起来,以便分析和解释。商务在如今的快节奏世界中寻找自身优势,它们欣赏信息被快速传输到BI中的方式,因此,BI在快速发展.根据国际数据公司(IDC,Internationa

12、lDataCompany)预计,2007年至2008年,由于“商业智能大众化”的需求不断增长,因此在商业智能应用软件领域将出现下一波投资热潮,人们需要可扩展性更高、界面更易于使用的应用软件。国内外都重视商务智能BI的价值,以下是IDC预测,从现在到2007年,BI将以20.3年复合增长率发展,届时将达到108亿美元。图1-1 IDC 商务智能预测2006-2007年中国商业智能发展报告中阐述:从全球范围来看,商业智能(BI)已经成为最重要的信息系统。从国内来看,商业智能已经被越来越多的企业管理者所认识,其中包括金融、电信、保险、能源、零售等行业的决策者。商业智能已经成为这些行业信息化建设的重中

13、之重。据China BI统计,2006年中国大陆地区的BI产品许可证市场容量约为8亿元人民币,同比2005年增长33%;BI系统集成(BI软件系统,但不包括许可证)市场容量约为6亿元人民币,共计14亿元。BI市场带动相关软硬件销售额为5亿元人民币。在未来几年内商业智能市场需求旺盛,市场规模增长迅速。一、国外BI厂商简介按照起源来分,有专门做商业智能的厂商和原来的数据库厂商。第一类专门做商业智能的厂商,技术先进、产品扩展性好,已经占领了中国商业职能的大部分市场份额,主要软件厂商有SAS,Business Objects等。例如:SAS商业智能解决方案主要用于快速做出明智的决策及促使企业或组织进步

14、,SAS行业解决方案可以帮助客户更好、更准确地传达决策信息,提升决策能力和决策水平,从战略管理和运营管理两个层面同时推动企业发展。第二类是从原来的数据厂商发展而来的,主要有Sybase、IBM、Oracle等,它们通常提供完整的解决方案,产品各具特色,集成度高,也占有一部分市场份额。二、国内BI厂商简介国内知名的BI独立软件开发商数量较少,规模仍然较小,但是发展迅速,基本都处于良性循环。例如:广州尚南、润乾软件、奥威智动等都是国内知名的BI独立软件开发商。例如:北京润乾软件技术有限公司主要从事企业级报表工具产品的研发和推广,一直致力于在平台产品领域的探索,其自主独创的数据统计模型是迄今为止唯一

15、能零编码处理复杂非线性报表的软件,成为报表领域的新一代革命性产品,润乾曾荣膺“2006中国商业智能最佳报表软件厂商”称号。三、国内BI发展的地区分布国内不同地区的BI发展水平差异巨大,根据China BI网站访问者所在地计算出各地区的BI发展指数。图1-2 中国重要省市的BI发展指数四、国内BI行业发展随着中国商业智能市场逐步走向成熟,用户日趋理性,传统行业中精通BI技术的人越来越多,因此BI发展更加务实。根据China BI掌握的需求情况,各行业的BI发展水平参差不齐。 2006-2007年中国商业智能发展报告 httP:/图1-3 中国BI各行业发展比例第四节 论文的框架本论文的总体研究框

16、架可以表示为下图: 图1-4论文技术走势图本论文共分为七章。第一章为绪论部分,主要介绍了论文的背景及意义,国内外的研究现状,论文的框架、创新点及研究方法。首先讨论了“知识经济”时代激烈市场竞争环境中,企业普遍存在的“数据监狱”和“数据贫穷”现象,由此给出本文研究商务智能企业应用解决方案的现实意义。围绕本论文研究的宗旨和前提,绪论给出了本论文拟解决的几个问题,并围绕这些问题组织本论文的总体研究框架。最后,绪论部分还指出了本论文的主要创新点以及采用的研究方法,同时为了本论文研究的科学、顺利开展,对论文的进度安排做了个规划,以保证论文研究的整体进展。第二章是本论文研究的理论基础,主要通过文献研究,首

17、先给出了商务智能的综述,进而介绍了传统信息系统的不足,商务智能的历史发展,商务智能系统处理流程和框架,并阐明商务智能业务应用价值。本章一方面为后面的研究做了理论铺垫,另一方面也有助于我们发现当前研究的不足之处,表明了本论文研究的理论意义。第三章通过循序渐进的不断学习研究Pentaho理论和技术,并以此思路阐述Pentaho 项目概况,设计思想,基于Pentaho平台的BI开发,Pentaho BI平台的总体架构,Pentaho BI的特征及Pentaho BI是如何解决商务问题的。因而展示Pentaho BI开发的技术层面和Pentaho平台整体解决方案的框架。第四章介绍了基于Pentaho平

18、台的BI开发,阐述Pentaho BI开发的特点,开发的方法,开发的流程以及开发的工具,并提出Pentaho BI开发系统的效益评估。第五章是本文的实践研究分析,也是本文研究的重点。通过Pentaho BI 应用平台的实践,阐述Pentaho项目的技术路线,项目开发工具以及步骤和方法。第六章重点介绍了Pentaho BI 零售行业实例应用分析。通过了解国内零售行业的市场现状和竞争环境分析,业务需求分析,实践应用 Pentaho BI解决方案,提供数据处理、OLAP应用、仪表盘应用、数据挖掘应用、报表应用等一体化应用功能。其中重点包括零售业务中的销售分析、产品退货分析、库存分析、客户结构分析、促

19、销效果分析、商品价格分析等分析模型。作为论文的最后一部分,第七章给出了本论文的总结,指出了本论文研究的不足之处,以及未来研究的新视角探讨。 SHAPE * MERGEFORMAT 第五节 论文的创新点和研究方法本论文研究的指导性目标是:(1)、突出集成性。即将数据仓库、OLAP、数据挖掘及决策支持等多种技术融于一体,以决策支持为核心,为企业管理层提供多种决策服务为目的。(2)、突出实用性。针对零售行业的竞争分析,业务需求分析提出Pentaho BI可行性解决方案。(3)、突出工程性。从Pentaho的设计思想、运行环境、平台的总体架构方面展示Pentaho项目开发和系统的实施应用。本论文研究方

20、法:在论文研究过程中特别注重关注多种研究方法的综合应用,以获得较好的研究效果,这主要体现在一下几个方面:理论研究与实践应用研究相结合本论文属于商务智能平台具体业务中的应用研究,理论研究主要涉及商务智能理论研究,数据仓库研究,数据挖掘研究,OLAP研究等,本论文理论研究部分主要采取文献研究形式,通过广泛阅读相关领域文献和专业网站上的技术文档构建论文的理论框架。理论研究必须在实践应用研究的验证下才能体现其价值性,因此本论文同样关注应用研究部分。和大多数商务智能技术行业应用文章一样,本文实践应用部分也以某具体零售超市为研究单位,提出Pentaho BI可行性解决方案。通过Pentaho平台的接口引擎

21、集成的案例,实践应用选择KETTLE工具进行数据筛选、过滤、转换;选择WEKA工具进行数据挖掘;选择BIRT报表工具设计自定义个性化中国式报表,展示了Pentaho BI平台应用技术层面和路线,提出完整性实用可行解决方案。定性研究与定量研究相结合本论文采取在定性研究的基础上进行定量研究的研究方法。第二章 商务智能研究概述第一节 商务智能基本概念商务智能(Business Intelligence,简称BI)的概念最早是由Gartner Group于1996年提出的。从不同的角度,BI可以有不同的定义,如果从IT技术的角度来定义BI,可以认为BI是运用了数据仓库、联机在线分析和数据挖掘技术来处理

22、和分析数据的技术,它允许用户查询和分析数据库或数据仓库,进而得出影响商业活动的关键因素,最终帮助用户做出更好、更合理的决策;Data Warehouse Institute组织认为“BI是将数据转换成知识并将知识应用到商业行为上的一个过程”;Gartner Group 则认为“BI是将数据转换成信息的过程,然后通过发现将信息转化为知识”。 王茁、顾洁 编著 三位一体的商务智能(BI)管理、技术与应用 电子工业出版社确切地讲,BI并不是一项新技术,它将数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等技术与客户关系管理(CRM)等结合起来应用于商业活动实际过程当中,实现了技术服务于决

23、策的目的;Mark Hammond从管理的角度看待BI,认为BI是从“根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或者知识),并且在恰当的时间通过恰当的手段把恰当的信息传递给恰当的人”。 在总结商务智能定义的众多版本,针对国内市场王茁在三位一体的商务智能(BI)管理、技术与应用 中提出的BI定义 安淑芝等 编著 数据仓库与数据挖掘 清华大学出版社:指企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。第二节 传统信息系统的不足传统的

24、信息系统是在面向业务操作的在线事务处理系统,在日常事务处理中,用户对系统和数据库的要求是数据存取频率要高,操作时间要短;而分析型系统则面向企业的决策分析,在决策分析中,有的决策问题请求可能导致系统长达数小时的运行,有的决策分析问题的解决需要遍历数据库中大部分的数据,这些是日常事务处理系统所无法承担的。因此操作型数据和决策分析型数据应该分离。 张云涛 龚玲著 数据挖掘原理与技术 电子工业出版社这两类处理在目标、所处理的数据及所涉及的技术上都有很大的不同。因此传统的信息系统不适用于分析处理,主要表现在以下方面:无法保证一致性灵活性不足信息孤岛无法满足决策分析的需要第三节 商务智能是什么商业智能是什

25、么?简而言之,它是能够帮助用户对自身业务经营做出正确明智决策的工具。如何利用企业积累的数据增进对业务情况的了解,帮助我们在业务管理及发展上作出及时、正确的判断,然后采用明智的行动-这就是商业智能。从本质上说,商务智能并不是一门新技术,它是已有的技术的组合和集成。IDC将商务智能定义为下列软件工具的集合。 于宗民 刘义宁 祈国辉 编著 数据仓库项目管理实践人民邮电出版社终端用户查询和报告工具。专门用来支持初级用户的原始数据访问,不包括适用于专业人士的成品报告生成工具。OLAP工具。提供多维数据管理环境,其典型的应用是对商业问题的建模与商业数据分析。OLAP也被称为多维分析。数据挖掘(Data M

26、ining)软件.使用诸如神经网络、规则归纳等技术,用来发现数据之间的关系,做出基于数据的推断。数据集市(Data Mart)和数据仓库(Data Warehouse)产品。包括数据转换、管理和存取等方面的预配置软件,通常还包括一些业务模型,如财务分析模型。主管信息系统(EIS,Executive Information System)。企业机构利用上述软件工具在统一的BI平台上建立所需要的企业范围内的商业分析,因此BI的本质就是解决方案。第四节 商务智能系统处理流程和框架商务智能的一般过程是:1、从不同的数据源(交易系统或其他内容储存系统)收集的数据中提取有用的数据2、对数据进行清理以保证数

27、据的质量3、将数据经转换、重构后存入数据仓库或数据集市(这时数据变为信息)4、寻找合适的查询、报告和分析工具和数据挖掘工具对信息进行处理(这时信息变为辅助决策的知识)5、最后将知识呈现于用户面前,转变为决策整个处理流程如下图: 图2-1 BI系统处理流程BI系统从结构上分三层,第一层是数据采集整合层,第二层是数据存储管理层,第三层是应用展现层。 数据采集整合层数据存储管理层应用展现层图2-2 BI系统层次框架第五节 商务智能业务应用价值“将数据作为企业战略资产并在数据质量方面继续投资,是使企业成为行业先锋的重要保证。”-摘自2001年全球数据管理高峰会发表的技术的白皮书。 于宗民 刘义宁 祈国

28、辉 编著 数据仓库项目管理实践 人民邮电出版社这段话向所有企业展示了两个重要的信息:一方面,数据是企业的重要战略资产,已经成为企业制定和执行商务活动的重要驱动之一;另一个方面,数据资产也使得企业的市场定位发生了重大的变化,它使企业可以从一个贸易驱动型企业转化为信息驱动型企业。比如,由于商务智能能够回答诸如客户关系、地区性差异、资源充足率、产品生命周期、提高物流速度的方法以及产品定价等多个关系到企业生存与发展的问题,所以,它可以帮助企业更理智地做出关系到企业长期生存的行为决策,也就体现商务智能业务应用的真正价值所在。第三章 Pentaho BI应用解决方案第一节 Pentaho项目概况Penta

29、ho是一个强大的开源BI产品。它拥有一个很有抱负的核心管理团队。梦想将来Pentaho可以挑战BI业界的领先者。Pentaho是最被看好的开源商业智能BI项目之一,也是专家建议关注的开源商业智能项目之一。 Pentaho Home 产品信息 http:/www.P/Pentaho的核心团队是由具有成功创建过商业智能系统的技术专家组成的,他们大多来自顶级的商业厂商,例如Business Objects、Cognos、Hyperion、IBM、甲骨文和SAS等。目前,Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过J2EE、Web Service、SOAP、H

30、TTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。Pentaho BI项目提供了企业级的报表、多维分析、仪表盘、数据挖掘和工作流功能,帮助组织更加有效率的运营。第二节 Pentaho设计思想Pentaho的设计思想主要体现在三个方面,一是“集成化”,二是“面向解决方案”,三是“以流程为中心”。所谓集成化,是指将众多不同的BI产品集成到一个统一的框架中来,使之可以相互协作。以往的BI产品,往往只专注于BI的某一特定领域,如Jfree主要关注表表的生成,Quartz主要关注日程的管理等等。然而一个完整的BI应用往往需要这些BI产品能够相互协作。Pentaho

31、通过引入“Action”的概念,提供了一个让多种BI产品协作的机制。“Action”是Pentaho平台提供的最基本的操作单元,它类似于一种编程语言的基本语句。所有完成具体功能的BI产品作为“插件”集成到Pentaho平台中,每种插件为Pentaho平台提供一种或几种“Action”,每个Action有自己的输入和输出,多个Action连接起来就构成了Action序列,完成一个较复杂的功能。Pentaho平台负责在各个Action之间传递参数,这样多种不同的BI产品便能够协同工作了。所谓解决方案(Solution),是基于Pentaho平台的一个具体的BI应用。Solution与Pentaho

32、平台的关系和Web应用与应用服务器之间的关系十分类似。如 REF _Ref144106553 h * MERGEFORMAT 图 所示,Pentaho平台本身作为一个Web应用部署在应用服务器上,而Solution又作为一个“Pentaho应用”,部属在Pentaho平台上。Solution本身实质上是一系列Action序列的集合,这些序列在网页上如何显示,如何被调用,功能如何实现完全由Pentaho平台来管理,这使得Solution的开发者,也就是Pentaho的使用者,可以将开发工作集中于具体的BI业务逻辑的开发上,而不用去关心网页的设计、服务器的部署等等细节。图 3-1 Pentaho平

33、台层次关系图流程即Action序列,是Solution的基本组成单位,它由多个以某种顺序执行的Action组成。Action是Pentaho平台所提供的最基本的BI操作,大到生成一个报表,小到打印一行字,都可以是一个Action。Action之间可以顺序执行,也可以有分支或循环。Pentaho平台的“以流程为中心”是指整个平台的工作核心就是如何解释执行一个个Action序列的描述文件。用户在做具体的BI应用开发时,也应当把精力集中在描述Action序列上。Pentaho平台将BI业务逻辑的开发以Solution的形式与系统的其它部分独立开来,使得用户可以随心所欲的综合运用各种不同的BI产品为自

34、己服务,其设计理念十分值得称道。第三节 Pentaho BI平台的开发Pentaho BI平台包括一个 BI 框架、BI 组件、一个 BI 工作台和桌面收件箱。BI 工作台是一套设计和管理工具,集成到Eclipse环境。基于Pentaho平台的BI开发十分简便,开发者只需要进行Solution的开发即可,而开发Solution,只需给出Solution中所包含的所有Action序列的描述文件即可。为了方便基于Pentaho平台的BI应用开发,Pentaho项目组提供了一个基于Eclipse的集成开发环境:Pentaho Design Studio。用户仅需要以一种图形化的形式输入Action序

35、列的描述,而由该开发工具产生相应的Action序列描述文件,十分方便。 曾坤 吴大愚 张百达著Pentaho源代码阅读报告Pentaho中国社区http:/www.biP/Pentaho BI 平台构建于服务器、引擎和组件的基础之上,包括J2EE 服务器、安全与权限控制、Portal、工作流、规则引擎、图表、协作、内容管理、数据集成、多维分析和系统建模等功能。这些组件的大部分是基于标准的,可使用其他产品替换之。其Pentaho BI开发的技术目标:提供审计构件 提供安全和单点登录 提供日志构件 为组件和视图提供通用存储 提供完整的行程安排组件 提供规则引擎集成 提供解答引擎(报表、多维分析、仪

36、表盘和数据挖掘组件) 提供工作流集成 暴露所有的平台组件作为 web services 遵循BI平台的所有技术规范第四节 Pentaho BI平台的体系架构Pentaho提出了全面的商务智能解决方案,包括前端工具、在线分析处理工具、数据挖掘工具、企业数据仓库、数据仓库管理器、数据预处理工具、报表设计器等。设计和管理工作台是一个基于 Eclipse 的桌面工作台,它提供了:报表,仪表盘,分析视图的易于使用的设计工具。工作流流程设计器商业规则编辑器数据准备的数据挖掘工作台OLAP 建模工具Pentaho BI的体系结构 王娜、覃辉译Pentaho - 开放源码的商业智能平台技术白皮书Pentaho

37、中国社区 /Projects/Pentaho如下图:图3-2 Pentaho BI的体系结构注意 Pentaho BI 工作台体系结构图 王娜、覃辉译Pentaho - 开放源码的商业智能平台技术白皮书Pentaho中国社区 /Projects/Pentaho:BI 工作台是一个桌面的,基于 Eclipse 的设计和管理环境。BI 工作台产生工作流定义和解决方案(Solution)定义文件,它们被服务器用于执行 BI 解决方案(Solution)。BI 工作台运行于多个平台。BI 工作台审计解决方案(Solution)定义文档的创建和编辑。一个版本控制系统用于维护解决方案(Solution)定

38、义文档,并提供同步和版本管理能力。BI 工作台允许以图形化的方式查看和编辑解决方案(Solution),报表,查询,业务规则,仪表盘和工作流。BI 工作台是一个 Java 应用程序,安装在系统管理员和设计者的桌面计算机上。第五节 Pentaho BI特征Pentaho商务智能项目提供企业级报表制作,分析,数据挖掘与工作流的功能。这个软件提供灵活的部署选项以使它可作为嵌入式组件来使用,或作为定制BI应用程序的解决方案或作为一个完全脱离容器,完整的BI平台。Pentaho包括Eclipse BIRT,JasPerRerorts,Mondrian,JPivot,调度(scheduling),web服

39、务,商业规则等。Pentaho开源BI系统是一个完全由各开源项目组成的BI平台,另外,它还强调了两个概念:BI系统应该以工作流为核心,BI应用应该借助工作流技术将自身作为业务决策的一个环节,实现与企业业务过程的整合;有效的BI系统必须是面向解决方案的,而不是面向平台/工具。BI系统不但要提供像传统的BI厂商那样的BI工具及平台,更要提供针对特定项目制定方案的集成开发环境(它提供基于Eclipse的客户化环境)。第六节 Pentaho BI如何解决问题企业利用Pentaho BI平台接口引擎集成各功能组件统一建立所需要的企业范围内的商业分析,因此Pentaho BI的本质就是解决方案。那么Pen

40、taho BI是如何解决问题的呢?Pentaho BI平台集成工作流,商业规则,信息传送和通知,调度,审计,应用程序集成,内容浏览,用户接口,具有报表,分析,仪表盘功能的设计和管理工具,以及数据挖掘组件和引擎。构建一个商业智能解决方案(Solution)所必需的组件和技术:报表,工作列,商业规则,仪表盘/分析,web 服务,调度,方便的 web 和桌面用户接口的混合,以及审计。Pentaho BI 平台是第一个以业务流程为中心的,面向 solution 的商业智能平台。引用Pentaho的Creating Pentaho Solutions文档中非常经典的案例:业务问题:当一个许可证有效期已满

41、的雇员在一家医疗机构工作时,需要注意到这个问题,一个代理工人必须替换这个雇员,直到他们的许可证被更新过。注意到何种情况下,一个病人的安全是有风险的和发生风险的可能性。业务目标:提高病人的安全,减少没有许可证的雇员的责任,减少替换没有许可证的雇员时,雇用的代理职员上的花销。当前业务流程:每个经理维护她所在部门的许可证有效期的一个列表。建议解决方案:从一个集中式的数据库,预约生成报表,它根据部门,列出了每个雇员持有的许可证,以及他们当前许可证的有效期。方案1:给他们要求的东西创建一个 50 页的报表并每月发送给每个部门。Resulting Business 业务流程:报表的运行没有被审计。如果报表

42、没有被如期的产生,那人们需要多久才能发现这种情况呢?每个部门的经理需要读取报表和过滤信息。但是,有可能报表丢失,管理员休假,或者日期搞错了。当管理员发现license 即将过期时,他们会使用邮件给同事们发一个通知。但通知可能会丢失或弄错邮箱。雇员尽力规划预备工作,申请 和 认证 时间。但如果时间表发生冲突, 将导致预备工作受损。雇员在 license 过期前,因为没有时间做更多的预备工作或者认证而失败。这个 solution 是不完整的,因为它仅仅自动化了信息传递,它对于必须要发生的真实 业务流程并没有任何辅助作用。业务目标被使用报表产品的方式来达到。方案 2:给他们真正需要的东西创建业务规则

43、来判定为了对每种类型的license做足预备工作而需要的交付周期,并增加对问题域的解决路径。每天或每周运行一个列出雇员在他们交付周期内的审计报表。对于每个雇员,初始化一个预定义的license更新业务流程:在经理与雇员之间双向传递电子化信息要求经理与雇员都要做电子化确认指导雇员编排预备工作时间表指导经理审核并批准时间表要求雇员输入认证测试日期逐步告警功能,如果没有足够的再测试时间获得的话要求经理校验新的license传递认证失败的通知给经理和时间表调度程序,提供许可证更新业务流程的在线、实时的报表。产生月度和季度的绩效审计报表这个方案解决了业务问题。第七节 Pentaho BI平台快速启动Pe

44、ntaho BI 平台是一个以流程为中心的,工作流驱动的,可扩展平台,用于解决商业智能问题。那么如何快速启动Pentaho 平台呢?下载安装文件。 自由下载最新的Pentaho-demo文件。这个下载包括一个预配置的 JBoss (httP:/) application server 以及samples数据。启动server,在Pentaho-demo 目录下双击start-Pentaho.bat文件。访问平台 samples 的 URL :httP:/localhost:8080/Pentaho/Home打开WEB浏览器显示如下图: 图3-3 Pentaho商务智能平台第四章 基于Penta

45、ho平台的BI开发第一节 Pentaho BI开发的特点数据作为一种企业资产,自然有必要增加这种资产的价值,提高它的利用程度,而在企业内部实施BI就是一个增加企业信息资产价值的方法。那么怎样开发这样的项目呢?Pentaho构建一个商业智能解决方案(Solution)所必需的组件和技术:报表,工作列,商业规则,仪表盘/分析,web 服务,调度,方便的 web 和桌面用户接口的混合,以及审计。一、开发优势Pentaho BI成本性通过使用开放源码,Pentaho 能显著降低 BI 解决方案(Solution)所有者的成本。开放源码组件协助提供一个可扩展的,健壮的平台。所有者的成本主要和适当的集中于

46、解决方案(Solution)的定制和业务流程的集成/自动化。Pentaho BI定制性BI 平台有外部规则引擎,可编辑的流程,源代码可用性,可重用的 BI 组件,以及充分定制的用户接口。平台执行可编辑的流程,并可和外部业务流程集成。结果是一个高度可定制的解决方案(Solution)。Pentaho BI灵活性BI 平台是以流程为中心的,基于工作流的,以商业规则为指导。它可以很容易的集成到业务流程,并有内置的流程性能报表。业务规则用于识别问题和异常,并执行被审计的流程来解决它们。即指当完全不同的特定的BI要求产生时,系统能够通过对Pentaho BI基本成分的变更,使得新的专用BI的产生,这种灵

47、活性也称为适配的灵活性。Pentaho BI扩展性Pentaho提供了源代码。基础设施, 组件,引擎和接口可任意修改。其扩展性空间很大。二、用户需求分析因为BI要解决的问题大多时非结构化的问题,决策者(管理者)所希望的要求往往时间变化着的。开发BI没有一个固定的模式,从哪来入手呢?研究谁是BI的用户?他们的信息需求是什么?尽管企业的管理者们面临种种经营管理方面的问题,但是他们很难设想应当用一个BI作为其支持决策解决问题的工具。与其等着这些经理们提出一份文字化的BI要求,倒不如让他们提出各种在实际工作中遇到的问题,由开发人员去研究是否可以为解决这些问题发挥BI的作用。从现行信息系统的基础入手,从

48、而找到开发BI的突破点。如果现行系统对于决策问题难以发挥作用,那么就产生了开发BI的需求。开发人员可以通过对企业经理的调查,得到他们的具体信息要求,看哪些信息是通过对数据库的操作和检索即可实现,哪些必须要经过使用模型化的方法,经过分析才能达到要求。可以由此启动BI开发工作。三、开发团队很多情况下BI开发需要组织中的经理和开发人员共同参与,进行团队作业。一般而言,与BI开发有关的人员可能包括一下一些角色。最终用户,是BI开发团队中不可缺少的成员。可能是企业的高级经理,也可能是市场分析人员等提供决策信息的专业人员,或是一个做某种决策的委员会,其中每个成员都直接涉及到决策的形成。助理人员,是做技术性

49、工作的专业人员,有较强的专业知识背景。辅助决策者使用BI系统。信息技术部门,解决信息系统技术性问题。技术专业人员,企业外部的信息技术企业,辅助信息技术部门进行系统开发,有丰富的BI技术性专业知识,但对企业情况基本不了解。四、实行项目管理在BI启动以后,还必须在整个实施过程中实行项目管理。将系统实施分割成若干可管理的过程,设置若干过程的里程碑,然后通过项目管理计划,对各种人员、设备的进程进行管理。第二节 Pentaho BI开发方法由于BI系统的特殊性质,在系统开发过程中要根据系统的应用领域、业务范围、用户对象等,采用恰当的开发方法。从信息系统软件开发方法论的观点来看,采用生命周期法,可分为6个

50、阶段。系统规划阶段系统分析阶段系统设计阶段系统实施阶段系统操作和维护阶段系统的评价与控制阶段由于BI的面向非结构化问题的性质,在开发一个复杂的BI时,可以考虑按照如下图所提出的任务来进行项目管理,以推进项目的顺利进展。图4-1 BI开发的8个阶段第三节 Pentaho BI实施流程基于Pentaho的BI开发是以平台的使用为基础的,在系统设计期间我们用工作流管理平台来设计业务的工作流程以及各功能模块之间的应用整合。在系统实现阶段,使用数据筛选、过滤和转换工具(Kettle),联机分析处理(Mondrian OLAP),数据挖掘(Weka),复杂报表设计(BIRT)的使用,然后在Pentaho中

51、编写相应的配置文件。模块设计书系统分析员元分析报告系统设计员数据分析模型配置人员分析展示平台PentahoBI平台图4-2基于Pentaho平台开发流程如下图5.3显示了BI系统一个相对完整的实施流程:分析数据,并分发分析结果确定需要完成的数据分析应用理解业务需求确定需要的数据分析主题确定涉及应用的业务系统确定数据涉及应用的数据范围明确数据所代表的业务含义按照分析的结果将数据装载到BI系统图4-3 BI系统项目实施的工作流程第四节 Pentaho BI系统开发分析Pentaho实时地对企业中不同部门、不同区域、不同时期、不同信息系统(如财务软件、ERP、CRM)中的数据进行采集、抽取、整合和转

52、化,并按维度与层次对主题建立数据分析模型,进行多维、深度分析,找寻隐藏在数据与数据之间的潜在关系,在预测模型的基础上对未来做出判断。同时通过丰富的图形和立体报表灵活地展现数据。其BI 实现包含很多阶段:业务需求分析,这个过程是根据用户提出的要求,明确本次项目中需要完成的目标。业务流程模型化,这个过程是根据已经分析完成的业务需求,使用业务流程建模技术将相应的业务流程用数据模型的方式记录下来。设计和开发数据存储空间,将企业内部所有与业务需求分析内容相关的数据存放在一起,运用数据仓库技术,建立数据模型,提供业务分析应用。规范业务规则,业务规则是指影响或引导企业经营行为,并为保证企业降低经营风险而预设

53、置的经营政策。例如路口信号灯,“红灯停,绿灯行,黄灯等待”就是三个业务规则,建立整合信息平台,这个过程是将本次分析需要的数据都集中存放起来。分析数据,提供分析结果。通过各种业务应用,数据挖掘分析,展现可示化结果。而Pentaho中的BI工作流程又可具体为:完成报表和信息传送需求仪表盘 和 KPI(关键性能指标)显示异常可能原因的高级分析集成报表和流程管理/工作流流程的分析和调整基本统计聚类分析 采购部销售部财务部人事部发现、应用 多维分析报表EIS即席查询数据分析数据分析平台数据建模数据挖掘 数据仓库数据仓库统一口径和指标标准字典信息数据整合抽取、转换、清洗 POS财务人事其他数据源 图4-4

54、 Pentaho BI 系统架构第五节 Pentaho BI开发工具(1)、数据源本系统的数据源主要是ERP系统的数据库,该ERP系统是以SQL SERVER2000数据库管理系统为数据库平台的。(2)、ETL工具采用Kettle作为ETL工具,Kettle通过JDBC接口连接SQL Server2000数据源并抽取数据。Kettle可以高效地将数据加载到SQL Server2000的数据仓库中。即将来自ERP的不同类型数据采用通用数据整合平台进行抽取、净化、转换和装载,形成可以被系统识别的统一数据格式,导入数据仓库存放。(3)、数据仓库采用MS SQL Server2000作为数据仓库,另一

55、方面存储构建数据仓库的表,另一方面也存储星型模型数据集市的维表和事实表。(4)、OLAP服务器采用Mondrian服务器作为OLAP服务器,Mondrian服务器是一款非常优秀的J2EE应用服务器,具有良好的运行效率和可靠性。方便定义维度构建OLAP立方体。(5)、OLAP展示工具采用JPivot作为OLAP的展示工具,JPivot连接并操作Cube Designer多维分析模型设计的OLAP立方体,最终用户通过Pentaho在WEB浏览器中进行OLAP操作。(6)、数据仓库应用处理工具数据仓库的应用处理主要展现在复杂的查询和报表上,采用 BIRT所见即所得的开源报表工具,以随意拖放和设置各种

56、报表的表格和图表控件,还可以快速方便地设置报表的数据来源。在报表的设计过程中,用户可以随时预览报表的结果。(7)、数据挖掘工具应用Pentaho合并的WEKA开源数据挖掘工具,WEKA提供丰富的算法,如决策树算法、聚类算法、关联规则、回归算法等。(8)、元数据管理工具使用即席查询设计报表 Metadata Editor,该工具和数据库以及Pentaho紧密结合,可以实现自动元数据管理。综上,Pentaho BI平台应用各开源工具集成商务智能系统平台构建已初步完成,其涉及的开源工具的介绍和操作应用在第六章中详细介绍。第六节 Pentaho BI系统效益评估对于系统效益的评估也是整个BI开发过程中

57、的一环。主要是目的是对系统开发的工作进行总结,分析项目是否取得预想的效益。通常对BI项目的评估时常用的三种基本方法是:投资回报率法、评分评估法和价值分析法。一、实施速度 Pentaho BI技术方案处于当今高节奏的信息时代,若想在激烈的竞争中谋取更好的发展,企业的经营管理就必须跟上这样的节奏。企业的信息化系统是经营管理的重要体现。因此,企业对软件系统的实施周期必然有了更高的要求。J2EE 体系下的业务解释平台所具有的高度可重用性,及并发行性的特征,可以大大的提高软件的开发效率,减少开发周期,降低成本,满足企业要求。 二、系统稳定性 由于整个开发周期中,程序实现的比率大大缩小,我们就可以适当增加

58、系统分析和设计的比例,同时应用平台提供的成熟的业务规则,可以使系统在功能上最大程度的满足用户需求,减少系统运行后的功能更改。平台实现的高度的代码重用,有效的避免了拷贝粘贴,因此极大的减少程序BUG 的产生。这些都可以使系统的运行稳定性大大提高。 三、系统可维护性 使用 B/S结构,用户客户端不需要安装应用程序,大大降低部署难度。客户端轻负载,降低对客户机的性能要求。这些对节约项目成本的作用显而易见。使用多层结构,可以使系统的改动局部化,降低变动的影响和成本。使用业务解释平台增强系统的可维护性,系统的改动只要通过修改配置文件就可完成。第七节 小结综上,具体提出了基于Pentaho BI平台开发的

59、特点、开发的方法、开发的流程以及开发的工具和系统的效益评估。然而Pentaho BI开发所涉及的开发工具是如何应用的?又是如何集成的?将在下一章中详细介绍这些开发工具的实践部署和应用。第五章 Pentaho BI平台应用实例Pentaho BI 平台是一个以过程为核心,面向解决方案的,可扩展的商务智能平台。它的出现,使得一系列的面向商务智能的独立产品如KETTLE、BIRT等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。Pentaho开源BI系统是一个完全由各开源项目组成的BI平台,系统主要采用以下开源项目,并对其进行改进、扩充与集成:OLAP服务器: MondrianOLAP

60、展示:JPivot关系型数据库:Firebird RDBMSETL工具:KETTLE工作流引擎:Shark and Jawe应用服务器/Portal服务器/ O/R影射:Jboss数据挖掘:Weka集成管理/开发环境:Eclipse报表、表格、图形等组件:Eclipse Birt一个完整的BI系统,无外乎由ETL(数据抽取转换工具)+DW(数据仓库)+OLAP(联机分析工具)三部分构成,如下图展示:图5-1 BI系统应用以下就针对数据筛选、过滤、转换工具,OLAP分析工具,报表设计工具,在Pentaho BI集成平台中的应用进行示例分析。第一节 应用部署 = 1 * GB3 安装 j2sdk-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论