pentaho学习笔记.doc

上传人：q*** IP属地：河南上传时间：2020-01-20 格式：DOC 页数：37 大小：1.60MB 积分：24 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一、 Pentaho 整体架构二、 Client tools1. Report Designer报表创建工具。如果想创建复杂数据驱动的报表，这是合适工具。2. Design Studio这是基于eclipse的工具，你可以使用它来创建手工编辑的报表或分析视图xaction 文件，一般用来对在report designer中无法增加修改的报表进行修改。3. Aggregation Designer帮助改善Mondrian cube 性能的图形化工具。4. Metadata Editor用来添加定制的元数据层到已经存在的数据源。一般不需要，但是它对应业务用户在创建报表时解析数据库比较容易。5. Pentaho Data Integration这是kettle etl工具。6. Schema Workbench帮助你创建rolap的图形化工具。这是为分析准备数据的必须步骤。三、 Pentaho BI suit community editon安装硬件要求：RAM： At least 2GBHard drive space： At least 1GBProcessor： Dual-core AMD64 or EM64T软件要求：需要JRE 1.5版本，1.4版本已经不再支持。修改默认的端口8080，打开biserver-cetomcatconf目录下的server.xml文件，修改connector port=8080为你想要的端口号。同时在这部分可以调整Apache Tomcat参数。在修改了该端口号后，必须同时修改tomcatwebappspentahoWEB-INF目录下的web.xml文件中的base-urlhttp:/localhost:8080/pentaho中的端口号。否则administration-console中不能连接到bi server。四、配置数据库连接如果要是pentaho bi server能连接到关系数据库，需要将相应数据库driver的jar包拷贝到server/biserver-ce/tomcat/common/lib目录。为了能在administration console中创建数据库连接并测试，需要将相应的数据库driver的jar包拷贝到server/administration console/jdbc目录。下面是具体关系数据库连接设置说明。1、连接oracle数据库。需要将oracle的driver类class12.jar包拷贝到/Pentaho/server/enterprise-console-server/jdbc/ 或/biserver-ee/server/enterprise-console-server/jdbc/ /Pentaho/server/bi-server/tomcat/common/lib/ 或/biserver-ee/server/bi-server/tomcat/common/lib/目录。执行PentahoServeradministration-console目录下的start-pac.bat启动admin console或 bi server。在Adminstrator console中配置数据库连接：在iE中输入http:/localhost:8099/后进入管理界面，点左边的administrator，在右边窗口中点database connection进入下面的界面。在name中输入要创建的数据库连接的名称，在driver class中选择要使用的driver类，user name中输入访问数据库的用户、password中输入相应的密码，在url中输入访问数据库的连接信息：jdbc:oracle:thin:xzq:1521:oradata。在之前的是固定信息，之后分别是服务器名称或IP：端口号：数据库服务名。2、连接MS Sql server数据库在iE中输入http:/localhost:8099/后进入管理界面，点左边的administrator，在右边窗口中点database connection进入下面的界面。在name中输入要创建的数据库连接的名称，在driver class中选择要使用的driver类，user name中输入访问数据库的用户、password中输入相应的密码，在url中输入访问数据库的连接信息：jdbc:Microsoft:sqlserver:/localhost:41433;DatabaseName=GOSLDW。/前的字符是固定的，/后是数据库服务器名或ip地址：端口号;DatabaseName=数据库名。五、 Report Designer创建报表5.1. 创建步骤第一步：定义数据源，创建dataset第二步：定义report layout，report layout有一组band构成，包括report header、report footer、group header、group footer以及detail构成。第三步：部署报表到BIserver.5.2. 创建report title在左边的工具栏上拖一个label报表元素到report header band中，双击label报表元素输入你想要的report title，如图5-2。你可以在右边的属性窗口中对该title进行属性定义，包括字体大小、颜色、样式等。图5-2 创建report title5.3. 创建column header在report title下加几个label报表元素，构成你需要的column header，如图5.3所示。图5-3 创建column header5.4. 创建report detail报表的Detail本身将产生报表的明细记录，这些记录有dataset提供，因此需要将dataset中的字段拖入report detail band即可，如图5-4。图5-4 产生report detail5.5. 创建report summary在 report footer band加上汇总元素的描述标签和相应的汇总计算字段，如图 5-5所示。这里的关键是需要生产汇总计算字段，图中生成了两个library count 和total library size，要产生这两个汇总字段，需要在右边data页的function中增加function字段，分别利用了count(running)和summary(running)函数5.6. 画布大小设置点击菜单file-page setup，出现图5.6所示的界面，在该界面中可以设置画布的大小图5.65.7. 创建图表所有图表都有一个show label属性，默认是hide label，在这种情况下，图表上不会显示相应的值，图表上能显示的值一般有三种情况，分别是0、1、2（对pie chart有3），分别表示系列的描述、category 描述、项值，如果需要组合显示，可以采用0,2这样的格式来表示。5.7.1. Bar chartBar chart对比较不同类别数据的大小是有用的。在左边的工具按钮中拖入chart图标到report header，如图5.7.1图5.7.1双击该图出现图5.7.2所示的属性窗口图5.7.2 bar chart属性设置在左边窗口中设置相关的显示属性，在右边窗口中指定显示的数据字段。这样就完成了图形报表的创建。技巧： Pentaho中的数据集是同报表绑定的，如果想在同一报表中显示多张chart报表，需要利用sub report，在不同的sub report中分别创建报表完成。5.7.2. 区域图（Area chart）区域图用于比较两个或多个数据集间的差异是有用的。5.7.3. 线性图（line chart）线性图对分析发展趋势是有用的。注意，堆积和堆积百分比（stack and stack percent）不能用于line chart。5.7.4. 饼图（pie chart）饼图一般用来分析不同category占总值的占比分析。饼图有一个label format属性，该属性值有以下几种：0：series name,1:：series raw value2： percentage value3： total raw value5.7.5. 环形图(ring chart)环形图类似于饼图，除了它呈现为环形，而饼图是实体填充外，没有什么差异。5.7.6. 多饼图（muti pie chart）根据category呈现一组饼图，每一个category对应一个饼图。5.7.7. 瀑布图（warterfall chart）瀑布图呈现了唯一一个跨category的stacked bar chart。这种图形对于一个category同另一个category进行比较时是有用的。通常最后一个category等于所有别的category的总和。5.7.8. 条形和线形组合图（bar line chart）在比较category值的同时查看趋势。这是一个需要两个category 数据集的图形，第一个产生bar chart，第二个产生line chart。5.7.9. 冒泡图（bubble chart）冒泡图允许你查看三维数据，前两维是传统的X/Y维，也就是域和范围（domain and range）。第三维代表单个气泡的大小。六、将pentaho的资料库迁移到oracle数据库默认情况下是使用HSQLDB数据库作为pentaho的资料库。迁移步骤：1、将oracle JDBC驱动class12.jar拷贝到.tomcatwebappspentahoWEB-INFlib或.tomcatcommonlib目录，供pentaho BI服务器访问oracle 数据库使用。另外也需要将oracle JDBC驱动拷贝到administration-consolejdbc目录，否则用户不能正常使用pentaho管理控制台。2、初始化Oracle 10g数据库。依次执行下面的sql包，在执行sql包前先创建两个用户，quartz/password，用于存储quartz相关信息，另一个用户hibuser/password用户存储pentaho bi服务本身资料库。Sql包说明：l Create_repository_Ora.sql，用于创建pentaho_tablespace表空间、新增hibuser/password用户，以及datasource 表。l Create_sample_datasource_Ora.sql,往datasource表中增加外部业务资料库连接信息。l Create_quartz_ora.sql，创建pentaho_user/password用户，quartz数据库、quartz表等。3、修改contex.xml中配置数据库连接的信息。这个文件位于biserver-cetomcatwebappspentahoMETA-INF位置。修改该文件中的数据库连接相关信息。4、打开biserver-cepentaho-solutionssystemhibernate中的hibernate-settings.xml配置文件，并启用oracle10g.hibernate.cfg.xml配置文件，配置示例如下。system/hibernate/oracle10.cfg.xml5、调整oracle10g.hibernate.cfg.xml文件，主要是连接数据库的相关信息。6、修改applicationCperties配置文件，它位于biserver-cepentaho-solutionssystem。下面是配置示例。Jdbc.driver=oracle.jdbc.driver.OracleDriverJdbc.url=jdbc:oracle:thinlocalhost:1521:ORCLJdbc.username=hibuserJdbc.password=passwordHibernate.dialect=org.hibernate.dialect.Oracle10Dialect7、修改perties，位于biserver-cepentaho-solutionssystemquartz目录。当使用oracle存储quartz的各种信息时，需要启动如下实现类，即默认的org.quartz.impl.jdbcjobstore.StdJDBCDelegate被替换成OracleDelegate。Otore.driverDelegateClass=org.quartz.impl.jdbcstore.oracle.OracleDelegate8、可选地，用户需要修改start_hypersonic.bat中的相关信息。七、设置publication口令Pentaho设置工具用来定义BI 内容，如report 、olap cube和metadata。在这些工具中创建的内容文件要部署到BI server上，可以通过手工拷贝这些内容文件到pentaho相应的solution文件夹下来完成部署，但典型的方式还是通过publication来完成部署。为了能完成publication，需要设置相应的口令，默认情况下是没有设置口令的。为了设置这个口令，需要在pentaho-solution/system目录下的publisher_config.xml文件中添加password这个例子中将 password设置为”password”。八、 Pentaho Data integrationPentaho DI包含的主要工具和实用程序：Spoon 图形化的DI IDE，用于创建Transformation 和jobKitchen 运行job的命令行工具Pan 运行transformation的命令行工具Carte 在远程主机上运行transformation和job的轻量级服务器。默认的登录用户是cluster/cluster.可以使用Encr carte 修改口令。Carte将登录用户信息存储在/data-integration/pwd目录下的kettle.pwd文件中。Encr这个用来加密口令，用法为Encr kettle 下图是关于pentaho DI 各个工具和组件工作情况说明。Data integration engine负责解释和执行数据集成job和transformation。Data integration engine在物理上是以java库的形式存在，前端可以通过调用公共的api来执行job和transformation。Data integration engine也包括pentaho BI server，将job和transformation作为 action sequence的一部分来执行。Repository。Job 和transformation可以存储在数据库知识库中，前端工具可以通过连接知识库来装载job和tranformation定义。8.1 自动连接知识库在user的home目录下的.kettle目录中打开perties文件，然后添加：KETTLE_REPOSITORY = KETTLE_MD repository nameKETTLE_USER = admin - credential user nameKETTLE_PASSWORD = admin -user password这样每次启动spoon时，可以自动登录默认的repository。8.2使用集群要使用集群，首先要定义相关的子服务器(slave server)，然后定义cluster schema，最后将定义好的cluster schema分配给相应的Transformation step。8.3创建数据库连接在spoon IDE中在Transformation 树结构中右键单击“数据库连接”-新建连接或新建数据库连接向导或按快捷键F3进入“创建数据连接”窗口。目前支持几乎所有的数据库连接。数据库连接选项：1) Connection name：定义转换或者任务访问的连接的唯一名称，可以自行设置； 2) Connection type：连接的数据类型； 3) Method of access：可以是Native(JDBC)，ODBC，或者OCI，一般选择JDBC； 4) Server host name：指定数据库部署的主机或者服务器的名称，也可以指定 IP 地址； 5）Database name：指定连接的数据库的名称，如果是 ODBC 方式就指定 DSN 名称；6）Port number：设定数据库监听的 TCP/IP 端口号 7）User name/password：指定连接数据库的用户名和密码；数据库用法：8.4 Transformation Step8.4.1. Text File input这个step用来读取各种不同类型的text-file类型文件，常见的是由excel生成的cvs文件和固定宽度的flat file。该组件提供了指定文件列表或文件目录列表的能力，支持正则表达式，还可以接收前面步骤生成的文件。8.4.2. 表输入（table input）该组件用来从数据库获取信息。主要的属性有数据库连接、sql等。在sql中可以使用变量，如果使用了变量，则必须勾选上“替换sql 语句中的变量”选项，否则变量不能传入，sql语句将报错。“允许延迟转换”选项可以避免不必要的数据类型转换，改善数据处理性能。8.4.3. 获取系统信息（get system info）该组件用来获取kettle环境中可用的信息。8.4.4. 行发生器（generate rows）产生多行，具体产生多少行可以通过设置limit（限制）来做设定。可以通过field(字段)列表来指定字段名称及类型。8.4.5. 输入（De-serialize from file，原名cube输入）从二进制的kettle cube文件中读取记录行数据。8.4.6. XBase输入使用这一步可以读取大多数被称为 XBase family派生的 DBF文件。8.4.7. Excel输入该组件可以从一个或多个excel文件中读取数据，可以使用正则表达式来指定文件。8.4.8. 插入或更新(insert/update)这个组件首先使用一个或多个对照key来查询表中的一行，如果找到，则更新，如果没有找到则插入。选项 1、步骤名称：步骤的名称，在单个转换中必须唯一。 2、连接：目标表所在的数据库连接名称。 3、Target schema:要写入数据的表的 Schema 名称。允许表名中包含 “.”是很重要的。 4、目标表：想插入或者更新的表的名称。 5、Commit size:提交之前要改变（插入/更新）的行数。 6、不执行任何更新：如果被选择，数据库的值永远不会被更新。仅仅可以插入。 7、用来查询的关键字：可以指定字段值或者比较符。可以用以下比较符：=，,LIKE,BETWEEN,IS NULL,IS NOT NULL。 8、更新字段：指定你想要插入/更新的字段8.4.9. 更新（Update）这个步骤类似于插入/更新步骤，除了对数据表不作插入操作之外。它仅仅执行更新操作。8.4.10. 删除(Delete)这个步骤类似于上一步，除了不更新操作。所有的行均被删除。8.4.11. XML 输出（XML output）这个步骤允许你从源中写入行到一个或者多个 XML 文件。选项8.4.12. 数据库查询(Database lookup)这个步骤类型允许你在数据库表中查找值。选项步骤名称：在单一转换中步骤名称必须唯一。数据库连接：想要写入数据的连接。查询表：想要查询的表名。使用缓存：数据库查询是否使用缓存。这意味着在某种查询值的条件下，每次数据库都能返回同样的结果。8.4.13. 流查询（Stream lookup）这个步骤类型允许你从其它步骤中查询信息。首先， “源步骤（lookup step）”的数据被读到内存中，然后被用来从主要的流中查询数据。选项步骤名称：在单个转换中步骤名必须唯一。源步骤：数据来源的步骤名称查询值所需要的关键字：允许你来指定用来查询值的字段名称。值总是用“等于”比较符来搜索。接收的字段：你可以指定用来接收字段的名称，或者在值没有找到的情况下的缺省值，或者你不喜欢旧的字段名称的情况下的新字段名称 Preserve Memory:排序的时候对数据行进行编码以保护内存 Key and value are exactly one integer field: 排序的时候对数据行进行编码以保护内存 Use sorted list:是否用一个排序列表来存储值，它提供更好的内存使用。这个步骤的使用类似于数据库查询步骤，区别在于数据库查询使用的是数据库表，而流查询是从文本文件等数据流中查询。8.4.14. 调用数据库存储过程(Call DB Procedure)这个步骤允许你运行一个数据库存储过程，获取返回结果。8.4.15. 字段选择（select value）该组件对于选择、重命名或修改字段的长度和精度方面很有用。这几方面被放在了不同的category中，在组件上分别放在不同的tab中。8.4.16. 过滤记录(Filter rows)这个步骤允许你根据条件和比较符来过滤记录。一旦这个步骤连接到先前的步骤中，你可以简单的单击“” ， “=”和“”区域来构建条件。选项步骤名称：步骤的名称，在单一转换中必须唯一。技术资料，【Kette3.0用户手册】发送“true”数据给步骤：指定条件返回 true的数据将发送到此步骤。发送“false”数据给步骤：指定条件返回 false 的数据将发送到此步骤。8.4.17. 空操作（什么也不做）（dummy(do nothing)）该组件什么也不做，只是用来做一些测试时的占位符。8.4.18. Row DeNormalizer(行转列)该组件做行转列。在“构成分组的字段”中指定分组字段，在“目标字段”中指定“目标字段”的名称，目标字段的值字段（从哪个字段中获取值）和“关键字值”。如下图所示的样例：8.4.19. 列转行（Row normaliser）用于将列转行例如下表的数据转换成下表所示的数据Row normaliser步骤的设置如下图8.4.20. 拆分字段（split field）基于指定的分割符信息进行字段拆分。8.4.21. 去重（Unique Rows）从输入流中去除重复的记录。需要确保输入流是排了序的，否则只有相邻连续的记录会去重。8.4.22. 分组（group by）这个组件用来根据一组分组字段进行计算。选项步骤名称：步骤的名称，在单一转换中必须唯一。分组字段：指定分组的字段。聚合：指定需要聚合的字段、方法以及新字段结果的名称包含所有的行：如果选择这个，输出中就包含所有的行，不仅仅是聚合。临时文件目录：临时文件存储的目录。临时文件前缀：指定命名临时文件时的文件文件前缀。添加行号，每一个分组重启：如果你想添加行号，就选择这个。字段名行数：指定行号将插入的字段的名称。8.4.23. 设置为空值(Null if)如果某个字符串的值等于指定的值，设置那个值为空。8.4.24. 计算器（Calculator）这个步骤提供一个功能列表，可以在字段值上运行。计算器的一个重要优势是，它有着几倍于常用的 JavaScript 脚本的速度。8.4.25. 行扁平化（flattener）这个操作类似行转列（分组字段，对某一列进行行转列）8.4.26. 值映射（value mapper）该组件将值从一个值映射到另一个值。通常你想解决存储一个数据库中转换表的问题,不管怎么说，这是一种可选的方案：简单的将转换表作为值映射对话框的一部分。例如将1映射为男，0映射为女等。8.4.27. 数据库连接（Database Join）这个步骤允许你使用先前步骤的数据，运行一个数据库查询。能够指定查询参数：在 SQL 查询中使用“？” 在 SQL 查询中使用数据网格中的字段8.4.28. 合并记录（Merge rows）该组件可以用来比较两个记录流。对于比较两个不同时间点的记录流是很有用的。常使用在没有包含最后更新时间的数据仓库源系统状态中。两个记录流，参照流和比较流进行合并，记录的最后更新版本数据被传给下一个组件，记录被标记为：identical 在两个流中都发现了key，并且值是一致的。changed在两个流中都发现了key，但是一个或多个值不一致。new key在参照流（旧数据源）中没有发现deleted key在比较流（新数据源）中没有发现。除了deleted状态情况，比较流的数据传到下一个组件中。需要注意的是，两个流都需要在指定的key上排序。8.4.29. Merge join对两个不同的输入组件的数据集做合并关联。关联类型可以是内联、左外联、右外联和全外联。需要注意的是，合并join的数据记录需要在指定的key上做排序。8.4.30. Java Script 值（Java Script Value）这个步骤允许你用 JavaScript 语言做复杂的运算。使用的 JavaScript 引擎是 Rhino 1.5R5。选项步骤名称：步骤的名称，在单个转换中必须唯一Java Script:步骤中的脚本。字段：要添加到输出流中的字段。8.4.31. Excute SQL Script 可以使用该组件执行sql 脚本。可以在整个Transformation初始化中执行一次（一般这种情况用于DDL语句）或在没输入该组件一行记录时执行一次（这种情况一般用于带参的DML语句）。注意：如果sql语句中的脚本失败，整个Transformation的执行将挂起。8.4.32. 维度更新/查询（dimension lookup/update）该组件允许你执行Ralph kimball的两类缓慢变化维：第一类（update）和第二类（insert）。使用该组件不仅可以更新维表，还可以查询维表值。8.4.33. Oracle批量装载（Oracle bulk loader）这个步骤允许你大批量加载数据到 Oracle 数据库，它将用一个正确的装载格式，然后用 Oracle的 SQL*Loader 数据加载工具加载到指定的表中。选项步骤名称：步骤的名称，在单个转换中必须唯一。连接：维表所在数据库的连接。目标schema: 要写入数据的表的 schema 名称，表名中可以包含”.”。 Sqlldr path: SQL*Loader 数据加载工具的全路径。装载方式: “自动加载”或者“手动加载” 。如果是“自动加载” ，步骤将在用指定的参数收到所有的输入后运行 Sqlldr 工具。如果是“手动加载” ，将生成一个可以作为后门使用的控制和数据文件。加载动作：Append、Insert、Replace、Truncate。这些会映射到 sqlddr 的动作来执行。错误的最大行数：发生错误的行数，这时 sqlldr 将被中断。与 sqlldr 的“ERROR”属性来通信。提交：提交的行数，与 sqlldr 的“ROWS”属性通信。绑定大小：与 sqlldr 的“BINDSIZE”属性通信。读取大小：与 sqlldr 的“READSIZE”属性通信。控制文件：sqlldr 控制文件的名称。数据文件：数据将被写入的数据文件的名称。日志文件：日志文件的名称，可选。坏文件：坏文件的名称，可选。废文件：废文件的名称，可选。编码：数据指定的编码格式，可以从下拉列表框中选择。直接路径：直接路径加载的开关，与 sqlldr 的“DIRECT=TRUE”通信。使用后删除cfg/dat 文件：加载后是否删除控制文件和数据文件的开关。表字段：ORACLE 表中加载的表字段。流字段：输入行中带来的字段。8.4.34. 运行步骤的多个副本右键单击每个Transformation步后都会出现一个菜单“改变开始复制的数量”，可以设置这个复制的数量，这个对于“数据库查询”组件来说，可以提高其执行的效率。但如果对于其他的组件，将使输出结果记录数翻倍，需要特别注意。另外，对于“数据库查询”组件，如果前一组件采用“数据迁移”是“复制到下一步”而不是“发送到下一步”也会造成“数据库查询”组件的输出记录翻倍。8.4.35. 问题集1、在“表输入”组件中，如何从上一步中获得数据替换sql语句中的参数？2、8.5 任务条目（Job Entries）8.5.1 图标8.5.2 StartStart 是任务执行的入口，首先必须是任务可以执行。只有无条件的任务条目可以从Start 入口连接。8.5.3 Dummy在一个任务中使用 Dummy 条目将什么也不做。这可以使一个任务更清晰的展示，或者在执行循环中使用。8.5.4 转换你可以用一个转换任务条目执行一个先前定义的转换。选项8.5.5 任务(Job)你可以使用 Job 条目来运行一个先前定义的任务。8.5.6 Shell你可以使用 Shell 任务条目在任务运行的主机上执行一段 Shell 脚本。备注：Shell 脚本能在控制台窗口输出文本，输出将转换到 Kettle 日志系统，这不会影响 Shell脚本的运行。备注： Windows 系统，脚本被 “CMD.EXE/C” （NT/XP/20000）或 “COMMAND.COM/C” （95/98）。8.5.7 Mail你可以使用 Mail 任务条目来发送 e-Mail。8.5.8 SQL你可以使用 SQL 任务条目执行 SQL 脚本，多行脚本之前用“;”隔开。8.5.9 FTP你可以使用 FTP 任务条目从 FTP 服务器上获取一个或者多个文件。8.5.10 Table Exists你可以使用 Table exists任务条目检验数据库中是否存在某个表。8.5.11 File Exists你可以使用File exists任务条目检验在Kettle运行的服务器上中是否存在某个文件。8.5.12 Evaluation(javascript)你可以使用 Evaluation 任务条目来计算一个布尔型的变量，这个变量可以在决定下一个步骤是否将被执行时使用。用户可以使用以下变量： Errors：先前的任务条目的错误数 Lines_input：从数据库或者文件读取的行数 Lines_output：从数据库或者文件读取的行数 Lines_updated：数据库表更新的行数 Lines_read：从先前转换步骤读取的行数 Lines_written：往下一个转换步骤写入的行数 Files_retrieved：从FTP 找到的文件数 Exit_status：Shell 脚本的退出状态 Nr(integer)：任务条目数。每下一个条目就会自动增长 Is windows：如果Kettle 运行在Windows 平台上就返回true8.5.13 Create file你可以使用 Create a file任务条目创建一个空文件，这对在任务中创建“触发器”是有用的。8.5.14 Delete file你可以使用 Delete a file 任务条目来删除一个文件。8.5.15 Wait for file你可以使用 Wait for file任务条目来等待一个文件。这个任务条目将定期的检查指定的文件是否存在，以决定流程是否继续。这个条目可以不确定的等待文件或者经过一过段时间后超时。8.5.16 File compare你可以使用 File compare 任务条目来比较两个文件的内容，控制任务的流程。当两个文件相等时，成功流出节点将继续，否则失败节点将继续。8.5.17 Zip files这个步骤将按照你在对话框中指定的选择创建一个标准的 ZIP 归档。选项九、 Metadata layer元数据层的用法和范围。元数据来自数据库以及用户定义元数据通过使用PME(pentaho metadata editor)定义并存储在数据库中。元数据能从知识库中导出成xml文件保存。元数据与在pentaho server的pentaho solution相关，它用作基于metadata报表服务的源。使用pentaho报表设计工具，终端用户可以使用元数据创建报表。当运行基于pentaho元数据报表时，报表引擎解释报表，查询规范（query specifications）以MQL（Metadata query language）的形式存储在报表中。下图是metadata 层使用范围概览。十、 pentaho报表设计工具10.1 报表架构下图显示了报表架构的不同组件：报表设计器定义报表规范报表规范以xml的格式存放。报表引擎根据报表规范和输出格式执行报表。数据库连接定义能使用标准的中间件如JDBC来连接不同的数据源。在报表的最后阶段，报表查询被report engine直接执行。Pentaho不仅包含了执行pentaho 报表的能力，而且还包含了jasper report 和BIRT报表的类库。Pentaho报表引擎通常叫做JFreeReport，其设计器完全就是JFree Report 设计器的再造版，被称为pentaho report Designer（PRD）。10.2 基于web的报表(web-based reporting)Pentaho web 门户（web portal）不仅提供了查看和分析内容，而且也提供了特殊报表（ad hoc report）的能力。使用基本web的报表工具能创建的报表只限于没有图形、交叉和图片的分组列表。这种web工具官方名字叫Web Ad hoc query and reporting client，简称 WAQR。WAQR只能使用metadata model工作，它必须首先发布到服务器。WAQR模板存储在pentaho-solutions/system/waqr/templates目录，每个模板都存储在它自己的目录下，增加自己的模板比较容易的方法就是拷贝其中一个文件夹然后再重命名它。可以手工修改模板，关于手工修改模板可以参考/display/ServerDoc1x/Adhoc+Reporting+Templates10.3 Pentaho Report DesignerPentaho report Designer是一款图形化的前端报表设计工具。它的好处之一是可以使用metadata作为数据源进行报表编辑。报表可以直接使用report designer发布到pentaho BI平台。新的.prpt文件由pentaho server自动生成，因此不需要额外的包装就可以使PRD报表运行在门户网站上。有两种方式创建报表：l The New optionl The Report Wizard报表的基本部分：l Page header/report footer。任何放在这部分中的元素都会出现在每一页。Page behavior style属性能指定page header或page footer显示在第一页还是最后一页或都不显示。l Report Header/Footer。任何放在这部分的内容都只会显示一次。Report header的典型用法是首页，显示所有参数或报表的简单简介或report title。Report footer用于报表的total。l Group Header/Footer。一张报表至少会有一个分组，每组会有一个header和footer来放置组标签或小计（subtotal）。分组可以嵌套，创建一个层级报表。l Details Body。只有最里层分组包含明细体，它包含来自查询的每一行记录，detail header和detail footer也是明细体的一部分。l No Data。这是一种特殊的数据带，显示无查询结果时的显示信息。l Watermark。这个主要用来设置背景。一张PRD只能包含一个Data set，但是一张报表可以包含子报表。合并或使用子报表的的数据到主报表是不可能的。10.3.1 创建数据库连接有三种入口创建数据库连接：l Data 菜单-add data sourcel Data tab-add datasources按钮l Data Tab-右键单击Data set10.3.2 创建SQL Query在创建或编辑Data source的界面中，右边有创建query 的按钮，点增加query按钮可以创建SQL Query，如下图：10.3.3 增加参数有以下两种途径进入增加参数窗口：9、 Data菜单-add parameter10、右边Data Tab-右键parameters- add parameter 增加参数窗口Name中输入参数名Label是在运行时参数前的提示标签Value type指定参数的值类型Data format是指定值的格式Default value指定参数的缺省值Mandatory如果选上，参数是必须的Hidden指定该参数是否需要显示在页面上Display type-指定参数显示的方式，是单选下拉框还是多选下拉框或文本输入等。Query-指定参数的值以及显示的内容从哪个query获得，如果是文本输入，可以不指定。增加参数后，可以在query中使用该参数，使用方式$parameterName十一、保护pentaho管理控制台1、管理员账号设置管理员账号信息存储在/resource/config目录下的perties文件中，其格式如下：admin: OBF:1cb01j1s1kmy1jnb1wn31jk71kjo1iz21caa,server-administrator,content-administrator,admin其中admin是用户名，OBF是其相应的密码。可以使用下面的命令来重新设置账号及其相应的密码。java -cp lib/jetty-6.1.2.jar;lib/jetty-util-6.1.9.jar org.mortbay.jetty.security.Password admin Admin1234执行该命令需要进入administration-console目录。执行后将生成的OBF拷贝入perties中覆盖现有的值即可。2、使用ssl协议为了启用https,只需要修改resource/config目录下perties文件中的console.ssl.enabled=false设置为true。十二、 Pentaho PSW(pentaho schema worbench)121安装PSW下载相关软件，解压即可。在解压后，需要把连接数据库相关驱动程序的Jar包文件拷贝到drivers目录中。12.2启动psw在wind

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

pentaho学习笔记.doc

文档简介

温馨提示

最新文档

评论

pentaho学习笔记.doc

文档简介

温馨提示

最新文档

评论

相关文档