BI商务智能入门资料_第1页
BI商务智能入门资料_第2页
BI商务智能入门资料_第3页
BI商务智能入门资料_第4页
BI商务智能入门资料_第5页
已阅读5页,还剩63页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 2009/2/20 关键字 : M/料整理篇 | I 商务智能入门资料 2 1. 目录 1. 论 . 1 2. 联机事务处理 . 1 3. 具介绍 : . 2 具介绍 . 3 具介绍 . 5 具介绍 . 8 源工具 绍 . 14 4. 数据仓库 ( 的架构 . 19 5. 数据集市 . 19 6. 数据挖掘 . 20 数据挖掘的起源 . 21 数据挖掘能做什么 . 21 数据挖掘中的关联规则 . 23 数据挖掘技术实现 . 26 数据挖掘与数据仓库融合发展 . 27 统计学与数据挖掘 . 27 数据挖掘相关的 10 个问题 . 30 7. 联机分析处理 . 36 作用 . 36 起源 . 36 分类 . 37 发展背景 . 37 联机分析处理的特点 . 38 辑概念和典型操作 . 39 统的体系结构和分类 . 40 联机分析处理的实现方式 . 41 主要 商产品介绍 . 45 品 . 47 言 . 48 8. 其他工具 . 1 . 1 . 1 . 1 . 1 . 1 . 1 . 2 Q . 3 3 1 1. 论 不是一项新技术,它将数据仓库 (联机分析处理 (数据挖掘 (技术与客户关系管理( 结合起来 应用于商业活动实际过程当中,实现了技术服务于决策的目的; I,认为 根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或者知识),并且在恰当的时间通过恰 当的手段把恰当的信息传递给恰当的人 ”。 M/基 本流程图: 2. 联机事务处理 联机分析处理 (的概念最早是由关系数据库之父 1993 年提出的,他同时提出了关于 12 条准则。 提出引起了很大的反响, 为一类产品同联机事务处理 (明显区分开来。 当今的数据处理大致可以分成两大类:联机事务处理 联机分析处理 传统的关系型数据库的主要应 用,主要是基本的、日常的事务处理,例如银行交易。 数据仓库系统的主要应用,支 持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取 ,从而获得对数据的更深入了解的一类软件技术。 目标是满足决策支持或者满足在多维环境下特定的查询和报表需求 ,它的技术核心是 维 这个概念。 2 3. 具介绍 : 定义:将数据抽取( 转换( 清洗( 装载( 过程。 它是构建数据仓库的重要环节。数据仓库是面向主题 的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。数据仓库系统中有可能存在着大量的噪声数据 ,引起的主要原因有:滥用 缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化等。即便是一个设计和规划良好的数据库系统,如果其中存在着大量的噪声数据,那么这个系统也是 没有任何意义的,因为 “垃圾进,垃圾出 ”( 系统根本就不可能为决策分析系统提供任何支持。为了清除 噪声数据,必须在数据库系统中进行数据清洗。目前有不少数据清洗研究和 究,但是 如何在 程中进行有效的数据清洗并使这个过程可视化,此方面研究不多。 数据仓库服务,数据仓库用于数据分析,数据分析属于 统的要干的事儿。 一般中 /小型 统都会有不成熟的 统,为啥叫做不成熟? 因为它们或者有报表分析功能,但不具有 线分析 ),或者有 却没有数据挖掘和深度分析。或者干脆,来个大集成,直接利用第三方工具来达到相应的目的。 为什么会这样,究其原 因,很多情况是因为没有自主的数据仓库,没有数据仓库,其它的做起来也就有些四不象了。而要建立数据仓库,首要的是: 于是,需求就应运而生了。 对了, 什么? 啥?什么又是数据挖掘?鉴于我只能解释其表面含义,我就不多说了。各位不妨找本数据仓库的书,翻翻前几页,一般就明白了。或者 把。 我们捡当下最流行的 用: 说说它与 关系。 了解 人都知道,它的分析模型由事实表和维表组成。但往往 统中的数据库是为事务而建,而并不为 分析而建,而为了 改动 据 库是不现实,并且,很多情况下也基本上是不可能的 (当然,有些公司把不可能的任务变成可能的,但这显然是一种很僵硬的做法 )。 这时候, 作用就显出来了,它可以为 务,按业务主题提取分析模型进行数据抽取。 (析需要什么样的数据支持?可以参看一下 星型模型 )。 再说说数据挖掘: 这个课题实在太大,相关的书藉有很多很多,我还得花时间慢慢去学习。简单的说,这涉及 务和统计学的知识。现在我暂时还没开始相关学习,但它 与 关系却很明显。因为数据挖掘所要求的数据大都是高聚合的已处理的数据,所以,不管从获取3 难度和效率上来说,都不适合直接从 获取。 同样,需要 帮忙。 因此,按本人粗浅的理解: 在是: 统 设计开发,项目实施 之必备良药! 有句名言讲得好:成为巨人不如站在巨人的肩膀上。 如果想对 详尽的了解,不妨先了解一下现有流行的 具。 具介绍 对于 使用 ,有最基本的接触,但仅限时简单的数据导入 /导出。当开始了解 ,才发现 来就是 应用之一。 先不谈论 好坏,但它至少 品的特点,易学,易用。所以,要了解 应用,从 始,在我看来,是个不错的选择。我只是学习,所以我没 有能耐去评价它,下面,只能讲 功能一一列举出来,可能这些与 联机帮助有些重复,但对我来说,是一个加深记忆的方法。 一:概念 自完全不同源的数据析取、转换并合并到单 个或多个目的。主要应用于企业数据仓库的数据抽取过程,完成从源数据库 /文件到数据仓库的抽取和转换过程。 看看,这不就是 做的事儿。 二:特征 于 B,很方便从不同的数据源复制和转换数据。 是了, 是首要支持自已的其它产品,所以,它选择了最通用的 标准。 图形化设计器,也可通过编程二次开发。 这也是 长项,并且能把其它的东西一股脑儿的集成进来。 行效率高于普通 作 据说是这样地,我做过简单的比较,确实不是一个数量级,原理呢?估计可能有较多特殊处理,比如批量插入 输前的数据压缩等技术 ,当然,这只是我的猜测。 调度。 这对于 统,那很容易了,可以利用现成的系统级调度。 三:详细 来说点详细的东东,当然,这里的详细并不指全部,实际上,我也只能挑出比较有代表性的功能点列举一下,要是全部,那还不如抄袭联机帮助了。 最小的可调度单元 包是基本任务,由工作流连接而成。 包可以嵌套 (包中的单个任务可以是执行另一个已存在的包 )。 包是调度的直接管理对象,嵌套包保证包任务的重用。 4 务 最小的工作流连接单元 分为以下几种任务: 导出和导入数据任务、转换任务、复制数据库对象、邮件 /消息发送、 句或 脚本执行包、采用 定义任务。 其中,最常用的应该是普通转换任务。这等同于 的 T。 数据连接 定义数据源和目的地 分为以下几种: 标准数据库(如 000、 000、 与 据源的 B 连接; 000 电子表格数据; ;以及其它 B 提供程序 文件连接数据链接连接 (比较特殊 ) 注意: 为 用产品, 然也不支持 对于标准数据库是最基本的应用,易于实现。 文件连接涉及格式定义,还不算复杂。 换 数据转换 数据转换,指列进行,有多种方式: 单复制方式。 单转换 (如,数据格式化,取字符串子串等 ) 本 (实际上是 用自定的 象进行转换。 通常会采用一二方式。如果要将 成到你的应用中,可以第三种方式。 作流 工作流包括成功,失败,完 成。工作流支持脚本控制。可编程控制。 工作流方式对于纯数据抽取意义不大,但是考虑到任务包含收发邮件,信息,上 /下传文件,那就有必要了。当然,你也可以将这些任务单独提出到应用端执行,而不采用 的任务。 数据 元数据方式更多的留备扩展,最基础的应用是用来预定义数据表。 据驱动的查询任务 (一种特珠的转换方式 ) 一种很特殊的转换方式,支持参数。这里,单独把它提出来,因为它不是那么容易理解,我花了一些时间,才将其弄明白。 据源数据的特征决定之后的查询方式 (指增,删,改,查询操作 )。 持参数,参数通过定义绑定表来关联,通过定义转换脚本,可以计算出绑定列参数。 换时可以定义批量处理。 换支持多阶段抽取,可以定义阶段代码,阶段分为:行转换,转换失败,插入成功,插入失败,批处理完成,抽取完成。 此种应用异常复杂,应属高级应用。简单的看,当转换任务需要根据数据源来确定动作,5 这是非常有用的。比如你的应用存在多表存储,就可能根据表内的时间来确定之后的动 作,达到数据分多表存储的目的。 查找查询 作为转换数据任务和数据驱动的查询任务的一种功能。 查找查询使您得以对源和目的之外的其它连接运行查询和存储过程。例如,通过使用查找查询,可以在查询过程中进行单独的连接,并在目的表中包括来自连接的数据。 作为一种扩充功能,实现更复杂的查询操作。 多任务支持事务处理 除了顺序执行,可以进行并行执行步骤,且支持检查点回滚。 当然,任务的事务仍然依赖于数据源所在所据库是否支持事务。一般情 况下,顺序执行已经可以满足抽取需求。 好了,不管对错,还是说说我的看法: 首先: 抽取流程定义比较清晰,数据转换功能丰富,可视的设计工具强大,有一定的可扩展性 (制,脚本支持 )。 但是:但学习下来,隐隐约约觉得它有 品的通病,就是大而全,如果进行小型应用的集成,它是很方便和够用的,但如果要在大型项目中集成 提供的二次开发方式,就显得有些散乱,缺少一个总体的框架指导。当然,这可能与它的定位有关。 具介绍 一、总体概述 括 它是用于从生产库中提取数据到数据仓库中,再由具体的报表、统计、分析工具对数据仓库的内容进行分析,分析出自己所需要的数据。 其中 训的内容是如何利用 源数据库的内容提取存放到目标数据库中。主要 要包括四个部分: 个部分实现自己的功能。 二、系统体系结构 此部分介绍了 具包括的主要内容。 要有五个部分。 以和 离,通过 P 连接,连接到远程的 2. 主要用于进行一个 的管理,当用户使用 具登录一个 务器之后,进 行文件夹权限的创建,用户权限、密码的管理等。 3. 6 主要是进行数据抽取的转换工具的设计,主要是 设计、设计源数据库的结构,目标数据库的结构,然后设计把源数据导入到目标数据库中,所需要进行的转换操作( 。 同一个 间可以建立 式,多个 间只能做拷贝。 4. 主要用于流程任务( 的设计。 进行任务流程的设计、每一个 对一个 一个 对一个 其中 的 的 对应的关系。一版来说,用户都是建立自己的 5. 主要进行流程运行、及任务运行时的流程运行情况跟踪。可以跟踪日志。包括 志和 志,可以设置生成日志的循环个数。分析 行是对源数据库的数据抽出信息和对目标数据库的更新信息。 6. 主要进行 管理,包括 作。进行 的 操作,进行 级别的管理,级别较高。 7. 为客户端服务的,客户端可以和各 种 在一台服务器上。关于数据抽取的设计成果转换成为 式的源数据,都是通过 放到 的。 8. 用于存放的是进行 计的元数据。可以支持各类的数据库。方式为数据库中用户的一个表目录和用户关系即可。 以和 安装在一台服务器。如果在一台机器上, 过 式连接到 如果不在一台及其上,需要在 安装一个 用户通过 以 式连接到 据库,然后 以 式连接到 实际执行数据抽取任务的运行环境。即 。它 是根据定义的 数据库,然后在自己的实际环境中,执行数据抽取操作。 三、系统组件功能 功能主要体现在 ,其中 现的是对数据抽取的数据转换方式设计,以及效率设计目标等。而在 再把具体的数据转换方式应用到一个具体的工作任务中,包括7 目标库、源库的选择,以及一条具体的执行任务的属性设置等等。包括任务的 。 件 ( 1 )工作区 在 ,涉及到的工作区主要包括有 其中每个工作区的功能分别介绍: 功能是实现对源数据库表 的设计,可以手工的进行源数据库的设计,一般都是通过从 者 导入数据库的表结构。 件结构。 用于设计目标数据库库的结构,可以利用手工设计,也可以利用 具导入导一个 结构。 用户设计可重用的 件,这里的组件,在一个 面都是可以重用的,而且以 方式使用。 件的修改,会直接反映到使用此 。 设计可以重用的多个组件,只要有 件,可以有 件,也可以没有 件,实现的功能就和一个 功能类似,实现功能。 实现的功能是设计具体进行抽取数据的 这些 用到一个 ,形成了 一个 。 ( 2 ) 组件功能 支持多种语言开发: c、 c+、 持的组件主要包括两类: 件和 件,其中 件是对输入记录集在输出时个数有变化的组件, 件,输入的记录集,输出时记录集的个数不发生改变。 供的组件包括: (1) (2) (3) (4) (5) (6) (7) up to 8 (8) (9) (10) D (11) (12) or of (13) (14) (15) a (16) (17) (18) ML or (19) ML to or 每一类组件都有自己独特的功能和特点,这里介绍主要的组件包括上述红色的内容。每一种组件的详细功能这里不详细介绍。 件 对执行任务的执行进行控制,可以在执行时对执行的任务进行传参数进行传入,这样就能在执行的时候把数据库表进行动态的设置。 可以在执行的时候选择参数文件,对 的 参数进行传入。达到动态执行的目的。 定义 任务, 对这些任务的执行进行管理控制。 四、补充说明 持同构数据源的连接,衣钩数据源的连接通过 件实现。 件,查出的多条记录集,要么取 或者 或者报错。 以时动态 / 静态 ,可以 具介绍 简称为 够将 无格式结构的平面文件 (载到数据库的过程自动化。许多 数据库管理 员对 具和 本的混合使用非常熟悉,再加上在各个不同的地方进行一些 置就可以完成数据加载的过程。 能够完成这样的任务 (而且还有更多的功能 ),通过提供一个向导驱动兼备大量断点和观查点提示及点击功能的图形用户界面来完成这一过程。通过9 其 “设计中心 ”和 “控制中心 ”界面,用户可以设计并部署 程 (本文重点关注其中的加载过程,也就是将分隔数值的平面文件内容加载到一个表,而且在加载的过程中数据不发生改变 )。此外, 部署不局限于你当前正在工作的服务器, 后将设计的步骤部署到另一台服务器上,如果你想要,还可以部署到更多的服务器上。 这个操作背后的整个程序是怎样一个概念呢 ?我们来看看要完成整个操作需要进行的步骤,也许能够帮你理清大概的框架: 1. 指定源文件,包括文件所在位置及其性质。 2. 创建一个外部表,作为数据字典的存 储器。 3. 确认数据库中 “真实 ”表,如有需要创建该表。 4. 在有计划的基础上进行整个过程,或一次性完成整个处理过程。 这个过程的处理方法是利用与这些对象相关的元数据 (通过设计映射和进程流 (也称为过程流 )来绑定他们。事实上,可以将进程流作为一个可视化假象进行创建,也就是说, 际所使用的工作流只是 成的一个进程流模式图,不过这个模式图足以当作工作流来使用。 把这个过程的每一部分都当作一个对象来考虑:文件、文件的位置、外部表、真实表、将 件映射到外部表的过程、最 后运行的作业等等。所有的这些都是对象,而这些对象都可以通过层级和依赖性将这些对象绑定起来。每个对象类型都存在一个模块当中。由于这个工具是基于 言的,所以面向对象的设计是可行的。一般来说,每个对象都是一个实例或者是通过某种方法实例化的对象。 过程 一个典型的 程模式包括在循环的基础上加载一个平面文件 (你也可以只执行其中的映射部分 )。如果你将该过程分解为涉及 项目树不同部分的若干步骤,那么就10 很容易搞清楚整个任务了。一个项目的开始,首先需要在 创建一个一个模块。提示大家,要记住几乎每一个类别都涉及到相同的两个步骤:创建模块和导入元数据。而且抽样并不总是基于同一个表。 下图显示了一个展开的项目树: 按照我们想要构建 程的步骤,在项目树里涉及到的项目领域是: 文件 ( 外部表 ( 表 ( 11 映射 (一旦完成映射的步骤,你就需要下拉到进程流 (调度 (在计划浏览器面板的 “文件 (项目下创建一个新模块,指定数据源文件的位置,如下图所示: 完成 “创建模块 ”步骤并进入到 “导入元数据向导 ”。这里你如果告诉 要加载的内容是平面文件时,就会启动 “平面文件抽样向导 ”,完成平面文件结构的定义。记住要给日期字段添加日期格式。当指定平面文件并对其抽样后,就可以准备创建 关于外部表的元数据了。 “平面文件抽样向导 ”的第一个步骤如下图所示: 骤如下图所示: 12 图三 当要确定字段分隔符时,你除了可以从下拉表中选择向导所提供的分隔符之外,还可以手动输入其他的分隔符。一旦完成了外部表定义,你就可以马上部署外部表,并在目标架构中创建该表。 下一步,我们就要创建表了。如果要从头开始创建表,就打开 “数据对象编辑器 ”进行表的设计。确保列 定义和外部表相应的列定义相匹配。最好首先部署外部表,然后在 通过 外部表 (只是表定义,并非数据 )创建表。 接下来的步骤就是将外部表的内容映射到真实表。创建一个新映射,并如下图所示映射相关列。 13 图四 部署该映射,如果部署成功的话,这时候你就可以手动运行 (开始 )从外部表将数据加载到真实表。通过进入 “控制中心 ”可以核实并查看该过程 的运行,如下图所示。 图五 如果想要将这个进程流自动化进行,就需要创建一个新的 “进程模块 ”。创建进程流模块、程序包和进程流,然后进入到 “进程编辑器 ”。添加映射操作,执行结果如下图所示: 14 图六 一旦完成了进程流模式图,我们就可以创建一个新的调度,调度应当是通用的,也就是说不能与任何东西绑定。你必须要回到映射步骤,将映射与调度关联起来。一旦部署了调度 ,那么就可以将上述的平面文件加载过程自动化了。 源 工具 绍 现在是一个 时代,而对于开发者,开源已成为最重要的参考书。对于某课题,不管你是深入研究还是初窥门径。估且 把,勾一勾同行的成就,你必会获益良多。 说到 源项目, 属翘首,项目名称很有意思,水壶。按项目负责人 各种数据放到一个壶里,然后呢,以一种你希望的格式流出。呵呵,外国人都很有联想力。 看了提供的文档,然后对发布程序的简单试用后,可以很清楚得看到 四大块: 工作 (计工具 (式 ) 工作 (行器 (命令行方式 ) 转换 (计工具 (式 ) 转换 (行器 (命令行方式 ) 文章出处: , 属翘首,因此,偶决定花点时间 了解一下。 项目名称很有意思,水壶。按项目负责人 说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。呵呵,外国人都很有联想力。 看了提供的文档,然后对发布程序的简单试用后,可以很清楚得看到 四大块: 工作 (计工具 (式 ) 工作 (行器 (命令行方式 ) 转换 (计工具 (式 ) 转换 (行器 (命令行方式 ) 嗯,厨师已经在厨房里,勺子和盘子一应俱全,且看能做出如何的大餐? 一: 工作 (计器 这是一个 具,操作方式主要通过拖拖拉拉,勿庸多言,一看就会。 何谓工作? 多个作业项,按特定的工作流串联起来,开成一项工作。正如:我的工作是软件开发。我的作业项是:设计、编码、测试!先设计,如果成功,则编码,否则继续设计,编码完成则开始设计,周而复始,作业完成。 来,看看 的作业项: 转换:指定更细的转换任务,通过 成 。通过 输入参数。 句执行, 载 件。 邮件:发送邮件。 检查表是否存在, 检查文件是否存在, 执行 本。如: 令。 批处理。 (注意: 处理不能有输出到控制台 )。 。作为嵌套作业使用。 行。这个比较有意思,我看了一下源码,如果你有自已的 以很方便的替换成自定义 扩充其功能。 全的 议传输。 式的上 /下传。 好了,看看工作流: 如上文所述,工作流是作业项的连接方式。分为三种:无条件,成功,失败。这个没啥好说的,从名字就能知道它的意图。 嗯,为了方便工作流使用,提供了几个辅助结点单元 (你也可将其作为简单的作业项 ): 1: 元,任务必须由此开始。设计作业时,以此为起点。 2: 元:可以编制做为中 间任务单元,且进行脚本编制,用来控制流程。 3: 元:用途同上。 4: 元:啥都不做,主要是用来支持多分支的情况。文档中有例子,不再多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论