下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库及其应用摘要本文对于大量存在于计算机信息系统中的数据,通过数据仓库、联机 处理技术和数据挖掘技术,对数据进行加工、分析、产生用于决策支持的信息, 得以充分利用。关键词数据仓库数据仓库应用OLAP联机分析处理引言数据仓库技术是计算机数据库系统发展的新方向,近几年来已经在许 多领域得到了应用。以数据仓库为基础的商业职能系统强大的功能在实际应用中 能带来高利润的回报,所以近年来数据仓库在证券业、银行领域、税务领域、控 制金融风险、保险、客户管理等众多领域得到了越来越广泛的应用。据调查,财 富500强企业中已经有85 %的企业建成或正在建立数据仓库。数据仓库与Internet 一样,正在成为最
2、快的IT增长点。1996年,全球企业 在数据仓库上的投资达到16. 8亿美元,并且以每年19. 1 %的速度增长。那么 什么是数据仓库?数据仓库有哪些特征和技术?下面做一些简单的介绍。1数据仓库概念及特征1、数据仓库概念数据仓库就是面向主题的、集成的、不可更新的(稳定的)、随时间不断变 化的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,即对分布在 企业内部各处的业务数据的整合、加工和分析的过程,而不是一种可以购买的产 品。2、数据仓库的特征面向主题。数据仓库中的数据是按照一定的主题域进行组织。主题是一个 抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通 常与多
3、个操作型信息系统相关。集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基 础上,经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证 数据仓库内的信息是关于整个企业的一致的全局信息。相对稳定的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操 作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留, 也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要 定期的加载、刷新。反映历史变化。数据仓库中的数据通常包含历史信息,系统记录了企业从 过去某一时点到目前各个阶段的信息,通过这些信息,可以对企业的发展历程和 未来趋势做出定量分析和
4、预测。2数据仓库的分析技术2.1OLAP 技术2.1.1 OLAP (联机分析处理)的概念OLAP是数据处理的一种技术概念。OLAP的基本目的是使企业的决策者能灵 活地操纵企业的数据,以多维的形式从多面角度来观察企业的状态、了解企业的 变化,通过快速、一致、交互地访问各种可能的信息视图,帮助管理人员掌握数据 中存在的规律,实现对数据的归纳、分析和处理,帮助组织完成相关的决策。根据OLAP产品的实际应用情况和用户对OLAP产品的需求,人们提出了 一种对OLAP更简单明确的定义,即共享多维信息的快速分析。OLAP通过对多维 信息以很多种可能的观察方式进行快速、稳定一致和交互性的存取,允许管理决 策
5、人员对数据进行深入的观察。基于操作型数据环境的OLTP(联机事务处理), 其基本操作是通过经典的SQL语句实现的。而OLAP多维数据分析是指对多维数 据采取切片、切块、钻取、旋转等各种分析操作,以求剖析数据,使最终用户能从 多角度、多侧面地观察数据库中的数据,从而深入地了解包含在数据中的信息、 内涵。数据仓库系统一般都支持OLAP的这些基本操作,也可以认为是一种扩展 了的SQL操作。2.1.2联机分析处理的主要特点OLAP是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模 型,在这里,维指的是用户的分析角度。例如对销售数据的分析,时间周期是一 个维度,产品类别、分销渠道、地理分布、客户
6、群类也分别是一个维度。一旦多 维数据模型建立完成,用户可以快速地从各个分析角度获取数据,也能动态的在 各个角度之间切换或者进行多角度综合分析,具有极大的分析灵活性。这也是联 机分析处理在近年来被广泛关注的根本原因,它从设计理念和真正实现上都与旧 有的管理信息系统有着本质的区别。2.1.3联机分析处理与数据仓库的关系事实上,随着数据仓库理论的发展,数据仓库系统已逐步成为新型的决策 管理信息系统的解决方案。数据仓库系统的核心是联机分析处理,但数据仓库包 括更为广泛的内容。概括来说,数据仓库系统是指具有综合企业数据的能力,能够对大量企业数 据进行快速和准确分析,辅助做出更好的商业决策的系统。见图二。
7、它本身包括 三部分内容:数据层。实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数 据,并存储在企业级的中心信息数据库中。应用层。通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息 数据的分析。表现层。通过前台分析工具,将查询报表、统计分析、多维联机分析和 数据发掘的结论展现在用户面前。2.1.4 OLAP的应用从应用角度来说,数据仓库系统除了联机分析处理外,还可以采用传统的报 表,或者采用数理统计和人工智能等数据挖掘手段,涵盖的范围更广;就应用范 围而言,联机分析处理往往根据用户分析的主题进行应用分割,例如:销售分析、 市场推广分析、客户利润率分析等等,每一个分析的主题形成一个OLA
8、P应用, 而所有的OLAP应用实际上只是数据仓库系统的一部分。联机分析处理的用户是企业中的专业分析人员及管理决策人员,他们在分析 业务经营的数据时,从不同的角度来审视业务的衡量指标是一种很自然的思考模 式。例如分析销售数据,可能会综合时间周期、产品类别、分销渠道、地理分布、 客户群类等多种因素来考虑。这些分析角度虽然可以通过报表来反映,但每一个 分析的角度可以生成一张报表,各个分析角度的不同组合又可以生成不同的报 表,使得IT人员的工作量相当大,而且往往难以跟上管理决策人员思考的步伐。2.2数据挖掘技术2.1数据挖掘的概念数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取 隐含
9、的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中 的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等 多个领域的理论和技术。随着人工智能技术在专家咨询、语言处理、娱乐游戏等 模式识别领域的应用日益广泛。从选取专业学习、研究方向的实际出发,提出了 将数据挖掘应用于辅助选取专业学习、研究方向的数据挖掘技术流程模型。2.2数据挖掘技术的过程数据挖掘技术是一个多步骤、可能需多次反复的处理过程。主要包括以下几 步:准备、数据选择、数据预处理、数据缩减、确定数据挖掘的目标、确定知识 发现算法、数据挖掘(Data Mining)、模式解释、知识评价,如图2所示。其中最重
10、 要的一个步骤是数据挖掘,它是利用某些特定的知识发现算法,在可接受的运算效 率的限制下,从有效数据中发现有关的知识。图2数据挖掘过程图2.3数据挖掘技术主要有四种开采任务数据总结是对数据进行浓缩,给出它的紧凑描述。数据挖掘是从数据泛化的 角度来讨论数据总结。分类发现这是一项非常重要的任务,分类是运用分类器把数据库中的数据 项映射到给定类别中的某一个,用于对未来数据进行预测。聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类 别的个体之间的距离尽可能的小,而不同类别的个体间的距离尽可能的大。关联规则是指事物之间的联系具有多大的支持度和可信度。有意义的关联 规则必须给定两个阈值:最小
11、支持度和最小可信度。2.4数据挖掘在实际生活中的应用数据挖据的结果经过业务决策人员的认可,才能实际利用。要将通过数据挖 掘得出的预测模式和各个领域的专家认识结合在一起,构成一个可供不同类型的 人使用的应用程序。也只有通过对挖掘知识的应用,才能对数据挖掘的成果做出 正确的评价。但是在应用数据挖掘成果时,决策人员所关心的是数据挖掘最终结 果与用其他候选结果在实际应用中的差距。如果结果是根据某种类型的得分或权 值计算的,那就可以按照获选边际率(最终结果得分-候选结果得分)/最终预测 结果得分X 100%的公式进行决断。一般情况下,获选边际率的值越高,则预测 结果为真的可能性越大。因此,在实际决策应用中,通常只选择那些获选边际率 超过一定百分比的数据行进行预测使用。为将数据挖掘结果能在实际中得到应 用,需要将分析所得到的知识集成到业务信息系统的组织机构中去,使这些知识 在实际的管理决策分析中得到应用。3结论数据仓库和数据挖掘是作为两种独立的信息技术出现的。数据仓库是不同于 数据库的数据组织和存储技术,它从数据库技术发展而来并为决策服务,通过 OLAP工具验证用户的假设;数据挖掘是通过对文件系统和数据库中的数据进行 分析,获得具有一定可信度知识的算法和技术。他们从不同侧面完成对决策过程 的支持,相互间有一定的内在联系。因此,将它们集成到一个系统中,形成基于数 据挖掘的OLAP工具,可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026上半年贵州事业单位联考贵州省文化和旅游厅招聘29人备考题库含答案详解(综合题)
- 2026新疆博州赛里木湖信息科技服务有限责任公司招聘4人备考题库带答案详解(新)
- 2026年合肥市蜀山区公立幼儿园多名工勤岗位招聘备考题库含答案详解(巩固)
- 2026南方科技大学附属实验学校招聘教师及教务员备考题库(广东)及答案详解1套
- 2026山东济南中国重汽集团汽车研究总院产品试验检测中心社会招聘10人备考题库及答案详解(历年真题)
- 2026天津华北地质勘查局及所属事业单位招聘13人备考题库及答案详解(夺冠)
- 2026广东清远市清城区信访局招聘聘员2人备考题库附参考答案详解(基础题)
- 2026中国海峡人才市场南平工作部招聘见习生备考题库含答案详解(精练)
- 2026云南昭通市人大常委会办公室招聘城镇公益性岗位工作人员的3人备考题库附参考答案详解(典型题)
- 2026上半年贵州事业单位联考毕节市七星关区招聘377人备考题库附答案详解
- 2025年人教版(2024)小学信息科技四年级(全一册)教学设计(附教材目录 P208)
- 《铁路路基施工与维护》高职高速铁路施工与维护全套教学课件
- 2025年苏州市中考物理试卷真题(含答案解析)
- 20G361预制混凝土方桩
- T/CGCC 93-2024文化产品产权价值评估通则
- 临床用药解读-消化系统常见疾病的诊疗进展及处方审核要点
- 高中数学北师大版讲义(必修二)第05讲1.5正弦函数、余弦函数的图象与性质再认识3种常见考法归类(学生版+解析)
- 2025年物料提升机司机(建筑特殊工种)模拟考试100题及答案
- 海关特殊监管区域专题政策法规汇编 2025
- 《胆囊结石伴胆囊炎》课件
- 《浙江省城市体检工作技术导则(试行)》
评论
0/150
提交评论