数据仓库与数据挖掘技术的研究与应用_第1页
数据仓库与数据挖掘技术的研究与应用_第2页
数据仓库与数据挖掘技术的研究与应用_第3页
数据仓库与数据挖掘技术的研究与应用_第4页
数据仓库与数据挖掘技术的研究与应用_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、194计算机应用研究2005年数据仓库与数据挖掘技术的研究与应用王曙燕1,23,耿国华,周明全11(1.西北大学计算机科学系,陕西西安710069;2.西安邮电学院计算机系,陕西西安710061)摘要:讨论了数据仓库的构建方法和数据挖掘技术的应用,介绍了使用分析服务器构建数据仓库及进行联机分析的方法,实现了一个利用决策树算法建立模型对顾客的信誉度进行分类的实例。关键词:数据仓库;数据挖掘;联机分析处理;决策树中图法分类号:TP182文献标识码:A文章编号:100123695(2005)0920194202ResearchandApplicationofDataWarehouseandDataM

2、iningWANGShu2yancations,XianShanxi710061,China)1,2,GENGGuo2hua,ZHOUMing2quan11(1.Dept1ofComputer,NorthwestUniversity,XianShanxi710069,China;2.Dept.ofComputer,XianofPosts&Telecommuni2Abstract:Thispaperdiscussedthemethodofbuildingdatamining.Introducedthemethodofusinganalysismanagertobuilddatawareh

3、ouseandwithOLAP.Realizedanexampleofclassifierbasedondecisiontreealgorithmto.Keywords:DataWarehouse;DataMining;,它,将数。数据仓库是一个整合式的、面向主题的、历史性的以及只读性的数据集合,其主要目的是提供给企业管理者作为管理决策的参考依据。数据挖掘技术作为基于机器学习、模式识别、统计学等领域而发展起来的从数据中获取知识的技术也越来越得到人们的青睐。数据仓库使得人们只花很短的时间就能够从大量的历史数据中查询出所需的数据,而数据挖掘则可以从这些数据中发现和预测出有价值的信息,数据仓库技术使

4、我们从全新的视角认识了数据的价值1。然而,从目前的情况看,在中国数据仓库推广还处于起步阶段,其应用所取得的成绩远不如商家们“炒作”得那么辉煌,仍然存在许多不成熟因素,如计算机应用水平较低、数据保存和管理不完善、人才缺乏、没有真正适合行业特点的应用技术等2。但不管怎么说,数据仓库的应用对于中国企业未来加入国际竞争有着不可替代的作用。大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们作出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理、归纳和重组,并及时提供给相应的管理决策人员是数据仓库的根本任务。数据挖掘就是从大量的、不完全的、

5、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程3。原始数据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。特别要指出的是,数据挖掘技术从一开始就是面向应用的。例如加拿大BC省电

6、话公司要求加拿大SimonFraser大学KDD研究组,根据其拥有十多年的客户数据,总结、分析并提1数据仓库与数据挖掘数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non2Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解:数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;数据仓库是对多个异构数据源的有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。企业数据仓库的建设是以现有企业业务系统和收稿

7、日期:2004209205;修返日期:2004211211基金项目:国家自然科学基金资助项目(60372072)出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。这样一来,就把人们对数据的应用从低层次的末端查询操作提高到为各级经营决策者提供决策支持。2构建数据仓库的基本方法211数据仓库的体系结构数据仓库从多个信息源中获取原始数据,经过整理加工后存储在数据仓库的内部数据库。通过数据仓库访问工具,向数据仓库的用户提供统一、协调和集成的信息环境,支持企业全局决策过程和对企业经营管理的深入综合分析。整个数据仓第9期王曙燕等:数据仓库与数据挖掘技术的研究与应用195库系统是一个包含四个

8、层次的体系结构,如图1所示。以以星型模式(StarSchema)、雪花模式(SnowflakeSchema)或事实星座模式形式存在5。星型模式是目前普遍使用的实现数据仓库的设计结构。它通过使用一个包含主题的事实表和多个包含事实的非正规化描述的维度表来执行典型的决策支持查询。星型模式是一种关系型数据库结构,模式的中间是事实表,周围是维度表,数据在事实表中维护,维度数据在维度表中维护。每个维度表通过一个关键字(在某些情况下是主键)与事实表关联。雪花模式是星型模式的一种扩展模式。从图2可以看出,它与星型模式的不同在于维度表。在雪花模式中,维度表被分解成与事实表直接关联的主维度表和与主维度表关联的次维

9、度表,次维度表与事实表间接关联。这种模式用大量的冗余维度数据进行设计,通过减少读磁盘的数量来提高查询性能。(1)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括企业内部信息和外部信息。(2)数据的存储与管理是整个数据仓库系统的核心。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。(3)OLAP(On2LineAnalyticalProcessing)服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。(4)前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市

10、的应用开发工具。212构建数据仓库的方法目前有两种构建数据仓库的方法:规模、粒度的级别和元数据管理,够最大限度地减少集成问题,发,并且缺乏灵活性,是很困难的。自底向上设计、开发、部署独立的数据集市提供了灵活性,花费低,并能够得到快速的投资回报。但存在的问题是将分散的数据集市集成,形成一个一致的企业数据仓库并不容易。构建数据仓库的流程如下:(1)启动工程。建立开发数据仓库工程的目标及制定工程计划,建立技术环境,选择实现数据仓库的软硬件资源,包括开发平台、DBMS、开发工具、终端访问工具。(2)设计主题进行数据建模。根据决策需要确定主题,选择数据源,对数据仓库的数据进行逻辑结构设计。(3)设计数据

11、仓库中的数据库。基于用户的需求,着重于某个主题,开发数据仓库中的数据的物理存储结构,即设计多维数据结构的事实表和维表。(4)转换程序。实现从源系统中抽取数据、清理数据、一致性格式化数据、综合数据、装载数据等过程的设计和编码。(5)管理元数据。定义元数据,即表示、定义数据的意义及系统各组成部分之间的关系。元数据包括关键字、属性、数据描述、物理数据结构、源数据结构、映射及转换机制、综合算法、代码、安全要求等。(6)开发用户决策的数据分析工具。建立结构化的决策支持查询,实现和使用数据仓库的数据分析工具,包括优化查询工具、C/S工具、OLAP工具及数据挖掘工具等,通过分析工具实现决策支持要求。(7)管

12、理数据仓库环境。数据仓库必须像其他系统一样进行管理,包括质量检测,管理决策支持工具及应用程序,定期进行数据更新,使数据仓库能正常运行。213数据模式4VisualBasic6.0,后台数据库是MSSQLServer,利用SQLServer中的AnalysisServices进行数据挖掘6。本实例根据电信手机销售记录中的顾客信息,利用决策树算法建立模型对顾客的信誉度进行分类,这样可以对新顾客的信誉度进行预测,在以后的缴费等服务中就可以根据顾客的信誉度提供相关的支持。实例使用了销售表、顾客表、手机信息表、时间表、员工信息表、服务信息表等,数据模式为星型模式。建立多维数据集Sales,选择销售表为事

13、实表,建立时间、产品、顾客维度,并为顾客维度设置成员属性,如图3所示。系统实现过程如下:首先从包含数据源的业务数据中进行数据抽取,对数据进行数据一致性的协调、格式化处理及必要的转换,然后将数据加载进数据仓库。在ODBC数据源管理器中设置和源数据的连接,连接数据源命名为phone。在AnalysisManager中新建数据库,取名为手机,右击“手机数据库”选择新数据源为其建立连接,选择“phone”。在OLAP挖掘模型编辑器中,可以使用编辑器编辑模型属性或者浏览其结果。决策树显示于右窗格中,其中包括四个窗格。中间的“内容详情”窗格显示焦点所在的(下转第205页)最流行的数据仓库数据模型是多维数据

14、模型,这种模型可第9期钟明等:基于B/S结构的物流管理系统与应用205现了对轨道衡电子秤的数据信息的实时收集。同样该方案也适合其他实时数据源(如实时数据库),这样使得信息管理系统具备迅捷的数据收集功能,为企业信息分析提供良好的数据支持。314引入公文流转设计(2)由于审批流程在网络上进行,大大节省了审批花费的时间,提高了物流的流通效率,缩短了物流周期,为企业带来了效益。(3)提供网络打印功能,对于原来需要手工进行统计的烦琐报表,目前只需要在系统中选择时间和相应条件即可在任意一个网络终端进行报表的打印,这就大大节省了企业进行数据统计和分析的时间。基于供应链理论设计的物流管理系统中,几乎每个业务都

15、包括流程审批和业务单据的查看。按照传统的方式,这需要在OA系统和单据系统中分别记录数据,而这样显然不适合本系统。该系统参考工作流(Workflow)设计,实现了简单审批流程与业务单据的融合。例如,当库存人员批示入库单据时,既可以看到入库单据进行修改,也可以执行打回、通过等流程操作,同时库存人员可以查看库存审核流程中的各个审批环节的意见,包括打回原因等。315系统安全设计5结束语本文阐述了基于供应链理论开发的B/S结构的物流管理系统(ESP2Mas物资供应系统)。虽然该系统是针对某个特定企业进行设计的,但由于该系统采用多层Web开发并且兼容了实时数据收集方案,因而具有极强的扩展性和通用性。相信随

16、着该系统在某化工集团发挥越来越重要的作用,它也将会被更多的企业所应用。参考文献:1马士华,林勇,.M.北京:机械工业出版社,2JPerral.构建企业系统M.北京:清华大,3Rway.精通ServletsM.北京:清华大学出版社,2002.4李晓黎.Velocity网页程序设计M.北京:人民邮电出版社,2001.5美WilliamGJr.Oracle8/8i开发使用手册M.北京:机械工业出版社,2000.6何哲军,刘杰,孟杨.基于B/S结构的物资流通企业信息系统设计J.计算机应用研究,2003,20(6):72274,91.本系统的安全设计采用的是目前Windows的三级安全管理,即领域、角色

17、、用户,并且可以自由进行用户、领域、权限和角色的定制和组态,这些操作都是在友好的管理员使用界面中进行。本系统还可以根据访问用户的IP,用户所处的部门等条件进行访问级别的限制,同时对于用户的目前使用状态,以及历史情况均由日志系统进行记录,管理员可以随时查询。4系统实施,。(1)实现分布式物流信息管理,为领导进行决策提供信息保证。该企业计划部门人员由于可以随时查看库存信息,使得制定的采购计划更加符合企业的需要,库存积压大大降低。而采购人员可以对供应商最新价格信息进行查看,因此进行采购的时候可以货比三家,大大降低了采购的费用。(上接第195页)决策树部分;“内容选择区”窗格显示树的完整作者简介:钟明

18、(19782),男,江西南昌人,硕士研究生,主要研究方向为基于J2EE的物流管理软件的设计和实现;苏宏业(19692),男,江苏常州人,教授,博士生导师,主要研究方向为流程工业企业综合自动化技术与应用、时滞、非线性系统控制理论与应用、鲁棒及变结构控制理论与应用等。领域需要的有效数据挖掘工具之间还存在不小的距离,给数据挖掘提出了许多挑战性的课题,如生物、医学等特定应用领域的探索;Web挖掘将成为数据挖掘中一个最为重要和繁荣的子领域;可伸缩的数据挖掘方法;数据仓库系统和Web数据库系统的集成;数据挖掘语言的标准化;可视化数据挖掘;数据挖掘中的隐私保护与信息安全等,都是值得我们进一步研究的课题。参考

19、文献:1EdWilson.TheKnowledgeDiscoveryProcess,AProblemSolvingMethodologyM.NewYork:ComputerAssociatesInternational,Inc,1998.35250.解敏.数据仓库初探EB/OL.JiaweiHan.数据挖掘:概念与技术M.北京:机械工业出版社,2001.1852195.InmonWH.BuildingDataWarehouseM.NewYork:JohnWiley,1996.202150.陈京民.数据仓库与数据挖掘技术M.北京:电子工业出版社,2002.52199.MikeGunderloy,等.SQLServer

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论