




已阅读5页,还剩32页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术,1,前言,学习目的和方向数据仓库-新型的信息管理手段数据挖掘-新型的信息分析技术基于数据仓库的数据挖掘更加有效,2,教材数据仓库和数据挖掘苏新宁、杨建林等编著,清华大学出版社,2006参考书数据挖掘:概念与技术,加韩家炜坎伯(Kamber,M.)著范明等译微软公司核心技术书库SQLServer2000数据挖掘技术指南,美希德曼(Seidman,C.)著刘艺等译数据挖掘原理,英汉德(Hand,D.)著张银奎等译,前言,3,参考书数据仓库原理与实践,林宇等编著数据仓库中的决策支持,瑞Gray沃森WatsonOracle9i数据仓库分析、构建实用指南,飞思科技产品研发中心编著数据挖掘讨论组,前言,4,主要内容,第1章数据仓库、数据挖掘与信息管理第2章数据挖掘的功能、过程与方法第3章数据库挖掘第4章文本挖掘第5章Web挖掘第6章数据挖掘应用第7章数据挖掘软件发展分析,5,第1章数据仓库、数据挖掘与信息管理,6,数据仓库的起源,数据库与数据仓库是信息资源管理的两种手段企业用户信息的需求有了新的变化,传统的数据库很难胜任这方面的要求数据仓库可以很好地满足这方面的要求,7,1.1企业信息用户关心的新问题,一般来说,用户关心下列问题:可访问性即用户能否得到他所需要的信息(例,教室占用率);及时性即用户得到信息需要等多长时间(例,地质模拟,算最佳注水温度、矿物浓度);格式即用户能否用电子表格、图形、地图或其他分析工具来操纵他所得到数据、能否得到报表形式的数据;完整性即用户得到的数据是否可信(从不完整的数据中得出的结论可能不准确)。,8,1.1企业信息用户关心的新问题,传统数据库技术的局限性传统的数据库技术以数据库为中心进行从事务处理到决策分析等各种类型的数据处理工作,不适宜决策支持应用,9,1.1企业信息用户关心的新问题,事务处理环境不适宜决策支持应用的主要原因事务处理和分析处理的性能特性不同数据集成问题历史数据问题数据综合问题,10,1.2解决问题的关键技术-数据仓库,构建数据仓库,把分析型数据从事务处理环境中提取出来,按照决策支持处理的需要进行重新组织,建立单独的分析处理环境,11,1.2解决问题的关键技术-数据仓库,数据仓库Inmon把数据仓库描述为一个“面向主题的、完整的、非易失的、不同时间的、用于支持决策管理的数据集合”通常有两种数据源的数据聚居在数据仓库中在大多数情况下,来自于事务处理系统周期性迁移的数据被移入数据仓库另一种数据源常常是购买过来的可以与内部数据相连通的外部数据库,如收入清单、人口统计信息等,12,1.3数据仓库的商业应用,典型应用:客户关系管理有了数据仓库,就可以了解客户是谁,他要什么,怎样提供更好的服务给他,并以此创造更多利润零售业电信行业证券行业,13,1.4数据仓库与信息管理,数据仓库在信息管理方面的作用信息资源管理信息分析信息服务基于数据仓库为用户提供信息服务,可以使用户能够从多种视角观察数据,从而能够更深入地理解数据,从中获得决策支持信息数据仓库提供给用户的信息或知识可以是利用从数据仓库抽取出的数据组织成的报表或绘制成的直观图形,14,1.5信息管理新问题催生数据挖掘,人们被“淹没”在数据“海洋”之中如何不被堆积如山的信息所淹没?如何能够迅速地从海量信息中获取有用信息?在这种背景下,数据挖掘(DataMining)技术应运而生,15,1.5信息管理新问题催生数据挖掘,数据挖掘是指从大型数据集中提取人们感兴趣的知识,这些知识是隐含的、具有一定可信度的、对用户而言是新颖的且有潜在价值的知识,提取的知识表示为概念、规则、模式等多种形式,16,1.5信息管理新问题催生数据挖掘,下面将通过一个案例研究来介绍各个数据分析阶段中所涉及的概念三个阶段:报表查询联机分析数据挖掘,17,1.5信息管理新问题催生数据挖掘,案例之报表查询,18,1.5信息管理新问题催生数据挖掘,案例之报表查询,19,1.5信息管理新问题催生数据挖掘,案例之联机分析1.1月份,头盔在什么地区销售最好?2.1月份,哪个国家的头盔销售在该畅销地区处于领先地位?3.在领先的国家中,哪个城市的头盔收入最高?,20,1.5信息管理新问题催生数据挖掘,案例之数据挖掘问题;对购买山地车的客户来说,什么是最可能会同时购买的商品?IntelligentMinerfordata该问题做出如下答案:头盔,可能性为92:手套,可能性为62:新款铃铛,可能性为23;速度计,可能性为13。关联算法发现了产品之间的联系。根据上面的答案,它会给销售人员一个目录,列出在销售某一具体产品时所建议的前3名关联产品。例如,如果销售山地车,销售人员可建议购买头盔、手套和新款铃铛。,21,1.5信息管理新问题催生数据挖掘,案例之数据挖掘3个月后,公司有了如下结果:季度的营业额上升34,收入上涨32;每辆山地车交易的平均销售收入增加了29;山地车与头盔一块购买成了时尚(每个销售地点的头盔成交量都上升了);手套的销售上升15;山地车附件上升51;,22,1.6数据仓库与数据挖掘的关系,构建在数据仓库平台上的数据挖掘效率会更高一般来说,数据挖掘的对象可以是普通的数据库、文件系统,也可以是数据仓库,但,数据仓库完成了知识发现过程中大部分的数据预处理工作数据挖掘库中的内容可以是数据仓库数据的一个逻辑上的子集数据挖掘是一个相对独立的系统,它可以独立于数据仓库系统而存在,23,1.7数据仓库与数据库长期共存,首先,企业在建立用于决策的数据仓库系统时,不能一味否定传统的数据库系统,还应该在企业内部保留数据库系统,用于日常的事务处理其次,数据库是数据仓库的基础第三,在技术实现方面,数据库与数据仓库差别不大,数据仓库并不是纯粹的技术科学,它强调的是数据组织的一种理念第四,不要脱离企业的实际,盲目地、片面地、甚至是赶时髦地去引进与实施数据仓库技术,24,在何种数据上进行数据挖掘,关系数据库数据仓库事务数据库高级数据库系统和信息库空间数据库时间数据库和时间序列数据库流数据多媒体数据库面向对象数据库和对象-关系数据库异种数据库和历史(legacy)数据库文本数据库和万维网(WWW)知识库,25,空间数据库,空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。常见的空间数据库数据类型地理信息系统(GIS)遥感图像数据医学图像数据,26,时间数据库和时序数据库,时间数据库和时序数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的数据。时序数据库存放随时间变化的值序列。对时间数据库和时序数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。,27,流数据,与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。主要应用场合网络监控网页点击流股票市场流媒体等等与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。,28,多媒体数据库,多媒体数据库实现用计算机管理庞大复杂的多媒体数据,主要包括包括图形(graphics)、图象(image)、声音(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。,29,面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现了传统数据库的功能。对象关系数据库基于对象关系模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。面向对象数据库和对象关系数据库中的数据挖掘会涉及一些新的技术,比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。,面向对象数据库/对象-关系数据库,30,异构数据库和历史(legacy)数据库,历史数据库是一系列的异构数据库系统的集合,包括不同种类的数据库系统,像关系数据库、网络数据库、文件系统等等。有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。对于异构数据库系统,实现数据共享应当达到两点:一是实现数据库转换;二是实现数据的透明访问。WEBSERVICE技术的出现有利于历史数据库数据的重新利用。,31,文本数据库和万维网(WWW),文本数据库存储的是对对象的文字性描述。文本数据库的分类无结构类型(大部分的文本资料和网页)半结构类型(XML数据)结构类型(图书馆数据)万维网(WWW)可以被看成最大的文本数据库数据挖掘内容内容检索WEB访问模式检索,32,知识库,针对知识库中的事实规则应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中型饭店人员管理办法
- 装修工程协调管理办法
- 贷款债务重组管理办法
- 箱包样品室管理办法
- 衢州临时仓库管理办法
- 上市公司环安管理办法
- 财务管理办法及时性
- 订单班学生管理办法
- 上网电价结算管理办法
- 仓储物流设施管理办法
- 普通逻辑ppt课件(完整版)
- 《小学语文课程与教学论》复习题
- 2022年08月安徽省芜湖市招考大学生科技特派员岗位冲刺题(带答案)
- 国家城镇救援队伍能力建设与分级测评指南
- DB32∕T 4065-2021 建筑幕墙工程技术标准
- 施工现场环保工作措施
- 资产清查服务方案模版
- 部编版五年级语文上册(精美)课件 2 落花生
- 检具设计PPT.
- 二年级上册表内乘法口算练习
- 物业公司员工绩效考核表
评论
0/150
提交评论