数据挖掘精品讲义

上传人：红*** IP属地：江苏上传时间：2015-08-04 格式：PPT 页数：389 大小：1.17MB 积分：6 举报 版权申诉

已阅读5页，还剩384页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘主讲教师：王灿 E-mail: 教科书和参考书教科书数据挖掘：概念与技术， Jiawei Han和 Micheline Kamber 著，机械工业出版社 (2001) 参考书数据挖掘原理 , David Hand, Heikki Mannila和 Padhraic Smyth著，机械工业出版社 (2003) 中文版英文影印版数据挖掘的发展动力 -需要是发明之母数据爆炸问题自动数据收集工具和成熟的数据库技术使得大量的数据被收集，存储在数据库、数据仓库或其他信息库中以待分析。我们拥有丰富的数据，但却缺乏有用的信息解决方法：数据仓库技术和数据挖掘技术数据仓库 (Data Warehouse)和在线分析处理 (OLAP) 数据挖掘：在大量的数据中挖掘感兴趣的知识（规则，规律，模式，约束）数据库技术的演化 (1) 1960s和以前 : 文件系统 1970s: 层次数据库和网状数据库 1980s早期 : 关系数据模型 , 关系数据库管理系统 (RDBMS)的实现数据库技术的演化 (2) 1980s晚期 : 各种高级数据库系统 (扩展的关系数据库 ,面向对象数据库等等 .) 面向应用的数据库系统 (空间数据库，时序数据库，多媒体数据库等等） 1990s: 数据挖掘 , 数据仓库 , 多媒体数据库和网络数据库 2000s 流数据管理和挖掘基于各种应用的数据挖掘 XML数据库和整合的信息系统什么是数据挖掘？数据挖掘 (从数据中发现知识 ) 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识挖掘的不仅仅是数据（所以“数据挖掘”并非一个精确的用词）数据挖掘的替换词数据库中的知识挖掘（ KDD）知识提炼、数据 /模式分析数据考古数据捕捞、信息收获等等。数据挖掘 : 数据库中的知识挖掘 (KDD) 数据挖掘知识挖掘的核心数据清理数据集成数据库数据仓库任务相关数据选择数据挖掘模式评估 KDD的步骤从 KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识 1. 数据清理 : (这个可能要占全过程 60的工作量 ) 2. 数据集成 3. 数据选择 4. 数据变换 5. 数据挖掘（选择适当的算法来找到感兴趣的模式） 6. 模式评估 7. 知识表示典型数据挖掘系统的体系结构数据仓库数据清洗过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成并非所有的东西都是数据挖掘基于数据仓库的 OLAP系统 OLAP系统专注于数据的汇总，而数据挖掘系统可以对数据进行多种复杂的处理。机器学习系统，数据统计分析系统这些系统所处理的数据容量往往很有限。信息系统专注于数据的查询处理。相比于上述系统，数据挖掘系统关注更广的范围，是一个多学科的融合在何种数据上进行数据挖掘关系数据库数据仓库事务数据库高级数据库系统和信息库空间数据库时间数据库和时间序列数据库流数据多媒体数据库面向对象数据库和对象 -关系数据库异种数据库和历史 (legacy)数据库文本数据库和万维网 (WWW) 空间数据库空间数据库是指在关系型数据库（ DBMS）内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。常见的空间数据库数据类型地理信息系统 (GIS) 遥感图像数据医学图像数据数据挖掘技术的应用：通过空间分类和空间趋势分析，引入机器学习算法，对有用模式进行智能检索时间数据库和时序数据库时间数据库和时序数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的数据。时序数据库存放随时间变化的值序列。对时间数据库和时序数据库的数据挖掘 ,可以通过研究事物发生发展的过程，有助于揭示事物发展的本质规律，可以发现数据对象的演变特征或对象变化趋势。流数据与传统的数据库技术中的静态数据不同，流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。主要应用场合网络监控网页点击流股票市场流媒体等等与传统数据库技术相比，流数据在存储、查询、访问、实时性的要求等方面都有很大区别。多媒体数据库多媒体数据库实现用计算机管理庞大复杂的多媒体数据，主要包括包括图形 (graphics)、图象 (image)、声音 (audio)、视频 (video)等等，现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。对于多媒体数据库的数据挖掘，需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。面向对象数据库和对象 -关系数据库面向对象数据库是面向对象技术和数据库技术结合的产物，该技术对数据以对象的形式进行存储，并在这个基础上实现了传统数据库的功能，包括持久性、并发控制、可恢复性、一致性和查询数据库的能力等。对象关系数据库基于对象关系模型构造，该模型通过处理复杂对象的丰富数据类型和对象定位等功能，扩充关系模型。面向对象数据库和对象关系数据库中的数据挖掘会涉及一些新的技术，比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。异构数据库和历史 (legacy)数据库历史数据库是一系列的异构数据库系统的集合，包括不同种类的数据库系统，像关系数据库、网络数据库、文件系统等等。有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。对于异构数据库系统，实现数据共享应当达到两点：一是实现数据库转换；二是实现数据的透明访问。 WEB SERVICE技术的出现有利于历史数据库数据的重新利用。文本数据库和万维网 (WWW) 文本数据库存储的是对对象的文字性描述。文本数据库的分类无结构类型（大部分的文本资料和网页）半结构类型（ XML数据）结构类型（图书馆数据）万维网 (WWW)可以被看成最大的文本数据库数据挖掘内容内容检索 WEB访问模式检索数据挖掘应用市场分析和管理 (1) 数据从那里来 ? 信用卡交易 , 会员卡 , 商家的优惠卷 , 消费者投诉电话 , 公众生活方式研究目标市场构建一系列的“客户群模型”，这些顾客具有相同特征 : 兴趣爱好 , 收入水平 , 消费习惯 ,等等确定顾客的购买模式交叉市场分析货物销售之间的相互联系和相关性，以及基于这种联系上的预测数据挖掘应用市场分析和管理 (2) 顾客分析哪类顾客购买那种商品 (聚类分析或分类预测 ) 客户需求分析确定适合不同顾客的最佳商品预测何种因素能够吸引新顾客提供概要信息多维度的综合报告统计概要信息 (数据的集中趋势和变化 ) 数据挖掘应用公司分析和风险管理财务计划现金流转分析和预测交叉区域分析和时间序列分析（财务资金比率，趋势分析等等）资源计划总结和比较资源和花费竞争对竞争者和市场趋势的监控将顾客按等级分组和基于等级的定价过程将定价策略应用于竞争更激烈的市场中数据挖掘应用欺诈行为检测和异常模式的发现方法 : 对欺骗行为进行聚类和建模，并进行孤立点分析应用 : 卫生保健、零售业、信用卡服务、电信等汽车保险 : 相撞事件的分析洗钱 : 发现可疑的货币交易行为医疗保险职业病人 , 医生以及相关数据分析不必要的或相关的测试电信 : 电话呼叫欺骗行为电话呼叫模型 : 呼叫目的地，持续时间，日或周呼叫次数 . 分析该模型发现与期待标准的偏差零售产业分析师估计有 38的零售额下降是由于雇员的不诚实行为造成的反恐怖主义数据挖掘的主要功能可以挖掘哪些模式？一般功能描述性的数据挖掘预测性的数据挖掘通常，用户并不知道在数据中能挖掘出什么东西，对此我们会在数据挖掘中应用一些常用的数据挖掘功能，挖掘出一些常用的模式，包括：概念 /类描述 : 特性化和区分关联分析分类和预测聚类分析孤立点分析趋势和演变分析概念 /类描述 : 特性化和区分概念描述：为数据的特征化和比较产生描述（当所描述的概念所指的是一类对象时，也称为类描述）特征化：提供给定数据集的简洁汇总。例：对 AllElectronic公司的“大客户”（年消费额 $1000以上）的特征化描述： 40 50岁，有固定职业，信誉良好，等等区分：提供两个或多个数据集的比较描述。例： S t a t u s B i r t h _ c o u n t r y A g e _ r a n g e G p a C o u n tG r a d u a t e C a n a d a 2 5 - 3 0 G o o d 90U n d e r g r a d u a t e C a n a d a 2 5 - 3 0 G o o d 2 1 0关联分析关联规则挖掘：从事务数据库，关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。广泛的用于购物篮或事务数据分析。例： %70%,20 s u p) ,( )48.42 ,( )39.30 ,( c on f i d e n c ep o r tc omp u t e rXb u y skkXi n c omeXage分类和预测根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据（分类），用来预测类型标志未知的对象类（预测）。比如：按气候将国家分类，按汽油消耗定额将汽车分类导出模型的表示 : 判定树、分类规则、神经网络可以用来预报某些未知的或丢失的数字值例： IF age = 40 AND credit_rating = excellent THEN buys_computer = yes IF age = 40 AND credit_rating = fair THEN buys_computer = no 聚类分析聚类分析：将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。最大化类内的相似性和最小化类间的相似性例：对 WEB日志的数据进行聚类，以发现相同的用户访问模式孤立点分析孤立点分析孤立点 :一些与数据的一般行为或模型不一致的孤立数据通常孤立点被作为“噪音”或异常被丢弃，但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。应用信用卡欺诈检测移动电话欺诈检测客户划分医疗分析（异常）趋势和演变分析描述行为随时间变化的对象的发展规律或趋势（时序数据库）趋势和偏差 : 回归分析序列模式匹配：周期性分析基于类似性的分析所有模式都是有趣的吗？数据挖掘可能产生数以千计的模式或规则，但并不是所有的模式或规则都是令人感兴趣的。模式兴趣度的度量一个模式是有趣的，如果 (1) 它易于被人理解；（ 2）在某种程度上，对于新的或测试数据是有效的；（ 3）具有潜在效用；（ 4）新颖的；（ 5）符合用户确信的某种假设模式兴趣度的客观和主观度量客观度量 : 基于所发现模式的结构和关于它们的统计，比如：支持度、置信度等等主观度量 : 基于用户对数据的判断。比如：出乎意料的、新颖的、可行动的等等 5-6 王灿数据挖掘 0703004 能够产生所有有趣模式并且仅产生有趣模式吗？找出所有有趣的模式 : 数据挖掘算法的完全性问题数据挖掘系统能够产生所有有趣的模式吗 ? 试探搜索 vs.穷举搜索关联 vs. 分类 vs. 聚类只搜索有趣的模式 : 数据挖掘算法的最优化问题数据挖掘系统可以仅仅发现有趣的模式吗？方法首先生成所有模式然后过滤那些无趣的 . 仅仅生成有趣的模式挖掘查询优化数据挖掘 :多个学科的融合数据挖掘数据库系统统计学其他学科算法机器学习可视化数据挖掘系统的分类 (1) 数据挖掘的多学科融合的特性，决定了数据挖掘的研究将产生种类繁多的数据挖掘系统。根据所挖掘的数据库分类关系数据库，事务数据库，流式数据，面向对象数据库，对象关系数据库，数据仓库，空间数据库，时序数据库，文本数据库，多媒体数据库，异构数据库，历史数据库， WWW 数据挖掘系统的分类 (2) 根据挖掘的知识类型特征分析 , 区分 , 关联分析 , 分类聚类 , 孤立点分析 /演变分析 , 偏差分析等等 . 多种方法的集成和多层机挖掘根据挖掘所用的技术面向数据库的挖掘、数据仓库、 OLAP、机器学习、统计学、可视化等等 . 根据挖掘所用的应用金融 ,电信 ,银行 , 欺诈分析 , DNA分析 ,股票市场 , Web挖掘等等 . 数据挖掘的主要问题 (1) 数据挖掘是多个学科融合，但本课程所关注的是：海量数据的挖掘的效率和可扩展性本课程中所要涵盖的主要数据挖掘问题包括：挖掘方法问题和用户交互问题在数据库中挖掘不同类型的知识在不同抽象层上的交互式知识挖掘背景知识的合并数据挖掘查询语言和特定的数据挖掘数据挖掘结果的表示和可视化处理噪声何不完全数据模式评估 : 兴趣度问题数据挖掘的主要问题 (2) 性能问题数据挖掘算法的效率和可扩展性 (scalability) （什么是可扩展性？）并行，分布式和增量挖掘算法（数据的分块挖掘）其他和多样化的数据库类型相关的问题关系型和复杂数据类型的处理为特定的数据类型构建特定的数据挖掘系统从异构数据库中挖掘 WEB数据挖掘数据仓库和数据挖掘的OLAP技术数据仓库数据挖掘的有效平台数据仓库中的数据清理和数据集成，是数据挖掘的重要数据预处理步骤数据仓库提供 OLAP工具，可用于不同粒度的数据分析很多数据挖掘功能都可以和 OLAP操作集成，以提供不同概念层上的知识发现分类预测关联聚集什么是数据仓库 ? 数据仓库的定义很多，但却很难有一种严格的定义它是一个提供决策支持功能的数据库，它与公司的操作数据库分开维护。为统一的历史数据分析提供坚实的平台，对信息处理提供支持数据仓库区别于其他数据存储系统 “数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合，支持管理部门的决策过程 .W. H. Inmon 数据仓库关键特征一面向主题面向主题，是数据仓库显著区别于关系数据库系统的一个特征围绕一些主题，如顾客、供应商、产品等关注决策者的数据建模与分析，而不是集中于组织机构的日常操作和事务处理。排除对于决策无用的数据，提供特定主题的简明视图。数据仓库关键特征二数据集成一个数据仓库是通过集成多个异种数据源来构造的。关系数据库，一般文件，联机事务处理记录使用数据清理和数据集成技术。确保命名约定、编码结构、属性度量等的一致性。当数据被移到数据仓库时，它们要经过转化。数据仓库关键特征三随时间而变化数据仓库是从历史的角度提供信息数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统 : 主要保存当前数据。数据仓库 :从历史的角度提供信息（比如过去 5-10 年）数据仓库中的每一个关键结构都隐式或显式地包含时间元素，而操作数据库中的关键结构可能就不包括时间元素。数据仓库关键特征四数据不易丢失尽管数据仓库中的数据来自于操作数据库，但他们却是在物理上分离保存的。操作数据库的更新操作不会出现在数据仓库环境下。不需要事务处理，恢复，和并发控制等机制只需要两种数据访问 : 数据的初始转载和数据访问（读操作）数据仓库的构建与使用数据仓库的构建包括一系列的数据预处理过程数据清理数据集成数据变换数据仓库的使用热点是商业决策行为，例如：增加客户聚焦产品重定位寻找获利点客户关系管理数据仓库与异种数据库集成异种数据库的集成方法传统的异种数据库集成 :（查询驱动）在多个异种数据库上建立包装程序（ wrappers）和中介程序（ mediators ）查询驱动方法当从客户端传过来一个查询时，首先使用元数据字典将查询转换成相应异种数据库上的查询；然后，将这些查询映射和发送到局部查询处理器数据仓库 : （更新驱动）将来自多个异种源的信息预先集成，并存储在数据仓库中，供直接查询和分析查询驱动方法和更新驱动方法的比较查询驱动的方法需要负责的信息过滤和集成处理与局部数据源上的处理竞争资源对于频繁的查询，尤其是涉及聚集（汇总）操作的查询，开销很大（决策支持中常见的查询形式）更新驱动的方法（带来高性能）数据经预处理后单独存储，对聚集操作提供良好支持不影响局部数据源上的处理集成历史信息，支持负责的多维查询数据仓库与操作数据库系统操作数据库系统的主要任务是联机事务处理OLTP 日常操作 : 购买，库存，银行，制造，工资，注册，记帐等数据仓库的主要任务是联机分析处理 OLAP 数据分析和决策支持，支持以不同的形式显示数据以满足不同的用户需要 OLAP VS. OLTP (1) 用户和系统的面向性面向顾客（事务） VS. 面向市场（分析）数据内容当前的、详细的数据 VS. 历史的、汇总的数据数据库设计实体联系模型 (ER)和面向应用的数据库设计 VS. 星型 /雪花模型和面向主题的数据库设计 OLAP VS. OLTP (2) 数据视图当前的、企业内部的数据 VS. 经过演化的、集成的数据访问模式事务操作 VS. 只读查询（但很多是复杂的查询）任务单位简短的事务 VS. 复杂的查询访问数据量数十个 VS. 数百万个 OLAP VS. OLTP (3) 用户数数千个 VS. 数百个数据库规模 100M-数 GB VS. 100GB-数 TB 设计优先性高性能、高可用性 VS. 高灵活性、端点用户自治度量事务吞吐量 VS. 查询吞吐量、响应时间为什么需要一个分离的数据仓库 ? 提高两个系统的性能 DBMS是为 OLTP而设计的：存储方式 ,索引 , 并发控制 , 恢复数据仓库是为 OLAP而设计：复杂的 OLAP查询 , 多维视图，汇总不同的功能和不同的数据 : 历史数据 : 决策支持需要历史数据，而这些数据在操作数据库中一般不会去维护数据汇总：决策支持需要将来自异种源的数据统一（如聚集和汇总）数据质量 : 不同的源使用不一致的数据表示、编码和格式，对这些数据进行有效的分析需要将他们转化后进行集成多维数据模型 (1) 数据仓库和 OLAP工具基于多维数据模型在多维数据模型中，数据以数据立方体 (data cube)的形式存在数据立方体允许以多维数据建模和观察。它由维和事实定义维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联，称为维表。多维数据模型围绕中心主题组织，该主题用事实表表示事实表包括事实的名称或度量以及每个相关维表的关键字事实指的是一些数字度量多维数据模型 (2) 示例 time_key day day_of_the_week month quarter year time 维表 location_key street city state_or_province country location 事实表 Sales 事实表 time_key item_key branch_key location_key units_sold dollars_sold avg_sales 度量 item_key item_name brand type supplier_type item 维表 branch_key branch_name branch_type branch 维表多维数据模型 (3) 在数据仓库中，数据立方体是 n-D的 (n维）（关系表和电子表格是几维的？）示例 AllElectronics的销售数据按维 time, item的 2-D视图 (P30, 表2-2) AllElectronics的销售数据按维 time, item和 location的 3-D视图 (P30, 表 2-3) AllElectronics的销售数据按维 time, item和 location的 3-D视图的 3-D数据立方体表示 (P31, 图 2-1) 销售数据的 4-D立方体表示 (P31, 图 2-2) 多维数据模型为不同角度上的数据建模和观察提供了一个良好的基础多维数据模型 (4) 在数据仓库的研究文献中，一个 n维的数据的立方体叫做基本方体。给定一个维的集合，我们可以构造一个方体的格，每个都在不同的汇总级或不同的数据子集显示数据，方体的格称为数据立方体。 0维方体存放最高层的汇总，称作顶点方体；而存放最底层汇总的方体则称为基本方体。数据立方体一个方体的格 all time item location supplier time,item time,location time,supplier item,location item,supplier location,supplier time,item,location time,item,supplier time,location,supplier item,location,supplier time, item, location, supplier 0-D(顶点 ) 方体 1-D方体 2-D 方体 3-D 方体 4-D(基本 ) 方体数据仓库的概念模型最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。星型模式（ Star schema） : 事实表在中心，周围围绕地连接着维表（每维一个），事实表含有大量数据，没有冗余。雪花模式（ Snowflake schema） : 是星型模式的变种，其中某些维表是规范化的，因而把数据进一步分解到附加表中。结果，模式图形成类似于雪花的形状。事实星座（ Fact constellations） : 多个事实表共享维表 , 这种模式可以看作星型模式集，因此称为星系模式（ galaxy schema），或者事实星座（ fact constellation）星型模式实例 time_key day day_of_the_week month quarter year time location_key street city state_or_province country location Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_type item branch_key branch_name branch_type branch 雪花模式实例 time_key day day_of_the_week month quarter year time location_key street city_key location Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_key item branch_key branch_name branch_type branch supplier_key supplier_type supplier city_key city state_or_province country city 事实星座模式实例 time_key day day_of_the_week month quarter year time location_key street city province_or_state country location Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_type item branch_key branch_name branch_type branch Shipping Fact Table time_key item_key shipper_key from_location to_location dollars_cost units_shipped shipper_key shipper_name location_key shipper_type shipper 一种数据挖掘查询语言 : DMQL DMQL首先包括定义数据仓库和数据集市的语言原语，这包括两种原语定义：一种是立方体定义，一种是维定义立方体定义 (事实表 ) define cube : 维定义 (维表 ) define dimension as () 特殊案例 (共享维表的定义 ) 第一次作为维表定义 “ cube definition” 然后： define dimension as in cube 实例：使用 DMQL定义星型模式 define cube sales_star time, item, branch, location: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) 实例：使用 DMQL定义雪花模式 define cube sales_snowflake time, item, branch, location: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city(city_key, province_or_state, country) 实例：使用 DMQL定义事实星座模式 define cube sales time, item, branch, location: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) define cube shipping time, item, shipper, from_location, to_location: dollar_cost = sum(cost_in_dollars), unit_shipped = count(*) define dimension time as time in cube sales define dimension item as item in cube sales define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type) define dimension from_location as location in cube sales define dimension to_location as location in cube sales 度量的分类一个数据立方体的度量是一个数值函数，该函数可以对数据立方体的每一个点求值。 (刚才的示例中用的是什么函数？ ) 度量可以根据其所用的聚集函数分为三类：分布的 (distributive)：将函数用于 n个聚集值得到的结果和将函数用于所有数据得到的结果一样。比如： count()， sum()， min()， max()等代数的 (algebraic)：函数可以由一个带 M个参数的代数函数计算（ M为有界整数），而每个参数值都可以有一个分布的聚集函数求得。比如： avg()， min_N()， standard_deviation() 整体的 (holistic)：描述函数的子聚集所需的存储没有一个常数界。比如： median()， mode()， rank() 5-6 王灿数据挖掘 0703004 概念分层 (1) 一个概念分层（ concept hierarchy）定义一个映射序列，将低层概念映射到更一般的高层概念 E.g. 表示 location的概念：杭州浙江中国亚洲概念分层允许我们在各种抽象级审查和处理数据概念分层可以由系统用户、领域专家、知识工程师人工的提供，也可以根据数据分布的统计分析自动的产生概念分层 (2): location维的一个概念分层 all Europe North_America Mexico Canada Spain Germany Vancouver M. Wind L. Chan . . . . . . all region office country Toronto Frankfurt city 许多概念分层的定义隐含在数据库的模式中。比如： location维的定义，officebuys(X, Z) X-customer表的关键字 P,Q-谓词变量 W, Y, Z-对象变量模板具体化 age(X, 3039) income(X, 40k49k)=buys(X, VCR) 2.2%, 60% occupation(x, student) age(X, 2029)=buys(X, computer) 1.4%, 70% 背景知识：概念分层背景知识是关于挖掘领域的知识概念分层是背景知识的一种，它允许在多个抽象层上发现知识。概念分层以树形结构的节点集来表示，其中每个节点本身代表一个概念，根节点称为 all，而叶节点则对应于维的原始数据值。概念分层中，自顶向底进行层的标识，即 all为 0层，向下依次为 1， 2， 3等层概念分层上卷和下钻在概念分层中应用上卷操作（概化），使得用户可以使用较高层次概念替代较低层次概念可以在更有意义，更高、更抽象的层次观察数据，从而使发现的模式更加容易理解。上卷操作使得数据得到压缩，在这个压缩的数据集上进行挖掘可以减少 I/O操作，使得挖掘的效率提高。概念分层的下钻操作使用较低层概念代替较高层概念，从而使用户能够对过于一般化的数据做更详细分析。上卷和下钻操作让用户以不同视图观察数据，洞察隐藏的数据联系。概念分层的自动生成。在同一个维上，可能根据用户的观点不同，存在多个概念分层。概念分层的类型四种常用的概念分层类型模式分层 E.g., street $250 兴趣度度量没有兴趣度度量，挖掘出来的有用模式，很可能会给淹没在用户不感兴趣的模式中。兴趣度的客观度量方法：根据模式的结构和统计，用一个临界值来判断某个模式是不是用户感兴趣的。常用的四种兴趣度的客观度量：简单性确定性实用性新颖性简单性和确定性简单性 (simplicity) 模式是否容易被人所理解模式结构的函数（模式的长度、属性的个数、操作符个数）。e.g. 规则长度或者判定树的节点个数。确定性 (certainty) 表示一个模式在多少概率下是有效的。置信度 (A=B)=(包含 A和 B的元组值 )/(包含 A的元组值 )， e.g. buys(X, computer)=buys(X, software) 30%, 80% 100%置信度：准确的。实用性和新颖性实用性可以用支持度来进行度量：支持度 (A=b) = (包含 A和 B的元组数 )/(元组总数 ) e.g. buys(X, computer)=buys(X, software)30%, 80% 同时满足最小置信度临界值和最小支持度临界值的关联规则称为强关联规则。新颖性提供新信息或提高给定模式集性能的模式通过删除冗余模式来检测新颖性（一个模式已经为另外一个模式所蕴涵） Location(X, Canada)=buys(X, Sony_TV) 8%, 70% Location(X, Vancouver)=buys(X, Sony_TV) 2%, 70% 发现模式的表示和可视化以多种形式显示挖掘出来的模式：表、图、判定树、数据立方体等等，以适合不同背景的用户的需要。使用概念分层，用更有意义，更容易理解的高层概念来替代低层概念；并通过上卷、下钻等操作从不同的抽象级审视所发现的模式。特定知识类型的表示。一种数据挖掘查询语言 DMQL DMQL的设计目的支持特别的和交互的数据查询，以便利于灵活和有效的知识发现提供一种类似于 SQL的标准化查询语言希望达到 SQL在关系数据库中的地位系统开发和演化的基础方便的信息交互，广泛的技术支持，商业化，广为认可设计挑战数据挖掘任务涉及面宽数据特征、关联规则、分类、演变分析每种任务都有不同的需求 DMQL的语法采用与 SQL相类似的语法，便于与 SQL的集成。允许在多个抽象层上，由关系数据库和数据仓库进行多类型知识的特殊挖掘 DMQL的设计基于数据挖掘原语，相应的，其语法中应该包括对以下任务的指定：说明数据库的部分或用户感兴趣的数据集要挖掘的知识类型用于指导挖掘的背景知识模式评估、兴趣度量如何显示发现的知识任务相关数据说明的语法任务相关数据说明应包括的内容：包含相关数据的数据库或数据仓库相关的表名或数据立方体的名字选择相关数据的条件探察的相关属性或维关于检索数据的排序和分组指令任务相关数据说明子句说明相关的数据库或数据仓库 use database 或 use data warehouse 指定涉及的表或数据立方体，定义检索条件 From where 列出要探察的属性或维 In relevance to 相关数据的排序 order by 相关数据的分组 group by 相关数据的分组条件： having 任务相关数据说明示例挖掘加拿大顾客与在 AllElectronics经常购买的商品之间的关联规则 use database AllElectronics_db in relevance to I.name, I.price, C.income, C.age from customer C, item I, purchases P, items_sold S where I.item_ID=S. item_ID and S.trans_ID=P.trans_ID and P.cust_ID=C.cust_ID and C.country=“Canada” group by P.date 指定挖掘知识类型要挖掘的知识类型将决定所使用的数据挖掘功能。几种主要的数据挖掘功能特征化目标数据的一般特征或特性汇总数据区分将目标对象的一般特性与一个或多个对比类对象的特性相比较关联分析发现关联规则，这些规则展示属性值频繁的在给定数据中集中一起出现的条件分类找出区分数据类或概念的模型（或函数），以便用之标志未知的对象类。聚类分析、孤立点分析、演变分析指定挖掘知识类型特征化目标数据的一般特征或特性汇总语法 Mine_Knowledge_Specification := mine characteristics as pattern_name analyze measure(s) analyze子句指定聚集度量（ count, sum, count%），通过这些度量对每个找到的数据特征进行计算示例：顾客购买习惯的特征描述，对于每一特征，显示满足特征的任务相关元组的百分比 mine characteristics as custPurchasing analyze count

人人文库> 全部分类> 行业资料 > 商业贸易

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘精品讲义

文档简介

温馨提示

最新文档

评论

数据挖掘精品讲义

文档简介

温馨提示

最新文档

评论

相关文档