数据挖掘功能_第1页
数据挖掘功能_第2页
数据挖掘功能_第3页
数据挖掘功能_第4页
数据挖掘功能_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘功 能可以挖掘 什么类型的模式?数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一 般地,数据挖掘任务可以分两类:描述和预测。描述性挖掘任务 刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进 行推断,以进行预测。在某些情况下,用户不知道他们的数据中什么类型的模式是 有趣的,因此可能想并行地搜索多种不同的模式。这样,重要的 是,数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用 户需求或不同的应用。此外,数据挖掘系统应当能够发现各种粒 度(即,不同的抽象层)的模式。数据挖掘系统应当允许用户给 出提示,指导或聚焦有趣模式的搜索。由于有些模式并非对数据 库中的所有数据都成立,通常

2、每个被发现的模式带上一个确定性 或“可信性”度量。数据挖掘功能以及它们可以发现的模式类型介绍如下。1 概念 / 类描述:特征和区分数据可以与类或概念相关联。 例如 ,在 AllElectronics 商店, 销售的商 品类包括计算 机和打印机,顾 客概念包括 bigSpenders 和budgetSpenders。用汇总的、简洁的、精确的方式描述每个类和 概念可能是有用的。这种类或概念的描述称为类 /概念描述。这 种描述可以通过下述方法得到( 1)数据特征化,一般地汇总所 研究类(通常称为目标类)的数据,或( 2)数据区分,将目标 类与一个或多个比较类(通常称为对比类)进行比较,或( 3) 数

3、据特征化和比较。数据特征是目标类数据的一般特征或特性的汇总。通常,用 户指定类的数据通过数据库查询收集。例如,为研究上一年销售 增加 10%的软件产品的特征,可以通过执行一个 SQL 查询收集 关于这些产品的数据。有许多有效的方法,将数据特征化和汇总。例如,基于数据方的 OLAP 上卷操作( 1.3.2 小节) 可以用来执行用户控制的、沿着指定维的数据汇总。面向属性的 归纳技术可以用来进行数据的泛化和特征化,而不必一步步地与 用户交互。数据特征的输出可以用多种形式提供。包括饼图、条图、曲 线、多维数据方和包括交叉表在内的多维表。结果描述也可以用 泛化关系或规则(称作特征规则)形式提供。例1.4

4、数据挖掘系统应当能够产生一年之内 在AllElectronics 花费$1000 以上的顾客汇总特征的描述。结果可能是顾客的一般 轮廓,如年龄在 40-50、有工作、有很好的信誉度。系统将允许用 户在任意维下钻,如在 occupation 下钻,以便根据他们的职业来 观察这些顾客。数据区分是将目标类对象的一般特性与一个或多个对比类对 象的一般特性比较。目标类和对比类由用户指定,而对应的数据 通过数据库查询提取。例如,你可能希望将上一年销售增加 10% 的软件产品与同一时期销售至少下降 30%的那些进行比较。用于 数据区分的方法与用于数据特征的那些类似。“区分描述如何输出? ”输出的形式类似 于

5、特征 描述,但 区 分描述应当包括比较度量,帮助区分目标类和对比类。用规则表 示的区分描述称为区分规则。用户应当能够对特征和区分描述的 输出进行操作。例 1.5 数据挖掘系统应 当能够比较两组 AllElectronics 顾客, 如定期(每月多于 2 次)购买计算机产品的顾客和偶尔(即,每 年少于 3 次)购买这种产品的顾客。结果描述可能是一般的比较 轮廓,如 经常购买这种 产品的顾客 80%在 20-40 岁之 间,受 过大 学教育; 而不经常购买 这种产品的顾客 60%或者太老,或者太年 青,没有 大学学位。沿 着维下钻,如沿 occupation 维,或添加新 的维,如income_l

6、evel,可以帮助发现两类之间的更多区分特性。2 关 联分 析“什么是关联分析? ”关联分析发现关联规则, 这些规则展 示属性-值频繁地在给定数据集中一起出现的条件。 关联分析广泛 用于购物篮或事务数据分析。更形式地,关联规则是形如X ? Y,即” A1人.A Am ? B1人 ABn”的规则;其中,Ai (i 1 ,m), Bj(j 1,,n)是属性-值对。关联规则解释为“满足X中条件的数据库元组多半也满足Y 中条件”。例 1.6 给定 AllElectronics 关系数据库,一个数据挖掘系统 可能发现如下形式的规则age(X,20- 29) Aincome(X ,20 - 30K)? b

7、uys(X,”CD _ player)support= 2%,confidence= 60%其中, X 是变量,代表顾客。该规则是说,所研究的AllElectronics 顾客2% (支持度)在 20-29 岁,年收入 20-29K ,并且在AllElectronics 购买CD机。这个年龄和收入组的顾客购买CD 机的可能性有 60%(置信度或可信性)。注意,这是一个以上属性之间(即 age, income和buys)的关联。采用多维数据库使用的术语,每个属性称为一个维,上面 的规则可 以称作多维关 联规则。假定作为 AllElectronics 的市场部经理, 你想知道在一个事务中,哪些商品

8、经常一块购买。这种规则的一个例子是contains(T,computer)? contains(T,software)support = 1%,confidence =50%该规则是说,如果事务T包含”computer” 则它也含”software”的可能性有50%,并且所有事务的1%包含二者。这个规 则涉及单个重复的属性或谓词(即, contains)。 包含单个谓词 的关联规则称作单维关联规则。去掉谓词符号,上面的规则可以 简单地写成 computer ? software1%,50%。3 分 类和 预 测分类是这样的过程,它找描述 或识 别数据类或 概念 的 模型 (或 函数 ),以便能

9、够使用模型预测类标号未知的对象。导出模型是 基于对训练数据集(即,其类标号已知的数据对象)的分析。“如何提供导出模型? ”导出模式可以用 多种形 式表示, 如 分类( IF-THEN )规则、判定树、数学公式、或神经网络。判定 树是一个类似于流程图的结构,每个结点代表一个属性值上的测 试,每个分枝代表测试的一个输出,树叶代表类或类分布。判定 树容易转换成分类规则。当用于分类时,神经网络是一组类似于 神经元的处理单元,单元之间加权连接。分类可以用来预测数据对象的类标号。然而,在某些应用中, 人们可能希望预测某些遗漏的或不知道的数据值,而不是类标号。 当被预测的值是数值数据时,通常称之为预测。尽管

10、预测可以涉 及数据值预测和类标号预测,通常预测限于值预测,并因此不同 于分类。预测也包含基于可用数据的分布趋势识别。相关分析可能需要在分类和预测之前进行,它试图识别对于 分类和预测无用的属性。这些属性应当排除。例 1.7 假定作为 AllElectronics 的销售经理,你想根据对销 售活动的反映,对商店的商品集合分成三大类:好的反映,中等 反映和差 的反映。你想 根据商品的描述 特性,如 price, brand,place_made和category ,对这三类的每一种导出模型。结果分类将 最大限度地区别每一个类,提供有组织的数据集视图。假定结果 分类用判定树的形式表示。 例如, 判定树

11、可能把 price 看作最能 区分三个类的因素。 该树可能揭示,在 price 之后, 帮助进一步 区分每类对象的其它特性包括brand和place_made。这样的判定 树可以帮 助你理解给定 销售活动的 影响 ,并帮助你设计未 来更有 效的 销售 活动。4 聚 类分 析“何为聚类分析? ”与分类和预测不同, 聚类分析数据对象, 而不考虑已知的类标号。一般地, 训练数据中不提供类标号, 因 为不知道从何开始。聚类可以产生这种标号。 对象根据最大化类 内的相似性、最小化类间的相似性的原则进行聚类或分组。即, 对象的聚类这样形成, 使得在一个聚类中的对象具有很高的相似 性, 而与其它聚类中的 对

12、象很不相似。 所形成的每个聚类可以看 作一个对象类, 由它可以导出 规则。聚类也便于分类编制,将观 察组织成类分层结构, 类似的 事件组织在一起。例 1.8 聚类分析可以在 AllElectronics 的 顾客数据上进行, 识别顾客的同类子群。 这些聚类可以表示每个购物目标群。图 1.10 展示一个城市内顾客的 2-D 图。 数据点的 三个聚类是显而易 见的。5局外者分析数据库中可能包含一些数据对象,它们与数据的一般行为或 模型不一致。这些数据对象是局外者。大部分数据挖掘方法将局 外者视为噪音或例外而丢弃。然而,在一些应用中(如,欺骗检 测),罕见的事件可能比正规出现的那些更有趣。局外者数据分 析称作局外者挖掘。局外者可以使用统计试验检测。它假定一个数据分布或概率模型,并使用距离度量,到其它聚类的距离很大的对象被视为局 外者。基于偏差的方法通过考察一群对象主要特征上的差别识别 局外者,而不是使用统计或距离度量。图1.10关于一个城市内顾客的2-D图,显示了 3个聚类,每个 聚类的“中心”用“ +”标记例1.9局外者分析可以发现信用卡欺骗。通过检测一个给定 帐号与正常的付费相比,付款数额特别大来发现信用卡欺骗性使 用。局外者值还可以通过购物地点和类型,或购物频率来检测。6 演 变分 析数据演变分析描述行为随时间变化的对象的规律或趋势,并 对其建模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论