数据挖掘的知识类型_第1页
数据挖掘的知识类型_第2页
数据挖掘的知识类型_第3页
数据挖掘的知识类型_第4页
数据挖掘的知识类型_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、双击、1和添加默认标题。概念/类说明关联模式分类分析预测时间系列偏差检测、概念/类说明通过对与对象相关的数据进行汇总、分析和比较,总结这些对象的含义,简明准确地描述它们,汇总这些对象的特性。概念说明分为特征说明和区分说明。要素说明是从与对象类相关的数据集中提取这些对象的公共要素。生成类的特征说明只与该类的对象中所有对象的共性有关。分隔描述两个或多个不同类别物件之间的差异。创建区分说明包括目标类和比较类中对象的共性。2.1概念/类别描述,2.1概念/类别描述,资料图征的输出可以多种形式提供。包含饼图、条形图、曲线、多维数据和交叉表的多维表。产生的描述也可以作为称为图征规则的一般化关系或规则提供。

2、例如,如果使用面向属性的归纳方法(AOI)在一个购物中心数据库(2000销售)中执行属性归纳,则表2-1 AOI方法挖掘结果表可以描述为示意图说明、2.1概念/类说明、组合表(crosstab)或其他图表(针对上述结果)。在数据分析中,可视图片很常见。表2-2是对应表2-1的表2-2条形图说明、项目位置、2.1概念/类说明、图2-2是对应表2-1(部分数据)的饼图表示说明、北美51%、亚洲27%、欧洲22%此比较必须在两个或多个具有可比性的类之间进行。例如,如果比较某个学校讲师和副教授的特性,那么“讲师:(78%)(paper=3)and(teaching course=2)”;比较规则意味着

3、该校讲师的四分之一发表了不超过三篇的论文,讲课过程不超过一个。相反,该校副教授中约有3 2人发表了3篇以上的论文,发表过程为1个以上。2.2关联模式,关联模式挖掘旨在从大量数据中发现要素之间或数据之间的相互依存关系。此关联模式经常出现在指定数据集上,也称为关联规则。关联可以分为简单关联、计时关联和因果关系等。这种关联不是总是事先知道的,而是通过数据库中数据的关联分析获得的,对业务决策具有重要价值。因此,关联分析广泛用于营销、事务分析等应用领域。相关知识挖掘的典型使用案例就是市场购物分析。根据放在购物袋中的(购物)内容记录资料发现的不同(购买)商品之间存在的关联知识,将有助于商人分析顾客的购买习

4、惯。发现经常一起购买的商品(相关知识)将有助于商家指定目标市场战略。例如,顾客购买牛奶时能否同时购买面包或面包品牌,这种问题的答案很明确,可以有效地帮助商人进行目标促销,布置合适的货架商品。如果牛奶和面包可以放在相似的地方,可以促进这两种产品的销售。2.2连接模式下,可以根据连接规则中涉及的变量数,将其分为多维连接规则和单个维连接规则。通常,关联规则采用x y格式,即“a1.amb1.bn”的规则。其中ai (I 1,m,bj (j 1,n)是属性-值对。关联规则x y解释为:“满足x条件的数据库元组大部分满足y的条件。”例如,数据挖掘系统包括存储(x,“20-29”)该规则包含三个变量(年龄

5、、收入和购买)(即三维),可以说是多维关联规则。2.2关联模式,一个购物中心管理员可能想知道经常一起购买的商品。描述此情况的关联规则之一是包含“计算机”和“软件”的“软件”。support=1%,confidentce=60%以上关联规则表示该购物中心1%的销售交易记录包括“计算机”和“软件”。包括“电脑”商品在内的交易明细60%还可以包括(购买)“软件”商品。在这个记录中,只包含了一个叫买东西的变量,所以被称为单向关联规则。2.3分类,分类是数据挖掘中的一项非常重要的任务,用于从数据集提取描述数据类的函数或模型(有时称为分类器),并将数据集中的每个对象汇总到已知对象类中。从机器学习的角度来看

6、,分类技术是每个教学样本的数据对象已经具有类id,通过学习可以表示数据对象和类id之间的相应知识,数据挖掘的目标是对根据样本数据形成的类知识和源数据进行分类,并预测未来数据的分类。2.3分类,分类挖掘中获得的分类模型可以用多种形式描述输出。其中的主要表示法是“分类规则”(IF-THEN)、“决策树”(decision tree)、“数学公式”(mathematical formulae)和神经网络。决策树表示每个节点对一个属性值的测试,每个分支表示测试的输出,树叶是类似于流程图的结构,表示类或类的分布。决策树很容易转换为分类规则。神经网络在分类中使用时,单位之间进行加权连接的神经元相似处理单位

7、的集合。此外,最近出现了知识表示为生成式规则的新方法粗糙集(rough set)。2.3分类,分类通常用于预测对象的类标签。例如,银行信用部门可以根据客户信用信息数据库,将作业的信用等级记录为一般或良好,然后根据挖掘得出信用良好的客户信息特性,并应用这些特性说明有效地找到优秀的客户。此分类流程包含两个步骤:(1)对数据集的类别或概念建模,如图所示。分类规则,if年龄=30-40和收入=高信用评估=良好,图2-4分类挖掘第一步:学习建模,培训数据,2.3分类,(2)学习模型准确度测试。图2-5分类挖掘第二阶段:分类测试、分类规则、新数据:王好,30-40,高信用评价如何?图2-5分类挖掘第二阶段

8、:分类测试、良好、测试数据、2.4群集分析、分类技术不同,在机器学习中,群集是一种非指导性学习。也就是说,聚类分析是在事先不知道要划分类的事实的情况下,根据信息相似性原则进行信息聚集的一种方法。群集的目的是使属于同一类别的对象之间的差异尽可能小,并使属于不同类别的对象之间的差异最大。因此,群集的意思是将观察到的内容组织成层次结构,将类似的东西组织在一起。群集使人们能够确定密集和分散的区域,从而确定全局分布模式和数据属性之间有趣的关系。数据群集分析是快速增长的领域。聚类技术主要基于统计方法、机器学习、神经网络等。比较的代表性群集技术是基于几何距离(如欧几里得距离、曼哈顿距离、闵可夫斯基距离等)的

9、群集方法。2.4群集分析、群集分析广泛应用于业务、生物学、地理、网络服务等多个领域。例如,群集允许市场分析人员在客户基础库中查找不同的客户群,图2-6使用显示一个城市的客户位置的二维图的不同购买模式描述不同的客户群。数据点的3个群集很明显。群集还可以帮助识别地球观测数据库中土地利用相似的区域。此外,为了搜索信息,可以帮助在internet上对文档进行分类。图2-6一个城市中客户位置的二维图表、2.5预测和预测知识(Prediction)是从历史数据和当前数据生成并预测未来数据趋势的知识。这些知识可以被视为以时间为主要属性的关联知识,因此上述关联知识挖掘方法可以应用于以时间为主要属性的源数据挖掘

10、,如上所述,分类通常用于预测对象的类标签。但是,某些应用程序可能会尝试预测缺少或未知的某些数据值,而不是类标签。如果预测的值是数值数据,则通常称为预测。也就是说,预测用于预测数据对象的连续价值。例如,您可以构建对银行贷款进行风险评估(安全性或风险)的分类模型。您还可以使用客户收入和职业(参数)设置预测可用于购买计算机设备的支出大小的预测模型。2.5预测,例如表2-3显示了年薪数据集。其中x表示大学毕业后工作的年数,y表示相应的收入。如图2-7所示,这些数据点暗示我们的x和y之间存在线性关系。有10年工作经验的大学毕业生的年薪可以通过任何可以预测的方法引入预测模型。表2-3工作年度和年薪关系表,

11、图2-7工作年度和年薪对应关系表,2.5预测,预测型知识挖掘可以利用统计中的回归方法,通过历史数据直接生成连续未来数据的预测值;可以利用经典的统计方法、神经网络、机器学习等技术。无论如何,经典的统计方法是挖掘预测知识的基础。2.6时间系列,具有一个或多个时间属性的预测应用程序称为时间系列问题。时间序列是数据的特殊形式,如果序列的历史值影响未来值,则影响大小和影响方法可以通过时间序列的趋势期间和异常行为来表现。示例:系统调用日志记录了操作系统及其系统进程调用的时间序列,通过对正常调用序列的学习,可以预测以后发生的系统调用序列、检测到异常的调用。表2-4显示了系统调用数据表。通过适当的数据整理,这

12、些数据源可以成为表2-5所示的调用序列,并且可以通过相应的挖掘算法跟踪和分析操作系统审计数据。2.6时间系列,表2-4系统进程调用数据示例,表2-5系统调用序列数据表示例,2.7偏差检测,偏差检测是对数据集中偏差数据的检测和分析。要处理的大量数据往往有一些异常数据与其他数据的一般行为或模型不一致。数据记录是偏差,即孤立点。偏差包括许多潜在知识,如不满足一般类的异常实例、分类中发生的异常实例、在不同时刻发生重大变化的对象或集合、观察值与模型估计的期望值之间存在显着差异的实例等,偏差的发生可能是某种数据错误或数据变异的固有结果。在数据集中检测这些偏差是有意义的。例如,在欺诈检测中,偏差可能表示欺诈行为。2.7偏差检测,偏差检测的主要问题是如何确定偏差点和数据记录之间的不匹配标准

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论