数据挖掘2015最新精品课程完整课件(第9讲)---基于规则的分类方法-2_第1页
数据挖掘2015最新精品课程完整课件(第9讲)---基于规则的分类方法-2_第2页
数据挖掘2015最新精品课程完整课件(第9讲)---基于规则的分类方法-2_第3页
数据挖掘2015最新精品课程完整课件(第9讲)---基于规则的分类方法-2_第4页
数据挖掘2015最新精品课程完整课件(第9讲)---基于规则的分类方法-2_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于规则的分类基于规则的分类 基于规则的分类器 C 使用一系列“ifthen” 对数据集分类 C 规则: (Condition) y E此处 H Condition 为多个属性-值对的合取 H y 为类标号 ELHS(IF 部分): 规则前件或前提 ERHS(then 部分): 规则结论 E分类规则例子: H (血的类型=温血) (下蛋=Yes) 鸟 H (税收收入 Bird 规则 R3 覆盖 grizzly bear = Mammal NameBlood TypeGive BirthCan FlyLive in WaterClass hawkwarmnoyesno? grizzly bear

2、warmyesnono? C 规则的覆盖度(Coverage): E满足规则条件的记录的百 分比 C 规则的正确性(Accuracy) : E在满足规则条件的记录中, 也满足规则结论的记录的 百分比 (Status=Single) No Coverage = 40%, Accuracy = 50% 规则的冲突 C触发:规则被满足 C激活:该规则为唯一满足的 R1: (Give Birth = no) (Can Fly = yes) Birds R2: (Give Birth = no) (Live in Water = yes) Fishes R3: (Give Birth = yes) (B

3、lood Type = warm) Mammals R4: (Give Birth = no) (Can Fly = no) Reptiles R5: (Live in Water = sometimes) Amphibians A lemur triggers rule R3, so it is classified as a mammal A turtle triggers both R4 and R5 A dogfish shark triggers none of the rules NameBlood TypeGive BirthCan FlyLive in WaterClass l

4、emurwarmyesnono? turtlecoldnonosometimes? dogfish sharkcoldyesnoyes? 冲突解决 C 规模序(size ording): 要求最严格的规则赋予最高优先 级 (i.e., 最多属性测试) C 基于类的序: 按照类的频繁性或错分代价的降序排列 C 基于规则的序 (决策表决策表): 根据规则的质量度量或专家意 见,规则组织为长的优先级列表 C 根据优先权对规则进行排序 C 对一个待分类的记录 E若满足多条规则,则使用排在最前面的对其进行分类。 E若不满足任何规则,则使用默认类别。 R1: (Give Birth = no) (Can

5、Fly = yes) Birds R2: (Give Birth = no) (Live in Water = yes) Fishes R3: (Give Birth = yes) (Blood Type = warm) Mammals R4: (Give Birth = no) (Can Fly = no) Reptiles R5: (Live in Water = sometimes) Amphibians NameBlood TypeGive BirthCan FlyLive in WaterClass turtlecoldnonosometimes? C 直接方法: H 直接从数据中提

6、取规则 H e.g. FOIL, AQ, CN2, RIPPER C 间接方法: H 从其它分类模型中提取规则 、 He.g. decision trees, neural networks, etc C顺序覆盖(Sequential Covering) 顺序学习规则: 对每个给定的类 Ci 希望规则可以 覆盖该类 的大多数元组,但不包括其它类的元组 (或很少) (1) 初始值为空规则集 (2) 使用Learn-One-Rule函数得到一条新规则 (3) 从训练集中删去被新产生的规则所覆盖的实例 (4) 重复步骤(2)和步骤(3),直到满足停止标准为止。 (ii) Step 1 (iii) S

7、tep 2 R1 (iv) Step 3 R1 R2 C 产生规则 C 消除实例 C 规则评价 C 停止标准 C 规则的剪枝 C 两种常用方法 C 不消除实例? C 不消除正例? C 不消除负例? u总是产生同一条规则 u可能过高估计后续规则 的正确度 u可能过低估计后续规则 的正确度 C 标准: EAccuracy ELaplace EM-estimate kn nc 1 kn kpnc n : Number of instances covered by rule nc : Number of instances corrected classified by rule k : Numbe

8、r of classes p : Prior probability n nc C 停止标准 E计算增益 E若增益不显著,则舍弃新规则 C 规则剪枝 E与决策树的后剪枝相似 E降低错误剪枝: H 删去规则的一个合取支(conjunct) H 在测试集上比较剪枝前后的错误率 H 若出错率降低,则剪掉这一合取支 C 产生一条单一规则 C 删除规则覆盖到的元组 C 若需要,对规则进行剪枝 C 将规则添加到当前的规则集中 C 重复,直到满足某种停止条件为止,如无训练 样本或规则质量低于用户指定的门限 从决策树提取规则 C 规则易于理解 C 从根到树的叶节点的每条路径创建一个规 则 C 沿每个划分准则的

9、逻辑AND形成规则的前 提,存放类预测的叶节点形成规则后件 C 规则间是互斥或穷举的 C 决策树归纳: 同时学习一组规则 Example: 从 buys_computer 决策树提取的规则 IF age = young AND student = no THEN buys_computer = no IF age = young AND student = yes THEN buys_computer = yes IF age = mid-age THEN buys_computer = yes IF age = old AND credit_rating = excellent THEN buys_computer = yes IF age = young AND credit_rating = fai

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论