




已阅读5页,还剩38页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,分类:基本概念,分类:基本概念决策树基于规则分类贝叶斯分类方法提高分类准确率的技术小结,什么是分类?,分类,分类器银行贷款员需要分析数据,以便搞清楚哪些贷款申请者是“安全的”;医学研究人员分析癌症数据,以便选择治疗方案数据分析任务都是分类,都需要构造一个分类器来预测类标号数值预测,预测器销售经理希望预测一位给定的顾客在双11的一次购物期间将花多少钱数据分析任务就是数值预测,所构造的模型(预测器)预测一个连续值函数或有序值,而不是类标号,分类预测类标号(离散的或标称的)基于训练集和类标号构建分类器,并对新的数据进行分类数值预测所构造的模型预测一个连续值函数,而不是类标号典型应用信用卡/贷款批准:医疗诊断:肿瘤是良性的还是恶性的欺诈检测:一次交易是否是欺诈的网页分类:属于哪一类,预测问题:分类与数值预测,分类一个两阶段过程,两阶段:学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类标号)分类模型构建(学习阶段):描述预先定义的类假设每个元组都属于一个预先定义的类,由类标号属性确定,类标号属性是离散值的和无序的用于模型构建的元组集合称为训练集模型用分类规则,决策树,或数学公式表示模型使用(分类阶段):用于分类未知对象评估模型的准确性检验样本的已知标签与模型的分类结果比较准确率是被模型正确分类的检验样本所占的百分比检验集是独立于训练集的(否则过分拟合)如果准确性是可接受的,则使用模型来分类新的数据,监督和无监督学习,监督学习(分类)监督:提供了每个训练元组的类标号即分类器的学习在被告知每个训练元组属于哪个类的“监督”下进行的新的数据基于训练集被分类无监督学习(聚类)每个训练元组的类标号是未知的要学习的类的个数或集合也可能事先不知道,阶段(1):模型构建,训练数据,分类算法,IFrank=professorORyears6THENtenured=yes,分类器(模型),学习:用分类算法分析训练数据,阶段(2):使用模型预测,分类器,检验数据,新数据,(Jeff,Professor,4),Tenured?,分类:检验数据用于评估分类规则的准确率,8,分类:基本概念,分类:基本概念决策树基于规则分类贝叶斯分类方法提高分类准确率的技术小结,决策树,从有类标号的训练元组中学习决策树树结构每个内部结点(非树叶结点)表示在一个属性上的测试每个分枝代表该测试的一个输出每个树叶结点存放一个类标号树的最顶层结点是根结点如何使用决策树分类?给定一个类标号未知的元组X,在决策树上测试该元组的属性值。跟踪一条由根到叶结点的路径,该叶结点就存放着该元组的类预测。,决策树归纳:一个例子,训练数据集:Buys_computer决策树:,决策树归纳算法,基础算法(贪心算法)决策树以自顶向下递归的分治方式构造从训练元组集和它们相关联的类标号开始构造决策树所有属性是具有类别的(如果是连续数值型的,则它们需要事先离散化)基于选择的属性对元组进行递归划分测试属性基于统计学度量来选择(例如,信息增益)停止划分的条件给定结点的所有元组都属于同一个类没有剩余属性可以用来进一步划分元组给定的分枝没有元组,算法基本策略,三个参数:D为数据分区,开始时,它是训练元组和它们相应类标号的完全集。参数attribute_list是描述元组属性的列表。参数Attribute_selection_method用来选择可以按类“最好地”区分给定元组的属性,该过程使用一种属性选择度量(信息增益或基尼指数)。树从单个结点N开始,N代表D中的训练元组如果D中的元组都为同一类,则结点N变成树叶,并用该类标记它否则,算法调用Attribute_selection_method确定分裂准则。分裂准则指定分裂属性,并且也指出分裂点或分裂子集对分裂准则的每个输出,由结点N生长一个分枝。根据分裂属性A的类型,有三种可能的情况A是离散值的:结点N的测试输出直接对应于A的已知值A是连续值的:结点N的测试有两个可能的输出,分别对应于条件Asplit_point,其中split_point是分裂点A是离散值并且必须产生二叉树:在结点N的测试形如“ASA?”,其中SA是A的分裂子集,算法:Generate_decision_tree。由数据分区D中的训练元组产生决策树。输入:数据分区D,训练元组和他们对应类标号的集合attribute_list,候选属性的集合。Attribute_selection_method,一个确定“最好地”划分数据元组为个体类的分裂准则的过程。这个准则由分裂属性(splitting_attribute)和分裂点或划分子集组成。输出:一棵决策树。方法:(1)创建一个结点N;(2)ifD中的元组都在同一类C中then(3)返回N作为叶结点,以类C标记;(4)ifattribute_list为空then(5)返回N作为叶结点,标记为D中的多数类;/多数表决(6)使用Attribute_selection_method(D,attribute_list),找出“最好的”splitting_criterion;(7)用splitting_criterion标记结点N;(8)ifsplitting_attribute是离散值的,并且允许多路划分then/不限于二叉树(9)从attribute_list中删除分裂属性;(10)forsplitting_criterion的每个输出j/划分元组并对每个分区产生子树(11)设Dj是D中满足输出j的数据元组的集合;/一个分区(12)ifDj为空then(13)加一个树叶到结点N,标记为D中的多数类;(14)else加一个由Generate_decision_tree(Dj,attribute_list)返回的结点到N;endfor(15)返回N;,属性选择度量:信息增益(ID3/C4.5),符号定义:设数据分区D为标记类元组的训练集。假定类标号属性具有m个不同值,定义m个不同类。设Ci,D是D中Ci类元组的集合。选择具有最高信息增益的属性A作为结点N的分裂属性对D中的元组分类所需要的期望信息由下式给出:基于按A划分对D的元组分类所需要的期望信息:按属性A划分的信息增益,Pi用|Ci,D|/|D|估计,属性选择:信息增益,ClassP:buys_computer=“yes”ClassN:buys_computer=“no”,意思为14个样本中有5个“agesplit-point的元组集合.,属性选择:增益率(C4.5),信息增益度量倾向于选择具有大量值的属性C4.5(ID3的后继)采用增益率来克服这个问题(规范化信息增益)GainRatio(A)=Gain(A)/SplitInfo(A)Ex.gain_ratio(income)=0.029/1.557=0.019具有最大增益率的属性作为分裂属性,基尼指数(CART),如果一个数据集D包含n个类,则D的基尼指数定义为其中pj是D中元组属于类j的概率,并用|Ci,D|/|D|估计如果数据集D基于属性A被划分成两个子集D1和D2,则基尼指数定义为不纯度降低:对于离散值属性,选择该属性产生最小基尼指数的子集作为它的分裂子集;对于连续值属性,选择产生最小基尼指数的点作为分裂点;产生最小基尼指数(或最大不纯度降低)的属性选为分裂属性,基尼指数的计算,例如数据集D有9个buys_computer=“yes”的元组和5个“no”的元组假设按income属性子集low,medium将数据集划分为D1(10个元组)和D2(4个元组)Ginilow,high是0.458;Ginimedium,high是0.450.因此在income的子集low,medium上划分,因为它的基尼指数最小,过分拟合与树剪枝,过分拟合:树创建时,由于数据中的噪声和离群点,会过分拟合训练数据有很多分枝,一些是由于噪声和离群点导致的异常预测准确率下降两种方法来避免过分拟合先剪枝:如果划分一个结点后的元组低于预定义阈值,则提前停止树的构建选取一个适当的阈值是困难的后剪枝:由“完全生长”的树剪去子树用回溯方式去除树的一些点Useasetofdatadifferentfromthetrainingdatatodecidewhichisthe“bestprunedtree”,21,分类:基本概念,分类:基本概念决策树基于规则分类贝叶斯分类方法提高分类准确率的技术小结,使用IF-THEN规则分类,以IF-THEN规则的形式表示学习得到的模型R:IFage=youthANDstudent=yesTHENbuys_computer=yes“IF”部分称为规则前件或前提,“THEN”部分称为规则的结论在规则前件,条件由一个或多个用逻辑连接词AND连接的属性测试组成;规则的结论包含一个类预测对于给定的元组,如果规则前件中的条件都成立,则规则覆盖了该元组规则的评价:覆盖率和准确率ncovers表示规则R覆盖的元组数ncorrect表示规则R正确分类的元组数coverage(R)=ncovers/|D|/*D:训练数据集*/accuracy(R)=ncorrect/ncovers,使用IF-THEN规则分类,如何使用基于规则的分类来预测给定元组X的类标号?如果规则被X满足,则称该规则被触发。例如,X=(age=youth,income=medium,student=yes,credit_rating=fair)X满足规则R,触发该规则。如果R是唯一满足的规则,则该规则激活,返回X的类预测注意,触发并不总意味激活,因为可能有多个规则被满足如果多个规则被触发,则需要解决冲突规模序:把最高优先权赋予具有“最苛刻”要求的被触发的规则(即,具有最多属性测试的)规则序:预先确定规则的优先次序。基于类的序:按类的普遍性降序排序基于规则的序(决策表):根据规则质量的度量,规则被组织成一个优先权列表。最先出现在决策表中的被触发的规则具有最高优先权,因此激活它的类预测。,例子:从buys_computer决策树提取规则R1:IFage=youngANDstudent=noTHENbuys_computer=noR2:IFage=youngANDstudent=yesTHENbuys_computer=yesR3:IFage=mid-ageTHENbuys_computer=yesR4:IFage=oldANDcredit_rating=excellentTHENbuys_computer=noR5:IFage=oldANDcredit_rating=fairTHENbuys_computer=yes,由决策树提取规则,与决策树相比,IF-THEN规则可能更容易理解,尤其是当决策树非常大时对每条从根到树叶结点的路径创建一个规则给定路径上的每个分裂准则的逻辑AND形成规则的前件(“IF”部分);存放类预测的树叶结点形成规则的后件(“THEN”部分)规则是互斥的和穷举的,规则归纳:顺序覆盖算法,顺序覆盖算法:直接从训练集中提取规则典型的顺序覆盖算法:FOIL,AQ,CN2,RIPPER规则被顺序地学习,给定类的每个规则覆盖该类的许多元组(并且希望不覆盖其他类的元组)步骤:一次学习一个规则每学习一个规则,就删除该规则覆盖的元组在剩下的元组上重复该过程,直到满足终止条件,例如,不再有训练元组,或返回规则的质量低于用户指定的阈值与决策树对比:决策树归纳是同时学习一组规则,基本顺序覆盖算法,算法:顺序覆盖。学习一组IF-THEN分类规则。输入:D,类标记元组的数据集合。Att-vals,所有属性与它们可能值的集合。输出:IF-THEN规则的集合。方法:Rule_set=;/学习的规则集初始为空for每个类cdorepeatRule=Learn_One_Rule(D,Att-vals,c);从D中删除被Rule覆盖的元组;until终止条件满足;Rule_set=Rule_set+Rule/将新规则添加到规则集endfor返回Rule_set;,如何Learn-One-Rule?,从最一般的规则开始:condition=empty(条件为空)通过采用一种贪心的深度优先策略添加新的属性选择最能提高规则质量的属性规则质量度量:同时考虑覆盖率和准确率Foil-gain(inFOIL使用Di和学习方法导出模型Mi;endfor使用组合分类器对元组X分类:让k个模型都对X分类并返回多数表决;,提升,类似:咨询多位医生,根据医生先前的诊断准确率,对每位医生的诊断赋予一个权重加权诊断的组合作为最终的诊断提升?权重被赋予每个训练元组迭代地学习k个分类器学习得到分类器Mi之后,更新权重,使得其后的分类器Mi+1”更关注”Mi误分类的训练元组最终提升的分类器M*组合每个个体分类器的表决,其中每个分类器投票的权重是其准确率的函数提升算法也可以用于数值预测与装袋相比:提升有更高的准确率,但存在对数据过分拟合的危险,40,Adaboost(FreundandSchapire,1997),给定一个包含d个类标记元组(X1,y1),(Xd,yd)的数据集D开始,对每个训练元组赋予相等的权重(1/d)k
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年知识产权纠纷仲裁合同协议
- 2025年运输合同修改协议书模板
- 2025年居民供热采暖(热计量计费)合同解除通知书
- 中考语文模拟考试及答案
- 2025江苏苏州民族管弦乐团招聘模拟试卷附答案详解(突破训练)
- 2025呼伦贝尔扎兰屯市社会福利中心护理员招聘考前自测高频考点模拟试题及答案详解(易错题)
- 2025年山东省科创集团有限公司招聘(33人)考前自测高频考点模拟试题及一套完整答案详解
- 2025内蒙古鄂尔多斯生态环境职业学院人才引进38人模拟试卷及一套答案详解
- 2025年湖南邵阳邵阳市大祥区事业单位人才引进9人模拟试卷及一套答案详解
- 2025广东揭阳市惠来县校园招聘卫生专业技术人员80人模拟试卷(含答案详解)
- 平安医院建设试题及答案
- 专项项目贡献证明书与业绩认可函(8篇)
- 2025年广东省广州市中考二模英语试题(含答案)
- 消防员心理测试题库及答案解析
- 2025小升初租房合同模板
- 放射科造影剂过敏反应应急处理预案
- 《大嘴巴纸玩偶》名师课件
- 2025年上海市高考英语热点复习:阅读理解说明文
- 国家管网集团合同范本
- 中医全科学科
- Unit 1 Teenage life单词变形-学生背诵与默写清单-2024-2025学年高中英语人教版(2019)必修第一册
评论
0/150
提交评论