




已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章分类和预测、()E-mail:cswhx,第4章分类和预测、4.1分类和预测定义4.2数据分类方法决策树神经网络SVM贝叶斯网络4.3数据预测方法线性回归非线性回归、第4章分类和预测、4.1分类和预测的定义4.2数据分类方法决策树神经网络SVM贝叶斯网络.TN和类别集c=C1,C2,cm。数据分类是定义映射f : DC,将c的类Cj分配给数据集d中的每个数据ti。预测(Prediction)是分类的一般化,当分类是连续值(可视为无限类别)时的数据预测。4.1分类和预测的定义例,分类银行贷款人需要分析数据,以了解哪些贷款申请人是安全和危险的。构建将申请人分类为两类的映射(模型)。安全风险预测银行贷款人要预测贷款给客户的钱有多安全,需要分析数据。配置贴图(模型)以预测连续值。4.1分类和预测定义、数据分类和预测步骤如下:第一阶段构建模型第二阶段以使用模型下的分类为例,详细说明了这两个阶段。4.1分类和预测的定义、第一阶段模型培训数据集:由多个数据(通常表示为n维属性向量)和相应的类标签组成。培训示例:培训数据集的单个数据及其班级标签。从培训数据集“学习”相关知识,构建分类模型。分类模型可以用分类规则、决策树或数学公式等形式表示。在第二阶段中,使用模型对未知类别的数据进行分类(分配类别标签)。建立模型,培训数据集,分类模型,if rank= professor or years 6 then tenured= yes ,分类规则,第二阶段使用模型,第4章分类和预测、4.1分类和预测定义4.2数据分类方法决策树神经网络SVM贝叶斯网络4.3数据预测方法线性回归非线性回归、4.2数据分类方法、分类过程中数据预处理分类的评估标准性能度量、分类过程的数据预处理、分类过程执行之前的数据预处理,可以提高分类过程的准确性、有效性和可扩展性。典型的预处理任务包括转换与数据清理相关的分析数据、预处理分类过程中的数据,以及在执行分类过程之前预处理数据,以提高分类过程的准确性、有效性和可扩展性。典型的预处理活动包括清除数据:消除或减少噪音、处理空缺值,以减少学习中的混乱。转换相关数据,预处理分类过程的数据,在执行分类过程之前预处理数据,以提高分类过程的准确性、有效性和可扩展性。典型的预处理活动包括数据清理相关分析。如果数据的某些属性与当前操作无关或重复,则可以删除这些属性以加速学习过程并使学习结果更准确。实例:通过转换主组件分析(PCA)数据、预处理分类流程中的数据以及在执行分类流程之前预处理数据,您可以提高分类流程的准确性、有效性和可扩展性。常用预处理作业包括转换与数据清理相关的分析数据:数据经过规范化,可以按指定属性的所有值成比例缩放到指定的较小地块。示例:0.0,1.0(通常用于神经网络)。分类流程中的数据预处理,在执行分类流程之前预处理数据,以提高分类流程的准确性、有效性和可扩展性。常用预处理作业包括转换与数据清理相关的分析数据,从模式识别区域提取要素和选择要素,分类评估标准,what:给定测试集xtest=(Xi,yi) | I=1,2,n n表示测试集中的样品数。Xi表示测试集中的第一个抽样。Yi表示示例Xi的类标签。对于测试集的类别j,分类结果为:正确分类的样本数为TPj是。分类错误的样品数为FNj是。其他类别错误分类到该类的样例数据量为FPj。分类的评估标准,准确度(正确率):表示测试集中正确分类的数据所占的百分比。例如:在字符识别中,经常统计识别精度,指示识别系统的性能。第4章分类和预测,4.1分类和预测定义4.2数据分类方法决策树神经网络SVM贝叶斯网络4.3数据预测方法线性回归非线性回归,决策树,决策树是什么?通过按数据的不同属性依次拆分数据集,直到生成的数据子集仅包含相同类型的数据,来创建称为决策树的树。结构上类似于程序流程图。每个内部节点表示一个属性的测试。每个分支表示测试的输出。每个叶节点存储一个类标签。树根部到叶节点的属性组合形成了分类规则。所有规则的提取可以形成一系列分类规则。决策树,目标:根据客户的以下属性,根据贷款、婚姻状况和收入水平判断客户是否有“金融欺诈”行为:决策树分类流程,决策树分类流程,决策树分类流程,决策树分类流程,决策树分类流程,决策树属性选择的顺序问题,哪个树更好?哪个顺序更好?决策树关注的主要问题:决策树生成算法ID3算法C4.5算法决策树修剪策略:很多分支反映了教育数据集的噪声和异常,以提高未知数据分类的精度,并试图识别和修剪这些分支。首先选择修剪方法、ID3算法、特征:在选择根节点和每个内部节点的分支属性时,将信息增益用作测量标准,因此每次选择信息增益最高的属性作为分支属性。ID3算法只能处理属性值不连续的数据集的拆分。ID3算法,给定数据集x=(Xi,yi) | I=1,2,total。Xi(i=1,2,total)是d维特征矢量xi=(xi1,xi2,xid),表示为xi1、xi2、xid分别为d属性A1、A2、对应于、Ad中的特定值。Yi(i=1,2,total)表示样本Xi的类标签,并且假定要调查的分类问题有m个类别,则yi C1,C2,cm。假设Nj是数据集x中属于类别CJ的样本数,则每种类型的预概率在数据集x的情况下,预计划分为类别m的信息如下:ID3算法,分割数据集x的属性Af的熵计算:Af具有q的不同值,x为q的不同子集x1,x2,xs、xq ;假设Ns表示Xs中的样本数,njs表示属于Xs中CJ类别的样本数,则数据集x的熵由属性Af拆分。其中:ID3算法,通过属性Af分割数据集时获取信息:属性的信息增量值越大,分割越多,使用该属性进行分类的效果越好。ID3算法创建决策树的节点,通过数据集的分割,可以选择信息增益最高的属性,根据该属性的不同值形成节点的不同分支。叶节点或分支中的所有数据不属于同一类别,但递归划分分支中的数据子集,直到没有其他属性可进一步划分为止。,ID3算法实例(buy_computer),ID3算法实例(buy_computer),首先计算数据集分类所需的估计信息:数据集中指定的示例数为14,类编号为Yes(表示购买计算机) N2)=-p(yes)* log(p(yes)-p(no)* log(p(no)=-9/14 * log(9 属性age具有三个不同的值(youth、middle_aged和senior),因此数据集可以分为X1、X2和X3三个子集。对于子集X1(age=youth),样例数为n1=5。其中类别标示为范例数量n11=2,类别标示为否数量n12=3,则子集X1中这两个范例的比率分别为p11=n11/n1=2/5=0.4 P1=n12/n1=3/5=0.6。然后,子集X1的估计信息将为Info(n11,N12)=-p11 * log(p11)-p12 * log(p12)=-0.4 * log(0.4)-0.6属性age具有三个不同的值(youth、middle_aged和senior),因此数据集可以分为X1、X2和X3三个子集。对于子集X2(age=middle_aged),样品数量为n2=4,班级编号为Yes的数量n12=4,班级标签为No的数量n22=0。在子集X2中,两个样品的比率分别为p21=n12/N2=4/这样,子集X2的估计信息将为Info(n12,N22)=-p12 * log(p12)-p22 * log(p22)=0,ID3算法实例(buy _)属性age具有三个不同的值(youth、middle_aged和senior),因此数据集可以分为X1、X2和X3三个子集。对于子集X3(age=senior),样品数量为n3=5。其中,如果类别编号为是的数量n13=3,类别编号为否的数量n23=2,则子集X3中这两个范例的比率分别为p13=n13/n3=3/5=0.6 p23=n23/n3=2/5=0.4因此,子集X3的估计信息为Info(n13,N23)=-p13 * log(p13)-p23 * log(p23)=-0.6 * log(0.6)-0.4属性age具有三个不同的值(youth、middle_aged和senior),因此数据集可以分为X1、X2和X3三个子集。子集X1、X2和X3分别具有Info(n11,n12)、Info(n12,n22)和Info(n13,n23)的预期信息,因此属性年龄分区数据集的熵值为e (age)=gain (age)=info (yes,no)e(age)=0.940.694=0.246,ID3算法示例(buy_computer)可以按顺序计算其他属性的信息增益是gain(in come)=0.029 gain(student)=0.151 gain(credit _ rating)=0.048四个属性中age的信息增益最大的(0.0,ID3算法示例(buy_computer)、ID3算法、ID3算法的优点:ID3算法通常只需测试部分属性即可完成培训数据集分类。从ID3算法构建的决策树中很容易获得相应的决策规则。ID3算法,ID3算法的缺点:在选择根节点和内部节点的属性时,ID3算法使用信息增益作为评估的基础。信息增益不一定是最佳属性,而是倾向于选择和划分更多值类型的属性。ID3算法只能拆分属性值不连续的数据集(构建决策树),不能处理属性值连续的数据集。C4.5算法,C4.5算法使用信息增长百分比确定分支属性,ID3算法在使用信息增长时可以克服值类型优先采用更多属性的不足。属性Af的信息增量比定义如下:其中,C4.5算法、C4.5算法可以同时处理离散描述属性和连续描述属性。处理离散属性时,C4.5算法与ID3算法相同。处理连续属性时,C4.5算法必须首先将连续属性转换为离散属性。C4.5算法,C4.5算法既可以处理离散描述属性,也可以处理连续描述属性。处理离散属性时,C4.5算法与ID3算法相同。处理连续属性时,C4.5算法必须首先将连续属性转换为离散属性。对于连续值属性Ac,假设一个节点上的样本数量为total,C4.5算法将:(1)根据属性值将该节点中的所有样例从小值排序为大值,排序结果为a1c,a2c,ATO talc ;C4.5算法,C4.5算法既可以处理离散描述属性,也可以处理连续描述属性。处理离散属性时,C4.5算法与ID3算法相同。处理连续属性时,C4.5算法必须首先将连续属性转换为离散属性。对于连续值属性Ac,假设一个节点上的样本数量为total,C4.5算法将:(2) A1c,A2c,Atotalc创建total-1分割点。其中,第I(1I总体-1)分割点的值设置为VI=(AIC (I 1) c)/2)。C4.5算法,C4.5算法既可以处理离散描述属性,也可以处理连续描述属性。处理离散属性时,C4.5算法与ID3算法相同。处理连续属性时,C4.5算法必须首先将连续属性转换为离散属性。对于连续值属性Ac,假设一个节点上的样本数量为total,C4.5算法的工作方式如下:(3)在total-1分割点处,选取最佳分割点。其中,最佳分割点具有最大的信息增长率。C4.5算法离散化示例,youth,middle_aged,senior到32,25,46,56,6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电缆知识培训教材课件
- 《我的伯父鲁迅先生》课件 部编版语文六年级上册
- 护理学排泄试题及答案
- 深圳到广州多长时间
- 2021-2025年中考道德与法治真题知识点分类汇编之我国的政治建设
- 高中排列课件
- 某省市校园指挥管理运营平台体系解决方案
- 2026届湖北省宜昌第二中学化学高三第一学期期末综合测试模拟试题含解析
- 曾仕强的培训课件
- 家长培训课件
- 峥嵘岁月 课件-2024-2025学年高中音乐人音版(2019) 必修 音乐鉴赏
- GB 21258-2024燃煤发电机组单位产品能源消耗限额
- DB34T 4379-2023 农村房地一体不动产确权登记技术规程
- 数字媒体艺术史全册完整教学课件
- 贵州珍酒酿酒有限公司招聘笔试题库2024
- 电力建设施工技术规范 第5部分:管道及系统-DLT 5190.5
- 《矿物岩石学教学课件》1-2 矿物学
- 《信号完整性测试》课件2
- DB6101T141-2018猕猴桃水肥一体化施肥技术规程
- 制造业绿色生产与环境可持续发展
- 中国石油天然气股份有限公司油气田站场目视化设计规定
评论
0/150
提交评论