




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘,演讲者:王明阳信息与计算机工程学院,2,要挖掘的知识类型介绍,概念描述:特征描述和比较;关联规则;分类/预测;聚类分析;其他数据挖掘任务。根据现有的知识,我们已经获得了一些关于爬行动物和鸟类的信息。我们能把新发现的物种分类吗,比如动物甲和动物乙?2020年7月7日星期二,4,分类是数据挖掘中的一项重要任务。分类的目的是学习一个分类器(分类函数或模型),它可以把要分类的数据映射到一个给定的类别。分类可用于预测。给定数据的扩展描述是从历史数据记录中自动导出的,因此可以预测未来的数据。2020年7月7日,星期二,5。分类方法的类型。从使用的主要技术来看,分类方法可以分为以下几种:基于距离的
2、分类方法决策树分类方法贝叶斯分类方法。本章重点介绍这些分类方法。第6章,分类和预测,6.1分类和预测的基本知识6.2基于距离的分类算法6.3决策树分类方法6.4贝叶斯分类方法6.5规则归纳方法*,第6章,6.1分类和预测的基本知识,什么是分类?预测?分类和预测的基本问题,1。分类?预测?10、基本概念、分类和预测是数据分析的两种形式,可用于提取描述重要数据类别的模型或预测未来数据趋势:分类:用于预测数据对象的分类标签(或离散值),例如,通过构建分类模型来评估银行贷款的风险(安全性或危险性);预测:用于预测数据对象的连续值。例如,建立预测模型,通过使用客户收入和职业(参数)来预测购买计算机设备的
3、可能支出。11、数据分类过程,数据分类是一个两步过程:1)建立分类模型:机器学习过程,通过一定的分类算法训练训练集,得到分类模型;“引导学习”和“监督学习”假设每个元组属于一个预定义的类,该类由一个称为类标签属性的属性确定;训练数据集:为建立分类模型而分析的数据元组。12、分类过程的第一步:学习建模,13、数据分类过程,数据分类是一个两步过程:2)使用模型进行分类:测试数据集:用于评估模型的预测精度。模型在测试集上的准确性是由模型正确分类的测试样本的百分比。如果模型的准确性被认为是可接受的,它可以用于分类数据元组或具有未知类标签的对象。14,分类过程的第二步:分类测试,15,分类过程的示意图,
4、监督学习与非监督学习,监督学习(用于分类)训练样本的类别标签是已知的;通过使用在训练数据集中获得的规则对新数据进行分类。无监督学习(用于聚类)训练样本的类别标签未知;通过一系列的测量和观察,我们试图在数据中建立类或簇的存在。17.数据预测,预测:构建和使用模型来评估未标记的样本类别,或者评估给定样本可能具有的属性值或值区间与分类之间的差异:它们是两个主要的预测问题。分类是预测离散或标签值;预测是预测连续或有序的值;观点:用预测方法预测分类标签为分类;使用预测方法(通常为回归方法)预测的连续值作为预测。18,示例,背景:假设等位电子公司的邮件列表数据库已经建立。邮件列表用于分发介绍新产品和降价的
5、信息材料。该数据库描述了客户的属性,包括姓名、年龄、收入、职业和声誉,并根据客户是否在公司购买电脑对其进行分类。19,示例,分类模型:假设新客户被添加到数据库中,因为向每个客户分发宣传材料的成本很高,所以可以根据现有的预测模型:如果你想预测一个客户在一个财政年度里在爱力电子的主要购买量,你可以建立一个预测模型。2.分类和预测的基本问题?21,问题(1):数据准备,1)分类和预测数据的准备:数据预处理数据清理:噪声(平滑技术);空缺值的相关性分析(统计方法)(特征选择):删除不相关和冗余的属性,如申请银行贷款时填写的周数,可能与贷款申请是否成功无关;数据转换:数据离散化(数据泛化):例如,属性“
6、收入”的值可以离散化为几个区间,如低、中、高;数据规范化:将给定属性的值缩放到更小的间隔,如0,1。22,问题(2):评估分类模型,2)评估方法:评估用于分类或预测的方法或模型的预测精度:模型正确预测未知对象类别或值的能力;速度:1)建立模型的时间;2)使用模型的时间稳健性(稳健性):处理噪声和空位值的能力;可伸缩性:处理大数据和构建模型的能力;可理解性:模型的可理解性;规则的优点:1)确定树的大小;2)分类规则的简单性。6.2基于距离的分类算法,基本思路?几种常见的距离分类算法。1.距离分类的基本思想是什么?星期二,2020年7月7日,基于距离的分类算法的思想,定义:给定一个数据库D=t1,
7、t2,tn和一组类C=C1,Cm。假设每个元组包含一些数值属性值:ti=ti1,ti2,tik,并且每个类也包含数值属性值:Cj=Cj1,Cj2,Cjk,分类问题是将每个层分配给满足以下条件的类Cj:sim(ti,Cj)=sim(ti,Ci),CiC,CiCj,其中sim(ti)2020年7月7日星期二,基于距离的分类算法的思想通常以实际计算中的距离为特征:距离越近,相似性越大;距离越远,相似性越小。如何测量距离?欧几里德距离;曼哈坦距离;闵可夫斯基距离;加权闵可夫斯基距离。如何测量距离?欧几里德距离和曼哈顿距离的共同点是(1)距离是非负值(2)距离是0 (3)距离函数具有对称性(4)距离函数满足三角形不等式,如何度量距离?闵可夫斯基距离是欧几里德距离和曼哈顿距离的推广,其中p是正整数:当p=1时,它表示曼哈顿距离;当p=2时,它代表欧几里德距离。加权闵可夫斯基距离如果根据每个变量的重要性给每个变量一个权重,就可以得到加权闵可夫斯基距离。如何测量距离?星期二,2020年7月7日,30,基于距离的分类算法的思想在实际计算中经常以距离为特征:距离越近,相似性越大;距离越远,相似性越小。计算距离的方法有很多种,最常见的方法是计算样本到每一类中心的距离。星期二,2020年7月7日,31,基于距离的分类算法的一般描
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 客户反馈收集表-服务质量
- 现代汉语修辞学及语言表达测试卷
- 智能网联汽车技术概论(含实训任务书)课件 第二章:智能网联汽车结构原理
- 金属非金属矿山(地下矿山)安全管理人员理论考题及答案
- 园林局创卫工作总结
- 青橙卡通古风唐诗宋词阅读模板
- 预测模型在数据科学中的应用
- 音乐厅的新中式风格空间布局与音响色彩设计
- 项目管理的科学性与团队协同在数据分析中的运用探讨
- 顾客旅程视角下的新零售店内互动空间设计
- 博克服装CAD制版说明操作手册(共95页)
- 光电效应测普朗克常数-实验报告
- 110千伏变电站工程检测试验项目计划
- 《铁路货物运价规则》
- YD_T 3956-2021 电信网和互联网数据安全评估规范_(高清版)
- (完整版)数学常用英文词汇
- 完整word版医院外包业务管理质量安全评估报告内部审计报告及工作改进实例
- (完整word版)数据模型与决策课程案例分析
- 最新《消费者行为学》综合练习
- 调岗调薪实操指引PPT课件
- 凹版印刷技术与凹版油墨PPT优秀课件
评论
0/150
提交评论