




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主讲教师:胡剑锋无锡商业职业技术学院数据分析技术分类算法的比较K-近邻算法朴素贝叶斯算法支持向量机决策树01020304k-近邻算法基本思想存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,只选择样本数据集中前N个最相似的数据。K一般不大于20,最后,选择k个中出现次数最多的分类,作为新数据的分类k-近邻算法算法特点优点精度高;对异常值不敏感;无数据输入假定缺点计算复杂度高;空间复杂度高适用数据范围数值型和标称型朴素贝叶斯算法基本思想在假设n个特征相互独立,且每个特征同等重要的前提下,基于条件概率,对数据集中的每个数据(x,y)求P(Ci|x,y),即数据属于Ci的概率,将概率最高的那个类别作为当前数据的类别。朴素贝叶斯算法算法特点优点在数据较少的情况下依然有效,可以处理多类别问题缺点对于输入数据的准备方式较为敏感适用数据类型标称型数据支持向量机基本思想SVM是最好的现成分类器,这里的现成是指分类器不加修改就可以直接使用,同时可以得到很低的错误率的结果,对训练集之外的数据点做出很好的决策。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。支持向量机算法特点优点计算代价不高,易于理解和实现缺点容易欠拟合,分类精度可能不高适用数据类型数值型和标称型数据决策树基本思想通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分,也对应着决策树的构建。决策树算法特点优点计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DZ 10-1982金刚石钻探单动双层岩心管结构型式和基本参数
- CJ/T 264-2007水处理用橡胶膜微孔曝气器
- CJ/T 164-2014节水型生活用水器具
- 中级社会工作者团队建设试题及答案
- 二级考试复习计划制定试题及答案
- 系统分析师学习计划及试题与答案分享
- 构建2025年网络规划设计师必会的知识点与试题及答案
- 高考语文联考试题及答案
- 干法测试题及答案解析
- 职业生涯发展与系统集成试题及答案
- 分离工程试习题库-叶庆国
- 2021人教版新教材高中英语必修三全册课文翻译(中英文Word)
- 宁夏回族自治区中卫市各县区乡镇行政村村庄村名居民村民委员会明细及行政区划代码
- rg-wall1600系列下一代防火墙命令手册
- 喷淋系统调试报告doc
- 科研经费审计报告模板
- DB4416∕T 5-2021 地理标志产品 河源米粉
- 雨季监理实施细则
- 课件:基础生命支持
- 分层审核检查表LPA全套案例
- 柔版印刷常见故障及解决办法
评论
0/150
提交评论