版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第8章 支持向量机1学习目标理解SVM的基本原理掌握Scikit-learn库实现SVM分类的基本方法122目录页支持向量机38.1基本原理8.2应用实例引言支持向量机(SupportVectorMachine)由弗拉基米尔.瓦普尼克(VladimirNaumovichVapnik)在1955年提出,其基本思想在于根据最大化样本分类间隔准则对两类样本进行线性分类,同时可利用特征空间变换、两类分类器组合等方式较好地解决样本非线性可分、多类分类等问题,具有较强的泛化能力。此外,支持向量机在样本较少的情况仍然可表现出较好的性能,在许多场合中可较好地弥补以数据驱动为特点的深度学习方法的不足。支持向量机不仅可以用于分类问题,还可以用于回归问题,具有泛化性能好、适合小样本和高维特征等特点,支持向量机是深度学习技术出现之前最好的分类算法,在过去20多年里被广泛应用于数据分析和模式识别的各个领域。48.1基本原理感知机(Perceptron)算法由弗兰克.罗森布拉特(FrankRosenblatt)在1958年提出,具有简单而易于实现的优点,是神经网络与支持向量机的基础,其前提是数据集线性可分。感知机是根据输入实例的特征向量x对其进行二类分类的线性分类模型,其目标是求得一个能够将训练集正实例点和负实例点完全正确分开的边界,称为分离超平面。58.1基本原理
68.1基本原理感知机采用的最优化算法是随机梯度下降法,感知机学习算法分为原始形式和对偶形式,算法不仅简单且易于实现,其思想是先任意选取一个超平面,然后通过梯度下降法不断极小化目标函数。一次随机选取一个误分类点使其梯度下降。78.1.1数学模型支持向量机旨在确定一条最优直线以最大化样本边界线之间距离(即分类间隔)的原则将两类样本正确分开(即两类样本的边界线距离样本分类界线尽可能远),其中,每类样本中位于相应边界线上的样本或距离样本分类界线最近的样本称为“支持向量”,其用于确定两类样本之间的距离及最优样本分类界线。8(a)多分界线(b)样本距离最大分界线(c)非样本距离最大分界线8.1.1数学模型
98.1.1数学模型
108.1.1数学模型
118.1.1数学模型
128.1.2核函数
138.1.2核函数14图
8-2低维特征空间向高维特征空间的非线性映射
8.1.2核函数
15
8.1.2核函数
16
8.1.2核函数
17
8.1.2核函数
18
8.1.2核函数在选取核函数时,通常采用的方法包括:①针对问题特点利用专家知识选择核函数。②采用交叉验证的方法测试不同核函数的精度以确定最优者。③通过组合不同核函数的方式提高SVM的性能。198.2应用实例Scikit-learn库包含SVC、NuSVC与LinearSVC三个分类模块(SVC与NuSVC基本类似,其主要区别在于损失度量方式不同,而LinearSVC仅用于线性可分样本)与SVR、NuSVR与LinearSVR三个回归模块(其区分与SVC、NuSVC与LinearSVC类似),其导入方式如下:fromsklearn.svmimportSVCfromsklearn.svmimportSVR208.2应用实例函数原型如下:SVC(C=1.0,kernel='rbf',degree=3,gamma='auto',coef0=0.0,shrinking=True,probability=False,tol=0.001,cache_size=200,class_weight=None,verbose=False,max_iter=-1,decision_function_shape='ovr',random_state=None)SVR(kernel='rbf',degree=3,gamma='auto_deprecated',coef0=0.0,tol=0.001,C=1.0,epsilon=0.1,shrinking=True,cache_size=200,verbose=False,max_iter=-1)218.2.1参数分析在利用SVM解决具体分类或回归问题时,通过需要根据相关数据的分布形态选择合理的核函数、C与gamma值等参数并对相关结果进行可视化,进而提高分类或回归问题求解的可靠性与精度。(1)问题描述首先构造两类样本,然后利用SVM对其进行分类与可视化,具体要求如下:①绘制不同核函数、C与gamma值时相应的分类界线。②显示样本分类结果及相应的支持向量。(2)编程实现见8.2.1参数分析.py22
8.2.1参数分析(3)结果分析23(d)C=10\kernel='rbf'\gamma='auto'(e)C=10\kernel='rbf'\gamma=10(f)C=10\kernel='rbf'\gamma=15(a)C=1\kernel='linear'(b)C=10\kernel='linear'(c)C=1\kernel='rbf'\gamma='auto'8.2.2在线教学分析(1)问题描述已知影响学生在线教学适应度(Y:AdaptivityLevel)的相关因素包括性别(F1:Gender)、IT专业(F2:ITStudent)、经济条件(F3:FinancialCondition)、互联网类型(F4:InternetType)、网络类型(F5:NetworkType)与上网设备(F6:Device),利用如表8-4所示数据构建学生在线教学适应度分析模型以对学生在线教学适应度进行预测(Y取值High、Moderate与Low分别表示高、中与低三种类别的适应度),具体要求如下:①构建训练样本(70%)与测试样本(30%)以进行支持向量机模型的训练与测试。②利用交叉验证方式确定支持向量机最优参数并求取最优参数相应的预测精度。③利用主成分析方法对数据进行降维处理并重复步骤2以观察两种情况下模型预测精度的变化。(2)编码实现
见8.2.2在线教学分析.py24
8.2.2在线教学分析(3)结果分析数据基本信息:(40,8)最优模型:SVC(C=1,degree=2,kernel='poly')最优参数:{'C':1,'degree':2,'kernel':'poly'}最高分值:0.6148148148148148预测精度:0.6666666666666666最优模型(PCA):SVC(C=1,kernel='poly')最优参数(PCA):{'C':1,'degree':3,'kernel':'poly'}最高分值(PCA):0.7533333333333333预测精度(PCA):0.666666666666666625
8.2.2在线教学分析(3)结果分析核函数、惩罚因子以及与核函数相关的均方差、维度等参数对支持向量机模型的精度与可靠性影响较大,在未知数据分布形态的情况下,通常采用网格化交叉验证的方法确定最优参数。此外,对数据进行归一化处理与主成分分析也是提高支持向量机模型精度与可靠性的重要手段。在本例中,不同特征的取值致使支持向量机模型的最优核函数选为多项式核函数,而惩罚因子由于过大过小均可能导致支持向量机模型泛化能力较弱或可靠性较差,最终综合多项式核函数的维度选为1。此外,由于不同特征之间相关性不高且对模型的构建均具有一定的影响,因而在主成分分析中保留95%成分时的模型参数基本相关不大,而相应的精度基本不变。268.2.3幸福指数预测SVM回归库包括SVR、NuSVR和LinearSVR三个类,其中,SVR和NuSVR的区别也仅在于对损失的度量方式不同;LinearSVR是线性回归,只能使用线性核函数。(1)问题描述已知影响人们幸福指数(Y:happyScore)的相关因素包括平均收入(F1:avg_income)、中等收入(F2:median_income)、收入不平衡度(F3:income_inequality),利用如表8-5所示数据构建幸福指数预测模型以对人们幸福指数进行预测,具体要求如下:①对不同特征之间以及特征与输出之间的相关性进行分析。②构建幸福指数预测模型并对比不同C值时的拟合优度。(2)编程实现见8.2.3幸福指数预测.py278.2.3幸福指数预测(3)结果分析样本数与特征数(40,4)训练样本拟合优度(C=2):0.7470970729083541测试样本拟合优度(C=2):0.6851824002125987训练样本拟合优度(C=0.1):0.3126250113807275测试样本拟合优度(C=0.1):0.1038995875081395528
8.2.3幸福指数预测(3)结果分析29(a)不同特征与输出之间的相关性(b)平均收入与幸福指数之间的相关性(c)中等收入与幸福指数之间的相关性
(d)收入不平衡度与幸福指数之间的相关性本章小结SVM的核心思想在于利用核函数将线性不可分问题转化为线性可分问题进行求解并利用最大化分类间隔原则确定线性可分问题相应的最优分类界线,而最优分类界线由少数支持向量决定,使得其在小样本情况下仍有较大可能获得较好的效果。此外,SVM通过组合多个二类分类器的方式对多类样本进行分类,不但结构上易于理解,而且易于实现,整体上具有较高的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年广东省韶关市高职单招综合素质考试题库附答案详细解析
- 2026浙江丽水市教育局招聘教育人才22人笔试模拟试题及答案解析
- 2026广西河池市从“五方面人员”中选拔乡镇领导班子成员154人笔试备考试题及答案解析
- 福建省永春县2026年初三2月月考试卷语文试题含解析
- 2026届云南省玉溪市新平县重点名校下学期初三期末教学质量检测试题语文试题试卷含解析
- 2026届广西柳州市柳林中学初三下学期4月月考(三)语文试题含解析
- 四川省仁寿县2025-2026学年初三5月联考试题英语试题试卷含解析
- 2026年山东省蒙阴县重点名校初三年级第二学期教学质量调研(三)英语试题含解析
- 2026届浙江省杭州市江干区初三3月11的语文试题测试卷含解析
- 广西蒙山县重点名校2025-2026学年初三第二学期入学检测试题英语试题含解析
- 水利三防培训课件
- 2026届新高考高中英语语法填空题66篇(含答案解析)
- 2026年时事政治测试题库附参考答案(培优)
- 锅炉满水培训课件
- 2026春教科版(新教材)小学科学一年级下册(全册)教学设计(附教材目录)
- 小儿股静脉抽血课件
- 2026年湖南有色金属职业技术学院单招职业技能考试题库附答案
- 暖通高效机房设计
- 建筑毕业论文2000字
- 多器官功能衰竭长期卧床患者支持方案
- 2025年江西机电职业技术学院单招职业技能测试题库附答案
评论
0/150
提交评论