版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、实 验 报 告实验名称: 机器学习:线性支持向量机算法实现 学 员: 张麻子 学 号: * 培养类型: 硕士 年 级: 专 业: 所属学院: 计算机学院 指导教员: * 职 称: 副教授 实 验 室: 实验日期: 一、实验目的和要求实验目的:验证svm(支持向量机)机器学习算法学习情况要求:自主完成。二、实验内容和原理支持向量机(support vector machine, svm)的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。svm是用来解决二分类问题的有监督学习算法。通过引入了核方法之后svm也可以用来解决非线性问题。但本次实验只针对线性二分类问题。svm算法
2、分割原则:最小间距最大化,即找距离分割超平面最近的有效点距离超平面距离和最大。对于线性问题:wtx+b=0假设存在超平面可最优分割样本集为两类,则样本集到超平面距离为: = min|wtx+b|w| = a|w|需压求取:maxaws.t. yi(wtx+b)a由于该问题为对偶问题,可变换为:min12|w|2s.t. yi(wtx+b)1可用拉格朗日乘数法求解。但由于本实验中的数据集不可以完美的分为两类,即存在躁点。可引入正则化参数,用来调节模型的复杂度和训练误差。min12|w|2+cis.t. yi(wtx+b)1-i, i0作出对应的拉格朗日乘式:对应的条件为:故得出需求解的对偶问题:
3、min 12ijyiyj(xitxj)-is.t. iyj = 0 , ci0,本次实验使用python编译器,编写程序,数据集共有个案例,挑选其中70%作为训练数据,剩下30%作为测试数据。进行了两个实验,一个是取值为,直接进行训练;另外一个是利用交叉验证方法,求取在前面情况下的最优值。三、实验器材实验环境:windows7操作系统+python编译器。四、实验数据(关键源码附后)实验数据:来自uci机器学习数据库,以heart disease数据集为例。五、操作方法与实验步骤、选取,训练比例:,利用python库sklearn下的svm()函数进行训练,后对测试集进行测试;、选取训练比例:
4、,np.linspace(0.0001, 1, 30)。利用交叉验证方法求出值的最优解。六、实验结果与分析实验一得出结果:可见,训练集的正确率是0.8677248677248677,小于,说明训练集存在躁点,需要选择性的排出,才能得到较好的训练效果,测试集正确率达到了0.8271604938271605,还须进一步提高。实验二得出结果:可见,在上述情况下,当0.06905862068965518时,可得到较好的训练效果。七、问题与建议 (可选)本次实验只是对在线性空间的应用,还有非线性问题,多分类问题等。通过研究了解到,对于非线性问题,需要加入核函数;对于多分类问题,需要重新调整模型八、附录(
5、源代码)import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn import svmfrom sklearn.model_selection import train_test_split, gridsearchcvfrom sklearn.metrics import classification_reportdef loaddata(path): data = np.loadtxt(path, dtype=float, delimiter
6、= ) return datadef once_svm(data, c=0.1, train_rate=0.7): x, y = np.split(data, (13,), axis=1) x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=0, train_size=train_rate) clf = svm.svc(c=c, kernel=linear, decision_function_shape=ovo) clf.fit(x_train, y_train.ravel() print(uc值: ,
7、 c) print(u训练集正确率: , clf.score(x_train, y_train) # 精度 print(u测试集正确率: , clf.score(x_test, y_test) print(u测试集预测结果:) y_hat = clf.predict(x_test) print(y_hat) print(u测试集真实结果:) print(y_test.t)def crossvalidation_svm(data, train_rate=0.7): x, y = np.split(data, (13,), axis=1) x_train, x_test, y_train, y_t
8、est = train_test_split(x, y, random_state=0, train_size=train_rate) tuned_parameters = kernel: linear, c: np.linspace(0.0001, 1, 30) # 构造这个gridsearch的分类器,5-fold clf = gridsearchcv(svm.svc(), tuned_parameters, cv=5, scoring=accuracy) clf.fit(x_train, y_train.ravel() print(u最优参数:) print(clf.best_params_) y_true, y_pred = y_test, clf.predict(x_test) print(classification_report(y_true,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 多重耐药菌监测2019-2023年数据分析
- 绿色建筑节能施工技术标准解析
- 2025年及未来5年中国智慧矿山行业市场全景调研及投资规划建议报告
- 高中生物实验教学方案与题库解析
- 工业设备运输与仓储管理方案
- 常用离婚协议书模板及写作技巧
- 2025年地理基础真题试卷及答案
- 互联网营销活动策划与执行指导
- 小学数学新疆维吾尔自治区吐鲁番市2025-2026学年六年级上学期期中数学试卷
- 2026年考研英语二应用文建议信写作卷附答案解析与语气措辞把握
- 急性心肌梗死护理管理指南
- 企业信息安全培训课件
- 铝板板材外墙施工技术交底
- 2025下半年四川省自然资源投资集团社会招聘考试笔试参考题库附答案解析
- 2025年入党积极分子发展对象考试通关试卷提供答案解析含完整答案详解【典优】
- 《祖国啊我亲爱的祖国》课件
- 腾讯手机行业消费趋势洞察报告(2025年版)-腾讯营销洞察x益普索-202510
- 公会主播停播合同范本
- 金属行业入门知识培训课件
- 2025至2030全球及中国高光谱传感器行业发展趋势分析与未来投资战略咨询研究报告
- 浙江智能机器人项目建议书(模板参考)
评论
0/150
提交评论