付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于svm的乳腺肿瘤诊断分类算法
在这项工作中,提出了一种机器学习分类算法,并利用支持向量机(svm)进行建模和模拟,并优化了子的选择方法。使用拉普拉斯布鲁夫keel作为核函数,参数为0.8,惩罚系数为250.0,hingeloss作为损失函数。利用获取的模型测试数据集,得到训练集分类准确率97.4%,测试集分类平均准确率由传统模型的85.56%提升至97.22%,平均训练轮数由5.4缩减至3.4轮,该模型的性能有了显著的提高。引言:医学数据分析过程的自动化程度急需提高,分类器可作为很好的辅助。目前有许多应用于分类的算法,相较逻辑回归,K近邻、随机森林、朴素贝叶斯、深度神经网络等,SVM分类算法有其优越性,泛华推广能力好,有效的解决了数据高维数、非线性以及训练时易陷入局部极小等问题。传统算法受各个数据集、训练参数的影响,准确率低。本文旨在改进传统SVM分类器,优化算法结构并调整参数。1以往的svm分割系统1.1传统分类器简介分类决策函数为:yi为样本实际值。SMO拉格朗日乘子选取方式:为损失函数核函数及惩罚系数C的选择方式:传统分类器的核函数选用linearkernel。选取拉格朗日乘子时,会遍历对象,将第一个违反KKT条件的乘子作为α1;在不违反KKT条件的对象中,选取使absoluteloss最大的乘子作为α1。1.2不同表征属性的检测本实验数据样本取自BreastCancerWisconsin(Prognostic)DataSet。此数据中的实例数量为569,属性数量为32(ID,诊断,30个实值输入特征),肿瘤诊断结果分为两类:良性(357例)和恶性(212例),无缺少属性值。经筛选后使用实例537个。当不同表征的数据尺度不同时,模型参数易被量级大的数据支配,因此要对属性值进行归一化,处理后的属性值被均匀归一到[0,1],诊断结果benign(良性)表示为+1,malignant(恶性)表示为-1。应用python进行仿真并使用五折交叉验证,公式如下,其中TP(TruePositive)表示判定结果是1,事实结果也是1;FP,TN,FN同理。用cross-validation和grid-search获得惩罚系数C的值,C取310时最优。图1的横坐标为训练轮数,纵坐标为平均错误率,上图为训练结果的比较,下图为测试结果的比较。结果表明传统SVM分类器平均训练准确率为85.000%,测试准确率为85.556%,平均训练周期为5.4,平均支持向量22.4个。2改进后的svm分类系统2.1改进后的svm分类器的总结SMO拉格朗日乘子选取方式:核函数:改进后SVM分类器的核函数为LaplaceRBFkernel。在选取拉格朗日乘子时,α2.2wiconsin检测与传统SVM分类器性能的检测一样,验数据样本依然采用BreastCancerWisconsin(Prognostic)DataSet,使用实例537个,诊断结果benign(良性)表示为+1,malignant(恶性)表示为-1;对数据进行预处理归一化后,应用python进行仿真,使用五折交叉验证。2.2.1svm分类器参数运用控制变量法,仅改变分类器的核函数,其余算法结构不变;利用cross-validation和grid-search,比较Polynomialkernel、Gaussiankerne、LaplaceRBFkernel、Sigmoidkernel等核函数,得到最优的核函数LaplaceRBFkernel及相关参数、相应惩罚系数,然后比较两个分类器,结果如图2所示。改进核函数后的SVM分类器参数σ取0.8,惩罚系数c取250,支持向量个数为81。平均训练错误率仅为4.001%,同比下降11.001%;平均测试错误率仅为3.51852%,同比下降10.9264%;平均训练周期为4.4轮,同比下降1.0轮。2.2.2两个分类器仿真运用控制变量法,仅改变分类器SMO拉格朗日乘子的选取方式,其余算法结构不变,分别对两个分类器仿真,如图3所示。改进乘子选取方式的SVM分类器,平均训练错误率为13.15942%,同比下降1.840%;平均测试错误率为13.14814%,同比下降1.2969%;平均训练周期为3轮,同比下降2.4轮。3标准结果对比基于上文对传统SVM分类器的两组改进实验,我们同时改进核函数与乘子的选取标准,所得结果如图4所示。综上所述,传统算法和本文所提改进算法在评价训练轮数、识别准确率和支持向量个数等方面的对比,如表1所示。大量实验数据表明,相比较传统SVM分类器选取linearkernel,遍历对象,α4改进前后的比较结果通过对比仿真分析,改进后的模型准确率更高、训练速度更快。很好地克服了传统支持向量机准确率低、训练轮数多的问题,可以胜任乳腺肿瘤诊断的任务。横坐标为训练轮数,纵坐标为平均错误率,上图为训练结果的比较,下图为测试结果的比较;linear为传统分类器的核函数,LaplaceRBF为改进后的核函数。一系列的精准良好结果均证明:Linearkernel平均错误率远高于LaplaceRBFkernel,改进后的模型表现更优。横坐标为训练轮数,纵坐标为平均错误率,上图为训练结果的比较,下图为测试结果的比较
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 施工现场安全标识设置方案
- 钢结构焊接工艺技术方案
- 施工人员技能提升评估方案
- 2026四川乐山市峨边彝族自治县招聘县属国有企业人员27人备考题库及参考答案详解(基础题)
- 施工现场材料搬运方案
- 宁银理财2026届春季校园招聘备考题库及参考答案详解一套
- 施工现场安全隐患排查培训方案
- 2026四川天府永兴实验室上半年度实习生招聘备考题库含答案详解(典型题)
- 2026江西萍建工程建设有限公司招聘11人备考题库附答案详解(研优卷)
- 2026陕西西安市西北工业大学材料学院高温功能材料团队招聘1人备考题库含完整答案详解【各地真题】
- 2025年中考数学压轴专题汇编(江苏专用)压轴专题09定角定高模型(原卷版+解析)
- 高中数学复习专题08 排列组合与二项式定理(学生版)
- 2024年江苏省高中学生英语口语等级测试试卷(模拟试卷)
- 教学课件-积极心理学(第2版)刘翔平
- 包钢集团笔试题库2025
- 2025党支部班子成员问题清单及整改措施
- 广东省广州市2024年中考数学真题试卷(含答案)
- 诺瓦星云的在线测评题
- 《“文化走出去”申论练习》名师课件
- 山东省济南市2024年中考数学试卷【附真题答案】
- 中考语文小说阅读专题复习+-人物形象分析课件
评论
0/150
提交评论