




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、最小二乘支持向量机在医疗数据分析中的应用 钟萍, 岑涌, 席斌 (厦门大学 模式识别与智能系统研究所 福建 厦门 )摘要:以医疗数据为应用对象,应用网格搜索和交叉验证的方法选择参数,建立了最小二乘支持向量机分类器,进行实际验证,并与使用K近邻分类器(K-NN)和C4.5决策树两种方法的结果进行了比较。结果表明,LS-SVM分类器取得了较高的准确率,表明最小二乘支持向量机在医疗诊断研究中具有很大的应用潜力。关键词:最小二乘支持向量机;分类器;医疗诊断;网格搜索;交叉验证中图法分类号:TP181Application of Least Squares Support Vector Machines
2、 to Medical Diagnostics ZHONG Ping, CEN Yong, XI Bin (Institute of Pattern Recognition and Intelligence System, Xiamen University, Xiamen , China)Abstract: As the medical diagnose dada an application object, LS-SVM classification hyper-parameters are optimized with grid-search and cross-validation m
3、ethod, carry through to validate the classification performance. Then it is compared to other typical classifications such as K-NN and C4.5 decision tree on the datasets. Computational results indicate that LS-SVM has good performance on the classification recognize, LS-SVM has potential application
4、 in medical diagnostics research.Keywords: least squares support vector machines (LS-SVM); classification; medical diagnostics; grid-search; cross-validation1 引言统计学习理论是由Vapnik建立的一种专门研究小样本情况下机器学习规律的理论, 支持向量机(Support Vector Machine, SVM)是在这一理论基础上发展而来的一种新的通用学习方法。支持向量机通过结构风险最小化原理来提高泛化能力,它较好地解决了小样本、非线性、高
5、维数、局部极小点等实际问题,已在模式识别、信用评估和入侵检测等领域得到了应用1,2,3。最小二乘支持向量机(LS-SVM)是支持向量机的一种扩展,是由Suykens4在Vapnik的统计学习理论基础上提出的一种新型支持向量机方法,它适用于解决分类和函数估计问题,收敛速度快,分类精度高,已经在图像和字体识别领域获得应用,并取得了不错的效果56。2 SVM与LS-SVM的基本原理2.1 支持向量机原理支持向量机是统计学习理论的一种通用学习方法,主要是基于以下思想:通过事先选择的非线性映射将输入向量映射到高维特征空间,并在这个空间中构造最优决策函数;在构造最优决策函数时,利用了结构风险最小化原则,并
6、巧妙利用原空间的核函数取代高维特征空间的点积运算,使复杂计算得到简化。基金项目:厦门大学985“海量数据挖掘方法及应用”作者简介:钟萍(1982)、女、硕士研究生、主研方向:智能计算、数据挖掘和机器学习;岑涌、男、硕士研究生、主研方向:智能计算、数据挖掘和机器学习; 席斌、男、副教授、硕导、主研方向:智能计算、数据挖掘和机器学习。 E-mail:定义样本为维向量,某区域的个样本及其值表示为:,即,。首先用一非线性映射,把样本从原空间映射到特征空间。在这个高维特征空间中构造最优决策函数,其中为权值向量;为阈值。这样就把非线性估计函数转化为高维特征空间
7、线性估计函数。2.2 最小二乘支持向量机原理Suykens47提出的最小二乘支持向量机与Vapnik提出的支持向量机在利用结构风险原则上,选择了不同允许错分的松驰变量,SVM选择了,而LS-SVM选择为的二范数。对于Vapnik提出的支持向量机的优化问题为: (1)对于Suykens提出的最小二乘支持向量机,优化问题变为: (2)(1)、(2)式中,为惩罚因子。用拉格朗日法求解优化问题(2),即 (3)式中,()为拉格朗日乘子。根据优化条件,对,求偏导数,并令其为零,可得: , (4)定义核函数,为满足条件的对称函数。根据式(4),优化问题转化为求解线性方程,即 (5)最后得到非线性模型为:
8、(6)由于将优化问题(2)转化为求解式(5)的线性方程问题,该线性方程可由最小二乘方法求解,最小二乘支持向量机由此而得名,最小二乘支持向量机比标准支持向量机具有更快的训练速度,且求解所需的计算资源较少。2.3 最小二乘支持向量机多元分类模型构建多元分类的最小二乘支持向量机方法,方法实质和一般支持向量机多元模型一样,是将多元分类器看成若干二元分类器的集成。考虑多类的训练样本形式,其中为训练样本数;为内置二元分类器个数;是指第个样本属于第个类别。构建多元分类的最小二乘支持向量机描述为: (7)约束条件为: (8)根据式(8)定义拉格朗日函数为: (9)对式(9)优化,分别对变量,求偏导并令其等于零
9、。消除和,转换为求解分块矩阵,求出,。求得多元分类最小二乘支持向量机的决策函数为: (10)3算例结果与分析3.1 数据源实验中采用了四种不同种类疾病的医疗诊断数据,分别是从UCI机器学习问题库得到8:Pima Indians Diabetes(糖尿病),Heart Disease(心脏病),Liver Disorders(肝病)和 Wisconsin Breast Cancer(乳腺癌)。这些医疗诊断数据中属性都是根据相应的各种病理检测、组织样本检验、血样以及各生理器官功能检测等情况中具有代表性的属性值组成,可以清楚表示4种病理的特性和状况(详细说明略)。数据集的简单情况如表1所示:表1.
10、四个数据集基本情况数据集(Dataset)实例数类别数属性数Heart Disease(心脏病)270213Liver Disorders(肝病)34526Pima Indians Diabetes(糖尿病)76828Wisconsin Breast Cancer(乳腺癌)5692303.2 模型参数的选择 关于核函数的选取,本文将采用径向基核函数: 其中为径向基函数核的宽度。选择径向基核函数是考虑到径向基核非线性的样本映射到高维空间中时,不同于线性核,而是能够处理分类和属性之间非线性的情形。而且线性核可以认为是径向基核一种特殊情形线性核随惩罚参数变化能和径向基核在某些参数组合下有同样的分类表
11、现效果。另外,从模型选择上考虑到影响复杂度的超平面参数个数,多项式核比径向基核多很多超平面参数。应用最小二乘法进行系统辨识时,规则化参数和核参数的选择是一个重要问题。本文用网格搜索法先选择参数对(),然后用交叉验证法对目标函数均方误差(MSE)最小进行寻优,直至找到最佳的参数对,使交叉验证的精度最高。主要过程为:(1)首先要找到合适的正则化参数集和核参数集。按照指数增长方式生成两种参数集,比如,。网格搜索简单直接,因为每一个参数对()是独立的,可以并行地进行网格搜索。(2)应用网格搜索法选择一个参数对(),用该参数对进行交叉验证。方法就是将样本集随机分成个集合(假定每个集合的数据分布近似或相同
12、),一个集合留作独立的测试集,其余个集合合并后作为训练集。通过选择不同的验证集, 可重复次。(3)循环选择参数对进行交叉验证, 计算每个参数对的均方误差直到网格搜索停止,使得均方误差最小的参数对() 是最佳的,应用交叉验证方法选择参数能够避免过拟合问题。3.3 实验结果为了分析训练样本数对整体分类效果的影响,对每个病症类数据进行取不同比例的样本作为训练样本,剩余的作为测试集。在实验分析时分别从总样本中选择30%、50%、70%和90%的样本作为训练集,表2给出了在4种医疗诊断数据集上的训练和测试的结果。 表2. 四个数据集在不同训练样本比例下的训练与测试的准确率 数据集训练比例和结果Heart
13、DiseaseLiver DisordersIndians DiabetesBreast Cancer30%训练集(train)90.12%83.65%76.09%98.54%测试集(test)81.48%61.53%77.88%82.64%50%训练集(train)87.41%82.66%77.86%96.49%测试集(test)84.44%69.77%80.73%98.24%70%训练集(train)84.66%80.08%77.88%96.44%测试集(test)85.19%68.27%77.39%98.05%90%训练集(train)85.19%75.52%77.42%97.07%测试
14、集(test)81.48%77.14%79.22%98.53%针对几种不同疾病分类诊断研究问题,将目前一些典型的分类器诸如K近邻分类器(K-NN, 本文中K=3)、C4.5决策树分类器与本文中LS-SVM分类器所得结果进行了对比,见表3。从表3可知,在保持对样本准确识别的基础上,LS-SVM分类器取得了较好的准确率。(本文中,对于K近邻分类器和C4.5决策树分类器方法也是建立在与LS-SVM分类器同样的训练和测试集合的基础上获得的各个数据集的最佳结果)。 表3. LS-SVM、K-NN和C4.5三种分类器的不同应用结果 数据集不同分类器HeartDiseaseLiver DisordersIn
15、dians DiabetesBreast CancerK-NN(K=3)78.19%61.23%73.78%96.83%C4.577.53%65.93%73.51%94.43%LS-SVM85.19%77.14%80.73%98.53%4 结束语本文介绍了最小二乘支持向量机分类器的算法原理, 并将其应用于不同疾病医疗诊断数据的分析中,建立的LS-SVM分类器比使用K-NN(K=3)和C4.5决策树分类器具有更高的分类识别准确率。最小二乘支持向量机具有比一般的支持向量机更快的求解速度,而且求解所需的计算资源也较少。最小二乘支持向量机求解线性方程, 其解满足极值条件, 但不能保证是全局最优解。LS
16、-SVM能较好地解决小样本、非线性等实际问题。当前特征基因选取、识别与分类成为生物信息学研究中的重要课题,进一步的研究方向将是把最小二乘支持向量机应用到基因和生物的识别与分类领域,处理更高维和复杂的数据集合。5 参考文献1汪丹, 张亚非. SVM和BP算法在气体识别中的对比研究J. 传感技术学报, 2005年第18 卷第1期:P201204.2姚奕,叶中行. 基于支持向量机的银行客户信用评估系统研究J, 系统仿真学报, 2004,Vol. 16 No. 4: P783786. 3杨敏, 张焕国, 傅建明, 等. 基于支持向量数据描述的异常检测方法J. 计算机工程, 2005,第31卷第3期:P3942.4Suykens JAK, Vandewalle J. Least squares support vector machines classifier J. Neural Processing Letters, 1999, 9(3):.5段洪伟,陈一民,林锋, 等. 基于LSSVM的静态手势识别J. 计算机工程与设计, 2004年第25卷第12期: P23522354.6高彦宇, 杨扬, 陈飞, 等. 基于融合特征和LS-SVM的脱机手写体汉字识别J. 北京科技大学学报, 2005年第27卷 第4期: P509512. 7Suykens JAK, Va
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机场保安考试题库及答案
- 企业安全知识培训台账课件
- 社会治理培训模式-洞察及研究
- 政策协同优化建议-洞察及研究
- 跨境存储法规互认机制-洞察及研究
- 无人机配送效率优化研究-洞察及研究
- 八百电影介绍
- 湖州公职律师管理办法
- 滁州房产投资管理办法
- 2025年文化娱乐市场细分消费者行为与行业挑战报告
- 建立隐患闭环管理制度
- 《多样的美术门类》教学课件-2024-2025学年赣美版(2024)初中美术七年级上册
- T/CECS 10026-2019绿色建材评价建筑门窗及配件
- 企业往来款协议书
- 2025山东中考:生物高频考点
- DB65T 4815-2024 清洗消毒中心内畜禽及其产品运输车辆消毒技术规范
- 《儿童癫痫护理指南》课件
- 数学三年级上册二 观察物体1 看一看(一)教学设计
- 2025-2030中国PEM水电解槽行业现状调查与发展前景规划研究研究报告
- 2025年中国人保财险全系统黑龙江分公司招聘笔试参考题库含答案解析
- 施工阶段全过程造价咨询管理办法
评论
0/150
提交评论