【毕业学位论文】(Word原稿)基于变量选择的支持向量机在乳腺癌预后复发诊断中的应用-统计教育学_第1页
【毕业学位论文】(Word原稿)基于变量选择的支持向量机在乳腺癌预后复发诊断中的应用-统计教育学_第2页
【毕业学位论文】(Word原稿)基于变量选择的支持向量机在乳腺癌预后复发诊断中的应用-统计教育学_第3页
【毕业学位论文】(Word原稿)基于变量选择的支持向量机在乳腺癌预后复发诊断中的应用-统计教育学_第4页
【毕业学位论文】(Word原稿)基于变量选择的支持向量机在乳腺癌预后复发诊断中的应用-统计教育学_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于变量选择的支持向量机在乳腺癌预后复发诊断中的应用 (中国人民大学统计学院,北京, 100872) 摘要 : 本文通过支持向量机对乳腺癌预后是否复发转移进行分类,并且结合决策树, 最小化 测试 集 错判率 的标准下,有效减少了特征变量个数,对于降低化验成本起到了令人满意的效果。 关键词 : 乳腺癌; 预后 ;支持向量机;特征选择 1 研究的目的 与 意义 乳腺癌是一种全身性疾病,虽然与其他恶性肿瘤比较预后较好,目前的综合治疗水平也有较大提高,但是仍存在一定概率出现 复发转移,一般复发转移的时间以手术后两年内最为常见。乳腺癌复发的诊断是对该疾病长期表现的分析,早期发现复发转移灶并及时治疗,能够有效地决定后续治疗手段,有望延长病人的生存期。如利用 断 ( 析乳腺组织细胞 就是一种不错的选择。但是这种诊断方法成本较高,对于患者来说显然 不经济。因此,本研究的目的就是寻找一种能将乳腺癌是否复发区分开来的一种统计学方法,通过对少量训练样本构建分类器,然后将其用于预测未知样本,这种方法在实际应用中 有助于降低医疗分析的成本 。 但是,由于 样本量的限制和随机误差的影响,所构建的模型往往与真实情况会产生背离,因而会产生预测误差。那么寻找一种稳健的估计方法,使模型具有较高的泛化( 力,也就是对于未知样本能够取得较低的预测误差,是本研究的主要目标。同时,由于 断 的数据往往具有很多的成分,每一个成分可以称之为一个变量或者一个特征,在进行统计计算时,较高的维数往往会使得计算量较大甚至产生维数灾难( 题。因此,在寻求最优分类器的同时要考虑降低数据维度的方法,这样不仅能减少运算时间, 而且能降低检测成本,排除较次要的变量。降低数据维度可以采用特征选择( 方法, 本文中选择了三种特征选择方法,分别是:决策树, 2 支持向量机和特征选择 支持向量机的思想起源于统计学习理论 (995), 它通过将样本点所在的输入空间 (射到同维度或更高维的特征空间 (或称做 ,以达到线性可分或者线性近似可分的目的 。 支持向量机 基于结构风险最小化 (则 , 而不是传统统计学的经验风险最小化 (则 。 支持向量机有其坚实的理论基础 , 实际应用中 取得了良好的效果 。 机器学习的目的是针对有限的训练样本 , 来估计输入输出之间的依赖关系 , 找出一个最优的预测函数 , 其中 是估计的最优参数 , 使得对未知输入达到最好的预测效果 。 传统的统计学基于经验风险最小化原则 , 也就是说是模型拟合值与实际值的误差达到最小化 。 这样的一个弊病就是模型估计出的误差仅针对对于有限样本 , 而对于应用于未知样本的推广性误差没有一个估计 。 而结构风险最小化基于使期望风险 最小的思想 , 用公式表明就是 : (1) 其中 , 是经验风险 , 是学习器的 衡量的是学习器的复杂度 , 或者说表达能力 , 是衡量学习机推广能力的函数 , 是 的增函数 。 众所周知 , 一个学习器的复杂度越高 , 越大 , 它对训练样本的拟合效果越好 , 也就 使得 越小 , 但是这会造成过拟合的现象 , 使得 取值变大 , 从而 的置信上界增大 , 造成对未知样本的预测误差置信区间增大 。 这种综合考虑经验风险和学习器推广度 , 在经验风险与学习器复杂度之间寻找一个 最好 的平衡点的原则就是结构风险最小化原则 。 数学形式 支持向量机最初应用于二分类问题,分为线性可分、线性近似可分、非线性可分以及非线性近似可分四种情况 。首先我们 考察线性可分 情况 。 我们假定有大小为 的样本集 ,其中 , 是样本的 属性), ,当样本属于第一类样本时 ,否则 ,我们的目的就是构造分类超平面: (2) 使得 (3) 从而有 (4) 与此同时,需要得到 使两类样本间隔最大的超平面以获得最大的泛化能力。因此需最大化 ,也就是要最小化 ,因此我 们有以下原始最优化问题 (5) 当训练样本 线性 不可分时,引入松弛变量 ,使得通过 其对最优超平面的平移 ,满足式子 (6) 同时 , 可以看作 是 样本分错时的代价,因此要对其进行惩罚,故引入惩罚性参数 C。这样,在线性不可分时,我们有 (7) 而 在 实际应用中,求解这个带约束的二次规划原问题往往会产生困难,因此需要通过求解其 导过程需要应用 里不再详述,只列出最后结果 (8) 其中 是 这个对偶问题必有解 ,使得 (9) (10) 这样就得到了最优超平面的解,可以证明, 和 是唯一的。需要说明的是, 的解有三种取值。 (1) ; (2) ; (3) 。可以看出,分类超平面的确定仅仅和那些 的样本点有关,因此第 2、 3种情况所对应的点被称为支持向量。 在某些情况下,两类样本点可能不能由一条直线分开,比如标为 的点将标号为 的点包围起来。这样 ,一条直线可能不会将样本点满意地分开,而一个椭圆却能很好的完成这个任务。因此,考虑将现有输入空间上的点通过函数 (11) 将其映射到更高维的空间,再在这个空间内使用最优超平面将两类样本点分开。这就是非线性可分的情况 。当然,既便如此还是可能出现一类样本点杂糅在另一类样本点中导致非线性不可分的情况,因此还需要引入松弛变量 。非线性近似可分的数学形式与线性近似可分的类似,只需把 换成 即可。在式( 8)中,由于 已经处于 很高维度的空间,因此计算 的计算量会增大,为了避免产生维数灾难的问题,统计学家发现可以引入核函数 ,其道理可以用一个不是很恰当的例子解释:考虑计算和直接计算其展开式的复杂度,显然是前者小于后者,而 的作用就与核函数类似 。核函数的引入,可以使得点乘运算在原维数空间内进行,减小了计算量, 同时解决了 某些将输入空间映射到无穷维空间的函数 的运算问题 。 当求得最优划分超平面时,根据原始判别函数 (12) 得到决策函数 (13) 其中 的 解由( 8)( 9)( 10)计算得到。 特征选择在模式识别领域中扮演着一个极其重要的角色。一方面 , 在样本有限的情况下 ,用大量特征来设计分类器无论是从计算开销还是从分类器性能来看都不合时宜 ; 另一方面 ,特征和分类器性能之间并不存在线性关系 , 当特征数量超过一定限度时 ,会导致分类器性能变坏。因此 ,进行正确有效的特征选择成为模式识别中必须要解决的问题 ,在海量数据条件下尤为 重 要。 对于一些变量很多的化学检测数据,进行特征选择不仅能够有效减少分类运算时间,更有提高分类器性能,减少 错判率 的 作用。 特征选择可以表示为以下数学形式,在全部 个特征中选取 个,也就是选取最优的指标集 ,其中 。当某项特征被选中时 ,否则取 0。最优特征子集 的选取标准可以是 使得分类器的 错判率 最小,或者通过距离测度使得两类别样本间的距离最大化。 特征子集的 选取标准依赖于评价函数,根据评价函数与分类器的关系,特征选择方法可以分为筛选器( 封装器( 种。筛选器的评价函数与分类器无关,而封装器的评价函数就是分类器的 错判率 。 说明 模拟退火算法( 属于元启发式 (索算法, 是局部搜索算法的一种扩展, 适用于状况复杂、定义模糊、规模较大的优化问题。 在 1953年,到 1983年 功的将模拟退火算法应用到求解组合优化问题中,模拟退火算法才逐渐被人们所接受,并且成为一种有效的计算方法。 模拟退火算法来源于固体退火原理,在热力学和统计物理学的研究中,首先将固体加热到足够高的温度,再让其徐徐冷却。温度高时,固体内部粒子内能较大,极不稳定,因此较容易从低能量状态跳至高能量状态。随着固体温度降低,内能下降,粒子跳至高能量状态的机会随之减小,粒子渐趋有序。如果温度降低的足够慢,在每个温度下粒子都可以达到一个平衡态,直至最后停留在基态。粒子在每个温度时的状态转移由 如果我们把使 错判率 最小的的变量组合作为最优解的话,那么变量选择问题可以看成是一个最优化问题,评价标准是使得支持向量机 错判率 达到最小值。如果所选的特征 错判率 要小于原 错判率 ,那么就接受新特征, 如果不是仍可 以一定概率 接受,这就是 本文中,我们选用了一种常用的简化形式,将这个概率设定为a/T),也就是用参数 模拟退火算法允许有一定的概率接受劣解,从而避免跳入局部最小化。算法包括外层循环和内层循环,外层循环由参数 层循环由参数 着算法的进行,外层循环中的参数 而使得接受劣解的概率a/T)逐渐减小, 而在 层循环还要进行 是模拟固体退火中的达到某温度下平衡态的过程。 整个算法的示意图如 图 1。 m 次刚开始解的跳动非常剧烈,随着循环的不断进行,解趋于稳定且收敛到最优解或次优解。.刚开始解的跳动非常剧烈,随着循环的不断进行,解趋于稳定且收敛到最优解或次优解。图 1 模拟退火算法示意图 将模拟退火算法运用到特征选择过程中,可以 用以下伪 代码说明: m=50 #设定在每个 #设 定 终止 T T=50 #设定 起始 T k=0 #计数器,计算迭代次数 #设定需要选择的参数个数,这里选定了 为 1 a=10 #控制参量 p= #数据列数 q=2) #数据行数,由于要划分训练测试集,因此除以 2 ) #分层抽样的函数,各类别抽样比例相同,这里是 1/2 :p, #号 #用支持向量机判定使用测试 集的 错判率 = # j :m) #在每个 模拟平衡态 :),2:p)1) #这是 变异 函数 , 也就是将之前 (j)* #用支持向量机判断训练集的 错判率 ,注意这里采用的是反复交叉验证的方法,在 练集和测试集交叉应用 if(z|) (0 0 0 0 * * 1 1 2 2 2 1 2 2 1 1 1 1 1 0 1 1 0 * * * . 1 可以看到 , 最终选出了 13个变量 , 分别为 除 策树所选出的变量都被包含在 归所选择的变量之中,因此 模拟退火算法涉及的变量较多,因此我们用编号 12个预测变量。 根据上文的伪 代码,编写程序, 进行模拟。参数设定为: T=50, , m=50, , a=10,模拟次数为 200次。 支持向量机所有参数选取都为默认值,核函数 选择为 径向基( 。表 2显示的是 200次模拟中选出的变量频数分布 情况 及其对应的平均 错判 率 。表 2 模拟退火算法变量选择结果 变量 编号 错 判 率 量 编号 错判率 6 18 3 2 19 4 5 21 3 6 22 7 23 9 8 0 24 0 11 25 13 28 14 1 29 15 30 16 31 17 32 1 图 5 模拟退火算法结果 从 图 5可以看出,变量 24( 23( 4( 21( 1(3(现频率较高,而且其平均 错判率 较低 ,而前 四 个变量相对于变量 1, 3 有更 高的出现频率。 稳健起见,模拟 500次作为对照,出现频率前 6的变量 与 200次模拟时相同 , 因此变量选择 如上。 这里 有两点 需要说明 : ( 1) 上述模拟退火方法是对每个变量单独进行的 也就是每次仅用一个变量使用支持向量机进行分类 。如果采取穷举的方法,对于每个变量分别使用 且计算 错判率 ,那么只需模拟 32次就能得出 错判率 最低的 6个变量 ,但 是,所得的 错判率 仅针对训练集,扩展能力较差。而模拟退火算法是一种随机化方法,加上模拟过程中使用了交叉验证的方法,这样就能 在不断地选择中逐渐淘汰掉 错判率 较高的变量,因此这种方法更为稳健。 虽然这种方法需要使用大量的模拟运算,但这在计算机性能突飞猛进的今天,已经不是主要的瓶颈。 ( 2)上述特征选择方法基于一个较强的假设,每次选出的最优变量组合在一起仍然是最优的,由于变量之间 可能存 有错综复杂的关系,因此这种方法的效果需要在下文中验证。 4研究 结论 将以上三种方法所选出的特征应用于 1、 2 两种类别的 疾病复发 转移情况 分类中,采用分层 等比例 抽样的方法 对原始数据进行划分 ,将 2/3作为训练集,其余作为预测集, 分类方法全部选用支持向量机, 得到 结果 如 表 3。 表 3 各种变量选择方法在支持向量机中的表现 变量选择方法 选出变量 训练集 错判率 测试集 错判率 法评价 决策树 速, 错判率 低 慢, 错判率 尚可 模拟退火 1 慢, 错判率 最低 模拟退火 2 特征选择 全部变量 需要对上表进行说明的是,在这里我们将模拟退火所选出的变量分为两组:模拟退火 1选用的是所有 6个变量,而模拟退火 2仅采用了出项频率最高的前 4个变量。 最后一栏是对各种变量选择方法的评价。 如果仅 从训练集的 错判率 来看,未进行特征选择时的 错判率 最低,但是 从应用角度来讲,我们更加关心所选变量在测试集中的表现。 由于受到许多无关特征的影响, 未进行特征选择时 对测试集的效果 会变差 。 而决策树和 说明在本课题中,用决策树和 对测试集的 错判率 来看, 两组 模拟退火 算法所选出的变量表现最优,而前 4个变量与前 6个变量的表现差距则不大。 此外,在 三种方法所 选出的变量中 , 时出现,说明三种方法 都认为 是 这两个变量是关键 变量 。事实上, 仅通过这个变量就能对训练样本取得较低的 错判率( 在训练集和预测集的 错判率 分别为 ,因此在误差允许的情况下,仅检测变量 想的分类效果。 为了对比支持向量机方法与决策树和 别对其进行 200次模拟:支持向量机采用模拟退火方法选出的 个变量,同样选用 2/3做训练集, 1/3做测试集,得到 结果如表 4。 表 4 三种分类方法结果比较 分类 方法 训练集 错判率 测试集 错判率 决策树 持向量机 拟数据表明, 支持向量机 能够达到最低 错判率 , 归 次之。 由于 归和 质上属于 线性分类,决策树是非线性分类,决策树效果不如前两者说明该分类问题存在线性解,也就是说仅依靠线性分类就能取得很好的效果 。 而且,从上面的变量选择结果可以看出, 归和支持向量机所选出的变量 存在较大差异 ,为什么出现这样的结果, 原因可能是 用的逐步回归方法和支持向量机所 采用的模拟退火方法在原理上有较大差异:前者是以 则作为评价模型的标准,而后者则是一种随机算法,以最小 错判率 作为评价标准。 经过以上的模拟计算,可以看出支持向量机作为一种结构风险最小化算法,对于对于未知样本的确能起到较好的预测效果。而经过变量选择,支持向量机分类器在分类性能上得到了进一步的提升。本文将决策树, 步回归,和模拟退火算法三种变量选择方法进行了对比,得到了模拟退火算法要优于其他两种方法的结论。事实证明,将模拟退火算法这一局部搜索算法应用于特征选择,取得了良 好的效果。 此外,决策树和 本来的作用就是进行分类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论