




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于支持向量机的蛋白质温热性识别 与亚细胞定位预测 摘要 蛋白质模式识别是后基因组时代生命科学中最重大的研究课题之一,蛋白质 温热性识别和蛋白质亚细胞定位则是蛋白质模式识别研究中两个新兴的富有挑 战性的问题。本文基于蛋白质结构与其功能的联系,从蛋白质的氨基酸序列出发, 提出了基于序列前后组分与关联的特征提取方法,并采用支持向量机方法进行预 测,取得了较理想的预测精度。本研究不仅对理解蛋白质结构与功能关系具有一 定的理论价值,更对生物制药业、农业生物科技等多个应用领域具有直接或者间 接的指导作用。 结论如下: 首先为绪论。该章综合介绍蛋白质温热性和亚细胞定位的研究背景、发展现 状等,并简述新近迅速发展起来的机器学习方法一支持向量机。 其次为蛋白质温热性识别研究。本研究中,采用基于氨基酸组分和关联特征 提取的新思路与方法,利用支持向量机对7 6 对常温蛋白和嗜热蛋白训练后建模, 再利用独立i 煲4 试法对供检验的2 0 对常温蛋白和嗜热蛋白进行模式识别预测。结 果显示,支持向量机对常温蛋白和嗜热蛋白预测精度分别为8 5 、8 0 ,相较于 张光亚等研究人员运用的主成分分析法、偏最小二乘法、神经网络法中最优预测 精度稍提高。 最后为蛋白质亚细胞定位预测。同样采用基于氨基酸组分和关联特征提取方 法和支持向量机,对9 9 6 条共分为三类的( c y t o p l a s m i c ,e x t r a c e l l u l a r ,p e r i p l a s m i c ) 原核生物数据集训练后建模。结果表明,运用“留一法”和“十次交叉法”测试 的预测精度分别达到9 3 5 7 * , s 和9 3 4 7 ,与目前己知最好的预测结果相比有了一 定幅度的提升。 关键词:多尺度组分和关联;支持向量机;模式识别;蛋白质热稳定性;亚细胞 定位 s u p p o r t v e c t o rm a c h i n ea p p r o a c hf o rp r o t e i nm 咖p h m c & t h e r m o p h i l i cr e c o g n i t i o na n d s u b c e l l u l a rl o c a l i z a t i o n p r e d i c t i o n a b s t r a c t i nt h ep o s t g e n o m ee r a , t h ep r o t e i np a t t e r nr e c o g n i t i o ni sb e c o m i n ga ni m p o r t a n t r e s e a r c hd o m a i ni nt h el i f es c i e n c e p r e d i c t i o no fm e s o p h i l i c & t h e r m o p h i l i cp r o t e i n s r e c o g n i t i o na n ds u b c e u u l a rl o c a t i o na l es t i l lt h ec h a l l e n g e sa tp r e s e n ti nt h er e s e a r c h o f t h ep r o t e i np a t t e r nr e c o g n i t i o n ,b a s e do nt h er e l a t i o n s h i po f p r o t e i n ss t r u c t u r ea n d f i m e t i o n , am e t h o dc 锄t ob e 仇l ew h i c hc o m k l e m gt h ec o m p o n e n ta n dc o r r e l a t i o n o ft h ea m i n oa e ds e q u e n c ei no u rs t u d i e s m e a n w h i l e , t h es u p p o r tv e c t o rm a c h i n e ( s v m ) w a si n t r o d u c e dt op r e d i c ta n dh a dg o o dp r e d i c t e dr e s u l t s n e wb r e a k t h r o u g h i nt h i sr e s e a r c hw o u l db eh e l p f u lt ok n o w i n gb e t t e rt h ef o l d i n gm e c h a n i s ma n dt h e f u n c t i o no fp r o t e i n ,w h a ti sm o r e , i tw o u l db ea ni m p o r t a n ta s s i s t a n tt or e l e v a n t i n d u s t r i e ss u c ha sb i o m e d i c a le n g i n e e r i n g , a g - b i o t e c h , e t c t l l i sr e s u l t sa sf o l l o w s t h ef i r s tc h a p t e xi n v o l v e dt h ei n t r o d u c t i o n t h er e s e a r c hb a c k g r o u n da n dt h e c u r r e n td e v e l o p m e n ta b o u tp r o t e i nm e s o p h i l i e t h e r m o p h i l i cp r o p e r t i e sa n dp r o t e i n s u b c e l l u l a rl o c a t i o nw e r ep r e s e n t e di nt h i sc h a p t e r s u b s e q u e n t l y , an e wm a c h i n e l e a r n i n g t h es u p p o r tv e c t o rm a c h i n e w a s s p e c i f i c a l l yr e c o m m e n d e d t h es e c o n dc h a p t e ri n v o l v e dt h er e c o g n i t i o no fm e s o p h i l i e & t h e r m o p h i l i cp r o t e i n i nt h i se x p e r i m e n t , w em a d ea na t t e m p tt op r o p o s ean o v e lf e a t u r ee x t r a c t i o na p p r o a c h w i t hc o m p o n e n ta n dc o r r e l a t i o no fa m i n oa c i d ,a c c o r d i n gt oo u rn e wa p p r o a c h ,7 6 p a i f so f m e s o p h i l i c t h e r m o p h i l i cp r o t e i n sw e r ou a i n e da n dm o d e l e d , a n d2 0p a i r so f o n e sw e r et e s t e du s i n gi n d e p e n d e n tt e s t i n g t h ef o r e c a s t i n gr e s u l t ss h o w e dt h e p r e c i s i o nw e r e8 5 a n d8 0 * , 6 ,r e s p e c t i v e l y t h er e c o g n i t i o np r e c i s i o nh a di n c r e a s e da l o tc o m p a r i n gt h eh i 蝴p r e c i s i o no fp c a , p l sa n dp c - a n no f f e r e db yg h a n ge t a 1 t h et i e dc h a p t e ri n v o l v e dp r o t e i ns u b c e l l u l a rl o c a l i z a t i o np r e d i c t i o n i nt h i s e x p e r i m e n t ,9 9 6c y t o p l a s m i c , e x t r a c e l l u l a r a n d p e r i p l a s m i os e q u e n c e s f i o m p r o k a r y o t ew e r et r a i n e da n dm o d e l e da c c o r d i n gt ot h ea b o v ea p p r o a c h e s , a n dt h e n w e r et e s t e du s i n gj a c k k n i f et e s t i n ga n d1 0 - f o l dg r o s sv a l i d a t i o nt e s t i n g t h e f o r e c a s t i n gr e s u l t si n d i c a t e dt h ep r e c i s i o nw e r e9 3 5 7 a n d9 3 ,4 7 r e s p e c t i v e l y c o m p a r i n gt ot h eh i g h e s tp r e c i s i o na sw ea l lk n o w n , t h ep r e d i c t i o np r e c i s i o nh a d i n c r e a s e dt oac e r t a i ne x t e n ty e t k e y w o r d s :m u l t i s c a l ec o m p o n e n ta n dc o r r e l a t i o n ;s u p p o r tv e c t o rm a c h i n e ;p a t t e r n r e c o g n i t i o n ;p r o t e i nt i l 肌n o 啦b i i i t y ;s u b c e l l u l a ri o c a l i z a t k m 1 1 i 独创性声明 本人声明所呈交的论文是我个人在指导老师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人己发表或撰写过的研究成果,也不包含为获得湖南农业大学或其它教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均己在论文中作了明确的说明并表示了谢意。 研究生签名:似瞄时间:叨年睡月j 日 关于论文使用授权的说明 本人完全了解湖南农业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩放或 扫描等复制手段保存、汇编学位论文。同意湖南农业大学可以用不同方式在不同 媒体上发表、传播学位论文的全部或部分内容。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名: 导师签名: 铖溺 晰 时问:唯,胡7 日 时间:矽一年p 月日 第一章绪论 引言 人类基因组计划为科学家提供了大量的有关生物分子的原始数据,需要利用 现代计算技术对这些原始数据进行收集、整理、管理以便于检索使用。与正以指 数方式增长的生物学数据相比,人类对于相关知识的增长却很缓慢。而为了理解 和解释这些数据,还需要对数据进行比对、分析,建立数学模型,进行仿真、预 测与验证。一方面是海量的数据;另一方面是人类在药物、医学、农业和环保等 方面对新知识的渴求,这些新知识或新理论将帮助人们改善其生存环境并提高生 活质量,可能又将是一次划时代的技术革命。 生物体的重要组成部分物质是蛋白质和核酸。d n a 是遗传信息的载体,但 是遗传信息的复制,转录、翻译和表达及其生物功能的发挥则要依靠各种蛋白质 才能完成,蛋白质在生物体的生命活动中起着重要作用。因此,蛋白质组学和基 因组学的研究已成为生物信息学的主要研究内容之一,关于蛋白质的热稳定性和 亚细胞定位问题是现今蛋白质组研究的热门问题之一。 1 蛋白质温热性识别 1 1 常温嗜热蛋白概念及特性 常温蛋白主要出现在高等生物体内,这些蛋白质由于只能在常温下保持活 性,在高温的情况下,其蛋白质结构将发生变化,逐渐失去活性,所以称这一类 蛋白质为常温蛋白;相反嗜热蛋白可以在高温中保持自身活性,这是由于嗜热蛋 白主要来源于嗜热微生物,它们诞生的时间非常早,绝大多数都是于地球形成之 初进化产生的,所以在高温、强紫外光等恶劣环境中可以生存。嗜热微生物是一 类生长温度跨度在4 0 1 5 0 之间的微生物,主要分布于地热环境( 海底温泉和 陆地温泉) 和其它高温环境( 如堆肥、厩肥、高温水处理厂) 。见报道的能产嗜 热蛋白的嗜热微生物中,以芽孢杆菌最多,此外,在古核菌中也有过报道。常温 蛋白作为生物大分子活性物质,其发挥生命功能的最适宜温度大部分都在常温 1 0 4 0 c 附近,温度太高或者太低情况下,其蛋白质分子结构会发生一系列的变 化,失去活性。大多数嗜热蛋白最适作用温度为6 0 8 0 g 之间,但也有少数例 外有的甚至超过1 0 0 c ,而且具有很好的p h 稳定性,在p h 5 o 1 2 0 范围内, 嗜热蛋白相当稳定。嗜热蛋白同时对有机溶帮、蛋白质变性剂的良好稳定性。获 得嗜热蛋白的主要途径是从高温菌中直接进行分离,但是嗜热菌特别是嗜热性古 核菌培养条件苛刻,培养过程中有有毒物质放出,而且生长缓慢,这些都限制了 对嗜热菌的利用。基因工程和蛋白质工程技术的发展为嗜热性古核菌的利用展现 了新的前景。通过基因工程技术把嗜热性古核菌中的耐热酶蛋白基因转入到中温 宿主中去,这样就能在温和的培养条件下获得具有耐热特征的重组子,然后再表 达1 1 2 1 。 1 2 蛋白质温热性研究背景 蛋白质的热稳定性一直是生物物理和生物技术领域研究的热点,这主要是由 于蛋白在高温下易失活,对其在某些极端条件下进行工业生产中的应用造成了困 难,成为拓展其应用领域瓶颈。因此如何提高酶蛋白的热稳定性一直是分子生物 学、生物工程学和化学工业等所关注的重要研究课题之一。尤其是这种热稳定性 能否在氨基酸水平上进行检测,尽管有研究f 1 拔现嗜热蛋白中某些氨基酸含量与 常温蛋白存在差异,但目前尚存异议,嗜热酶作为生物催化剂却有很多优势,因 而它成为相关研究的一个重点。 a 币l 麓蛐假说认为,蛋白质氮基酸序列决定了蛋白质的功能,嗜热蛋白和常 温蛋白会表现出两种不同的适温特性,可推测主要是由嗜热蛋白和常温蛋白一级 序列顺序差异造成。通过对嗜热蛋白和常温蛋白氨基酸序列的分析,特定氨基酸 序列中对热稳定性影响最关键的位点可以确定,随后确认相应的基因,最后可通 过基因工程,将相关基因转移到热稳定不强的酶内,酶的热稳定性大大提高,这 样对于提高工业化生产效率,降低生产成本有非常重要的意义1 3 1 。 华侨大学的张光亚等采用主成分分析、偏最小二乘回归和b p 神经网络三种 方法对嗜热和常温蛋白进行模式识别,对测试集进行预测平均正确率分别为 6 0 、7 2 5 和7 2 5 ,对嗜热蛋白预测正确率最高为7 5 ,常温蛋白最高为8 5 。 2 蛋白质亚细胞定位预测 2 1 蛋白质亚细胞定位定义和意义 2 蛋白质亚细胞定位是指定位不同蛋白质在细胞内的具体位置。生命的运动依 赖于各种不同功能的蛋白。然面对于个没有己知功能而结构同源性未知的新蛋 白质,要确定其功能是非常困难的问题,而知道这个蛋白质的亚细胞定位可以提 供这个蛋白质功能的重要线索。研究表明,蛋白质功能与其亚细胞的位置密切相 关,新合成的蛋白质必须处于合适的亚细胞位置才能行使其功能。随着蛋白质数 据库中新蛋白质序列的不断增多,为弄清楚新蛋白的功能,研究其亚细胞定位是 非常必要的,因此,寻找一种快速而准确的方法来预测蛋白质亚细胞定位成为人 们研究的热点问题。这些方法分为两大类:一种是实验的方法,分为电子显微镜 方法、细胞分级分离方法、萤光显微镜方法。但是这些实验具有主观性,还需要 大量时间,而且,随着蛋白质序列数据库飞速发展,许多新的蛋白质序列大量出 现。对于所有这些新出现的蛋白质,研究和探索其生物学功能信息的理论方法己 成为目前的生物信息学研究中的热点问题 4 1 。 2 2 亚细胞定位预测研究现状 人们已试图从不同的方面预测蛋白质的亚细胞定位,理论方法繁多,大多数 都是基于蛋白质一级结构信息预测其亚细胞定位。预测方法主要有两大类,类 是基于氨基酸组分,n a k a s h i m a - - n i s h i k a w a l 5 1 在1 9 9 4 年首先提出了用蛋白质的氨 基酸组分和残基对发生频率来区分细胞内和细胞外蛋白质,对细胞内蛋白预测成 功率为8 8 ,对细胞外蛋白预测成功率为8 4 ,该方法只对细胞内蛋白和细胞 外蛋白进行区分,对于细胞内的蛋白没有进行细分。内蒙古大学李风敏1 4 1 等基于 氨基酸组分对亚细胞定位进行预测,采用自恰性( s e l f - c o n s i s t e n c y ) 和“留一法” j a c k k n i f e 对4 类主要亚细胞即细胞夕b ( e x t r a e e l d ,细胞质( c y t o p l a s m ) ,细胞核 ( n u e l e u s ) 和细胞膜( p l a s m am e m b r a n e ) 共1 8 2 4 个进行理论定位预测,两种预测方 法预测精度依次为7 9 1 、7 8 7 。e m a n u e l s s o n ,n i e l s e n l 6 1 提出基于氨基酸序 列的n 末端预测蛋白质亚细胞定位的神经网络方法,对4 类植物蛋白( c 1 p m t p , s p a n do t h e r ) ,进行预测,成功率为8 5 3 ,对3 类非植物蛋f a ( m t p , s p a n do t h e r ) 进行 预测,成功率为9 0 * , 4 。该方法的缺点就是过分依赖于n 末端信号,然而,使用现 有识别方法确定前导序列又往往发生错读现象,这样就导致该方法进行亚细胞定 位预测的不准确性,造成该方法推广能力不强。1 9 9 9 年c h o u 1 2 1 等根据蛋白质 的亚细胞位置,进一步将蛋白质细分为1 2 类,基于蛋白质的亚细胞定位与氨基 酸组分的相关性,利用预测蛋白质结构类的m a h a l z m o b i s 距离方法,预测了1 2 类蛋白质亚细胞定位,用s e l f - c o n s i s t e n c y 检验和i a c k k n i f e 检验的预测成功率分 别为7 9 9 和6 8 4 ,这两种检验造成预测结果相差这么明显,表明该方法较强 依赖于数据集。2 0 0 1 年清华大学孙军华l 】3 】用支持向量机( s u p p o nv e c l ;o fm a c h i n e , s v m ) 方法,采用r e i n h a r d ta n dh u b b a r d 数据库集合对3 类原核生物( c 、f l o p l a s m i c , p r i p l a s m i ca n de x t r a c e l l u l a t ) 获得了较高的预测成功率9 1 4 。另外一类方法是基 于氨基酸残基的前后关联,2 0 0 2 年r a j e s h n a i r 掣1 4 1 用a u t o m a t e dl e x i e a l ( 自动语 句) 预测亚细胞定位,预测的平均成功率为8 4 。 从以上方法对比可以看出在亚细胞定位预测中特征提取主要是基于氨基酸 组分,而分类方法中s v m 预测效果最好。 3 支持向量机原理 3 1 概况 支持向量机是基于统计学习理论的通用机器学习方法,由c o r t e s & v a p n i k l l ,1 于1 9 9 5 年首先提出来,是近年来机器学习研究的一项重大成果。根据v a p n i k & c h e r v o n e n k i s 的统计学习理论,如果数据服从某个( 固定但未知的) 分布,要使 机器的实际输出与理想输出之间的偏差尽可能小,则机器应当遵循结构风险最小 化原则,而不是经验风险最小化原则,通俗地说就是应当使错误概率的上界最小 化。s v m 正是这一理论的具体实现,把线性不可分的训练数据集非线性地映射 鹞一个高维特征空同( h i l b e f t 空间) ,以使其在该空间中线性可分。根据结构风 险最小化原则,在特征空间构造最优分类面( o p t i m a lh y p e r p l a n e ) ,使得对未知 样本的分类误差最小。 模式分类是模式识别中的一项重要内容,分类也是人们认识一切事物的基 础,许多优秀的学习算法都是以分类为基础发展起来的,如神经网络、支持向量 机等。目前,用于模式分类的方法很多,传统的方法有b a y e s 方法1 1 6 9 1 、距离判 别、f i s h e r 判别、缸近邻分类以及分段线性分类等,现代的方法如模糊分类、粗 糙分类、神经网络分类等,以及刚刚兴起的支持向量机分类方法。 回归分析发展和完善的根本动力在于其在生产实践中的广泛应用。从高斯提 出的最小二乘法算起,回归分析的历史己有1 9 0 多年。从经典的回归分析方法 到近代的回归分析方法,它们所研究的内容己非常丰富。基于最小二乘法的模型 4 回归方法由于简单且模型具有很好的解释性,在实际中被广泛采用。随着应用的 不断深入,人们发现经典的最小二乘估计结果并不总是令人满意的,于是人们从 多方面进行努力试图克服经典方法的不足,从而产生了岭估计、压缩估计、主成 分估计、s t e i n 估计,以及特征根估计、偏最小二乘法等多种有偏估计。另外, 为了克服最小二乘法估计对异常值的敏感性,人们提出了各种稳健回归方法;为 了分析和处理高维数据,产生了投影寻踪回归、切片回归等:为了解决非线性问 题,人们还提出了许多非线性回归模型。 虽然分类与回归具有许多不同的研究内容,但它们之间却有许多相同之处, 简单地说,它们都是研究输入输出变量之间的关系问题,分类的输出是离散的类 别值,而回归的输出是连续的数值。有很多学习方法既可以用于分类又可以用于 回归中,除支持向量机外,还有贝叶斯方法、神经网络 2 0 - 2 3 等。 3 2 统计学习理论 统计学习理论就是研究小样本统计估计和预测的理论,其最有指导性的理论 结果是推广性的界,与此相关的一个核心概念是v c 维。 3 2 1 最优分类面 s v m 是从线性可分情况下的最优分类面发展而来的,基本思想可用图1 的两 维情况说明。图l 中,实心点和空心点代表两类样本,日为分类线,1 t 1 ,h 2 分别 为过各类中离分类线最近的样本且平行子分类线的直线,它们之间的距离叫做分 类回隰( m a r 画n ) 所谓最优分类线旋是要求分类线不但能将两类正确分开( 训练 错误率为o ) ,而且使分类间隔最大。分类线方程为t w + 6 = 0 ,可以对它进行归一 化。使得对线性可分的样本集( 砖) f = 1 , - - - , 髓x 足y + l ,一1 ,满足 f ( w 矗) + 6 卜1 o , i = l ,靠 此时分类间隔等于2 州w 使间隔最大等价于使l l w 0 2 最小。满足条件且使 1 ,2 1 1 w n 2 最小的分类面就叫做最优分类面,h i ,日2 上的训练样本点就称作支持 向量l 肄瑚。 使分类间隔最大实际就是对推广能力的控制,这就是支持向量机的核心思想。 统计学习理论指出1 2 ”。j ,在维空间中,设样本分布在一个半径为冗的超球范围 内,则满足条件p l 爿的正则超平面构成的指示函数集 图1 线性可分情况下的最优分类线 f i g u r e l t h eo p t i m a ll i n eo f l i n e a r i t yd i v i d e ds i t u a t i o n j r “职= s 鲫“ 刁+ 6 ( 蹭n ( ) 为符号函数) 的v c 维满足下面的界: h 0 是一个常数,它控制对错分样本惩罚的 程度。广义最优分类面的对偶问题与线性可分情况下差不多完全相同,只是条件 变为 0 仉c ,汪l ,拧 3 2 2 结构风险 v a p n i k l 3 1 1 提出了一种所谓结构风险最小化策略,通过选择合适的v c 维使 r 。呻和m 同时最小化。首先将函数集s = 八峨v q ) 分解为如下函数子集结 构: s l c s 2 c s k s 对应的v c 维有如下关系 i i l 玉h 2s 以 结构风险最小化策略具有严格的数学基础,但确难以直接应用,首先,函数 集墨的v c 维很难计算;其次,关于函数子集的划分,实际操作比较困难,支持向 量机是一种既体现结构风险最小化原贝l i ,又切实可行的算法,s v m 算法同时最小 化v c 维的上界和经验风险0 4 - y 7 。i 。 图2 有序风险最小化示意图 f i g u r e2t h em i n i m u mr i s k i n go r d e r 7 3 2 3 复杂性与推广能力 e r m 【3 9 1 准则不成功的一个例子是神经网络的过学习问题。开始,很多注意 力都集中在如何使r e m p ( w ) m 枷1 更小,但很快就发现,训练误差小并不总能导致 好的预测效果。某些情况下,训练误差过小反两会导致推广能力的下降,即真实风 险的增加,这就是过学习问题。之所以出现过学习现象,一是因为样本不充分,二 是学习机器设计不合理,这两个问题是互相关联的。设想一个简单的例子,假设有 一组实数样本 力,y 取值在 0 ,1 之间,那么不论样本是依据什么模型产生的, 只要用函数幢a ) = s i n ( 4 x ) 去拟合它们,总能够找到一个a 使训练误差为零,但 显然得到的“最优”函数并不能正确代表f 杯4 8 】。 真实的函数模型。究其原因,是试图用一个十分复杂的模型去拟合有限的样 本,导致丧失了推广能力。在神经网络中,若对有限的样本来说网络学习能力过强 足以记住每个样本,此时经验风险很快就可以收敛到很小甚至零,但却根本无法保 证它对未来样本能给出好的预测。学习机器的复杂性与推广性之间的这种矛盾同 样可以在其它学习方法中看到。文献给出了一个实验例子,在有噪声条件下用模 型y c ,产生1 0 个样本,分别用一个一次函数和一个二次函数根据e r m 原则去拟 合,结果显示,虽然真实模型是二次,但由于样本数有限且受噪声的影响,用一次函 数预测的结果更好。同样的实验进行了1 0 0 次,7 1 的结果是一次拟合好于二次拟 合。由此可看出,有限样本情况下,1 ) 经验风险最小并不一定意味着期望风险最小,2 ) 学习机器的复杂性不但应与所研究的系统有关,而且要和有限数目的样本相适 应。需要一种能够指导在小样本情况下建立有效的学习和推广方法的理论【4 9 棚1 。 3 2 - 4v c 维理论 为了研究学习过程一致收敛的速度和推广性,统计学习理论定义了一系列有 关函数集学习性能的指标,其中最重要的是v a p n i k 和c h e r v o n e n k i s 提出的v c 维( v a p n i kc h e r v o n e n k i sd i m e n s i o n ,就是取v a p n i k 和c h e r v o n e n k i s 名字的 首字而成) 。v c 维是统计学习理论中的一个核心概念,它是目前为止,对函数 集学习性能最好的描述指标。分类方法中v c 维的直观定义是:对一个指示函数 集,如果存在h 个样本能够被函数集中的函数按所有可能的2 “种形式分开,则 称函数集能够把h 个样本打散;函数集的v c 维就是它能打散的最大样本数目 h 。如果对于任意的样本数,总能找到一个样本集能够被这个函数集打散,则函 数集的v c 维就是无穷大。应当指出,这里是存在h 个样本的样本集能够被函 数集打散,不是指任意2 个样本的样本集能够被函数集打散有界实函数的v c 维可以通过用一定的阀值将它转化成指示函数来定义。v c 维反映了函数集的学 习能力,v c 维越大则学习机器越复杂( 容量越大) ,同时v c 维( 而不是其自由 参数个数) 影响了学习机器的推广性能,这给克服所谓的。维数灾难”创造了一 个很好的机会:以一个包含很多参数但却有较小的v c 维的函数集为基础实现较 好的推广性。遗憾的是,目前尚没有通用的关于任意函数集v c 维计算的理论, 只对一些特殊的函数集知道其v c 维。比如在v c 维实数空问中线性分类器和线 性实函数的v c 维是时l 。对于一些比较复杂的学习机器( 如神经网络) ,其v c 维除了与函数集( 神经网络结构) 有关外,还受学习算法等的影响,其确定更加 困难。对于给定的学习函数集,如何( 用理论或实验的方法) 计算其v c 维是当 前统计学习理论中有待研究的一个问题。 3 2 5 核函数 s 、,l 嚏中不同的内积核函数将形成不同的算法,目前研究最多的核函数主要 有三类,一是多项式核函数。所得到的是q 阶多项式分类器: g ( x ,列) = 【( x l x ) + l r ( 1 - 5 ) 二是径向基函数( r b f ) : 川x , - 掣l q 删 所得分类器与传统砌;f 方法的重要区别是,这里每个基函数中心对应一个支 持向量,它们及输出权值都是由算法自动确定的。也可以采用s i g m o i d 函数作为内 积【跏,即 置( 墨】a ) :t a n h ( v ( x 耐) ) + c ) ( 1 7 ) 这时s v m 实现的就是包含一个隐层的多层感知器,隐层节点数是由算法自动 确定的,而且算法不存在困扰神经网络方法的局部极小点问题。因此,对解决具 体问题来说,选择合适的核函数是很重要的。 3 3 支持向量机分类 3 3 ,1 线性可分情况 s v m 方法是从线性可分情况下的最优分类面( o p t i m a l h y p e r p l a n e ) 提出的。 9 所谓最优分类面就是要求分类线不但能将两类样本无错误的分开,而且要使两类 之间的距离最大。 设线性可分样本集为( 薯+ 乃) ,f = l ,2 ,行,x ,y 一l ,+ 1 ) 是类别标 号d 维空问中线性判别函数的一般形式为: g ( = w x + b( 1 - 8 ) 分类面方程为t w x + b = 0 ( 1 9 ) 将判别函数进行归一化,使两类所有样本都满足i g ( d i 1 ,即使离分类面最 近的样本的i g ( x ) 1 ,这样分类间隔就等于2 | 1 w l l ,因此间隔最大等价于使u w i i ( 或w1 1 2 ) 最小;两要求分类线对所有样本正确分类。就是要求其满足: 乃h 一+ 6 卜1 2o o = 1 ,2 ,) ( 1 一l o ) 因此,满足上述条件且使l l w l l 2 最小的分类面就是最优分类面。这两类样本 中离分类面最近的点且平行于最优分类面的超平面上的训练样本就是使式( 1 1 0 ) 中等号成立的那些样本,他们叫做支持向量( s u p p o r t v e c t o r s ) 。根据上面的讨论, 最优分类面问题可以表示成如下的约束优化闯题,即在式( 1 一z o ) 的约束下,求函 数: 西) = 扣w | 1 2 = 五1 ( w 州) ( 1 1 1 ) 的最令值。这是一个= 次规射闻羼,可定义以下的拉格朗日函数: 三以力= 妄w ) 一q 以【w 薯+ h i - 1 ) ( 1 1 2 ) 其中:珥 0 为l a g r a n g e 系数。求式( 1 - 1 1 ) 的极小值就是对w 和b 求拉氏函 数的极小值。求l 对w 和b 的偏微分,并令其等于0 ,可转化为对偶问题: 在约束条件嘲= d q2o f = l ,2 ,栉下对于q 求式( 1 一1 3 ) 的最大值: 矿o ) = q 一妻q q 咒乃( 耳) h1 i = l二i = lj = l 由k t l h n t u c k e r 定理【4 2 】可知,最优解满足: 儿( w x + 6 ) 一l = o v f ( 1 1 3 ) ( 1 - 1 4 ) 显然,只有支持向量的系数q 不为0 ,即只有支持向量影响最终的划分结果。 于是w 可表示为: w - - q 咒 ( 1 1 5 ) 即最优分类面的权系数向量是训练样本向量的线性组合。若q 为最优解, 求解上述问题后得到的最优分类函数是: ,( 曲= s g n 一功+ 矿) = s g n 窆。池( 坼力+ 矿l ( 1 - 1 6 ) lj = 1j 其中:s g n 0 为符号函数,矿是分类的阈值,可以由任意一个支持向量用式 ( 2 1 1 ) 求得,或通过两类中任意一对支持向量取中值求得。对于给定的未知样本 r ,只需计算s g n ( w x + b ) ,即可判定r 所属的分类。 3 3 2 线性不可分情况 对于线性不可分的样本,毋望使被误分类的点数目最小,为此在式( 1 - 1 0 ) 中 引入松弛变量毒0 ,即: 只【( w 薯) + 6 卜l + 点o f = 1 ,2 , - - 捍 ( 1 一1 7 ) 在式( 1 1 7 ) 中,对于给定的常数c ,求出使 西呲) = 秒1 + c 倭争 ( 1 - 1 8 ) 取极小值的w ,b 这一优化阅题同样需要变换为用拉格朗日乘子表示的对 偶问题,交换的过程与前面线性可分样本的对偶闯题类似,结果也几乎完全相同, 只是约束条件略有变化: q 儿= o ,o q c ,i _ l ,2 ,n ( 1 - 1 9 ) 其中:c 反映了在复杂性和不可分样本所占比例之间的折中。 3 3 3 非线性分类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子商务专员合同
- 2025年物联网智能传感器在智慧家庭健康监测设备中的应用研究报告
- 高级专业技术职务聘任合同5篇
- 农村无证房屋买卖合同6篇
- 2025年农业物联网精准种植技术投资分析报告
- 2025年实体书店如何借助大数据实现精准营销的转型策略报告
- 2025年汽车共享平台运营成本优化与用户价值增长策略研究分析报告
- 2025二手房屋买卖合同范本「下载」
- 2025河畔土地租赁投资合同样本
- 2025市区县级无人机航拍服务合同协议书范本
- 当代中国外交(外交学院)知到智慧树章节测试课后答案2024年秋外交学院
- 舆情监测平台解决方案
- 初中地理七年级第二学期期末试卷及答案-沪教版-2024-2025学年
- 防汛抢险人员安全培训
- 《香菱形象分析》课件
- 风电螺栓更换施工方案
- 含两级混合运算(同步练习) 二年级下册数学人教版
- 2024年彩钢房钢构出售合同范本
- 声光电采购合同范例
- 2024年七月医疗器械质量管理制度
- 檩条施工方案
评论
0/150
提交评论