




已阅读5页,还剩63页未读, 继续免费阅读
(生物医学工程专业论文)基于多生理信息融合的医疗诊断建模方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西北工业大学硕士学位论文a b s t r a c t a b s t r a c t h u m a nb o d yi sac o m p l e xo r g a n i cc o m b i n a t i o n e v e r yo r g a n i z a t i o nw o r k sw i t h e a c ho t h e r o n l yo n ek i n do ft h ep h y s i o l o g i c a li n f o r m a t i o nc a n tr e f l e c th u m a n sb o d y i sh e a l t h yo rn o t i n v e s t i g a t i n gs o m ek i n d so fi n f o r m a t i o nc a ng e ta ne x a c ta n dt i m e l y d i a g n o s i s w h e nt h ed o c t o ra n a l y z e ss o m ec o r r e l a t i v ek i n d so fi n f o r m a t i o nu s i n gh i s e x p e r i e n c e ,i ti sh a r dt oa v o i ds u b j e c t i v i t y b u tb u i l d i n gam e d i c a lm o d e l i n gb a s e do n m u l t i p l i c a t i v ep h y s i o l o g i c a li n f o r m a t i o nf u s i n gc a l lh e l pt h ed o c t o rm a k e am o r e a c c u r a t ed i a g n o s i s t h i st h e s i ss t u d i e st h em o l d i n gm e t h o d sf o rm u l t i p l i c a t i v ep h y s i o l o g i c a l i n f o r m a t i o nf u s i n g ,a n di n t r o d u c e ss o m em e t h o d s t h e o r i e sa n dt h e i ra p p l i c a t i o n s ,s u c h a s b a y e s i a nm e t h o d ,b pn e u r a l n e t w o r ka n ds u p p o r tv e c t o rm a c h i n e ( s v m ) c o n s i d e r i n gt h em u l t i d i m e n s i o n a l a n dn o n l i n e a rc h a r a c t e r i s t i co fp h y s i o l o g i c a l i n f o r m a t i o nf u s i n g ,t h et h e s i su s es v mf o rb u i l d i n gm e d i c a lm o d e l i n g t h i sp a p e r s t u d i e ss v ma n di t st h e o r yb a s i c - - s t a t i s t i c a ll e a r n i n gt h e o r y a n dd e t a i l e dr e s e a r c h e s t h r e em e t h o d sf o rs o l v i n gs v m :c h u n k i n gm e t h o d ,d e c o m p o s i n gm e t h o da n d s e q u e n t i a lm i n i m a lo p t i m i z a t i o n ( s m o ) m e t h o d f r o mt h eg e o m e t r i c a lt h e o r y o f s v m ,t h i st h e s i sa d v a n c e dan e wm e t h o dt h a tb a s e so ns m o t h ee x p e r i m e n tp r o v e d t h i sm e t h o dt ob ec o r r e c t t h i st h e s i si n t r o d u c e sa n da n a l y z e sf o u rk i n d so fp h y s i o l o g i c a li n f o r m a t i o nf o r f u s i n g :e l e c t r o c a r d i o g r a m ( e c c ) ,b l o o dp r e s s u r e ,o x y g e ni nt h eb l o o da n dp u l s e t h e t h e s i ss t u d i e st h em e t h o df o rc h o o s i n gc h a r a c t e r s ,a n da d v a n c e dan e wm e t h o d t h e o r e t i c a l l y t h et h e s i sb u i l d sa c o m p u t e r - b a s e d m e d i c a lm o d e l i n g s u c c e s s f u l l y f o r d i a g n o s i n gh e a r td i s e a s ew i t hc + + l a n g u a g e u s i n gt h ed a t af r o mc l e v e l a n dc l i n i c f o u n d a t i o n k e yw o r d s :i n f o r m a t i o nf u s i n g ,s v m ,s p e c i a la r i t h m e t i c ,m e d i c a lm o d e l i n g l i 礴北工韭夫学硕士学饨论文 第一耄绪论 第一章绪论 1 。1 问题的提出与解决思路 先从常识说起,我们都会有这样的经历,当感到身体不舒服时,就会去看医 生。医生强详缨询问我们豹情况爨,会到 蜒一长窜静条爨,然詹郑藿其实逡告诉 我们:去梭查这些指标,梭查完后再来找我。我们历尽辛苦终于究成医生交给我 f 的任务,将厚瘁翡一沓梭查结莱邀到医生面蔚。医生会仔细遗端详这然检测结 果,然后会微笑地告诉我们:没什么大碍。不用担心;或者紧皱j 弱头:情况有些 严重,缓健院进一步诊疗。 这里我们有“f n 疑问:第一,看一个病为什么要检盔那么多的生理指标,有 时这些撵标看似秘我们盼病症风舄牛不楗及? 第二,医生杰看了这么多的生理指 标后,为什么就能下诊断结论? 第三,我们不应该讳疾恿医,但怒,医生的诊断 不可避免地带有蔓理性甚至情绪性,有没蠢一种方法,可是使我 f 更有理盎来擐 倍我们医生的诊断呢? 人体是一个复杂的有机体,锫个器官组织相互作用、槌互协调。人体发生某 种器质性病变时,单一的生理指标有时不足以反映人体的健康状况。困此我们需 爱捡测与此疾病糨关的多个生理指标,综合考虑这些指标可以更加全面、及时、 准确地对我们的身体健康状况傲甜判断 1 j 1 2 】。至予,我们会感到医生让我们检测 的指标和我们的痰病没有什么关系,多数情况是因为我们对生理知识的缺乏【3 j 。 医生将这些生理指标融合考虑,并缩台他对我们豹观察询问,根据临床经验 和理论纂础做出诊断。也就是说,医生根据这些生理信息能做出诊断的原因是因 为他的耨床经验以及医学理论知谈。在这显临床经验至关重要,所| ;三l ,我们都受 相信老医生、老专家。 同时医生的诊断是带有主观性的,并且诊断结果和他 f = l 的临床经验和理论知 识密切相关。对于同一个病人,不同的医生有可能会得出截然相反的诊断结果; 溺一个滋生当她予不同的精神状态对,氇弭能对缝予同一状态的阋一个病人傲爨 不同的诊断。即使具有较高医疗水平和职业操守的医生,也可能因为自身主观、 情绪等溅因对人体靛链廉状况徽拣误判、错判。我们不疲该对医生求全责备,毽 怒,能褥准确诊断疾病确实是一件生死攸关的大鬻。所阻,如果我们建立一个医 疗诊甄禳墅,这霉孛模型瞧像人弦 一样( 但是,毫无疑阚不会带鸯情绪性) 可以对 埘熊工业犬学礤学位论文第一章鳞论 任俺一组生溅信息徽出融台分析,判断馥缒褒理信息的载体熬键康状况,这撵就 ;虿霞絮勘菠熏壤出翌丽符台客硗实鼯鑫芎诊鞭。当模型的诊断j 栅医生韵诊断相符台 时,我们则艇有理由相信医生的诊断鲍正确性:当模型的诊艇秘黩生的诊龄界枢 簿酵,赣会撬醒医生是不是自己鲍渗敷奄了闽题,臆而散遴步竣巍,丽不避那 么块藏下渗凝结论。 珂凳,我们 # 鬻霄必要建立这耱可殴麓台努耩多耱生滢倍惫瀚诊断模型。 这种模型可以模仿人脑的思维方式对一组生理信息数据做出融合分板,并投 骣分橱绍聚对载谤儆嬲髓廉状况的治凝。掰戳这专渗辑模型豹翔凝缝力不瑟淹跫 “先天性”纳,它必缬像人脑一样建立在攀淘或实践的基础上。没有学习或赣实 践壤浸裔粼睽的镀掇,懋翦不可憩做出派确的、令人信服的剡躲。所以,蜜舔土 建立一个可融合分析多生理信息的渗断横型是一个机器学习问题,机器学习的基 本模型强下阁1 1 掰示: 强l ,1 枫嚣学习鲍萋零摸整猢 由囤1 1 珂知,瀚 x ( 在本艟襄中是穰禽曲壤、盘莲、甄氧和辣搀等多辩 生理信息) 和输出y ( 在本研究中涎人体的健康状况) 有莱种必然的内在联系。 蔼途穗内在联系楚隶憝黪,褥要我粕遁这巢静学嚣辣法采攥示。警然越能糖稽建 反陕或摇示这种内在联系韵学习机撬遣能准确地谶行有效黼渗断。由于输入x 是 多缝的,藤实际的埝嫩y 怒x 各个特馥共圆馋鼹 的嫱果。遮一方两勰决了单个 生骥绩愚嚣法反映岁奥实状况豹阏惩;穗楚,努方蕊也为我_ | ;阿昀对其进行箭 瓠遮成了一定豹蠢难。缀多 毒瑟下,裁稻必颓考虑各个特征对输出产生的影确, 圊此箕内在联系不避翻了然的。我们如何来建立这个模型? 域者说我们豹学习 :l 二懿是什么? 很多圜内外学者和磺究人员对逮。润鼹作了深入的磺究和探讨。我 们研鞋选择豹方法徽多,抛翔:b a y e s 戴戮蘧,耪经霹终数及支持韵量瓤。夔 麝零文辑甜遮些工鼹瓣鹿用方法、优缺点避行搽讨,并着羹研究了支持向赞枧鲻 于穗立诊黼榄型溺蕊。 西北工业大学硕士学位论文第一章绪论 1 。2 本研究的意义及研究现状 人体是一个复杂的有机体,各个组织之间怒相互协调工作的。在疾病检测 中,单一的生理信息不足以反映人 本的毽康获况。对相关瓣多个生理谙患攒标遘 行融合分析可以对疾病做出及时、准确的诊断。医生综台这些检测的生理数据, 报据自己的经验、知觉耪觅解等对人体豹毽康状况傲出巢耱诊断。显然,这丰孛诊 断不可避免地带有主观性,对同一个人,有时不同的医生甚至会做出截然相反的 判别。藤将多种生理信患融合分褥建立铮辩莱一痰癍静诊凝模壁,珥良帮助医生 做出更加符合客观实际的诊断,可以提高诊断的及时性和准确性,这对于疾病的 治疗有掇其重要的作用。诊断模型的蛙憩努坏不仅仅有赖予选取豹生理样本信 息,而且和用于建立模型的融合方法有很大关系。因此研究和探索融合算法对提 藏诊断模型黥性8 有着十分重要的意义。 建立一种可融合分析多种生理信息的医疗诊断模型以便帮助医生对人体的 链瘫状凝馓出更加金瑟、准确、及时的诊凝有着十分重要的现实慧义,所以,国 内外对这一领域的研究正方兴未艾、如火如荼。相关领域的专家和学者对此做了 大量的、枣有成效豹硬究。诸如b a y e s 判别法,神经隧终以及支持向爨撬等许 多数学和统计学方法被用泉建立多生理信息融合诊断模裂,并取得了较高的诊断 性能【5 _ l o l 。 1 。3 本论文的主要研究内容 本论文研究了用于建立多生理信息诊断模型的方法,熟主要内容如下: ( 1 ) 篱要食绍了傣息融合概念、原理及襞惫融舍静b a y e s 裁剐法和章串 经网络方法的原理、应用以及它们用来建立多生理信息融合诊断模型的局限 往: ( 2 ) 介绍了支持向量机原理和其理论基础统计学习理论:探讨了分 类目题;荠深入辑究了支持商壁枫的专弼求瓣箨法,搓爨了一葺孛基予浮列最小 最优化的改进算法并加以验证: ( 3 ) 磅究了所震簧融合分析的翻静生理绩怠帮特征提取方法,提滠了一 种用于特征提取的十字交叉法。 西北上太攀砸士学位论文 第= 章信息融合撬术 第二章信憨融合技术 窆。 信息融台魏凝念秘原理 信息融合【1 1 l i t 2 l ( i n f o r m a t i o nf u s i o n ) 一- 9 出现在2 0 世纪2 0 年代,并予8 0 年代菠鼹为一门专门技术。它是夫类模彷蠡赛德惑姥理链力鹣缝蘩。a 类铡嬲嚣 官所具有的听觉、视觉、味落、触激功能,褥辨都擞界的攀镑变戒燮物电僖罨送 劐麦赫避褥踩合憋壤,大髓校据宠验知识遴抒势瓠、估诗秘捺理,理解、判鞭、 推测外部事物。人类对复杂事物的潍台认识、判断和处理过程具有自适应性,但 是人类恕蛰种信息和数据转按成对环囊憋鸯赞箧礁臻惩释,零彼需要大量静、萃 黼韵高智能他处理,而凰需要足够丰富的遗靥予解释组合信息的龆 :i 库,及先验 秘识。龙验知识越丰富,综会处理傣感舱力越强。多源情感的炼台分析、剡断、 决策是夫的嫠本功能,入炎感知乡 部事耱,综台推理、判断怒为了照准确、熨可 靠瓣了薅终帮整赛。与她稽翳,数攥融裔豹鳃浆是通过多个或多孝 数摆组奢褥不 是任何个剐元素,襁静出更多韵信息,得到箍佳协间作用的结梁,进而做出准确、 可黪的判断稠结谂。 壤恿融合接术魏协图嗣躅多元瞎息,睡获褥辩溺一事物或隧檬豹更骞鼹、更 术震认戳的信息综台簸理技术它翻:蕊接敲各信怠源得到酌信惠更麓涪、更少冗 余、更有用选。 揍惑融食是人爨戏者蔟它逻辑累娩中常见的基本功能。人非常照然地运用这 一麓力恕寒强夫体箨个传爨器( 蔽、耳、舅、酒胺嚣) 的藩息( 最物、声营、气 噱、触觉等) 组合起来,并运用先验知识去估计、理解周圈盼瑚= 境和正在发生的 攀粹。蠢于入类感密鼹誉不霜的鏖爨特征,因丽硪测遂不同蹙润蕊隧内的备辑物 瑾现蛰,这一过程怒复杂懿邀是蠢遥盛魏。把荐种穰息或者数据( 翔象、声音、 气臻敷爱辫疆形状鞠土下文) 转换戚辩环缓有徐德漪解释,鬻葵大餐不弱静智能 处蠼,以及通用于解释组合信息含义的知泌库。 在模仿入脑综台髓理复杂闯题静鼗纛融裔系绕中,骜传黪器翁铸怠霹熬翼畜 不同的特征,它们可能是相互支持藏互补,也t 玎能烧辐互矛艨和竞争。丽信息融 蠹黼蓥率瀑理瀣就怒潆a 灏综合髓疆绩息一样,充分秘用多佟感器f l 冬资源,通过 这黪传瞎器及其观测惰恳的合理支配和使用,把来自多个传撼器上的信息依据柴 秘箍嬲囊避行缀合,瞄获嚣被涮对象翁一舔德黪簿藏瓣述。德感融翕煞基搴鞫标 两北工业大学硕士学位论文第二章信息融合技术 是通过信息组合而不是出现在输入信息中任何个别的元素,推导出更多的信息, 这是最佳协同作用的结果,即利用多个传感器共同或联合操作的优势,提高传感 器系统的有效性。 2 2 信息融合的关键问题与系统结构 由于各个生理传感器输出的数据形式、对人体的描述和说明等都不一样,信 息融合为了综合处理这些不同来源的信息,首先必须把这些数据格式转换为相同 的形式、相同的描述和说明之后,才能进行相关处理。信息转换不仅要转换不同 层次之间的信息,而且同样需要转换对身体信息描述或说明不同之处和相似之处 ( 目标和环境的先验知识也很难提取) 。即使是同一层次的生理信息,也存在不 同的描述或说明。另外,坐标的转换是非线性的,其中误差的传播直接影响数据 的质量和时空校准:传感器信息异步获取时,若时域校准不好,将直接影响融合 处理质量。总的来说,信息融合包括如下关键技术【“】:1 数据相关技术,2 态势 数据库,3 融合推理。 对具体的融合系统而言,它所接收到的信息可以是单一层次上的信息,也可 以是多种层次上的信息。融合的基本策略就是先对同一层次上的信息进行融合, 从而获得更高层次的融合后的信息,然后再汇入相应的信息融合层次。因此总的 来说,信息融合本质上是一个由低层至顶层的多元信息进行整合,逐层抽象的信 息处理过程l l “。 2 3 信息融合的方法 2 3 1b a y e s 分类器及其应用 b a y e s 判别假定对所研究的对象在抽样前已有了一定的认识,用先验分布来 描述这种认识,然后基于抽取的样本再对先验认识做修改,得到后验分布,而各 种统计推断均是基于后验分布进行的l l ”。 设有k 个总体g ,g 2 g 。,f 是总体g ,的概率密度,p = p ( c ,) 为各个总 体出现的先验概率。 设空间尺,的一个划分为r = 职。,r 2 r 。) ,则r 代表一个判别准则。 令在判别准则r 下,将来自g 。的样品误判为g ,的概率为: 耨北_ :业大学硕士譬恒娩文 第二罐信息融合技术 琰歹,岛鼬;肱趣( 2 3 。1 ) 笺 将来岛g 鲍样晶谈澍为g ,的损失记为e j ,| j 。柬虐臻憋个侮披误判骢平均 攘麦e c m ( e x p e c t e d c o s t o f m i s c l a s s i f i c a f i o n ) 为: t e c m 隈) 一p ( i ) c ( j 0( 2 3 + 2 ) j _ f 手是惑辩警鹭援失为: i e c m ( r te 站- 点) az p 。葚p ( i o c ( y o( 2 鄹3 ) ” 锾 b a y e s 判别规则就怒要求区域岛,避。最使得e c m ( 璃,毪。如) 最小。 b a y e s 凌繁援爨扶臻谂上解决了模式识鬻阚题,冤要裔邂够瀚统计知识,就 能设计出个在b a y e s 风险极小意义上的蠼优模武分类器。因此利用b a y e s 决策趣戴索建立分类横囊奁医疗诊颠上巴缀广泛成爆。鲍敏嚣联合检测血浆中麴 p 2 1 、p 5 3 及h s p 7 0 蚤爨鹱建立b a y e s 判别攮型对肺癌进行诊断,冀敏感链鞠准 确枣分割霹达7 3 3 3 鞠8 1 。6 7 蝴。 然而当我们试图用这b a y e s 理论来解决实际问趣时,就会砸临个更复杂也 燮缀难静海恶,邵攥攥鸯鞭鼢鼹溅数攥嵇谤橇宰密度函数。鬻爱惩诗是统话誉中 的个全能问题,估计密澄一般说来是一令币逶定网遂,器鬻大量的魏测才箍缀 姆的解决。从统计攀的观点,龆道了密度裁可 薹解决饪何阀憨,密度 古诗鞍潮期 决壤烈则健计是一个鼹一般的问题。逸就造反了剥用有限数量信息解决问题的一 矮基零鞭刘:在蕊簿一个鬻遂龄过程中不应怒解疆辫一个踅一般牲盼溽题j 蕈为其 中的,个步骤。还有b a y e s 理论只髓使用予线性可分的情况,对于线性不可分情 况嚣能为力。最盛b a y e s 爨剐模型楚建立在经验磁羧最套徽的鏊秣主_ 的,经验风 陵蓑小不定实瓣斑除也最小,黢锈tb a y e s 决策酾推广能力。 2 ,8 。2b p 神经网络疑其应用 1 9 5 7 年r s e n b l a a 穗出了感翔枫( p e r c e p t r o n ) ,蓄毙觚工程角度密发,磷 竞。引霹予储息处理酌神经网络模型。感知枫通过采用监督学习逐步燃强模式划分 麓为,柬澎磷翔剐飙刘。从丽避免了求解诸如概率分布等一般僚的阅题,戳此在 判潮分机中得到了广泛的重视。但撼感螺机只透爆予线性可分的情况,并b 只能 将输入分蕊丽类。尽管霹班通道在输入翻输惑屡绷龆上一薅蠛多懑翁糟经元隐 硬j e 工业大学硕士学位论文 第二章信息融合技术 层神经元) 来解决些非线性可分问题,但是多层网络的权值如何确定,即网络 如何进行学习,在感知税上没有得到解决。 1 9 8 6 年r u m c l h a r t 等提出了b p ( e o rb a c kp r o p a g a t i o n ) 算法 埔1 ,系统地解决 了多屡享串经网络中隐单元朦连接叛的学习闯题,著在数学上给出了完整鹃掺导。 和感知机不同,b p 神经网络的每一层连接权值都是可以通过学习调节的,并且 荬纂本酌楚理单元为菲线搜的输入。输出关系,因j 琏:b p 算法可以缀好黉鱼解决嚣线 性可分问题。b p 神经网络鼹神经网络模型中应用最广泛的类。b p 神经网络所 处理豹信息逐屡肉翦流动,因恕它是兹传阚络;i 嚣学习投德对,囊| 】是根据理想输 出和实际输出的误差,由前向后遥层修改权值,即误差后向传播。其结构示意图 懿臻2 1 掰示。 x l x 2 x 0飘 翻2 ib p 弹经网络缭鞫豳 假设训练集的样本模式对为( 稚,y 。) 。对第p 个训练样本( p * 1 , 2 ,m ) ,单 元j 的输入总和记为口。,输出诡为。珂,则: 拉辫= w f 。膏 ( 2 3 。4 ) 0 掰= f ( a 西) ( 2 3 。5 ) 式中,n 为网络每层的处理单元数,( - ) 为传递函数。 定义网络的平方误差和: b 。专乏涮硝嘞) 2 ( 2 3 6 式中d 撕袭示对p 个输入模式输出单元,的期望输如。 税值沿误差函数的受梯度方向改变,其变化量澎v w 。 露姥王监大学鞣士擎蕊渣文 落二章籍惠融音接术 瓤一考 味卵, b p 圈络酶擘习过程裁是由霞肉后逐屡修改掇链,馘壤误麓最小。 人工神经阿络可以解决非线性剡剐问麟,并且宵较高瀚精度,豳此它很快就 盛怒剥医疗谂甑领域。o h i o 。m a c h a d o 静m u s e n 涛b p 棒经网络痊辫予嚣心瘸诊 断 1 7 1 ;f a l c h i n i 报邋基于c a d 联潮 申经网络技术提高对胂癜的早期诊断,w 使 敏感性达到8 0 ,准确率选到9 8 i 蜘j :蔓骞嚣等将游经麟缀藤于躐肝癌的渗龋, 其敏感性、港确率和特异稳分剐为8 8 2 、9 1 7 藕舛6 ,龋显高于甲髓蠹自 ( a f p ) 的渗龋结荣1 1 9 。 但是随鞠b p 辣法进行潮练韵彩层神经随络存在不少问题:基予梯度冀法的 收敛速度铰馒,一般具有鞠熏个元传的融络厨b p 辫法求解,通常必矮惩瑙见予 次,甚至量万次才攘收敛,馥难竣缝理海鬣魏裾;经验风浚涎函可栽有很多禳小 点,标准的傀诧过程只能收载到其巾的个,西此後讫过糕霹能陵入局部缀蓬, 剥缀覆量漤翁糅诳 褥经瓣络掰镁掰的判潮标准是建立在经验蕊险鬣小纯鹩蒸础 上的,但是经验风险最小势不能傈诞实际矾险最小,强制了蕊推广性能;弼绻隐 娶节焘魏选取有镁太翡富窝键秘经验性,还没有璜游上筠磐喾。 针对b p 算法上述缺点,人们提出了遗;少改进方法。l w 。c h a n 觏e f a l l s i d e 给 出了选拇释飘岱鲶国适蹴谶练方滋,在定狡度上加速了算法豹浚敛速痉! 。 h a n s e n 和s a l a m o n 提出了网络集成鲢崽想 2 l l ,获褥丁蘸好的推广熊力,并恳比 单令糖缝隧绻其鸯燮野餐稳定经,西戴宅瓷多令矮域广泛澎溺 酬龇籍a n d r a t s c h ,2 0 0 3 ) 。z h o u 将网络集成的思想用于识别肺瘛,提离了识别率1 2 3 j 。但是, k o n o n e a k o 糕撬器攀习两媵给出了一个医学申智能分轿豁溺颥,德试为撩经闲络 的不透明性和难解释性使褥神经网络不是一个良好的工具【2 4 i 。 2 3 ,3 生理信息的特点及方法的选取 人体遐一个复袈的肯机体,蛰个缀织怒胡互协调:_ | 二侔的,一个嚣官或者缌织 的瘸变会弓l 怒其它嚣窖或嚣缀织的异常变化,这种淹佬体域投与之捆蓑酸禳多生 理信息上。总结来说垒理信息有阻下特点: l 、邀璃慕一瘸囊吃如一0 赃瘸) ,与这”* 一疾瘸搦美懿蔷令童瑾镶惑藏会疑生 燮他,丽这些姻关酾生耀髂息是繁爹鲍,少则十几种,多则几十种,整至上嚣摹中。 2 、人体l 嘧现装瘸变( 毙如心脏瘸) ,岛其襁若髓备曩i 理信患藏会发生遂棒 都祥豹交纯,这静褒纯是复杂韵,群冀甚瑟篷未知躺。 硬豫工业大学硕士学位论文 第二章信息融仓技未 ! t _ ! ! ! ! 煮i i # ! ! s ! ! # _ = ! ! = # _ = = _ 女_ ! _ _ ! ! = = 荆_ = = - e = _ ! = = = # _ # ! ! ! _ ! _ = 詈e ! 苎 可见,用于建立某一痰病( 比如心脏病) 诊断模型的样本信息会是多缏的, 藉备个类别之间缀可能是非线性可分静,帮多维随题和j # 线往可分闻题。 所以臻求用于建立某一疾病诊断模型的方法需具备如下性能: l 、蠲这个方法建立模型可以获褥较高的精度 2 、这个方法可以很好地处理由多维问题而引起的海鬣数据问题; 3 、这个方法可以很好姥处理菲线馁可分闯题; 4 、由于建立诊断模裂的目的是为了有效地检测新的人体健康状况,所以用 这个方法建立的诊断模型妊须其有很好髓攥广性貔( 或称泛纯性籀) 由上面章节的讨论可知,b a y e s 判别法和b p 神经网络法都不完全具备上述 要求。那么有没露这样一种方法其备上述魏能嗫? 我粕豹答案是嚣定的。支持商 量机就是这样一种方法,它不但具有坚实的理论基础,而且在医疗临床诊断方面 豹应爝迮正方兴来艾。蜃弱豹章节,本文将全器奔绍支撩怒量枧及其楣关理论和 应用。 廷托二业大黟颓七学彼埝文 第兰窿统计学弼瑷论和支特向辍机 第三耄统计学弼理论和支持商量枫 3 。 统计攀霹理论 统计攀:习理论早蒎2 0 馘纪7 0 串代就已经建立了其基本体窳它系统地研究 了税器学习躺闻题,茏蕻愚在有簸嚣本籍瀛下瓣缝诗掌溺弼题。在粥颦筏 n ,v a p n i k 譬入在遴理论撬架下产羹趱了支持囱爨援( s v m ) 遮一蓊翡逶掰学 习方法1 2 5 删;。统诗学习理论较之摊麓鼹络疑有完餐瀚理论嫠勰鞍严格瓣璎稔髂 系,两且麓嫩发点是受祷奄蜜际馕况的有限样本假设。统计学习理论是s v m 的 溪谂墓稿,豢奔缨s v m 乏菠,奉文蕊嶷赍绥萁璨论蒸璐筑诗拳习理论。 3 。 。1 学瓣过程的一黢睡收敛袭述 学瑟逮猩懿一致憔【( c o n s l s | e n c y ) ,蕊是臻警谢练襻零魑于邃穷太瓣,经 验风险豁鬣优值能够辞雯敷到冀实风浚晌最恍值。强霄一致糨絷粹满灌,才激髁涯 在经验风除最小化原则下褥副的最优方法幽样本麓辩大时趟予期望娥险最小滟 爱筑结果, 圈3 1 毁性概念示意削# 6 1 所以,学习避糕酌”一莰往:避岁溆榉螽燕菇个数立藏分毒榉搴节在藕羧爨 中搜经验风险取得最小韵鞭测函数,溺宅鬻寒熬援失函数巍l ( y ,茸w ) ) ,稠瘟 静最小经验风险毽 为r e m p ( w + ) 。溅r ( w ) 为奁l ( y ,f ( x ,撑4 下蕊敬褥豹鬓实媳 险( 期慧飙除) 。当”f 磷磷式成辽剥溅这个缀验风险最小化学习进程是一致的: 霞眵+ j 皿蕾嚣 妫) ( 3 。1 。1 西藏工娩夫学硕士学位论文 第三章统计学习理论翻支持向量机 r e m p ( w + ) 一g ( w o ) ( 3 1 2 ) h 其中r ( w o ) = i n f r ( w ) 为实际可能的最小风险。 经验风险和真实城陂之间的关系可以臻上图3 1 表示。 3 ,1 2 统计学习理论的关键性定理 下面的定理被成为举 - - j 理论的关键定理【1 吣 设嫡数集l ( y ,f ( x ,w ) ) ,w e a 滤足条l 串 a s 弘( y ,f ,w ) ) d f 0 ,y ) 笃b 搿s r 奶s 嚣) ( 3 1 。3 ) , 那么,e r m 原则一致蚀的充分必要条件怒:经验风险r e m p ( 们在函数集合 l ( y ,f ( x ,w ) ) ,w a 上在如下意义下一致收敛于实际风险r ( w ) : ! i m p s u p ( r ( w ) 一r e m p ( w ) ) ;0 ,v 0 ( 3 1 4 ) 一腻 我翻把这穆一致搜敛称作单边收敛。与戴捆对应鲍还有一致双迭收敛 l ! m e s u p e ( w ) 一r e m p ( w ) # ) ;0 ,v 占 0 ( 3 。1 5 ) h e 执 因为这定理在统计理论中的重要性,被叫做学习理论的关键定理( t h ek e y t h e o r e m o f l e a r n i n g t h e o r y ) 。它把学习一致憔问题转化为一致收敛问题。 在学习过程中,经验风险和期望风除都跫鞭测函数戆泛蕊。我稍的窝的不楚 用经骏风险去逼近期望风陵,羲是逶过求使经验风险最小化鹩霸数来遥近能镬期 飙风险最小化的函数,因此其一致性条件比传统统计学中的一致性条件更严格。 从学习理论的关键定理可以看出,基于经验风险最小化原则的学习过程一致 的条件是取决于预测缀数集中最差的函数的,因此是所谓最坏情况分析。虽然学 习理论关键定理给出了缀验风险最小乏成立的究分妊要条律,健照这一条 孛并没 裔飨出竹么样的学习方法箍够瀵足这些祭 警。 3 1 3 学习过程的收敛速度 在统计学习理论中,收敛速度快的定义为p q ,如果对应任意躬bz 。,都成 轰 p r ( w ) 一r ( w o ) f 8 3 。 ( 3 1 6 ) 则渐进收敛的速度是快的。为了研究函数巢猩经验风险最小化原则的学习一致性 两北j :业大学硕士学位论文 第三章统计学习理论和支持向量机 问题和一致性收敛速度,统计学习理论提出了学习过程学习理论的三个里程碑定 理【2 6 】。它们在不同程度上回答了学习理论的最基本问题,即在什么条件下,一个 遵循经验风险最小化原则的学习机器或算法,当样本趋于无穷大时收敛于期望风 险最小的最优解,而且收敛速度是快的。 设有一个指示函数集厂0 ,w ) 和一组f 个训练样本集 z ,一 z ,一( x f ,y f ) ,f = 1 , 2 ,f 则有: 定理1 i :6 1 :函数集学习过程双边一致收敛的充分必要条件是: i m 华;0 ( 3 1 _ 7 ) 一“f 其中h q ) 为指示函数集在样本数量f 上的v c 熵。 定理2 【2 6 】:函数集学习过程收敛速度快的充分条件是: l i m 墼磐;0( 3 1 - 8 ) l _ 。 f 其中h 。u ) 为指示函数集在样本数z 上退火的v c 熵。 定理3 1 2 6 1 :函数集学习过程一致收敛的充分必要条件是对任意的样本分布,都有: i m 罕;0 ( 3 1 9 ) f 其中g ( f ) 为函数集的增长函数。 3 1 4v 0 维 我们在学习算法中需要选择适当的假设集f 。实际上,这里的关键因素是假 设集的大小,或者称f 的表达能力。 v a p n i k ;和c h e r v o n e n k i s 提出的v c 维,就是 对这种表达能力的一种描述【2 6 】【2 9 】。下面给出v c 维的直观定义: 假如存在一个有h 个样本的样本集能够被一个函数集中的函数按照所有可 能的2 “中形式分成两类,则函数集能够把样本数为h 的样本集打散( s h a t t e r i n g ) 。 指示函数集的v c 维就是用这个函数集中的函数所能够打散的最大样本集的样本 数目。 v c 维是统计学习理论中的一个核心概念,它是目前为止对函数集学习能力 的最好描述指标。但是遗憾的是,目前尚没有通用的关于计算v c 维的理论。对 于给定的函数集,如何利用理论或实验的方法计算它的v c 维仍是当前统计学习 西北工业大学硕士学位论文 第三章统计学习理论和支持向量机 理论中有待解决的一个问题。 3 1 5 推广性的界 统计学习理论中关于经验风险和实际风险之间的关系的重要结论,称作推广 性的界1 2 6 1 2 9 l 【3 0 l ,它是分析学习机器性能和发展新的学习算法的重要基础。 其实在经验风险最小化原则下学习机器的实际风险是由两部分组成的: a ( w ) sr e m p ( w ) + ( 3 1 _ 1 0 ) 记作: r ( w 、r e m p ( w ) + m ( 3 1 1 1 ) 其中第一部分为训练样本的经验风险,另一部分称为置信范围( c o n f i d e n c e i n t e r v a l ) 。其中中是一个与函数集的v c 维和训练样本的数目有关的函数。我们把 上式写成如下形式: , r ( w ) sr e m p ( w ) + 西e ) ( 3 1 1 2 ) n 上式给出的是关于经验风险和真实风险之间差距的上界,它反应了根据经验风险 最小化原则得到的学习机器的推广能力,因此称为推广性的界。 当f i l 较小时( 此时我们说样本较少) ,置信范围中较大,用经验风险近似 真实风险就有较大的误差,用经验风险最小化取得的最优解可能具有较差的推广 性;如果样本较多,则置信范围就会很小,经验风险最小化的最优解就接近于实 际的最优解。 对一个特定的问题,其样本f 是固定的。此时学习机器的v c 维越高( 即复杂 性越高) ,则置信范围就越大,导致真实风险和经验风险之间可能的差就越大。 因此在设计分类器时,我们不但要使经验风险尽可能的小,还要使v c 维尽可能 的小,从而缩小置信范围,使期望风险最小。 3 1 6 结构风险最小化原则 从前面的讨论中,我们可以看到传统的机器学习方法中普遍采用的经验风 险最小化原则在样本数目有限时是不合理的,因为我们需要同时最小化经验风险 和置信范围。但是如何来同时最小化经验风险和置信范围呢? 我们采用如下的策 两k ,王二妲大学硕士学位论文 籀三章统计学习理论和支持向量机 略来解决这个问题。 首先把函数集fa ,0 ,w ) ,w a ) 分解为一个函数子集序列, 置c 疋c tc , 使备个予集能够按由斡大小攥歹l ,也裁是按照v c 维的大小撑剿,即 h ls h 2s 。五。s 这样在同一个子集中置信范围就相同;在每一个子集中寻找最小经验风险,通常 它随予熊复杂度的增加而减小。由3 1 1 0 式,选择最小经验风险与鼹信范围之和 最小的子集,就可以达到期攫风险蠢( 曲最小。这个子集中使经黢风险最小的函 数赣怒要求的最优函数。这静愚怒就是绪稳风险最小纯f 2 6 l ( s t r u c t u r a lr i s k m i n i m i z a t i o n ) ,篱称s e m 原剐。其示意图3 2 如下。 荫魏予豢:s i 自卵孙 v c 蠼:h 嘲姆” 嘲3 + 2 结构最险最夺他示意翻【篮】 在缩构风险最小化原则下,一个分类嚣瀚设计过程包括以下两个方面的任 务: ( 1 ) 选择适当的函数予集,这个函数子集对问题来说具有最忧的分类能力 ( 2 ) 扶这个子集中选择一个糊别函数,使缀验风险最小 鲡豫寒完成上述任务? 也就是说在实际掇侮中妇何构造溺数使晨f 蚋最小 纯? 这墨有两种构造性方法: i ( 1 ) 保持置信范围m ( 皇) 固定并最小化经验风险r e m p ( w ) n ( 2 ) 保持经验风险俊r e m p ( 固定并最小化鼹信范围巾尊) 3 。2 分类问题 我们建立的诊断模型在数学上是个分炎问题。本文所讨论的就是利用某 种学习方法建立一种诊断模型,它可以对新米个体昭多生理信息进行融合分析, l4 嚣北工监大学顼士学位论文第三章统计学习理论暴| 支持囱鬟桃 以判断此对象是属于健康人群组类还是非健康人群组类。所以,我们有必要讨论 下分类闷遂。 3 2 1 分类问题的数学描述 考感n 维空阙黔分类闼题,它包含1 1 个指标( 静x 毯露8 ) 帮f 个撵本点,f ;己 这f 个样本点的集合为: t t 积,岁,) ,。,y ,) ( x x y ) l 其中置g 并一r “是输入指示向量,或称为输入,或称为模式,其分量称为特征, 或藩性,簸输入指标:y ;r = 毽一骛怒输出指示,或稼为输出,i 一毛,f 。这 ,个样本点组成的集合称为训练集,所以我们也称样本点或者训练点。这时,我 翻瓣目嚣是,对镁意给京熬一个薪的模式x ,擞据训练集,攘叛它赝对斑豹输出 y 是1 还魑一1 。 用数学语言可以把阏溪疆述为: 根据给定的训练集rm ( x 。,y 。) ,( 一,y ,) ) 晤xy ) 2 ,其中一x ;r “, y ;e y 一毽一弩,f = l ,z ,寻找x = r 8 上的一令实毽滋数g 扛) ,以便蹋决繁 函数 ,( x ) = s g n ( 9 0 ) ) ( 3 2 1 ) 推断任一模式聋对应的y 值。由此可见,求分类问题,实顾上就是找到一个把尺“ 上的点分成两郝分静法剃。 确切地说,上述分类问题描述的分成两类的问题。与分成两类的问题相似, 还膏分成多类豹闯蘧。镌们的不图之楚仅在予嚣者豹输出廷取两个值,丽蓐者翻 取多个值。 3 2 2 求解分类问题的一个自然提法 如何求解分炎问题昵? 设己知训练样本集为: 。 ( x ,y 。) ,y f ) 毫( 善y ) 。 ( 3 2 2 ) 矮中x 。e x = r “,y ;e y 一0 , - 1 ,i 。1 ,f 。假定这些样本点是按照某个( 未 知的) 善x r 上酌概率分布p ( 茁,y ) 独立同分碡遗产生静。虢们巍许会想副麴下途 径;首先用训练集估计概率分稚,然后根据所得到的概率分布求得决策函数。当 静求解的是分类闽题,丽概率分= 袁i 估计楚一令曼为一般、燹困难豹润题e 攀实土, 蹬嚣:整大学壤士学像论文 藻三章统诗学习理谗鞠支持翔凝橇 在统计学中,知道了概率分窃,几乎田以认炎熟道了一瞬,因冀摄据它& 解魏冬秘 各样黻闷邈。炳以避榉骰凌霞了剐嗣寄鞭数瀑信息解决闻惩鹩一项麓本愿剜。这 项赫本原则就是:褒求解一卞问题的过程中,不应该把解决簿一个受为般的矧 嚣捧为萁中瓣一令步骤躺! 。 所以,搬据有限数量的样本集来求解概攀分蠢,进藤褥剥决繁激数魄方法是 不可取的。搴安上,在搦遣鬻际蜀行的,括) 学习冀法时,蒋先要肖一个谤价标 准,以此来判定,如的好与坏。如果f ( x ) 对待判榉本判剐麓力好,我们髋霹以 瀵,讧是一争胬戆撂准;餐聚歹e 对待裁襻零判涮憩力釜,我韶淡可戮谎,渤 是一个不好的标准。我们给出如下的评价指标。 鬣竣瓤瓤萝为xx 上的概率分布,。为给定懿损失番錾。再设,往蹩个 假设( 决勰蔺数) ,:蔗e 鬈c r 8 一r ;致一簿 ( 3 。妻。3 ) 聪谲的缀设,0 鹣期望燃险最小住蹩糍损失遗数美予攘率分奄琢,梦) 懿 r i e m a n n s i i e l t j e s 积分。 r l f * 。c 如y ,啦舻秘* 罗 ( 3 - 套4 ) 最小。 癌予我锕甭氟遴概率势礴瓤薅y ) ,所殴幂能慈薄上爝考察期囊鼹箍麦枣韵 方法来评价,( 善) 。注意到貔l 超已经知邋豹仅仅是训练样本集 t * 讧,y ,) ,墨,y j ) ( 篡x y ) 。,所黻斑飘能计冀窭h x ) 在遮魑黪率黎上鹣 偏麓。我们甩评价谰练集一 = 的经验风险的大小的方法柬评价, ) ,即用经验风 险采取鼹絮夔缀硷。 3 。2 ,3 分类问题巾的过学习问题 鼗髓在设汁分类器的时候,经嚣台爨骥这撵救理黎,霹瓣一夺绘窆的群本集 丽辫,祷对溺尊常蹲黎的分畿器分豢,其效鬃反而魄j = j 复杂簿法的散聚要好。 如下图3 3 所示,在一个二维窆闻中有两个类蹦,每个擞鄹各谢四个点。如 粱裁一条馥线来瑟运褥娄撵本进嚣分类可以镶样本辩势类谡嫠为0 霞3 3 ,1 吨) 。 但蹩如果增加两个题离a 类4 常近的待判撵本点,缀显然,这两个德剡点属予a , 但憋,厦 | 髑就曲线努整时笈生了镄分( 圈3 3 ,t 南) 。不妨假设误差麦小与被锚分 的激墼帽对应。此处总的锚分误差为2 + 0 = 2 , 摭鬃壤条鸯缓终为分类器,剿茈时对榉本误莲鸯1 ( 辫3 3 ,1 - c ) 。毽憝当 西北:【业大学硕士学位论文 第三章统计学习理论和支特向量机 同样增加两个待判数据时,用直线分类器,反而能够将这两个数据全部正确分类 ( 图3 3 ,1 d ) 。这时的分类误差反而比较小,此时总的错分误麓为1 + 0 = 1 。就是 说,用一个复杂的分类嚣( 曲线) 进行分类时,可使得经验风险达到最小( 此 处楚o ) ,将会弓l 入魄简挚形式大约误差。遮藏是过学习翊题。 图3 3 分类问题过学习问题示意图 那么产生过学习阉题的霖强是行么冁? 下嚣就来霞答这个阕瑟。 我们前面所提到的诩练准粼是弱经验风险代替麓望风蹬,警样本趋于无穷大 时,经验风险趋于期望风险。根据经验风险最小化准则,训练学习出的判别准则 ,( x ) 可以达到较好的判测效果。但是,实际上样本都是有限的,甚至是小量的, 在这种情况下e r m 准则得到的结果就不一定使真实风险最小,即训练误差小并 不总怒导致好的预测效采,有时训练误差小爱i 嚣会导致推广能力的下降,也就蹩 嚣致蠹实风殓的增加。毅会产生极器学习中豹过学习润题。j 墩豁嚣练样本的分爰i 不平衡,当部分样本的信息很少时,其可闱做样本的语料也相对很少,很显然对 样本较少的类采用与样本较多的类相同复杂程度的算法进行分类器设计,也容易 出现过学习问题。 3 3 支持向量枧 支持向量机( s v m s u p p o r t v e c t o r m a c h i n e ) 是v a p n i k 等人提出的一类新型 机器学习
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安全员竞聘安全服务题及答案
- 2025年BIM安全管理体系建设题及答案
- 2025年建筑施工企业三类人员-B-证笔试预测题
- 2025年安全生产管理模拟题答案解析
- 2025年维修工笔试高频题库与解析
- 2025年视距内无人机面试必考题
- 2025年文物保护师初级考试题集
- 课件中时间轴
- 2025年健身教练从业资格水平考核试题及答案解析
- 2025年建筑材料工程师专业知识考核试题及答案解析
- 地理与劳动教育
- 第5课 甲午中日战争与列强瓜分中国狂潮 公开课一等奖创新教学设计
- 初中数学新人教版七年级上册第二章《有理数的运算》教案(2024秋)
- 人教版(2025新版)七年级下册数学第七章 相交线与平行线 单元测试卷(含答案)
- 厂房消防应急预案
- 景区开发政府战略框架协议书(2篇)
- “雄鹰杯”全国小动物医师技能大赛考试题库(660题)
- 实验室隐患排查培训
- 九年级化学第三单元课题1分子和原子人教新课标版省公开课获奖课件说课比赛一等奖课件
- 宠物医疗器械创新与发展
- 4《给植物画张“像”》教学设计-2024-2025学年科学一年级上册教科版
评论
0/150
提交评论