




已阅读5页,还剩61页未读, 继续免费阅读
(计算机软件与理论专业论文)基于pca的医疗数据特征提取方法研究及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在对高维数据的处理中,若不考虑数据降维的问题,会导致数据 量大,计算复杂,难以提取有价值的信息等问题,因此,高维数据的 特征提取是数据挖掘中重要的数据预处理问题。高维数据特征提取是 从原始数据中提取对分类识别最有效的特征,以表示原始数据,从而 实现特征空间维数的压缩。本文以湖南省自然科学基金项目为背景, 系统研究了激光诱导自体荧光光谱数据的特征提取技术。 本文通过分析比较当前经典的特征提取技术,并分析其优缺点, 提出了两种数据特征提取方法。 首先,从统计分析角度,提出了一种基于主成分判别分析的特征 提取方法,该方法克服了主成分分析中鲁棒性差、没有充分利用类别 信息的问题,克服了f l d a 算法的小样本问题和秩限制问题,可有效 降低数据维数。 其次,引入粗糙集理论,从知识发现的角度提出了基于容错关系 信息熵的粗糙主成分分析方法,该方法不需要任何先验知识,可对知 识进行严密分析和处理。 通过实验证明,粗糙主成分分析方法不仅解决了主成分判别分析 方法难以处理的信息不完备问题,而且取得了更高的分类识别率、敏 感性和特异性。 关键词特征提取,主成分分析,粗糙集,属性约简 a bs t r a c t i np r o c e s s i n go fh i g hd i m e n s i o nd a t a ,i fw ei g n o r et h ep r o b l e mo f d i m e n s i o nr e d u c t i o n ,t h ec o m p u t a t i o nw i l lb es oh e a v yt h a ti t sd i f f i c u l t t o g e t v a l u a b l ei n f o r m a t i o n f e a t u r ee x t r a c t i o ni s a l l i m p o r t a n t p r e p r o c e s s i n gt e c h n o l o g y i nd a t a m i n i n g f e a t u r ee x t r a c t i o n i st h e o p e r a t i o no fa c q u i r i n g a v a i l a b l ef e a t u r e sf o rc l a s s i n gf r o mo r i g i n a l c h a r a c t e r i s t i e so ft h eh i 曲d i m e n s i o n a lo b j e c t si no r d e rt or e p r e s e n tt h e s e o b j e c t sp r o p e r l y ,t h r o u g hw h i c hw ec o u l dr e d u c ef e a t u r es p a c e i nt h i s p a p e r , o nt h eb a c k g r o u n do fn a t u r a l s c i e n c ef o u n d a t i o n o fh u n a n p r o v i n c eo fc h i n au n d e rg r a n tn o 0 6 j j 5 014 3 ,l a s e r - i n d u c e df l u o r e s c e n c e s p e c t r af e a t u r ee x t r a c t i o nt e c h n o l o g y i ss t u d i e ds y s t e m i c a l l y i nt h i sp a p e r , w ea n a l y z ea n dc o m p a r et w or e p r e s e n t a t i v ef e a t u r e e x t r a c t i o nm e t h o d sa n dt h e i ra d v a n t a g e sa n dd i s a d v a n t a g e s t h e n ,w e p r o p o s et w of e a t u r ee x t r a c t i o nm e t h o d s f i r s t l y , f r o m s t a t i s t i c sa n a l y s i sp e r s p e c t i v e ,an o v e lf l u o r e s c e n c e s p e c t r af e a t u r ee x t r a c t i o na l g o r i t h mn a m e dp c aa f l d a i sp r e s e n t e d i t o v e r c o m e sb a dr o b u s t n e s sa n du n s u p e r v i s e dl e a r n i n gi np c a a l s o ,i t s o l v e ss m a l ls a m p l ep r o b l e ma n dr a n k - l i m i t e dp r o b l e mi nf l d a s e c o n d l y ,f r o mk n o w l e d g ed i s c o v e r i n gp e r s p e c t i v e ,b a s e d o n s i m i l i t u d ee n t r o p y ,w ei m p o r tr o u g hs e tt h e o r ya n dp r o p o s ear o u g h p c a ( r p c a ) a p p r o a c h i td o e s n tn e e da n yp r i o rk n o w l e d g ea n dc a n a n a l y z ea n dp r o c e s sk n o w l e d g en a r r o w l y t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tr p c as o l v e st h ep r o b l e mo ft h e n u m b e ro fs a m p l e sa n du n c e r t a i n t yo fi n f o r m a t i o ni np c aa f l d a a l s o ,i th a sh i g h e rd i s c r i m i n a t i n ga c c u r a c y , s e n s i t i v i t ya n ds p e c i f i c i t yt h a n p c 州l d a k e yw o r d s f e a t u r ee x t r a c t i o n ,p c a ,r o u g hs e t ,a t t r i b u t e r e d u c t i o n h 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特另t l d n 以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名: 日期:j 坐堕年月4 日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 作者签名:三翌壅导期:型年月旦日 硕士学位论文 第一章绪论 1 1 选题背景 第一章绪论弟一早三:百下匕 在信息化社会的今天,随着信息技术和互联网技术的发展,现代化的生产和 科学研究产生了大量数据和重要信息其中许多数据属于高维数据,如多媒体数 据、空间数据、时间序列数据、w e b 数据等,同时现实世界数据库所存储和处理 的规模越来越大。这些海量数据中蕴藏着大量有价值的信息,如何高效、准确地 使用这些信息就成为当今研究的一项重要课题。 由于这些数据兼具数据量超大及数据维数超大的特征,这就使得对它们进行 各项操作运算时间过长或者超出了当前普通计算机的运算能力。而通过特征提 取,可以使这些数据用较低维的特征来表示,这样就能大大地提高对这些高维海 量数据的利用率。通常,对于高维数据进行快速查找的理想方法就是先把数据对 象映射到低维空间中:对于低维数据的处理,已有许多可直接采用的相关高效算 法,因此如果能够用较低的维数来表示高维数据,就可以降低对数据进行存储、 获取及可视化等操作的计算复杂度。正是由于以上这些需求,使得特征提取这项 技术逐渐发展了起来。 特征提取是模式识别研究领域的一个热点,特征提取技术在模式识别、数据 挖掘、机器学习、目标检测、医疗诊断等领域起着非常重要的作用,同时也是亟 待解决的重要问题。 在模式识别中,由被识别的对象产生一组基本特征,这些特征可以是计算出 来的( 当识别对象是波形或数字图像时) ,也可以是用仪表或传感器测量出来的 ( 当识别对象是实物或某种过程时) ,这样产生出来的特征叫做原始特征。原始特 征的数量可能很大,或者说样本处于一个高维空间中,通过映射( 或变换) 的方法 可以用低维空间来表示样本,这个过程叫做特征提取。映射后的特征叫二次特征, 它们是原始特征的某种组合( 通常是线性组合) 。,所谓的特征提取在广义上就是指 一种变换。假如y 是测量空间,x 是特征空间,则变换a :y 一 x 就口l l 做特征提 取器。在模式识别理论中,特征提取的一般原则是所提取的特征之间相关性越 小越好,尽可能提取不相关的特征。 特征提取是与索引、最近邻搜索、可视化等操作相关联的一项数据预处理操 作。其目的是用较低的维数表示高位数据,并且尽可能地保持数据之间的“距离 信息,从而大大降低对它们进行各项操作的计算复杂度。对数据进行特征提取可 以:减少数据冗余;减少输入数据的带宽,以提高计算速度,降低数据需求量; 硕士学位论文 第一章绪论 为分类器提供适当的特征集,提高分类器的性能;用较低的维数表示数据,最大 程度地减少信息损失以使数据易于观察,数据的关系更容易识别;有助于进行可 视化、聚类、分类等相关操作;发现新的更有意义的潜在特征或变量。 中南大学肝胆肠外科研究中,心1 9 9 4 年开始了内镜下结肠早癌自体荧光诊断 工作,经过多年的理论与应用研究,取得了一系列的成果,但在研究中也遇到了 一些新问题:结肠早癌自体荧光检测系统采集到的光谱数据数据噪声多,数据维 数高,不利于信号的分析和医疗诊断。 由于激光诱导自体荧光光谱图像维数高,且含有大量的噪声,不利于分类, 并且计算复杂,因此无论是从计算复杂度,还是从分类性能的角度上来讲,直接 在高维的原始图像空间进行分类是不可取的。为了有效地进行分类识别,就要对 原始图像进行压缩,并得到最能反应分类本质的特征,人们往往通过某种映射或 变换的方法将图像从高维空间投影至某一低维子空间,使得光谱图像在该子空间 的分布更为紧凑,另外计算的复杂度也大大降低。这一过程从广义上来讲也可称 为特征提取。根据不同的性能要求,得到的映射是不一样的,即提取的特征是不 同的。考虑到大肠早癌正常组织和癌症组织荧光光谱图像相似的特性,寻找稳定 和有效的识别特征成为解决大肠早癌诊断问题的关键。为了弥补自体荧光检测系 统的不足,本研究借助湖南省自然科学基金的资助,开展了基于p c a 的对结肠早 癌激光诱导自体荧光光谱数据的特征提取研究,以提高分类精度和诊断准确率, 为临床医生提供计算机辅助诊断的依据。 1 2 特征提取技术的研究现状 特征提取的基本任务是研究如何从众多特征中求出那些对分类识别最有效 的特征,从而实现特征空间维数的压缩,它包括特征的形成、变换、选择和学习 的过程。从直观上可知,在特征空间中,如果同类模式特征点分布比较密集,不 同类模式特征点相距较远,即特征点按类群聚,分类识别就比较容易,而且识别 的正确率就要高些,反之,如果特征点都混在一起,分类识别就比较困难,且效 果不佳。因此,在从实际对象中提取特征时,要求所提取的特征对不同类的对象 差别很大而同类对象差别较小,这将给后继分类识别环节带来很大的方便。但是 在实际应用中,提取的特征模式并没有明显地如分布,或者所得的特征过多。一 般说来,特征提取应该满足两个条件:( 1 ) 特征应该能代表原始信号;( 2 ) 特征向 量的维数不能太大。理想的特征提取算法应具有以下特点:计算复杂度低;属于 增量式算法。 虽然特征的提取在模式识别中占有很重要的地位,但是到目前为止,还没有 特征提取的一般方法,特征提取是依赖于问题和其所在的领域的,对不同的领域, 2 硕士学位论文第一章绪论 不同的问题要用不同方法来提取特征,即使对同一模式识别问题往往也可能采用 不同的方法。 目前已经提出了许多方法来提取数据特征,而且有些方法在很多实际问题中 取得了比较好的效果,但是这些方法或多或少都存在一些缺陷,有些方法对训练 样本有很强的先验假设,有些方法的解不唯一或不稳定,而且对于不同类型的数 据,特征提取的方法也不一样。针对不同的数据类型,大致有以下特征提取方法。 文本数据的特征提取方法主要有基于语义分析的方法【2 1 、基于统计的方法f 3 】 和基于本体论的方、法【4 】。 对于图像数据,由于图像有很强的领域性,不同领域图像的特征千差万别, 与图像所反映的对象的各种物理的、形态的性能有关,而且从图像中提取出什么 样的特征,需要根据建库者所关心的问题来决定,所以图像特征提取方法也各种 各样。使用比较广泛的图像特征提取方法有匹配滤波法【5 1 ,人工神经网络【6 1 ,应 用l o g 算子进行边缘检测【1 刀等。 相对于一般图像,医学图像具有其本身的一些特征:灰度分辨率高,空间分 辨率高,图像比较相似,图像所含信息量大等。因此对医学图像进行特征提取时, 要考虑以下准则:区别不同图像的能力;一个查询能检索到的最大图像数;计算 和比较特征所需的计算量大小等。s w a i n 和b a l l a d 8 】提出了提取图像灰度直方图 的方法,c a r t e r 9 】等人采用小波变换方法提取了图像的纹理特征,曹奎和冯玉才 1 0 l 提出了基于压缩域的特征提取方法。 医疗诊断数据内容异常丰富,与其他类型的数据相比,具有其自身的一些特 点:( 1 ) 数据模式的多态性:( 2 ) 数据的不完整性;( 3 ) 数据的时间性;( 4 ) 数据的 冗余性。医疗数据的这些特性是它区分其它领域数据的最显著特征,这种多属性 模式并存加大了医疗诊断、疾病预测的难度和模糊性。对于一般的医疗数据进行 特征提取,主要有子空间分析方法、人工神经网络、小波变换和小波包变换。近 几年来,随着粗糙集理论的成熟和发展,粗糙集理论中的属性约简也被用于数据 的特征提取。 子空间分析方法的思想是把高维空间中松散分布的样本,通过线性或非线性 变换压缩到一个低维的子空间中,在低维的子空间中使样本的分布更紧凑,更有 利于分类,同时使计算复杂度减少,一般可分为线性方法和非线性方法。 线性方法【l l l 有主成份分析( p c a ,p r i n c i p a lc o m p o n e n ta n a l y s i s ) 、线性判 别分析( l d a ,l i n e a rd is c r i m i n a n ta n a l y s is ) 、独立成份分析( i c a ,i n d e p e n d e n t c o m p o n e n ta n a l y s i s ) 、非负矩阵分解( n m f ,n o n n e g a t i v e m a t r i x f a c t o r i z a t i o n ) 、投影追踪( p r o j e c t i o np u r s u i t ) 、多维尺度法( m d s , m u l t i d i m e n s i o n a ls c a li n g ) 等。 3 硕士学位论文第一章绪论 主成份分析的优点是保留最大方差,找到的特征子空间是重构误差最小意义 上的最优,而且降维后的样本之间是不相关的,适用于高斯分布的样本模型。但 是由于p e a 方法并没有考虑训练集内部的类别,所以它是一种非监督型的特征提 取方法。尽管它对重新构建新的向量是最优的,但是从分类的角度来看,它并没 有充分利用类标号中包含的信息,有可能丢失二些非常重要的区分信息,而且 p c a 的前提是假设样本符合高斯分布,限制了其描述复杂问题的能力。 线性判别分析是一种线性的监督方法,这种方法比较简单,得到的特征子空 间是f i s h e r 判别原则下的最优。但是局限性较大,如f i s h e r 判别准则在实际使 用中经常会遇到小样本问题,难以处理数据中的非线性关系,不适用于非凸决策 区域和多连通区域的划分问题。 - 独立成份分析最早是由p c o m o n 1 2 】在1 9 9 4 年提出来的,它是基于消除或减 少各分量间的相关性,使它们尽可能独立的思想。它不仅能去除二阶相关,还能 去除高阶相关,适用于非高斯分布的样本模型。缺点是不能计算独立成份的方差, 也不能确定独立成份的先后次序,而且最多有一个独立源满足高斯分布。在进行 特征提取时,经常遇到小样本问题和基函数选择问题,而且在利用i c a 求解时, 需要一些假设条件和前提。i c a 在信号处理领域的盲源分离、特征提取、金融分 析、医学图像分析、人脸识别、通讯等领域有着广泛的应用。求解独立成份分析 的算法很多,比较成功的有b e l l 和s e j n o w s k i t l 3 】的网络熵最大化方法 i n f o m a x 算法,c a r d o s o 1 4 】的j a d e 算法,h y v a r i n e n 1 5 】的快速i c a 算法f a s t l c a 算法和c o m o n t l 2 1 的四阶累积量方法。 人工神经网络也可以被直接用来提取特征子空间。神经网络具有较快的处理 能力,具有自学习自适应及鲁棒性强的特点,而且可以通过训练进行学习,能够 解决用数学模型或描述规则难以处理的问题。因此,神经网络也可以用来进行特 征提取。由于o j a 1 6 】发现可以用一个三层结构的b p 神经网络得到p c a 子空间。 当参数适当时,此网络可以收敛到较小的均方差,但是b p 神经网络的训练时间 长,同样限于有限样本遇到了一些重要的难题,如如何确定神经网络结构的问题、 过学习与欠学习问题、局部最小值问题等。 , 特征子空间分析方法实质上是一种基于统计的特征提取方法,要求足够多的 训练样本作为保证,归根到底都是建立在傅立叶变换基础之上,无法表征非平稳 信号最根本和关键的时域局部性质。小波变换是近几年来兴起的信号分析手段, 是信号的时间一尺度的分析方法,它在时域和频域都具有表征信号局部特征的能 力以及多分辩分析特性,克服了傅立叶分析方法表示信息时能够清晰地揭示出信 号的频率特征但是不能反映时间域上的局部信息的缺陷,对非平稳信号的处理变 得相对容易。孙桂玲瞄等利用小波变换进行了光谱的特征提取实验,可以比较精 4 硕士学位论文第一章绪论 确地提取各个吸收带的中心波长。小波变换对时一频分析具有良好的自适应性, 这种自适应性可以满足信号处理的基本需要,但也是这种自适应性使得小波变换 时频率分辨率随频率升高而降低,这在实际应用中很不方便,希望分辨率能根据 信号特性和分析要求任意选择。w i c k e r h a u s e r 1 8 】提出了小波包,小波包变换方 法的提出成功解决了这一问题。小波包变换对信号具有任意的多尺度分解特性, 小波包库包含了丰富的小波包基,不同的小波包基具有不同的性质,反映不同的 信号特性,能提供其他变换所不能提供的信号的重要特征,从而可以根据类别可 分性准则,选择一个最优的小波包基,提取有效的分类特征。 子空间分析法中的非线性方法【l l 】也很多,基于核技巧( k e r n e lt r i c k ) 的途径 是其中之一。这类方法有核主成份分析( k p c a ,k e r n e lp r i n c i p a lc o m p o n e n t a n a l y s i s ) 、核线性判方法( k l d a ,k e r n e ll i n e a rd i s c r i m i n a n ta n a l y s i s ) 、核 独立成份分析方法( k i c a ,k e r n e li n d e p e n d e n tc o m p o n e n ta n a l y s is ) 等。这类 方法基本上都是通过一个隐函数把样本映射到一个高维的特征空间,然后在特征 空间里用线性的方法提取特征。 粗糙集理论【l9 l 是近十几年发展起来的一个数学工具,它能够发现数据中隐 含的模式和关系,对不确定性或不精确性、基于信息保留的数据简化,评价数据 的重要性,识别并评价数据间的依赖性、发现数据中因果关系、发现数据中的相 似性和区别、从数据中产生决策算法、基于一致性评价可用信息的质量,结果易 于理解。 作为人工智能和认知科学中新的研究热点,粗糙集理论的有效性已被计算机 学科的基础研究人员所认可。目前,粗糙集理论已经在机器学习、知识获取、决 策分析、数据库中知识发现、专家系统、决策支持系统、医疗诊断、人工神经网 络、归纳推理、模式识别、智能控制等领域得到了广泛应用。目前,国际上研究 粗糙集的机构及个人开发了一些应用粗糙集的实用化软件,也出现了一些商业化 的软件。如波兰p o z n a n 工业大学计算科学研究所智能决策支持系统实验室开发 的一个模块化的软件系统- r 0 s e ( i 沁u g hs e td a t ae x p l o r e r ) 2 0 l ,它实现了粗糙集 理论的基本理论和规则获取技术,实现了p a w l a k 的粗糙集模型和z i a r k o 的可变 精度粗糙集模型。挪威t r o l ld a t ai n c 在4 g ld b m sp a r a d o xf o rw i n d o w s 下开发 的一个基于粗糙集理论的数据挖掘工具系统r o u g he n o u g h 【2 0 】。加拿大r e 西n a 大学利用粗糙集理论开发的基于可变精度粗糙集模型的知识发现系统 k d d r t 2 1 1 ,该系统目前被广泛地应用于医疗诊断、电信业等领域。美国k a n s a s 大学开发的l e r s ( l e a r n i n gf r o me x a m p l e sb a s e do nr s ) 系统【2 2 j ,该系统被应用 于医疗诊断、社区规划、全球气象研究和环境保护等方面,目前已被国家航空航 大管理剧( n a s a ) 的约翰逊( j o h ns o n ) 空间中心采用。挪威科技大学计算机与信息 5 硕士学位论文第一章绪论 科学系和波兰华沙大学数学研究所合作开发的一个基于粗糙集理论框架的表格 逻辑分析工具包吨o s 甜a 【2 3 】。r o s e t t a 的设计实现了对数据挖掘和知识获取的 支持,从数据的初始浏览和预处理,计算最小属性约简和产生i f - t h e n 决策规则 和描述模式,到对所得到的规则或模式得验证和分析。r o s e t t a 的目的是要作为 基于不可分辨关系模型的通用工具,而不是为每个特定应用领域设计的专用系 统。 一 目前关于特征提取方法研究很活跃,每年都有许多国际会议讨论交流相关问 题,如:国际模式识别大会( i c p r ) ,国际计算机视觉大会( i c c v ) ,计算机视觉与 模式识别大会( c v p r ) ,国际机器学习大会( i c m l ) ,神经信息处理系统进展( n i p s ) , 国际独立成份分析与盲信号分离大会( i c a ) 等。很多重要的国际刊物,如:模式 识别( p a t t e r nr e c o g n i t i o n ) 、机器学习研究杂志( j o u r n a lo fm a c h i n el e a r n i n g r e s e a r c h ) 等也非常关注特征提取。 1 3 激光诱导荧光光谱数据特征提取研究现状 在利用荧光光谱对结肠早期诊断的方法中,实现对不同病理阶段肿瘤的准确 识别与分类,不仅取决于所使用的激发光的荧光强度,而且与所采用的数据处理 方法和数据分类方法密切相关。光谱特征提取是从己测得的某物质的原始光谱数 据中,除去多余的信息而保留真实的、有用的、能区别于其他物质的特征信息。 已有众多研究人员根据各自的实验结果采取了多种评判标准和判别算法,大 致可分为光谱形状判别法,荧光强度判别法,荧光强度比值判别法,概率判别法。 ( 1 ) 光谱形状判别法:这是较早使用的方法,通过观察光谱形状,直接根据 光谱的某些特征来判别。如杨远龙等【2 4 】用癌组织自体荧光光谱中出现的卟啉峰 作为判别标准,发现有8 9 的癌组织中会出现此峰。 ( 2 ) 荧光强度判别法:这是一种根据自体荧光的强度差异来对组织类型进行 判别的比较简单的方法,事实上,无论采用某一波长处的荧光强度还是采用一段 波长范围内的积分强度,此方法的准确性都不高,再加上胃肠道的腔道内存在很 多杂质和实验过程中各种测量条件的不稳定等因素,依据荧光绝对强度差异做判 别是不可靠的。 ( 3 ) 荧光强度比值判别法:选取正常组织和癌变组织荧光光谱相对强度差异 最大波长处的荧光做比值运算,最典型的就是选择红光段荧光和绿光段荧光做比 值。如z e n g 2 5 1 、c o t h r e n 2 6 1 和彭健【2 7 】等的研究。比值法在相除过程中消除了由于 测量结构和系统性能及激光光源功率的波动对判别灵敏度的影响。该方法简单可 行,但只利用了少数波长点的信息,不具有普遍适用性。荧光强度的比值判别法 在支气管、肺与皮肤的癌变组织检测中较成功,但是对胃肠道组织不一定适用, 6 硕士学位论文第一章绪论 由于判别灵敏度与特异性的值对判别阈值特别敏感,而两类组织的比值分布的间 隔不明显,容易误判,对光谱中含的其他信息,如主峰宽度的差异等在比值法中 也反映不出来,有必要继续研究利用光谱信息更多、鲁棒性更高的判别算法。 ( 4 ) 概率判别法:基于概率进行分类,可以克服用普通的二值判别法信息量 太少的缺点。c o t h r e n 等【2 8 】采用了3 7 0 h m 的激发光波长,选取4 6 0 n m 处的荧光强 度和6 8 0 n m 与6 0 0 n m 处的荧光强度比值进行贝叶斯判别,灵敏度和特异性分别达 到了9 0 和9 5 。但是该方法的缺点是只利用了局部点的信息,不具有普遍适用 性,对不同组织类别及测试系统所得的荧光光谱须重新选择其代表波长,且不能 直观本质地反映组织生化及形态特征的变化对自体荧光光谱的作用,只有采用基 于物理模型的算法才能实现此目的。而利用组织的生化和形态特征来建立荧光发 射的物理模型是一件十分困难的事情,组织的吸收与散射特性对激发光与发射光 的强烈作用以及其产生的差异性更使得要由测得的荧光谱信息来分析理解模型 参数具有很大的挑战性。 1 4 本文研究内容与意义 本文在线性判别分析基础上,对激光诱导组织自体荧光光谱数据进行特征提 取。针对激光诱导组织自体荧光检测结肠早癌的不足,借助湖南省自然科学基金 的资助,开展了基于p c a 的医疗数据特征提取方法研究及应用。在模式识别和数 据挖掘中,特征提取是至关重要的步骤,提取的特征直接影响到分类器设计和最 后的分类效果。对数据进行特征提取可以降低数据维数,减少数据冗余,提高计 算速度,还可以发现新的更有意义的潜在特征或变量,深入理解数据产生的过程。 对医疗诊断数据进行特征提取,可以去掉原始数据中的冗余信息和噪声,发现其 中的医学诊断规则和模式,从而辅助医生进行疾病诊断及疾病预测。而目前各医 院的医疗数据量非常庞大,数据类型多种多样,要从这些海量数据中运用各种特 征提取技术探求各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾 病的诊断、治疗和医学研究是非常有价值和发展前景的。本课题在结合国内外特 征提取技术在生物医学领域中的应用现状的基础上,分析了各种特征提取方法在 理论上和实际应用方面存在的不足,提出了医疗诊断数据的特征提取优化方法。 1 4 1 激光诱导自体荧光诊断系统 在结合国内外数据挖掘技术在生物医学领域中的应用现状的基础上,分析其 在理论方法和实际应用方面存在的不足,通过研究数据挖掘技术的新方法和新技 术,完成了激光诱导自体荧光大肠早癌诊断系统的设计开发工作,为临床应用奠 定基础。 7 硕士学位论文 第一章绪论 整个系统主要由数据采集、数据预处理、数据聚类、数据分类4 个模块组成。 系统框图如图1 - 1 所示。 1 4 2 特征提取的意义 特征提取的基本任务是从众多特征中求出那些对分类识别最有效的特征,从 而实现特征空间维数的压缩。它包括特征的形成、变换、选择和学习的过程。通 过对数据进行特征提取,可以减少数据冗余,用较低的维数表示数据,并进可能 减少信息损失以使数据易于观察,数据的关系更容易识别。而目前各医院的医疗 数据量非常庞大,数据类型多种多样,从这些海量数据中运用各种特征提取技术 探求各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、 治疗和医学研究是非常有价值和发展前景的。 本研究中的激光诱导自体荧光光谱数据维数高,对其进行特征提取,可以去 掉原始数据中的冗余信息和噪声,发现其中的医学诊断规则和模式,从而辅助医 生进行疾病诊断及疾病预测,有重要的研究价值和应用前景。 1 5 论文组织结构 第一章,绪论:介绍了论文的选题背景和意义,特征提取技术的研究现状以 及在激光诱导组织自体荧光光谱中的研究现状,最后简单介绍了论文的组织结 构。 第二章,特征提取的基本方法:详细介绍了两种经典的特征提取方法一主 成分分析方法和线性判别方法。首先介绍了各算法的基本思想,然后介绍了各算 法的具体实现步骤,并简单举例加以说明,并讨论了各算法的优缺点,最后简单 介绍了粗糙集理论及优点。 、 第三章,基于主成分判别分析方法的特征提取:在第二章的基础上,从统计 分析的角度提出了一种新的激光诱导自体荧光光谱特征提取方法一一 p c a _ a f l d a ,解决了f l d a 中的小样本和秩限制问题,详细描述了算法的思想和设 计,并用实验数据进行验证,给出了实验结果,并与单独用p c a 方法提取特征作 了比较。 第四章,基于粗糙主成分分析方法的特征提取:首先介绍了粗糙集的基本理 论及相关的一些基本概念:知识与知识库、信息系统、近似与粗糙集、约简与核、 8 硕士学位论文 第一章绪论 信息熵等;接着介绍了基于容错关系的粗糙集模型及基于容错关系信息熵的属性 约简算法;最后将粗糙集属性约简和主成分分析方法相结合,从知识分类的角度 提出了一种新的特征提取方法一基于容错关系的粗糙主成分分析法,详细描述 了算法的思想和设计,并用实验数据进行验证,给出了实验结果。 第五章,总结与展望:给出本文的主要研究结论与成果,指出有待继续研究 的问题,并对可能的研究方向进行展望。 9 硕士学位论文第二章特征提取的基本方法 第二章特征提取的基本方法 随着信息化进程的不断发展,大量高维数据的出现使得数据特征提取的重要 性日益提高,针对不同的领域,不同的问题,出现了大量的特征提取算法。处理 高维数据的方法之一是采用组合特征的方法来降维。 2 1 概述 对多个特征进行线性组合是一种特别具有吸引力的方法,因为线性组合容易 计算,并且能够进行解析分析。从本质上说,线性方法是把高维的数据投影到低 维空间中。目前有两种经典的基于统计分析的寻找线性变换的方法。第一种方法 是主成分分析,这一方法的目的是寻找在最小均方差意义下最能代表原始数据的 投影方法。另一种方法是基于f i s h e r 准则的线性鉴别分析,其目的是以样本的 可分性为目标,寻找在均方差意义下最能够分开各类的投影方法。本章将详细介 绍主成分分析和线性判别分析方法,并对其进行分析。 在详细介绍两种方法前,先介绍共用的一些符号定义【2 9 1 。 假设训练集有c 类,其中第f 类用。表示,包含m 个样本,是一个7 维 列向量,表示第f 类中第m 个样本。 训练集中样本总数:m = n , ( 2 一1 ) lc 总体均值:= 吉x 】:l ( 2 2 ) o “i = i 腕= i 第i 类样本的均值:段= 寺x :, ( 2 3 ) j im f f i ! 类内离差矩阵:s 矽= ( x 二一,) ( x j :l 一,) r ( 2 - 4 ) c 类间离差矩阵:s b = n , ( z ,一) ( 麒一) r i f f i l ( 2 - 5 ) cn t 总体离差矩阵:s r = ( x j :,一) ( x | :| - j ) r = s + s 占 ( 2 6 ) i = 1 用= l e h 公式( 2 4 ) 和公式( 2 5 ) 的定义可知,类内离差矩阵s 。,类间离差矩阵& , l o 硕士学位论文 第二章特征提取的基本方法 类间离差矩阵s ,均为非负定矩阵。当s 可逆时,s 。和s ,均为正定矩阵,且满足 s r = s 矽+ s 口。 2 2 主成分分析 主成分分析法是一种寻找有效的线性变换的经典的方法。它是一种多元统计 数据分析方法,它用数量不多的若干个线性无关的综合变量来描述多维空间的绝 大部分动态信息,是基于目标统计特性的最佳正交变换,经过变换后产生的新的 分量正交或者不相关,同时以部分新的分量表示原向量的均方误差最小。 主成分分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) ,又称主元分析、k - l 变换( k a r h u n e n l o e v et r a n s f o r m ) ,其研究可以追溯到1 9 0 1 年,由p e a r s o n 首 次提出【3 0 l 。到1 9 3 3 年,主成分分析的概念由h o t e l l i n g 总结出来【3 l 】。h o t e l l i n g 对p c a 的定义如下:对一个d 维的观察向量序列 t 。) ,刀 l ,2 ,加,主成分分析就 是要找到q 个正交的主方向w j , 1 ,2 ,q ) ,使得观察向量序列 t 。) 在 这q 个主方向张成的子空间上的投影保留的方差最大。 作为线性的特征提取方法,p c a 的目的就是通过线性变换,将原多维变量组 合成相互独立的少数几个能充分反映总体信息的新变量,从而在不丢失主要信息 的条件下避开自变量之间的共线性问题,同时压缩自变量维数,以便于随后的分 类分析。它基于数据的协方差矩阵进行分析,提取不相关的各个特征分量,消除 数据间的二阶相关。在本研究中,采集到的荧光光谱为1 0 2 4 维光谱信号,用于 分析的光谱共1 6 0 条,因此,无论用什么分类方法,对高维数据进行降维是很关 键的,主成分分析在本研究中是后续处理的基础,故本节专门讨论主成分分析的 原理及计算方法。 2 2 1 基本思想 。p c a 的主要思想是找到一个投影映射,使得样本从n 维空间降到的d 维子空 间,同时保留尽可能多的方差( 能量) 。本质上就是一个降维的过程,就是寻找、 保留数据中最有效、最重要的“成分”,舍去一些冗余的、包含信息量很少的“成 分的过程。 设原始数据表中的变量为x ,x 。,x n ,主成分分析的实质是对原始坐标 系进行平移和旋转变换,使得新坐标的原点与数据群点的重心重合,新坐标系的 第一轴与数据变异的最大方向对应,新坐标的第二轴与第一轴标准正交,并且对 应于数据变异的第二大方向,依次类推。这些新轴分别被称为第一主轴u 。, 第二主轴u :,若经舍弃少量信息后,主轴u 。,u :,u 。( d o ,t t 9 圪 0 。任给一个样品x ,考虑它的线性函数a ( x ) = a 7 x , 则在x 是来自g ,的条件下,a ( x ) 的均值和方差分别为: 巳= e ( 口( x ) lq ) = a7 i , f = 1 ,七 坼= d ( 口( x ) i q ) = a 1 k , f = l ,七 令: 玩= “一i 1 :。e j ) 2 ( 2 - 7 ) 岛= :,k ( 2 8 ) 则b o 相当于一元统计的方差分析中的“组间平方和,而e o 相当于“组内 平方和。为了使判别函数a ( x ) = a t x 能较好的判断样品的归属,或者说,对各总 体有较强的分辨能力,自然希望8 0 的值要尽可能的大,而e o 的值尽可能的小。 运用方差分析的思想,就是选取这样的a ,使得 o ( 口) = f f _ 。a o ( 2 9 ) 乜o 达到极大,称( 口) 为判别效率。这样求得的a 作为线性判别函数的系数, 从而便得到线性判别函数,这就是f i s h e r 判别法的基本思想。由此求得的线性 判别函数,称为f i s h e r 线性判别函数。 2 3 2f i s h e r 线性判别分析定义 f i s h e r 的线性判别分析( f l d a ) 准则函数定义为: 州w ) = 舞( 2 - 1 0 ) 广义的f i s h e r 准则函数定义为: ,( w ) = 了w t s 而s w ( 2 - 1 1 ) 1 6 硕士学位论文第二章特征提取的基本方法 当类内离差矩阵昂非奇异时,公式( 2 1 0 ) 和公式( 2 1 1 ) 两准则完全等价; 当昂非奇异时,准则( 2 - 1 1 ) 是准则( 2 1 0 ) 的合理拓广【3 6 1 。 f i s h e r 准则函数非常巧妙地将样本在投影矢量上的类间离散度和类内离散 度结合在一起,为确定最优投影方向提供了一个非常完美的准则。取极大化目标 函数以( w ) 的矢量w 作为投影方向,其物理意义是:特征样本在w 上投影后,类间 离散度和类内离散度之比达到最大。 设投影直线的方向为w ,则投影后应有 m 觚j a w ) :一w s b w ( 2 1 2 ) w 1s w 公式( 2 - 8 ) 说明,为使投影后具有最优的分类能力,应使类间离散度大,类 内样本离散度小。利用先验知识确定分界阈值点,并进而判别未知样本的类别, 此即f i s h e r 判别方法。 f i s h e r 判别是一种常用的模式识别方法,在故障诊断、人脸识别、说话人 确认等方面有着广泛的应用。与p c a 描述数据式的降维方法相比,f i s h e r 判别 方法直接处理分类数据,因此也就更适合于各类模式识别问题。但是当所有的类 都服从高斯分布时,它即等价于贝叶斯决策。 2 3 3 算法实现 2 3 3 1 计算方法 f i s h e r 线性判别通过最大化公式( 2 1 0 ) ,求得使j f ( w ) 极大的向量w ,可 以用l a g r a n g e 乘子法求解。令分母等于非零常数,即 w r s y w = c 0 定义l a g r a n g e 函数为: l ( w , 2 ) = w r s 占w 一五( w r s 矽w c ) ( 2 1 3 ) 其中五为l a g r a n g e 乘子。将公式( 2 - 1 3 ) 对w 求偏导数,得 o l _ ( w 一, 2 ) :2 s 占w 一2 砖矽w ( 2 - 1 4 ) d w 令偏导数为零,得: s b w 一砖旷w = 0 ( 2 1 5 ) 即s b w = a s 矽w ,其中w + 就是j ,( w ) 的极值解。在品非奇异的情况下,对 公式( 2 一1 5 ) 两边可左乘品,可得: 。 s w - i s 占矿= ( 2 一1 6 ) 公式( 2 1 6 ) 为求一般矩阵品s 8 的特征值问题。s w 一& 的最大特征值所对应 的特征向量即为使j f ( w ) 取极大值时的解。至此,就找到一个具有最大判别能力 1 7 硕士学位论文 第二章特征提取的基本方法 的投影方向矿。 对于未知类别的r l 维样本x ,将其在投影方向w 投影后,即x 柑,若w 的维 数为d ( d = n ) ,则样本x 变成一个d 维的向量,完成了数据降维工作。 2 。3 3 2 实例分析 原始数据分布如图2 4 所示,共有两类,第一类有4 个样本,用黑色实心小 x n 图2 - 4 原始数据 图2 - 5l d a 变换后的数据 正方形表示,第二类有3 个样本,用黑色空心小正方形表示,实心三角形表示测 试样本,类别属性为第一类,经过线性判别分析处理后,得到分类线,如图2 - 5 中直线所示,若测试样本投影后在分类线上方,则属于第二类,否则属于第一类, 如图2 - 5 可以得出,测试样本属于第一类,分类正确。 。 线性判别分析是一种线性的监督方法,这种方法比较简单,得到的特征子空 间是f i s h e r 判别原则下的最优。而且f i s h e r 判别法对总体的分布类型无任何限 制,只要求总体的一阶矩、二阶矩存在,也即总体的均值向量和协方差矩阵存在。 但是f i s h e r 判别也有其局限性。 ( 1 ) l d a 中存在的秩限制问题。 对于两类问题,由于 r a n k ( s 占) = r a n k ( ( g l 一2 ) ( l 一2 ) 7 ) = r a n k ( ( l 一2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 含油果作物种植废弃物处理及利用创新创业项目商业计划书
- 农业生态湿地创新创业项目商业计划书
- 激光雷达发射芯片设计创新创业项目商业计划书
- 电子商务平台的智能化升级创新创业项目商业计划书
- 2025年防城港市理工职业学校教师招聘考试笔试试题(含答案)
- 2025年工业互联网平台AR交互技术在工业设备智能监控与维护中的应用前景报告
- 2025年能源与资源行业:全球油气资源勘探开发新技术应用报告
- 2025年城市河道整治项目社会稳定风险评估与风险评估实践应用报告
- 2025年新能源汽车驱动电机电机绝缘材料耐老化性能研究报告
- 2025年工业污染场地修复技术路径选择与成本效益研究
- 物业小区安全生产管理制度
- 办公楼物业管理服务(技术方案)
- 高血压性脑出血中国多学科诊治指南2020
- 心肺复苏术课件2024新版
- 孕产妇危重症评审实施方案解读课件
- 高级高炉炼铁操作工技能鉴定考试题及答案
- 移民安置监督评估实施细则编写要点及内容、年度报告、生产生活水平本底调查报告、恢复情况跟踪调查报告提纲、常用表格
- 介绍除湿机施工方案
- DB13(J)-T 8580-2024 双面彩钢板复合风管技术规程
- 教育教学课件:暑假生活(英文版)
- JGJ153-2016 体育场馆照明设计及检测标准
评论
0/150
提交评论