




已阅读5页,还剩50页未读, 继续免费阅读
(生物医学工程专业论文)基于神经网络的尿沉渣有形成分自动分类和识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于神经网络的屎沉渣有形成分自动分类和识别研究 a b s t r a c t a b s t r a c t t h ec o m p u t e r - a i d e da u t o m 撕cc l a s s i f i c a t i o no f 诚n es e d i m e mi i i l a g e si so fg r e a t i m p o r t a n c ef o rt 1 1 ec l i n i c a ld i a g n o s i so fm a n yk i n d so fd i s e a s e s 1 h e r ea r e 幽d so f e q u i p m e mf o ru 血es e d i m e n ti m a g e sr c c o g n j d o n t l l i sp r o j e c ti sb 踮e do n 也e u r i n e s e d h mi i n a g e sa u t o m a t i c a l l yr e c o 嘶t i o ns y s t c mo f l x 3 0 0 0 w el l s eb pn e u r a l n e t w o r ki nc e u sc l a s s i 母i n ga n dc o u m i i l g w bp r c s e mad a t ap r 曲j n gm e t i l o di n 十lo i i l l a g e sr e c o g n i t i o n ,a l s ow er c s c a r c hs o m ef e a t u r es e l e c t i o nm e t h o d sf o rc l a s s i f 舛n g i n 4 0 证l a g e sr e c o g n i t i o n ,w ep u tm l l l t i p l yc l a s s i 矗e r sf 泌i o ni nl l s e a st h ci i n 矗g es c 印1 c t a t i o nm 甜l o di s n tv e r y 廊tn o w ,w e h a v en os t 趾d a r dt o l a b e l 也ei m g e 盯e 弱缸k rs e 驴豫味描o n ,w e 缸en o t 弘o f e s s i 咖_ a lc l i i c a lo p e r a t o r s a i l d 血cd a t a 鼬o u n t i s l a r g e ,s o i t h 鹤m a n yd i m c u nd a 诅i n 也es 锄p l e s n l i sp a p e r p r c s e m sab a g g i n gm e t h o df o rd a t a 掣珊i i n g w 宅l l s e l em e t h o di n + l0i m a g e s c l a s s i 匆i n g ,“r e d u c et h e 仃a i n i n gt i m ea n d 订a i l l i n ge r r o r s ,a l s oi ti l p r a v e sn 屺n e t s g e n e m l i z a t i o na b i l 畸 m 谢t i p l ec l a s s i f i e r 如s i o n o rc o m b i n a t i o n ,i sam o d e m 蛔h n i q u ei i lp a 仕e m r e c o g n i t i o na r e 船1 1 l r o u g hp e r t i m n t l yc o m b i i l i n gd i 任醯n ti n f b i i i l a _ d o n 丘o mv 撕e so f s i m p l ec l a s s i f i e r s ,t h ec l 嬲s i f i c 撕o na c c 州c 趾b e 幽yi m p r o v e da n dt l l cd i 伍c l l l 谚 o fd e s i g i n gas 证g l e ,h i g h a c c m c yc l 晒s i f i e rc o u l db ea v o i d e d i nr e c e n ty e a r s , 缸i o nm e t h o d so fm a n yk 砌sh a v eb e e n 、i d e l yl l s e dmm ei d e m n c a t i o no fh u m 姐 f a c e ,h a n d w r i t t e nc h a r a c t e r s ,r e m o t es e n i m a g e s ,e t c ,b u tr e l a t i v e l yr 扯e l ys t u d i e d i nt h em e d i c a li m a g ea r e a w bp a ym o r ea 仕e n t i o nt on c u r a ln e t 、o r ki n t e 盯a t i o n ,锄du s i i l gm a j o r i 哪v o t i n g m e m o di nc l 鹤s i f i e r sm s i o n a r e ra i l a l y 洳g 也ec o r r e l a 丘o nb c 懈nt h en e t s ,w ep u f t h el e a s ti b m l a t i o ne n t r o p ym e 廿l o di np r o c e s s i n gt l l en e t s 姐ds e l e c t i n gm o r c s u i t a b l eo n e s ,a n da l s oi ni i n p r o 、,i 1 1 9t l l ep e d 0 n n a n c eo fb o o s t i n gm e 恤o d t h e s i m u l a t i o nr e s u l t ss h o wt l l ef 泌i o nm o d e l i sb e 他rt l l a l ls i i l g l ec l 嬲s i f i e r 锄l dt r a d i t i o n a l 血s i o nm c t h o d s k e y w o r d s :u r i n a r ) , s e d i m e n tb pn e u r a ln e 咖r k s p a 仕e mr e c o g n i t i o n 讹p 删n gm u l 卸kc l a s s i f i c r 血s i o n i i 基于神经网络的屎沉渣有形成分自动分类和识别研究 第一章绪论 第一章绪论 1 1 尿沉渣图像自动识别系统项目背景 尿液分析是目前医院临床检验中常规检测项目之一,它包括尿液的物理检 查、化学分析和尿沉渣分析。其中尿沉渣分析是对尿液有形成分检查和识别,尿 液中细胞管型、结晶、脂肪球、细菌等各种原理成分能辅助对泌尿系统疾病做出 诊断、定位、鉴别诊断及预后判断,它对肾脏疾病的诊断治疗具有十分重要的作 用。目前尿沉渣检查多采用显微镜下人工判别。由于每个医院,每个操作者个体 上的差异,即使对同一份标本在不同检验时可能会出现不同的结果,因此人们一 直在寻找能将尿沉渣分析标准化,并能提高其临床鉴别的敏感性和特异性的方 法。利用计算机技术对临床上尿沉渣图像进行自动分析,将极大提高其临床鉴别 的准确性,同时也显著降低临床检验人员的劳动强度 1 】。该项目是龙鑫公司 l x 3 0 0 0 产品的自动识别系统,主要是完成自动识别尿沉渣图像的各类有形成分 的任务。 1 1 1 尿沉渣的成分 2 】 3 】 镜检内容应对以下成份进行鉴定: 上皮细胞:移行、鳞状、肾小管; 血细胞:红细胞、自细胞; 管型:透明、颗粒、腊状、细胞性、红细胞、白细胞、细菌、脂肪、混合 型; 微生物:细菌、酵母菌、寄生虫; 结晶:尿酸、非晶形尿酸盐、草酸钙、三联磷酸盐; 其它:粘液、精子、污染物质。 目前该项目还在进行之中,该产品在l o 4 0 倍镜下主要对红细胞、白细胞、 上皮细胞以及结晶进行分类,对于大类细胞的分类还没有研究。在l o l o 倍镜下 主要识别上皮和管型细胞,但由于管型细胞分割比较困难,并且样本量很少,因 此该方面的研究进展很小。 基于神经阿络的尿沉渣有形成分自动分类和识别研究 第一章绪论 1 1 2 尿沉渣图像识别系统项目流程 注r 强中糟蟹i | 的教宁寝球蓉集构罔簟的数目 2 基于神经网络的尿沉渣有形成分自动分类和识别研究第一章绪论 1 2 尿沉渣图像识别综述 目前尿沉渣检测仪器主要有两大类 4 】:( 1 ) 基于尿沉渣镜检影像分析原理( 2 ) 基于尿沉渣流式细胞技术和电阻抗检测原理。市场上已经有许多尿沉渣图像检验 仪器,如i q 2 0 0 ,u f t o o ,爱威,d i a s y s ,千盛等品牌,证实该项产品具有很大的 市场潜力和商业价值。l x 3 0 0 0 产品属于第一类尿沉渣检测仪器。 虽然市场上面相关的仪器比较多,但关于尿沉渣图像自动识别方面的文章却 很少,主要原因是目前该方面的产品都不是特别成熟。 目前已经有许多分类方法来识别尿沉渣图像中的有形物质,这些方法对于识 别正常的有形物质是非常有效的。 在 5 1 中,分类应用了有形物质的面积、形状以及其他参数,这些参数由二值 图像得到; 在【6 中,研究人员应用了模糊神经网络来识别尿沉渣图像中的有形物质,但 应用的仍然是二值图像,并且也只是考虑了大小、形状等参数: 在【7 】中,研究人员应用神经网络进行红细胞和自细胞的分类,其中应用到了 如下特征:有形物质的大小,有形物质边缘和边缘内部区域之间的灰度变化率以 及内部区域的变化频率。文章着重分开红细胞和白细胞两种物质,但却很难区分 其他细胞。这些方法可以成功的识别正常的有形物质,因为它们有正常的形状, 大小以及比较好的图像质量,但对于识别非正常的物质却并不是很有效。比如在 二值图像中,有形物质的很多重要信息将会丢失,剩余的特征并不能完整的表征 这些物质。二值图像会丢失图像的纹理信息,而纹理信息在识别非正常物资时是 非常重要的。这些文献的方法可能存在训练时间长的问题; 8 1 提出了一种新的尿沉渣图像分类方法,更有鲁棒性。该文使用了神经网络 融合已经模糊推理的方法,首先收集正常的有形物质特征,利用b p 神经网络, 每种物质可以从总的类别中分类开来,每种单独的有形物质对应一个神经网络进 行训练,如果非正常物质不能通过n n 正常分出,可以采用逻辑推理的方法,这 种方法可以提高识别率,并且提高了识别速度。在尿沉渣检查中经常会出现些 不典型的物质; 【9 】提出了一种反馈神经网络的方法来解决这一分类问题,它克服了常规方法 无法很好分类的问题。实验和仿真结果都证明这种方法是有效的。在使用数字图 基于神经网络的尿沉渣有形成分自动分类和识别研究第一章绪论 像处理和模式识别技术进行智能识别过程中,特征提取和优选成为识别率问题的 关键; 1 0 给出了一个尿沉渣显微图像识别系统,重点阐述了遗传神经网络的原理 和其在尿沉渣细胞分类的特征优选中的作用,实验表明使用遗传神经网络算法可 以找到最优特征子集,简化分类器的设计,提高分类效率,最终得到满意的尿沉 渣识别效果。 1 3 分类方法综述 1 3 1 单分类器 1 1 1 2 分类算法这一类具有相当多的成员。我们这里只讨论常见的几种算法,即决 策树,b a y e s ,s 、删,神经网络,k 邻域等等。 1 3 1 1 决策树 构造一个决策树分类器通常分为两步:树的生成和剪枝。树的生成采用自 上而下的递归分治法。如果当前训练例子集合中的所有实例是同类的,构造一个 叶节点,节点内容即是该类别。否则,根据某种策略选择一个属性,按照该属性 的不同取值,把当前实例集合划分为若干子集合。对每个子集合重复此过程,直 到当前集中的实例是同类的为止。剪枝就是剪去那些不会增大树的错误预测率的 分枝。经过剪枝,不仅能有效的克服噪声,还使树变得简单,容易理解。生成最 优的决策树同样是n p 问题。目前的决策树算法通过启发式属性选择策略来解决 问题。 i d 3 及其后续版本c 4 5 ,c 5 是使用最为广泛的决策树方法( q u i n l a i l ,1 9 9 3 ) 。 1 3 1 2b a y 方法 贝叶斯统计分析起源于英国学者b a y e st r 的一篇论文”a ne s s a yt o w a r d s s o l v i n gap r o b l e mi i ln l cd o c t r i n eo f c h a l l c e s ( 1 7 6 3 年) ,给出了著名的贝叶斯公式 和一种归纳推理方法。其后一些统计学家将其发展成一种系统的统计推断方法, 到本世纪3 0 年代形成了贝叶斯学派,5 0 6 0 年代发展成了一个有影响的统计学 派。 贝叶斯方法的学习机制是利用贝时斯公式将先验信息与样本信息综合,得 到后验信息。主要有两种b a y e s 方法,即n a v e b a y e s 方法和b a y e s 网络。前者 4 基于神经网络的屎沉渣有形成分自动分类和识别研究第一章绪论 直接利用b a y e s 公式进行预测,把从训练样本中计算出的各个属性值和类别频率 比作为先验概率,并假定各个属性之间是独立的,就可以用b a y e s 公式和相应的 概率公司计算出要预测实例的对各类别的条件概率值。选取概率值最大的类别作 为预测值。此方法简单易行并且具有较好的精度。 b a y e s 网络是一个带有概率注释的有向无环图( h e c k e m a n ,1 9 9 7 ) 。这个图模 型能有效地表示大的变量集合的联合概率分布( 物理的或b a y e s 的) ,从而适合用 来分析大量变量之间的相互关系,利用b a y e s 公式的学习和推理功能,实现预 测、分类等任务。因为关于变量组x 的贝叶斯网络表示了x 的联合概率分布,所 以,一旦网络及其参数确定,原则上可以用它来推断任何感兴趣的概率。b a y e s 网络也是一种适合处理不确定性知识问题的知识表示方法,因为它可以从部分 概率中进行推导。 1 3 1 3 近邻法 如果c j 的判别函数岛( x ) = 叩惟一# 8 ,七= l ,2 ,i ,七表示c j 中1 个样本 中的第七个。则决策规则可以写为 x 畸c f 矿( x ) = m i n g ,( 曲 ,= l ,2 ,豫 ( 1 1 ) 也就是说,对未知样本z ,比较它与所有已知类别样本之间的距离并决策与 它最近的样本同类。这就是近邻分类法。如果将各类别按其与距离远近分配权值, 就形成加权近邻法。近邻法的自然推广是七一近邻,也就是在所有已知样本中找 出了的七个最近邻,若毛,七2 ,吒是七个近邻中分属类别c t ,c 2 ,e 的样本数则 可以定义判别函数为岛( 曲= 七l ,j = l ,2 ,n ,得到决策规则: x + c 矿吕( x ) = i r l a ) 【七,( 1 - 2 ) 1 3 1 4s v m 支持向量机是v a p l l i k 根据统计学习理论提出的一种新的学习方法( v 印i l i k , 1 9 9 8 ) ,近年来受到了国际学术界的重视。支持向量机理论的最大特点是根据 v a p n i l 【结构风险最小化准则,尽量提高学习机的泛化能力,即由有限的训练集样 本得到的小的误差能够保证对独立的测试集仍保持小的误差。另外由于支持向量 机算法是一个凸优化问题,因此局部最优解一定是全局最优解。而且s v m 的复 杂度和实例集的维数无关。对于分类问题,支持向量机算法根据区域中的样本计 基于神经网络的屎沉渣有形成分自动分类和识别研究第一章绪论 算该区域的决策曲面,由此确定该区域中未知样本的类别。对于估值问题,支持向 量机算法对区域中的样本进行回归,确定该区域的映射函数从而得到该区域中 未知样本的取值。 s v m 的基本思想是通过某种事先选择的非线性映射将输入向量映射到一个 高维特征空间,在这个空间中构造最优分类超平面。在高维特征空间中构造最优 超平面,只需要计算特征向量与特征空间中向量的内积,然后使用某种核函数在 原空间计算就可以了。从而克服了维数困难( v 印n i l 【,2 0 0 0 ) 。通过选用不同的核函 数,可以构造输入空间中不同类型的非线性决策面的学习机。 1 3 1 5 神经网络 神经网络是一种很好的函数逼近工具,在过去十几年里取得了飞速的发展, 发展出了很多的模型及其改进,例如b p ,h o p 丘e l d ,k o h o n e n ,a r t ,鼢i n ,k b a n n , 犴等等。虽然试验表明,神经网络在某些分类问题上具有比符号方法更好的表 现,但是神经网络用于数据挖掘主要不利之处在于无法获取显式的规则。本文应 用b p 神经网络进行分类,具体原理在第三章进行阐述。 1 3 1 6 聚类算法 一般把学习算法分成有导师( 或监督) 和无导师学习两种方式。主要区别是有 没有类信息作为指导。聚类是典型的无导师学习算法,一般用于自动分类。 聚类是按照某个特定标准( 通常是某种距离) 把一个数据集分割成不同的类 ( c l a s s ) ,使得类内相似性尽可能的大,同时类间的区别性也尽可能的大,直观 的说,最终形成的每个聚类,在空间上都是一个稠密的区域。 聚类方法主要分为平面o a n i t i o n ) 聚类和层次聚类。平面聚类方法通过优化一 个评估函数把数据集分割成多个部分;分层聚类在不同层次上对数据进行分割, 具有明显的层次性,算法的执行过程可以用一棵层次树( 多为是= 叉树) 来描述。 但是由于聚类是无导师的学习方法,其所研究的数据没有类别标签,我们很 难判断得到的聚类划分是否反映了事物的本质。在( a d a ,f ua n dz l l a n 舀1 9 9 9 ) 中对 此问题作了初步探讨。 1 。3 1 7 关联规则 关联规则是形如x j y 的规则,其中x 、y 为属性值对集( 或称项目集) 且x 6 基于神经网络的尿沉渣有形成分自动分类和识别研究 第一章绪论 n y 为空集。在数据库中若s 的实例同时包含x 和y ( 或s 的实例包含x u y ) 则关联规则x j y 的支持率为s 。若c 的包含属性值对集x 的事务也包含属 性一值对集y 则关联规则x _ j y 的置信度为c 。一般来说,需要找出的是支持 率和置信度分别大于或等于用户指定的最小支持率( 武璐u p ) 和最小置信度 ( m i l l c o 旧的关联规则。关联规则采掘过程可以分解为以下两个子问题:找出所有 的频繁项目集及其支持率:根据找到的频繁项目集导出所有的置信度大于或等 于用户指定的最小置信度的关联规则。第二个子问题的解决是直截了当的,所以 一般的研究集中在第一个子问题上。 关联规则的经典算法是印r i o f i 算法( a 舻耕a l 趾ds d k a i l t ,1 9 9 4 ) 。 1 3 2 多分类器融合 近年来,多分类器融合的方法已成为模式识别的研究热点,在细胞识别,生 物特征识别,文字识别等领域得到了广泛的应用。在模式识别领域,不同的分类 算法可能得到不同的分类性能,但没有一种分类算法能对所有的应用都取得很好 的结果。对于某一具体问题,传统的做法是通过实验寻求性能最优的分类器。传 统方法的不足主要在于当先验知识不充分时,通常很难去确定最优的分类器,由 于分类器的选取尚缺乏统一的理论指导,因此,寻求广义上提高分类性能的方法 成为分类算法的一个研究方向。在研究中发现,对于某些模式识别问题,通常有 多个特征可用于表征和识别模式,如果特征之间的差异太大,则难以将它们集中 到单一分类器中进行决策。另外,模式识别的应用领域中存在着多种基于不同理 论的分类算法,尽管各分类算法的性能不同,但它们的误识集合却并不一定交叉, 表明不同的分类算法之间存在着互补信息。多分器研究应运而生 1 3 】。 现在越来越多的融合模型被提出,从简单的分类器选择、投票融合,到基于 知识的模糊积分、证据理论、b 0 0 s t i n g b a g g i n g 、b o a r d 计数等方法。 相比于传统的识别方法,多分类器融合主要体现出如下特点 1 2 : 1 通过将识别问题化繁为简,采用多个成员分类器,降低了设计高性能的 单一分类算法的难度,避免了单分类器需要大量的训练样本和复杂结构的负担; 2 通过特征抽取、训练子集划分等手段,可以将分类问题分解为不同侧面 的子问题,使不同的分类器能在各自适合的空间更好地体现出识别性能 1 4 ; 7 基于神经网络的尿沉渣有形成分自动分类和识别研究 第章绪论 3 综合来自各个成员的信息,能得到对问题更全面的评价,同时大大减少 单一分类器受到噪声或其它偶然因素影响而失效的风险; 4 成员之间的互补性能有效弥补训练样本不足带来的偏差。 在本项目中,分类方法主要采用m l p 方法( b p 神经网络) ,但是由于尿沉渣图 像中包含的有形成分比较多,图像分割中提取的特征也比较多,仅使用单个神经 网络进行分类,虽然速度比较快,但识别率需要进一步提高。因此本论文研究了 其他分类器,以及应用多分类器融合的方法对尿沉渣图像进行分类,仿真结果表 明,多分类器融合方法效果显著。 1 4 本论文的主要工作 本论文主要是研究“尿沉渣图像有形成分自动识别系统”中的细胞分类部分。 由于图像采集和分类分为l o l o 和4 0 1 0 两种模式,所以分类也分为1 0 倍镜和 4 0 倍镜两种模式。 十倍镜模式下主要分类对象为上皮细胞; 四十倍镜模式下主要分类对象是红细胞,白细胞以及结晶。 图像经过分割后,最终得到的图像区域采用人工标记的方式,由于目前尿沉 渣图像标记还没有金标准,标记人员也不是专业的医生,所以存在很多标记错误 的数据。本论文采用b a g g i n g 方法剔除无效数据; 特征选择对分类结果影响显著,该项目接下来还会多提取一些特征,所以本 论文对特征选择进行了研究,目前项目分类使用1 9 个特征; 在项目中主要采用m l p 进行细胞分类,开发工具为v c 6 0 和m a n a b 6 5 。为 了提高识别效率,论文尝试了其他的分类器,并且对多分器融合进行了实验,取 得了比较好的结果。 8 基于神经网络的尿沉渣有形成分自动分类和识别研究 第一章绪论 1 5 论文结构 本论文共分为六章。 第一章绪论,主要介绍“尿沉渣图像有形成分自动识别系统”项目,以及 尿沉渣图像识别综述以及各种分类器技术; 第二章特征提取与特征选择,主要介绍该系统中提取的图像特征,以及将 来需要用到的特征提取技术、b p 神经网络; 第三章数据剪切及其十倍镜下图像识别,主要介绍数据剪切技术以及十倍 镜下的图像分类和识别; 第四章多分类器融合技术研究,主要介绍多分类器融合技术理论部分; 第五章基于多分器融合技术的细胞识别,主要介绍多分类器技术应用于四 十倍镜图像识别; 第六章总结与展望,总结了该论文的工作,并对以后的工作提出展望。 9 基于神经网络的尿沉渣有形成分自动分类和识别研究第二章特征提取与特征选择 2 1 特征提取 第二章特征提取与特征选择 尿沉渣图像经过分割后,为了识别尿沉渣图像中各类细胞的种类和个数,我 们需要提取分割后图像的特征,然后选择合适的分类方法。目前项目中共提取了 1 9 个特征,包括形态特征参数、基本统计特征以及纹理特征参数。 2 1 1 形态特征 形状描述应当具有以下性质:单一性,完备性,几何不变性,灵敏性,概括 性 1 5 1 区域面积a : 可以简单的用尿沉渣图像所包含的图像的像素来表示, 爿= 厂( z ,y ) ( 2 1 ) 其中和m 分别为尿沉渣图像的水平方向和竖直方向的最大值,而 m 朋 麓然: z , 2 周长p e r i m e t e r 周长可以通过对尿沉渣图像的边界点的计数来求得 d :兰( 互) n ,p f :c ( n m d 2 ) 当c f 是偶数时 ( j ) “= ( j ) 。= 1 当e 是奇数时 ( 互) “= ( i ) 1 = i ( 2 3 ) 其中是轮廓的总像素点,e 是细胞轮廓以逆时针方向跟踪时从第f 点到下一点 的链码数。 3 尿沉渣图像区域密度集c c = d 2 “4 万+ 一) ( 2 4 ) 4 尿沉渣图像的体态比p 定义为尿沉渣图像所在区域的最小外接矩形的宽与长的比值,或者说是似圆 1 0 基于神经蹰络的尿沉渣有形成分自动分类和识别研究蔓三童鲎堡堡墼皇壁堑堡堡 度。 2 1 2 统计特征 这些特征主要是基于灰度直方图的三表示灰度图像的阶数,z j 表示随机的灰 度值,p ( z ) 表示一个区域的直方图。 1 平均值( m e a n ) m = p ( ) 2 方差( s t a n d a r dd e v i a t i o n ) 盯= 佤西: 其中鸬= ( z f 一聊) 2 p ( 弓) j = 0 3 三阶矩( t h i r dm o m e n t ) 鸬= ( 一研) 3 p ( 五) 4 一致性( u n i f o r m i t y ) u = p 2 ( 刁) ( 2 5 ) ( 2 6 ) ( 2 7 ) ( 2 8 ) ( 2 9 ) 2 1 3 纹理特征 1 6 中提到,纹理分析的方法很多,这里用了共生矩阵和局部灰度差分矩 阵。 1 ,共生矩阵 先设定方向口( 水平,垂直等) 和距离d ( 1 或2 个像素等) ,共生矩阵的第f 、个 元素的值是灰度分别为f 和j 的2 个像素在方向和距离上出现的次数除以总的像 素对的个数m 。p 实际上就是各种像素对的概率分布一般取a 为o ,4 5 。,9 0 j 3 5 四个方向,d 取l 或2 个像素即可,p 含有g g 个元素( g 为图像的灰度数) 。 基于神经阿络的尿沉渣有形成分自动分类和识别研究第二章特征提取与特征选择 a 能量( e n e r g y ) g 一1 g l i m 州2 c 0j = o b 惯量( i n e r t i a ) g - l g i ( f 一力2 p ( f ,) c 绝对值( a b s o l u t ev a l u e ) 卜,lp ( f ,) d 倒差( i n v e r s ed i f f e r e n c e ) 霎篓器 e 熵( e n t r o p y ) 一m 川o gp ( f ,) 2 局部灰度差分矩阵 ( 2 一l o ) ( 2 1 1 ) ( 2 一1 2 ) ( 2 1 3 ) ( 2 一1 4 ) 设灰度图象厂( 七,) 和的窗口( 一般取3 或5 ) ,矿= 2 d + 1 ,求均值矩阵承j ,) 承纠,= 嘉 圭重八七帆,州 。啪, ( m ,z ( 0 ,o ) ) 再求数列s ( f ) 。s ( f ) 表示灰度为f 的所有像素与对应均值矩阵互( 七,) 之差的绝对 值之和: s ( f ) = l f 一承七,) |归厂( 七,) = f ( 2 1 6 ) 若没有一个像素的灰度为f ,则s ( f ) = o 再求p ( f ) ( 灰度为f 的像素的出现概率) 。 用下面的等式来求取纹理特征。 a 粗糙度( c o a r s e n e s s ) 国 厶。= 陋+ p ( 硼例一 1 2 ( 2 1 7 ) 基于神经网络的屎沉渣有形成分自动分类和识别研究第二章特征提取与特征选择 b 对比度( c o n t r a s t ) 厶,叫j 晤高可萎丢h 。p ( 力。一d 2 】咕萎联f ) 】 1秭曲1 国 c 频度( b u s y n e s s ) m 函 钿= p ( 渊训【| 护( o 一麒川】 ( 2 一1 8 ) ( 2 1 9 ) d 复杂度( c o m p l e x i t y ) = ( 1f 一川) ( 行2 ( p ( f ) + p u ) ) ) ) p ( f ) s ( f ) + p ( _ ,) s ( ,) ) ( 2 2 0 ) e 纹理强度( t e x t u r es t r e n g t h ) 珊g 瑚 厶= 【( p ( o + p ( ,) ) ( f 一】似+ s ( f ) 】 2 2特征选择 ( 2 2 1 ) 模式识别首先要解决的一个问题就是特征提取与选择【1 7 】。一般情况,只有 特征向量中包含足够的类别信息,才能通过分类器实现正确分类,而特征中是否 包含足够的类别信息却很难确定,为了提高识别率,总是最大限度地提取特征信 息,结果不仅使特征维数增大,而且可能存在较大的相关性和冗余,这给特征的 进一步处理和分类器的实现都带来了很大的困难。如多维训练困难,相关的特征 造成信噪比降低,各种算法都会因为维度增高而计算困难,并且如果有简单有效 的特征,即使最基本的分类器都可以达到很好的效果,泛化表现更好 1 8 】。因而, 需要在不降低( 或尽量不降低) 分类精度的前提下,尽量降低特征空间的维数, 这就是所谓的特征选择。即依据一定的评价函数从原始特征集中选择与输出结果 有关的或重要的特征子集。显然,特征选择有两个关键的问题:选择合适的评价 函数和高效率的特征子集搜索方法。 2 2 1 特征选择定义 经典特征选择定义为从个特征集合中选出m 个特征的子集,并满足条件 m 。它包括特征提取和特征选择两个方面:特征提取广义上指的是一种变 换,将处于高维空间的样本通过映射或变换的方式转换到低维空间,达到降维的 目的;特征选择指从一组特征中去除冗余或不相关的特征来降维。二者常联合使 基于神经网络的尿沉渣有形成分自动分类和识别研究 第二章特征提取与特征选择 用,如先通过变换将高维特征空间映射到低维特征空间,然后再去除冗余的和不 相关的特征来进一步降低维数。 确定一组对分类最有效的特征子集,除了参考医生临床经验外,对计算机自 动识别来说,还需要考虑两个方面:一是根据特征集的统计特征选择合适的评价 准则,以衡量不同特征组合对分类的有效性;二是权衡分类结果和计算复杂度, 选择高效率的最优组合。 2 2 2 特征选择的处理模型 1 9 一个典型的特征选择处理过程为: 1 g e n e r a t i o n :生成,用来生成下一个候选子集。 2 e v a l u a t i o n :评估,用一个准则来评价生成的候选子集的好坏。 3 s t o p p i n ge v a l u a t e :中止判断,用一个中止条件来判断是否可以终止特征选 择算法的运行。 4 v a l i d a t i o n :验证,用某种方法来验证得到的特征子集是否可靠性。 生成是一个图搜索的过程,它主要用来产生评估中的候选特征子集。结果特 征集可以从空集开始,将特征一个个加入到这个结果集中:也可以从整个原始特 征集开始,一个个删除无用的特征:或者从一个随机选择的特征子集开始,随机 的选择是加入一个相关特征还是删除一个无用特征。 评估是根据某个量化的评价准测,来评价当前的候选特征集是否好于当前结 果特征集( 前一次得出最好特征子集) ,如果当前候选特征集比当前结果特征集 好,则替代当前结果特征集:如果没有,则继续产生新的候选特征集。这个生成 和评估的过程会在适当的条件满足时终止,否则特征选择算法就会无终止的穷举 搜索。一般的终止条件包括以下几种: 1 ) 当前结果特征集的基数是否已经达到某个间值: 2 ) 当前迭代次数是否己经达到某个闽值: 3 ) 增加或删除一个特征是否会使得当前结果特征集更好: 4 ) 在一个给定评估准则下,局部最优的特征子集是否找到。 验证处理本身不是特征选择的一部分,它是用来验证特征选择算法本身是否 可靠,一般是将特征选择的结果和以前得到的结果作一个对比。种验证方法是 在人工数据上,将结果和目标概念作对比:另一种是用不同的特征选择方法在真 1 4 基于神经网络的尿沉渣有形成分自动分类和识别研究第二章特征提取与特征选择 实数据上运行,然后对比结果。 2 2 3 特征选择实现 在进行分类器设计时候,我们通常会将所有的特征进行正规化 ( n o r m a l i z a t i o n ) ,使所有的特征的数值范围不会相差太大( 特别是对于神经网 络分类器) ,一般常用的方法有两种 2 0 : 将每个特征的数值范围进行线性调整,使其概率分布接近于平均值为零、 标准差为l 的高斯概率密度分布。 将每个特征的数值范围进行线性调整,使其范围落在 一1 ,1 或是 o ,1 , 本论文的范围是 0 ,1 。 假设我们现在希望从d 个特征中挑选出最佳的d 个特征,则我们共有 d ! ( d d ) ! d ! 种选择,这是一个相当可怕的式子,如果我们就这么求解,若d = 2 0 , d = 1 0 ,则我们共有1 8 4 7 5 6 种选择,计算消耗的时间是很长的,我们通常也不采 用这种完全搜索的方法来寻求最佳特征组合。下面是一些常用的方法: 1 0 n e p a s sr a n k i n g 2 s e a u e n t i a lf o r w a r ds e l e c t i o n 3 g e n e r a l i z e ds e q u e n t i a lf o r w a r ds e l e c t i o n 4 s e 口u e n t i a lb a c k w a r ds e l e c t i o n 5 g e n e r a l i z e ds e q u e n t i a lb a c k w a r ds e l e c t i o n 6 ”a d dm r e m o v en s e l e c t i o n 7 g e n e r a l i z e d ”a d dm r e m o v en ”s e l e c t i o n 8 e x h a u s t jv es e a r c h w h i t n e y 在1 9 7 1 年提出了一个选择次佳特征组的方法( w h i t n e y s n o n p a r a m e t r i cm e t h o d ) 2 1 ,其思路如下: l _ 使用最近邻域法( n nd e c i s i o nr u l e ) 和“依次挑一个”的错误率判别 法( 1 e a v e o n e o u te r r o r ) : 2 第一个挑选的特征必定是错误率最小的特征: 3 下一个挑选的特征必定是和原本已选取的特征合并后,误差率最小的一 基于神经网络的尿沉渣有形成分自动分类和识别研究 蔓三童壁堡堡塑皇壁堑垂竖 个; 4 重复步骤3 ,直至挑选d 个特征; 我们可以使用上述方法对i r i s 资料进行特征提取。i r i s 资料共有样本1 5 0 个,分成三类,4 个特征( 第三章有介绍) 。我们使用k n n 分类器进行分类。 1 s f s ( s e q u e n t i a lf o r w a r ds e l e c t i o n ) 方法 从图2 1 可以看出,s f s 选的特征分别是 l , 2 , 3 ) ,f 4 ) , 3 ,1 ) , 3 ,2 ) , 3 ,4 ,( 3 ,4 ,1 , 3 ,4 ,2 ) , 3 ,4 ,l ,2 ,但最后却发现,只要使用 3 ,识别率就 可以达到9 4 7 ,但这并不是最佳识别率,因为s f s 本来就是一种启发式的方法, 计算速度快,但并不能保证可以找到最好的特征。 如果我们改用穷搜索的方法,将所有可能的特征组合全部算一遍,在速度上会比 较慢,但由于i r i s 资料的个数并不大,特征也只有四个,因此可以得到下面穷 举搜索法计算的结果。 2 穷举搜索法( e x h a u s t i v es e a r c h ) 如下图所示,由于i r i s 数据量以及特征维度都不大,因此穷举搜索法只需 基于神经网络的尿沉渣有形成分自动分类和识别研究第二章特征提取与特征选择 计算1 5 ( = 2 4 1 ) 个分类器,所得到的最佳识别率为9 6 ,所选择的特征是( 2 ,4 ) , 高于s f s 方法特征选择后的分类结果,这证明了s f s 方法能够得到比较好的选 择方案,但选择方案不一定是最优的,但启发式方法可以提高运算速度是显而易 见的,在数据量大,特征维度高以及运算复杂并且运算速度要求很高时,s f s 方法是很好的选择。 晒川怕t 酷峙旧l n 岬e i t e x h 8 峙t h e :1 5m o 酬8 8 0 ,护4 妙一一? ” 邑 ? j v _ 。 6 qr o 亨 星2 0 n 善詈差茎萋差毳差差差量毳 毳差 蚕萤 蚤量 !霉萑 喜霎喜l 牙荨 器2 l 图2 2 穷举搜索法用于数据特征提取过程 a 为了进一步验证该算法的正确性和使用性,下面这个例子使用六维随机数据 进行实验。实验数据共分为四类,即类别分别为1 、2 、3 、4 ,特征数据按照一 定的规则随机产生。如果采用启发式方法选择特征,需要2 1 个分类器,如果使 用穷举法,我们需要建立6 3 ( = 2 6 - 1 ) 个分类器。图2 3 为启发式方法用于六 维随机数据特征提取过程图示,图2 - 4 为穷举搜索法用于六维随机数据特征提取 过程图示: 基于神经网络的屎沉渣有形成分自动分类和识别研究 第二章特征提取与特征选择 r o g f l i t i o n 啪su s 旧 n p u t s e l t s e q u e 咖乱2 1m 0 d e b 妒_ 。、i厂、9 r 一一。 : 尸一飞 k 一r 、 、 ,白 “ 图2 3 启发式方法用于六维随机数据特征提取过程图示 融c o g n i t i 隔t 懈旧i 叩u t s d e c t e x h a u s t :m o d e l s 菡;x 心 n 噎鼻 b 和晰 r ;斟 图2 4 穷举搜索法用于六维随机数据特征提取过程图示 这组实验表明,s f s 方法与穷举搜索法得到了相同的选择结果,均选择( 1 ,2 , 3 ,4 ) 特征,达到了相同的识别率,但速度上s f s 比穷举搜索法快很多,这对 于数据量庞大,特征维度高的情况,是很有实际意义的。 2 3 结论 本章介绍了“尿沉渣图像有形成分自动识别项目”中提取的图像特征,分为 形态特征、基本统计特征和纹理特征等,共1 9 个。接下列介绍了特征选择的重 要性,采用了s f s 方法进行特征选择,这对于数据量大维度高的情况比较合适, 减少了运算时间,能够得到次优解。本论文分别应用u s 数据和随机产生的六 维数据进行了实验,证明了该方法的有效性,这对将来项目中面临巨大的图像特 征是非常有意义的。 一一o=u星 一)g星 基于神经网络的尿沉渣有形成分自动分类和识别研究第三章数据剪切及十倍镜下图像识别 第三章数据剪切及其十倍镜下图像识别 3 1 问题提出 在尿沉渣图像有形成分自动识别项目中,目前的图像分割算法还有待改进, 分割后的结果并不是特别理想,有时会出现过分割或者分割不全的情况,这就造 成了特征提取后特征数据出现问题;另外,由于图像分割后会细胞类别采用人工 标记,鉴于目前尿沉渣图像中各类图像并不是完全一致,标记人员可能是非专业 医务人员,长时间标记图片也会产生视觉疲劳,这也容易造成细胞类别标记错误 ( 至少有1 0 的错误率) ,所以这些原因导致了b p 神经训练和测试数据出现了 噪声。错误数据或者不良数据对分离器的学习和分类结果都造成了很大的影响, 如训练时间变长;训练复杂度增高;分类效果差等。 通过以上论述,我们认为去除无效数据或者困难数据是很有必要的。 下面我们首先介绍b p 神经网络,然后讨论数据剪切以及十倍显徼镜下尿沉 渣图像分类和识别。 3 2 b p ( b a c k p r o p a g a t i o n ) 神经网络 2 2 在模式识别领域,已经有很多的分类方法,如神经网络方法,k 近邻方法, s v m ,决策树等方法,本论文中主要使用b p 神经网络。 人工神经网络( 加倾c i a ln e u r a ln 酿v o 咄朋呵n ) 是通过模拟真实人脑神经网络 的结构和功能,将其基本特性进行理论抽象、简化而成的信息处理系统。它由大 量神经元相互有序连接而成,具有非线性动态适应特性。神经网络最基本的单元 是人工神经元,如图所示,神经元的输入相当于, - 来自其他神经元的输出,连接权值相当于神经元x 2 之间的连接强度。非线性函数厂是神经元输出的 置n 激励函数。神经元的反应由公式描述: ,圮f = - ,堆t ,y = ,( 珏p f ) ( 3 - 1 ) 图3 1 神经元模型 输出函数厂可以直接取作阈值函数。但许多重要的学习算法常要求输出函数,可 微,因此通常选用s i g m o i d 函数 m ) = 专或者m ) = 专一1 ( 3 _ 2 ) 基于神经网络的屎沉渣有形成分自动分类和识别研究第三章数据剪切及十倍镜下图像识别 当神经元f 接收另一神经元,的输出,并且两个神经元同时兴奋,从f 到_ ,的 连接权值就加强,反之则
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人工程分包合同协议书
- 2025年一级注册结构工程师专业基础考试题库及答案解析
- (2025)中小学教师资格证考试教育学心理学试题库及参考答案
- 2025年起重机械安装维修人员技师考试试题及答案解析
- 2025年度医疗护理员理论考核试题(+答案)
- 2025年初级电焊工考试题库(附答案)
- 解除房屋租赁合同协议(标准版)6篇
- 小龙虾养老食品创新创业项目商业计划书
- 广告传媒创意中心创新创业项目商业计划书
- 海洋主题游乐园设施升级创新创业项目商业计划书
- 矿山承包法律合同范本
- 时文语法填空-电影篇 《731》 《长安的荔枝》 《戏台》
- 主题一 2. 设计节电方案(课件) 综合实践活动教科版五年级上册
- 2025年幼师教材考试题目及答案
- 中医备案诊所管理办法
- 2025年高校教师资格证考试题库(附答案)
- 2025年家庭健康管理师考试模拟题及答案
- (康德卷) 重庆市2026届高三9月开学考联考英语试卷(含答案解析)
- 2025江苏省旅游发展研究中心自主招聘4人考试参考试题及答案解析
- 绿化施肥基本知识培训课件
- 选调生培训课件
评论
0/150
提交评论