(计算机软件与理论专业论文)医学图像智能分类算法研究.pdf_第1页
(计算机软件与理论专业论文)医学图像智能分类算法研究.pdf_第2页
(计算机软件与理论专业论文)医学图像智能分类算法研究.pdf_第3页
(计算机软件与理论专业论文)医学图像智能分类算法研究.pdf_第4页
(计算机软件与理论专业论文)医学图像智能分类算法研究.pdf_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 医学图像的数据挖掘旨在从海量的图像数据中挖掘出有效的模型、关联、规 则、变化,以加速医生决策诊断的过程和提高其决策诊断的准确度。本文是在参 与实施国家自然科学基金项目“基于医学图像的数据挖掘技术研究”的过程中, 针对医学图像数据挖掘所涉及的一些关键技术和主要算法进行了深入的研究。提 出了适合乳腺图像的预处理、特征的提取和选择以及分类算法,研究成果可应用 于计算机辅助诊断系统中。主要工作和创新点在以下几个方面: 1 本文将数据挖掘技术与数字图像处理技术有机结合,研究了图像数据的 变换、特征提取、约简和模式分类,提出了适用于医学影像数据挖掘的 技术路线和理论框架。 2 建立了一套比较完整的可以表征乳腺图像各方面特性的特征矢量。在这 些特征上进彳亍数量型数据的离散化,并利用模糊聚类算法来进行特征优 选,为肿瘤良恶性计算机辅助分析提供了前提和基础。 3 研究了决策树分类算法,引入了“属性重要度”的概念,对决策树算法 进行改进。提出了用决策树算法进行乳腺x 线照片分类的方法,对乳腺 癌典型病例数据进行分类,得到了较高的分类准确率。 4 研究了关联规则算法,以及关联规则分类的方法。针对关联规则中计算 规模较大的问题,采用扩展项钮属性,添加项约束标记的思想,对a p r i o r i 算法进行改进。提出了用关联规则算法进行乳腺x 线照片分类的方法。 5 将基于r o u g h 集的方法用于图像特征降维,采用区分矩阵和区分函数实 现属性约简。将基于r o u 豇集的方法和关联规则分类技术相结合用于关 联规则提取,提出了基于粒的二进制计算提取关联规则用于乳腺x 线照 片分类的方法,提高了处理的效率。 关键词:数据挖掘医学图像决策树关联规则 粗糙集 i n t e l l i g e n tc l a s s i f i c a t i o na l g o r i t h m s o nm e d i c a li m a g e s a b s t r a c t d a t am i n i n gc a nb eu s e dt op r o c e s sm e d i c a l i m a g e si no r d e rt oc 0 1 l e c tm o d e l s , b u i l dr e l a t i o n s ,r u l e s ,a n df i n dd l a n g e s 矗o mm a s sa m o u n to fd a t a ,w h i c hw o u l da l s o r e d u c et h ed u r a t i o no fd i a g n o s i sa i l di m p r o v e 血ea c c u r a c yo fd i a g n o s i sm a d eb y d o c t o r s t h i sd i s s e r t a t i o nf o c u s e so nm a i nt e c h n i q u e sa n da l g o r i t h m so f 印p l y i n gd a t a m i n i n g t o p r o c e s s i n g m e d i c a l i m a g e s b 踮e do nm a r n m o 铲印hd a t a b a s e ,t h e p r 印r o c e s s i n g ,f e a t i l r ee x t r a c t i o na r l ds e l e c t i o n ,a sw e l la sc l a s s i f i c a t i o na l g o r i t h m sa r e e x p l o r e d t h er e s e a r c hw o r kc a nb eo 曜a i l i z e di nm ef o l l o w i n ga s p e c t s 1 u s i n gw i t ht e c l l i l i q u e so fd a t am i n i n ga n dd i g i t a li m a g ep r o c e s s i n 岛t h i s d i s s e r t a t i o ne x a m i n e st h et r a n s f o r n l a t i o n ,f e a m l ee x t r a c t i o n ,r e d u c t i o na i l dp a n e m r e c o g n i t i o no fi m a g ed a t a ,a n dp r o p o s e sap r o t o t y p ea i l dm e c h a l l i s mo fh o w t o 印p l yd a t am i n i n gt e c h n i q u e st op r o c e s sm e d i c a li i l l a g e s 2 as e to ff e a t l l r ev e c t o r sc o m a i n i r l ga l m o s ta l li i l f o 玎i l a t i o no fm a i m o 孕印ha r e e s t a b l i s h e d b a s e do nt h e s ef 宅a t i l r ev e c t o r s s c a l a rd a t ac a nb ed i s c r e t i z e da n d f b a t u r ed e t e c t i o nc a nb ed o n eu s i n g 血z z yc l u s t e r i n ga l g o r i t l l i l l ,w h i c hi sm e p i e c o n d i t i o no f c o n l p u t e 卜a i d e dd i a g n o s i s 3 b a s e do nd e c i s i o nt r e ea l g o r i t h n ,t h ec o n c e p to fp r i o r i t yo fa t 砸b u t e si s p r e s e l l t e d u s i n gt h i sc o n c 印t ,m a m m o 黟a p hc a nb ec a t e 9 0 r i z e da i l dt y p i c a l i m a g ed a t ao fb r e a s tc a n c e rc a nb er e c o g n i z e d h lt h j sw a y ,m ea c c u r a c yo f c a t e 9 0 r i z i n gc o u l db e 伊e a t l yi n l p r o v e d 4 t h ea l g o r i m mo fa s s o c i a t i o nn 1 1 ea i l d 锯s o c i a t i o nm l ec l a s s 谪c a t i o na r e t 1 1 0 m u g h l ye x 锄i n e d r e g a r d i n gt ot h e1 a 唱es c a l eo fc a l c u l a t i o nu s i n ga p r i o r i a l g o r i t h r n ,a n 印p r o a c ho fa d d i n gr e s t r i c t i o nt ot h ea t t 曲u t e so f e x t e n d e di t e m si s p r e s e n t e d ,w h i c hc a nb eu s c dt oc a t e g o r i z em a m m o g r 印h , 5 r o u 曲s e ta p p m a c hc a nb eu s e df o rf e a t u r ep r o j e c t i o na n dp a t t e md i m e n s i o n r e d u c t i o nb a s e do nd i s c e m i b i l i t ym a m xa n d 劬c t i o n h lt h i sd i s s e r t a t i o n , r o u g hs e t 印p m a c hc o m b i n e dw i t ha s s o c i a t i o nm l ea l g o r i t h ma r ep r o p o s e di n a s s o c i a t i o nm l ea b s t r a c t i o n i na d d i t i o n ,an e wb i n a r ya l g o r i t h mb a s e do np a n i c l e t oc a t e g o 打z em a m m o 野a p hi sp r e s e n t e d t h er e s u l to fe x p 甜m e n ts h o w sm a tt h e p r o p o s e da p p m a c hc a ng r e a t l yi m p r o v et h ea c c u r a c yo f c l a s s i f i c a t i o n 1 1 1 i sr e s e a r c hi s 向n d e db yt h en a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o no fc h i n a k e y w o r d s :d a t am i n i n g ,m e d i c a l i m a g e s ,d e c i s i o nt r e e ,a s s o c i a t i o nm l e ,m u 曲s e t 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻 读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被 查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学 位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文 章一律注明作者单位为西北大学。 保密论文待解密后适用本声明。 学位论文作者签名: 盈噬亟指导教师签名:f 望i 必至 加石年f 月f 日 2 彪年z 月,口目 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谓t 的地 方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含 为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。 学位论文作者签名: 纱a 署钐 一6 年f 其| b 第一章绪论 本文研究内容来源于国家自然科学基金资助项目“基于医学图像的数据挖掘 技术研究”( 6 0 3 7 2 0 7 2 ) 。本章主要介绍医学图像数据挖掘模型和技术方法,数据 挖掘智能算法及计算机模式识别技术在医学图像处理中的应用,乳腺肿瘤计算机 辅助诊断在国际国内的研究现状和存在的问题,本文研究的背景、意义、研究内 容及全文的组织结构。 1 1 引言 数据挖掘是数据库系统和新的数据库应用最活跃的学科前沿,数据挖掘就是 从大量的、不完全的、有噪声的数据中,提取新颖的、有效的和潜在有用的信息, 发现隐含在其中的模式、特征、规律和知识。在实际应用中,往往根据模式的实 际作用细分为以下几种:分类、聚类、回归、序列、时间序列等。数据挖掘处理 的数据类型非常丰富,包括文本数据,关系数据库,多媒体数据、w e b 页面等。 数据挖掘获取的知识可用于信息管理、查询优化、决策支持、过程控制、计算机 辅助诊断以及数据自身的维护,其应用领域非常广泛。数据挖掘所处理的数据类 型很丰富,数据挖掘的应用领域也非常广泛,但针对特定领域( 如医学) 的复杂 数据类型的数据挖掘新方法还有待研究。m d m k d d 2 0 0 2 年会【l 】表明多媒体数据挖 掘的思想已经开始向医学图像、台风预报预测等领域扩展,加拿大、美国和日本 等国家的科学家已在这方面进行了研究,4 1 ,取得了一定的进展。 医学图像的数据挖掘旨在从海量的图像数据中挖掘出有效的模型、关联、规 则、变化、不规则以及普遍的规律,以加速医生决策诊断的过程和提高其决策诊 断的准确度。随着医疗数字化设备的快速发展医学信息数据库中不仅包括病人 的结构化的信息,还包括病人大量非结构化的医学图像信息,为医学图像的数据 挖掘提供了丰富的数据源。 鉴于上述情况,医学图像数据挖掘的研究是一项复杂的,具有挑战性的和多 学科交叉的工作,正方兴未艾,开展基于医学图像的数据挖掘技术的研究具有重 要的理论意义和实用价值。 随着数字成像技术和设备的广泛应用,每天都产生大量的图像数据,如数字 照片、医学图像、卫星图像等。对这些图像进行大量自动分析以获取有用知识的 需求开益增加。图像数据挖掘技术提供了有效的方法和技术。图像数据挖掘 ( i m a g ed a t am i n i n g ,i d a ) 是在图像数据库中自动提取隐含的、先前未知的和 潜在有用的知识,以及图像数据关系,自动抽取具有语义意义的信息,从而为图 像智能化处理服务的非凡过程。它是一个集中了计算机视觉、图像处理、图像检 索、数据挖掘、机器学习、数据库和人工智能等技术的多学科交叉的研究领域。 由于缺乏对图像数据挖掘的深刻理解及其本身存在些理论和技术障碍,所以研 究进展缓慢。 理论上图像数据挖掘是数据挖掘的一个分支,但是由于挖掘对象的复杂性, 图像数据挖掘不是传统的数据挖掘理论与技术在图像数据上的简单应用和延伸, 而是一个具有自己独特研究内容、理论与技术框架的新的研究领域。 近年来,随着计算机及相关技术及图形图像技术的广泛应用,使医学领域, 尤其是临床诊断发生了重大的变化,开创了数字诊断新时代。借助于图形、图像 技术的有力手段,医学影像的质量和显示方式得到了极大的改善,从而借助于图 像处理与分析技术使得诊疗水平大大提高。这不仅可以以现有的医学影像设备来 极大地提高医学临床诊断水平,而且还能为医学培训、医学研究与教学、计算机 辅助临床外科手术提供数字实现手段,为医学的研究和发展提供坚实的基础。因 此,目前世界上许多国家的研究机构开始致力于这个领域的研发工作,医学影像 处理与分析- 的研究正受到普遍的重视。 随着各大医院已基本普及了计算机的使用,尤其是许多医院使用了p a c s ( p i c t u r ea f c m v i n ga 1 1 dc o m m u n i c a t i o ns y s t e m ) ,收集了大量病人的影像数据, 如何充分利用以前的确诊病例和医生的临床诊断经验以及当前病人的信息,使计 算机快速有效地帮助医生诊断病例,正是计算机辅助医学诊断系统要实现的目 标。人们致力于这一领域的研究做了许多的工作,开发了一些计算机辅助医学诊 断系统。但现存的计算机辅助医学诊断系统基本上都是基于知识的专家系统,往 往存在知识获取的瓶颈、知识的脆弱性、推理的单调性等方面的缺陷。这些系统 在知识的获取与表达上存在困难,且带有一定的主观性,锗能性和鲁棒性都比较 差 5 1 。 数据挖掘和模式识别是目前人工智能领域研究最为活跃的方面,如果在计 算机辅助医学诊断系统中引入数据挖掘和知识发现则可部分地解决上述问题。数 据挖掘就是从大量数据中获取正确的、新颖的、有潜在价值的和最终可以理解的 模式的非平凡过程。而知识发现( k d d ) 则是数据挖掘、模式识别、人工智能、 统计学、数据可视化等多学科相互交融形成的具有广泛应用前景的交叉学科。 基于医学影像数据库的数据挖掘和知识发现( k d d ) ,提示其中的医学诊断规则 和模式,从而辅助医生做出正确的诊断,是一项具有挑战性和很大应用价值的研 究。 本项目的研究将医学图像的处理技术与数据挖掘技术有机结合,研究医学 图像数据的特征提取和加载方法、医学图像数据的分类方法。通过从海量的图像 数据中挖掘出关联规则与有用的信息,帮助医生找出疾病高发的人群,疾病程度 与各种隐含信息的关系,辅助决策诊断过程,提高准确度。该项研究具有重要的 理论意义与广阔的应用前景。 1 2 国内、外研究现状 近年来,围绕医学图像的数据挖掘技术,国外美国、日本、加拿大等国家已 开展研究,取得了一定的进展。如美国爱荷华州立大学的a k u s i a k 等人 6 】提取 了5 0 个肺癌病人的一般信息( 如年龄、性别等) 和x 光影像数据等1 8 个特征数据, 将粗糙集( r o u g hs e t ) 理论应用于数据挖掘,从而提高了肺癌病人早期诊断的 正确率;日本合作研究发展中心的m i t s u r uk a k i m o t o 等人【提出了用逻辑回归 分析算法( l o g i c a lr e g r e s s i o na n a l y s i sl r a ) ,提取关联规则从而发现了脑部 功能与手指活动和说话行为之间的关系。日本y u s u k eu e h a r e a 等人【4 】在 m d m k d d 2 0 0 2 年会上提出了基于假设驱动( h y p o t h e s i s d r i v e n ) 的多媒体数据挖 掘过程的思想理论;加拿大a l b e r t a 大学计算机系的o s a rr z a i y a n e 【8 】等人就 神经网络和关联规则挖掘技术在乳腺癌分类研究中的应用进行了分析对比,认为 神经网络的方法对数据集不平衡性的敏感程度低于关联规则挖掘方法。 在国内数据挖掘研究方面,清华大学石纯一、陆玉昌教授、中科院计算所史 忠植研究员、中国科技大学王煦法教授等已取得了许多研究成果,但在医学图像 的数据挖掘方面的研究较少。上海交通大学生物医学工程系庄天戈教授采用当 代乳腺疾病x 线诊断图谱中的2 3 0 个病例数据,进行了数据挖掘的尝试。由中 国科学院自动化研究所田捷教授、北京大学包尚联教授、西北大学周明全教授合 著的专著医学影像处理与分析一书【9 1 ,系统地介绍了医学影像处理与分析技 术,涵盖计算机断层扫描成像技术、医学图像的分割、医学图像的配准、医学图 像的三维重建与可视化技术、虚拟内窥镜技术及p a c s 系统等内容。总之,国内 在这方面的研究还处于起步阶段。 1 3 论文选题来源及研究背景 本文研究内容来源于国家自然科学基金资助项目“基于医学图像的数据挖掘 技术研究”( 6 0 3 7 2 0 7 2 ) 。 目前的数据挖掘技术主要应用于以结构化数据为主的关系数据库、事务数 据库和数据仓库,对复杂类型数据的挖掘尚处在起步阶段。复杂数据包括复杂对 象、空间数据、多媒体数据、时间序列数据、文本数据和w e b 数据。医学信息数 据库中不仅包括病人的结构化的信息,还包括病人大量非结构化的医学图像信 息。基于医学图像数据库的数据挖掘,旨在揭示其中的医学诊断规则和模式,从 而辅助医生做出正确的诊断,是一件具有挑战性和有发展前途的工作。对医学影 像数据库的数据挖掘一般有以下过程: 1 ) 获取数据集 2 ) 数据预处理( 数据清理、数据集成和变换、数据归约) 3 ) 特征的选择与提取 4 ) 选择合适的挖掘算法 5 ) 实施数据挖掘 6 ) 解释和评估挖掘结果 7 ) 使用所发现的规则和模式 对医学影像数据库进行数据挖掘和知识发现的主要目的是预测和分类疾病。 分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未 来的数据趋势。分类是预测分类号( 或离散值) ,而预测是建立连续函数模型;数 据分类的基本技术有决策树、贝叶斯分类及贝叶斯网络、神经网络、k 一最近邻 分类,基于案例的推理和支持向量机等。预测方法有线性、非线性和广义线性回 归模型。具体情况下,可对上述的这些技术进行适当的修改、扩充和优化,才能 应用到各种特殊的医学影像数据库中进行疾病的分类和预测。 乳腺癌在美国是妇女发病率占第一位的癌症,死亡率是在女性肿瘤中名列前 几位【1 0 。在中国,尤其是在发达的东部地区,乳腺癌也有增长的趋势。美国已 把基于数据挖掘技术的乳腺癌计算机辅助诊断作为主攻方向,欧洲一些国家也已 在这方面做了很多研究,如英国、荷兰和德国。 美国的p l l r d u e u n i v e r s i t y ( 1 l 】,u n i v e r s i t y o f c h i c a g o 等大学【1 2 】,英国的m a i i c h e s t e u n i v e r s i t y 大学【1 3 1 ,加拿大的t h eu n i v e r s i t yo fc a l g a f y 大学1 川在研究乳腺癌计算 机辅助诊断方法和开发相应软件方面做了持续、广泛和深入的研究。由于基于乳 腺钼靶x 线图像的c a d 需要的资源相对简单,开展这方面工作所需的外部环境 相对比较容易建立所以非常适合大学的研究部门开展工作。 美国的r 2 公司旧开发了基于乳腺钼靶x 线图像的计算机辅助诊断系统, h n a g e c h e c k e r s y s t e m ,该软件的假阳性为o 3 ,精确度为9 8 。然而中国在这个 领域的研究还是空白,目前北京大学已经开始介入该领域的研究工作,开发了用 于特征识别和分割的一些方法“。尽管这方面的研究已取得了一定的进展,但 是仍然具有挑战性。需要开发更好的增强和分割算法,设计更好的特征提取和选 择算法。为了降低假阳性和假阴性,需要进行分类器的设计,确定一个较客观的 评价标准,进行多模态乳腺图像的融合,进行三维乳腺图像重建等。 钼靶x 线是一种低剂量的软性x 线,成像所需剂量也很低,它可以“看“到 小于o 1 毫米钙化点和钙化簇,以及囊肿,高密度组织中的肿瘤,而且具有易操 作、费用低等特点,因此钼靶x 线是国际上广泛用于乳腺癌的普查和鉴别诊断 的手段。而m r j 图像、电子计算机断层扫描f c t ) 及超声波图像仅作为一种补充 的检测方法,一般不作为乳腺病变的常规检查手段【l ”。本论文研究工作的数据 来源于铝靶x 线图像。 导师周明全、耿国华教授带领西北大学可视化研究所的研究人员和学生在医 学影像数据库、医学影像分割、配准及医学影像软件开发等方面己做出了一些成 绩,具备开展这方面研究的工作基础。可视化研究所近十年来围绕医学图像数据 处理领域开展了大量的研究工作,承担并完成了“虚拟内窥镜”,“p a c s 医学 影像系统”,“数据挖掘技术的研究与实现”,“计算机辅助文物复原技术研究”, “三维医学可视化系统”、“基于内容检索技术研究”等多项国家级、省部级 项目,在医学图像处理与检索技术方面积累了重要研究数据与经验,完成了“基 于免疫计算的数据挖掘方法研究”课题,在免疫数据挖掘算法研究上取得重要的 进展,为基于医学图像的数据挖掘技术研究提供良好的技术支持。该论文是 对所做工作的总结,也是在实际应用研究中发现问题、提出问题和解决问题的过 程。 1 4 本论文研究内容 本文研究内容是结合计算机图像处理、模式识别、数据挖掘等技术,利用当 前关于医学图像最新研究成果,解决基于医学图像的计算机辅助诊断过程中的关 键问题,实现一个乳腺肿瘤计算机辅助诊断系统,有效提高癌症诊断的准确率, 减少把良性病人送去做活检的比例。 具体研究内容有以下几个方面: 1 ) 基于乳腺图像的计算机辅助分析技术研究 较为系统地介绍了国内外在计算机辅助乳腺x 光图像分析领域的工作成果, 并详细分析了图像的预处理、特征提取及计算机辅助乳腺肿瘤分类、诊断等各 方面的最新成果。 2 ) 图像的预处理和图像增强 由于实际数据常常存在不完整性、噪声和不一致性,预处理就变得很重要。 在图像的生成、传输或变换过程中,由于多种因素的影响,总会造成图像质量的 下降,图像增强的目的是采用一系列技术改善图像的效果或将图像转换成更适合 处理的形式。本课题将研究图像预处理和图像增强的相关算法。 3 ) 特征提取和数量型属性离散化 拟提取基于纹理的特征,基于肿瘤形状的特征以及统计特征等,采用模糊聚 类算法来优选特征,被抽取的特征组织在个事务数据库中,作为分类系统挖掘 的输入。 为了使用相关分类算法进行挖掘,数量型属性必须离散化。研究离散化的常 用算法,分析其优劣,并利用c a 算法将数量型属性离散化成若干个优化的区间。 4 ) 决策树算法分类 6 对医学影像数据库进行数据挖掘和知识发现的主要目的是预测和分类疾病。 本论文研究了统计学习理论和决策树分类算法。决策树归纳学习是应用最广的归 纳推理算法之一,它是一种逼近离散值函数的方法,对噪声数据有很好的健壮性 且能够学习析取表达式。本文用c 4 5 算法建立决策树,用先剪枝法进行修剪, 对乳腺癌典型病例数据进行分类。 5 ) 基于乳腺图像的关联规则挖掘算法研究 关联规则的重要特点为关联是自然组合的,这对发现所有属性的子集存在的 模式非常有用,如果能够发现医疗数据集中各属性的关联,对辅助医疗诊断十分 有意义。探索利用关联规则算法( a p r i o r i 算法) 来挖掘关联规则,再对测试样 本利用发现的关联规则进行分类,构建进行医学图像数据挖掘过程的机器学习机 制。 6 ) r o u g h 集理论及其在乳腺图像数据挖掘中的应用 r o u 曲集理论是一个强大的数据分析工具,在应用中不需要先验知识,完全 是根据现有数据分析得出结论。r o u 曲集的核心内容是属性约简和规则提取。 本文主要研究r o u 曲集在属性约简和图像分类中的应用,用基于粒计算的二进制 运算方法提取关联规则,进行图像的分类等。 7 ) 乳腺肿瘤计算机辅助诊断系统 以本课题研究的算法思想为理论基础,实现图像预处理、医学图像特征提取 和特征的选择、属性的离散化、基于决策树的分类器、基于关联规则的分类器、 r o u 曲集在属性约简和图像分类中的应用等。 1 5 本论文的组织结构 全文共分八章。 第一章是绪论部分,主要介绍医学图像数据挖掘模型和技术方法,数据挖掘 智能算法及计算机模式识别技术在医学图像处理中的应用,乳腺肿瘤计算机辅助 诊断在国际国内的研究现状和存在的问题,本文研究的背景、意义、研究内容及 全文的组织结构。 第二章对基于乳腺钼靶x 线图像的计算机辅助诊断技术的国内外现状进行了 回顾。综述了数据挖掘原型系统d b m i n e r ,基于乳腺x 线图像的e d i a m o n d 网 7 格系统,常用的各种分类算法,基于纹理的结构紊乱分析,特征提取和特征选择 技术,及国内外研究现状,并对算法进行了详细的比较。 第三章介绍了基于钼靶x 线图像的乳腺肿瘤计算机辅助诊断系统的框架、功 能以及流程。 第四章针对乳腺钼靶x 线图像的特点,研究了图像数据的预处理、特征提取、 数量型数据的离散化等技术,并利用模糊聚类算法来进行特征优选。为肿块分割、 特征提取及分类奠定了基础。 第五章研究了统计学习理论和决策树分类算法,采用“属性重要度”的概念, 对决策树算法进行改进。提出了用决策树算法进行乳腺x 线照片分类的方法,用 c 4 5 算法建立决策树,实现了对乳腺癌典型病例数据分类。 第六章研究了关联规则算法a p r i 耐,关联规则分类的方法,关联规则分类中 存在的问题。针对关联规则中计算规模较大的问题,结合关联规则用于分类的特 点,提出用扩展项的属性,添加约束标记的思想,对a p r i o r i 算法进行改进。提出 了用关联规则算法进行乳腺x 线照片分类的方法。 第七章研究了基于r o u g l l 集的方法用于图像特征降维,进行了属性约简。将 基于r o u g h 集的方法和关联规则分类技术相结含用于关联规则提取,提出了基 于粒的二进制计算提取关联规则用于乳腺x 线照片分类的方法,提高了处理的效 率。 第八章对本文的各个技术点和工作做出总结,同时提出了进一步研究的方向, 对相关技术的发展进行了展望。 第二章国内外研究现状分析 本章对国内外在数据挖掘和计算机辅助医学图像分析领域的现状和发展进 行较为系统地介绍,并详细分析了计算机辅助乳腺肿瘤分类、诊断等各方面的最 新成果。 乳腺癌在美国等发达国家是女性发病率占第一位的癌症,也是死亡率较高的 女性肿瘤。在中国,尤其是东部经济发达地区,乳腺癌也大有增长之势。美国芝 加哥大学医学院放射系的m l g i g e r 教授领导的小组在研究乳腺癌辅助诊断 方法和开发相应软件方面做了非常广泛的工作,她应邀参加了2 0 0 1 年l o 月在北 京举办的医学物理和工程国际会议,并在会上做了题为“c o 唧u t e r a i d e d d i a 印o s i si nm e d i c a li m a 西n g ”的报告。她们的研究结果表明:基于医学影像的 计算机辅助诊断可以有效地提高癌症诊断的准确率,减少假阳性和假阴性的比 例,减少良性病人送去做活检的比例,从而也减少了医疗费用,减轻了病人家庭 的经济负担和给病人造成的痛苦。 计算机辅助医学图像分析主要涉及两方面的基础:医学图像处理和肿瘤病理 特征。在临床上的应用主要表现在两个方面:其一是把可疑病灶尽可能准确地找 出来,提供给医生作为进一步诊断的参考依据,防止漏诊;其二是在大量影像数 据分析的基础上实施数学建模,把在影像学上容易混淆的正常组织和病灶组织通 过模型参数的选择区分开来,找出真正的病灶,提高诊断准确率。基于医学影像 的信息处理是一件非常复杂的工作,即使在美国那样技术高度发达的国家也还没 有形成一个产业。在中国,系统开展这方面研究工作的单位还不多,和临床的结 合还有相当远的距离,因此需要解决的问题还很多,在中国开展这方面的研究是 非常有意义的【1 7 】。 2 1 数据挖掘原型系统d b m i n e r 国际知识发现研究知名学者,加拿大s i m o nf r a s t e r 大学的j i a w e ih a n 教授 领导的课题组开发了数据挖掘原型系统d b m i n e r 。这是一个交互式、多层次挖掘 系统,可以从数据库中挖掘不同层次知识,包括一系列的挖掘功能:概括、特征、 分类、预测。在该系统中提供了一种交互式的类s q l 语言一数据挖掘查询语言 9 d m q l ,能与关系数据库平滑集成,实现了基于c s 结构的u n i x 和w i n m 版本。 j i a w e ih a n 和m i c h e l i n ek a n l b e r 合著的d a t am i n i n gc o n c 印t sa n dt e c h i l i q u e s 一书,全面系统介绍了数据挖掘的基础知识和最新进展,是研究数据挖掘人员的 必读文献。 2 2 基于乳腺x 线图像的e d i a m o n d 网格系统 布拉德利( m i c l m e lb r a d y ) 是牛津大学信息工程教授,由他率领的研究小组 将网格技术和医学图像处理技术结合起来,在乳腺肿瘤辅助诊疗方面取得了不少 成果【1 9 】。 牛津大学和m m 共同设立了e - d i 锄o d 网格系统,网格运算可以创造出巨大 的数据库,专家们可以高效率地从中找出有用的信息,比如是否应当进行组织切 片检查,从而有助于诊治乳腺癌等疾病。放射线专家不仅能看到他们自己在癌症 防护中心得到的乳房x 光照片,还可以和其它中心的照片进行比较对照,这样就 能得到更有代表性的癌症病例样本。 图2 1 是系统的数据获取工作站的主界面。该系统可以输入数字图像,对图 像进行标注,建立数据库,并具有可视化平台。 口 图2 1e - d i 锄o n d 网格数据获取工作站的主界面 图2 2 是e d i a m o n d 网格系统的数据挖掘窗口,可以提取各种特征,包括 边界、形状、纹理等,激活网格可以从数据库中找到需要的信息。 图2 ,2e d i a m o n d 网格系统的数据挖掘窗口 2 3 数据挖掘中的分类算法 分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预 测未来的数据趋势。许多分类和预测方法已经被机器学习、专家系统、统计学和 神经生物学方面的研究者提出。大部分算法是内存驻留算法,通常假定数据量很 小。最近的数据库挖掘研究开发了可伸缩的分类和预测技术,能够处理大量的、 驻留磁盘的数据。 数据分类是在一个数据库的对象集中发现一般性( 共性) ,并按照分类模型将 数据对象分成不同的类的过程。为构造这一分类模型,一个样本数据库被称作是 训练集,其中的每一个元组由同样的多个属性( 特征) 组成,而作为一个大型数 据库的元组,并且每个元组都有一个已知的分类标识与之对应。分类的目标是 首先分析训练数据,并利用数据的某些特征对每个类给出一个精确的描述或给出 一个模型。这样的类描述在数据库中被用于分类将来的测试数据或给出一个更好 的用于数据库的每一类的描述( 称为分类规则) 。数据分类的方法很多,包括决 策树、统计学方法、神经网络、关联规则、粗糙集、最近邻方法、支持向量机等 等。乳腺肿瘤的良恶性分类属于复杂数据类型的分类问题,因此是一件非常复杂 的工作。 加拿大a l b e r t a 大学计算机系的m a r i a _ l u i z aa n t o n i e 和o 锄a rr z a i v a n e 等 人2 0 0 1 年在美国旧金山m d m ,k d d 年会上,提出了数据挖掘技术在医学图像分 类中的应用方法【8 】。研究了数据挖掘对乳腺图像数据的分类方法,包括预处理图 像、图像分类过程、特征提取、神经网络的应用和关联规则挖掘方法。论文就神 经网络和关联规则挖掘技术在乳腺癌分类研究中的应用进行了分析对比。认为神 经网络的方法对数据集不平衡性的敏感程度低于关联规则挖掘方法,但关联规则 分类的优点是训练的时间比其他的分类算法要少。 1 决策树 决策树( d c c i s i o n e e ) 是一个类似流程图的树结构,树的每个叶节点表示不 同的类别,其每个内结点代表属性值,这样就给出了相应于该分支的属性,树的 边表示这个属性不同的值,即分支与属性的每一个可能值相对应。通过沿着树的 路径对数据对象进行分类。一般的决策树分类方法分为两个阶段:树的构造和树 的修剪。 文献f 2 0 。2 2 】乖j 用模糊逻辑技术提高决策树的性能。文献用模糊决策树对8 2 幅图像迸行分类,精度为9 2 。并与k n n ,贝叶斯和决策树( d 3 ) 算法进行了 对比,结果表明模糊决策树算法的性能好于以上三种算法。 2 关联规则 关联规则( a s s o c i a t i o nm l e ) 挖掘就是从大量的数据中挖掘出有价值描述数据 项之间相互联系的有关知识。 给定一个事务集d ,挖掘关联规则问题就是产生支持度和可信度分别大于用 户给定的最小支持度( m i r l - - s u p ) 和最小可信度( m i n - c o n f ) 的关联规则。 关联规则挖掘在许多领域得到广泛的应用,关联规则的典型应用是对大型 超市的购物篮分析,还有股市分析、银行存款分析、人口普查等。 加拿大a l b e r t a 大学计算机系的o s m a rr z a i y a n e 鲫等人就神经网络和关 联规则挖掘技术在乳腺癌分类研究中的应用进行了分析对比,认为神经网络的方 法对数据集不平衡性的敏感程度低于关联规则挖掘方法。 目前,探索医疗数据的关联规则,有助于辅助疾病的诊断。关联规则的重要 特点为关联是自然组合的,这对发现所有属性的子集存在的模式非常有用,如果 能够发现医疗数据集中各属性的关联,对辅助医疗诊断十分有意义。由于乳腺x 1 2 线照片的对比度很低以及肿瘤组织的不同,因此识别数字化的乳腺x 线照片从 而精确区分良性肿瘤和恶性肿瘤是比较困难的,这也是开发一套辅助医疗人员的 分类器的主要原因。本文将对关联规则在乳腺x 线照片分类中的应用进行深入 研究。 3 贝叶斯信念网络( b b n ) 贝叶斯信念网络是一个有向无环图,每个节点代表一个给定的实际属性,而 每条弧代表每个节点之间的概率依赖。如果在两个节点之间没有弧连接,说明这 两个属性之间没有概率依赖关系。应用b b n 进行乳腺胂瘤分类的研究相对较少。 文献2 4 甾1 应用遗传算法优化贝叶额信念网络和神经节网络结构,其结果表明 优化后的这两个网络的分类性能相同,因此一个c a d 系统的性能主要依赖于特 征的选择和训练所用的数据库,而并非是某一个特定的分类器。文献【2 6 。2 7 1 提出贝 叶斯方法还可以用于神经网络以提高该分类器的鲁棒性。 4 人工神经网络( a 1 叮n ) 人工神经网络是一种并行的、分布式的信息处理结构,它的实质在于对外界 刺激或信号的自适应反应能力。神经网络的学习过程,主要是根据实际输出反应 与期望反应之间的偏差6 ,按照给定的学习算法,对网络参数和阚值进行反复的 自适应调节,直到对给定输入刺激模式集中每一个模式的输出反应偏差6 都在允 许范围内。由于人工神经网络中神经元个数众多,而且整个网络存储信息容量的 巨大,使得它具有很强的不确定性信息处理能力。正是因为人工神经网络的结构 特点和其信息存储的分布式特点,使得它相对于其它的判断识别系统,具有较强 的健壮性。 文献【2 8 1 用模糊技术分割感兴趣区域并从此区域中提取了特征,在此基础上 应用反向传播算法进行良性和恶性的分类。文献2 9 1 设计了一个m c p c n n ( m u l t i p l ec i r c u l a rp a t hc o n v o l u t i o nn e u r a ln e t w o r k ) 神经网络进行肿块的分类, 加拿大的t u l i oc s s 和r m r a n g a y y a n 【3 0 j 提取了三个形状特征和1 4 个基于灰度 共生矩阵的纹理特征,将这些特征进行各种组合后,作为神经网络的输入,他们 的研究表明形状特征的分类准确率高于纹理特征的分类准确率。 5 k 一最近邻分类( k n n ) 1 0 一最近邻分类法搜索模式空间,找出最接近未知样本的k 个训练样本。这 k 个训练样本是未知样本的k 个“近邻”。邻近性用欧几里德距离定义 d = 露丙 ,未知样本被分配到k 个最邻近者中最公共的类。当k = l 时, 未知样本被指定到模式空间中与之最邻近的训练样本的类中。 文献p ”将共生矩阵纹理特征和小波特征作为k n n 分类器的输入,在 n q m e g e n 数据库中的4 0 个乳腺图像上分类精度达到了1 0 0 。鼢a m e r 和a g h d a s i 在文献中比较了k n n 和a n n 的分类性能,发现a 1 q n 分类器有较好的分类 能力;文献将形状特征和共生矩阵纹理特征也作为k n n 分类器的输入,在与 【3 1 1 同样的图像数据上分类,但是分类精度大大低于文献【3 1 】,r o c 曲线下的面积 只有0 8 2 。 6 粗糙集理论研究与应用 粗糙集( r o u 曲s e t ,r s ) 理论是一种刻划不完整性和不确定性的数学工具,能有 效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的 知识,揭示潜在的规律。它是数据挖掘的一个重要分支,它的主要思想是在保持 信息系统分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。 粗糙集理论不需要先验知识,完全根据数据库中的值进行操作,特别适用于离散 数据,所以应用粗糙集处理连续属性之前必须先进行离散化。 现在,粗糙集已和数据挖掘和知识发现、决策系统、模糊集、神经网络、进 化算法、模式识别、机器学习和近似推理联系起来。特别是粗糙集已被用在可能 性推理、粒状计算、智能控制、智能代理模型和处理规范等方面。 美国爱荷华州立大学的a k u s i a k 等人【6 l 提取了5 0 个肺癌病人的一般信息 ( 如年龄、性别等) 和x 光影像数据等1 8 个特征数据,将粗糙集( r o u g hs e t ) 理论应用于数据挖掘,从而提高了肺癌病人早期诊断的正确率。 本文研究了粗糙集理论及算法应用,将基于r o u 曲集的方法和关联规则分类 技术相结合用于关联规则提取,提出了基于粒的二进制计算提取关联规则用于乳 腺x 线照片分类的方法,提高了处理的效率。 7 支持向量机( s v m ) 在有监督的机器学习方法中最主要的算法就是支持向量机算法,s v m 有两 大特点:压缩了训练样本中的信息和采用低v c 维数的决策曲面。在一定程度上 4 避免了神经网络中的“维数灾难问题”和b a y e s 网络中的“网络规模爆炸问题”。 目前,在乳腺肿瘤良恶性分析中,对s v m 的研究还很少。 a b a z z a i l i 等人 3 4 】在其提出的基于多分辨率和统计方法结合探测钙化点算 法中,应用s v m 减少了错误率。文献【3 5 _ 3 6 1 采用s m 0 ( s u c c e s s i v em i n i m a l o p t i m i z a t i o n ) 算法将钙化点分类,并分别选用了多项式和高斯函数作为核函数, 其实验表明,s v m 分类器进行钙化点分类时,对所采用的s v m 模型并不敏感, 分类精度9 0 。 2 4 腺体中的结构紊乱探测 结构紊乱、肿块及钙化点都是医生在乳腺癌诊断中所参照的重要特征,但是 在大多数情况下医生并不能象观察肿块那样容易地观察到乳腺中的结构紊乱。与 不对称分析一样,人们在这方面的研究也非常少。近期文献3 7 4 8 1 应用数字图像处 理技术探测到了存在于皮肤周围和腺体中的结构紊乱。 腺体中的结构紊乱探测过程如图2 3 所示: 图2 3 腺体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论