(生物医学工程专业论文)计算机辅助医学诊断系统的数据挖掘和知识发现研究.pdf_第1页
(生物医学工程专业论文)计算机辅助医学诊断系统的数据挖掘和知识发现研究.pdf_第2页
(生物医学工程专业论文)计算机辅助医学诊断系统的数据挖掘和知识发现研究.pdf_第3页
(生物医学工程专业论文)计算机辅助医学诊断系统的数据挖掘和知识发现研究.pdf_第4页
(生物医学工程专业论文)计算机辅助医学诊断系统的数据挖掘和知识发现研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(生物医学工程专业论文)计算机辅助医学诊断系统的数据挖掘和知识发现研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

英文摘要 。- - - - - _ 一 t h er e s e a r c ho fd u 1 am i n i n g a n dk n o w l e d g e d i s c o v e r yi nc o m p u t e ra l d e dm e d l c a l d i a g n o s i n g s y s t e m a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t o fs c i e n c ea n d t e c h n o l o g y ,e s p e c i a l l y t h e d e v e l o p m e n ta n de x t e n s i r ea p p l i c a t i o no ft h ec o m p u t e ra n dc o r m u n i c a t i o nt e e h n o f o g y , w eh a v ee n t e r e di n t oi n f o r m a t i o na g e s a n d a r eg o i n gt oe n t e ri n t ok n o w l e d g ee c o n o m i c a g e s k d da n da r t i f i c i a l i n t e l1i g e n c ea r ep u ti n t ot h ef i r s ti n g a r t n e r r e p o r t c o n c e r n i n gt h ef i v ek e yt e c h n o l o g y si m p o r t a n ti n f l u e n c e so ni n d u s t r yi i lf u t u f a3 5y e a r s t h ed e v e l o p m e n to fd a t a b a s e 、i n t e r n e ta n dw e bt e c h n 0 1 0 9 yr e s u l t si n t h e e x p l o s i o no fi n f o r m a t i o na n dt h ec o n t r a d i c t i o nb e t w e e nr i c h d a t aa n di a c ko f k n o w l e d g e a u t o m a t i ck n o w l e d g e a c q u i s i t i o nh a sb e c o m et h eb o t t l e n e c ko ft h e i n t e l l i g e n td i a g n o s i n gs y s t e m s d e v e l o p m e n t s o ,t h er e s e a r c ha n da p p l i c a t i o no f v a t i o u sk n o w l e d g ed i s c o v e r ys y s t e m sr e c e n t l yb e c o m ea ni m p o r t a n tr e s e a r c hf ie l d w i t ht h eh o s p i t a lu s i n gc o m p u t e r sf o ra c q u i r i n gi n f o r m a t i o n ( s u c ha su s i n gp a c s s y s t e m s ,a n ds oo n ) v a r i o u sm e d i c a ld a t a b a s e sh a v eb e e ns e tu pc o n t i n u a l l y t h e r e a r es t r o n gn a t u r eo f e x p e r i e n c e 、p r a c t i c ea n ds t a t i s t i ci nm e d i c a lt e c h n o i o g y w h i c h m a k e st h ea p p l i c a t i o no fd a t am i n i n ga n dk n o w l e d g ed i s c o v e r yi nm e d i c a ld i a g n o s i n g f i e l dh a v es i g n i f i c a n tp r a c t i c a lv a l u e sa n dw i d ed e v e l o p m e n tf u t u r e t h i sp a p e ra n a l y s e sa n ds y n t h e s i z e st h ea p p l i c a t i o na n dd e v e l o p m e n ts t a t u so f d a t am i n i n ga n dk n o w l e d g ed i s c o v e r yi nc o m p u t e ra i d e dm e d i c a l d i a g n o s i n gs y s t e m r h ep a p e rs h o w st h a ti t i s u r g e n t yn e e d e di nt h ed e v e l o p m e n to fc o m p u t e ra j d e d m e d i c a ld i a g n o s i n gs y s t e mu s i n gd a t am i n i n ga n dk n o w l e d g ed i s c o v e r y t e c h n 0 1 0 9 y i tp r e s e n t sg e n e r a lr u l e sa n dp a r t i c u l a r i t yi nt h i ss y s t e m sr e s e a r c ha n d d e v e l o p i n g i ta l s op o i n t so u tan u m b e ro fp r o h l e m st ob es o l v e da n dt h ed i r e c t i o no fr e s e a t c h a n dd e v e l o p m e n ti nf u t u r e 1 h e m a j o r t a s ko f d a t a m i n i n ga n dk n o w l e d g ed i s c o v e r y i n c o m p u t o ra i d e d d i a g n o s i n gs y s t e mi st h ec l a s s i f i c a t i o na n dp r e d i c t i o no ft h ed a t ai n s p e c i a l m e d i c a ld a t a b a s e s ,a n dt h e nf i n d san u m b e ro fm e d i c a ld i a g n o s i n gr u l e si no r d e r t o h e l p d o c t o r st o d i a g n o s ed i s e a s e so b j e c t i v e l ya n de f f e c t i v e l y t h t sp a p e r g e n e r a l i z e s a n d e x p l a i n s v a r i o u s k e y m e t h o d so ft h ec l a s s if i c a t i o no f d a t a ( i n v o i v i n g d e c i s i o n t r e e 、b a y e se l a s s i f i e r a n d b a y e s i a nn e t w o r k s 、g e n e t i c a 1 9 0 r i t h m sa n ds oo n ) o nt h eh a s i so fa b o v ew o r k s t h i sp a p e rd i s c u s s e si nd e t a i l t h ep r i n c i p l e 、t e c h n o l o g ya n da p p l i c a t i o no ft h ed a t am i n i n gm e t h o du s i n gn e u r a l 2 英文摘要 n e t , o r k st of i n dc l a s s i f i c a t i o nr u l e s k n o w l e d g ea c q u is i t i o nu s i n g n e u r a ln e t w o r k s c a l l e dr u l ee x t r a c t io n i s a t t r a c t i n gw i d ea t t e n t i o nb e c a u s eo fj t sc o m p u t a t j o n a ls i m p i c i t y 、b e t t e ra b i l j t y t og e n e r a l i z e 、h i g h e rc i a s s i f i c a t i o np r e c i s i o na n db e t t e ra b i l i t vt oy e s i s tn o i s e t h e p a p e rs t u d i e s t h e t e c h n o l o g y i nm i s h i k a w a sa r t i c l e 一一r u l ee x t r a c t i o nb v s u c c e s s i v er e g u l a r i z a t i o n a f t e rt h er e s e a r c ho fi t sb a s i ca l g o t it h r r 一s t r u c t u r a l l e a r n i n gw j t hf o r g e t t i n g ,t h i sa l g o r i t h mi sm e n d e d t h ee x p e r i m e n to fd i s c o v e r i n g ab 0 0 1e a r lf u n c t i o ns h o w st h a tt h i si m p r o v e da l g o r i t h mr u n sm u c hf a s t e rt h a np r e y i o u s a l g o r i t h m t h ew a yo fr u l ee x t r a c t i o nb ys u c c e s s i r er e g u l a r i z a t i o ni sa p p l j e di r i t e t h ec l a s s i f i c a t i o no fm u s h r o o mi nm u s h r o o md a t a b a s e t h er e s u l to ft h ee x p e r i m e n t i n d i c a t e st h a tt h ist e c h n o l o g yo fr u l ee x t r a c t i o ni ss u p e r i o rt oo t h e rm e t h o d si n t e r m so ft h ep e r f o r m a n c eo ft h ei n t e l l i g i b i l i t ya n dp r e c i s i o no fr u l e s t h e p a p e r f u r t h e r a p p l i e s t h e w a y o fr u l ee x t r a c t i o n b y s u c c e s s i v e r e g u l a r i z a t i o ni n t om e d i e a ld a t a b a s e - - - b r e a s tc a n c e rd a t a b a s e u s i n gt h i sw a y ,w e a r ec a p a b l eo fe x t r a c t i n gt h ed i a g n o s i n gr u l e sf r o mb r e a s tc a n c e rd a t a b a s ei no r d e r t od i a g n o s ew h e t h e rt h ec a s ei sb e n i g no rm a l i g n a n t t h er e s u l to fe x p e r i m e n ta l s o s h o w st h a td i a g n o s i n gr u l e se x t r a c t e db yt h et e c h n o l o g y a r es u p e r i o rt oo t h e r m e t h o d si nt h ei n t e l l i g i b i l i t ya n dp r e c i s i o no fr u e s t h e r e f o r e ,t h er e s e a r c hr e s u t so ft h i sp a p e ri n d i c a t et h a t d a t am i n i n ga n d k n o w l e d g ed i s c o v e r yb a s e du p o nn e u r a ln e t w o r k sh a v ef u t u r ei nt h ed i r e c t i o no f r e s e a r c h w i t hd e e p e rr e s e a r c ha n dd e v e l o p m e n to ft h et e c h n o l o g yo fa r t i f i c j a l j n t e 1 i g e n c e 、n e u r a ln e t w o r k s ( e s p e c i a l l yf u z z y n e u r a ln e t w o r k s ) a n dr u l e e x t r a c t i o no fn e u r a ln e t w o r k s ,t h et e c h n o l o g yo fd a t am i n i n ga n dk n o w l e d g ed i s c o v e r y u s i n gn e u r a ln e t w o r k sw i l lc e r t a i n l yb e c o m et h ek e yt e c h n o l o g yi nc o m p u t e ra i d e d m e d i c a ld i a g n o s i n gs y s t e m k e yw o r d s :m e d i c a ld a t a b a s e ,d a t am i n i n g ,k n o w l e d g ed i s c o v e r y ,n e u r a ln e t w o r k s c l a s s i f i c a t i o nr u l e ,r u l ee x t r a c t i o n 第一章计算机辅助医学诊断系统的敷据挖掘和知识研究综述 第一章 计算机辅助医学诊断系统的数据挖掘和知识发现研究综述 1 1 引言 计算机和通信技术的b 益发展和广泛应用,导致信息爆炸,据统计1 9 8 9 年全世界数 据库总量为5 0 0 万个,且数量以每2 0 个月翻一番增长。然而,这引发了以下问题:方 面信息目益膨胀,另一方面,人们不能直观发现其中隐藏的知识,即产生数据丰富与知 识贫乏的矛盾,我们需要一种方法能从数据自动发现知识,因此,数据挖掘和知识发现 成为目前一个重要的研究领域。随着医院的计算机化,尤其是许多医院开始使用p a c s 系统( p i c t u r ea r c h i v i n ga n dc o m m u n i c a t i o ns y s t e m ) ,它们已收集了大量病人的医 学影象( 包括s p e c t ,x - c t ,p e t ,、l r i ,h r c t 等) 和其它的有关医学参数,而如何充 分利用以前的确诊病例和医生的诊断经验加上当前病人的信息,使计算机帮助医生快 速、有效地正确诊断疾病,正是计算机辅助医学诊断系统的目标。 1 2 计算机辅助医学诊断中使用知识发现方法的重要性和必要性 以往的许多医学辅助诊断系统都是基于知识的专家系统,它往往存在若干的缺陷: ( 1 ) 知识获取的瓶颈;( 2 ) 知识脆弱性:( 3 ) 推理单调性。具体表现为:开发基于规 则和知识的专家系统大约6 0 n7 0 9 6 的时间花费在知识获取上,技术采取的方法是由专 家通过系列的领域规则来表示它们的启发式分类经验,由于绝大多数专家在显示他 们的领域知识方面存在困难,应用效果有时不甚理想,且人类专家在利用这类知识时, 更多的是采用联想等形象思维方法 1 。简言之,从专家那里获取知识与表达困难,且 带有定性和主观的特点,难于定量和客观地表示,致使专家系统陷入困境。为克服上 述缺点,出现了类似于n n e s ( 神经网络专家系统) 9 等的智能诊断系统,其优点为:具有 学习功能,大规模并行分布式处理,全局集体作用实现知识获取自动化,可以实现并行 联想和自适应推理,系统具有实时处理能力和较好的鲁棒性,良好的启发性、灵活性,和 传统的e s 相比,在分类、诊断以及基于分类的智能控制和优化求解等方面,此类智能 诊断系统有更优越的性能,但也有一些固有缺点,如( 1 ) 适用于解决一些规模较小 的问题,( 2 ) 在很大程度上受训练数据集的限制:( 3 ) 受限于常识问题知识的获取:( 4 ) 知识表示,处理繁杂而低效,存在“黑箱”操作。这一切决定此类智能诊断系统不可 能具有很高的智能水平。然而,在此类系统中如引入数据挖掘和知识发现( 如上述的 e s 成为基于知识发现技术的神经网络专家系统 2 ) 可缓解或部分地解决一些上述问 题,这也是先进智能诊断系统的发展方向。数据挖掘是从人工智能的分支机器学习发 展而来,至今已有十多年历史,数据挖掘就是从数据库中获取正确、新颖、有潜在应 用价值的和最终可理解的模式的非平凡过程:而知识发现( k i ) d ) 是指从数据发现有用 知识的总过程。数据挖掘可被认为是知识发现中的一步,它是k d d 的核心,两术浯可 交换使用。k d d 是众多学科如人工智能,机器学习,模式识别,统计学,数据库和知识 库,数据可视化等相互交叉融合所形成的一个有广阔发展前景的新兴领域。 1 3计算机辅助医学诊断系统中的数据挖掘和知识发现方法 计算机辅助医学诊断系统的原始处理对象为医学信息数据库,此对象实际上是一个 多媒体数据库,它可能包含医生诊断使用的病人医学影象,有关病理参数,化验结 第一章 算机辅助医学诊断系统的敷据挖掘和知识研究综述 果,诊断结果,及相关的参考参数如年龄、性别、病史,出院入院时间等,总之是 既有文本、图形j 7 图象,又有数字数据信息等的多媒体数据库。然而目前的数据挖掘 技术主要应用于以结构化数据为主的关系数据库,事务数据库和数据仓库,对复杂类 型数据的挖掘尚处在起步阶段,复杂数据包括复杂对象、空间数据、多媒体数据、时 间序列数据、文本数据和w e b 数据。因而要对医学信息数据库进行数据挖掘和知识发 现,发现其中的医学诊断规则和模式,从而辅助医生进行疾病诊断,是一件具有挑战 性和有发展前途的工作。目前的数据挖掘对象一医学信息数据库,可归纳为两类; 第一类:医学影象+ 其它有关的医学参数的数据库:第二类:无医学影象的纯医学参数的 数据库。大多数情况下,对医学数据库进行数据挖掘和知识发现的目标应该是象医生 那样根据先前的经验来诊断疾病或发现疾病分类的医学诊断规则,如诊断乳腺肿瘤是 良性还是恶性,根据脑部的m r i 图象数据区分病人是脑膜瘤还是星细胞瘤 3 ,由病人 心脏的s p e c t 图象对其心肌灌注进行分类 4 或诊断有冠状动脉疾病还是无此疾病 5 , 分类胸痛的1 2 种疾病种类 6 等。另外还有序列的时间模式发现( 如h i v 疾病进程中 时间模式的发现 7 ) 和医学参数的模式提取及各参数间因果关系模式发现( 如对孩子 的骨折数据库和脊柱侧凸病数据库的模式提取和其医学参数的因果关系发现 8 ,对医 学信息数据库的数据挖掘和知识发现遵循一般的知识发现的九步过程: ( 1 )理解应用领域识别k d d 过程的目标 ( 2 )产生目标数据集 ( 3 )数据清除与预处理 ( 4 )数据减少与投影 ( 5 ) 将目标与特殊数据挖掘方法匹配 ( 6 ) 数据挖掘 ( 7 ) 解释和评估所挖掘到的模式 ( 8 ) 使用所发现的知识 k d d 过程具体应用到医学诊断系统中每步可详细解释如下 1 3 1 理解应用领域识别k d d 过程的目标 理解医学领域问题的范围和k d d 过程的目标就是要明确数据挖掘的医学对象和 要得到的结果。一般医学对象为上述的两类医学信息数据库,利用以往的有确诊病例 的各种特定疾病医学数据库,通过k d d 过程得到其疾病的若干诊断规则,最终帮助医 生进行正确预测或诊断各种疾病。因为对病人作疾病诊断是一件生死攸关的事,而 目前的计算机智能水平还达不到很高的程度,尤其是与人类专家( 如各种专科医生) 的诊断水平相比,因而我们在利用以往的经验即医学信息数据库产生医学智能诊断 系统的过程中,自始至终都应和医生不断交流和探讨,最终结果还是要经医生的分 析、验证而作出最后的一致性的诊断。例如j a r o s l a wp s a c h a 4 等研究开发的心 脏s p e c t 诊断的自动化,目标是提出能用于评估心脏s p e c t 图像的诊断规则,数据 挖掘对象的输入变量是从s p e c t 图像提取来的特征值和一些来自病人记录的变量如 年龄、体重、身高、吸烟者或不吸烟者等;解剖结构的差异决定了采用不同的男性 和女性模型,所选择的数据挖掘方法应能产生为用户理解的产生式规则:在数据挖 掘前,应完成三个子目标:( 1 ) 建一个数据仓库以接受各种现有数据和以后的增加 数据并可便于s o l 查询:( 2 ) 产生一个标准化的l v 模型;( 3 ) 决定增加什么样的病 人信息到s p e c f 图像提取的特征值中产生诊断规则。b o r i sk a v a l e r c h u k 9 等研 究的对乳腺癌进行计算机辅助系统、专家规则和数据库知识的一致性医学渗断就是 另一典型例子,这个项目的目标集中于从专家和数据库提取足够、完整和可比较的 两套规则,然后识别它们之间的分歧,最终达成一致的医学诊断,详细内容在3 8 节中有讨论。 第一聿计算机辅助医学诊断系统的数据挖掘和知识研究综述 1 3 2 产生目标数据库 为了得到最终的结果,需要生成一个记录病人完整的医学诊断信息的数据库各个 诊断系统根据不同的目标来组织其数据库,其中应包含充足的各类病例或一定比率的 正病例和反病例作为数据挖掘的训练例和测试例,以便最终能得到令人满意和正确的 _ 结果。各种实际医学诊断系统使用的具体病例情况参见表l 。大多数的情况下,我们可 以用s q l 结构化查询语言来准备所需的数据库( 因主要的数据库系统支持标准的s q l ) 。 例如心脏s p e c t 诊断自动化课题 7 3 所使用的医学数据库:其原始数据存于 6 i c j o x 。f t e x c e l 文件中,每个记录数据包含的病人个人信息有:年龄,性别,身高,有关处理步骤 的信息,核心脏病学家对s p e c t 图象的解释,心脏灌注分类等共有1 8 4 个域,4 2 7 5 个记 录,还有6 8 1 7 个s p e c t 图象文件,相应于约6 1 3 个病例。其中只有仅一半的病例有完整 的诊断,包括r o i s 的灌注分类代码和总的左心室灌注分类。首先为了组织数据仓库, 将电子表格中包含的数据转化到一个关系数据库中,专用的s p e c t 图像文件格式已处 理成可允许最关键的信息被提取一实际的3 一d 图像和病人标识信息被储存在文件头中, 产生了根据病人标识信息来自动检索图像的程序;s p e c t 图像文件被存储在数据库外的 预先定义好的目录结构中,已写好的软件可用几种方式浏览具有图像显示的病人记录, 数据库还可储存进行各种数据挖掘后产生的数据,诸如从s p e c t 图像所提取的特征值 和左心室的标准化模型等。 1 3 3清理与预处理数据 此步的目的是从数据中去除噪声,处理丢失数据的策略及作必要的改变,清除数据 是一耗时而繁重的任务,可用手工和s o l 语句来对数据库操作,有时为了节省时间, 可从原始数据库中选择一些重要的部分作原始目标进行处理。这一步是重要的,将影 响到数据挖掘的结果,因此我们应采用对噪声较少敏感的数据挖掘方法。例如 7 中 的h i v 病人数据库由l1 0 0 个病人的医学信息组成,研究人员随机从l1 0 0 个病人中选 4 0 0 个病人来作为主要的数据库以便不损失原始目标,其中有许多类似于配药数据的误 拼和药物错误编码的纠正等,用s o l 语句和手工清理这4 0 0 个病人的数据花了大约3 个人月,注意到他们成功地纠正明显的错误是很重要的。还有 4 中数据质量检查是用 半手工和s q l 查询的方法将图像集与数据库记录进行匹配,发现一些图像和病人的记 录不匹配,结果大多数是印刷错误,但仍有一些确实不匹配,就删除它们,另外还要 检查图像集的完整性和单个图像的质量( 如应有充足的对比度等) 。 1 3 4 数据约简和投影 此步目的是发现依赖于目标的有用特征值来代表数据,包括使用维数降低或变换方 法来减少考虑的有效变量数或发现数据的不变代表,也就是用最少数目的变量数更好 。 地代表数据。对有医学图象的医学数据库进行知识发现,首先要对其图象进行特征提取 例如一心脏s p e c t 诊断自动化课题 4 3 中,先将3 1 ) s p e c t 图象转换为2 1 ) s p e c t 图象,且对 各个2 ds p e c t 图象进行配准后划分成若干感兴趣的区域r o i ,再对各r o i 进行特征提 取( c t 数) ,最后共得到2 2 个r o i 和4 4 个特征值,这些特征值用于数据挖掘:图象的特 征值提取还有如对脑部m r t 图象进行信号强度提取,对s p e c t 图象的r o i 区域进行特 征值提取还可通过计算象素值与区域象素平均值偏差大于2 5 的象素所占的百分比得 到,对病人肺部或肝部等的c t 、h r c t 图象和超声图像 1 0 进行各种纹理参数的提取, 及对乳腺病人c t 图象进行其钙化体积和数量,钙化形状和密度等特征参数提取。 第一童计算机辅助医学诊断系统的数据挖掘和知识研究综述 从医学图象提取特征可能是带医学图象的医学数据库的数据挖掘和知识发现过程中最 复杂而且极重要的部分,它将直接影响到数据挖掘结果。在有些情况下,为了减少有 效变量获得等效信息还可利用数据挖掘算法来产生些所需变量,例如,在如r g e c g r a m i r e z 7 等开发的发现t t i v 病人疾病进程的时间模式的知识系统中,就使用了 决策树产生的机器学习技术和n e v p r o p 3 神经网络软件得到两个重要参数:病人健康状 _ 况值( i t s ) 和病人恢复时间( w t r ) ,它们被作为后面的数据挖掘的主要参数。 1 3 5 将目标与特殊数据挖掘方法匹配 此步目的决定什么数据模型可能适合搜索数据中的模式,使用什么数据挖掘方法与 此k d d 过程目标相匹配。模型选择通常基于要挖掘什么类型的数据,数据挖掘方法选 择根据需要什么样的最终结果,通常是发现或预测。数据挖掘有以下几个最重要的提 取数据特性的模型:( 1 ) 概括一用少量特征属性来描述聚集形式:( 2 ) 聚类或分割 一发现高维数据和自然群;( 3 ) 回归模型:( 4 ) 分类一分类器可被认为是回归模型 的特殊化:( 5 ) 概念描述;( 6 ) 相关性分析;( 7 ) 序列分析。在医学信息诊断中,大 多数情况下是要我们对疾病进行分类的诊断,因此,可使用分类的数据模型,也有少 数相关性分析和序列分析而选择好了数据模型后,可使用的数据挖掘方法有:机器 学习、决策树、粗糙集、进化算法和神经网络等。具体使用时,采用哪一种方法要根 据实际的医学信息数据库类型和特点来决定,有时还要用几种方法进行探索比较。每 一种数据挖掘方法有许多的具体实现方法,而同一实现方法也涉及到不同的参数选择, 因此应对数据模型作调整和精确化以适合具体的数据挖掘对象和产生较好的挖掘结 果,例如,h i v 病人疾病过程的时间模式发现 7 中,先采用一般序列模式算法( 6 s p ) 作为数据挖掘方法,后经实验提出了自己的事件集序列方法和对g s p 算法的进一步调 整即t e m p a d i s 时间模式发现系统。 1 3 6数据挖掘 对医学信息数据库进行数据挖掘和知识发现的主要目的是预测和分类疾病,分类和 预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋 势。分类是预测分类号( 或离散值) ,而预测是建立连续函数模型:数据分类的基本技 术有决策树归纳,贝叶斯分类和贝叶斯网络,神经网络。其它的分类方法还有k 一最临 近分类,基于案例的推理,遗传算法,粗糙集和模糊逻辑技术。预测方法有线性、非 线性和广义线性回归模型。具体情况下,可对上述的这些技术进行适当的修改、扩充 和优化,从而能应用到各种特殊的医学数据库中进行疾病的分类和预测。例如,m a n l e u n gw a n g 7 等对孩子骨折数据库和脊柱侧凸病人数据库使用进化算法( 包括类基因 编程g g p ,遗传编程g p ,最小总描述长度基因编程i d l g p ,遗传算法g a s ) 和贝叶斯网 络来进行模式提取和发现各变量因果关系的网络:而s h u s a k ut s u m o t o 在头痛信 息、脑血管疾病和脑膜炎的诊断系统中采用了基于粗糙集模型的规则产生法,由于更 密切地代表了医学专家的推理,使产生的规则精度大大提高,几乎接近人类专家的预 测精度,见表l 中( ) 处。c e l i ac b o j a r c z u k 6 等在胸痛疾病的诊断系统中 使用了遗传编程g p 这种方法是一种有前途的数据挖掘方法,此系统根据1 6 5 个预测 特征值进行1 2 种不同胸痛疾病的分类,得到了8 7 5 的分类精度,大于c 5 0 决策树算 法( 7 9 2 ) 。 d 第一章计算机辅助医学诊断系统的敷据挖掘和知识研究综述 l3 7 解释和评估所挖掘到的模式 从上述可知,对医学数据库进行数据挖掘的技术采用了对经典的方法( 如决策树方 法) 进行改进,优化和组合以便适合特定的数据库挖掘对象,有的系统采用了目前的先 进方法( 如遗传算法,粗糙集方法,模糊逻辑技术等) 较好地适应了其处理对象并得到了 良好的结果,一般来说,我们对分类和预测的数据挖掘结果可用以下的标准进行比较祀 评估: ( l ) 预测正确度一涉及模型正确地预测新的或先前未见过的数据的类的能力: ( 2 ) 计算速度一涉及产生和使用模型的计算花费: ( 3 ) 鲁棒性一涉及给定噪声数据或具有空缺值的数据,模型正确预测的能力 ( 4 ) 可伸缩性一涉及给定大量数据,有效地构造模型的能力; ( j ) 可理解性一学习模型提供的理解和洞察层次: 然而,目前情况是对许多不同分类方法的比较仍然为一个研究课题,尚未发现有 一种方法对所有数据优于其它方法,必须要考虑准确性,训练时间,鲁棒性,可理解 性和可伸缩性,可能涉及一折衷方案,可探索优化组合各种算法以求得较好的结果, 比如出现了研究模糊神经网络,模糊决策树等先进的数据挖掘方法。还有心肌灌注诊 断系统中采用c l i p 3 机器学习算法,此算法结合了决策树概念和基于规则的算法,而 心脏s p e c t 诊断的自动化课题中采用了基于决策树的c 4 5 和简单的统计朴素贝叶斯, 另外,在乳腺癌的诊断中使用基于统计方法的发现规则机器学习方法i m d r l j 埘d 耻 舯r 3 ( 它们是对于0 0 5 级别的f 规则分别有0 7 5 ,0 8 5 和0 9 5 条件概率产生统计 有意义的诊断规则的方法) 等。从表1 中的医学数据库发现诊断知识的各种疾病诊断系 统都就其使用的数据挖掘算法结果给予了医学解释和评估,而且其中许多还与其它的 数据挖掘算法就精度,可理解性等进行了比较。例如:乳腺癌诊断系统中,就将其d r 算法的预测精度和可理解性与线性判别分类,决策树和神经网络进行了比较,结论是 删d r 算法优于决策树,而呦r 算法和决策树又优于其它两种方法。值得注意的是此系 统的研发者指出神经网络软件( 加利福尼亚的“b r s i n m a k e r ”科学软件) 对训练数据给 出1 0 0 的精度,但对于循环法测试( r o u n d r o b i nt e s t ),总精度降到6 6 这种低 精度原因是神经网络没有估计对于训练数据完善性能的统计意义,就表l 中的医学诊 断系统看,目前它们主要按照预测精度和可理解性来评估,有时还强调了产生的诊断 规则的有用性及其价值,但较少考虑算法的鲁棒性、计算速度和可伸缩性。 l3 8 使用所发现的知识 计算机辅助诊断系统的最终用户是医学专家或他们的同事和有关项目的生物工程 学学生,系统是以咨询系统的形式提供的,目的是使医生的诊断过程更客观和容易, 提高诊断效率,且可训练缺乏经验的新医生。就目前医学数据库发现知识系统的实用 性来说,尚处于研究开发阶段,有的知识发现诊断系统在发现知识后识别出数据库中 的错误,经验证修改其中的错误:有的还需进一步充实其病例库以便得到更符合实际 的诊断规则或更好地预测疾病;此类系统还需要进一步的实践,离实际使用尚有一段 时间:另外在医学专家和数据库发现的知识间有时必然存在不一致或矛盾,这就需要 研究开发人员与医学专家进行不断的榷商来消除或解释矛盾,这正是一致性的计尊杌 辅助医学诊断系统最重要的特点,此类诊断系统具有实际应用价值,是今后知识发现 第一章 计算机辅助医学诊断系统的敷据挖掘和知识研究综述 诊断系统和专家系统融合的发展方向。如上所述的b o r i sk a v a l e r c h u k 9 等研究开 发的乳腺癌的计算机辅助致性诊断系统正是这方面很好的典型例子,它采用以下的 几步来产生一个致性的规则库:( 1 ) 根据数据库发现数据驱动的规则,而不是通过询 问专家来发现: ( 2 ) 通过医学专家使用可得的已经证实的病例来分析这些新的规则: 专家可考虑如下; 如果新的规则是由误导的病例取得的,应拒绝此类规则并且对训练数据进行扩展; 如果规则证实了专家现成的知识,即规则与专家的以前经验相一致,那么这规则增 加了她他的实践信心。 如果规则识别出专家以前所不知的新关系,那么专家就能发现有价值的规则。 ( 3 ) 发现与她他的知识或理解相矛盾的规则:这意味着两种可能性:( a ) 这种规则是 使用了误导的病例被发现的:必须拒绝此类规则并且对训练数据进行扩展;( b ) 号家 可能承认他她的想法没有实际的根据,因此系统提高了专家的经验。 这个辅助诊断系统目标致力于达成医学专家和数据库发现知识之间的一致最终它获 得了较高预测精度和易理解的诊断规则。 1 4 医学辅助诊断系统需迸一步研究和发展的方向 总结目前的基于知识发现的计算机辅助诊断系统,今后的发展可在以下三个方面进 行探索和研究: ( 1 ) 在对有医学影象的多媒体医学数据库进行数据挖掘和知识发现时,亟需研究如何 更快速而有效地自动提取图象的特征值及如何选择更合适和先进的数据挖掘方法,以 便可得到更好的数据挖掘结果即医学诊断规则。 从医学图象提取用于诊断的图象特征值需花费整个系统的极大部分时间,因为人 类理解图象比理解大量的数字容易,但计算机正好相反,人类优于定性任务:计算机 优于定量任务,要对人类处理图象的方式模型化是很困难的,因为一方面人类理解图 象的智力工作( 如寻找目标和估计其特征) 是处于意识阅值之下,另一方面图象操作 的计算量很大,难于从原始图象得到产生式规则,图象还有复杂的第二特征,为此难 以定义所需提取的特征。正因如此,尤其针对图象进行挖掘的多媒体数据挖掘还处于 研究起步阶段,医学图象的特征自动提取和模式识别的研究和发展与多媒体数据挖掘 具有相互促进的作用。已有用模糊神经网络研究对乳腺医学图象进行特征值的自动提 取和 1 0 对弥漫性的肝疾病进行自动分类等;就数据挖掘方法的采用上,神经网络技 术在当今的主要商品化数据挖掘工具中占有绝对的统治地位 1 2 ,随着对神经网络规 则提取的研究和发展,利用神经网络来发现知识和提取分类规则由于其计算的简单性 和具有归纳能力,正引起人们广泛的研究和开发应用 1 3 卜 1 5 ,而将这种方法如何更 好地具体应用到医学数据库的知识发现中是值得进一步研究和有发展前景的方向。 ( 2 ) 探讨和开发适合医学数据库知识发现的一般数据挖掘方法和工具: 针对各种特定的医学数据库,人们已使用了各种合适的数据挖掘方法来进行其计算 机辅助诊断系统的开发,在大量实践的基础上,将来能否利用软件组件技术于知识发 现系统 1 6 中,集成各种适合医学数据库挖掘的方法为一个开发医学信息数据库的通 用工具,从而可节省进一步开发整个计算机辅助医学诊断系统的时间,此工具应能 自动比较合适方法的各种性能等。 ( 3 ) 开发出性能良好接近医学专家水平因而能投入实际临床使用的计算机辅助诊断系 统。 第一童计算机辅助医学诊断系统的数疆挖掘和知识研究综连 医学诊断是一件有关生命的重大事情。应该在医学数据库知识发现和医学专家知识 之间达成一致,出现矛盾要解释或消除,需要将现有的专家系统和知识发现系统进行 进 一步和真正的融合,不断提高诊断系统的性能,从而使最后的计算机辅助诊断系统能 成为医生的助手甚至有一天真正代替医生作出高水平的渗断。 1 5 本课题的意义和主要内容 本章对基于医学数据库的知识发现计算机辅助诊断系统发展现状作了综合研究。 计算机辅助诊断系统中使用医学数据库的数据挖掘和知识发现技术具有重要意义 和其发展的必然性。本章分析和综合了此类系统研究开发的一般规律及其特殊性,并 且指出了其中的一些需解决问题和今后的研究发展方向。 既然医学数据库的数据挖掘和知识发现是如此重要,我们就应努力抓住机遇,为 提高我国的医学诊断水平而在此领域奋发钻研,同时政府也应该在这方面加大投资, 使我国赶超上世界先进的科学技术水平。国外数据挖掘技术己在大型企业中获得了很 大的成功,国内一些企业也己开始着手这方面的投资,有的己得到了可喜的汇报。但 是,由于医学技术本身具有很强的实验性、实践性和统计性的特点,使数据挖掘和知 识发现技术在医学诊断领域的应用具有更重要的实用价值和广阔的发展前景:1 7 。在 国外,科学技术发达的美国,据说将投资巨大的资金用于研究医学智能诊断系统,而 我们国内也有公司将投入充足的资金,并组织由高水平的医学专家和人工智能专家合 作的队伍加入到这一竞争行列。 从本章对计算机辅助诊断系统的数据挖掘和知识发现的一般过程,我们看到了本 课题工作涉及的面广量大,任务具有一定的挑战性。由于时间和许多的客观原因,本 课题决定从知识发现的核心内容数据挖掘方法入手,找一种先进的、性能优越的数据 挖掘方法,将它应用到医学信息数据库的数据挖掘中,检验该数据挖掘方法使用的最 终结果如何,以便为将来的计算机辅助诊断系统奠定基础。 7 第一章计算机辅助医学诊断系统的数据挖掘和知识研究综述 表1 :各种医学数据库的知识发现计算机辅助诊断系统特性一览表 诊断的原计算机辅助目标数据挖掘方法使用的病特征分类精度 比较的其它数据 始数据类医学诊断系例数值个( 产生的规则 挖掘方法 f f , j 统 数数目) 1 心脏 评估心脏s p e c t基于决策树的 6 1 34 4 错误率最低常数分类器 s p e c t 诊断图象后对心脏灌c 4 6 分类器和 1 4 6 3 4 4c 45 树规则,朴 的自动化课注进行分类简单的统计朴素( 7 9 :仅c t素贝叶斯离散 题 4 贝叶斯数时jc t 数朴素贝叶斯 和附加数据 集) 医学影象2 诊断心根据心肌

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论