




已阅读5页,还剩63页未读, 继续免费阅读
(生物医学工程专业论文)数据挖掘及其在医学诊断中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
d a t am i n i n ga n di t sa p p i ,i c p 汀i o n s i nn 匝d i c a l d i a g n o s i s a b s t ra c t w i t ht h ew i d es p r e a do f t h em e d i c a li n f o r m a t i o n s y s t e m ss u c h a sp a c s ,硪sa n dr i s , m ea b i l i t i e so fd a t aa c q u i s i t i o na n dd a t as t o r a g eh a v eb e e ng r e a t l ye n h a n c e di nh o s p i t a l s h o w e v e r , t h et e c h n o l o g i e so ft h ek n o w e d g er e t r i e v a ls t i l jd e v e l o pv e r ys j o w l ys u c ht h a t o n l yal i m i r e da m o u n to fk n o w l e d g ec a nb ee x t r a c t e df r o mh u g ea m o u n t so fd a t a i t b e c o m e sm o r ea n dm o r ei m p o r t a n tt od e v e l o p t e c h n o l o g i e st h a tc a na u t o m a t i c a l l yr e t r i e v e u s e f u l k n o w l e d g ef r o ml a r g e a m o u n t so fd a t a s ot h ed a t a m i n i n gt e c h n o l o g i e s a r e t h o r o u g h l yr e s e a r c h e di nt h i sp a 口e r , w h i c hc a na c c o m p l i s ht h et a r g e t sm e n t i o n e da b o v e t h e t e c h n o l o g i e sa r ea l s oa p p l i e dt om e d i c a ld i a g n o s i s i nt h i sp a d e r , t h es t a t u sq u oo f t h em e d i c a li n t e l l i g e n td i a g n o s i si sf i r s t l ys t a t e da n dt h e m a i np r i n c i p l eo fd a t am i n i n gi s b r i e f t ye x p l a i n e d t h e n , d a t am i n i n gi s i n t r o d u c e di n d e t a i l s ,i n c l u d i n g i t sf r a m e w o r k ,m e t h o d sa n da p p l i c a t i o n f i n a l l y , t w oi m p o r t a n td a t a m i n i n gm e t h o d s ,t h ed e c i s i o nt r e ei n d u c t i o nm e t h o da n d t h er o u g hs e tm e t h o d ,a r ed e e p l y r e s e a r c h e d t h et o o l sb a s e do nt h e s et w om e t h o d sa r ed e v e l o p e da n ds o m ei m p r o v e m e n t s & t h e ma r ea l s op u tf o r w a r d t h ec o n t e n t so f t h i sp a p e ra r em a i n l yf o c u s e do nt h ef e l l o w i n g a s p e c t s : ( 1 ) a l t e ri n t r o d u c i n gm a n yt y p e so f d a t am i n i n gp r o t o t y p e s , ip u tf o r w a r dt h es y s t e m f r a m e w o r kt h a tc a np e r f o r md a t am i n i n go nt h ep l a t f o r mo fm e d i c a li n f o r m a t i o n s y s t e m s t h ec o m p o n e n t so f t h es y s t e ma r ei n t r o d u c e d i nd e t a i l s ( 2 ) t h ee m p h a s i so f t h ep a p e ri sp u to nt h er e s e a r c ho ft h ed a t am i n g i n ga l g o r i t h m s , i n c l u d i n gd e c i s i o nt r e ea l g o r i t h ma n dr o u g hs e ta l g o r i t h m a st ot h ed e c i s i o nt r e e a l g o r i t h m , ad a t am i n i n gt o o li n c l u d i n gm a n yk i n d so fp r u n i n ga l g o r i t h m sa r e s u c e s s f u l l yd e v e l o p p e db ym e a n so f m i c r o s o f tv i s u a lc + + 6 0 t h e nt h et o o li s s u c c c s s u f u l l ya p p l i e d t ot h ed a t a m i n i n g o ft h eb r e a s ti l l n e s s e sd a t a s o m e i m p o r t a n tr u l e sa r ea c q u i r e da n das i m p l ed e c i s i o nt r e ew i t hh i g hc l a s s i f i c a t i o ni s g o t f u r t h e r m o r e s o m ei m p r o v e m e n t so f t h ed e c i s i o nt r e ea l g o r i t h mi sa l s og o t a d e c i s i o nt r e ea l g o r i t h mu s i n gt h eb a c k g r o u n di n f o r m a t i o ni sp u tf o r w a r d ia l s o i n t r o d u c e dt h ef e e d b a c ki n t ot h ed e c i s i o nt r e ea l g o r i t h ma n dp u tf o r w a r dt l l e b a c k t r a c k i n gd e c i s i o nt r e ea l g o r i t h m u s i n gt h e s et w oa l g o r i t h m s 也er e s u l t sa r e f u r t h e ri m p r o v e d ( 3 ) b e s i d e s 恤ed e c i s i o nt r e ea l g o r i t h m , a n o t h e rd a t am i n i n ga l g o r i t h m , r o u g hs e t t h e o r y , j sa l s oi n t r o d u c e d , i n c l u d i n gi t sp r i n c i p l e sa n da p p l i c a t i o n s id e v e l o p e d t h e d a t am i n i n gt o o lb a s e do nt h el e r sa l g o r i t h mw i t ht h em a c h i n el e a r n i n gl o c a l a p p r o a c h u s i n gt h i st o o l ,t h eb r e a s ti l l n e s sd a t aa r es u c c e s s f u l l y m i n e d t h er e s e a r c ho ft h i sp a p e rs h o w st h a tt h ea p p l i c a t i o no fd a t am i n i n gi nt h em e d i c a l d i a g n o s i sh a sg r e a tp o t e n t i a la n d w i l lb e w i d e l yu s e di nt h e n e a rf u t u r e k e yw o r d s :d a t a m i n i n g ,m e d i c a ld i a g n o s i s ,d e c i s i o n t r e ea l g o r i t h m , r o u g hs e tt h e o r y 一蔓! 兰竺笙 第1 章绪论 1 1 选题意义 随着数据库技术的迅速发展,特别是二十世纪八十年代以来以d b 2 、o r a c l e 和 m i c r o s o f ts q l s e r v e r 为代表的关系型数据库的日益成熟,加上人们对信息在社会中重 要地位的认识的提高,数据库管理系统得到了越来越广泛的应用。目前,数据库管理 系统已经成功地应用于传统的事务数据处理,如企业管理、行政管理、科学与工程数 据管理以及许多日益增长的其他应用。在医学方面,医学成像与存档系统( p i c t u r e a r c h i v i n ga n dc o m m u n i c a t i o ns y s t e m , 简称p a c s ) 得到了广泛的应用,该系统利用先 进的数据库和网络技术,成功实现了医学图像的无胶片化存储和医学信息的高效查询, 提高了诊断的效率和效果,节约了成本,很好的实现了医院系统的信息化,并为进一 步开发提供了高效的研究平台。其它的医院信息系统,如g 和r i s ,也都获得了广 泛的应用。 这些系统正在每天以g b ( 甚至t b ) 的速度产生大量的数据,如商场和证券市场 的交易数据、互联网上的巨量信息数据和p a c s 系统中的诊断病例数据等。从这些海 量的、以不同形式存储的数据资料中发现有价值的信息或知识,为决策服务,便成为 一个有着巨大研究价值和现实意义的课题。在p a c s 系统中,每天都有数以千百计的 病例添加到数据库中,如果能够从数据库中大量的数据里找到规律性的诊断规则,就 可以供医生在诊断时参考,也可以以此为基础建立一个医疗诊断的专家系统,那么这 对于提高诊断的效率和效果、更深入的了解疾病的机理都是有很大帮助的。 但是,目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能, 却无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺 乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。为了解 决这方面的问题,数据挖掘( d a t a m i n i n g ) 方法应运而生,它可以从大量的复杂的数 据中提取出有用的规则,发现隐藏在杂乱数据中的有规律的信息,它的出现使得人们 最终有能力认识数据里蕴含的信息和知识,认识数据的真正价值。本文的工作正是将 数据挖掘的方法应用到医学诊断中上,对医学病例数据进行挖掘。以提取出其中的规 则供医生参考。 1 2 医学智能诊断的发展与现状 同其它任何领域一样,自从计算机成为医疗诊断的辅助工具之日起,人们就一直 第1 章绪论 试图使这一得力工具具有更多的智能,替代更多的人力。在医疗诊断领域,人们希 望计算机能够: ( 1 ) 模仿诊断专家,应用已有的经验和知识; ( 2 ) 模仿诊断专家,学习已有的知识; ( 3 ) 模仿诊断专家,发现潜在的、未知的规律。 显然,上述3 点从应用知识到学习知识,从有指导学习到无指导学习,越来越接 近人类行为,难度也越来越大。与之相对应,智能诊断经历了从专家系统到神经网络 的发展2 3 ”。 模仿诊断专家,应用已有经验和知识的典型代表是专家系统。专家系统就是一种 在相关领域中具有模拟人类专家运用知识进行推理的应用程序。专家系统的知识一般 分为数据级、知识库级和控制级。数据级知识是指具体问题所提供的初始事实以及问 题求解过程中产生的中间结论、最终结论等;知识库级知识是专家的知识、经验等, 是专家系统的基础。这种知识的质量和数量( 对问题域的覆盖程度) 决定了系统的性能 高低;控制级知识是关于如何运用前两种知识的知识,如搜索策略等【2 3 0 】。 从1 9 6 8 年费根鲍姆( e a f e i g e n b a u m ) 等研制出第一个专家系统d e n d r a l 以 来,专家系统己经广泛应用于医疗、勘探、金融决策等许多领域。医疗诊断领域是专 家系统研究非常多的领域,世界上第一个功能较全面的专家系统m y c i n 是一个用于 诊断和治疗细菌感染病的专家咨询系统,通过和它的用户( 一般是内科医生) 的交流, 在获取病人的病史和各种可能的化验数据后,该系统可以在化验数据不齐全的情况下 进行推理,给出诊断结果。m y c i n 不仅能对传染性疾病做出专家水平的诊断和治疗, 而且便于使用、理解、修改和扩充。与m y c i n 同时开发的c a s n e t 系统是r u t g e r s 大学的s m w e i s s 和c a k u l i k o w s k i 等人开发的,用于诊断和治疗青光眼疾病。以 后陆续有大量的医疗诊断专家系统被开发出来,国内的医疗专家系统的研究也非常热 门,西安电子科技大学的马玉祥等研制出了肺结核诊断治疗专家系统( t b d c s ) ,它采 用三级汉化知识库,二级模糊推理技术,对研制临床医学专家系统作了一定的探索工 作”。 但随着研究的深入,专家系统面i 临许多问题。专家系统中知识库级知识般是人 工从专家那里提取,归纳总结后用适合机器存储和应用的方式表示出来,“灌输给机 器”。因此专家系统只是一个模式匹配系统,知识的获取成为影响专家系统的一个“瓶 颈”。此外,不确定性推理问题、自学习困难等,都影响了专家系统在故障诊断领域 的应用和发展。 在专家系统发展遇到技术障碍的时候,从8 0 年代中期开始,由于理论上获得突 破,世界上再一次掀起人工神经网络的研究与应用热潮噍”。人工神经网络是指模拟 生物神经网络的结构和功能,运用大量处理部件,由人工方式建立起来的f 网络系统。 2 第1 章绪论 人工神经网络的优点是具有强大的学习能力,能从样例中学习,获取知识:易于实现 并行运算,从而可提高运算速度;对带有噪声或缺损的输入信息有很强的适应能力, 对于非确定性、不完全或不完全确定的知识也具有很强的处理能力,可以实现分类决 策、联想记忆、自组织学习,弥补了专家系统在知识获取等方面的不足峨”。人工神 经网络的再度兴起为医疗智能诊断开辟了一条新的途径,神经网络在医学信号处理、 医学图像处理、医学诊断等方面都有了广泛的应用”, 8 。 但是,人工神经网络也有其不可避免的局限性。人工神经网络的学习及问题求解 具有“黑箱”特性,其知识获取过程的可解释性差;人工神经网络学习得到的知识是 以权值形式表示的“隐式”知识,可移植性差;发现潜在、未知规律知识的能力较差。 目前在医疗诊断领域广泛应用的各类神经网络只具有从输入到输出的映射能力,从训 练样本中自动提取特征和规则并将获取的规则、知识呈现出来的能力较差。从知识获 取的角度来说,人工神经网络属于模仿诊断专家学习已有的知识这一层次。 最近几年,人工神经网络得到广泛研究和应用,实用成果累累。今后对人工智能 的研究方向已经不是神经网络算法如何改进,局部极小如何避免的问题,而是寻求更 高层次的突破。 9 0 年代以来,数据挖掘作为种新的知识获取技术从机器学习( m a c h i n el e a r n i n g , 人工智能的一个分支) 中脱颖而出,它可以从数据中获取知识和规则,解决专家系统知 识获取的瓶颈,而且它得到的知识和规则是显式的,避免了神经网络得到的知识可解 释性和可移植性差的问题,所以它一出现就受到广泛的关注,成为当今机器学习领域 中一个十分活跃的领域。 1 3 数据挖掘简介 数据挖掘最早于1 9 8 9 出现,又称“知识抽取”( i n f o r m a t i o ne x t r a c t o n ) 、“信息 发现”( i n f o r m a t i o nd i s c o v e r y ) 、“知识发现”( k n o w l e d g ed i s c o v e r y ) 、“智能数据分 析”( i n t e l l i g e n td a t a a n a l y s i s ) 、“信息收获”( i n f o r m a t i o n h a r v e s t i n g ) 等等,是从大 量数据中发现潜在规律、提取有用知识的方法和技术,其研究对象一般情况下都是数 据库中的数据,因为与数据库密切相关,又称为数据库知识发现( k n o w l e d g e d i s c o v e r y i nd a t a b a s e s ,k d d ) 。从k d d 的名称中可以看出,k d d 更强调与数据库的联系。另 外,在数据库知识发现的过程中实施知识发现这一步骤也称为数据挖掘,因此也有人 认为数据挖掘是k d d 的一个环节。通常情况下可以将不加区别地使用两者而意义差 别不大。 数据挖掘不但能够学习已有的知识,而且能够发现未知的知识,而且得到的知识 是“显式”的,既能为人所理解,又便于存储和应用,从数据库中挖掘出来的知识可 3 第1 章绪论 以用在信息管理、过程控制、科学研究、决策支持等许多方面,因此数据挖掘一出现 就得到广泛的重视。 1 3 1 数据挖掘和数据库知识发现定义 k d d 至今有多种定义,其中得到公认的是i 9 l : k n o w l e d g ed i s c o v e r y i nd a t a b a s e si st h en o n t f i v i a lp r o c e s so f i d e n t i f y i n gv a l i d ,n o v e l , p o t e n t i a l l yu s e f u l ,a n du l t i m a t e l yu n d e r s t a n d a b l ep a t t e r n si nd a t a 数据库中的知识发现是从数据中识别出有效的、新颖的、潜在有用的,以及最终 可理解的模式的高级过程。 其中: 数据:是指一个有关事实,的集合( 如医学病例数据库中有关病人基本信息的各 条记录) ,它是用来描述事物有关方面的信息,是我们进一步发现知识的原材料。 新颖:经过数据挖掘提取出的模式必须是新颖的,至少对系统来说应该如此。模 式是否新颖可以通过两个途径来衡量;其一是得到的数据,通过对比当前得到的数据 和以前的数据或期望得到的数据之间的比较来判断该模式的新颖程度;其二是通过其 内部所包含的知识,通过对比发现的模式与已有的模式的关系来判断。通常我们可以 用一个函数来表示模式的新颖程度 ,( e d ,该函数的返回值是逻辑值或是对模式e 的 新颖程度的一个判断数值。利用数据挖掘可以发现新颖的知识和规则,这是它的一个 突出优点。 潜在有用:提取出的模式应该是有意义的,这可以通过定义某些函数的值来衡量。 用”表示模式e 的有作用程度,”= u 。 可被人理解:数据挖掘的一个目标就是将数据库中隐含的模式以容易被人理解的 形式表现出来,从而帮助人们更好地了解数据库中所包含的信息。数据挖掘不同于以 往知识获取技术的一个特点是发现的知识和规则是显式的,通常用“i f t h e n ”的 形式表达,可以方便得为人q j ( 至少是领域专家) 理解和使用。而以往的方法,如人工 神经网络,不论是知识发现过程还是知识应用过程,内部都是一个近“黑箱”过程。 模式:对于集合f 中的数据,可以用语言三来描述其中数据的特性。表达式e 厶 e 所描述的数据是集合f 的一个子集如。只有当表达式e 比列举所有而中元素的描 述方法更为简单时,我们才可称之为模式。如:“如果成绩在8 1 9 0 之间,则成绩优良” 可称为一个模式,而“如果成绩为8 1 、8 2 、8 3 、8 4 、8 5 、8 6 、8 7 、8 8 、8 9 或9 0 ,则 成绩优良”就不能称之为个模式。 高级过程:数据挖掘是对数据进行更深层处理的过程,而不是仅仅对数据进行加 减求和等简单运算或查询,因此说它是一个高级的过程。 4 1 3 2 数据挖掘发展历史 1 9 8 9 年8 月在美国底特律召开的第l l 届国际人工智能联合会议的专题讨论会上 首次出现数据库知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d ) 这个术语,标 志着数据挖掘和知识发现的正式出现。随后在1 9 9 1 年、1 9 9 3 年和1 9 9 4 年都举行k d d 专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量 数据分析算法、知识表示、知识运用等问题。随着参与人员的不断增多,k d d 国际会 议发展成为年会。1 9 9 8 年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议 不仅进行了学术讨论,而且有3 0 多家软件公司展示了他们的数据挖掘软件产品,不 少软件己在北美、欧洲等国得到应用。在我国,许多高校和科研单位也已开始进行数 据挖掘技术的研究。 数据挖掘是一门交叉性学科,涉及到机器学习、模式识别、统计学、智能数据库、 知识获取、数据可视化、高性能计算、专家系统等多个学科领域。数据挖掘是应用需 求推动下多种学科融合的结果,数据库技术、机器学习和统计科学是数据挖掘的三大 支柱。 首先是数据库技术。随着数据库技术的不断发展及数据库管理系统的广泛应用, 大型数据库系统已经在各行各业普及,数据库中存储的数据量急剧增大。在大量的数 据背后隐藏着许多重要信息,而这些重要信息可以很好地支持人们的决策。可是目前 用于对这些数据进行分析处理的工具却很少。目前人们用到的主要是数据库的存储功 能,而隐藏在这些数据之后的更重要的信息则没有充分利用。这些信息是关于数据的 整体特征的描述及对发展趋势的预测,在决策生成的过程中具有重要的参考价值。数 据库技术的目益成熟和数据仓库的发展为数据挖掘提供了发挥的平台。从下表可以看 出数据库发展的各个历史阶段f 】d 】: 进化阶段商业闯题支持技术产品厂家产品特点 数据搜集“过去五年中我计算机、磁带和磁m m , c d c提供历史性 ( 6 0 年代)的总收入是多 盘的、静态的数 少? ”据信息 “在耨英格兰的关系数据库o r a c l e 、在记录级提供 数据访问分部去年三月的( k d b m s ) ,结构 s y b a s e 、历史性的、动 ( 8 0 年代)销售额是多化查询语言 i n f o r m i x 、态数据信息 少? ”( s q l ) ,o d b cm 、 v i i c r o $ o f t 5 第1 章绪论 “在新英格兰的联机分析处理 p i l o t 、 在各种层次上 数据仓库,决分部去年三月的( 0 l a p ) 、多维数 c o m s h a r e 、提供回溯的、 策支持( 9 0 年 销售额是多少?据库、数据仓库 a r b o r 、动态的数据信 代1波士顿据此可得c o g n o s 、息 出什么结论? ”m i c r o s t r a t e g y 数据挖掘“下个月波士顿高级算法、多处理 p i l o t 、提供预测性的 ( 正在流行)的销售会怎么器计算机、海量数 l o c k h e e d 、信息 样? 为什么? ”据库m 、s g i 、其 他初创公司 表1 1数据库技术的发展 从上表中可以看出,数据挖掘是在数据库技术的推动下发展出来的,数据库技术 为数据挖掘提供了技术支持和现实需求。 其次,在数据库技术飞速发展的同时,人工智能自1 9 5 6 年诞生之后取得了重大进 展,经历了博弈时期、自然语言理解、知识工程等阶段,目前在机器学习分支领域的 研究也取得很大进展。机器学习是用计算机模拟人类学习的一门科学。自5 0 年代开 始机器学习的研究以来,先后经历了神经模型和决策理论、概念符号获取及知识加强 和论域专用学习三个阶段,根据人类学习的不同模式人们提出了很多机器学习方法, 如实例学习、观察和发现学习、神经网络和遗传算法等等,其中某些常用且较成熟的 算法( 如神经网络和遗传算法) 已经被人们运用于实际的应用系统及智能计算机的设计 和实现中。数据挖掘中的许多方法就来源于机器学习【1 ”。 第三,统计技术的进步也为数据挖掘提供了技术支持。和人工智能一样,统计也 致力于模式发现和预测。大多数的统计分析技术都基于完善的数学理论和高超的技 巧,预测的准确度很高,这为数据挖掘的发展提供了扎实的理论基础。但是,统计技 术对使用者的要求很高,而随着计算机计算能力的不断增强,我们希望可以利用计算 机强大的计算能力通过相对简单和固定的方法完成同样的功能。数据挖掘正是这样一 个实现途径,从这个意义上说,它是统计分析方法学的延伸和扩展【l “。 最后,是应用领域的推动。由于数据存储技术的日渐成熟。数据库和联机事务处 理f o u p ) 已经被广泛应用于金融、证券、保险、销售以及天气预报、工业生产、分子 生物学、基因工程研究等各行各业【1 3 m ”;在医学领域,各医院的i - 1 s 系统和p a c s 系统上都积累了大量的病例数据,而且正在产生着更多的数据。对于这些数据,人们 己经不满足于传统的统计分析手段,而需要发现更深层次的规律,提供更有效的决策 支持。专家系统靠人工获取知识这一“瓶颈”在日益膨胀的“数据山”面前显得更加 无力。 数据挖掘的过程是一个人机交互、多次反复的过程,挖掘对象是某一专业领域中 6 第1 章绪论 积累的数据,挖掘的结果要应用于该领域,因此数据挖掘的整个过程都离不开应用领 域的专业知识。目前数据挖掘技术在货篮数据( b a s k e td a t a ) 分析、金融风险预测、 产品产量、质量分析、分子生物学、基因工程研究、i m e m e t 站点访问模式发现以及 信息搜索和分类等许多领域得到了成功的应用o3 “1 ”。一套金融风险预测系统一年可 以挽回数千万美元的损失;“深蓝”计算机( d e e pb l u e ) 能够战胜人类国际象棋世界冠 军,成功的一个重要因素是具有知识发现能力,能从存储了7 0 万盘棋谱的数据库中 提取有用的知识【1 7 1 ;如果通过i n t e r n e t 访问著名的亚马逊网上书店,会发现当选中一 本书后,会出现“该书的购买者中有百分之x x 同时购买了x x 书”的推荐。可见, 数据挖掘技术已经步入人们日常生活。 因此,数据挖掘是跨学科发展的产物,数据挖掘就是利用了统计和人工智能技术 并与数据库技术相结合的应用程序,它把这些高深复杂的技术封装起来,使人们不用 自己掌握这些技术也能完成同样的功能,并且更专注于自己历要解决的问题。广泛的 技术支持和现实的需求将使得它以更快的速度发展。 1 3 3 数据挖掘分类 目前对数据挖掘的研究非常活跃,每年有大量的研究文献涌现。从数据挖掘的处 理过程、功能模型、算法研究、应用等不同层面,可以将数据挖掘按功能模型和挖掘 对象两个方面进行如下分类。 l _ 按照功能模型分类 数据挖掘功能模型回答了“数据挖掘能够干什么”的问题。数据挖掘模型按照功 能分为预测模型和描述模型。在预测模型中,用来预测的称为独立变量,要预测的称 为相关变量或目标变量。预测模型包括分类模型、回归模型和时间序列模型;描述模 型包括聚类模型、关联模型和序列模型。前者有时又称为有监督学习,后者称为无监 督学习。 ( 1 ) 分类模型( c l a s s i f i c a t i o nm o d e l ) 用于提取能代表群体的特征属性。在数据挖掘 中,分类模型通过对已知类别的个体进行归纳,找出各类的特征属性,即分 类模式。在有些情况下,先由领域专家对个体进行分类,再通过分类模型提 取分类模式。 f 2 1 回归模型( r e g r e s s i o nm o d e l ) 用属性的历史数据预测未来趋势。在最简单的情 况下,可以用标准统计方法,如线性回归等。但现实中往往非线性问题据多, 如股票价格的涨跌、机械系统故障的发生等,由于受许多因索的影响,问题 变得非常复杂。回归模型的任务就是找出对这些变化的准确描述。当然,也 有些技术既可以用于分类,又可以用于回归,如c a r t ( c l a s s i f i c a t i o na n d 7 r e g r e s s i o nt r e e s ) 等。 ( 3 ) 时间序列模型( t i m es e r i e sm o d e l ) 用已有的数据序列预测未来。从这一点上看, 与回归模型很相似。但回归模型不强调数据间的先后顺序,而时间序列模型 要考虑时间特性,尤其要考虑时间周期的层次,如天、周、月、年等,有时 还要考虑日历的影响,如节假日等。这里要注意,时间序列模型和对时间序 列数据的挖掘是两个不同的概念。对时间序列数据的挖掘可以用到多种模型 和方法,后面将详细介绍。 ( 4 ) 聚类模型( c l u s t e r i n gm o d e l ) 是将一个群体分成多个类,使同类个体尽可能相似 而不同类间个体差异尽可能大。与分类模型不同的是,聚类模型从未知开始, 既不知道具体的分类标准,也不知道会有些什么类。按照给定的聚类参数( 如 距离等) 进行分解、合并。得到的结果由领域专家进行甄别,如果不满足目标, 需要改动聚类参数,重新聚类。一旦达到目标,分类规则也就通过聚类参数 得到。 ( 5 ) 关联模型( a s s o c i a t i o nm o d e ) 用于发现事物间的关联规则,或称相关程度。关 联规则的一般形式是: 如果a 发生,则b 有百分之c 的可能发生; 其中c 称为关联规则的支持度( c o n f i d e n c e ) 。 例如,“如果m 的股票价格上升,有7 0 的可能微软的股票价格要下降” 和“买榔头的人有4 0 同时买钉子”两条关联规则的支持度分别为7 0 和4 0 。 ( 6 ) 序列模型( s e q u e n c em o d e l ) 与关联模型很相似,不同的是序列模型的对象是在 时域分布的,发现的规则也与先后顺序有关。例如关联模型发现的条规则 可能是: 如果机组发生油膜涡动,那么发生油膜振荡的可能是1 5 , 而序列模型发现的一条规则可能是: 如果机组发生油膜涡动,那么3 0 分钟内发生油膜振荡的可能是1 0 。 2 按照挖掘对象分类 按照不同的数据类型,数据挖掘研究在时间序列数据、空间数据、文本数据、多 媒体数据等方面展开。 时间序列数据( t e m p o r a l 或t i m es e r i e s d a t a ) 是与时间有关的一系列数据。可以进 一步分为时间相关数据和序列相关数据。时间相关数据与数据产生的绝对时间有关, 如股票价格、银行帐务、设备运行日志等;序列相关数据与数据产生的绝对时间关系 不大,而注重数据间的先后次序。典型的序列相关数据是传感器输出数据,简称传感 器数据( s e n s o rd a t a ) 。对时间序列数据的挖掘主要是发现序列中事物出现的周期和规 8 第1 章绪论 律,以及不同时间序列间的同步关系。 空间数据( t e m p o r a ld a t a ) 是与空间位置或地理信息有关的数据,如:二维、三维 图像数据,地理信息系统g i s 数据、人口普查数据等。 文本数据( t e x td a t a ) 就是我们一般的文字,如报刊杂志、设备维护手册、故障描 述等的内容。对文本数据的挖掘主要是发现某些文字出现的规律以及文字与语义、语 法间的联系,用于自然语言处理,如机器翻译、语音识别、信息检索等。当前一个十 分活跃的研究方向是w e b 日志( w e bl c g ) 的挖掘,目的是有效发现i n t e r n e t 用户访问站 点的模式,从而提高服务的针对性。 多媒体数据( m u l t i m e d i ad a t a ) 是随若多媒体技术而日益涌现的声音、图形、图像、 超文本等数据。应用领域例如针对大量图像的存储和查询问题而兴起的基于内容的图 像检索( c o m e m b a s e di m a g er e t r i e v a l ,c b i r ) l h - j 题。由于与传统的文本数据不同,因此 必须采用新的挖掘手段来发现内容和形式间的内在联系。 以上各节中简要介绍了数据挖掘的定义、历史和分类,有关数据挖掘的方法、步 骤和应用将在第二章作详细的介绍。 1 4p a c s 系统及其它医疗信息系统简介呻】 要对医学数据进行数据挖掘,需要选择合适的数据挖掘平台。近年来日益普及的 医疗信息系统,p a c s 系统、r i s 系统和s 系统,构成了医疗信息数据挖掘的理想 平台。下面将分别对它们进行介绍。 p a c s 系统,即医学图像存档与通信系统( p i c t u r ea r c h i v i n ga n dc o m m u n i c a t i o n s y s t e m ) ,是专注于医疗影像获取、通信、管理、存贮、显示和应用的综合影像业务数 字化平台。p a c s 系统实现了医疗影像的数字化和无胶片化的管理,从根本上改变传 统的医学图像存储和管理的模式。从1 9 8 2 年在加利福尼亚召开第一次p a c s 系统的 国际会议到现在,p a c s 系统已经有了近2 0 年的历史。随着c t 、m r 、c r 等数字化 成像设备的出现并普及,并在现代通信技术和计算机技术的不断推动下,p a c s 系统 的研究逐渐深入并走向成熟。目前,国内已经有上海静安区中心医院、华山医院、海 军总医院、山西省肿瘤医院、江滓市人民医院等多家医院使用了p a c s 系统。p a c s 系统的使用可以节省大笔的胶片的费用,具有巨大的经济效益;由于p a c s 系统和 h i s 、r i s 系统关系密切,它的使用必将对医院信息化建设起到巨大的推动作用,产 生重大的社会效益。 p a c s 系统一般包括以下四个系统:图像采集子系统、图像显示处理子系统、数 据库和图像归档子系统、图像通信和控制子系统。随着互联网的发展,p a c s 系统的 数据安全变得原来越重要,因此,p a c s 系统也应当包含信息安全子系统。p a c s 系统 9 第1 章绪论 的各个子系统的功能如下: 子系统功能 图像采集子系统图像采集、预处理、数据校核、数据再编码、数据上传 图像显示处理子系统图像的检索、查询、表达 数据库和图像归档子系统图像中心管理、海量图像存储 图像通信和控制子系统图像通信、路由 信息安全子系统系统安全和系统数据授权使用 表1 - 2p a c s 各子系统的功能 p a c s 系统的逻辑结构如下: 外部系统 ( m s ,r i s 等) 图像采集 子系统 医用成像 设备 远端客户il 远端客 态打气孙 磊、 通信和控制 子系统 数据传输和交 换安全子系统 图1 - 1p a c s 系统逻辑结构 图像显示 处理子系统 数据库和图像 归档子系统 除了p a c s 系统,医院信息系统h i s ( h o s p i t a l i n f o r m a t i o ns y s t e m ) 和放射科信息系 统r i s ( r a d i o l o g y i n f o r m a t i o ns y s t e m ) 是两个比较重要的医疗信息系统。在医院信息化 研究领域,h i s 的主要功能如下: ( 1 ) 患者就诊的医疗、护理业务管理,包括病历、处方、会诊和检验等方面的管 理: ( 2 ) 药品和医疗设备、器材的管理,包括药房、病床、耗材等管理; ( 3 、医院行政、财务管理,包括门诊、挂号、收费、医疗保险等方面的管理: ( 4 1 医院长期发展、计划的辅助决策,包括科室业务质量控制、业绩评定、费用 分析和统计分析等。 1 0 第1 章绪论 r i s 的主要功能如下: ( 1 ) 影像检查患者的基本信息管理,包括维护患者影像纪录,记录监控患者、设 备和流程的状态; ( 2 ) 影像检查账单信息管理,包括和h i s 系统通信获取所需的患者信息; ( 3 ) 影像检查步骤的计划和具体描述; ( 4 ) 影像检查诊断报告的管理,包括报告及模板的维护,报告的修改轨迹维护, 电子签名; ( 5 ) 患者做影像检查的预约、就诊管理和检查室安排。 对这三个系统的功能进行比较,可以看出,三个系统各有侧重,都是医院信息化 不可或缺的重要组成部分,要真正实现医院的信息化,需要将这三个系统融合成一个 总体的集成系统,而这个集成的信息系统为医疗信息数据挖掘提供理想的平台。 1 5 数据挖掘在医疗信息系统上的应用模型 要在对医疗数据进行数据挖掘,应当包括数据获取、数据预处理、数据挖掘、知 识评价和知识应用几个部分,结合上述介绍的数据挖掘平台,在医疗信息系统上进行 数据挖掘的系统框图为: 图1 - 2 医疗信息系统上的数据挖掘系统框图 其中,各部分要实现的功能如下: ( 1 ) 数据获取。该步骤的功能主要是从医疗信息系统中获取数据挖掘用的数据, 首先,要在理解数据挖掘目标的基础上,明确要获取哪些数据,然后医疗信息系统中 获取这些数据。因为p a c s 、m s 和r i s 三个系统的侧重点各有不同,单独一个系统 往往不能获得所需的全部数据,要分别到这三个系统中搜索相关的数据,比如说,要 对某种乳腺疾病数据进行数据挖掘,就要从p a c s 系统的数据库和图像归档子系统中 搜索并获取该乳腺疾病的钼靶图像,并从h i s 系统中找到病人的基本信息、病历和以 往病史等数据,然后利用得到的完整的数据进行数据挖掘,否则,挖掘出的结果极可 能是不完善的。 数据获取可以用数据库技术来实现,医疗诊断系统一般都采用标准o d b c 接口 第1 章绪论 和数据库进行交互,因此可以采用通用的关系数据库( 如m ss q ls e r v e r 等) 从医疗诊 断系统中获取相关的信息。 ( 2 ) 数据预处理。该步骤用来对从医疗信息系统中获得的数据进行预处理,预处 理主要包括两个方面:一是消除噪声,清除有冲突的数据,对有缺损值的数据进行处 理,去掉冗余的数据和数据中冗余的属性等操作;二是对数据进行融合( i n t e g r a t i o n l 和转换( t r a n s f o r m a t i o n ) ,数据降维,数据压缩等,进一步方便数据挖掘的进行;三是 结合具体数据挖掘问题的需要,对第一步处理过的数据进一步进行处理,比如,对乳 腺疾病进行数据挖掘时,要对得到的图像进行特征提取。这步是数据挖掘的关键, 它直接影响到数据挖掘的效果,也是工作量最大的一步,要占整个工作量的5 0 以上。 ( 3 ) 数据挖掘。针对要挖掘的问题的具体情况和对挖掘算法的具体要求( 如效率、 准确率和背景知识的多少等) ,选择合适的数据挖掘工具对预处理后的数据进行数据挖 掘。比如,如果数据量很大,对算法的效率要求很高,可以选择效率高的决策树算法, 选择收敛速度很慢的遗传算法就不合适:而如果没有多少背景知识的情况下,使用模 糊集算法会遇到困难,因为无法根据背景知识确定各元素的隶属度函数,这时可以采 用不需任何先验知识的粗糙集算法。 ( 4 ) 知识评价。在医学的数据挖掘领域,对于数据挖掘得到的知识或规则,除了 要利用测试数据检验其可靠性,更要请本领域的专家进行评价,来确定所得到的规则 的适用性。 ( 5 ) 知识利用。利用得到的知识规则,可以建立一个医疗诊断的专家系统,作为 医生诊断的辅助系统。这样利用数据挖掘,就避免了建立专家系统时的知识获取的瓶 颈问题。 在本文中,将主要进行数据挖掘算法的研究,也就是上面介绍的第( 3 ) 步的工作。 在以后的工作中,可以进行更深入的研究,直至建立一个成熟完善的医疗诊断专家系 统。 1 6 论文的主要研究内容和结构安排 本章中首先介绍了论文选题的意义,介绍了医学智能诊断的发展与现状和数据挖 掘的基本思想,然后在简要介绍各类医疗信息系统的基础上,提出了在医疗信息系统 上进行数据挖掘的系统模型。 在后面的各章中,将主要介绍一下内容; 第二章中,将对数据挖掘作一个详细介绍,其中包括数据挖掘的现状、数据挖掘 模型、各种数据挖掘技术、数据挖掘与相关学科的区别
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025北京房山区初三二模道法试题及答案
- 2025年航天知识问答题及答案
- 2025年黑龙江省事业单位招聘档案管理基本知识训练题及答案
- 巡察课件教学目的和意义
- 农村环境连片综合整治示范项目可行性研究报告
- 少儿美术教学课件6
- 年产140台智能箱变项目可行性研究报告
- 年产7500吨导电胶连续搅拌装备项目可行性研究报告
- 2025年燃气储运中级工程师面试要点及模拟题详解
- 眼外伤的护理课件
- 教育教学课件:暑假生活(英文版)
- AQ 2029-2010 金属非金属地下矿山主排水系统安全检验规范(正式版)
- JGJ153-2016 体育场馆照明设计及检测标准
- 小学小升初数学试卷(基础题)
- 2024年交管12123学法减分考试题库和答案
- RV减速器核心零部件摆线轮如何通过数控铣削实现高效加工
- 黄瓜栽培技术及病虫害防治
- 《胜任能力模型》课件
- 教师如何应对学生的行为问题
- 良性滑膜瘤(腱鞘巨细胞瘤)
- 《护士职业素养》课件
评论
0/150
提交评论