(计算机应用技术专业论文)关联规则挖掘在电子病历分析中的应用研究.pdf_第1页
(计算机应用技术专业论文)关联规则挖掘在电子病历分析中的应用研究.pdf_第2页
(计算机应用技术专业论文)关联规则挖掘在电子病历分析中的应用研究.pdf_第3页
(计算机应用技术专业论文)关联规则挖掘在电子病历分析中的应用研究.pdf_第4页
(计算机应用技术专业论文)关联规则挖掘在电子病历分析中的应用研究.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

户 l j 论文题目: 关联规则挖掘在电子病历分析中的应用研究 作者:刘秀娜 指导教师: 协助指导教师: 杓彗警副零撂单位:塑鍪重型垫奎堂 论文提交日期:2 0 10 年0 6 月1 2 日 学位授予单位:内蒙古科技大学 单位: 单位: 一 关联规则挖掘在电子病历分析中的应用研究 a p p l i c a t i o na n dr e s e a r c ho fa s s o c i a t i o nr u l eo nd a t am i n i n gf o ra n a l y s i so f c p r 研究生姓名:刘秀娜 指导教师姓名:柏建普 内蒙古科技大学信息工程学院 包头0 1 4 0 1 0 ,中国 c a n d i d a t e :l i ux i u n a s c h o o lo fi n f o r m a t i o ne n g i n e e r i n g i n n e rm o n g o l i a u n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g y b a o t o u0 1 4 0 1 0 ,p r c 瑚时a 独创性说明 本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 内蒙古科技大学或其他教育机构的学位或证书所使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并 表示了谢意。 签名:歪l 垂塑p 一日期: 翌丝:笸:! 兰 关于论文使用授权的说明 本人完全了解内蒙古科技大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保 存论文。 ( 保密的论文在解密后应遵循此规定) 签名:焯 导师签名: 蟛 日期:_ 2 丝- 丝 内蒙古科技大学硕士学位论文 摘要 电子病历的广泛应用,医疗设备以及仪器的数字化,使得病历数据库的信息 量不断增长。目前多数医院对数据库的处理还局限于对数据的简单操作,如数据 的插入、修改、查询、删除等,缺乏对数据的集成和分析,也谈不上医疗决策和 知识的自动获取。如何从海量的医疗信息中运用数据挖掘技术来了解各种疾病间 的相互联系,掌握其发展规律成为当前医疗数据挖掘的热点。挖掘信息对疾病的 诊断、治疗以及医学研究有重要价值。 数据挖掘的方法很多,关联规则挖掘是研究的重要方法之一,文章针对甲状 腺电子病历数据量大、更新速度快的特点,提出了一种挖掘有效关联规则的技 术。该技术运用区间归并法与特征区间法相结合的离散化方法对病历中的数据进 行预处理;在规则生成的核心算法中,提出了优化的增量更新f u p 算法,算法通 过对新旧数据库设定不同的支持度得到病历各属性间的关联规则。实验验证了改 进算法的有效性,挖掘结果对掌握疾病的症状与诊断的相互关系有重要价值,对 了解疾病的诊断、治疗、发展规律和医学研究都有重要意义。 本文主要完成了以下几个方面的工作: ( 1 ) 对大量电子病历数据进行了集成、清洗等预处理操作。在清洗过程 中,对病历数据进行了特征分析,运用区间归并法与特征区间法相结合的离散化 方法对病历中连续属性的数据进行了离散化。 ( 2 ) 深入分析了关联规则的a p r i o r i 算法和增量更新f u p 算法,提出了优化 的增量更新f l i p 算法,通过实验验证了算法对病历数据在时间、空间及其结果方 面的有效性。 ( 3 ) 运用提出的优化算法对甲状腺病历数据进行挖掘,得到了甲状腺病历 的关联规则。文章探索了适合医疗数据库中数据挖掘的有效方法和工具,挖掘结 果有一定的医学研究价值。 关键词:数据挖掘:关联规则:c p r ;f u p 算法 内蒙古科技大学硕士学位论文 w i t ht h ew i d ea p p l i c a t i o no fc o m p u t e r b a s e dp a t i e mr e c o r d ,t h ed i g i t a lo f m e d i c a le q u i p m e n ta n di n s t r u m e n t s ,t h ei n f o r m a t i o ni nm e d i c a lr e c o r d sd a t a b a s ei s g r o w i n gi na m o u n t c u r r e n t l yt h ed a t ap r o c e s s i n go nt h ed a t a b a s ei nm o s th o s p i t a l si s l i m i t e dt os i m p l eo p e r a t i o n s ,s u c ha si n s e r t i o n , m o d i f i c a t i o n ,q u e r y ,d e l e t ea n ds oo n i t i st h el a c ko fd a t ai n t e g r a t i o na n da n a l y s i s ,n o tt om e n t i o nm e d i c a ld e c i s i o na n d a u t o m a t i ck n o w l e d g ea c q u i s i t i o n h o wt ou n d e r s t a n dt h ec o r r e l a t i o ni nv a r i o u sd i s e a s e s f r o mt h em a s sm e d i c a li n f o r m a t i o nw i t hd a t am i n i n gt e c h n i q u e s ,g r a s pt h el a wo f d e v e l o p m e n th a sb e c o m et h ef o c u so fm e d i c a ld a t am i n i n g m i n i n gi n f o r m a t i o ni sv a l u e o ft h ed i a g n o s i s ,t r e a t m e n ta n dm e d i c a lr e s e a r c h a s s o c i a t i o nr u l e sm i n i n gi so n eo ft h ei m p o r t a n tw a y so ft h em a n ym e t h o d so fd a t a m i n i n g t h ea r t i c l ea d v a n c e sav a l i da s s o c i a t i o nr u l em i n i n gt e c h n i q u e sa i m i n ga tt h e m a s sd a t aa n dt h eq u i c k n e s su p d a t i n gi ne l e c t r o n i cm e d i c a lr e c o r d sf o rt h y r o i dv o l u m e t h et e c h n o l o g yu s e st h ec o m b i n e dm e t h o do f t h ei n t e r v a lm e r l 斑a gm e t h o da n dc h a r a c t e r i s t i c o fi n t e r v a lm e t h o dt od i s c r e t ed a t ai nt h ep r o c e s so fd a t ap r e t r e a t m e n t t h eo p t i m i z e d i n c r e m e n t a lu p d a t ef u pa l g o r i t h mi sa d v a n c e di nt h ec o r ea l g o r i t h mg e n e r a t e db yt h e r u l e s t h ea l g o r i t h mg e t st h ea s s o c i a t i o nr u l e sb e t w e e nt h ev a r i o u sp r o p e r t i e so ft h e m e d i c a lr e c o r d 谢也t h eo l da n dn e wd a t a b a s eb ys e t t i n gd i f f e r e n td e g r e eo fs u p p o r t t h ei m p r o v e da l g o r i t h mi s e x p e r i m e n t e de f f e c t i v e l y m i n i n gr e s u l t sa r ev a l u eo f m a s t e r i n gt h er e l a t i o n s h i p sb e t w e e n t h ed i s e a s es y m p t o m sa n dd i a g n o s i s i ti so fg r e a t s i g n i f i c a n c ei nu n d e r s t a n d i n gt h ed i a g n o s i s ,t r e a t m e n t , d e v e l o p m e n tl a wa n dm e d i c a l r e s e a r c h t h et h e s i sc o n t a i n sc o n t e n t sa sf o l l o w s : ( 1 ) l a r g en u m b e ro fe l e c t r o n i cm e d i c a lr e c o r dd a t ai sp r e p r o c e s s e ds u c ha s i n t e g r a t i o n ,c l e a n i n ga n ds oo n i nt h ec l e a n i n gp r o c e s s ,f e a t u r eo f t h em e d i c a lr e c o r d si s a n a l y z e d t om i n ev a l i da s s o c i a t i o nr u l e s ,i u s et h ec o m b i n e dm e t h o do ft h ei n t e r v a l m e r g i n gm e t h o da n dc h a r a c t e r i s t i co f i n t e r v a lm e t h o dt od i s c r e t ed a t ai nt h ep r o c e s so fd a t a p r e t r e a t m e n t ( 2 ) ia n a l y z et w oi m p o r t a n ta l g o r i t h m so fa s s o c i a t i o n r u l e sd e e p l y ,a p r i o r i a l g o r i t h ma n df u pa l g o r i t h m b a s e do nt h e s e ,ip r o p o s e a l l0 p 血血厨i n c r e m e n t a lu p d a t e r j pa l g o r i t h mi nt h ec o r ea l g o r i t h mt og e n e r a t ea s s o c i a t i o nr u l e s t h ee f f e c t i v e n e s so nt i m e , s p a c ea n dr e s u l to f t h ei m p r o v e da l g o r i t h mh a sb e e nt e s tb yt h ee x p e r i m e n t n , 内蒙古科技大学硕士学位论文 ( 3 ) t h ea s s o c i a t i o nr u l e so f e l e c t r o n i cm e d i c a lr e c o r do ft h y r o i da r eg e n e r a t e dw i t h t h ep r o p o s e do p t i m i z a t i o na l g o r i t h m t h et h e s i se x p l o r e st h em e t h o d sa n dt o o l sf o r e f f i c i e n td a t am i n i n gi nm e d i c a ld a t a b a s e t h er e s u l t s h o w sr n i n a n gr e s u l t si n u n d e r s t a n d i n gt h ed i s e a s e ,d i a g n o s i s ,t r e a t m e n ta n dd e v e l o p m e n ta r ev a l u a b l ea n d i ti sa l s o s i g n i f i c a n to f m e d i c a lr e s e a r c h _ k e yw o r d s :d a t am i n i n g ;a s s o c i a t i o nr u l e ;e p r ;f u pa l g o r i t h m 产 内蒙古科技大学硕士学位论文 目录 摘要i a b s t r a c t i i 1 绪论1 1 1 研究背景1 1 2 国内外研究现状3 1 3 课题研究的目的和意义5 1 4 课题的研究内容5 2 电子病历相关知识介绍。7 2 1 电子病历的概念7 2 2 电子病历在目前应用中的优势7 2 3 电子病历数据的特点:8 3 数据挖掘的理论基础1 0 3 1 数据挖掘的概念1 0 3 2 数据挖掘的主要功能1 0 3 3 数据挖掘的主要过程13 3 4 课题的数据挖掘流程图1 4 3 5 数据挖掘的主要趋势1 5 4 电子病历数据的预处理1 6 4 1 数据的集成a t ai n t e g r a t i o n ) 16 4 2 数据的清洗a l ac e a n i n g ) 1 6 4 2 1 空缺值的处理1 6 4 2 2 连续属性的离散化1 7 4 3 数据变换( d a t at r a n s f o r m a t i o n ) 18 4 4 数据简化( d a t ar e d u c t i o n ) 1 8 5 关联规则挖掘在电子病历分析中的应用2 0 5 1 关联规则的相关概念2 0 5 2 关联规则的分类2 1 5 3 关联规则挖掘算法分析2 1 5 3 1a p r i o r i 算法2 2 5 3 2 兀j p 算法2 5 5 3 3f u p 算法的改进算法2 6 5 3 4 算法的性能比较。2 8 5 4 关联规则的生成2 8 6 甲状腺电子病历数据挖掘结果分析。3 0 结论3 2 , 卜 - 内蒙古科技大学硕士学位论文 参考文献3 3 在学研究成果3 6 致谢。3 7 2 内蒙古科技大学硕士学位论文 1 绪论 1 1 研究背景 目前医院信息系统电子病历与病案的大量应用、仪器的数字化以及医疗设备的 改进,使的医院数据库的信息容量逐步地膨胀。但是日前大多数的医院对数据库的 处理还仅限于数据的录入、查询、修改、删除等过程,缺乏对数据的集成与分析, 更谈不上医疗决策与知识的自动获取。医疗数据挖掘通过在其海量的信息资源中进 行知识发现,对医疗数据库知识进行自动提升和处理,可以更好地为远程医疗和社 区医疗进行提供全面、准确的诊断决策及保健措施,提高医院的服务质量。 近年来,生物医学方面的工程研究有了突飞猛进的发展,测量技术及设备的提 高使得大量医学信息可以被精确地记录,但是同时也导致了医学数据资料爆炸性增 长,尤其伴随医院信息系统在各大医院的逐步投入使用,收集到的病人信息不仅包 括医学影像数据( 如x 光片、c t 影像资料) 各项生理指标,而且还有病人的年 龄、籍贯、身高、体重、家庭住址、既往病史等大量详细的个人信息。计算机性能 的提高及普及大大提高了研究人员对大规模繁杂数据进行计算与分析的能力,同时 也带来了一个崭新的课题一如何利用数据挖掘技术,挖掘和发现隐藏在这些大量数 据背后的临床医学知识和决策规则,将其直观显性的表达出来,为临床的决策诊断 与科学研究提供支持。数据挖掘理论的成熟及相关工具的普及为实现这一设想提供 了理论基础和现实依据【l j 。 , 数据库和信息技术的发展,网络技术的快速普及以及计算机硬件、数据收集设 备、存储介质的大量供应,使得人们的数据收集能力得到大幅提高。社会上的人们 存储了大量有关生产、管理及科研的各种信息,全球范围内数据存储量剧增,但是 目前与信息量与日剧增形成鲜明对比的是,人们从大规模数据中提取有用信息能力 并没有得到充分提高,传统的数据检索和统计分析等方法己远远不能满足目前人们 对知识的需求,因此出现了“数据丰富,信息贫乏【l 捌 的局面。如何从海量存储的 数据中抽取有用模式、找出数据的变化规律与数据间的相互关系、对挖掘的数据进 行充实、分析使之转化为易于理解的知识,成为人们目前的迫切需求。数据挖掘 ( d a t am i n i n g ) 与知识发现( k n o w l e d g ed i s c o v e r y l 2 , 3 ) 技术迎合了人们的需求,为自动和 智能地把海量数据转化为有用的信息知识提供了有力的手段,给数据和知识之间的 隔阂搭设了方便桥梁 4 1 。 数据挖掘技术目前已成为机器学习、数据库系统、人工智能等领域内的重点研 究方向。数据挖掘的概念1 9 8 9 年3 月在美国底特律召开的第1 1 届国际人工智能联 内蒙古科技大学硕士学位论文 合会议专题讨论会上被首次提出。之后引起了国际人工智能和数据库等领域专家的 广泛关注,1 9 9 5 年在加拿大召开了第一届知识发现和数据挖掘会议。与国外相比, 我国这方面的研究稍晚,大部分还处于科研联合研究阶段,没有形成整体的力量。 关联规则挖掘( a s s o c i a t i o nr u l e sm i n i n g ) 是当前数据挖掘领域非常重要的研究方 向之一。关联规则挖掘技术自19 9 3 年r a g a w a l l 5 】等人提出后即被数据库界广泛研 究,为了提高关联规则挖掘的效率,挖掘的算法也在原有的基础上进行了不断优 化。关联规则目前已成为数据挖掘技术的重要研究内容,而且在企业应用中会发挥 更加强大的生命力。关联规则挖掘的对象一般是大型数据库,如关系数据库等,数 据库数据量大,算法的效率问题也是目前关联规则应用的一个障碍。本文在研究已 有关联规则挖掘算法的基础上,提出了一个优化方法,在发现频繁项集的过程中通 过设置不同的支持度以减少扫描数据库的数据量对现有算法进行了优化,算法从时 间效率、空间占用量以及挖掘效果出发对增量更新f u p 算法进行了改进。 数据挖掘技术一开始就是面向应用的。它不仅是面向特定数据库的简单检索、 修改与查询调用,还要对这些数据进行微观、中观乃至宏观的统计、分析、综合和 推理,通过对数据进行提升来指导实际问题的求解,用来发现事件间的互相联系, 其在大型企业等单位已经得到广泛应用,目前甚至有企业利用已有的数据对未来的 活动行为进行预测。关联规则挖掘技术目前在银行、电信、金融和保险业应用最为 普遍,其他行业方面,如冶金、生物医药研究等,大多数还处于研究使用的初级阶 段,没有得到广泛的应用。数据挖掘技术在医学方面的应用如在医院信息系统 h i s ( h o s p i t a li n f o r m a t i o ns y s t e m ) 6 】上的应用研究目前主要集中在比较发达的国家, 如加拿大、英国、美国等。这些相对发达国家医疗信息化程度比较高,大型医院基 本上都建立了自己的医学数据库,这为数据分析及数据挖掘提供了数据基础;此外 这些国家数据挖掘技术的应用比较早,技术比我国成熟。在我国部分中小医院还没 有建立自己的数据仓库,甚至还没有实现医疗信息化。我国的医院信息系统起步较 晚,但经过了数十年的发展,正逐步在我国被各级医院中采用。根据文献资料1 2 引, 2 0 0 2 年卫生部对国内6 9 2 1 家医院进行调查,其中有2 1 7 9 家建设了h i s ,占3 1 。 从地区分布看,华东地区医院建设h i s 比例接近8 0 ,其他大部分地区在3 0 3 5 之 间,西北地区也达到2 0 。从医院规模看,省级医院建设h i s 的比例达到8 4 ,地 区级医院建设1 11 5 的比例为3 7 ,县级医院为3 4 。从整个发展趋势看,h i s 的重 要性逐步得到了各级卫生主管部门、医院领导的高度重视,发展十分迅猛,表现出 了明显特点:( 1 ) h i s 的建设热点已从大医院向中小医院蔓延,同时也带动了基层 卫生医疗单位信息化热的兴起。( 2 ) 医院对h i s 建设的投入比过去更多,建设范围 越来越广,建设活动越来越积极,要求越来越高。( 3 ) 伴随信息管理的水平提高, 内蒙古科技大学硕士学位论文 医院对h i s 的依赖性越来越强,逐步成长为医院的一个重要组成部分,在医院的日 常经营管理中发挥举足轻重的作用。 医院信息系统在医疗机构的广泛应用,促进了医学信息的数字化。同时,电子 病历和病案的大量应用、医疗设备和仪器的数字化,使得医院数据库的信息容量不 断地增加。这些宝贵的医学信息资源对于疾病的诊断、治疗和医学研究都有非常重 要的价值。人们越来越关注怎样利用这些已有的信息资源来为疾病的诊断及治疗提 供科学的决策,总结各种治疗方案的疗效,更好地为医院的医疗、决策管理、科研 和教学服务。另一方面,随着人们生活水平的提高、保健意识的增强以及我国医疗 体制改革的逐步深入,计算机技术、通信技术在远程医疗和社区医疗方面的应用, 已经成为各大医院的一个潜在市场。如何对医学数据库进行自动提升和处理,使其 更好地为远程医疗和社区医疗提供全面的、准确的诊断措施和保健措施,目前己成 为促进医院发展、提高医院服务质量必须解决的新难题。基于此,医疗数据挖掘技 术应运而生了。 数据挖掘技术在电子病历分析中的应用,一方面可以通过分析不同病种病因、 疾病发展趋势、治疗方法,为医院临床专家的医疗研究提供辅助的决策支持:如通 过建立决策树结合流行病学的医学理论来分析某种疾病与患者年龄、生活习惯等因 素的关系,从而找出病因及诊治方案;另一方面我们可以通过对现有数据的分析找 出某些规律用于为医院领导和决策部门提供管理方面的决策支持:如不同时期或历 年不同月份住院区的床位使用率和周转率、门急诊人次等,由于患者患病随季节等 因素变化很大,通过对数据的分析,提前作出预测,有的放矢,使得医院的资源得 到最合理的配置。 1 2 国内外研究现状 近年来,随着大型医院信息管理系统的发展,有关病人和疾病的电子格式的数 据日益增多,对临床日常工作和各项检查数据进行的数据挖掘研究也逐年增加。 在国外,数据挖掘方法已经在临床医学、药学、生物信息学等生命科学相关领 域进行了初步的探索。在临床医学领域的应用研究中,数据挖掘方法己有一些成功 的案例: ( 1 ) 疾病诊断 正确的诊断对于知道病人的用药及康复显然是重要的,在临床中有些疾病错综 复杂,数据挖掘的有关分类分析可以应用于疾病的诊断。a k u s i a k 等人将基于粗糙 集理论的两种算法应用于实体性肺结核的诊断,诊断准确率高达1 0 0 ,r o s h a w n n a s c a l e s 等人基于人工神经网络论及模糊逻辑开发的心血管疾病诊断工具对疾病诊断 内蒙古科技大学硕士学位论文 的正确率达到9 2 7 1 。 ( 2 ) 疾病预测 确定某些疾病的发展模式,根据病人的病史预测疾病的发展趋势,从而有针对 性的预防疾病发生。应用粗糙集或决策树理论,根据以往病例归纳出诊断规则,可 用来预测新的疾病的发生。专家利用肿瘤诊断数据库中的多个属性来挖掘出关联规 贝ue 8 1 。a m e r m 等人利用粗糙集理论来预测患者在进行心脏手术后是否会发生房颤 1 9 ,d a s s k 等人利用非参数决策树算法来预测肺癌病人在进行肺部化疗处理后所患肺 炎的可能性大小【lo j 。 ( 3 ) 疾病分类或分级 利用已获取的病人病案或诊疗数据,对病人所患疾病进行自动分类或分级,从 而提高诊断的正确率并有效降低病人检查费用。t u n g 等人利用基因数据建立模糊系 统,能自动的对, j , j l 淋巴细胞性白血病的亚型进行分型,p a b i t r am i t r a 等人利用智能 计算方法对宫颈癌的恶性程度进行自动分级【i 。 ( 4 ) 疾病相关因素分析 在病案信息库中存有大量关于病人病史和病人基本信息的记录,包括年龄、性 别、居住地、职业、生活史等。对病案信息库中的数据进行数据挖掘,可以发掘出 - 可能致病的相关危险因素,有利于疾病的预防。j o n a t h a nc p r a t h e r 等成功地应用数 据挖掘的有关理论对d u k e 大学医学中心的产科病人早产的3 个危险因素进行了分 析【1 2 】,g d u t a u 等人利用决策树算法对引发, j , j l 慢性或周期性感冒的危险因素进行 了研究【1 3 1 。 此外,数据挖掘在医疗质量控制、医疗费用控制、医院客户关系管理、循证医 学等方面也有涉及。 在国内,数据挖掘技术进入的时间较晚。在其发展初始,国内运用较多的领域 主要为金融、保险、零售、通信等行业。在医学领域,数据挖掘理念在1 9 9 7 年才被 提出,从2 0 0 2 年开始数据挖掘技术在医学研究上才有了真正意义上的应用。到 2 0 0 5 年止,生物医学期刊专业数据库c b md i s c 上亦只有1 5 8 篇相关专题论文被收 录,其中基础和理论研究和综述性报道仍占较大比重,应用案例的报道较少。 但是,从近几年发表的论文所获资助比例来看,国家相关科研管理机构对数据 挖掘技术在医学领域的应用研究已经提起重视。在1 9 9 7 2 0 0 5 年收录的相关文献 中,3 9 2 4 的论文( 6 2 篇) 获得3 2 种类型资助8 6 项,其中1 2 种类型的5 7 项资助来 自国家的相关机构,占了总资助的6 6 2 8 嘣1 4 1 。 综上所述,数据挖掘技术在国内医学领域的研究尚处于初级阶段,数据挖掘技 术在医学领域的应用尚未得到推广,但数据挖掘技术在医学领域应用的重要价值已 内蒙古科技大学硕士学位论文 开始得到重视。 1 3 课题研究的目的和意义 随着医院信息化建设的普及和深入,国内绝大多数大中型医院和众多小型医院 都己建立了自己的医疗数据库,具备了相对完善的医院信息系统。九十年代后期国 内一些大型综合教学医院就建立了电子病历信息系统。这种系统的功能目前已较为 成熟。经过近十年的不断探索,医院信息系统中己经积累了大量的临床诊疗数据, 为临床医学研究提供了大量珍贵的原始资料。但是,这些存储数据目前难以得到较 深层次的分析和利用,其主要的原因是传统数据库技术与统计分析技术的结合不够 紧密,使用起来极不方便,难以发现隐藏在大量数据中的临床知识。此外,传统的 数据查询或数理统计方法,其主要依靠研究人员的主观经验来判断和归纳,不可避 免地带有人为因素,不易全面、彻底地发现有价值的信息l l5 。数据挖掘技术的出现 改变了这种局面,弥补了传统方法的这一缺陷。关联规则挖掘技术作为数据挖掘的 重要研究方向之一,为我们提供了一种切实可行的方法来发现蕴含于临床诊疗数据 中的非平凡知识,为临床决策支持和科研提供服务。 关联规则挖掘的最终目标是从数以万计甚至几十万计的大量数据中发现项集之 间人们感兴趣的联系。它能够帮助研究人员从临床诊疗数据中发现症状与疾病之间 相互关联以及诊断与治疗间相互关联等一些令人感兴趣的模式,在各种疾病的临床 决策和科研中具有一定的应用前景。本课题以甲状腺电子病历为例,对其临床诊疗 数据进行了关联规则挖掘,最终得到了一系列的关联规则,并对规则的应用进行了 合理分析和评价,文章探讨了数据挖掘在临床诊疗中应用的实际意义。课题为临床 医疗专家及研究人员提供了一种新的分析方法,对临床诊疗数据向临床医学知识方 向的转化提供了一定的借鉴价值。此外,对关联规则挖掘过程中发现的问题进行了 细致分析和认真总结,给信息工作者提供了一定的方法参考。 课题的研究意义可总结为以下两点:( 1 ) 探讨和开发适合医疗数据库中数据挖 掘的一般方法和工具。( 2 ) 在电子病历分析中运用数据挖掘技术中的关联规则挖 掘,了解各种疾病间的症状与诊断之间的互相联系及其发展规律,总结各种诊治方 案的治疗效果,对疾病的诊断、治疗和医学研究都有巨大的价值和发展前途。 1 4 课题的研究内容 近年来,数据挖掘技术成为人工智能领域和数据库领域研究的热点课题,它引 起了科学界和产业界的高度重视与广泛关注,是一个新兴的具有广泛应用前景的研 究领域。关联规则是数据挖掘研究中的一个重要研究内容,它是完成数据挖掘任务 内蒙古科技大学硕士学位论文 的一种重要方法。在关联规则挖掘过程中主要存在两个问题:一是产生大量的候选 项目集;二是产生满足设定最小支持度与最小置信度的强关联规则。对这两个问 题,算法的时间与空间复杂度是瓶颈,因为频繁项集的数目与项目的数目比成指数 增长,占用的空间也会大大增加,所以导致在面对大规模的数据库时,整个算法时 间和空间的效率低,耗时大。本文对关联规则挖掘技术在电子病历分析中的应用技 术进行系统、全面深入的学习和细致研究。文章内容分为六章进行阐述,各章的内 容如下。 第章介绍了课题的研究背景,国内外研究现状,课题研究的目的和意义以及 医院信息系统和电子病历的相关信息。 第二章介绍电子病历的相关知识,对电子病历的概念,电子病历的优势以及电 子病历数据的特点做出详细阐述。 第三章介绍数据挖掘的理论基础,描述了数据挖掘的概念,挖掘的主要功能和 主要过程,课题采用的数据挖掘的流程图,并且介绍了数据挖掘的主要趋势和医疗 数据挖掘的背景。 第四章详细介绍了电子病历数据的预处理过程,结合课题数据,对本章数据进 行了集成、清洗、数据变换及简化过程。 第五章关联规则在电子病历分析中的应用研究,详细分析了a p r i o r i 算法和增 量更新f u p 算法的优缺点及优化技术,然后提出了f u p 算法的改进算法,并与经典 算法进行了比较。提出的算法提高了挖掘的时间效率,能更少的利用内存空间,增 强了挖掘结果的有效性。 第六章电子病历数据关联规则挖掘结果分析。通过对病历数据关联规则的挖 掘,详细分析了将关联规则用于临床门诊的实际意义。挖掘出甲状腺电子病历数据 的多为关联规则,对挖掘结果各属性的代表意义做了详细介绍,阐述了关联规则的 意义,对部分规则做出了医学解释。 内蒙古科技大学硕士学位论文 2 电子病历相关知识介绍 2 1 电子病历的概念 随着信息技术的普及和发展,纸张病历已经不能适应现代医学的需求,电子病 历开始在医院管理和医疗工作中出现。1 9 6 0 年自美国麻省总医院投入使用第一个实 际意义上的门诊病历系统,病历的计算机化从此开始,随着信息技术的发展,电子 病历的相关研究也不断深入,涵盖范围越来越广。 目前人们对电子病历的称谓很多,大多数文章引用的电子病历的概念为美国病 历协会在1 9 9 1 年对e m r 或者计算机化病历协会在1 9 9 7 年对c p r 的定义。在此引 入计算机化病历协会对c p r 的定义【1 6 】:c p r , ( c o m p u t e r b a s e dp a t i e n tr e c o r d ) ,也称 计算机化的病案系统或基于计算机的病人记录,它是指医务人员在医疗活动过程中 形成的文字、符号、图表、影像、切片等资料的总和,同时可作为医学研究和医学 教学的重要资料,便于远程医疗会诊和远程咨询,为医务人员提供及时准确完善的 病历信息、提高医疗决策的效率。它不只是一种记录方式和存储媒介,在病人的诊 断治疗过程中还起着信息传输媒介的作用。无论哪种定义方法,电子病历都要具有 两个必要的属性:第一完整的记录病人的健康信息和就诊的各项医疗活动记录,第 二要能够提供电子病历资料,是计算机和网络的优势得以充分发挥。 随着医院信息化建设的进行,电子病历作为临床医疗信息基础已成为医院信 息化建设的重点建设项目。 2 2 电子病历在目蝴中的优势 电子病历与传统病历比,主要存在以下四方面的优势f 1 7 冽: ( 1 ) 电子病历是主动的、动态的、相关的,传统病历的数据是被动的、孤立 的、静态的; ( 2 ) 电子病历可以存储海量数据,而且可以长期永久的存储数据,电子病历的 内容更加丰富,它可以存储检查结果、医学影像等资料; ( 3 ) 提高了工作效率,电子病历更加方便数据的采集和使用,便于医生的医疗 决策,提高了医院的科学化管理水平; ( 4 ) 借助于未来电子病历的统一标准,可以将各个医疗机构的病历资料汇总到 一起,实现病历资源的共享。资源共享可以实现远程会诊、家庭医疗咨询、心理咨 询和社区医疗等。医疗公共部门也可以根据病历数据实现对突发事件的预测和救 治。 内蒙古科技大学硕士学位论文 2 3 电子病历数据的特点 ( 1 ) 数据的隐私性 医疗数据不同于普通数据,其中会涉及到患者的一些隐私信息。医疗数据挖掘 要在保护患者隐私的基础上进行科学研究,并确保数据的安全性和机密性。本文所 用的数据是经过了处理,适用于挖掘的数据。 ( 2 ) 数据模式的多态性 电子病历数据包括纯数据( 如体征参数、化验结果) 、信号( 如机电信号) 、 医学影像( 如b 超、c t ) 、文字( 如患者的身份记录、症状描述、检测与诊断结果的 文字表述) ,还包括一些动画、语音和视频信息。病历数据模式的多态性是它区分 其它领域数据的最显著特征,这种多态性模式加大了医疗数据挖掘的难度。在对数 据进行挖掘前一定要处理好数据,对数据进行必要的转换。 ( 3 ) 不完整性 病历数据的搜集以治愈患者为目的,而数据的处理则是以寻找疾病的一般规律 为目的,在数据搜集的过程中不能得到研究所需的全部信息。人为因素也是导致数 据记录偏差和缺失的主要原因,医学数据的表达记录也有一定的模糊性和不确定 性。疾病信息所体现的客观不完整性和描述疾病的主观不确切性,形成了医疗信息 的不完整性。 ( 4 ) 时间性 医疗检测的信号如波形、图像都是时间的函数,它们都有较强的时效性。还有 一部分医疗信息,如病人的身份记录等静态数据,虽然不带有时序性,但都是对病 人在某一时刻医疗活动的记录。 ( 5 ) 冗余性 医疗数据库是一个庞大的数据资源,每天都有大量信息记录存储到数据库中。 其中可能会把那有一些重复的、无关紧要甚至相互矛盾的记录。比如:对于某些疾 病,病人所表现的症状、化验的结果、采取的治疗措施可能完全一样。挖掘这样的 信息一方面会影响挖掘的时效性,另一方面会对数据挖掘的结果产生影响。因此在 进行分析前要用现有的一些方法进行规约。 ( 6 ) 大量的缺省值 病历数据中存在大量的缺省值,主要原因可总结为以下五个方面: 检测仪器设备的发展。新技术的不断涌现,为了使医生得到更准确的诊断结 果,测试设备也在不断的改进;由于一些新测试设备投入使用前得到的记录不包括 相关信息,在进行数据分析时,这些测试结果给数据挖掘带来很大难度。 与医生诊断相关的缺省值。医生在做诊断时为了尽快得到诊断结果,通常会 内蒙古科技大学硕士学位论文 选择体检和化验的项目,如果医生具有相当丰富的专业知识,认为一些项目没有 用,他们一般不会做记录,则这些测试值就为空。 , 无异常变化的症状。鉴于病历数据记录的特点,医生一般只在症状出现病变 时才对它们做出相应的记录,无异常变化的症状将一般不做描述。 省略基本的医学常识。病历数据都是给医生、护士用的,一些医学上的基本 常识经常不做记录,数据挖掘者应该通过数据缺省情况对病症属性进行分类和处 理。 检查项目不同。一些检测项目可以根据医生多年的从医经验进行判断,跟据 病人的经济能力,同一病症因医生和病人的不同会进行检测的项目不同。电子病历 中这些项目的缺省率很高。 内蒙古科技大学硕士学位论文 3 数据挖掘的理论基础 3 1 数据挖掘的概念 数据挖掘是人们长期对数据库技术进行研究和开发的结果,它的技术受到多个 学科的影响而发展。数据挖掘( d a t am i n i n g ) 是从大量的、不安全的、有噪声的、模 糊的、随机的数据库或数据仓库中,提取隐含在其中的、人们事先未知的、但又具 有潜在应用价值的模式,建立模型,提供分析预测1 2 。它是建立在数据库和数据仓 库的基础上,面向非专业的用户,支持即兴联机查询。数据挖掘技术能自动分析数 据,进行归纳性推理和联想,寻找数据间内在的关联,发现潜在的、对信息预测和 决策行为起着重要作用的模式j 建立新的业务模型,帮助决策者制定策略,做出正 确的决策。 数据挖掘的大量应用实例可以得出它的一些重要特点:从数据挖掘的应用案例 可以看到数据挖掘的一些重要特点:( 1 ) 处理的数据规模巨大;( 2 ) 挖掘出来的 知识是未知的;( 3 ) 数据挖掘的功能除了发现潜在的规则,还要管理和维护规则, 给规则在应用方面的合理解释。在一些应用中,数据挖掘只能挖掘出当前数据库中 的规则,病历数据库中的数据是不断增加的,而且也存在数据库的更新问题,因此 要进行增量式规则的挖掘,不断更新原来的规则特征。 数据挖掘方法有基于数学的,非数学的,也有基于演绎的,归纳的。总的来 说,它是数据库,人工智能,数理统计,计算机科学及其他方面学者和工程人员在 探讨研究过程中创立的理论体系。为了能准确理解数据挖掘的概念与技术特点,一 些国内有为专家对数据挖掘的理论框架做出了综述 2 2 , 2 3 。主要的框架结构有模式发 现架构 2 4 , 2 5 1 、规则发现架构、基于概率和统计理论的架构【2 4 ,2 6 1 、基于归纳数据库理 论等。 3 2 数据挖掘的主要功能 数据挖掘的功能是用于指定数据挖掘任务中要找的模式类型。数据挖掘的任务 一般可分为描述型和预测型两类。描述性挖掘任务是导出概括数据中潜在联系的模 式,它的任务通常是探查性的,一般需要后处理技术进行验证和结果的解释。预测 性挖掘的任务目标是根据其他属性值来预测特定属性值。被预测的属性称因变量或 者目标变量,用来做预测的属性称自变量或说明变量。在实际应用中,模式又被细 分为关联规则、分类规则等。根据发现模式的不同种类,数据挖掘实现的功能主要 分为以下几个方面 2 7 1 。 ( 1 ) 概念描述 内蒙古科技大学硕士学位论文 描述性数据挖掘简单的类型是概念描述。概念通常是数据的汇集,概念描述是 描述某类对象的内涵,概括这类对象的有关特征。类描述是描述不同对象之间的区 别。生成一个类的概念描述只涉及该类对象中所有对象的共同特征。生成类描述的 方法很多,如决策树方法、遗传算法等。 ( 2 ) 分类和预测模式 分类和预测是两种数据分析形式,用于提取描述重要数据类的模型或预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论