




已阅读5页,还剩64页未读, 继续免费阅读
(交通信息工程及控制专业论文)关联分析在中医数据挖掘中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要:我国中医学是人类知识宝库的重要组成部分。中医学在漫长的发展过 程中,形成了自己独特的“辩证论治”理念然而,长期以来计算机对中医信息 分析处理基本上仍处于浅层的、经验性的知识应用,难以对中医的诊断和治疗过 程给出合理的解释。 数据挖掘指的是从大量数据中提取出有效的、新颖的、潜在有用的,以及最 终可理解的模式的高级过程。关联分析是数据挖掘研究的一个十分重要的方面。 关联规则挖掘侧重于确定数据中不同领域之间的关系,找出满足给定条件下的多 个域间的依赖关系。使用关联规则挖掘方法,分析中医诊疗数据,可以挖掘出中 医学在诊断和治疗中的潜在知识。 本论文基于北京市科技计划项目中风病个体诊疗规律及综合治疗方案的研 究 ,以中风病诊疗为背景,借助课题前期开发的管理信息系统的数据,挖掘中医 对中风病的诊断和治疗的规律、方法等知识,为建立中医上可行的演绎知识体系 提供支持。 本文的工作主要有以下几点; ( 1 )分析课题背景,确定研究目标,提出4 个需解决的主要问题。 ( 2 )在对数据挖掘进行简要综述的基础上,重点研究了关联挖掘方法。 介绍了关联挖掘中基于a 皿砥算法和f p 笋o w t h 算法的频繁项集挖 掘过程,同时针对中医诊疗知识发现这一复杂特殊的多层多维数值 类型的关联挖掘问题,分别介绍了多层关联规则、多维关联规则、 数量关联规则的具体挖掘方法 ( 3 )根据中医诊疗数据的特征,提出了一整套数据预处理方法,结合数 据清理、集成、变换和归约等技术对中医原始数据进行了规范化处 理。 ( 4 )在研究过程中,成功地完成了从数据预处理( 仅数值型数据离散化 部分) 到关联挖掘( 基于a 皿吲) 以及规则显示整个流程的m 觚a b 程序。同时,针对频繁项集过多的问题,提出在f p g 】n h 基础上 进行改进的关键项抽取算法k e f p g r o 州h ,忽略了在分析时不关心 的频繁项集,并使用v c + + 语言进行了算法实现,达到了较好的挖 掘效率。关联挖掘实验结果良好,得到了中医专家满意的关联规则。 本文使用关联分析方法成功地完成了中医中风病证候诊断和治疗的相关性研 究,也为中医学的知识发现提供了进一步研究的思路 关键词:数据挖掘;关联规则;中医;a p r i o r i ;f p 伊吣曲 韭毫銮煎太堂硬堂:僮j 幺塞生塞煎墨 分类号: a b s 们r a c t t r a d i t i o n a lc l i i n c m c d i d m ) i sas i g n i f i c 卸tp a no ft h c h u m 雅k n o w i c d g et h c s 卸m s 硎h 勰l 彻gh i s t o r yo ft h 伽s 粕d so fy e a r s 柚dh 鹤 栅c di t s 瑚j q u em r yo f “s y n d 舢cd i 丘讯n t i a t i 蚀砌n 啪r h o w w t h c a p p l i c a t i o f c o m p u t c rt c c i l n o l o g yi n 柚a l y z i n ga n dm 姐硒n gt c mi 椭a t i 伽i s s i m p k 柚dc x p c l i e m i a la l lt h et i n l 鼯1 ti sd i 岱c l i nt op r o v i d cl o g i le x p l a i i a t i 蛐f 0 i 。l h c d i a 印i s 姐d 仃髓饷e m 硼o c e 踞o f t c m d a l am i n i n gj sn 咖嫡v j a l 掣o 姆o f i d 衄l i f y i n gv a l i d ,n d v 吐p o f e j l t j a l l yu 辩f l l l a n du n i m a t c i y 蛐慨t a n d a b i cp a n 啪si nd a 饥a s s o c j 砌咖a n a l y s i s _ i s 缸岫p o n a n t a s p c do f 出妇m i n i n g 蛐l d y m j n i n go f 鹤s o c i a 商d nm l c s 锄p h 弱i z 髂p 删c u l a d y 蚰 硒r t a i n i l 喀t h cr c l a i i s “po fd a 土a 遍d i 任c 托n tr c 垂伽i s ,姐d 矗n d i n go u tt h cd c p e n d t r c l a t i 咖锄伽gm u l 廿m g i t h cm i n i 唱m 砌【o do f 硒s o c i a l i m l 髓u l db cu s e dt o 缸a l y z ct h cd a 协o f l 【= md i a g 吣s i sa n d 仃鼬皿钮t a n dt oo d 峨t h cp o t c n l i a ll n l 硎c d g c j n n i c m 1 1 i i sp a p c ri sb a d n 虻p 叫c 娃o f “l ( | 帕w l e d g cd i s c o v c r yi ns t u d y i n gd i a 印o s i s a n dt i 啪tp a t t c m 锄dh l e i 删r x 幻f 卫n d i 、r i d u a la 脚l 懿yo 墩矿i tu s 鹤n 璩 d a 协0 fm 锄g 锄咖i n f o m a l j s y s t 啪似i s ) ,劬j c hh 勰b 咖b u mt o 瑚o r dt h c i n f o 珊a t i o f a p 叩l “yd i a g n 船i s 如d 咖咖曲t 蕾叫3y 鲫瞎,t oo 岫t h ed i s c i p l i n c0 f 1 md i a 印o s i sa n dt r c 岫曲t 自孵a p 0 啊“y w b 啪髂t a b l i s haf c a s j b l ct c md c d u d i h i o w l c d g es y s 忙m 瓤删n g t ot h cr e 鲫l b t h cc 0 咖t d0 f t h i sp a p 盯a 聆m a i n l yf o a l s c d 彻t h cf 川l o w i n g 勰p c c t s : ( 1 ) a f t c r 如a l y z i n gm cb 孤c k 掣d u n do ft h ep r 巧c c t ,id e t 锄i n et h et a f g e t so f t h es t i l d y ,柚dp u t 硒阿棚4p r o b l e m st h a ts b o u l db c l v c d ( 2 ) t h cp a p c r 鲫衄a r i z n ”d a t am i n i n gt c c l l n o l o g ya tt h cb e g i 】m i n 参t h c e m p h a s i so ft l i ep a p c ri st or c s e 觚c ht h e 弱l c i a t i o nl n i n i n gt c c h n o l o g y t h i sp a p 盯m 啪m c n d st h cp l d c e 瓣so fm i n i n g 舭q u c n ti t c m sb a 辩do n n 地a 州嘶a l g o 删皿柚df p - g 咖t ha 1 9 0 r i t h mj n d e t a ms i n t h c h o w l e d g cd i s v c r yi n 删d i a 印i s 卸d 蛐e n ti sa 锄p l p i o b l 锄o fm l l l t i l c v 乩m u l t i - d i m s i ,锄dq 啪t i t a t i v c 弱s o c i a t i m i n i n g ,t h i sp 印盯缸删u c 酷t h cp a n i c i l l 盯p i o c 甜u r 鹤t od e a lw i t h 枷m i c v c ia s s o c i a t i 姐a l y s 域m u m 也c 璐i a s s o c i a t i 蛐a n a l y s i s 柚d q u 柚t j t a t i v e 积埘撕a n a l y s i s 麟p c c t i v d y ( 3 ) a r i o fd a t ap r c t r c a t m e n tm e t h o d sa 托p u tf o r w a f di na c r d 锄c ew i t h t h e 血扭c h 缸a c 慨t h e m c t h o d si n d u d i n g 曲屺d a t ad c 组i i i 吕i n t c f a t 洒, 仃a n s f o r m a t i ,彻dr 甜u c t i t c c h n i q u 髂酿柚d a r d 阮t h et c mo r i 西n a l d a t 乱 。 ( 4 ) h lt h cp i o s s0 ft h es t u d y ,t h i sp 印e r6 n i s h c st h em a l l a b p 鲈啪o f d a t a 鲫灯湘蚰t a n d 鹬s o c i a t i a n a l y s i sb a s c d 也e a 脚吲蛔r i t h m 觚dt h ed i s p l a y i i l go ft h c 鹤s o c i a t i o nm l 髓m o e o v c r c o n s i d c r i n gt h c p r o b l c mo fo v e 加柚y 饥q u e n ti t e m s ,t h i sp a p c rp r o m o t 鹤t l l ef p - 掣晰他 t ok e y - i t c mb 曲阻c t i 蚰j nf l 铷u e n tp a t t 锄g m w t h ( k e f p - 掣们岫 a l g 嘶t h | 虹t 0m i n en 把m e 孤i n g f m 缸q u c n t 缸锄s i t6 n i s h 髓u 蟛v c + + p 1 0 9 r a mo f t h i sa l 酬t h m 觚da c h i e v 豁ab 酬髓m i n i n gc f f i c i 曲c y t h 粥 p l p g 舢sm a l i tc 觞yt om a k e 叫tm a n ya s s o d a t i o n 埘l 鹳w h i c ht c m c x p e r t sa s a t i 蚯c dw i t h t ba 啪s i d 柏l ce x t c 】毗,t h i sp a p c rp m v i d 黯柚c 伍d l 加tw a yt od ot h e 硒r n l 玎 咖d y 面t c ml m o w l c d g cd i a y c r y 髓y w o 劝s :d a 衄m i n i n g ;a s s o c i a t i 伽r t l l e ;t 瑚d “i o n a lc h i n 雠m e d i c i n c c 旧; a p f i 嘶;f p - g 刚咄 c i a s s n o : 致谢 在本论文即将完成之际,谨向我的导师侯忠生教授表示最诚挚的感谢! 本文 的研究工作正是在他的直接指导和帮助下完成的。在我攻读北京交通大学硕士的 三年中,侯老师给我提供了良好的的研究和学习环境,并赋予我很高的期望,另 外侯老师严谨的治学态度和勤奋的工作精神永远值得我敬仰和学习。 同时要衷心感谢实验室张严心副教授和李星毅博士给我的指导和帮助,从选 题、开题以及论文的定稿审阅,张老师和李师兄都付出了大量的心血和辛勤的劳 动,并以敏锐的科研洞察力指引着我探索科学的方向。 也要感谢师兄王振华博士,和我一起讨论课题的相关问题,给我很多的启示 和建议。感谢江苏大学的周树勇同学,在进行f p 孕。叭h 的实现时给予了大力帮助, 使我得以突破自身思维和专业的囿圜,不断创新前进。感谢师弟李保洋,协助我 进行了数据预处理的工作。感谢课题组徐俊峰医生、刘强医生、张华医生等,给 予我课题上的诸多帮助,弥补我中医知识的严重不足。 也要感谢同实验室和我一起学习师兄弟和我的各位同学、朋友,给予我课题 上的许多建议和帮助,并陪伴了我走过三年的学习生活。 最后要感谢我的父母和家人,在学习和生活上给予我无私的支持,使我在科 研的道路上无所羁绊;并不断给我以激励与鼓舞,使我拥有迎接和战胜一切困难 的勇气和决心 1 绪论 我国中医学者在几千年的探索中,积累了宝贵的中医理论、施治原则以及大 量经典方剂,形成了庞大的知识库。然而在知识经济时代的今天,中医在体系结 构上尚未形成类似于西医的完整的知识体系,这一现象已成为中医走向世界的障 碍;同时,有用的中医学信息流失严重,也影响了中医学的发展。因此,以建设 中医科技信息数据库为基础,应用现代科学技术对中医药理论和实践进行科学阐 释和解析,特别是进行信息化、数字化和知识化的研究,提取中医学中内在的规 则形成知识体系,是促进中医国际化和现代化进程的重要内容。 1 1 论文背景 数据挖掘是当今活跃的具有广阔应用前景的信息技术研究领域,是人工智能、 统计学、机器学习、神经网络、模式识别、信息检索、高性能计算和数据可视化 等多领域相互交叉的研究方向。近年来,数据分析技术与特定领域的知识结合在 一起,提供了满足特定任务的数据挖掘解决方案,为这些行业的信息化发展作出 了突出的贡献i l j 。 医学领域以研究。人”为主,因此具有自身的特殊性,不仅是在临床数据上 具有大量性、复杂性、不规范性、模糊性等特点,在。人”方面还具有特殊性, 在研究人的疾病时还应考虑伦理学、法律要求和社会性,众多因素使医学的研究 一度限于瓶颈,而数据挖掘的引入为医学的研究开辟了一条广阔的道路。同时, 由于医学技术具有很强的实践性、实验性、统计性、是一门验证科学,浩瀚的医 学资源要用现代技术去组织、去分析、去利用。因此,探索数据仓库与数据挖掘 技术在医学方面的应用就具有更重要的使用价值。 医学数据挖掘是计算机技术、人工智能、统计学等与现代医疗相结合的产物。 随着理论研究的深入和进一步的实践摸索,医学数据挖掘必将在疾病的诊断和治 疗、医学科研与教学以及医院的管理等方面发挥不可估量的巨大作用【2 】。 本论文以中医中风病个体诊疗为背景,主要借助课题前期开发的中风病个体 诊疗管理信息系统( m i s ) 的数据库中记录的患者信息资料,抽取中医对中风病的 诊断和治疗的规律、方法等知识,以期能在不久的将来建立可行的中医学演绎知 识体系。 1 2 研究目标 。证”是中医学的一个特有概念。根据当代中医学的约定,每个具体的证, 都是对疾病过程中所处的一定阶段的病位、病因病性以及病势等所作的病理概括。 证是对致病因素与机体反应性两方面情况的综合,是对疾病当前本质所作的结论。 肝郁脾虚等证名,习惯上常称为证候。严格地说,证候应是指每个证所表现的具 有内在联系的症状、体征,即证候为证的外候。“辨证论治”是中医学的核心内容, 长期以来一直被认为是中医学理论体系中最具特色的学术精髓。因此对证候及其 诊断的研究非常重要【3 l 。 目前,中医中风病的证候诊断,一般是根据医生对患者进行望、闻、问、切 所得的四诊信息,对照中风病证候诊断标准量化评分表( 以下简称证候量表) 中 的各四诊项给予评分,得出各个证候的分值进行判断的。而对于每个患者采用何 种治疗法则,则是根据医生的经验对患者整体的症状进行判断后给出j 。 在中风病的西医评估量表方面,由1 9 9 5 年中华医学会第四届全国脑血管病学 术会议通过的各类脑血管疾病诊断要点规定,采用了美国国立卫生院卒中量 表( 即n s s ) 。n m s s 是针对神经学状态量化的评估,主要是评估脑中风时神经 损伤的严重度1 6 j 。 中医的“证候”概念,对于其它国家的人来说很难理解,得不到国际上的认 可。而西医的n 珊s s 量表是国际公认的评判中风程度的标准之一。若能通过数据 挖掘的方法得出n m s s 量表和证候量表的相关关系,即西医的神经学状态和中医 所说的证候的相关关系,就能为中医走向世晃提供一定的科学支持。 同时,在中风病中占主要地位的有风证、火热证、痰证、血瘀证、气虚证、 阴虚阳亢证六个证候,各个证候之问存在的关系、证候信息与医生经验给出的治 疗法则之问存在的关系,都是值得我们探讨的有意义的问题。 另外,中医专家经过十余年来的临床实验,发现在1 9 9 4 年由国家中医药管理 局全国中医脑病急症科研协作组制定的中风病辨证诊断标准所规定的证候量 表有一定的局限性,希望能在此量表基础上进行改进,即修正证候量表个数( 从 以前的六个证候增加至内风、内火、内湿、痰、血瘀、气滞、气虚、阴虚、阳虚、 阳亢十个证候) 、各证候中各四诊信息项的纳入与否以及纳入项所占量表分值的比 重。 通过分析和讨论,上述四个问题,都可以通过数据挖掘中的关联挖掘方法进 行研究,现总结如下; ( 1 ) 挖掘西医神经损伤程度与中医中风病六个证候之间的关联关系,可为 中西医之间关系的建立提供数据支持,进一步揭示中医学的合理性; 2 ( 2 ) 挖掘中风病六个证候内部之问的关联关系,可为中医的理论研究和证 候诊断提供科学依据; ( 3 ) 挖掘中风病六个证候与各个治法之间的关联关系,可为中风病的诊断 治疗提供参考和辅助; ( 4 ) 挖掘各个四诊信息与证候信息之间的关联关系,为第二代证候量表的 建立提供数据上的支持。 在问题( 1 ) ( 2 ) ( 3 ) 的研究中,拟采用关联分析的经典算法a 呻f i 进行挖 掘。而在问题( 4 ) 中,由于所涉及的数据项非常多,所以在研究中使用f p 伊o w t h 算法,并对算法进行改进实现以提高其性能。 1 3 论文结构安排 本章为本文的绪论部分,首先介绍了论文的背景,并通过对研究对象的分析, 提出了4 个待研究的目标和拟采用的方法 在后面的各章中,将主要介绍以下内容: 第二章,将对数据挖掘作一个综述首先介绍数据挖掘的定义和挖掘步骤、 数据挖掘技术的国内外发展现状及其在医学领域中的应用,然后介绍数据挖掘中 几个基本概念和挖掘前的数据预处理的内容,然后对现阶段常用的数据挖掘的五 大类方法及各类中常用的分析进行总结。 第三章,将详细介绍关联规则挖掘的基本知识。介绍关联规则的起源、基本 概念,并以本文研究内容为例介绍关联挖掘的4 种分类方法;详细介绍挖掘单维布 尔型关联规则的频繁项集的两种经典算法a l 疵嘶和f p 删的具体操作步骤及算 法流程,以及产生频繁项集后获取关联规则的方法;讲述多层关联挖掘的方法和 具体应用说明;介绍多维关联规则,并详细介绍其中数量关联规则的三种属性值 离散化的方法。 第四章,讲述本文的研究目标的具体实现过程。提出待研究的中医中风病诊 疗数据的特点,具体介绍研究中所进行的数据清理和集成、数据变换和规约等预 处理工作;针对特定的研究目标,新增两个关联规则的参数;介绍a p d 嘶算法的 实现方法和其m a l la b 程序界面;提出基于f p 一掣。辅r i h 的改进算法姗鲥) w t h , 介绍其用v c + + 实现的程序界面;将得到的关联挖掘结果进行总结和分析。 第五章,将对本文所作的工作进行总结,并指出下一步研究要努力的方向 3 2 数据挖掘综述 2 1 数据挖掘与知识发现 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数 据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更 高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数 据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据 现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了 “数据爆炸但知识贫乏”的现象。 计算机技术的另一领域一人工智能自1 9 5 6 年诞生之后取得了重大进展。经 历了博弈时期、自然语言理解、知识工程等阶段,目前的研究热点是机器学习。 机器学习是用计算机模拟人类学习的一门科学,比较成熟的算法有神经网络、遗 传算法等。 用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数 据背后的知识,这两者的结合促成了数据库中的知识发现( k d d :l ( 1 l o w l c d g c 啪c r yi nd a t a b a s 骼) 的产生。实际上,数据库中的知识发现是一门交叉性学科, 涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高 性能计算、专家系统等多个领域。从数据库中发现出来的知识可以用在信息管理、 过程控制、科学研究、决策支持等许多方面。 数据挖掘( d a 协m i n i n g ) 是知识发现最核心的部分,是采用机器学习、统计 等方法进行知识学习的阶段。数据挖掘算法的好坏将直接影响到所发现知识的好 坏。目前大多数的研究都集中在数据挖掘算法和应用上。人们往往不严格区分数 据挖掘和数据库中的知识发现,把两者混淆使用。相对来讲,数据挖掘主要流行 于统计界( 最早出现于统计文献中) 、数据分析、数据库和管理信息系统界;而知 识发现则主要流行于人工智能和机器学习界。 2 1 1k d d 定义及步骤 从k d d 的提出到现在,它的定义随着人们研究的不断深入也在不断完善,目 前比较公认的定义是f a y y a d 等给出的:k d d 是从大量数据中提取出有效的、新颖 的、潜在有用的、以及最终可理解的模式的高级过程川。 从定义中可以看出,k d d 是一个高级的处理过程,它从数据集中识别出以模 4 式来表示的知识。高级的处理过程是指一个多步骤的处理过程,多步骤之问相互 影响、反复调整,形成一种螺旋式上升的过程k d d 包括以下步骤: ( 1 ) 数据准备( d a t ap r 印缸a t i ) k d d 的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期 积累的结果。但往往不适合直接在这些数据上面进行知识挖掘,需要做数据准备 工作,一般包括数据的选择( 选择相关的数据) ,清洗( 消除噪音、冗余数据) 、 推测( 推算缺失数据) i 转换( 离散值数据与连续值数据之间的相互转换,数据值 的分组分类,数据项之间的计算组合等) 、数据缩减( 减少数据量) 。如果k d d 的 对象是数据仓库,那么这些工作往往在生成数据仓库时已经准备妥当。数据准备 是l 【i ) d 的第一个步骤,也是比较重要的一个步骤。数据准备是否做好将影响到数 据挖掘的效率和准确度以及最终模式的有效性。 ( 2 ) 数据挖掘 数据挖掘是k d d 最关键的步骤,也是技术难点所在研究k d d 的人员中大 部分都在研究数据挖掘技术,采用较多的技术有决策树、分类、聚类、粗糙集、 关联规则、神经网络、遗传算法等数据挖掘根据圈d d 的目标,选取相应算法的 参数,分析数据,得到可能形成知识的模式模型。 ( 3 ) 评估、解释模式模型 上面得到的模式模型,有可能是没有实际意义或没有实用价值的,也有可能 是其不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需 要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些 模式也可以直接用数据来检验其准确性。这个步骤还包括把模式以易于理解的方 式呈现给用户 ( 4 ) 巩固知识 用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。同时还 要注意对知识做一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使 知识得到巩固。 ( 5 ) 运用知识 发现知识是为了运用,如何使知识能被运用也是k d d 的步骤之一。运用知识 有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支 持;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识 做进一步的优化 k d d 过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要 回到前面的步骤,重新调整,重新执行 5 2 1 2 国内外发展现状及应用 1 9 8 9 年8 月,在美国底特律召开的第十一届国际人工智能联合会议的专题讨论 会上首次提出了k d d 这一术语。随后在1 9 9 1 年、1 9 9 3 年和1 9 9 4 年都举行k d d 专题 讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量 数据分析算法、知识表示、知识运用等问题。随着参与人员的不断增多,由美国 人工智能协会主办的k d d 国际研讨会,规模已经由原来的专题讨论会发展到国际 学术年会。 1 9 9 5 年,在加拿大蒙特利尔召开了第一届知识发现和数据挖掘国际学术会议。 因为数据库中的数据被形象地喻为矿床,所以数据挖掘一词很快流传开来。 1 9 9 5 年以来,在数据挖掘、知识发现方面的论文非常多,已形成了热门研究 方向。就算法技术而言,目前针对不同的应用背景提出了数百种算法,诸如神经 网络、支持向量机、数据挖掘等,取得了一些令人兴奋的成果。 与国外相比,国内对d m k d 的研究稍晚。1 9 9 3 年国家自然科学基金首次支持 对该领域的研究项目。1 9 9 9 年,亚太地区在北京召开了第三届e 甜d 会议,反 映空前热烈。目前,国内的许多单位和高等院校竞相开展知识发现的基础理论及 其应用研究。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了 较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复 旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了 对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等 单位探讨、研究了非结构化数据的知识发现以及w 曲数据挖掘。 目前,k d d 和d m 已成为研究的热点和焦点,已有一批d m 系统开发出来, 在商业、经济、金融、管理等领域都取得了应用性的成果。 国际知识发现研究知名学者加拿大s i m 帆f h s t c r 大学的h 柚j i 删e i 教授领导 的课题组开发了数据挖掘原型系统d b m i n e r a 这是一个交互式、多层次挖掘系统, 可以从数据库中挖掘不同层次知识,包括一系列的挖掘功能:概括、特征、分类、 预测。由m m 公司a l m a d 姐研究中心的r a 擘a w a l 等人研究开发的多任务数据挖 掘系统q u 璐t 面向大型数据库系统,包括关联规则、分类规则、序列模式和相似序 列等。此系统提供了专门在大型数据库上进行多种数据挖掘的功能;其多种挖掘 算法具有近似线性计算的复杂度;算法具有找全性,即能将所有满足指定类型的 模式全部寻找出来;为多种发现功能设计了相应的并行算法。 在国内,南京大学的徐洁磐、陈栋等人开发了一个原型系统k n i g h t ,这是一 个通用的d m 工具,可用于处理不同领域的知识发现任务,主要有聚类分析、特 征知识发现、分类规则发现、关联规则发现、函数依赖发现及基于查询的知识发 6 现等。 在现代医学领域中,数据挖掘已经成功地应用在生物医学、d n a 分析、遗传 学基因的研究,用于疾病相关因素分析、疾病诊断、疾病辅助诊断、疾病预测、 药物开发、药物蛋白质组学与药物发现等方面,对于现代医学的进步起到了积极 的促进作用。 在中医学领域中,目前数据挖掘技术主要用于一下三方面的研究; ( 1 ) 中医药信息文本数据挖掘 数据挖掘技术可以实现对隐含在文献中的诊断知识的学习。使用关联挖掘可 找出伤寒论条文中的病名与证候、体征、舌脉,方药等感兴趣的模式罔。 ( 2 ) 数据挖掘在中药方面的应用 数据挖掘是发现和解析中药指纹图谱潜在信息的有力工具,指纹图谱数据挖 掘主要用于中药质控、鉴定,分类和成药处方解析与优化以及寻找新的药源植物 与药物设计等【9 l ;数据挖掘亦用于中药药性理论研究,姚美村等以中药药性特征为 基础,以人工神经网络方法为工具,应用多层感知器网络,以文献中功效归类有 分歧的细辛、决明子、枸杞、贯众和熊胆等中药为研究对象进行功效归类自q 研究, 取得了较为满意的效果1 1 哪;当前在中医领域,数据挖掘应用最广泛的是在中药( 复 方1 的研究中,在探讨复方配伍规律方面已经取得了一定的进展。 ( 3 ) 数据挖掘用于中医证候方面的研究1 1 l l a 粗糙集理论:王相东等提出将粗糙集理论引入到中医学中来,为实现中医 诊断智能化提供了一种有效方法粗糙集理论在证候诊断中的应用,具体方法是 以患者一般情况、症状、体征、物理检查、实验室检查结果为主要依据建立信息 表。继而利用差别矩阵法进行属性简约与病例简约,得到下近似集和上近似集, 从而抽取中医诊断的确定规则和可能规则【1 2 l 。 b 决策树方法:瞿海斌等利用决策树从血瘀证病例中自动地提取相应的诊断 规则,得到决策树分类模型,并归纳出五条血瘀证的诊断规则。实验结果表明决 策树能自动从中医病例中归纳诊断规则1 1 ”。 c 神经网络:李建生等提出了用于中医证候诊断的径向基( r a d i a lb 嬲i s f u t i ,髓n 神经网络,利用聚类分析确定r b f 神经网络隐层的参数,运用最 小二乘确定r b f 神经网络输出层的参数。通过模型检验,证候诊断模型判准率比 b p 网络模型判准率高;证候诊断模型训练速度比b p 网络模型快【川。 d 贝叶斯网络:王学伟等应用贝叶斯网络方法通过分析血瘀证临床诊断数据 进行血瘀证定量诊断。通过该方法发现了血瘀证的七个关键症状,并定量计算其 诊断贡献度1 1 5 】 e 信息熵方法:中科院自动化所的西广成,利用信息熵方法对中风病的四诊、 7 证候等关系进行研究,取得了一定的成果【1 6 1 。 2 2 数据挖掘中的基本概念 2 2 1 数据集 数据集是从某个环境或过程中取得的一系列测量结果【1 刀。对于最简单的情况, 我们有一系列的对象,每一个对象都有统一的p 个测量结果,此时可以把这n 个 对象的一系列测量结果看作是一个n p 的数据矩阵。矩阵中的n 行表示被测量的n 个对象( o b j c c t ) ,亦可称为个体( i n d i v i d u a l ) 、实体( c m “y ) 、实例( c a ) 、 或记录( d 叫d ) 。矩阵中的p 列表示对每个对象所作的p 种测量,称为变量 ( v a r ! i a b l c ) 、特征( f c a t l i m ) 、属性( a t t r i b u t e ) 或者字段( 丘c l d ) 。 2 2 2 模式 模式是一个用语言l 来表示的表达式e ,它可用来描述数据集f 中数据的特 性,e 所描述的数据是集合f 的一个子集f e 。e 作为一个模式要求它比列举出数 据子集f e 中所有元素的描述方法简单。例如,“如果成绩在8 1 9 0 之间,则成绩 优良”可称为一个模式,而“如果成绩为8 1 、8 2 、8 3 、8 4 、8 5 、8 6 、8 7 、8 8 、8 9 或9 0 ,则成绩优良”就不能称之为一个模式。模式有很多种,按功能可分为预测 型( p r c d i c c i v c ) 模式和描述型( d e s c r i p t i v c ) 模式等。 。数据挖掘的任务是从数据集中发现模式。 2 3 挖掘前的数据预处理 数据挖掘处理的是存储在数据库系统中的大量数据,在进行具体的挖掘之前, 需要进行数据准备工作。数据准备包括数据收集和数据预处理两部分。数据收集 的工作一般为简单重复的工作,本节重点对数据预处理进行介绍。 2 3 1 数据预处理的重要性 当今现实世界中的数据库,极易受噪声数据、空缺数据和不一致性数据的侵 扰。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精 度和性能。由于高质量的决策必须依靠于高质量的数据,因此数据预处理是数据 8 挖掘过程的重要步骤,检测数据异常,尽早地调整数据,并规约待分析的数据, 将在决策过程中得到高回报。 数据预处理是收集到原始数据后进行的一个十分重要的步骤,这一步骤包括 对属性数据完整性约束、一致性约束的检查;检查是否有错误数据并对其进行处 理;检查是否有冗余的数据并剔除;检查是否有缺失的数据并按照一定的规则进 行填补;对数据的表述方式进行转换和统一;对数据进行压缩或投影以简化数据 的表达和处理等等;最后得到目标数据集。上面的各种处理并非在任何一个应用 中全都要用到,这要根据任务的要求和原始数据源的质量水平来确定。应该注意 的是,尽管上面的各种处理都有相应的工具来帮助人们实现,但这些工具毕竟不 具备人类的智能,有时反而会将正确的数据当作错误的数据进行处理,增加了数 据的噪声因此,人的参与尤其是具有专业知识的专家的参与是不可缺少的,特 别是在专业性较强的领域如医学、气象、金融等。在本文的研究中,作者参阅医 学文献,并在课题组中医专家的指导下完成了对中风病诊疗的原始数据预处理方 法的研究 2 3 2 数据预处理的定义 数据预处理包括实施数据挖掘算法前的所有工作,它实际上是个转换t ( 仃a f o 珊a t i o l n ) ,将现实世界中的原始数据向量磁转换为一系列新的数据向量y 。 k z ( x 。)( 2 1 ) 其中,i - 1 ,2 ,n ,n 为对象数目;j = 1 ,2 ,m ,m 为预处理后的特征数目;k _ l ,2 ,。 l , l 为预处理前的属性特征的数目;通常m 1 此转换满足如下的三点:( 1 ) b 保存了) 醢中“有价值的信息”; ( 2 ) y o 消除了至少一个在x k 中存在的问题;( 3 ) 通过上述关系处理,比) 【址更加有 用。 2 3 3 数据预处理的内容 数据预处理一般包含四个方面的内容:数据清理、数据集成、数据变换和数 据规约而在具体操作时,这四个内容之间并不存在严格意义上的顺序关系而且 有时难以清楚地区分开。 ( 1 ) 数据清理( d a 组a e 姐j n g ) 要使挖掘内核更有效的挖掘出知识,就必须为它提供干净、准确、简洁的数 据。然而实际系统中收集到的原始数据是“脏”的数据清理就是要去除数据源 9 中的噪声数据和无关数据、处理遗漏数据、清洗脏数据、去除空白数据和知识背 景上的白噪声、考虑时间顺序和数据变化识别孤立点等。数据清理主要包括缺值 数据处理、噪声数据处理和不一致数据处理。 对于空缺值记录,常采用的处理方法有: a 忽略记录,这在空缺值的比例很小时适用; b 人工填写空缺值,这在数据集大时可能行不通; c :使用一个全局常量填充空缺值,不过可能出现挖掘程序误以为此值为有趣 的情况,不推荐使用; d 使用属性平均值填充空缺值; e 使用与给定记录属同一类的所有样本的平均值; f 使用最可能的值填充空缺值,可以用回归、贝叶斯或其它方法来确定。 其中,方法f 最为常用,它使用现存数据的大部分信息来推测空缺值,与其它 方法相比具有一定的优越性。 所谓噪声,是一个测量变量中的随机错误或偏差。对于噪声数据,常采用的 数据平滑技术有; a 分箱,即同作考察周围“邻居”的值来平滑存储数据的值,包括按箱平均、 中值、边界平滑三类; b 聚类,用来检测孤立点; c 回归,即通过一个回归函数来平滑数据。 对于不一致数据,有些可以使用其它材料人工地加以更正,如数据输入时的 错误可以使用纸上的记录加以更正。另外,知识工程工具也可以用来检测违反限 制的数据,如知道属性问的函数关系时可以查找违反函数关系的值。 此外,数据清理也可以分为无监督和有监督两类。无监督过程是用样本数据 训练算法使其获得一定的经验,并在以后的处理过程中自动采用这些经验完成数 据清理的工作。有监督过程则是在领域专家的指导下,分析收集的数据,去除明 显错误的噪音数据和重复记录,填补缺值数据;在处理中医诊疗数据库时我们就 需要采用有监督的数据清理。 ( 2 ) 数据集成( d a t ai n t c 掣“吼) 数据集成是根据用户的需要从原始数据库中确定知识发现任务的目标数据, 包括对数据对象和数据集中属性的选取。由于进行知识发现的数据可能来自多个 实际系统,因而还存在着异构数据的转换问题。另外,多个数据源的数据之间还 存在许多不一致的地方,如命名、结构、单位等。数据集成主要是将多文件或多 数据库中的异构数据进行合并处理,解决语义的模糊性,从而把原始数据在最低 层次上加以转换、提炼和聚集,形成最初始的知识发现状态空间。它并非是简单 1 0 的数据合并,而是一个将数据进行统一化和规范化处理的复杂过程。 ( 3 ) 数据变换( d a 扭t 咖s 向珊a t i 明) 数据变换主要是找到数据的特征表示,用维变换或转换方法减少有效变量的 数目或找到数据的不变式,包括平滑、聚集、数据概化、规范化、属性构造( 或 特征构造) 等操作。 ( 4 ) 数据规约( d a l ar c d u d i 伽) 有些数据属性对知识发现任务是没有影响力的,这些属性的加入会大大影响 数据挖掘的效率,甚至还可能导致挖掘结果的偏差。因此,有效地缩减数据是非 常有必要地。数据简化是在对挖掘任务和数据本身内容理解的基础上寻找依赖于 发现目标的表达数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌 的前提下最大限度地精简数据量。它主要有两个途径:属性选择和数据抽样,分 别针对数据库中的属性和记录来进行数据量的缩减。 属性选择包括针对属性进行剪枝、并枝、找方程和找相关等操作。剪枝就是 去除对发现任务没有贡献或贡献率极低的属性域;并枝就是对属性进行主成分分 析,把相近的属性进行综合归并处理;找方程就是发现两个或多个数值表示的属 性之间的函数关系;找相关,即因子分析,在取值无序且离散的属性之间寻找依 赖关系,确定某个特定属性对其它属性依赖的强弱并进行比较。通过属性选择能 够有效地减少属性,降低知识状态空间的维数 数据抽样就是进行数据记录之间的相关性分析,用少量的记录基底的线性组 合来表示大量的记录。它主要利用统计学中的抽样方法,如简单随机抽样、等距 离抽样、分层抽样等,具体进行统计计算,对于相同元组进行归并,并增加必要 的支持度属性域。最简单的支持度属性域就是相同元组的数目,或者占总元组的 百分比,也可以是信任度,最后去除那些支持度较低的元组。 2 4 数据挖掘方法 数据挖掘通过预测未来趋势及行为,做出前摄的,基于知识的决策。数据挖 掘的目标是从数据库中发现隐含的,有意义的知识【1 8 l 。 2 4 1 概念描述 概念描述本质上就是对某类对象的内涵特征进行概括。概念描述分为特征性 ( q 【a r a c i c r i 2 埘伽) 描述和区别性( d i s c l i m i m t i 伽) 描述前者描述某类对象的共 同特征,后者描述不同类对象之间的区别。 l l 数据概化和概念描述密切相关,给定放在数据库中的大量数据能够以简洁的 形式在更一般的抽象层次描述数据是很有用的,允许数据在多个抽象层概化,便 于用户考察数据的一般行为。 例如对超市的销售数据,销售经理并不想了解每个客户的事务,而愿意观察 到高层的数据,例如按地区对顾客分组,观察每组顾客购买频率和顾客的收入。 这种多维多层次数据概化类似于数据仓库中的多维数据分析。 2 4 2 关联分析 关联知识( a ;s o d a t i o n ) 反映一个事件和其它事件之间的依赖或关联。数据库 中的数据关联是现实世界中事物联系的表现。数据库作为一种结构化的数据组织 形式,利用其依附的数据模型可能刻画了数据问的关联( 如关系数据库的主键和 外键) 。但是,数据之间的关联是复杂的,不仅是上面所说的依附在数据模型中的 关联,大部分是蕴藏的。关联知识挖掘的日的就是找出数据库中隐藏的关联信息。 关联可分为简单关联、时序( ms c d 嚣) 关联、因果关联,数量关联等。这些关 联并不总是事先知道的,而是通过数据库中数据的关联分析获得的,因而对商业 决策具有新价值。 从广义上讲,关联分析是数据挖掘的本质。既然数据挖掘的目的是发现潜藏 在数据背后的知识,那么这种知识一定是反映不同对象之间的关联。在上面我们 提到的广义知识挖掘问题实际上是挖掘数据与不同层次的概念之间的关联。当然, 本节的关联分析还是指一类特定的数据挖掘技术,它集中在数据库中对象之间关 联及其程度的刻画。 关联规则挖掘是关联知识发现的最常用方法。最为著名的是a p 咖r i 【1 唧l 及其 改进算法1 2 1 盈洲。为了发现出有意义的关联规则,需要给定两个阈值:最小支持 度和最小信任度。挖掘出的关联规则必须满足用户规定的最小支持度,它表示了 一组项目关联在一起需要满足的最低联系程度。挖掘出的关联规则也必须满足用 户规定的最小可信度,它反映了一个关联规则的最低可靠度。在这个意义上,数 据挖掘系统的目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联 规则。关联规则的研究和应用是数据挖掘中最活跃和比较深入的分支,许多关联 规则挖掘的理论和算法已经被提出。关于关联规则挖掘问题及其算法等,将在第 三章详细讲述。 2 4 3 类知识挖掘 类知识( a 鹊s ) 刻画了一类事物,这类事物具有某种意义上的共同特征,并 明显和不同类事物相区别。和其它的文献相对应,这里的类知识是指数据挖掘的 分类和聚类两类数据挖掘应用所对应的知识 ( 1 ) 分类( a 嘲i 矗c a t i ) 分类是数据挖掘中的一个重要的目标和任务,目前的研究和在商业上应用最 多。分类的目的是学会一个分类模型( 称作分类器) ,该模型能把数据库中的数据 项映射到给定类别中要构造分类器,需要有一个训练样本数据集作为输入。由 于数据挖掘是从源数据集中挖掘知识的过程,这种类知识也必须来自于源数据, 应该是对源数据的过滤、抽取( 抽样) 、压缩以及概念提取等。从机器学习的观点, 分类技术是一种有指导的学习( s u
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 紧急国际合同审查、翻译认证及法律效力合同
- 既有建筑消防设施优化升级补充合同
- 外资保险公司中国理赔业务风险评估与合同
- 亲子关系修复子女探视协议书
- 网络文学作品翻译及工作室租赁商务合作框架协议
- 海洋运输货物保险责任及索赔处理合同
- 雨天安全健康教育
- 共享健身房运营管理补充协议
- 建筑工程安全认证与现场管理协议
- 商业综合体导视系统委托经营及广告投放管理合同
- 水资源应急调度模型-洞察分析
- DB51-T 3000-2023 退役军人服务站建设与运行管理规范
- 神经指南:中国成人失眠诊断与治疗指南(2017版)
- 代理商合作条件说明
- DB11-T 1952-2022 地理国情监测技术规程
- GB/T 15843.2-2024网络安全技术实体鉴别第2部分:采用鉴别式加密的机制
- 完整版:美制螺纹尺寸对照表(牙数、牙高、螺距、小径、中径外径、钻孔)
- 陪诊服务协议
- 2023年广东深圳中考满分作文《把学到的东西用起来真有意义》
- 2024年湖南省衡阳八中教育集团直选生数学模拟试卷+
- 胸痛规范化评估与诊断中国专家共识(全文)
评论
0/150
提交评论