(计算机应用技术专业论文)数据挖掘若干方法研究及其在中医药数据库中的应用.pdf_第1页
(计算机应用技术专业论文)数据挖掘若干方法研究及其在中医药数据库中的应用.pdf_第2页
(计算机应用技术专业论文)数据挖掘若干方法研究及其在中医药数据库中的应用.pdf_第3页
(计算机应用技术专业论文)数据挖掘若干方法研究及其在中医药数据库中的应用.pdf_第4页
(计算机应用技术专业论文)数据挖掘若干方法研究及其在中医药数据库中的应用.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘若干方法研究及其在中医药数据库中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

旦型塑坐羔唑些堕兰! 塑砣 摘要 华夏医学源远流长,有着数丁年的历史,足我国劳动人民长期同疾病做 斗争的极为十富的经验总结,是我同优秀文化的重要组成部分。在古代朴素 的唯物论和自发的辩证法思想的影响和指导下,通过长期的医疗实践,逐步 形成并发展成为具有独特的医学理论体系,丰富的治疗经验的完整医学,为 巾围人民的保健枣、i k 和r r i 华民族的繁衍昌盛做出了巨大的贡献。f 日足,作为 经验医学,它缺乏客观性指标,描述文字繁琐、晦涩、模糊,刈丁现代的医 学工作者学习,掌握较嘲难。加之,内容i 歌7 7 1 、缺乏系统性、规范性使研究 颇为不便。 数据挖掘足从大量数据中“挖掘”先前未知的、有效的、可使用的知识。 数据挖掘能发现频繁集,产成关联规则;进行分类及聚类等。中药方剂是我 国独有的医学宝库,由于长期缺乏系统的科学的整理,大量的方剂处于分散 流失状态,亟待我们用科学的手段加以整理和分析。而中药方剂数据的庞大 和复杂正好适合数据挖掘技术的运用。 本文研究了中药方剂数据的特点,建立了巾药方剂数据库;研究并讨论 了数据挖掘的基本理论和方法:研究了若r 数据挖掘算法,并选择合适的挖 掘算法( 或则其中某些算法做出适当改进) 应用于中医药方剂数据库,挖掘 其巾有用的知识。本文主要使用了频繁集、关联规则和聚类方法进行挖掘。 挖掘频繁集与关联规则时,主要使用了经典的单维布尔关联关则挖掘算法 a p r i o r i 算法。为了更适于中医药数据库中的挖掘,对a p r i o f i 算法进行了 改进,提出了m a p r i o r i 算法用r 挖掘多维布尔关联规则,和w a p r i o r i 算法 用于挖掘加权关联规则。在聚类分析方面,主要使用了凝聚型层次聚类法。 为了提高聚类的质量,使用r a t i o d 距离代替传统的欧氏距离进行聚类。 本文是基于“中药复方分析系统”软件开发项目( 由西南交通大学神经 网络与信息技术研究所与成都中医药大学图书馆合作开发) 完成的。该软件 借助数据挖掘的多种方法,针对中医学古今药方,实现对中医药数据库的深 入挖掘。系统丌发成功后,交由巾医学者使用,其用途包括:1 协助中医学 者研究与发现巾医约海量数据叫强含的规律和趋势;2 帮助医生丌出有科学 依据的药方,实现巾医学的科学化,规范化。在本文的末尾对“中药复方分 析系统”软件进行了,简要的介绍。 天键词: 数据挖掘关联规则聚类分析多维关联规则a p r i o r i 算法中医药数据库 中药方剂 a b s t r a c t 7 r r a d i t io n a lc h i n e s 8m e d jc in eh a sal o n gh is t o r ya n disb a s e do n ah u g ea m o u o to f v a lu a b l ep h a rn 】a c e u t i c a li n f o r m a t i o na n dd o c u m e n t s , w h i c hisc o m p o s e do fa m h i g u o u sw o r d sw i t ho v e r l o a d e dd e t a i l s l o wt o uset h e mt oservef o rm o d e r np h a r m a c yi sab i gc h a ll e n g e t h eo b j e c t i v eo fd a t am in in gjst od i s c o v e ru n k n o w n ,v a l i da n d u s a ) l ek n o w le d g ef r o mam a s so f 、in f o r m a t i o n t h et y p i c a lk n o w l e d g e d is c o v e r a b leb yd a t am i n i n gsp f i m a r i l ya s s o c i a t i o ny u i e s c l a s s e s a n dc u s t e r s t r a d i t i o n a 卜c h i n e s em e d i c i n ep r e s c r i p t i o n sareour c o u n t r y sp r e c i o u sm e d i c i n em i n ew h o s ec o m p l e x i t ya n dh u g ea m o u n to f i n f o r m a t i o ns u i t w e l lt h ea p p lie a t i o no fd a t am i n i n g t h es t u d yi s a i m e da td is c o v e r in gt h eh i d d e np h a r m a c e u t i c a l p r i n c i p l e s int h e t r a d i t j o n a l 一c h jn e s em e d i c i r ep r e s e t ip t io n s f o rt h isu s e t h em e t h o d s o fa s s o c i a t jo nr u l e sa n dc l u s t e ra n a l y s i sarep r e s e n t e da n da p p l i e d int h i sp a p e r t h ec h a r a c t e r i s t i c so ft r a d i t i o n a l c h i n e s e m e d i c i n e p r e s c f i p t i o n sares t u d i e d , a n dat r a d i t i o n a 一c h i n e s e m e d ic i n ep r e s c r i p t i o nd a t a b a s eisb u i l t a f t e rt h a t ,b a s i cp r i n c ip l e s a n dm e t h o d so fd a t am i n i n garep r e s e n t e d ,s o m ed a t am i n i n ga l g o t it h m s ared is c u s s e da n da p p l i e dt ot h ed a t a b a s e i nt h em i n in go fa s s o c i a t i o n r u l e s ,a p r i o r ia i g o r i t h m c a s s j c a la l g o r i t h mf o rt h ed i s c o r e r i n go f o n e d i m e n s i o n a b o o l e a na s s o c i a t io nr u l e s isc h o s e nt o a p p l y m o r e o v e r ,a p r i o r ia i g o r i t h mi sa m e i o r a t e di no r d e r t ob e t t e rserve t h ep u r p o s eo fd a t am i n i n gint h et r a d i t i o n a l c h i n e s em e d i c i n e p r e s c r i p t i o n d a t a b a s e : m a p r i o r i a l g o ri t h m :t od i s c o r e r m u t i d i m e n s i o n a b 0 0 1 e a na s s o c i a t i o nr u l e s ,a n dw a p r i o f ia i g o ri t h m t od i s c o v e rw e i g h t e db o o e a na s s o c i a t i o nr u l e st h a ta s s i g na w e i g h t t oe a c hi t e m o ft h ed a t a b a s ea c c o r d i n gt oi t si m p o r t a n e e t ot h e g e n e r a t i o no fr u l e sa n dt a k eth ew e i g h t si n t oc o n s i d e r a t i o nw h e n g e n e r a lin gt h ea s s o c i a t i o nf u 】e sareb r o u g h tf o r w a r d t od is c o v e r c l u s t e r s ,a g g o m e r a t i n gh i e r a r c h ic a la l g o r i t h mi su s e d t oe n h a n c e t h eq u a lit yo l 、c l u s t e r in g ,r a t i o dd i s t a n c ei su s e di nt h ep l a c eo f c l a s s i c a l e u c l i dd i s t a n c e t h is p a p e r i s b a s e do nt h e d e v e l o p m e n t o fs o f t w a r e “t r a d i ljo n a 卜c h i n e s em e d i c i n ep re s c r i p t i o n a n a l y s iss y s t e m ”w h i c h wasd e v e 【o p e db yt h ec o o p e r a to n ( “t h el a b o r a t o r yo fn e u r a ln e t w o r k s a n d i f o r m a t i o nt e e h n 0 1 0 9 ye ls o ul h w e s tj i a o t o n gu n iv e r s j t ya n dt h e ,1 a r v ( j c h e n a d uc h j ( e s om c ( i i c i d eu n i v e r s i t y + l h i ss o r l w i r e s “ d a lh n l jn 1n gt 0 0 1f o r c h ln o s em e d i c ln ed a t a b a s ew h o s ef u n c t lo r l jn ( :】u d e s :1 ) t oh e l pt h ec h i t i e s em e d i c in er e s e a r c h e r sd is c o v e rh i d d e l l pr jn ( 、ip je sa n dt r e n d sint h ec h i n e s e m e d i c i n ep r e s e t i p t i o n s :2 ) t o h e l pl h ec h i n e s e m e d i c in ed o c t o r sm a k em o r es c i e n t i f i ca n ds t a n d a r d d e c s o n sw h e ng iv in gp r e s c f i p t i o i l s k e yw o r d s : d a t am i n i n g :a s s o c i a t i o i lf u 】e s c 】u s e ra n a l y s j s :f l i u 】t i d j l t e i s j o n a 】 a s s o c j a t i o 1r u 】e s :a p r 】o t a 1g o t i t h m :t r a d i t i o n a l c h in e s em e d i c i n e d a th b a s et r a d i t i o n aj 一( :h jr l e s em e d i c if i ep r e s c r i p t io n 两南交迎大学研究生学位论文 第一章绪论 1 1 数据挖掘与知识发现( d m k d ) 研究的现实意义 我们生活在个网络化的时代,i t 技术正改变着整个人类和社会。随着 计算机与网络技术的快速发展,我们发现存在于人们手边的信息越来越多, 这些信息的存在给人们带来方便的同时也带来了许多新的问题;第一是信息 过量,难以消化;第二是信息真假难以辨识:第三是信息安全难以保证;第 四是信息形式不一致,难以统一处理。另一方面,随着数据库技术的迅速发 展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据 背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便 更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、 统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预 测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆 炸但知识贫乏”的现象。人们开始提出一个新的口号;“要学会抛弃信息”。 人们开始考虑:“如何才能不被信息淹没。而是从中及时发现有用的知识、 提高信息利用率? ”面对这挑战,数据挖掘技术应运而生,并显示出强大 的生命力。 那么什么是数据挖掘呢? 从技术角度来讲,数据挖掘( d a t am i n i n g ) 就 是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取 隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包 括好几层含义:数据源必须是真实的、大量的;发现的是用户感兴趣的知识: 发现的知识应是可接受、可理解、可运用的、仅支持特定的发现问题的( 而 不是放之四海皆准的) 知识。从商业角度来看,数据挖掘是一种新的商业信 息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、 分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之, 数据挖掘其实是一类深层次的数据分析方法。现在,由于各行业业务自动化 的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的 而收集的,而是由商业运作面产生。分析这些数据也不再是单纯为了研究的 需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有 企业面f 临的个共同问题是:企业数据量非常大,而其中真正有价值的信息 却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞 争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。因此,数据 挖掘可以描述为:按既定业务目标,对大量的数据进行探索和分析,揭示隐 藏的、未知的或验证己知的规律性,并进一步将其模型化的有效的方法。 1 2 数据挖掘的任务 西南交通人学研究生学位论义 数据挖掘任务是指数据挖掘中要找的模式类型。数据挖掘任务一般可以 分作两类:描述和预测。数据挖掘的任务详述如下: ( 1 ) 数据总结 数据总结的目的是列数据进行浓缩,给出它的紧凑描述。传统的也是最 简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差 值等统计值,或者用直方图、饼状图等图形方式表示。数据挖掘主要关心从 数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从 低层次抽象到高层次j 一的过程。由于数据库上的数据或对象所包含的信息, 对于数据挖掘而言。总是最原始、基本的信息( 这是为了不遗漏任何可能有用 的数据信息) 人们有时希望能从较高层次的视图上处理或浏览数据,因此需 要对数据进行不同层次上的泛化以适应各种查询要求。数据泛化目前主要有 两种技术:多维数据分析方法和面向属性的归纳方法。 多维数据分析方法是- - e e 数据仓库技术,也称作联机分析处理( o l a p ) 。 数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。 决策支持的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平 均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种根自然的 想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。 存储汇集操作结果的载体称作多维数据库。多维数据分析技术已经在决策支 持系统中获得了成功的应用,如著名的s a s 数据分析软件包、b u s i n e s so b j e c t 公司的决策支持系统b u s i n e s so b j e c t ,m 公司的决策分析工具都使用了多 维数据分析技术。 采用多维数据分析方法进行数据总结所针对的是数据仓库,而数据仓库 存储的是脱机的历史数据。为了处理联机数据,研究人员提出了一种面向属 性的归纳方法,其思路是直接对用户感兴趣的数据视图( 通常可用s q l 查 询语言获得) 进行泛化,而不是像多维数据分析方法那样预先存储好泛化数 据。这种以数据泛化技术为核心的方法被称之为面向属性的归纳方法。原始 关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低 层次上的原始关系。基于由此获得的泛化关系,可以进行各种深入操作而生 成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分 类规则,以及关联规则等。 ( 2 j 分类分材1 分类分析在数据挖掘中是一项非常重要的任务,目前在商业上应用最 多。分类分析的目的是通过学习构造一个分类函数或分类模型( 也常常称作 分类器) ,该模型能把给定的数据源中的数据项映射到给定类别中的某一个。 分类和回归都可用于预测。预测的目的是从利用历史数据纪录中自动推导出 对给定数据的推广描述,从而能对未来数据进行预测。和回归方法不同的是, 分类的输出是离散的类别值,而回归的输出则是连续数值。 两南交通人学研究生学位论文 分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统 计方法包括贝叶斯法和非参数法( 近邻学习或基于事例的学习) ,对应的知 识表示则为判别函数和原型事例。机器学习方法包括决策树法和规则归纳 法,前者对应的表示为决策树或判别树,后者则一般为产生式规则。神经刚 络方法主要是b p 算法,它的模型表示是前向反馈神经网络模型( 由代表神 经元的节点和代表连接权重的边组成的一种体系结构) ,b p 算法本质上是一 利,非线性判别函数。另外最近又兴起的粗糙集方法,其知识表示是产生式规 则。 ( 3 ) 聚类分午j r 聚类是根据事物本身潜在的特性研究对象分类的方法。通过聚类把一个 数据集合中的个体( 对象) 按照相似性归约成若干类别,即使其“物以类聚”, 将数据库中的记录化分为一系列有意义的子集。聚类分析的原则是按某一论 域使同一类别中的对象之间具有尽可能大的相似性,而不同类别中的对象之 间具有尽可能大的差异性。聚类要解决的就是实现满足这种要求的类的聚 合。在进行聚类之前,这些类别是潜在的,可分割的类的个数( 聚类数) 也 是不可知的。从聚类方法所涉及的学科领域分,聚类方法包括统计方法、机 器学习方法、神经网络方法和面向数据库的方法等。 ( 4 ) 关联分利f 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个 变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序 关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时我们 并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析 生成的规则带有可信度。 ( 5 ) 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。 偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测 结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是, 寻找观测结果与参照值之间有意义的差别。 1 3 数据挖掘的应用 某些具有特定的应用问题和应用背景的领域,是最能体现数据挖掘作用 的应用领域。下面简单列出数据挖掘技术在一些行业内的应用。 西南变迎人学研究生学位论义旦 一一 1 3 1 全融业 1 对账户进行信用等级的评估 金融业风险与效益并存,分析账户的信用等级对于降低风险、增加收益 是非常重要的。利用数据挖掘工具进行信用评估的最终目的( 也就是输出) 是:从已有的数据分析得到信用评估的规则或标准,即得到“满足什么样条 件的账户属于哪一类信用等级,并将得到的规则或评估标准应用到对新的帐 广,的信用评估,这是一个获取知识并应用知识的过程。 2 庞大的数据进行主成分分析 对庞大的数据进行主成分分析,剔除无关的甚至错误的、相互矛盾的数 掘“杂质”,以更有效地进行金融市场分析和预测。 3 分析信用卡的模式 通过数据挖掘,人们可以得到这样的规则:“什么样的人使用信用卡属于 什么样的模式”,而且一个人在相当长的一段时间内,其使用信用卡的习惯 往往是较为固定。因此,一方面,通过判别信用卡的使用模式,可以监测到 信用卡的恶意透支行为,另一方面,根据信用卡的使用模式,可以用以识别 “合法”用户。 4 从股票交易的历史数据中得到股票交易的规则或规律 5 发现隐含在数据后面的不同的财政金融指数之间的联系 6 探测金融政策与金融业行情的相互影响的关联关系 1 3 2 零售业 1 分析顾客的购买行为和习惯 如“男性顾客在购买尿布的同时购买啤酒”、“顾客一般购买了睡袋和 背包后,过了一定的时间就会购买野营帐篷”、“顾客的品牌爱好”等 等。看似根小、很微不足道的信息,却会非常有用。 2 分析商场的销售商品的构成 将商品分成“畅销且单位赢利高”、“畅销但单位赢利低”、“畅销但 无赢利”、“不畅销且单位赢利低”、“滞销”等多个类别( 当然这种 类别可以划分得更详尽些) ,然后看看属于同一类别的商品都有什么共同 的特征,即“满足什么条件的商品属于哪类情况”,这就是规则。这 些规则将有助于商场的市场定位、商品定价等决策问题。而且在确定“要 不要采购某一新品种”这样的决策问题时,这些规则将显得非常有意义。 娈堕奎望查兰型塑竺兰些丝兰一一7 ,_,一 同样,也可以对商场的顾客进行划分。 3 数据挖掘工具还可以用于进行商品销售预测、商品价格分析、零售点 的选择等 1 3 3 科学研究 1 数据挖掘对高科技的研究是必不可少的 ( 1 ) 高科技研究的特点就是探索人类未知的秘密,而这难是数据挖掘的 特长所在。从大量的、漫无头绪而且真伪难辩的科学数据;f i r 料中要提炼出 对人类有用的信息,不借助于数据挖掘技术是非常困难的。 ( 2 ) 应该说,科学工作者的思想在科学研究中是最重要的。人类思想 的灵活性比起数据挖掘丁具所采用的固定的原理和算法又不知高强多少倍。 数据挖掘在科研工作的作用往往表现在处理大批量的数据,得出一些信息来 激发或点燃科研工作者的闪光思想。 2 数据挖掘在社会科学研究领域的应用前景也会越来越被人们所认识 社会科学的特点是从历史看未来,如从社会发展的历史进程中得出社会 发展的规律,预测社会发展的趋势;从人类发展的进程和人类的社会行为的 变化中寻求对人类行为规律的答案,从而应用于对各种各样的社会问题的求 解。数据挖掘在从历史数据中进行规律的发现方面,也有其独到的作用。 1 3 4 数据挖掘在其他一些领域的应用 1 医疗数据挖掘可用于病例、病人行为特征的分析,以及用于药方管 理等,以安排治疗方案、判断药方的有效性等。( 这正是数据挖掘技 术在本论文中的功用。) 2 司法数据挖掘可用于案件调查、案例分析、犯罪监控等等,还可用 于犯罪行为特征的分析。 3 ,工业部门数据挖掘技术可用于进行故障诊断、生产过程优化等。 1 4 数据挖掘与知识发现研究的国内外发展现状 从数据库中发现知识( k d ) 一词首次出现在1 9 8 9 年举行的第十一届国 际联合人工智能学术会议上。到目前为止,由美国人工智能协会主办的k d d 国际研讨会己经召开了8 次,规模由原来的专题讨论会发展到国际学术大会, 研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集 两南交通人学研究生学位论义 成,以及多种学科之f 司的相互渗透。1 9 9 9 年,亚太地区在北京召丌的第三届 p a k d d 会议收到1 58 篇论又,空前热烈。i e e e 的k n o w l e d g ea n dd a t a e 幄i 1 1 e e r i n g 会刊率先在1 9 9 3 年出版了k d d 技术号刊。并行计算、计算机网 络和信息工程等其他领域的圈际学会、学刊也把数据挖掘和知识发现列为专 题和专刊讨论,甚至到了脍炙人口的程度。与国外相比,国内对d m k d 的 研究稍晚,没有形成整体力量。1 9 9 3 年国家自然科学基金首次支持对该领域 的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基 础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空 军第三研究所、海军装备论证t 心等。其中,北京系统工程研究所对模糊方 法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方 体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科 院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造; 南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据 的知识发现以及w e b 数据挖掘。最近,g a r t n e rg r o u p 的一次高级技术调查 将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大 关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦 点的十大新兴技术的前两位。根据最近g a r t n e r 的h p c 研究表明,“随着数 据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技 术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增 长点。” 近些年来,数据库技术取得了长足的进步与发展。起初各种商业数据是 存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而 发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶 段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的 潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中己经可以 投入使用,因为对这种技术进行支持的三种基础技术己经发展成熟,他们是: ( 1 ) 海量数据搜集 ( 2 ) 强大的多处理器计算机 ( 3 ) 数据挖掘算法 有四个主要的技术理由激发了数据挖掘的开发、应用和研究的兴趣: ( j ) 超大规模数据库的出现,例如商业数据仓库和计算机自动收 集的数据记录; ( 2 ) 先进的计算机技术,如更快和更大的计算能力和并行体系结 构: ( 3 ) 对巨大量数据的快速访问: ( 4 ) 对这些数据应用精深的统计方法计算的能力。 j 飘此d m k d 研究己经逐步走向深入,而对它的研究也己经形成了三根 强大的技术支柱:数据库、人工智能和数理统计。目前d m k d 的主要研究 i j 容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、 两南盒j 加入学j i j 究生学位论文 知识表示方法、发现知识的维护删再利用、半结构化和非结构化数据中的知 识发现以及网上数据挖掘等。当目0 d m k d 研究方兴未艾,其研究与开发的 总体水平相当于数据库技术在7 0 年代所处的地位,追切需要类似于关系模 式、d b m s 系统和s q l 查询语言等理论和方法的指导,刁能使d m k d 的 应用得以普遍推广。预计在本世纪,d m k d 的研究还会形成更大的高潮。 1 5 中医学传统研究方法的回顾与总结 华夏医学源远流长,有着数千年的历史,是我国劳动人民长期同疾病做 斗争的极为丰富的经验总结,是我国优秀文化的重要组成部分。在古代朴素 的唯物论和自发的辩证法思想的影n 向和指导下,通过长期的医疗实践,逐步 形成并发展成为具有独特的医学理论体系,丰富的治疗经验的完整医学,为 中国人民的保健事业和中华民族的繁衍昌盛做出了巨大的贡献。 西汉末年出现的黄帝内经总结了春秋战国以前的医疗成就和治疗经 验,确立了中医学独特的理论体系,成为中医药学发展的基础。其后张仲景、 华佗、孙恩邈、刘完素、李东垣、明清时代吴又可、叶天士、吴鞠通等医家, 在漫长的临床实践和研究工作中、他们逐渐地补充、。完善了中医学理论体 系,为后代医生学习、掌握中医学留下了宝贵的资料。中医学理论的发展、 成熟经历了漫长而曲折的道路,它不是一个时代,一个地方的医学成就,也 绝不是一个人的思想所为,而是在一个相当长的时期内,各医学家们经验的 总结汇编。因此,其积累的资判再花齐放,形式多样,蕴藏着宝贵经验。中 医学理论体系从其创立之时就呈现出一种开放态,广泛吸收了中国古代哲 学、逻辑学及其他自然科学的知识和方法。中国医药学和其他学科一样,都 是建立在对自然规律深刻认识的基础上的,源远流长,理精法良,虽古老而 犹新,似浅显丽实深。数千年来,积累了丰富的l 临床经验,总结出大量的科 学方法,理中寓理,法中藏法。在中医学的形成和发展中蕴藏着大量的哲学 方法及一般科学方法。 中医学中气的概念,阴阳学说、五行学说蕴含着古代朴素的唯物论和自 发的辩证法思想,承认物质第一性,意识第二性。世界是物质的,是阴阳二 气相互作用的结果。生命是物质的,是自然界发展到一定阶段的必然产物, 把生命看作是一个阴阳对立统一,运动不息的发展变化过程。人体内的各器 官,人与自然界,它们不是孤立的,它们之间是相互联系,相互制约的。此 外还包含着同气相求,取象比类,异级同构,一分为三法等其它一些哲学方 法。同时,在中医学丰富而行之有效的诊疗方法中蕴含着大量的一般科学方 法:如观察法、比较法、分类法、抽象法、共变法、演绎推理、归谬法、矛 盾律、模糊思维、全息生物学方法、数学方法等。其中蕴含方法之多,涉及 范围之广,堪称群书之最。正如德国慕尼黑大学东亚研究所所长,中医旃会 主席满晰驳先生说:“中医由于自身方法论的一致性和成熟性,堪称整个生 命科学的典型代表。”中医学的众多方法是历代医学家智慧的结晶。是中医 西南交通人学 i 】f 究生学位论文 学精华所在,也是中医学区别于西医学的特色和优势。 1 6 论文的主要工作与创新 祖国医学作为经验医学,缺乏客观性指标,描述文字繁琐、晦涩、模糊, 对于现代的医学工作者学习,掌握较困难。加之,内容散乱、缺乏系统性、 规范性使研究颇为不便。再者,在近现代,由于各种原因,对自然科学知识 和方法的融入有所迟缓,而致其发展处于相对停滞状态。就拿中药方剂来说 吧。中药方荆是我国独有的医学宝库,由于长期缺乏系统的科学的整理,大 量的方剂处于分散流失状态,亟待我们用科学的手段加以整理和分析。 综上所述,对于历代遗留的文献资料进行系统、规范化整理,并且进一 步提取和挖掘其中隐藏的精华,是使祖国医学继续蓬勃发展的必经之路。基 于此,西南交通大学神经网络与信息技术研究所与成都中医药大学合作开发 了“中药复方分析系统”软件。该软件借助数据挖掘的多种方法,针对中医 学古今药方,实现对中医药数据库的深入挖掘。系统开发成功后,交由中医 学者使用,其用途包括:1 协助中医学者研究与发现中医药海量数据中隐含 的规律和趋势;2 帮助医生开出有科学依据的药方,实现中医学的科学化, 规范化。 本人参与了“中药复方分析系统”的研究开发。本论文的主要工作包括: ( 1 ) 阐述了数据挖掘的基本理论和方法: ( 2 ) 提出了将现代科学的数据挖掘方法应用于传统的中医学的新思 路,并予以实现,取得了很好的效果; ( 3 ) 研究了中药方剂数据的特点,建立了数据库,从而改善了在中医 学原始数据缺乏客观性指标、描述文字繁琐、晦涩、模糊等状况, 实现了数据的系统性、规范性; ( 4 ) 深入研究了数据挖掘的多种算法,并选择合适的挖掘算法应用于 中医药方剂数据库,挖掘其中有用的知识。挖掘算法的选择主要 是通过研究中医药数据的特点以保证算法的可行性;通过与中医 学者的频繁交流沟通以保证算法挖掘结果的有效性与有用性来实 现的。 ( 5 ) 本文主要使用了频繁集、关联规则方法和聚类方法对数据库进行 挖掘。挖掘频繁集与关联规则时,主要使用了经典的单维布尔关 联关则挖掘算法a p r i o r i 算法。为了更适于中医药数据库中的挖 掘,对a p t i o f i 算法进行了改进,提出了m a p r i o r i 用于挖掘多维 布尔关联规则,和w a p r i o r i 算法用于挖掘加权关联规则。在聚类 分析方面,主要使用了凝聚型层次聚类法。为了提高聚类的质量, 使用r a t i o d 距离代替传统的欧氏距离进行聚类。 ( 6 ) 将多种数据挖掘方法与中医方剂数据库集成在起,开发了“中 药复方分析系统”软件。本文对该软件进行了简要的介绍。 两南交通人学研究生学位论文 2 1 确定研究对象 第二章数据挖掘的准备工作 数据挖掘的第一步是提出要解决的问题,也就是确定研究目的和主题。 本课题的研究对象是从中医大辞典方剂分册中筛选出的治疗脾胃病的药 方1 3 3 5 首,研究目的是发现其中的用药治病的规律。具体包括:根据方剂 中药物组成的数据,分析治疗脾胃病的药物的性味特征和功效特征;根据方 剂主治症候的数据,分析脾胃病症候的特点;分析病机与药物的关系、病机 与症候的关系、病机与药物的关系等。因此需要分析的数据包括:药物的性 味、药物的功效、症候、病机以及它们之间的关系。 2 2 数据准备 2 2 1 数据的选择 搜索所有与研究对象有关的内部和外部数据信息,并从中选择适用于数 据挖掘的数据。 根据数据挖掘的要求与目的,本课题中药方的入选条件为: 药方与其所治症状齐全; 主治症候为脾胃脏腑的病症为主; 基本病机与脾胃相关。 2 2 2 数据的预处理 现实中的大型数据库中的数据大多是不完整的( 有些感兴趣的数据缺少 属性值或仅含聚集数据) ,含噪声的( 包含错误) 和不一致的。数据预处理 就是用一定的方法修改数据以消除以上几种障碍,以方便进行进一步的数据 挖掘。 对数据进行分析前,必须做到数据的质量符合数据处理技术的要求,因 此必须对某些数据进行加工处理,以使其被相应的数据挖掘方法认可并接 纳。由于中医药理论形成的特殊文化背景和哲学体系,出现大量的描述性数 据,而描述性数据的模糊性和不确定性是应用数据处理技术的不利因素,如 果用数据处理方法来研究中医药,必须对所选择的数据进行预处理。 在本课题所涉及的中医数据中首先存在以下几个问题: 1 ) 有的药方缺少药物、症状等属性值; 2 ) 药方的剂量属性中,各朝代的“两”表示的实际重量不同: 一 ! ! 堕奎塑叁堂塑塑竺兰笪堡兰坚 3 ) 药扪内荆量属性; 、,存侄表述不规范的剂量值。如以“檄”、 “根”、“片”等值为单位,更有甚者则采用“少明。、“0 ;:t ” 等模糊值。 针对上面的儿个问题,对数据进行了预处理,方法如下: 1 ) 删除缺少“药物”或缺少“症状”属性值的药方; 2 ) 将所订药方的剂量都转化为“克”,以消除问题2 所带来的数据 川i 敛; 3 ) 在t f ,医学者的仂嘞之下,通过实物称量的办法将以“颗”、“根” 等不规范单位表述的剂量统一表述为“克”:通过对类似药方求 均值f 内方法或中医学者的经验确定以“少许”、“若干”等模糊值 表述的药物剂量。 除此之外,还要从以下几个方面,对数据进行预处理 1 症状 症状作为描述性语言,有形象、生动的特点,同时也存在以下现象: 多词一义指概念的内涵相同或相近,但表述各异。这种现象较普遍, 如对大便溏的描述有“便溏”、“大便溏薄”、“大便溏”、“大便稀”、 “大便不成形”、“大便溏泻”等:对胁痛的描述有“胁下掣痛”、“肝区 疼痛”、“肝区痛”、“胁肋痛”、“胁痛”等;而“食欲不振”、“纳呆”、 “饮食不香”、“纳谷不香”、“纳差”等均有纳差之义。 词义模糊指具体涵义不明确、模棱两可。如文献描述“有出血者”或 “出血”,就慢乙肝病来讲,“出血”多为“齿衄”、“鼻衄”等。 词义涵盖或交叉指两个或多个词在涵义上有涵盖或交叉。如“恶心呕 吐”在词义上涵盖了“恶心”、“呕吐”;“脘腹胀痛”是“胃脘胀痛”及 “腹胀痛”的重叠,而“腰膝酸软”与“腰酸乏力”交叉的含义为“腰酸” 等。 以上问题的存在,使中医药信息中存在大量的不规范、重复、无效的数 据,为减少这些数据对数据挖掘的不良影响,必须对些数据进行清洗”、 “过滤”、 “整形”,具体采取如下措施:属前两种现象的,首选巾国 中医药主题词表,次按中国中医药症状鉴别诊断学,如仍不能解决则暂 时按多数人 勺习惯处理i 属词义涵盖或交叉的,采用分解词义组合表达的方 法t 对其进行分解、组合。以期所有的词义表达都可通过这些信息的射i 合束 实现。这样不仅可以减少词义的重叠,还可以从整体上看到每一个信息系统 的完整性。 2 药名 药名的预处理主要是药名的统一。药名有不规范书写如“山查”、“鸡 血吞”、“勾吞”等;有的书写规范但因标准不同而名称各异,如白豆蔻有 “白蔻”、“白蔻仁”、“豆蔻”、“蔻米”之称。“田基黄”、“地耳草” 是同一药,但中华本草以“地耳草”为正名而中华人民共和国药典 以“阳基黄”为正名。鉴于以上情况,确定药名首选中华人民共和国药典, 次选中华本草。 3 药效 中药的功效与症状样,均刻着描述性语言的烙印,在数据挖掘过程中, 存在相同的问题。处理方法亦大致相同。 多词一义 目的在于相同或相近的词仅用一个词来表达。如将“补肾 阳”、“助阳”、“壮阳”、“补阳”这些词义相同或相近的词规范为“补阳”;“行 瘀”、“通瘀”、“破瘀”、“消瘀”、“破血”、“散瘀”、“化瘀”、“祛 瘀”统一为“祛瘀”;被规范为“祛痰”的有“行痰”、“涤痰”、“消痰” “豁痰”、“化痰”、“休痰”、“逐痰”等等。 词义模糊对可作多种解释的词,力求较恰当的分解或转换,使之词义 明确。如利水有利尿和利湿( 淡渗利湿) 之分。再如“散郁结”一词,即可 指散有形之痰结、瘀结,又可指散无形之气结。这情况应按药物的具体功效 及性味等加以区分,如半边莲的“利水消肿”应为“利湿消肿”,浮萍的“发 汗祛风利水凉血”之“利水”实为“利尿”。夏枯草有“清肝火散郁结”之 功,该药归“肝、胆”经,“敞郁结”意为散肝之郁结之气,故将“散郁结” 定为“疏肝”。如歪头菜的“补虚”功效可理解为“补阳“4 l i n 补气” “补血”“- b b j t r b 补脾补肝补心”“补肾”等;歪头菜不是常用药, 文献对其研究较少,参考书目又无归经记录,具体功效确定不了,给予暂时 保留,但不参与结果的分析。 词义涵盖或交叉对该类词进行分解或组合。分解词如将“生精血,分 解为“补精”与“生血”两词;将“祛风湿”分为“祛风”与“散湿”;而 将“除风湿”亦分解为“祛风”、“散湿”。合并词如“疏肝解郁”、“疏肝 理气”、“理气解郁”、“疏肝行气”归为“疏肝”;“升阳举陷合为“升阳”, “回阳救逆”合并为“回阳”。 2 2 3 数据的转换 数据的转换是将处理过的数据转换成能被数据挖掘工具直接读取利用的 数据,包括将数据读入数据表,建立各数据表间的联系。 本课题的研究对象足从中医人辞典方剂分册中筛选出的治疗脾胃病的药方1 3 3 5 首。方剂的原始文本表述如卜: l9 一阴煎 “景岳全书新方八阵卷五十一 生地黄、芍药、麦门冬、丹参各二钱,熟地黄三至五钱,牛膝一钱半,甘草一钱, 水煎, 食远服, 治肾水真阴虚损,而脉证多阳,虚火发动,及阴虚动血等症;或疟疾伤寒,屡散之后, 取汗 既多,伤阴水亏,脉虚气弱,烦渴不止,潮热不退, 通过分析我们发现各药方包含的主要信息包括:组成药方的药物、药物 的性味、药物使用的剂量、药物的功效、症候、病机、药方的朝代、药方的 出处等。 根据这些数据的特征和各数据间的联系,我们选择在a c c e s s 数据库中创 建了脾胃方药物表( 如表2 1 所示) 、脾胃方症状表( 如表2 2 所示) 、脾胃 方性味表( 如表23 所示) 、脾胃方剂表( 如表2 4 所示) 四个主表,各表通 过方剂的编号相连接。 表2 1 脾胃方药物表 i 啊衔交j 面人学研究生学位论文 溢缠奏嚣越i 溢蠡簸鬣蓊毫段名囊缓灌鎏溢遴滚激瓤范症状麟黼 1 7大便不爽大便不利 1 7腹脘胀腹胀 3 6停食停水饮食不消 3 6不思饮食厌食 3 6胸满 胸闷 3 6痰壅 痰多 3 6喘急 喘 3 6腹胀 腹胀 3 6咳嗽 咳嗽 5 5停食停水停乳 饮食不消 5 5痰盛 痰多 5 5便秘 便秘 5 5腹满 腹满 表2 2 脾胃方症状表 表2 f 3 脾胃方性味表 啊南交通人学研究生学位论文 表2 4 脾胃方剂表 2 3 数据挖掘 这一阶段是整个数据挖掘过程的核心,主要是选择适当的挖掘工具和挖 掘技术对方剂数据进行处理,从而揭示其潜在的规则、模式和趋势等。 。亳主要使用了频繁集方法、关联分析方法和聚类方法,挖掘中医药数 据库巾有用的知识。 2 4 结果分析和知识同化 解蹙咎錾得来的结果,并评估结果的价值所在。将分析所得知识集成到 研究j 象的组织结构中去,以实现数据挖掘所得知识的效用性。 。一 第三章关联规则挖掘算法及其在中医药数据库中的应用 3 1 频繁集与关联规则简介 关联规则挖掘( a s s o c i a t i o nr u l em i n i n g ) 是数据挖掘研究的一个重要分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论