已阅读5页,还剩75页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘在中药专利数据集中的应用与研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
江苏大学硕士研究生毕业论文 摘要 中药是我国的国粹,经过上千年的发展,积累了大量的数据,以往对于这些 数据的应用,仅仅是提供一些简单的搜索及统计功能,中医药数据中蕴涵的信息 未得到很好的利用。随着世界性回归自然潮流的推进,天然药物的开发越来越受 到人们的重视,这为中药的发展提供了一个很好的机遇。如何从包罗万象的中药 数据库中发现有价值的信息,以增加中药的科技含量,已成了中药信息化研究的 重点。 本文阐述了在中医药专利信息平台上实现知识发现系统的过程,主要包括了 方剂信息数据预处理、发现配伍规律和辅助决策三个模块。 针对中药专利的数据特点,以p i d p ( 方剂信息数据预处理,p r e s c r i p t i o n i n f o r m a t i o n sd a t ap r e p r o c e s s i n g ) 过程规范方剂数据:1 、用正交分离的方 法对方剂长文本字段进行处理,使方剂中的各味草药独立存储;2 、利用中药词 典,解决了目前普遍存在的中药异名问题;3 、以模糊集描述实际药剂用量。 本文改进了t p h o n g 等提出的f t d a 算法,并在此基础上提出f t d a 2 算法, 该算法仅考察对支持度有贡献的项,有效降低了从方剂事务数据库中提取出关联 规则的时间复杂度,从规范化方剂数据中提取中药配伍规律,组建模式规则库。 在模式规则库的基础之上,系统实现了辅助决策模块,成功地为医学研究 人员在研制新型复方中药的过程中提供参考依据。 论文的创新之处在于: 1 、本文提出的f t d a 2 算法,用于在含有数值属性的事务数据集中发现模糊 关联规则。与已有算法f t d a 相比,在计算k 一项候选集时,两种算法的时间复杂 度比值为篇等“去,从而有效降 氏了时间复杂度。 2 、针对系统对方剂长文本处理的需要,设计了符合中药方剂数据特征的 p i d p 过程,将原始的方剂数据规范化。对方剂长文本进行正交分离,并对不同 的属性采用不同的策略:药名异名处理,药剂量模糊化处理。 3 、将数据挖掘较为深入的应用到中药研发过程中,弥补现有中药信息系统 功能单一的不足,为医学工作者进行决策提供参考。系统提供两大辅助功能:一 江苏大学硕士研究生毕业论文 是为新药的研发提供药材及其用量的参考; 药方的其他治疗作用。 关键字:方剂信息;数据预处理;模糊集; 知识发现系统 二是根据准配方中的药材,分析出该 隶属函数;模糊关联规则: 江苏大学硕士研究生毕业论文 a b s t r a c t t r a d i t i o n a lc h i n e s em e d i c e ( t c m ) i st h eh e r i t a g ec u l t u r e ,i th a sl o n gh i s r o t yo f t h o u s a n d so fy e a r sa n da c c u m u l a t e sag r e a td e a lo fd a t a t h e s ed a t aa r ea p p l i e di n p r o v i d i n gs i m p l es e a r c ha n ds t a t i s t i c sa sa l w a y s t h ei n f o r m a t i o nh i d d e ni nt h e s e d a t ac o u l dn o tb em a d ef u l lu s eo f w i t ht h et e n d e n c yt o w a r d sn a t u r e ,n a t u r a l m e d i c i n e sd e v e l o p m e n tw i l lb et a k e nm o r ea n dm o r ea c c o u n to f , w h i c hp r o v i d e s g r e a to p p o r t t m i t yt ot h et c m sd e v e l o p m e n t i no r d e rt oi n c r e a s et h et e c h n o l o g i c a l c o n t e n to f t c m ,i ti sa k e yt od i s c o v e r yv a l u a b l ei n f o r m a t i o nf r o mt c m d a t a b a s e 。 t h i sp a p e rp r e s e n t st h er e a l i z i n gp r o c e s so fk d ds y s t e mo nt h et c m p a t e n t i n f o r m a t i o n p l a t f o r m 。t h i sp r o c e s s i n c l u d e s t h r e e m o d u l e s :p r e s c r i p t i o n i n f o r m a t i o n sd a t ap r e p r o c e s s i n g ( p i d p ) ,m e d i c a lc o m p a t i b i l i t yr e g u l a t i o n sf i n d i n g a n da s s i s t e dd e c i d i n g o nt h eb a s i so ft h ec h a r a c t e r i s t i co ft h et c m p a t e n t ,w ea d o p tt h ep r o c e s so f p i d pt os t a n d a r d i z i n gt h ep r e s c f i p f i o nd a t a :1l o n gt e x ti sd e a l tw i t hb yt h ea p p r o a c h o fo r t h o t r o p i cd i s p a r t r n e n t ,s ot h es i n g l eh e r bc a nb es t o r e ds e p a r a t e l y ;2u s i n gt h e t c m sd i c t i o n a r y , t h ep r o b l e mo fh e r b sa l i a si st a c k l e dr i g h t l y ;3f u z z ys e ti s a p p l i e dt od e p i c t i n gt h em e d i c a ld o s e t h i sp a p e rm a k e sp r o g r e s so nt h ef t d a a l g o r i t h mp r o p o s e db yt e h o n g ,a n d d e t a i l st h ef t d a 2a l g o r i t h m f t d a 2o n l yp a y sa t t e n t i o nt ot h ei t e m s ,w h i c hc a r l c o n t r i b u t et ot h e s u p p o r t sv a l u e ,t h u sd e g r a d e st h et i m ec o m p l e x i t yo fe x a c t i n g a s s o c i a t i o nr u l e sf r o mt r a n s a c t i o nd a t a b a s e ,a n dd r a w st h em e d i c a lc o m p a t i b i l i t y r e g u l a r i t yf r o ms t a n d a r d i z e dp r e s c r i p f i o nd a t a o nt h i sb a s i s ,w eb u i l dt h ep a r e m a n dr u l e sl i b r a r y u s i n gt h el i b r a r y , t h es y s t e mb r i n g st h ea s s i s t e dd e c i d i n gm o d u l ei n t oe f f e c t t h em e d i c a lr e s e a r c h e r sc a i lo b t a i nr e f e r e n c ei nt h ep r o c e s so fe x p l o r i n gn e w c o m p o u n dm e d i c a l i n n o v a t i o n so f t h i sp a p e r : 1w ed e s i g nt h ea l g o r i t h mf t d a 2t od i s c o v e rf u z z ya s s o c i a t i o nr u l e sf r o m t c md a t ac o n t a i n i n gq u a n t i t a t i v ea t t r i b u t e c o m p a r e dt ot h ef t d a ,t h er a t i oo f r u n m n gt i m ei s 三! ! 型型。土 t ( f t d a ) 2 k w h e nc o m p u t i n gt h es e to fk - i t e m s e t ,t h e r e b y e f f e c t i v e l yd e g r a d e dt h et i m ec o m p l e x i t y 江苏大学硕士研究生毕业论文 2a i m e dt ot h en e e do fd i s p o s a lo np r e s c r i p t i o n sl o n gt e x t ,w ed e s i g na p r e p r o c e s s i n gp r o c e s s - p i d p , a p p r o p r i a t e t ot c md a t a s f e a t u r e ,a n d t h u s s t a n d a r d i z et h eo r i g i n a lt c md a t a w ea r es e p a r a t i n gt h ep r e s c r i p t i o nd a t af i r s t ,a n d a d o p td i f f e r e n tt a c t i c st od i f f e r e n ta t t r i b u t e s :d i f f e r e n tn a m e so ft h es a m ek i n do f t r a d i t i o n a lc h i n e s em e d i c i n ei sr e p l a c e dw i t ht h es a m en a m e ,f u z z ys e ti si np l a c eo f t c m sd o s e 3t h i ss y s t e ma p p l i e sd mt ot h ep r o c e s so f e x p l o r i n gn e wc o m p o u n dm e d i c i n e d e e p l y , a n di m p l e m e n t st h ed e f e c t so ft h ec u r r e n ts y s t e m t h i sp a p e ri n t r o d u c e st w o m a j o rf u n c t i o n so f t h ek d ds y s t e mm a i n l y :f i r s t , o f f e rt h er e f e r e n c ea b o u tc r u d ed r u g sa n dd o s e t or e s e a r c ha n dd e v e l o p m e n to ft h en e wm e d i c i n e ;s e c o n d ,a c c o r d i n gt ot h ec r u d ed r u g st h a t a l l o w e di nt h e p r e s c r i p t i o n ,t h i ss y s t e mc a na n a l y s et h eo t h e r 扛e a t m e mf u n c t i o no ft h e p r e s c r i p t i o n k e y w o r d s :p r e s c r i p t i o ni n f o r m a t i o n ,d a t ap r e p r o c e s s i n g ,f u z z ys e t , m e m b e r s h i pf u n c t i o n ,f u z z ya s s o c i a t i o nr u l e s ,k n o w l e d g ed i s c o v e r y 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部 内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密幽。 学位论文作者签名:戡糯穗 翩签名:删, 签字同期:w 万年乒月刃日签字日期:p 口厂年4 月 7 日 f 学位论文作者毕业后去向 工作单位: 通讯地址: 电话: 邮编: 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容以外,本论文 不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律结果由本人承担。 学位论文作者签名:翩柱 日期:w 旷年 午月j 日 江苏大学硕士研究生毕业论文 第一章概述 由于计算机数据采集工具以及关系数据库技术的发展,目前各行业存储了 大量的数据。传统的数据分析手段难以应付,导致越来越严重的数据灾难,迫 使决策者出现或是穷于应付,或是置之不理的事实。为了使消耗大量财力与物 力所收集与整理的宝贵数据资源得以利用,有效解决数据丰富性及知识贫乏性 的矛盾,需要新技术智能、自动地分析处理原始数据,促使了数据库中的知识 发现技术的出现。本章着重介绍知识发现的历史及其过程,并在此基础上介绍 知识发现在国内外发展状况。 1 1 知识发现 上世纪八十年代末,f a y y a d 提出首次提出了数据库“知识发现”( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ,k d d ) f 1 】这个术语。知识发现,是从数据集中识别出 有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。 1 1 1k d d 的产生 随着数据库技术的成熟和数据库应用的普及,人类积累的数据量正在以指 数速度迅速增长。进入九十年代,伴随着因特网( i n t e r n e t ) 的出现和发展, 以及随之而来的企业内部网( i n t r a n e t ) 和企业外部网( e x t r a n e t ) 以及虚拟 私有网( v p nv i r t u a lp r i v a t en e t w o r k ) 的产生和应用,将整个世界联成一个 小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作。这样, 展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库,而是 浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来。当数据量极度增长时,如 果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感 到面对信息海洋像大海捞针一样束手无策。据统计,一个大型企业数据库中的 数据,只有百分之七得到很好应用。“丰富的数据与贫乏的知识”问题日渐突出, 不同领域的人们都期待着从这些数据中得到自己想要的答案,将信息变为知识, 从数据矿山中找到蕴藏的知识金块。 知识发现正是这样一种从数据中挖掘知识的工具,它集数据收集、数据清 洁、降维、规则归纳、模式识别、数据结果分析及评估、可视化输出等多种过 程于一身,是统计学、计算机科学、模式识别、人工智能、机器学习及其他学 科相结合的产物。它不仅被许多研究人员看作是数据库系统及其学习方面一个 江苏大学硕士研究生毕业论文 重要的研究课题,而且被许多工商界人士看作是一个能带来巨大回报的重要领 域。从数据库中发现出来的知识可以用在信息管理、查询响应、决策支持、过 程控制等许多方面,可以为知识创新提供有效的帮助。 1 1 2 k d d 过程 知识发现过程可粗略的理解为三部曲:数据准备( d a t ap r e p a r a t i o n ) 、 数据挖掘( d a t am i n i n g ) 以及结果的解释评估( i n t e r p r e t a t i o na n d e v a l u a t i o n ) q 如图1 1 所示: i 一一土一一i 一一一一i 一一 图1 h 知识发现的一般过程 1 数据准备 数据准备可分为三个子步骤:数据选取( d a t as e l e c t i o n ) 、数据预处理 ( d a t ap r e p r o c e s s i n g ) 和数据变换( d a t at r a n s f o r m a t i o n ) 。数据选取的目 的是确定发现任务的操作对象,即目标数据( t a r g e td a t a ) ,它是根据用户的 需要从原始数据库中抽取的一组数据。数据预处理一般包括消除噪声、推导计 算缺值数据、消除重复记录、完成数据类型转换( 如把连续值数据转化为离散 型的数据,以便于符号归纳,或是把离散型的转换为连续值型的,以便于神经 网络归纳) 等。数据变化的目的是消减数据维数或降维( d i m e n s i o nr e d u c t i o n ) , 日一 江苏大学硕士研究生毕业论文 即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个 数。 2 数据挖掘阶段 数据挖掘首先要确定开采的任务或目的是什么,如数据总结、分类、聚类、 关联规则发现或序列模式发现等。确定了开采任务后,就要决定使用什么样的 开采算法。同样的任务可以用不同的算法实现,选择实现算法有两个考虑因素: 一是不同的数据有不同的特点,因此需要用与之相关的算法来开采;二是用户 或实际运行系统的要求,有的用户可能希望获得描述型的( d e s c r i p t i r e ) 、容 易理解的知识( 采用规则表示的开采方法显然要好于精神网络之类的方法) ,而 有的用户或系统的目的是获取预测准确度尽可能离的预测型( p r e d i c t i v e ) 知 识。完成了上述准备工作后,就可以实施数据挖掘操作了。 3 结果解释和评价 数据挖掘阶段发现出来的模式,经过用户或机器的评价,可能存在冗余或 无关的模式,这需要将其剔除;也有可能模式不满足用户要求,这时则需要整 个发现过程退回到发现阶段之前,如重新选取数据、采用新的数据变换方法、 设定新的数据挖掘参数值,甚至换一种采掘算法( 如当发现任务是分类时,有 多种分类方法,不同的方法对不同的数据有不同的效果) 。另外,k d d 由于最终 是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为 用户易懂的另一种表示。 1 2k d d 发展现状 k d d 的研究主要经历了从m l ( 机器学习) 到m d ( 机器发现) 到k d d 几个阶 段。机器学习始于7 0 年代,8 0 年代有了较大的发展,许多学习策略和算法相 继出现,如归纳学习、基于解释学习以及基于案例推理与学习等,但其实用性 有一定局限。机器发现的研究始于科学发现的计算机建模。随着机器学习、模 式识别、人工智能、数据库技术的日趋成熟及数据量的迅速增加,基于数据库 发现知识的理论与技术逐步形成。 人们从上个世纪8 0 年代末开始研究k d d 。1 9 8 9 年8 月第一界k d d 国际学术 会议在美国底特律召开,当时只有几十个人参加。随后在1 9 9 1 年,1 9 9 3 年和 1 9 9 4 年都举行了k d d 专题讨论会,集中讨论数据统计,海量数据分析算法、知 识表示、知识应用等问题。随k d d 在学术界和工业界的影响越来越大,k d d 组 委会于1 9 9 5 年把专题讨论会更名为国际会议,并改为大会代表自愿报名参加, 1 9 9 5 年在加拿大蒙特利尔市召开第一次k d d 国际学术会议,以后每年召开一次。 到了1 9 9 7 年时有5 7 7 人1 7 家公司参加,从此以后k d d 更显现了迅猛发展态势。 江苏大学硕士研究生毕业论文 1 、典型工作 ( 1 ) r a g r a l w a l 等综合机器学习与数据库技术,对三大类的数据挖掘问题( 即 分类、关联及聚类) 作为一个统一的蕴藏于巨量数据库中的规则发现来处理, 给出了一个统一的模型和规则发现过程中的几个基本运算,并给出了数据挖掘 问题如何映射到模型和如何通过提出的基本运算找到发现知识的方法。 ( 2 ) s a n a n d 等提出的基于证据理论的数据挖掘一般框架e d i d ,其特点是: 固有的并行性,即在此框架内开发的算法是并行的;用户的先验知识与先前 发现的知识可以耦合到发现过程中;提出了基于证据理论的、在挖掘过程中 处理非完全信息的方法;提出了一整套的知识表示,数据表示及数据操作与 知识发现的方法。 ( 3 ) w e i m i n gs h e n 与b i n gl e n g 针对目前的数据挖掘技术,提出了无监督 关系模式学习的基于元模式的自动挖掘集成方法,该方法不同于工具箱似的集 成方法,他们提出的元模式概念便于自动利用归纳、演绎及人的指导之间的相 互依赖,由于元模式具有普遍的机制,因此可望在人的指导下与数据挖掘开发 者自己偏好的演绎及归纳技术集成。 ( 4 ) 实际挖掘中,挖掘的知识质量如何严重依赖于数据库中知识的特征表示以 及现存的知识与己发现的知识如何一致,有时发现的知识可能不是用户感兴趣 的,甚至可能与先前的知识有矛盾,针对这一问题,j o n g p y o o n 与l a r r y k e r s c h b e r g 提出了数据库中的知识发现与进化的概念,利用数据库查询以发现 新知识,使用正反两个方面的例子来证明新知识,并使新旧知识协调一致,对 数据库中例外的特征化以及随着知识与数据库的同步进化。 ( 5 ) h o n g j u nl u 等提出了利用神经网络挖掘符号分类规则的方法,与决策树 方法相比,该方法具有更小的分类出错率,抽取的规则也更简洁,只是抽取规 则所用的时间比决策树方法长。 ( 6 ) 可视化也是k d d 研究的方向之一,g p i a t e t s k y - - s h a p i r o 等开发的知识 发现平台k d w 是一个数据探测的交互式可视化数据挖掘系统,该系统集成了几 种据挖掘技术,如数据簇集、数据可视化汇总分类及数据变更的发现等。除了 k d w 外,有代表性的还有d a n i e la ,k e i m 等开发的多维数据库可视化挖掘系统 v i s d b 等。 2 、应用实现 ( 1 ) k a n s a s 大学开发的基于粗糙集理论的学习系统l e r s ,被美国n a s a 的 j o h n s o n 空间中心作为专家系统开发工具用于医学及全球气候变化分析。 ( 2 ) 美国加州理工学院喷气推进实验室与天文科学家合作开发了自适应识别工 具系统s k i c a t 系统,用来识别火星上的小火山,其数据来自围绕火星分行的 江苏大学硕士研究生毕业论文 m a g e l l o n 号航空器等。 ( 3 ) r e g i a n 大学的k 叻一r 已被用于医学数据分析和电信工业的市场分析。 ( 4 ) i b m 公司的a d v a n c e d s c o u t 系统针对n b a 的数据,帮助教练优化战术组合。 ( 5 ) l o c kh e a dm a r t 公司的a i 中心开发的r e c o n 系统,用来辅助预测某种股 票的趋势或者推断是否可能出现异常变化等。 ( 6 ) 澳大利亚将大型地理调查数据库进行归纳学习发现土壤含盐度分类知识 等。 数据挖掘在农业、天文,医学、军事、金融、零售、环保、i n m m e t 等方面 都已经发挥了较大的作用,随着信息技术的不断发展,数据挖掘必将产生越来 越大的影响。 1 3 中医药信息化的介绍 现有的中药信息系统提供的功能仍停留在简单的统计和搜索之上,对于蕴 藏于中药中的丰富信息却束手无策,针对这一缺点,本文将数据挖掘技术应用 到中药研发过程中,从杂乱无章的数据中提取中药配伍规律,从而可以辅助医 学研究人员的工作。这样不仅拓宽了数据挖掘的应用范围也为中药的发展奠 定了基础。下面作者将从我国中药发展的现状与数据挖掘的发展两个方面来介 绍两者结合的可能性与必要性。 中医药是我国的国粹,经过数千年的发展,积累了丰富的经验,拥有的浩 瀚文献是世界上任何国家无可比拟的。以往中药复方新药的开发基本是临床医 生利用自己的知识和经验进行组方,并将其用于临床进行验证,获得较好疗效 后,再进行药理学、中药化学等方面的研究,这是一种经验开发模式。这种开 发模式的缺点就是临床医生不仅需要足够的开发经验,而且实验周期较长,开 发费用较高,这在一定程度上阻滞中药的发展。因而,我们必须借用已有的技 术,结合中医药的特点,开发出一种基于中医药数据的,适合中药开发的知识 发现系统,从根本上改变中医药行业信息工作落后的局面,最大限度地改变中 药材盲目种植、实验研究,方法和手段不规范、中医药科研低水平重复、中成药 出口缺乏信息支持的状况,以增加中药的信息含量,进一步增强中药在国际市 场上的竞争能力。 9 0 年代中期提出的数据挖掘,是从知识发现的概念引伸出来的,它是k d d 的核心部分,是人工智能、机器学习与数据库技术相结合的产物。它主要是在 一些事实或观察数据的集合中寻找模式的决策支持过程。根据挖掘功能不同可 以将数据挖掘分为以下几类: 1 、概念类描述:特征化和区分。数据特征化是目标类数据的一般特征或特性 江苏大学硕士研究生毕业论文 m a g e l l o n 号航空器等。 ( 3 ) r e g i a n 大学的k d d r 已被用于医学数据分析和电信工业的市场分析。 ( 4 ) i b m ! 公司的a d v a n c e d s c o u t 系统针对n b a 的数据,帮助教练优化战术组合。 ( 5 ) l o c kh e a dm a r t 公司的a i 中心开发的r e c o n 系统,用来辅助预测某种股 票的趋势或者推断是否可能出现异常变化等。 ( 5 ) 澳太利亚将大型地理调查数据库进行归纳学习发现土壤含盐度分类知识 等。 数据挖掘在农业、天文、医学、军事、金融、零售、环保、i n t e m e t 等方面 都已经发挥了较大的作用,随着信息技术的不断发展,数据挖掘必将产生越来 越大的影响。 1 3 中医药信息化的介绍 现有的中药信息系统提供的功能仍停留在简单的统计和搜索之上,对于蕴 藏于中药中的丰富信息却束手无策,针对这一缺点,本文将数据挖掘技术应用 到中药研发过程中,从杂乱无章的数据中提取中药配伍规律,从而可以辅助医 学研究人员的工作。这样不仅拓宽了数据挖掘的应用范围,也为中药的发展奠 定了基础。下面作者将从我国中药发展的现状与数据挖掘的发展两个方面来介 绍两者结合的可能性与必要性。 中医药是我国的国粹,经过数千年的发展,积累了丰富的经验,拥有的措 瀚文献是世界上任何国家无可比拟的。以往中药复方新药的开发基本是临床医 生利用自己的知识和经验进行组方。并将其用于临床进行验证,获得较好疗效 后,再进行药理学、中药化学等方面的研究,这是一种经验开发模式。这种开 发模式的缺点就是临床医生不仅需要足够的开发经验,而且实验周期较长,开 发费用较高,这在一定程度上阻滞中药的发展。因而。我们必须借用已有的技 术,结合中医药的特点。开发出一种基于中医药数据的,适合中药开发的知识 发现系统,从根本上改变中医药行业信息工作落后的局面,最大限度地改变中 药材盲目种植、实验研究历1 法和手段不规范、中医药科研低水平重复、中成药 出口缺乏信息支持的状况,以增加中药的信息含量,进一步增强中药在国际市 场上的竞争能力。 9 0 年代中期提出的数据挖掘,是从知识发现的概念引伸出来的,它是k d d 的核心部分,是人工智能、机器学习与数据库技术相结合的产物。它主要是在 一些事实或观察数据的集合中寻找模式的决策支持过程。根据挖掘功能不同可 以将数据挖掘分为以下几类: l 、概念类描述:特征化和区分。数据特征化是目标类数据的一般特征或特性 l 、概念类描述:特征化和区分。数据特征化是目标类数据的一般特征或特性 江苏大学硕士研究生毕业论文 的汇总。数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般 特性比较。 2 、关联分析。关联分析发现关联规则,这些规则展现属性一值频繁地在给定数 据集中一起出现的条件。 3 、分类和预测。分类首先通过分析由数据库属性描述的数据库元组来构造一个 可以描述预定的数据类集或概念集的模型,然后使用模型类去标记未知的对象 类。预测是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属 性值或值区间。 4 、聚类。聚类是一种无指导学习,它将数据对象分组成为多个类或簇,在同一 个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。 5 、孤立点分析。数据库中可能包含些数据对象,它们与数据的一般行为或模 型不一致,这些数据对象是孤立点。太部分数据挖掘方法将孤立点视为噪声或 异常丢弃,然而在一些应用中( 如欺骗检测) ,罕见的事件可能比正常出现的那 些更有趣。 6 、演变分析。数据演变分析描述行为随时间变化对象的规律或趋势,并对其建 模。尽管这可能包括时间相关数据的特征化、区分、关联、分类或聚类,这类 分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于类似性的 数据分析。 数据挖掘在医学数据中的应用。偏向于医疗和西药两方面,主要采用数据 挖掘中的决策树,聚类,回归,关联等技术【3 】分析医学数据。例如,利用分类 中粗糙集方法【16 】分析病例集合,得出“症状”与“疾病”问关系:利用聚类技 术 6 l 研究限制性药效团的结构,得到低能量且有持续疗效的药效团。利用数据 挖掘技术分析中医药数据尚处于起步阶段,应用于西药新药研究的数据挖掘技 术,不能直接应用于中药新药的研发,这是因为西药是由有机化学药品、无机 化学药品和生物制品组成,研究的是人工合成的物质,其组成有较高的确定性, 而中药是由我国传统使用的植物,动物和矿物药及其成药组成,是天然药物, 加之中药上千年的发展,在不同地方形成不同中药文化,中药的不确定性较高。 本文将根据中药数据的特点,我们设计了方剂预处理过程,以正交分离方 法将方剂中的每昧中药单独存放,借用中药词典处理方剂中的中药异名现象。 针对药剂用量不确定的特点,以聚类方法找出药剂用量数据集合的中心点,以 此为基础构造隶属函数,将药剂用量用模糊集合来描述。以作者设计的f t d a 2 算法,有效地从规范化的专利数据库提取中草药的配伍规律( 所谓配伍是指根 据病情的需要和药物性能,有选择地把两种以上的药物配合在一起应用,配伍 的恰当与否,直接影响疗效) ,从而打破中医药数据堆积而信息贫乏的局面,为 6 江苏大学硕士研究生毕业论文 中药新药的研制提供决策信息。 1 4 本文的研究内容及论文组织 本文研究的内容是,利用数据挖掘技术对中医药专利数据库中的方剂信息 进行分析,得到治疗某种疾病的中药方剂配伍规律,这些规律在配置新药时, 为医务工作人员提供参考,以到达缩短开发新药的周期,减少开发费用的目的。 本文预期要做的工作: l 、分析中医药专利数据的特点,定义用于数据挖掘的一般数据格式;研 究中医药专利数据的预处理方法,给出了数据预处理的过程。 2 、模糊关联规则算法的研究和分析。在分析最基本的布尔型关联规则的 算法- - a p r i o r i 算洲7 】的基础上设计并实现了挖掘模糊关联规则的算法。 3 、利用已实现的算法,在“南京中医药信息平台”项目中,实现一个小 型的知识发现系统。 论文组织: 第一章简述知识发现的产生背景、发展过程及国内外现状,引入数据挖掘 的概念及其关键技术,介绍中医药信息化的发展现状,明确本文的研究意义和 内容。 第二章给出基于中医药数据集的知识发现系统的整体框架体系结构设计, 并就其中的主要功能模块作详细介绍。 第三章分析对中医药专利数据进行预处理的必要性,简述数据预处理的一 般过程。以南京中医药信息平台为开发环境,设计在数据层进行预处理的方法。 第四章阐述模糊关联规则的基本概念,结合关联规则挖掘算法中最经典的 a p r i o r i 算法,介绍模糊关联规则的一般挖掘过程,针对中医药数据的特点, 将模糊集理论与关联规则相结合,对f t d a ( f u z z yt r a n s a c t i o nd a t am i n i n g a l g o r i t h m ) 算法【l l 】进行改进,设计并实现在特定事务数据库上挖掘模糊关联 规则的有效算法。 第五章在总结系统开发过程中相关问题的基础上,给出本系统的特点,然 后介绍系统的实际运行情况并给出系统的运行效果图。最后,给出系统在中医 药信息平台上的运行结果,并阐述结果的研究意义和实验意义。 第六章论文的总结和进一步的展望。 江苏大学硕士研究生毕业论文 第二章知识发现系统的构建 利用已有的中医药专利数据,运用关联挖掘算法,以实现在中医药信息平 台上的知识发现,达到辅助决策人员进行分析决策的目的。本章给出整个系统 的体系结构设计,并详细介绍系统的功能模块设计。 2 1 系统的体系结构设计 基于中医药专利数据库建立知识发现系统的体系结构如图2 1 所示 图2 1 知识发现系统的体系结构 在系统的体系结构中,根据数据流向,将系统分为数据收集、数据处理和 规则表示三部分。 l 、数据收集 江苏大学硕士研究生毕业论文 数据收集部分主要完成将各子数据源的信息汇总到自建数据库中。系统将 各子数据源中的数据收集到服务器上,使得用户知识发现的数据量得以扩充, 以增加最终得到信息的准确度。 2 、数据处理 数据处理是系统的主要部分,它又可以分为数据预处理和数据挖掘两个子 模块。数据预处理,通过一系列的规范化流程,净化数据库中数据,以达到增 强最终输出规则的准确度、提高信息含量的目的。数据挖掘模块主要是提供一 定的挖掘算法,对数据挖掘库中的数据进行统计分析和智能分析,并将生成的 对辅助医学决策有价值的模式或规则写入模式规则库。因而,从这种意义上来 看,数据挖掘模块的设计其实就是挖掘算法库的设计,也是本文研究的重点。 3 、规则表示 规则表示也就是决策支持模块,主要是人机界面部分,决策者提出问题, 系统根据问题或者从规则库中直接提取,或者调用相应模块,返回给决策者满 意的答复。 2 2 主要功能模块 本系统最主要的突出点是数据处理模块,是整个知识发现的核心。它主要 有两个子模块组成:数据预处理与数据挖掘。数据预处理子模块是为数据挖掘 模块准备挖掘数据;数据挖掘子模块能从经过预处理的数据中发现隐含的有用 的规则。规则输出模块主要是提供一个友好的用户接口,根据的输入条件,进 行分析处理,最终为用户提供决策参考。下面就这三个模块进行简单的介绍: 数据预处理 数据预处理模块通过一定的处理流程将原始数据转化为适合实现数据挖掘 的数据形式,并把预处理后的结果写入用于实现数据挖掘的数据库中。系统中 将采用关系数据库存储经过预处理的中医药数据,及规范的中药字典表。 数据挖掘 数据挖掘模块主要是根据数据对象的不同特点,设计出合适的挖掘算法, 对数据挖掘库中的数据进行统计分析和智能分析,得到能反映中医药数据规律 的模式。并将这些对辅助医学决策有价值的模式或规则写入模式规则库。因而, 从这种意义上来看,数据挖掘模块的设计其实也就是挖掘算法库的设计,而且 这里的挖掘算法库也就相当于是知识发现系统中的方法库。 数据挖掘算法中的关联规则是本系统中采用的主要数据分析方法。但是, 本系统采用的关联挖掘同以往的方法有所不同。传统的关联挖掘一般是用于发 现事务数据库中的布尔关联规则和数值型关联规则,在本系统中,我们将模糊 9 江苏大学硕士研究生毕业论文 集理论与关联规则相结合,从事务数据库中发现模糊关联规则。 规则表示 当决策者输入拟配方的成分时,系统先对配方进行预处理,得到规范化的 方剂信息,从模式库中抽取相关的规则作为系统的输出,提交给决策者,提供 直观的参考依据。 如模式库中包含了这样一条模糊关联规则: z 2 0 3 ( x ,l ) _ z 4 0 f x ,m ) ( s u p p o r t = 2 0 ,c o n f i d e n e e = 7 5 ) 其中,x 是变量,代表治疗的疾病感冒; z 2 0 3 ,z 4 0 为数据库中的两个属性名,分别表示金银花津液、薄荷冰: l ,m 为对应的模糊集,分别表示百分含量为低、中。 这条规则所表示的含义是:在治疗感冒的专利中有2 0 的复方中包括含量 为低的金银花津液和含量为中等的薄荷冰,并且一旦金银花津液的含量为低就 有7 5 的可能含有中等含量的薄荷冰。这样当我们配置一种治疗感冒的新药时, 若配方中出现了金银花津液且其含量为低,就可以据此条件,在模式库中查找 出治疗该疾病的准配方中还需加入中等含量的薄荷冰。利用该结果作为依据, 一方面可以指导医学工作者在配置新药时的试药的范围得以缩小,另一方面, 对于复方中药中的使用草药也有了量上的把握。此外,通过对准配方的分析, 借助于知识库,系统还可提供该配方治疗其他症状的参考,达到药尽其用的目 的,进而增强中药在国际市场上的竞争力。 目前已有的中医药信息平台对于中医药专利数据的应用仅是一般意义上的 搜索和简单的统计,而对于中药专利信息中隐含的、有用的知识却知之甚少。 而且目前中药新药的研发完全是一种经验模式,这种模式存在着开发周期长, 开发费用较高等缺点,因而我们需要在原有的中医药信息平台之上建立知识发 现系统,发现存在于中药专利信息中的有用信息,为新药的开发提供配方依据。 本文讨论的知识发现系统就是建立在中药专利数据集合上的。以“国家专 利产业化( 南京中医药) 基地”网络环境作为我们实现知识发现系统的实验平 台。建立此网络环境的目的是为t a n 深人们对中医药的理解,吸收前人的经验 加速我国的中医药发展,使之在国际市场上具有更强的竞争力。利用数据挖掘 技术发现中药的配伍规律,使得在今后研发复方新药时,为医药工作者提供决 策依据,指导中药配方,缩短中药新药的研发周期,减小试药范围,进一步增 加中药的科技含量。 综上所述,中医药专利数据库知识发现系统的建设是本信息平台开发的重 点,也是有别于其他中医药信息系统的特色之一,设计符合中医药数据特点的 数据挖掘算法是本论文的研究关键所在。文中将在第四章中详述的f t d a 2 江苏大学硕士研究生毕业论文 ( f u z z y t r a n s a c t i o n d a t a m i n i n g a l g o r i t h mi i ) 算法,能有效的从中药专利数 据库的方剂信息中发现中药配伍规律,为配制新型复方中药提供参考依据,缩 短发现新专利的周期,新的专利又可以作为数据源加入到自建数据库中,就可 以进行新一轮的知识发现,这样一个不断循环的过程,不仅丰富了我国的中药 专利数据库,还加速了中药的发展,进而为人类造福。 在本文的后续章节中,我们将围绕这一重点,介绍整个系统的设计与实现。 图2 2 表示了后几章之间的相互关联。 p i d p 数据预处理过程 ( 第三章) 上 发现模糊关联规则 ( 第四章) i 图2 2后续章节之间的关联图 数据处理摸块 江苏大学硕士研究生毕业论文 第三章p i d p 的设计与实现 本章首先介绍了在分析中医药数据中进行数据预处理的必要性,然后简述 对中药方剂数据进行预处理的一般过程( p i d ep r e s c r i p t i o ni n f o r m a t i o n sd a t a p r e p r o c e s s i n g ) ,并指出其难点所在。在此基础上,着重讨论了以国家中医药专利 ( 南京中西医结合医院) 信息平台为背景,成功地对中医药专利数据进行预处 理。 3 1 数据预处理概述 当今现实世界中的数据库极易受噪声数据、空缺数据和不一致数据的侵扰。 中医药数据也不例外,中药的命名多是根据产地、性能、生长特性、形态气味、 入药部分及发现者的名字等。中药种类繁多,且由于时代的变迁与地区的差异, 其命名也比较复杂,这就给数据预处理提出了挑战。具体来讲主要有以下三个 方面的影响: 历史的影响:中医药是我国的国粹,有几千年的历史,长时间的发展使得 数据量不断的扩大,而且不同时代对于同一种中医或中药有着不同记载方式, 造成了数据不一致和数据冗余。 地理的影响:我国幅员辽阔,不同地域形成了不同的中医药文化。比如: 对于同一种药材生长在不同的地域,有不同的名称,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届国家管网集团高校毕业生招聘考试备考题库(浓缩500题)及参考答案详解(b卷)
- 2026秋季国家管网集团甘肃公司高校毕业生招聘考试备考试题(浓缩500题)及参考答案详解(轻巧夺冠)
- 2025国网青海省电力校园招聘(提前批)笔试模拟试题浓缩500题及答案详解(易错题)
- 2026国网吉林省电力公司高校毕业生提前批招聘笔试参考题库浓缩500题及答案详解(必刷)
- 2026届国家管网集团高校毕业生招聘笔试模拟试题(浓缩500题)带答案详解(完整版)
- 2025国网河北省高校毕业生提前批招聘(约450人)笔试模拟试题浓缩500题及答案详解(有一套)
- 2026国家管网集团北方管道公司秋季高校毕业生招聘考试参考试题(浓缩500题)附参考答案详解(培优)
- 2026国网湖北省电力公司高校毕业生提前批招聘笔试模拟试题浓缩500题含答案详解(b卷)
- 2026国网内蒙古电力公司高校毕业生提前批招聘笔试参考题库浓缩500题附答案详解(完整版)
- 2026国网海南省电力校园招聘(提前批)笔试模拟试题浓缩500题及一套参考答案详解
- 2025江苏海氧深冷科技有限公司招聘工作人员9人考试模拟试题及答案解析
- DLT 593-2016 高压开关设备和控制设备
- 高一第一次月考后的心理分析与调整课件
- 《计算机操作系统(第4版)》配套教学课件
- 美国波多里奇质量奖课件
- 民营医院员工手册
- 2023年济南市历城区工会系统招聘考试笔试题库及答案解析
- 【精编】给我CKD-我将改变全台湾:台湾慢性肾病照护体系建立与其课件
- DB44-T 2171-2019河道淤泥固化处置技术规范-(高清现行)
- Conners氏儿童行为问卷(教师用量表)
- 特高压钢管塔项目可行性研究报告写作范文
评论
0/150
提交评论