




已阅读5页,还剩115页未读, 继续免费阅读
(计算机科学与技术专业论文)中医方剂数据挖掘模式和算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学博士学位论文 摘要 摘要 中医药学是中华民族五千年优秀文化的瑰宝和科学发展的结晶,为 人民的健康和生存质量的提高作出了极大贡献。方剂学在中医药学中占 有重要位置,方剂是中医药学理、法、方、药的一个重要组成部分,其 配伍规律有着深刻的科学内涵。 几千年来,中医药领域的无数临床实践与理论研究积累了海量的中 医方剂,这些中医方剂包含在中医药古籍、文献以及当前的临床研究文 献中。近年来,浙江大学计算机学院c c n t 实验室和中国中医研究院合作 共建了大量方剂数据库,如何有效的利用这些宝贵的数据库资源就成了 发展中医药必须面对的一个问题。而数据挖掘所擅长的正是从海量的数 据中发现有意义的模式、知识,这是分析中医药海量中医方剂所需要的 技术。本文利用数据挖掘技术从大量方剂中抽取有意义的药物组配模式, 为方剂理论研究和临床实践研究提供现代技术手段。 本文主要工作是提出一系列适合方剂数据挖掘的挖掘模式和算法, 并将各算法集成研发方剂数据挖掘系统。 频繁关联模式能反映模式中各项目之间的关联关系。然丽,与频繁 模式挖掘特点类似的是当最小关联度界设得太低时,频繁关联模式挖掘 会产生大量的频繁关联模式,不利于人工分析,因此本文提出最大频繁 关联模式挖掘和挖掘算法。因为所有的频繁关联模式都可以从最大频繁 关联模式中导出,所以最大频繁关联模式挖掘对挖掘结果不丢失信息量。 实验证明最大频繁关联模式挖掘既可以减少结果模式的数量,叉提高7 算法的效率。 关联挖掘和相关挖掘是两种不同的数据挖掘任务,实验证明大量极 其关联的频繁关联模式各项目之间不存在相关关系。本文在数据挖掘过 程中将关联兴趣度度量与相关兴趣度度量结合,提出关联且相关频繁模 式挖掘和挖掘算法。实验证明关联且相关频繁模式各项目之问不但关联 而且存在相关关系,提高了模式的兴趣性。 由于相关模式的定义条件较弱,即只要模式各项目之间存在相关关 系必为相关模式,致使许多关联且相关频繁模式各项日之闻仍然存在大 量的独立关系,即关联且相关频繁模式任意两个子集不定都是相关的。 介于此,本文提出互为正相关频繁模式挖掘和挖掘算法。互为正相关频 繁模式任意两个子模式不但关联而且正相关。实验证明互为正相关频繁 模式箍握毙蠢效去除模式中务项嚣之间舂独立关系黝帮些关联爨相关频 繁掇式。由于互为正相关频繁模式挖掘产生豹结果模式数量比关联鼠相 关频繁模式挖掘少,所以互为正相关频繁模式挖掘算法执行散率比关联 且相关频繁模式挖掇好。 实验表明大量的关联规则两边不具有相关关系,于是作为关联规则 挖攘瓣羚宠,本文搀遗关联置携美麓瓣煞挖掘秘挖擒簿法。荧鼗置褶荚 规则两边不但关联而且正相关。所以关联且相关的规则挖掘能提高规则 的兴趣度,比关联裁则挖掘燮有剥予蠢意义搜则的发现。 由于目前几乎所有度量模式耜燕的兴趣艘度量不适合挖瓣长模式, 又没有上下界便于参数输入时的控制。本文利用概率统计中事件的独立 性定义,提斑薪豹痰蟹模式耩关健酌必趣度发量一穗关鸯信发,该发量 建立在概率统计理论上,定义合理,有上下界1 和+ l ,而且此度量还适 合挖掘模式巾壤基个数大予2 约长模式。 本文将所有的方剂数据挖掘模式和算法集成,设计研发了方剂药物 组配模式分析系统和方剂功效分析系统。通过系统,不仅可以抽取方剂 中商关联和,戏相关翁物的缀糙模式,探讨这黧模式中药谚组配磊功效静 变化情况,探讨与这魑模式配伍的高频药物及这些高频药物的功效情况。 还露疆剥臻嶷模式串添燕裹皴蘸援掇薅模式药物交纯舞功效瓣交往壤漫 及方剂因所禽模式的药物变化而功效变化的情况。 关键谢:中鼷方裁,数据挖掘,相燕裔信度,模式,筑弼 浙江大学博士论文 a b s t r a c t a b s t r a c t t c m ( t r a d i t i o n a lc h i n e s em e d i c i n e ) i st h ee x c e l l e n tc u l t u r eo f c h i n aa n di s t h er e s u l t so fa c c u m u l a t i l 塔s c i e n c e t c mp l a ya ni m p o r t a n tr o l ei np e o p l e sl i f e a n dh e a l t h s c i e n c eo f p r e s c r i p t i o n si so n eo f t h ei m p o r t a n tb a s i cc o u r s e si nt c m p r e s c r i p t i o ni sa l li m p o r t a n tp a r to f t h e o r y , m e t h o d ,p r e s c r i p t i o na n dd r u gi nt c m t h ep r i c i n p l e so ff o r m i n gap r e s c r i p t i o nh a v er i c hc o n t e n t so fs c i e n c e d u r i n gt h o u s a n d so fy e a r s ,p e o p l eh a v ea c c u m u l a t e d al a r g en u m b e ro f p r e s c n p t i o n sb yn u m e r o u sc l i n i c a lp r a c t i s e sa n dt c mt h e o r yr e s e a r c h e s 。t h e s e p r e s c r i p t i o n s w e r ei n c l u d e di nt c ma n c i e n tb o o k s ,m a g a z i n e sa n dc u r r e n t c l i n i c a lr e s e a r c h j o u r n a l s t h ec o l l e g e o fc o m p u t e rs c i e n c eo fz h e j i a n g u n i v e r s i t y sc c n tl a b o r a t o r yc o o p e r a t e d w i t hc h i n aa c a d e m yo fc h i n e s e m e d i c a ls c i e n c eh a sc r e a t e dal o to f p r e s c r i p t i o nd a t a b a s e ss i n c et h e s ey e a r s o n e o ft h eb i gp r o b l e m si nt c mi sh o wt om a k ef u l lu s eo ft h e s ed a t a b a s er e s o u r c e s d a t am i n i n gi sd e f i n e da st h ep r o c e s so fd i s c o v e r i n gs i g n i f i c a n ta n dp o t e n t i a l l y u s e f u lp a t t e r n si n l a r g ev o l u m eo fd a t a t h e r e f o r e ,d a t a m i n g i st h ep r o p e r t e c h n i q u et h a ti su s e dt oa n a l y s et h e s ep r e s c r i p t i o n s + t h u s ,i nt h i sp a p e r , w eu s e t h ed a t a m i n gt e c h n i q u e st oe x t r a c tu s e f u lp a t t e r n sf r o mp r e s c n p t i o nd a t a b a s e si n o r d e rt h a tw ec a np r o v i d eu s e f u lp a t t e r n sf o rp r e s c r i p t i o n ,r e s e a r c h e sa n dc l i n i c a l p r a c t i s er e s e a r c h e s o n eo fo u rm a i nw o r k si nt h i sp a p e ri st op r o p o s em a n yn e wk i n d so fm i n i n g p a t t e r n sf o rp r e c d s p t i o nd a t am i n i n ga n dd e v e l o pa l g o r i t h m s f o rd i s c o v e r i n g t h e s ep a t t e r n s t h eo t h e rm a i nw o r k si st oi n t e r g r a t ea l la l g o r i t h m sp r o p o s e di n t h i sp a p e ra n dd e v e l o pp r e s c r i p t i o nd a t am i n i n gs y s t e m s 。 f r e q u e n ta s s o c i a t e dp a t t e r n s c a nr e f l e c ta s s o c i a t i o nr e l a t i o n s h i p sb e t w e e n i t e m s h o w e v e 矗l i k ef r e q u e n tp a t t e r nm i n i n g , w h e nt h em i n i m u ma s s o c i a t i o n t h r e s h o l di sl o w , f r e q u e n ta s s o c i a t e dp a a e mm i n i n gs t i l lg e n e r a t e sal a r g en u m b e r o fp a t t e r n s 。i ti sd i f f i c u l tf o rh u m a nt oa n a l y s es u c hal a r g en u m b e ro fp a t t e r n s t h e r e f o r e ,w em i n em a x i m a lf r e q u e n ta s s o c i a t e dp a t t e r n s e x p e r i m e n t a lr e s u l t s s h o wt h a tm a x i m a lf r e q u e n ta s s o c i a t e dp a t t e r nm i n i n gc a nd r a m a t i c a l l yd e c r e a s e 浙江大学博士学位论文 a b s t r a c t t h en u m b e ro fp a t t e r n sg e n e r a t e da n di m p r o v et h ep e r f o r m a n c eo ft h ea l g o r i t h m w i t h o u ti n f o r m a t i o nl o s s ,b e c a u s ea n yf r e q u e n ta s s o c i a t e dp a t t e r nc a nb ef o u n d f r o ma l lm a x i m a lf r e q u e n ta s s o c i a t e dp a t t e r n s a s s o c i a t i o nm i n i n ga n dc o r r e l a t i o nm i n i n ga r et w od i f f e r e n tt a s k s f r e q u e n t a s s o c i a t e dp a t t e r n sc a n n o tr e f l e c tt h ec o r r e l a t i o nr e l a t i o n s h i p sb e t w e e ni t e m s e x p e r i m e n t a lr e s u l t ss h o wt h a tt h e r ee x i s tn oc o r r e l a t i o nr e l a t i o n s h i p sb e t w e e n i t e m si nm a n yf r e q u e n th i g h l ya s s o c i a t e dp a t t e r n s w ec o m b i n ea s s o c i a t i o nw i t h c o r r e l a t i o ni nt h em i n i n gp r o c e s st od i s c o v e rb o t ha s s o c i a t e da n dc o r r e l a t e d f r e q u e n tp a t t e r n ss oa st oe n h a n c et h ei n t e r e s t i n g n e s so f p a t t e r n s s i n c et h e r ee x i s tm a n yi n d e p e n d e n c er e l a t i o n s h i p sb e t w e e ni t e m si nab o t h a s s o c i a t e da n dc o r r e l a t e df r e q u e n tp a t t e r nd u et ot h ew e a kc o n d i t i o n so ft h e d e f i n i t i o no fac o r r e l a t e dp a t t e r n ,w ep r o p o s et om i n i n gm u t u a l l ya n dp o s i t i v e l y c o r r e l a t e df r e q u e n tp a t t e r n s a n yt w os u b s e t so fam u t u a l l ya n dp o s i t i v e l y c o r r e l a t e d f r e q u e n tp a t t e r n a r eb o t ha s s o c i a t e da n dp o s i t i v e l yc o r r e l a t e d e x p e r i m e n t a l r e s u l t ss h o wt h a tm u t u a l l ya n dp o s i t i v e l yc o r r e l a t e d f r e q u e n t p a t t e r nm i n i n g c a l le f f e c t i v e l ye x c l u d ep a t t e r n sw h o s ei t e m sa r en o tb o t h a s s o c i a t e da n dp o s i t i v e l yc o r r e l a t e d t h u s ,t h en u m b e ro fp a t t e r n sp r o d u c e di n m u t u a l l ya n dp o s i t i v e l yc o r r e l a t e df r e q u e n tp a t t e r nm i n i n gi sm u c hl e s st h a no n e i nb o t ha s s o c i a t e da n dc o r r e l a t e df r e q u e n tp a t t e r nm i n i n g a c c o r d i n g l y , t h e p e r f o r m a n c eo fm u t u a l l ya n dp o s i t i v e l yc o r r e l a t e df r e q u e n tp a t t e r nm i n i n g i s h i g h e rt h a nt h ep e r f o r m a n c eo fb o t ha s s o c i a t e da n dc o r r e l a t e dp a t t e r nm i n i n g e x p e r i m e n t a lr e s u l t ss h o wt h a tm a n ya s s o c i a t i o nr u l e sh a v en oc o r r e l a t i o n r e l a t i o n s h i p sb e t w e e nt w os i d e s ,w ep r o p o s et o m i n eb o t ha s s o c i a t i o na n d c o r r e l a t i o nr u l e sa st h ec o m p l e m e n to fa s s o c i a t i o nr u l em i n i n g b o t ha s s o c i a t i o n a n dc o r r e l a t i o nr u l e sh a v eb o t ha s s o c i a t i o na n dp o s i t i v ec o r r e l a t i o nr e l a t i o n s h i p s b e t w e e nt w os i d e s t h u sb o t ha s s o c i a t i o na n dc o r r e l a t i o nr u l em i n i n gc a n i m p r o v et h ei n t e r e s t i n g n e s so fr u l e sp r o d u c e d b o t ha s s o c i a t i o na n dc o r r e l a t i o n r u l em i n i n gi sm o r ef e a s i b l ef o rf i n d i n gu s e f u lr u l e st h a na s s o c i a t i o nr u l em i n i n g h o w e v e r , t h e r ea r ef e wm e a s u r e sw h i c hn o to n l yh a v ep r o p e r t yb o u n d sf o r c o n t r o l l i n gt h ei n p u tp a r a m e t e r s ,b u ta l s oa r es u i t a b l ef o rm i n i n gl o n gc o r r e l a t e d p a t t e r n s i nt h i sp a p e r , an e wi n t e r e s t i n g n e s sm e a s u r ec o r r e l a t i o n - c o n f i d e n c ei s 塑坚奎堂堡主丝塞 竺型 p r o p o s e d s i n c et h i sm e a s u r ei s b a s e do nt h ep r o b a b i l i t yt h e o r y , i ti sr e a s o n a b l e f o rc o r r e l a t i o nm i n i n g i tn o to n l yh a sa nu pb o u n d1a n dad o w nb o u n d 一1 ,b u t a l s oi ss u i t a b l ef o rm i n i n gl o n gp a t t e r n s w ei n t e g r a t ea l la l g o r i t h m sp r o p o s e di nt h i sp a p e ra n dd e v e l o pt w op r e s c r i p t i o n d a t am i n i n gs y s t e m s :t h ea n a l y s i ss y s t e r mo fp r e s c r i p t i o np a t t e r n s a n dt h e a n a l y s i ss y s t e mo fp r e s c r i p t i o nf u n c t i o n w e c a r ld i s c o v e ra s s o c i a t e da n d o r c o r r e l a t e dp a t t e r n s r u l e sf r o mo u rs y s t e r m s u s i n go u rs y s t e m s ,w ec a na n a l y s e t h ep a t t e r nf u n c t i o n sa n df i n dw h a tf r e q u e n td r u g sc a nb ea d d e di n t op a t t e r n s w e c a na n a l y s et h ef u n c t i o nc h a n g e so fp r e s c r i p t i o nb e c a u s eo ft h ec h a n g e so fd r u g s i np a t t e r n su s i n go u rs y s t e m s w ec a na l s oa n a l y s et h ef u n c t i o nc h a n g e so f p a t t e r n sb e c a u s eo f t h ec h a n g e s o fd r u g si np a t t e r n su s i n go u rs y s t e m s k e y w o r d s :t c mp r e s c r i p t i o n ,d a t am i n i n g ,c o r r e l a t i o n c o n f i d e n c e ,p a t t e r n ,r u l e 浙江大学博士学位论文 图形目录 图形目录 图2 1k d d 的过程7 图2 2d b m i n e r 系统8 图2 3 并行的k d d 系统体系结构8 图2 4 紧耦合的数据挖掘系统体系结构9 图3 1 最大频繁关联模式挖掘的过程3 0 图3 2 三个数据集上最大频繁关联模式挖掘的执行时间3 4 图3 3 最大频繁关联模式挖掘在古代方剂中一个实施实例3 6 图4 1 蘑菇数据集上运行时间4 9 图4 2 关联且相关频繁模式挖掘在中药局方剂中一个实施实例5 0 图5 1 蘑菇数据集运行时间5 6 图5 2 互为正相关频繁模式挖掘在中药局方剂中的一个实施实例5 8 图6 1 蘑菇数据集运行时间6 4 图6 2 关联且相关规则挖掘在中药局方剂中的一个实施实例6 6 图7 ,l 方剂药物组配模式分析系统体系结构7 4 图7 2 方荆药物组配模式分析系统方剂库的选择界面7 4 图7 3 方荆药物组配模式分析系统算法选择界面7 5 图7 4 中药局方剂最大频繁关联模式( 第一次挖掘) 7 7 图7 5 中药局方剂最大频繁关联模式( 第二次挖掘) 7 8 图7 6 跌打风湿药酒一7 8 图7 7 中医药古代方剂最大频繁关联模式( 第一次挖掘) 7 9 图7 8 中医药古代方剂最大频繁关联模式( 第二次挖掘) 8 0 图7 9 中药局方剂互为正相关频繁模式引 图8 i 最大关联频繁模式对应的方剂功效频率9 3 网8 2 最人关联频繁模式添加高频药对应的方剂功效频率9 4 浙江大学博士学位论文 表格目录 表格目录 表2 1 用数据挖掘算法填补的功效与原有功效的比较( 部分结果) 1 7 表2 2 脾胃类中药方剂功效分类结果1 7 表2 3 脾胃方组成药物功效系统聚类结果1 8 表2 4 长度为5 的药物频繁模式( 前十位) 1 9 表2 5 药物的关联规则1 9 表2 6 脾胃方药物关联规则2 0 表2 7 三库比较后相同的频繁药物组合2 0 表3 1 事务数据库t d b 2 9 表3 2c o n n e c t 一4 数据集上结果模式的数量( s u p p o r t1 0 一6 7 5 5 7 ) 3 5 表3 3 方剂数据集数据集上结果模式的数量( s u p p o r t :o 0 6 ) 3 5 表3 4 蘑菇数据集上结果模式的数量( s u p p o r t1 一8 1 2 4 ) 3 5 表4 1 事务数据库t d b 4 3 表4 2 模式的相关自信度和卡方值4 6 表4 3 蘑菇数据集上数量( m i n _ s u pl ,m i n _ l e n2 ,m a x _ l e n5 ,c c o n f1 ) 4 8 表4 4 方剂数据集上数量( m i n _ s u p1 ,m i n _ l e n 2m a xl e n 5 ,a 1 1 _ c o n f1 0 ) 4 8 表4 5 蘑菇数据集上数量( m i n s u p l ,m i n _ l e n2 ,m a x _ l e n5 ,a l l _ c o n f 3 0 ) 4 9 表5 1 事务数据库t d b 5 3 表5 2 蘑菇数据集上数量( m i n s u pl ,m i n l e n2 ,m a x _ l e n5 ,c _ c o n f1 ) 5 6 表5 3 方剂数据集上数量( s u p p o r t l ,r a i n l e n2 ,m a x _ l e n5 ,a l l _ c o n fl o ) 5 6 表5 4 蘑菇数据集上数量( m i n s u pl ,m i n l e n 2m a x _ l e n 5 ,a l l _ c o n f 3 0 ) 5 7 表6 1 事务数据库t d b 6 1 表6 2 蘑菇数据集规则数量( m i n s u p1 0 ,c _ c o n fl o ) 6 4 表6 3 蘑菇数据集规则数量( s u p p o r t l ,m i n _ l e n2 ,m a x _ l e n5 ,a l l _ e o n f 3 0 ) 6 5 表6 4 方剂数据集规则数量( m i n s u p1 ,m i n _ l e n 2m a x _ l e n 5 ,a l l _ _ c o n f1 0 ) 6 5 表7 i 古代方剂数据库部分方剂6 9 表7 2 方剂数据药物组成数字化结果6 9 表7 3 部分方剂药物拆分结果7 0 表7 4 剂量转化7 2 表7 5 数据预处理后数据库中的部分药物一7 3 表8 1 药物独脚乌桕名称及别名编码8 4 表8 2 伞字匹配部分药物8 6 v 浙江大学博士学位论文 表格目录 表8 3 前序、中序、后序匹配的部分药物名称8 6 表8 4 部分方剂进一步预处理后的药物组成字段8 7 表8 5 方剂部分功效词8 9 表8 6 部分方剂功效的规范一9 0 表8 7 部分方剂功效的规范一9 1 绪论 1 1 数据挖掘研究背景 第l 章绪论 计算机技术使人类对信息的处理迈向了数字化时代。信息的采集、存储、 交互和共享水平在数字化的基础上不断提高,信息以指数级的速度不断积累 和增长。涉及科学研究、社会生活、经济、商业和军事等各个方面的信息不 断地以二进制的方式记录在硬盘、光盘和磁带等多种数字化物理媒介上。数 据库技术的发展实现了对海量数字化信息的结构化存储和管理,从而又一次 促进了信息的数字化进程。总之,数字化技术创造的信息已经远远超出了人 所能处理的限度,人们把这种现象称为“信息爆炸”。如何将海量数据快速转 换成信息和知识,便是数据挖掘研究的课题。数据挖掘的目的是从海量数据 中快速发现有用的模式,它是统计分析、数据可视化、人工智能、机器学习 和数据库技术等众多领域交叉形成的新兴研究方向,其应用包括生物、医学、 金融、零售、电信等各个行业【1 】。 1 2 中医方剂数据挖掘研究背景 1 2 1 中医药理论研究和中医方剂理论研究的重要性 中医药学是我国医学科学的特色,也是我国优秀文化的重要组成部分。 进入本世纪后,人类疾病谱发生了明显的变化,由包括躯体、心理、社会、 自然环境等多种因素共同作用丽导致的“心身疾病”逐渐增多,成为医学界 关注的焦点。疾病谱的改变导致医学模式发生了变化,生物医学关注的焦点 从疚病转向了健康,健康成为生物医学的主题。中医药学由于其整体观、动 态观以及建立在辨证论治基础上的个体化诊疗方法,对由多种因素共同作用 而导致的“心身疾病”有较好的疗效,因而受到人们越来越广泛的关注 2 , 呈现出良好的发展前景。 在发展中医药方面,我国资源丰富、潜力巨大,有望在中医药现代化、 国际化方面有所作为,使我国中医药走向世界、造福全球。中医药在多年的 研究和实践中取得了一定的成果,但仍未能充分利用我国中医药雄厚的理论 基础将应有的发展潜力挖掘出来。我国作为传统中医药文明的发祥地,如今 浙江大学博士学位论文:中医方剂数据挖掘模式和算法研究 正面临着诸多挑战。我国作为最大的中药材资源国,在世界的中药市场上却 未能占有基本的主导地位。反而日本、韩国等国家成功地利用现代科技把中 药行业发展成现代产业,占据了国际市场相当的份额【3 】。另一方面,我国的 中医研究一直未能解决中医继承和发扬的问题,中医理论罕有突破和创新, 中医人才又后继乏人。继承和发展中医药不仅是中医界也是全国其他科研院 校和科研机构的重要课题。 方剂学是中医药学一门重要的学科,目前已成为中医药学研究的热点。 但由于中医复方的组成成份、作用机制异常复杂,适应证标准化有一定的难 度,方剂学理论本身还存在着一些不完善的地方等原因,使得方剂学成为中 医药学进一步发展、全面走向世界的难点。方剂学在二十一世纪应如何发展, 确立其发展方向及研究方法对推动中医学的整体发展、全面走向世界具有重 大意义 4 。 方剂是中医临床用药的主要形式和手段,其配伍规律有着深刻的科学内 涵。一首方剂的确立,要经过审证求因、据证立法、择药定量、合理配伍 等一系列的抽象思维过程 5 1 1 6 】,因而中医方剂又是祖国医学辨证论治精髓的 集中体现。近几年来,随着对方荆配伍科学内涵的逐步揭示及其在中医药现 代化研究中重要地位的认识不断深入,形成了一个前所未有的方剂学研究热 潮 7 一1 1 。在实现中医药现代化的进程中,抓住中医方剂这一环节进行深入 研究,对于中医现代化和中药现代化都有着不可低估的作用。 1 2 2 中医方剂数据挖掘的必要性与可行性 下面的论述不仅说明了中医方剂数据挖掘的必要性而且还说明了中医方 剂数据挖掘的可行性。 中医药学者在数千年的实践中,积累了丰富的中医药临床应用经验,记 录下大量宝贵的文献资料。据统计,目前国内收藏的辛亥革命以前的中医药 学古籍文献l 万3 干多种,其中在社会上流通较广的古籍近1 0 0 0 种。如此之多 的古籍文献中含有大量的对古代方剂的记载。与此同时,现当代出版的大量 中医药图书和期刊中也包含着大量有价值的方剂纪录。仪中医研究院图书馆 就收录了1 9 1 1 年以后出版的中医药图书达1 2 0 0 0 多种,中医期刊2 3 0 多种。根 据中国中医药期刊文献数据库的数据显示,1 9 8 7 - 2 0 0 3 年发表的巾医药文献 高达5 3 0 ,7 0 0 篇 1 2 1 3 。面对如此海量的方剂,如何有效的利用这些宝贵 资源就成了发展中医药必须面对的一个问题。 数据挖掘是目前有效处理和利用海量数字信息的主要计算机手段,是解 决信息时代信息过载而知识缺乏问题的主体方法。目前建立的大多数中医药 方剂数据库,只能提供检索、统计等一般性的服务,其包含在这些数据中的 大量隐含知识尚未得到充分挖掘和利用。方剂数据挖掘系统的建立,可以充 分利用现有中医药方剂数据库中的大量数据,挖掘方剂中有意义的药物组配 模式,探讨方剂和模式功效因药物变化而变化的情况,为中医方剂理论研究、 中医基础理论研究提供新的思路和新的方法 1 4 一1 7 。 方剂数据挖掘研究是可行的。应用数据挖掘技术的前提是海量数据得以 数字化。浙江大学计算机学院c c n t 实验室在吴朝晖导师的带领下和中国中 医研究院于1 9 9 8 年就开始合作搭建中医药科技数据库群,并成功建立了集成 全国1 7 个分中心的分布式多库融合平台。通过全国3 0 余家中医药学院、大 学和科研院所近3 0 0 名科技工作者的数据录入工作,该平台目前已集成了5 0 余个数据库,其中包括巾国中医药期刊文献数据库( 收录了中医药文献 5 3 0 ,7 0 0 篇) 、中国中药数据库( 收录中药1 0 0 0 0 余种) 、疾病诊疗数据库 ( 收录了各科疾病约3 7 7 6 种) 、中国方剂数据库( 收录古代中药方剂8 万 余首) 、方剂现代应用数据库( 9 6 0 0 余种方剂的应用信息) 、中国巾药化学 成份数据库( 收录了3 0 0 0 余多中药化学成份) 等。同时,为建立中医药一体 化语言系统并解决系统集成中出现的语义问题,我们与中医研究院合作,开 始基于s e m a n t i cw e b 技术搭建中医药本体论。到目前为止,在全国2 0 多个 分中心的协作下已经完成了1 0 ,0 0 0 多条中医药术语的编辑,并初步实现了 一个面向中医药的本体论浏览器。2 0 0 2 年开始搭建的信息网格平台,逐步将 原有多库融合平台转变为数据库嘲格平台,提供动态的数据库注册与绑定、 关联导航等功能。这些中医药信息化的工作,实现了海量中医药数据的整理、 存储和共享,为利用数据挖掘技术,从海量方剂库中发现有用的知识、实现 数据的有效利用创造了很好的条件。 可以说浙江大学计算机学院c c n t 实验室从1 9 9 8 年与北京中医研究院 合作进行中医药信息化建设至今,尤其是网格数据库平台的建设,使中医药 方剂数据挖掘研究甚至是中医药网格数据挖掘研究成为可能。 1 3 本文的主要贡献 数据挖掘旨在从大量数据中发现有效的、新颖的、有潜在应用价值的和 最终可理解的模式。中医药学几千年临床实践积累了大量方剂,从这些方剂 鼗搓夫学鞲圭学蛰论文| 孛羧方裁数据携握搂式襄箨法醑竞 中发现有意义药物组粥模式,为中医方剂理论研究和临床实践硪究掇供现代 技术手段,楚本文的主要哥的。 数据挖掘技术是面向应用领域的,不同的应用领域数据挖掘任务( 模式) 畜搿粳霹。本文主要嚣簸是掇滋一系秘适合方裁数据携援靛挖掘模式帮算法, 并将备算法集成研发方剂数据挖掘系统。 频繁关联模式能反映模式中各项曙之间关联关系。然藤,与频繁模式挖 掘特点类似的是当最小关联度界设褥太低时,频繁关联模式挖掘会产生大量 的频繁关联横式,不利于人工分析。本文提出最大频繁关联模式挖掘,由于 搿袁翡颓繁荚联模式帮可敬获最大频繁关联模式串导毽,所戳最大颓繁关联 模式挖掘不会丢失挖掘结果的信息量。最大频繁关联模式挖掘不必搜索所有 懿壤繁关联模式,大大减少攘索的空阗,提态箕法黝效率。突验涯明本文提 出的提前剪技算法,在巨大甚至稠密的数据熊,如古代方剂库、c o n n e c t 数 据鬃,运行速度都很快,即使在最小支持度莘【i 最小关联自信艘都足够低时, 算法往能依然庭好。 然而,柱中医药应用领域,只用关联来度量模式的兴趣性是不够的。如 旁一药熬方裁9 0 都蠢誊莼,鼯么药秘嚣药楚极其关联斡,键鸯可戆器莼搴 身钍9 0 的方剂中就都出现,即口药怒常用药,如甘牮。则a 药与其配伍的矗 药物就不一定有相关性,也就是说一药与药嚣9 0 的关联性可艇是因为君药是 常用药造成,这种精况的关联模式备项目之阉关联毽不相关,这种关联模式 对中医药理论研究意义就不犬。实验证明大擞极其关联的频繁关联模式各项 曩之闯不存巍相关关系。因我,为鬟商模式瓣兴趣毪,本文在鼗器挖獬过程 巾将篾联兴趣度度量岛相关必趣度度摄结合,提出关联且相关频繁模式挖掘, 关联照稷关频繁模式不但任爨嚣个子察关联,悉且攘式中备璞嚣之间必定存 在相关关系。 融然关联且相关频繁模式各项日之闻一定存在相关关系,由于相关横式 定义条俘较鞴,繇冀簧模式串各项毯之闻存在籀关关系矮为稠关摸式,致使 许多关联且拥关频繁模式备项目之闻仍然存谯大最的独立关系,即关联且相 关频繁攘式旺塞两令子集蚕一定懿燕辐关静。因鼗,奉文挺窭互鸯瑟稳美菝 繁模式挖掘。互为正相关频繁模式任意两个予模式不但关联而且正相获。实 验证明互为嘏相关模式控掘熊鸯效去除那些模式中备项爨之阅宫独囊关系的 关联艇籀关频繁模式。由于蕊为正稻芙频繁模式挖搦结莱模筑数量沈关联且 相关频繁模式挖掘少,所以溉为正相关频繁模式挖掘算法执行效率比关联且 辍关簇繁模式笼掘燕。 绪论 由于关联且相关频繁模式只反映模式各项目之间存在既关联又相关关 系,但不能体现模式各项目之间所有的既关联又相关关系,互为正相关频繁 模式挖掘只反映模式任意两个子集都相关,但既有相关又有独立关系的模式 的各项目之间的所有相关关系无法体现。因此,无论关联且相关频繁模式挖 掘还是互为正相关频繁模式挖掘,都不能体现模式各项日之间的所有关联和 相关关系。于是本文提出了关联且相关规则的挖掘。关联且相关规则两边不 但关联而且是正相关的。从本文的实验可以得出,大量关联规则两边不具有 相关性,因此关联规则不能体现规则两边的相关关系。关联且相关规则挖掘 是关联规则挖掘的补充,关联且相关的规则挖掘提高规则的兴趣度,更有利 于有意义规则的发现。 由于目前几乎所有度量模式相关的兴趣度度量不适合挖掘长模式,又没 有上下界以便参数输入时的控制。本文利用概率统计中事件的独立性定义, 提出新的度量模式相关性的兴趣度度量一相关自信度,该度量定义建立在概 率统计理论上,定义合理,有上下界1 和+ 1 ,而且此度量还适合挖掘模式中 项目个数大于2 的长相关模式。 本文将所有的数据挖掘算法集成,设计研发了方剂药物组配模式分析系 统和方剂功效分析系统。利用本文提供的系统,可以得到方剂中一系列有意 义的关联和i 或相关药物组配模式及模式中药物配伍后功效的变化情况,得到 与模式配伍的高频药和这些高频药的功效情况,还可以得到模式因药物变化 功效变化情况和方剂功效因所含模式中药物变化功效变化情况。这为方剂理 论研究和中医药基础理论研究提供现代研究技术手段,也为中医方剂临床用 药提供模式参考。 1 4 本文的组织结构 其余章节安排如下: 第二章综述数据挖掘与中医方剂数据挖掘:第三章介绍本文提出的第一 个数据挖掘模式和算法:最大频繁关联模式的挖掘;第四章介绍本文提出第 二个数据挖掘模式和算法:关联且相关频繁模式的挖掘:第五章介绍本文提 出第三个数据挖掘模式和算法:互为正相关频繁模式的挖掘:第六章介绍关 联且相关规则的挖掘;第七章介绍方剂药物组配模式分析系统;第八章介绍 方剂功效分析系统;第九章总结本文的研究成果和展望中医
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年滁州市机械工业学校公开引进教育紧缺人才8人模拟试卷及答案详解(新)
- 2025广东广州中山大学孙逸仙纪念医院博士后招聘考前自测高频考点模拟试题及答案详解(易错题)
- 2025黑龙江省设计集团有限公司面向社会及校园招聘财务人员2人笔试历年参考题库附带答案详解
- 2025陕西西安市建筑设计研究院有限公司3月招聘笔试历年参考题库附带答案详解
- 2025陕西延长石油物流集团有限公司包装制品分公司人员招聘32人笔试历年参考题库附带答案详解
- 2025重庆对外贸易进口有限公司招聘2人笔试历年参考题库附带答案详解
- 2025贵州民航产业集团有限公司社会招聘笔试历年参考题库附带答案详解
- 2025贵州六盘水鑫贵仁产业投资服务有限公司面向社会招聘3人笔试历年参考题库附带答案详解
- 2025福建省青山纸业股份有限公司招聘43人笔试历年参考题库附带答案详解
- 2025福建省人力资源发展集团有限公司邵武分公司招聘212人笔试历年参考题库附带答案详解
- 2025至2030中国大宗物资供应链行业发展趋势分析与未来投资战略咨询研究报告
- 胰岛素储存知识培训课件
- GB 46039-2025混凝土外加剂安全技术规范
- 2025至2030年中国卡丁车俱乐部行业市场调研分析及投资战略咨询报告
- 加油站职业健康危害因素分析
- 辽宁省沈阳市2025届高考语文模拟试卷(含答案)
- 公路统计管理办法
- 危重症患者的疼痛管理
- 电力建设安全规程2025新版
- 2024年法考真题及答案解析
- 2025年苏州市中考数学试卷真题(含答案解析)
评论
0/150
提交评论