




已阅读5页,还剩48页未读, 继续免费阅读
(计算机应用技术专业论文)古中医复方方剂配伍关系挖掘模型.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
v 7 7 8 7 8 9 古中医复方方剂配伍关系挖掘模型 计算机应用技术专业 研究生:阴小雄指导教师:唐常杰 中国医药学具有数千年的悠久历史。它是中华民族长期以来与疾病作斗争 的智慧结晶,是我们优秀民族文化遗产巾的一颗璀灿明珠。干百年来,中囝医 药学为中华民族的繁衍昌盛和促进世界医学的发展作出了卓越的贡献。早在秦 汉时代,就有了最早的本草著作神衣本草经。中草药的疗效不f h 经受住了 长期医疗实践的检验,而且也己被现代科学研究所证实。大量事实证明,我国 古代劳动人民通过妖期实践所积累起来的医药遗产是极其丰富、极为宝贵的。 我们应当珍视这个祖国医药学的伟大宝库,努力发掘。 儿丁- 年的历史积累使得我国有极其浩瀚的药物和复方方剂资源。揭不方剂 中单药问、方剂间的关系是当今的热点与难点。数据挖掘技术的发展和汁算机 性能的提高为揭示它们千丝万缕的内在联系提供了有力的技术支持。四川大学 和成都中医药大学联合课题组对这一课题进行了研究,本文承担了项目t j 古中 医复方方剂中单药、药对剂量分析工作及古中医复方方剂单药组成的频率对其 配伍关系影响的预研、基于多维矢量技术的占中医复方方剂性能的可视化数据 探索和聚类的预研,主要工作如下: 1 从古中医复方方剂单药组成的频率来研究单药组成对其配伍关系的影响。 设计了一种古中医复方方剂的组成单药问依赖性判定判别方法( i e ) ,在考虑支 持度置信度框架的同时,实现从关联分析到相关分析的转移。其丰要特点足: ( a ) 可以准确的表征出占中医复方方剂库d b 中方剂的组成多味单药问虽然不够 频繁但却具有强依赖性依赖模式。( b ) 可判别出脾胃类方剂库d b 中复方方剂的 组成单药的增减对该复方方剂单药问的依赖模式的影响。( c ) 该削别式符合复方 中医方剂的本身物理特性。 2 从古中医复方方剂单药组成的剂量变化研究单药在方剂库d b 中配伍特 点。该部分利用差异函数来度量单药在类方库中剂量的整体使用趋势,设计了 一种可调差异函数方法( m d f ) 来求单药在类方库中剂量的常用值,可作为缺 剂量药物在该类方中的取值依据。另外,还研究了类方库中某单药使用剂量的 异常检测方法,采用协方差来度量药组的剂量搭配的规律。 3 从微观出发,进行古中医复方方剂性能的可视化、数字化数据探索,设计 了一种多维矢量方法( m - v t ) ,将古中医复方方剂性能数字化表示。古中医复 方方剂性能多维矢量表示是核心问题。采用方剂库中该单药的剂量大小作为映 射区间,总结出方剂的性能,保证了方剂进行数字化的合理性,为基于数字化 后的古中医复方方剂的性能比较、方剂的聚类、分类等做合理的数据预准备r : 作。 关键词:古中医复方方剂、配伍关系、依赖性判定、多维矢量技术、聚类 a m i n i n gm o d e lf o rm e d i c i n ep a r i n g c o r r e l a t i o no ft r a d i t i o n a lc h i n e s em e d i c i n e p r e s c r i p t i o n s s p e c i a l t yo fc o m p u t e rs c i e n c e p o s t g r a d u a t e :y i nx i a o x i o n gs u p e r v i s o r :p r o f t a n gc h a n g i i e c h i n e s et r a d i t i o n a lm e d i c i n e ( t c m ) h a sal o n gh i s t o r yo fs e v e r a lt h o u s a n d s y e a r sa n di sar e s u l tw h i c hc h m e s ep e o p l eh a v es t r u g g l e dw i t ht h ed i s e a s e s f o r m a n yy e a r s ,c h i n e s et r a d i t i o n a lm e d i c i n eg r e a t l yh a sb o o s t e dt h ed e v e l o p m e n to f t h ew o r l dm e d i c i n ea n dt h ep r o s p e r i t yo ft h ec h i n e s en a t i o n ag r e a td e a lo ff a c t s p r o v et h a tc h i n e s et f a d i t i o n a lm e d i c i n ep r e s c r i d t i o n sh a sr e m a r k a b l ef u n c t i o n st o t r e a ta l lk i n d so fd i s e a s e sa n dh a sb e e nm a d es u r eb ym o d e ms c i e n c er e s e a r c h ,w e s h o d db ep r o u do f o u rc h i n e s et r a d i t i o n a lm e d i c i n er e s o u r c e s n l i sa r t i c l ep i l e su pt h ei m m e n s i t yt r a d i t i o n a lc h i n e s em e d i c i n ep r e s c r i p t i o n si n c h i n af o ral o n gt i m e i ti sah o t s p o ta n dad i f f i c u l t yp r o b l e mt oo p e no u tt h e r e l a t i o n sb e t w e e nm e d i c i n e sa n dc h i n e s et r a d i t i o n a lm e d i c i n ep r e s c r i p t i o n si nt h e p o i n tv i e wo f m o d e ms c i e n c e t h ed e v e l o p m e n to fd a t am i n i n gt e c h n i q u e sa n dt h e e n h a n c e so ft h ec o m p u t e rp e r f o r m a n c eo f f e ru sap o w e r f u ls u p p o r tt oo p e no u tt h e i n h e r e n c er e l a t i o n sf r o mam a s so fc h i n e s et r a d i t i o n a lm e d i c i n ep r e s c r i p t i o n s b a s e do nt h ea n a l y z i n gt r a d i t i o n a lr e s e a r c hw o r k s ,t h i st h e s i sr e s e a r c h e st h e c o m p o s e dr u l e so fc h i n e s et r a d i t i o n a lm e d i c i n ep r e s c r i p t i o n sa n d t h ea s s o c i a t i o no f t h em e d i c i n e s t h em a i nc o n t r i b u t i o n so f 出i st h e s i si n c l u d e : l i n v e s t i g a t e st h ee f f e c to ft h em e d i c i n em a k e u pf r e q u e n c yo nt h eb a s i so f m e d i c i n ep a r i n gc o r r e l a t i o n so ft r a d i t i o n a lc h i n e s em e d i c i n ep r e s c r i p t i o n sa n d d e s i g n a i n d e p e n d e n c ee s t i m a t em e t h o d ( i e ) i tn o to n l yt h i n k s o v e rt h ef l a m eo f s u p p o r i c o u n ta n dc o n f i d e n c e b u ta l s ot h i n k so v e rt h et r a n s f e rf r o ma s s o c i a t e a n a l y s i st oc o r r e l m i o na n a l y s i s t h em a i nf e a t u r e si n c l u d e s :( a ) i te x a c t l yc a p t u r e s t h ep a t t e r nw h i c hi sn o tf r e q u e n te n o u g hb u th a sas 仃o n gc o r r e l a t i o nm i n i o n si n p r e s c r i p t i o n sd b ( b ) i td i s t i n g u i s h e st h ea f f e c to ft h ei n d e p e n d e n c ep a t t e r nw h i l e a d d i n go rd e c r e a s i n gt h em a c h i n eo ft r a d i t i o n a lc h i n e s em e d i c i n ep r e s c r i p t i o n si n p r e s c r i p t i o n sd b ( c ) i t s d i s c r i m i n a n ts a t i s f i e st h e p h y s i c sc h a r a c t e r i s t i c o f t r a d i t i o n a lc h i n e s em e d i c i n ep r e s c r i p t i o n s 2r e s e a r c h e st h em a t c hc h a r a c t e r i s t i c so ft h em e d i c i n ei np r e s c r i p t i o n sd b u n d e rd o s e c h a n g eo ft c mp r e s c r i p t i o n s b yd i f f e r e n c e f u n c t i o nm e a s u r e st h e g l o b a lt r e n do ft h em e d i c i n ed o s ei nd 1 3 ,d e s i g n sa m o d i f i a b l ed i i t b r e n c e f a n c t i o n m e t h o d ( m d f ) t os e a r c ht h ea c c u s t o m e dv a l u eo ft h em e d i c i n ei nd b t h ev a l u ei s t r e a t e da sab a s i cr e f e r e n c ef o rm i s s i n gd o s em e d i c i n e i na d d i t i o n ,i tr e s e a r c h e s m e t h o df o rt h eo u t l i e ri nd b a d o p t st h ec o v a r i a n c et om e a s u r et h er u l eo ft h ed o s e m a t c h i n gi np r e s c r i p t i o n s 3 s t a r t i n g f r o mm i c r o c o s m i cv i e w , i te x p l o r e sv i s u a la n dd i g i t a lt c m p r e s c r i p t i o n s ,d e s i g n s am u l t i v e c t o r t e c h n i q u em e t h o d ( m v t ) t of i g u r e t h e p e r f o r m a n c eo ft c mp r e s c r i p t i o n st h ek e r n e lp r o b l e mi st of i g u r et h ep e r f o r m a n c e o ft c mp r e s c r i p t i o n s t h i sp a p e ra d o p t st h ed o s ev a l u ea sm a pd o m a i n ,g i v e s p e r f o r m a n c eo fp r e s c r i p t i o n s ,s u m m a r i z e sp r e s c r i p t i o n sp e r f o r m a n c e ,i n s u r e st h e r e a s o n a b l e n e s so ft h ed i g i t a lp r e s c r i p t i o n s ,m a k e ss o l i df o u n d a t i o nf o rp e r f o r m a n c e c o m p a r i s o n c l u s t e r i n g ,a n dc l a s s i f i c a t i o no f t h ep r e s c r i p t i o n s , k e y w o r d s :t r a d i t i o n a l c h i n e s em e d i c i n ep r e s c r i p t i o n s ,p a r i n gc o r r e l a t i o n , i n d e p e n d e n c ee s t i m a t e ,m u l t i v e c t o rt e c h n i q u e ,c l u s t e r i n g 四川大学硕士学位论文 1 引言 中医学( t r a d i t i o n a lc h i n e s em e d i c i n e ) 是中华民族的瑰宝,历史源远流长,足 我们的祖先与疾病作斗争的经验结晶。几千年来,针对不同的病症积累r 无数 方剂,留卜了众多中医学巨著。这些方剂和巨著构成了指导今天的中医工作者 如何对症下药的基础。与西医显著不同的是,中医是经验医学,足宏观医学, 其深刻的关系包含众多方剂中。如何从科学的角度揭示它们方剂单药间、方剂 问的关系是当今的热点与难点。当今数据挖掘技术的发展则为揭示它们干缝万 缕的内在联系提供了有力的技术支持。本文从古中医复方方剂单药组成的频率 对其配伍关系的影响、古中医复方方剂单药组成的剂量变化研究其配伍关系、 基于多维矢量技术的古中医复方方剂性能的可视化数据探索三个方向构架了一 个古中医复方方剂配伍关系挖掘模型t c m m i n c r 。图1 1 是该配伍关系模型的 筒洁示意图: 古 中 医 复 方 方 剂 库 古中医复方方荆单药组成的频率对其配伍关系的影响 古中医复方方剂单药组成的剂量交化研究其配伍关系 多维矢量技术的古中医复方方剂性能的可视化数据探索 图1 1 古中医复方方剂配伍关系挖掘模型示意图 叫川i 大学硕f 学位论文 2t c m m i n e t 的系统目标 利用现代数据挖掘技术和传统的中国中医理论的结合,设计一个占中医复 方方剂配伍关系挖掘模型,研究我国浩瀚如海的占中医方剂的构成规律、相互 的关联、未求方刺性能的预测,将我国传统的中国中医理论数字化。 四川大学硕士学位论史 3 古中医复方方剂单药组成的频率对其配伍关系的影晌 结合传统研究方法,提出了古中医复方方剂的组成单药间依赖性判定 f i n d e p e n d e n c e e s t i m a t e ,i e ) 的方法,以脾胃类方剂库为样本,用于古中医复方 药剂的组成单药的依赖模式集i m s ( i n d e p e n d e n c em o d e ls e t s ) 的搜索,对占 中医复方药荆配伍关系进行了预测研究。 3 1 基子a p r io rj 算法的传统关联规则挖掘算法 3 1 1 古中医复方方剂的组成单药购物篮分析 古中医复方方剂的单药的购物篮是指髀胃类方剂库中一个复方方剂由单药 组成,对应顾客在一次商业行为( 事务) 中所购买货物( 项) 的集合。在商业 活动中,零售商通过实时记录的商业行为来积累大量的事务信息,对事务数据 库研究旨在寻找项的组合,零售商可以根据项的组合信息来改善商店中货物的 堆放,使之符合消费者的购买习惯,提高消费者一起购买的几率,增加营业额。 其中,脾胃类方剂库中包含i 个项的项集被称为i 项集。包含该项集事务的百分 数叫做该项集的支持度。支持度比指定值大的项集称之为频繁项集。表3 1给 出了一个脾胃类方剂库与一个事物数据库的对应模型: 表3 1脾胃类方剞库与事物数据库的对应模型 事务号脾胃类方剂库方剂 项 l方剂1 efg h 2方剂2 fm 3方荆3 mg h 4方剂4 ef h 关联规则是数据挖掘的主要技术之一,是在无指导系统学习中挖掘本地模 式的最普通形式。对古中医复方方剂的组成单药的赂物篮的研究就是挖掘脾胃 类方剂库中组成复方方剂单药之间的关联。例如,可以根据茯苓、半夏的出现 的频率来推测橘红的出现频率。这里给出一个关于古中医复方方剂事务数据库 四川大学硕上学位论文 模型:设i = i 1 ,k ,i 。 为项( 单药的组合) 的集合,a 为一个项集,对于事务 t ,当且仅当a c t 时,称事务t 包含a 。关联规则是形如a = ,b 的蕴涵式其 中a c t ,b t ,且a n b = 中。如果脾胃类方剂库中d b 中包含a 的p 的复 方方剂记录同时也包含b ,那么规则a = b 在脾胃类方剂库中d b 中具有置信 度p 。如果脾胃类方剂库中d b 中有w 的事物包含a u b ,那么规则a = b 在 脾胃类方剂库中具有支持度w 。支持度评价的是模式在规9 l i j 中出现的频率,而 置信度则评价的是该规则的可信度。对占中医复方方剂的组成单药的购物篮的 关注就是研究那些具有高支持度的单药之间的关联规则。我们把具有强较置信 度和较高支持度的规则定义为强规则。挖掘脾胃类方剂库中关联规则的基本任 务就是首先挖掘出脾胃类方剂库中的强规则。其过程可以分为两个部分: 发掘由多个单药组成的大项集,即支持度w 大于预先给定最小闽值的项的 集合。 - 使用多个单药组成的大项集来产生脾胃类方剂库中置信度p 大于预先给定 最小阈值的关联规则。 规则的支持度和置信度是两个规则兴趣度量,它们分别反映发现规则的有 用性和确定性。满足最小支持度阈值和最小置信阈值的关联规则被认为是有趣 的,而这些阈值的大小则是由用户或某一方面的领域专家设定。 在挖掘脾胃类方剂库中的强规则的过程中,其资源的消耗主要是在第一部 分,目前,众多的数据挖掘算法的核心问题就是如何在利用尽可能小的代价下 高效的抽析出多个单药组成的大项集,在确定了多个单药组成大项集之后,蕴 涵于其中的关联规则就可以比较容易的导出了。其中,提高频繁项目集求解效 率的代表性研究工作是r a g r a w a l 等人提出的a p r i o r i 算法及其改进算法是比较 高效的处理这个问题的方法。 31 ,2 传统的基于a p r j 0 1 i 算法的关联规则挖掘算法及其改进算法 l a p r l o r i 算法简介 a p r i o r i 算法是一种传统的具有影响的挖掘布尔关联舰则频繁项集的算法。 该算法使用一种逐层搜索的迭代方法,k 一项集用于探索( k + i ) 一项集。第一步, 找出频繁1 - 项集的集合。将该项集记为l l ,l l 用于寻找频繁2 项集的的集合 l 2 ,而l 2 用于找l 3 ,不断的循环下去,一直到不能找到k 项集。可以看出, 四川大学硕士学位论文 该迭代过程每一层搜索l i 需要次数据库脾胃类方剂库d b 扫描,歼销是相 当人的。 在逐层产。频繁项集的过程中,为提高效率,可以利用一种称作a p r i o r i 件 质的的a p r i o r i 算法蕈要性质用于压缩搜索空间。该性质表示如下: 频繁项集的所有非空子集定都是频繁的。这是一种反单调的特殊分类, 其意义为:如果一个不能通过测试的集合,那么该集合的所有超集也定也一 定不能通过相同的测试。称其为反单调,是由于在通不过测试的条件下_ ,其性 质是单调的。 2 a p r i o r i 性质在算法中的应用 下面两步显示了在算法中如何利用l 找k 的过程中运用a 谢o “性质: ( 1 ) 连接步:为了找到l ,通过l 与自己连接产生候选i 。项集的集 合。将该候选i 项集的集合i 己为c 。 ( 2 ) 剪枝步:c 是l 的超集,显然,c ,的子集可能是频繁的,也可 能不是频繁的,但是所有频繁的i 一项集都必须包含在c ,中。在扫描数据库 的过程中确定c ,中每个候选的数量来确定l l 。这个过程c 。有可能非常的 人,对系统的开销很高。为了解决这个可能的较大的计算量,对c ,进行压 缩,就需要使用到a p r i o r i 性质:非频繁的( i - 1 ) 项集不可能是频繁i 项 集的子集。 3由频繁项集产生关联规则 从数据库脾胃类方剂库d b 中找出频繁集后,就可以根据满足给出的最小 支持度阈值参数和最小置信度阂值参数挖掘出强关联规则。对于置信度 ( c o n f i d e n c e ) 和支持度( s u p p o r t c o u n t ) ,下式给出了它们问的联系: c o n f i d e n c et 单药a = ,单药b ,。rc a 旧,= 里等焉罨篙 其中,s u p p o r t _ c o u n t ( a u b ) 是包含单药a 、单药b 的项集a u bh - n 数 s u p p o r t c o u n t ( a ) 是包含单药a 的项集a 的方剂数。 斟川大学颀 学位论殳 4 a p r i o r i 算法的改进技术 目前针对a p r i o r i 算法业界提出了很多改进措施来提高其效率,主要有以卜 几种: 1 ) 使用散列技术:用于压缩候选i 一项集c f i 1 ) 。例如,存扫描脾胃类方 剂库d b 时,为l 从候选1 一项集c ,中产生频繁l 一项集i m 可以为每个方 剂记录产生所有的2 一项集并将它们映射到散列表结构的不同桶中,并增 加对应的桶计数。这样,在散列表中对应的桶计数低于最小支持度阈值 参数的2 j 贝集就小i j 能是频繁2 一项集,因此在候选集中应当将其删除。 这种散列技术可有效的帮助项集减少需要检查的候选项集数目,特别是 当卜2 时。 2 ) 减少迭代扫描的事务数:不包含在任何频繁i 一项集的方刘记录不可能包 含任何频繁( i + 1 ) 一项集。对于这样的记录,可以给其加上标记从将要 搜索的脾胃类方刺库d b 中移去。当产生卜项集( j j ) 时,埘脾胃类方 荆库d b 的扫描将不在用到这些方剂。 3 ) 寻找候选项集对将脾胃类方剂库d b 进行划分:利用数据划分技术,在 挖掘频繁项集时只扫描脾胃类方剂库d b 两次。该划分包含两个过程。 第个过程,将脾胃类方剂库d b 分为n 个互不相交的部分,如果脾胃类 方剂库d b 中的最小支持度是m i n _ s u p p o r t ,那么脾胃类方剂库d b 划分的这1 1 个部分每个部分对应的最小支持度是m i n _ s u p p o r t ( 该部分中方刺数) 。对于 每个划分,挖掘其中所有的频繁项集,即局部频繁项集。这样,找出脾胃类方 四门1 人学硕士学位论文 第二次扫 描 从候选项 集中搜索 出全局频 繁项集 第一次扫描脾胃 剂庠d b 类方; 图3 1 将脾胃类方剂库瞻进行划分挖掘 荆库d b 中所有局部频繁项集只需扫描一次脾胃类方剂库d b 。对于整个脾胃类 方剂库d b 来说,局部频繁项集不一定就是全局的频繁项集,但同时,任何 全局的频繁项集则一定是在划分的这r 1 个部分局部频繁项集中出现。由此,可 将脾胃类方剂库d b 划分的这n 个部分每个部分对应的局部频繁项集作为整个 脾胃类方剂库d b 的全局的频繁项集的候选项集。 第= 个过程,再次扫描整个脾胃类方剂库d b 来获得所有候选项集支持频 度,并最终确定脾胃类方剂库d b 中的全局频繁项集。该划分过程中,脾胃类 方剂库d b 的各划分大小和数目应当以能够放入内存为宦,在保证运行速度的 同时,整个脾胃类方剂库d b 中的挖掘也就只扫描脾胃类方剂库d b 两次。 ( 4 ) 使用采样技术:即随机对描脾胃类方剂库d b 采集某个样本s ,对样本 s 进行频繁项集的挖掘。这种方式的样本s 的大小也是以能够在内存中完成为 宜。显然,这种方法是以效率来换取准确性。因为该挖掘频繁项集的过程是在 样本s 中进行而不是在整个脾胃类方剂库d b 中进行,所以很可能疏漏掉一些 全局的频繁项集。这种方法在要求有很高效率的情况下是有意义的。 ( 5 ) 动态项集记数:动态项集谴数是在对数据库进行划分时提出的。脾胃 类方剂库d b 被划分的各个数据块被标记上开始标志。而任一刀= 始点都可加入 新的候选集,和原始的a p r i o r i 算法不同的是,a 谢o r i 算法在每次扫描数据库之 前就己决定了候选集。该方法是动态的,需评估已记数的所有项集的支持度。 当一个项集的所有子集髓被确定为频繁时,那么,就可把它作为新的候选项集。 5 基于a p r i o r i 算法抽取的关联规则的关联分析 对于脾胃类方剂库d b ,基于支持度- 置信度框架,在满足我们所给出的最 小支持度闽值参数和最小置信度闽值参数挖掘出强关联规则后,挖掘任务好象 已经完成了。可是,新的问题产生了;我们利用a p f i o f i 算法从脾胃类方剂库 d b 中发现的强关联规则都是有趣的吗? 我们的这种判断是否主观? 本质上,尽管我们使用最小支持度阙值参数和最小置信度闽值参数排除了 一些无趣的的规则的搜索,但不可避免的仍然会产生一些我们实际上并不感兴 趣的规则,尽管它们中的一些强关联规则看起来多么的相似于对于我们有趣的 规则。 那么,如何才能确定哪些强关联规则是真f 对于我们是有趣的,而另一些 强关联规则是对于我们是具有欺骗的呢? j i a w e ih a n 和m i c h e l i n ek a m b e r 在 数据挖掘概念与技术( p 1 7 2 肿3 ) 一文中给出了一个很好的例子: 假定我们对分析涉及购买计算机游戏和录象的a l l e e c t r o n i c s 事务感兴趣。 8 必川犬学硕l 学位论文 设事件g a m e 表示包含汁算机游戏的事务而v i d e o 表示包含录象的事务。在所 分析的1 0 0 0 0 个事物中,数据显示6 0 0 0 个顾客事务包含计算机游戏,7 5 0 0 个事 务包含录豫,而4 0 0 0 个事务同时包含计算机游戏和录象。假定发现关联规则鼢 数据挖掘程序在该数据上运行,使用最小支持度3 0 ,最小置信度6 0 。将发 现下面的关联规9 1 l ; b u y s ( x ,“c o m p u t e rg a m e s ”) = b u y s ( x ,“v i d e o s ”1 s u p p o r t2 4 0 ,c o n f i d e n c e26 6 1 以上规则是强关联规则因而向用户报告,因为其支持度是4 0 0 0 1 0 0 0 0 = 4 0 , 置信度为4 0 0 0 6 0 0 0 = 6 6 ,分别满足最小支持度阗值和最小置信度闽值。然而, 以上规则是误导,因为购买录象的可能性是7 5 ,比6 6 还大。事实t ,计算 机游戏和录象是负相关的,买其中种实际上减少了买另一种的可髓性。不完 全理解这种现象,可能根据导出的规则作出不明智的决定。 显然,j = 面的这个例子表明,基于a p r i o r i 算法从脾胃类方剂库d b 中抽取 的关联规则单药a = 单药b 的鼹信度有时候具有一定的欺骗性,它只仅仅是 给定单药a ,单药b 的条侔概率的估计,不代表a 和b 之间蕴涵的实际强度。 要挖掘出真正有趣的单药间的联系,霰要寻找支持度置信度框架的替代评价尺 度。 6 从关联分析到相关分析的转移 不可否认,基于a p r i o r i 算法使用支持度一簧信度框架从脾胃类方剂库d b 中 抽取的关联规则有许多是价值的。同时,我们也注意到支持度置信度也可能误 导我们得出一些错误的结论。本质上,如果单药a 在一个方剂中的出现并不蕴 涵单药b 的出现时,那么规则单药a = 单药b 是有趣的。我们对支持度置信 度框架在脾胃类方剂库d b 上豹一种替代方案,就是要充分考虑到脾胃类方荆 库d b 中单药间的相关性。 不难分析得出,当单药a 在脾胃类方剂库d b 方剂记录集上的出现独立于 单药b 时。有p ( a u b ) = p ( a ) p ( b ) ,如果两边不等,那么单药a 和单药 b 在脾胃类方剂库d b 方剂库中是依赖的和相关的。其中单药a 和单药b 在脾 胃类方剂库d b 方剂摩中的相关性可以通过下式来计算度量: r e l a t i o n a b = p ( a u l 3 ) p ( a ) p ( b ) 9 必川大学硕士学位论文 当r c l a t i o n a b 的值大于l 时,则单药a 和单药b 是j f 相关的,其物理意义就是 肖单药a 在脾胃类方剂库d b 方剂库中每一次出现都蕴涵着单药b 的出现。当 r e l a t i o n b 的值小于l 时,耍l 【i 单药a 和单药b 在脾胃类方剂库d b 方齐l j 库中是负 相关的。而当r e l a t i o n ab 的值等于1 时,单药a 和单药b 是在脾胃类方剂库d b 方剂库中是独赢的,它们之间没有相关惟。 3 2 古中药复方方剂的组成单药闯依赣性判定 针对传统的a p r i o r i 算法,我们改进和重新设计了算法。 3 2 1 中药复方方剂的组成两昧单药依赖性基本概念 定义l ,设p ( c 。) 为单药c ,c :同时在脾胃类方剂库d b 记录集上出现的概 率,p ( c ,) ,p ( c 2 ) 为单药c 1 ,c :分别在脾胃类方剂库d b 记录集上出现的概率,则称 满足( 1 ) 式的i n d e p e n d e n c e ( c i ,c 2 ) 为古中药方剂的组成两味单药问q ,c :的依赣性 估计( i n d e p e n d e n c ee s t i m a t e ( i e ) ) 。 i n d e p e n d e n c e ( c 1 ,0 2 ) 2 p ( 。,c :) j 。g p j j c 揣p ( 1 ) 7 【 1j 【c2 , j ( 1 ) 式中,对数前的p ( c l ,c 2 ) 为频繁因予,使l n d e p e n d e n c e ( c l ,c 2 ) 的值不仅能够 体现单药c :在脾胃类方剂库d b 记录集上组合成药队、药组出现时的频率特 性,即支持度特性,而右半部分能体现单药c i c :在脾胃类方剂库d b 记录集上 p ( c i ,c 2 ) 和p ( c ,) ,p ( c :) 的比值特性,即相关性特性。 令l n d e p e n d e n c e ( c l ,c 2 ) 来度量脾胃类方荆库d b 中方荆的组成两味单药乳c , 间依赖性,对( 1 ) 式分析得出以下性质: 住质1 设p ( c ,c :) 为单药c ,c :同时在脾胃类方剂库d b 记录集上出现的概率, p ( c 1 ) ,p ( c 2 ) 为单药c 2 分别在脾胃类方荆库d b 记录集上出现的概率,则 0 旧川人学硕卜学位沦文 p ( cl ,c2 ) r a i n ( p ( ci ) ,p ( c2 ) j , m i n p ( c 1 ) ,p ( c2 ) ) 值为p ( c1 ) ,p ( c2 ) 值的最小值 崦东南告叶o 。,忡, l n d e p e n d e n c e ( c 1 ,c 2 ) ( ,+ ) i n d e p e n d e n c e ( c i ,c 2 ) 值越大,脾胃类方剂库d b 中方剂的组成两昧尊药cc ,c 2 之 f h j 的依赖性越强。 性肛e2 当揣一,刚。g 揣 i n d e p e n d e nc e ( c l ,6 2 ) = 0 时,该状态称为 脾胃类方剂库d b 中方剂的组成两味单药q ,c :之、日j 的临界点。 当东赫 剐。g 篇赫 o ,娥p 踟蛐咖啉 亥状态称为脾胃类方剂库d b 中方剂的组成两味单药q ,吐正相关。单药q ,c :之 阃具有强依赖性。 当揣 l ,目口l 。g 揣o ,i n d e p e n d e n c e ( f :,乞) 。时, 该状态称为脾胃类方剂库d b 中方剂的组成两味单药单药q ,乞负相关。单药 c 。,c 2 之间具有弱依赖性。 当上燃斗懈,即l o g 旦盟22 寸佃 一p ( c ,) p ( c :) 。页可页万一 l n d e p e n d e n c e ( c 1 ,c 2 ) 一十时,该状态称为脾胃类方剂库d b 中方剂的组成两味 单药单药c ,c :绝对相关。单药c i ,c :之间具有绝对依赖性。 当揣,即糕一m i n d e p e n d e n c e ( c i ,c 2 ) 。一。时,该状态称为脾胃类方剂库d b 中方剂的组成两昧 单药单药c 】,岛不相关。单药q ,c ,之间无依赖性。 四川大学硕上学位论文 3 22 中医复方方剂的组成多昧单药间依赖性多维推广 为了探索中医复方方剂的组成多味单药间依赖性,我们引入多维依赖性概 念。 定义2 发p ( c l c,c 。) 为单药c ,c :,巳,同时在脾胃类方剂库d b | 己录集上出 现的概率,p ( c ) ,p ( c ,) ,p ( c 。) 为单药c ,吐,c 。分别在脾胃类方剂库d b 记录 集上出现的概率则称满足( 2 ) 式的l n d e p e n d e n c e ( c i ,c p ,c 。,) 为脾胃类方剂库 d b 中方剌的组成单药阳jc ,c ,的依赖性估计( i n d e p e n d e n c ee s t i m a t e ( i e ) ) 。 l n d e p e n d e n c e ( c l ,c 2 ,c 。) 刊,吨舞蒹誊翳 令i n d e p e n d e r e e ( c 1 ,c 2 ,c 卅) 来度量脾胃类h - 齐j j 库d b 中方剂的组成单药 c l ,c p 、c 。问依赖性, 移然,( 2 ) 式和( 1 ) 式具有相同的性质i ,2 。 定义3 设p ( c ,c ,c 。) 为单药q ,c :,c 。同时在脾胃类方剂库d b 记录集上 出现的概率,p ( c 、) ,p ( c :) ,p ( c ,) 为单药q ,c :,c 。分别在脾胃类方剂库d b 记 录集卜出现的概率, 则称满足i n d e p e n d e n c e ( c l ,岛) 0 , , i n d e p e n d e n c e ( c f ,c 2 ,气) 0 的2 ,3 ,掰维的单药编,c 2 j , c ic 2 , 的集 合称为依赖模式集( i n d e p e n d e n c em o d e ls e t s ) i m s 。 为了揭示上述依赖性估计的物理特性与脾胃类方剂库中组成方剂的单药间 的关联特性的一致,我们推导出了两个定理。 定理1 如果脾胃类方剂库d b 中方剂的组成单药c ;,岛,c 。满足m l 维依赖 性估计l n d e p e n d e n c e ( c ;,c 。c 。) 0 ,则不定满足维依赖性估计 l n d e p e n d e n c e ( c i ,c 。,f 。) 0 。反之,如果脾胃类方剂库d b 中方剂的组成单药 c 1 ,心,c 。满足m 维依赖性估计i n d e p e n d e n c e 】,c 2 ,c ,。) 20 t 也不定满足 m1 维依赖性估计l n d e p e n d e n c e ( c l ,q ,c h ) o 。 证明: l i l t 川入学碳。l 学位论文 步骤l 因o p ( c 】) p ( c 2 ) p ( e ,) p ( c 1 ) p ( c 2 ) p ( c 。一【) 且o p ( a l ,c 2 ,c 。,) p ( c i ,c 2 ,c 。一i ) 则薷嚣高持 :旦! 鱼! 1 21 :! 三g = 12 p ( c f ) p ( c 2 ) p ( c 。一j ) 其中 o p ( c l p ( c 】,c 2 ,c 。) p ( c 1 ) p ( c 2 ) p ( c 。一】) p ( cj ,c 2 ,c 。) p ( c i,c 2 ,c m i ) ,0 。) p ( c 1 ,c2 ,c 。一i ) 1 分析: 当i n d e p e n d e n c e ( c l ,c 2 ,一i ) 2 0 时,必满足条件 o 如果 则 p ( c i ,f2 ,c 。f ) p ( c i ) p ( c 2 ) p ( c 。一j ) p ( c i ,c 2 9 o 9c 。j ) l p ( c 1 ) p ( c 2 ) p ( c ,1 ) p ( c l ,c2 ,c 所一1 ) p ( c l ,c 2 ,f 卅) p ( c i ) p ( c2 ) p ( c 。一i ) p ( c i ,c2 ,c 。一f ) 则可能育 p ( c 1 ,c 2 ,c 。) p ( c i ) p ( c2 ) p ( c 。) ( 1 即可能有l n d e p e n d e n c e ( c l ,c 2 ,c 。) 0 步骤2 l 四川大学硕士学位论文 因 o p ( c ,) p ( c2 ) p ( c 。) p ( c 1 ) p ( c2 ) p ( c 。一1 ) 且 o p ( f l ,c2 ,c 。) p ( cj ,c2 , cm i ) 则 _ 丛 尝鼍共 p ( c 1 ) p ( c2 ) p ( c 1 ) p ( c l ,c2 ,c 。) 一 p ( c 1 ) p ( c2 ) p ( c 。一1 ) 其中0 p ( c ,) 1 焉p 鬣p 端p “ ( c i ) ( c2 ) ( c 。) 一” 分析: 当i n d e p e n d e n c e ( c i ,c 2 ,c 。) 0 时,必满足条件 贯p 等蒜p 豸持p t ( c1 )( c2 ) ( c 。) 7 髁薷鲁卺端= 则 则可能有 即可能有 由步骤1 证毕。 o j 喽竽秧p ( c ,) l 0 页万页习j 丽了 q 薷p p 茜端p ( c 1 )( c2 ) ( c 。一i ) 、1 i n d e p e n d e n c e ( c l ,c ! ,一1 ) 0 2 町知定理l 成立 定理2 脾胃类方剂库d b 中方剂的组成单药c 。,c 2 ,满足m 维依赖陛估计 i n d e p e n d e n e e ( c l ,c 2 ,c 。) 0 , 且同时满足m l 维依赖性估计 1 4 四川人学硕士学位论文 i n d e p e n d e n c e ( c l ,c 2 ,c 。1 ) 0 时,则维和m i 维依赖降估计必满足条件 i n d e p e n d e n c e ( c l ,c 2 ,c 。1 ) i n d e p e n d e n c e ( + i c p c 。,) + p ( c1 ,c2 一,c 。) l o g 望! ! l ,! ! ! :! ! ! 二i ! 旦! ! ! ! p ( c t ,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论