




已阅读5页,还剩51页未读, 继续免费阅读
(中医医史文献专业论文)“方证相应”的数据挖掘方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
力狂相应”的数据挖掘方法:丹宄 摘要 y4 6 4 9 2 7 f “方证相应”理论起源于仲景伤寒论,后经历代医家的发挥与实践, 渐趋成熟和完善。其在理论上强调方为证立、方随证转,实践中注重辨主证、 析兼证、抓变证,非常有助于执简驭繁地运用成方,具有很大的临床应用价 值。目前,方证相应的研究已成为中医药领域的热点之一。 随着中医药现代化研究的不断深入,出现了中医药学与现代医学、生物 学、电子信息技术等多种新学科互相渗透的局面,从而使得多学科的中医药 研究成为其学科发展的重要趋势。 近年来数据挖掘技术得到了迅速发展,被广泛应用于包括医药在内的多 种研究领域彳为探索中医药现代化研究的新思路,我们将数据挖掘技术引入 方证相应的研究。数据挖掘能从大量数据中挖掘先前未知的、有效的、可实 用的知识,以利于科学的决策和知识更新。本课题的研究内容主要包括:所 涉方证数据的预处理;系统聚类、模糊聚类、频繁集、对应分析方法的选定 和试验;知识的发现与评价。 , i 本文将就课题研究中涉及的以下问题:方证相应理论、数据挖掘技术、 方证数据的处理、数据挖掘方法等进行论述。、 、 关键词:方证相应数据挖掘“预处理 数据库系统聚类。 、f 模糊聚类频繁集一对应分析 , j 二:互鲨塑壁:塑塑堡堡塑翌鲨堑壅 一一。一 a b s t r a c t t h e t h e o r y o f c o r r e s p o n d e n c e o ff o r m u l aa n d s y n d r o m e r o o t si n s h a n g h a n h m w r i t t e n b yz h a n g z h o n g j i n g i t e m p h a s i z e s t h a tt h ef o r m u l a s c r e a t i n ga n dc h a n g i n gm u s tb ec o r r e s p o n d e dw i t ht h es y m p t o m s i np r a c t i c e ,t o u s et h es e t p r e s c r i p t i o ne f f e c t i v e l y ,t h ek e ys t e p i st o d i s t i n g u i s h t h em a i n s y m p t o m s ,t h es e c o n d a r ys y m p t o m s a n dt h ed e v e l o p e d s y m p t o m s t h e r e f o r e ,i t i s as h o r tc u tt ou s es e tp r e s c r i p t i o n sa c c o r d i n gt ot h i st h e o r 3 b e c a u s eo fi t su t i l i t y , s t u d yo ft h i st h e o r y se s s e n t i a lh a sb e e no n eo ft h eh o tr e s e a r c hf i e l d si nt c m ( t r a d i t i o n a lc h i n e s em e d i c i n e ) w i t ht h ed e e p e n i n go ft h et c m sm o d e r n i z a t i o n s t u d y ,i th a sb e e na t r e n dt o i n t r o d u c es o m en e ws u b j e c t st ot c m sr e s e a r c hs u c ha sm o d e mm e d i c i n e b i o l o g y ,e l e c t r o n i ci n f o m l a t i c s ,e c t i nr e c e n ty e a r s ,d a t am i n i n gh a sm a d e ar a p i d d e v e l o p m e n t a n db e e nw i d e l yu s e dt om a n yr e s e a r c hf i e l d si n v o l v i n gt c m t od i s c o v e ran e w s t u d ym e t h o do f t c m sm o d e r n i z a t i o n ,w ea d o p t e dd a t a m i n i n gt o r e s e a r c ht h ec o f e s p o n d e n c eo ff o r m u l aa n ds y n d r o m ed a t am i n i n g ( a l s ok n o w n a sk n o w l e d g ed i s c o v e r yi nd a t a b a s e s k d d ) h a sb e e nd e f i n e da s ”t h en o n t r i v i a le x t r a c t i o no f i m p l i c i t ,p r e v i o u s l yu n k n o w n ,a n dp o t e n t i a l l yu s e f u l i n f o r m a t i o nf r o md a t a ”a c c o r d i n gt ot h es t u d yt a s k ,w ec h o o s em e t h o d so f h i e r a r c h i c a lc l u s t e r i n g ,f u z z yc l u s t e r i n g ,f r e q u e n ti t e ms e ta n dc o r r e s p o n d e n c e a n a l y s i s i nt h i sa r t i c l e ,w h a t a r ed i s c u s s e di n c l u d et h ep r e t r e a t m e n to fd a t a , e s t a b l i s h m e n to f d a t am i n i n gm e t h o d s ,a n a l y s i sa n dv a l u eo f t h er e s u l t s k e yw o r d s :c o r r e s p o n d e n c eo ff o r m u l aa n ds y n d r o m e d a t a m i n i n g p r e t r e a t m e n to fd a t a h i e r a r c h i c a lc l u s t e r i n g f u z z yc l u s t e r i n g f r e q u e n ti t e ms e tc o r r e s p o n d e n c ea n a l y s i s 2 _二塑堡望堡:塑塑塑堡塑查鲨!壅一一 一 1 月f j 吾 r 方证相应”- 说产生于对方证对应变化规律的研究与实践,其起源于仲 景伤寒论,后经历代医家的不断探索和发展,渐趋成熟和完善,进丽成 为中医方剂辨证的理论基础和临床用方的重要原则之一。昕渭“方证相应”, 即强调方与证的对应,证以方名、方为证立,临床诊疗之中,但见是证则用 是力。我们认为:“方证相应”说既包含了方剂与证候相应的辨证用方,同 时,又包含了以汤方的灵活加减运用为表现形式的辨证用药。无论是辨证用 万还是辨证用药都体现了中医辨证论治特色的诊疗方式,但又各具特点。因 而,对方证相应说的研究已经成为中医基础理论研究的新的热点。 近年来,现代信息处理技术的迅速发展,为整个人类科学的发展产生了 强大的推动作用。本课题的研究目的就是将数据挖掘这一新技术引入方证相 应的研究,通过这新技术方法的应用,来实现对中医方剂中方证相应现象 及内在规律的理论发掘和知识发现。 1 1 有关“方证相应” 1 1 1 “方证相应”的含义 关于“方”方证相应所说的方,不仅是指药物的特定组合,还指有明 确应用指征的药物“,即包括单方和复方。 关于“证”自“证”从中医病症中分化成为一个独立的概念以来,人 们对其认识众说不一,如秦伯未认为“证”是证据,是现象“1 ;任应秋 提出“证”是具有某种性质的诊断结论。1 ;方药中认为凡是与疾病的发 生和发展有关的因素,均属于“证”“3 ;等等。笔者认为,“证”,应包 括:( 一) 用方的指征和证据,包括症状和体征,如伤寒论1 0 1 条“伤 寒中风,有柴胡证,但见一证便是,不必悉具。”“3 ;( 二) 暗指病证之 “方证相应”的数据挖掘方法研究 内在病机,如徐灵胎在伤寒论类方序中“盖方之治病有定,而病 之变迁无定,知其一定之法,随其病之干变万化而应用不爽。”l ,其中 的“方之治病有定”即指方剂与特定嫡机相应;再如吉益东洞在类聚 方) l i p 0 中“夫医之处方也,随证以移。惟其于同也,万病一方;惟 其于变也,一毒万方”1 ,其中的“万病一方”、“一毒万方”显示了 方剂与病机的相应。 关于“方证相应”方证相应指方与证相互对应,有是证则用是方。由 于“方”有单方与复方之分,“证”含外在证候与内在病机。方与证的对 应形式包括:( 一) 方剂与证候相应,如桂枝汤与头痛、发热、恶风、咏 浮而弱、汗自出、鼻呜干呕这一组证候相对应;( 二) 方剂与病机相应, 如桂枝汤与外感风寒表虚相对应。 1 1 2 “方证相应”的理论渊源 张仲景首创方证相应的思想源于伤寒论,张仲景在阴阳学说和整体 观念基础上,将临床杂乱无章的症状、体征联系起来,综合分析归纳为 各具特征的1 1 3 个方证。论中所言柴胡证”、“桂枝证”,即是以方名证, 是方证相应理论的主要组成部分。 孙思邈明确提出有人认为,伤寒论经王叔和撰次而“证方相离”, 不利于对经文的学习和实践。正如唐代逊思邈在千金翼方中指出: “旧法方证,意义幽隐,乃令近智所迷,览之者,造次难悟。”故采用“方 证同条,比类相附”之法进行研究,以使方随证立,证随方呈。至此, “方证相应”被正式提出并得到诸多医家的积极响应,宋代伤寒家朱肱 便对此作了更为明确的阐述,他将方证简称为“药证”,说:“所谓药证 者,药方前有证也,如某方治某病是也”,并指出“须是将病对药,将药 合病,乃可服之”。一, 一 :查堡塑鏖:塑塑堡垫塑垄! 圭婴塞 明清医家的发挥明清以来,越来越多的医家开始重视“方证相应”的 探索j 应用,其中最有影响的当推喻昌、柯琴和徐大椿。喻氏将方证相 应通俗地解释为“有是病即有是药,病千变,药亦千变”。:柯氏则高 度评论了方证相应的思想,“仲景之方,因病而设,非因经而设,见此症 便与此方,是仲景活法”1 ,所著伤寒来苏集以方类证、以方名证、 方不拘经,大大深入和发展了方证相应理论;徐灵胎在其伤寒论类方 中明确提出:“不类经而类方”,认为“方之治病有定,而病之变迁无定, 知其一定之法,随其病之千变万化而应用不爽”m ,。 吉益氏发扬日本著名汉方医家吉益东洞对方证相应的理论极为推崇, 认为“伤寒论唯方与证耳”;“医之方也,随证而变,其于证向也,万 病一方,其于证变也,一病万方”。所著类聚方以方证为核一心对伤寒 方进行了深入研究,提出了按方类证、定方定证、多方合用的诊疗原则 ”,这些观点至今对日本汉方医学产生着深远的影响,不但是古方派的 理论基础,也成为日本现代汉方研究重要的理论指导,以此为切入点来 探求方与证的实质,使方证相应的传统诊疗原则更具有科学性和客观性。 近现代发展近现代,方证相应说一直是指导中医临床选方用药的重要 原则之一。曹颖甫、陆渊雷、祝味菊、恽铁樵、包识生、范文甫等医家 在l i 缶床上广泛开展的方证研究与实践,为方证相应理论的发展做出极大 贡献:岳美中、吴佩衡、范中林、胡希恕等在方证识别方面也积累了宝 贵经验“”;近年来,随着人们对方证相应理论认识的不断深入,有学者 提出了“方剂辨证”的概念“,这一新的辨证思维模式实质上是以方证 相应为基础的理论拓展。 10 1 3 “方证相应”的研究意义 充实和发展“方证相应”理论 “方证相应说自仲景开创以来,得到 “方证相应”的数据挖掘方法研究 了磺多医家尤其是伤寒家们的发挥和实践,并逐步发展成为一门相对独 立的学说。因它独特的辨证模式和灵活的辨汪原则,而在中医辨证论治 体系中,占有举足轻重的地位。而采用数据挖掘这一新的研究方法来探 讨方证相应的理论精髓,是发展和完善方证相应学说的有效途径之一, 电是实聊该学说在研究方法上的质的突破。 i l l 深化方剂配伍与应用的研究方剂配伍的研究不应只局限于药物间的君 臣佐使、七情合和、气味组合、升降相因等配伍关系,更要推广到方剂 配伍与方剂应用的相关性研究,来探讨方与证之间的相应模式及其对应 变化规律。自古方不离证、证不离方,以方识证、以方测证,是通过方 剂对迁候的间接研究,而通过对方证实质的研究,同样可以间接地认识 方剂的功效、作用机理。 指导中医临床择方用药方证相应是中医临证选方的重要原则之一,是 方剂发挥临床疗效的关键所在,也是准确、有效地运用成方的一条捷径。 方证相应的研究有助于增强临床工作者对方证、药证的识别能力,规范 其渗断和治疗的临床操作过程,使方证相应这一指导原则更容易被掌握 和运用,以提高中医药治疗疾病的临床疗效。 筛选有效、特效方药从方与证之间的联系性和规律性出发,通过多种 方证对应模式的研究,筛选出针对性强、应用指征明确、疗效显著的方 剂或药物,为中药新药开发提供理论和事实依据,以避免当前中药开发 领域出现的盲目、重复现象。 1 2 有关“数据挖掘” 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各 种数据是存储在计算机的数据库中的,然后发展到可以对数据库进行查询和 访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个 方证相应”的数据挖掘方法研究 更高级州阶段,它不仅能对过去的数据送行查询和遍历,并且能够找出过去 数据之间的潜在联系,从而促进信息的传递。 1 2 1 数据挖掘概念及其特点 从“数据挖掘( d a t am i n i n g ) ”一词的提出到现在,人们对其下过很多 定义,如: 数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据中挖 掘有趣知识的过程【1 5 l 。 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知 的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识1 1 ”。 数据挖掘即数据库中的知识发现( k d d ) ,是从大型数据库中提取人们 感兴趣的知识,这些知识是隐藏的、事先未知的、潜在有用的信息,挖掘的 知识表现为概念、规则、规律、模式等形式。 虽然目前对数据挖掘的定义还没有统一,但从以上几个定义中,可以看 出数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别, 数据挖掘是在没有明确假设的前提下进行知识的挖掘和发现;同时,数据挖 掘所得到的知识具有先前未知、有效和实用三个特点。 先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发 现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘 出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是 一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。 有效的信息信息的有效性要求挖掘前要对被挖掘的数据进行仔细检 查,保证它们的有效性,才能保证挖掘出来的信息的有效性。从某种程度来 讲,科学数据的有效性与其它数据相比往往是能得到保证的。 实用的信息最为重要的是要求所得的信息有可实用性,即这些信息或 “方证相应”的数据挖掘方法研究 一一一 知以对于所讨论的业务或研究领域是有效的,是有实用价值和可实现的。常 识性的结论,或已经被人们或竞争对手早己掌握的或无法实现的事实,其意 义相对较小。 1 2 2 数据挖掘的应用范围及作用 “数据挖掘”的字面意思有点类似于在山脉中挖掘有价值的矿藏,此处 引申为从“数据矿山”中找到蕴藏的“知识金块”,起初主要应用于商业活 动,例如市场管理、风险管理和欺诈管理,表现为在大型数据库里面搜索有 价值的商业信息;近年来有学者提出,数据挖掘既然可从大量的商业活动所 积累的数据中挖掘出有用的信息,那么也应该有可能从大量科研活动所积累 的数据中挖掘出我们还未掌握的知识,即新的科学发现,将它应用于对科学 数据的加工,从已有的科学数据库中寻找出新的科学知识或规律。随着技术 发展的深入和相关领域知识的渗透,如在医学、天文学、地学、生物学等多 方面都存在有潜在应用的可能性。 数据挖掘的作用 自动趋势预测数据挖掘能自动在大型数据库里面找寻潜在的预测信 息。传统上需要很多专家来进行分析的问题,现在可以快速而直接地从 数据中间找到答案。一个典型的利用数据挖掘进行预测的例子就是目标 营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有 可能对将来的邮件推销做出反应的客户。 自动探测以前来发现的模式数据挖掘工具扫描整个数据库并辨认出那 些隐藏着的模式,比如通过分析零售数据来辨别出表面上看起来没联系 的产品,实际上有很多情况下是一起被售出的情况。 “与证相应的数据挖掘方法研究 1 2 3 数据挖掘用于方证相应研究的可行性和创新性 当前,各学科研究领域的一个显著特征就是进行多学科的渗透与交融, 但每两种或多种学科的交融渗透并不仅仅是为追求时尚而进行的盲目的交 叉,研究者必需从它们中间发现某些有价值的交融点之后,才能将一门学科 引入到另一门学科的研究。我们之所以将数据挖掘技术引入方证相应的研 究,正是基于了这两门学科之间存在的某些契合点。 数据挖掘应用于方证相应研究的可行性 数据挖掘技术为方证相应研究提供了有价值的研究工具方证相应研 究的关键是如何从大量的事实性数据中发现方剂与证候之间的对应变化 规律,这需要特定的工具才能完成。数据挖掘正是为发现大量数据中所 隐含的未知、有效、实用和规律性信息而问世的。 中医方证所涉及的数据内容和特点符合了数据挖掘的条件数据挖掘 针对的是海量数据,要求被研究数据要有足够数量。而方证相应学说自 东汉仲景以来,经历了诸多医家的发挥和实践,再加之现代学者们不同 角度、不同层次的研究,已经积累了数量巨大的事实性数据,这使采用 数据挖掘方法研究方证相应成为可能。 数据挖掘方法的日趋成熟为方证相应研究提供了技术保障经过十多 年的发展,数据挖掘的相关技术方法,如人工神经网络、决策树、遗传 算法、近邻算法、关联规则等已经成为成熟,稳定,且易于理解和操作 的技术系列,并成功地应用到了各个学科领域。 中医药数据库的大量涌现为数据挖掘奠定了基础目前已投入使用或见 诸文献报道的这类数据库有2 0 余种,主要包括方剂数据库、中药数据库、 中成药数据库、文献数据库、等等,这些数据库的研制为方证相应的数 据挖掘提供了较高质量的数据信息,从而增强了数据挖掘的可行性和可 靠性。 “方证相应”的数据挖掘方法研究 数据挖掘应用于方证相应研究的创新性 数据挖掘方法的研究结果是先前未知的新知识 该方法所得到的研究结 果无法预测,结果越是出人意料,其意义越大。而实验和临床研究目标 股是验证预期结果,结果与预期越相符,意义越大。因此,对数据挖 掘方法的采用,是巾医药研究领域中的一种方法创新。 数据挖掘能解决一般研究方法无法解决的复杂问题方证相应强调的 是方为证立、方随证转,但由于方荆内药物配伍及方汪关系的多层次、 多交叉和多变性,使得研究内容非常复杂。这是采用动物实验的整方研 究、拆方研究无能为力的。数据挖掘可以用多种算法来实现其分析模式 的建立,以适应不同的需求,并解决许多传统研究方法难以解决的问题。 与其它方法相辅相成,协同进行方证相应理论的研究根据挖掘对象的 不同,数据挖掘需要其它方法为其提供准确可靠、足够数量的数据,而 且数据量越大,数据质量越高,数据挖掘的结果也越科学。同时,数据 挖掘的结果又为临床和实验研究提供了重要的研究线索和思路困此, 数据方法与其它方法互为所用,紧密结合,能够促进方证相应研究的深 入发展。 总之,将数据挖掘方法引入方证相应的研究是祖国传统医学发展的需 要,也是中医药学现代化和信息化的发展趋势。该方向的研究是对中医药现 代化研究新方法的尝试,也是多学科交叉渗透的必然,它将会为丰富和完善 祖国传统医学产生积极的意义。 “查至塑壁:塑塑塑堡塑互鲨婴薹一 一一一 10 2 4 数据挖掘的过程 6 0 5 0 4 0 3 0 2 0 1 0 o 图表1 数据挖掘的步骤 鬟 霪l j 5 、熏 藤_ 攫 ;一 黪jj 。 ? 一 “ ;_ 黧 滋誓l 嚣j jc i l 孔i ,* * ” = 心h ,。? 。强9 登 鎏 甏羹辫。蒸i 爱囊i 蘩慧鬟瓣糕鼍 ;| | 萋 鬻獭圈隧黪麟| 羚+ :麟图l 在数据挖掘中被研究对象是整个过程的基础,它驱动了整个数据挖掘过 “万证相应”的数据挖掘方法研究 程,也是检验最后结果和指引分析人员完成数锯挖掘的依据和顾问。图表i 备步骤是按一定顺序完成的,当然整个过程中还会存在步骤间的反馈。数据 挖掘的过程并不是自动的,绝大多数的工作需要人工完成。图表2 给出了各 , 骡在整个过程中的工作量之比。可以看到,6 ( ) 的时间用在数据准备上, 数据挖掘的具体实施仅占总工作量的1 0 。这说明数据挖掘对数据的要求十 分严格。 过程中各步骤的大体内容如下: 1 确定研究对象 清晰地定义出研究对象,认清数据挖掘的目的是数据挖掘的重要一步。 挖掘的最后结构是不可预测的,但耍探索的问题应是有预见的,为了数据挖 掘而数据挖掘则带有盲目性,是不会成功的。 2 数据准备 1 ) 数据的选择 搜索所有与研究对象有关的内部和外部数据信息,并从中选择出应用于 数据挖掘应用的数据。 2 ) 数据的预处理 研究数据的质量,为进一步的分析做准备,并确定将要进行的挖掘操作 的类型。 3 ) 数据的转换 将数据转换或统一为适宜于挖掘的形式,并通过挖掘算法建立一系列分 析模型。合理的挖掘算法的分析模型的研制是数据挖掘成功的关键。 3 数据挖掘 对所得到的经过转换的数据进行挖掘,除了完善从选择合适的挖掘算法 外,其余一切工作都能自动地完成。 4 结果分析和知识的同化 解释分析得来的结果,并评估结果的价值所在,将分析所得到的知识集 4 “方证塑查! :塑墼塑篓塑查望婴窒 一一一 一一一 成到研究对象的组织结构中去,以实现数据挖掘所得知识的效用性。 2 数据的准备 数据挖掘是一个过程,而数据准备则是这,卜过程的核心。数据的准备需 耍解决以下| 、口 题:根据研究目的选择数据:如何处理表示形式不适二当的数据; 如何处理没有被完全清洗的数据;如何创建数据表。 2 。1 确定主题和选择数据 数据挖掘的第步是提出要解决的问题,也就是确定研究目的和主题。 本课题的研究对象是从中医大辞典方剂分册中筛选出的治疗脾胃病的类 方1 3 5 5 首,研究目的是发现方证相对的规律性。具体包括:根据方剂中药 物组成的数据,分析治疗脾胃病的药物在性昧上有哪些特征、在功效上有哪 些特征;根据方剂主治证候的数据,分析脾胃病证候的特点;病机与药物有 哪些关联特征;病机与证候的关系;病机与药物间的关系。因此需要分析的 数据就包括:药物的性味、药物的功效、证候、病机以及它们之间的关联。 根据“方证相应”的涵义,我们所确定的脾胃病类方的入选条件为: ( 一) 方与证齐全。只有药物组成没有主治证候,不能入选,只有主治 证候没有药物组成的也不能入选,以此来保障所需数据的完整性; ( 二) 主治证候以脾胃脏腑的病症为主。此组方剂主要来实现对“方症 相应”、“药症相应”的研究: ( 三) 基本病机与脾胃相关。此组方剂主要用来研究“方剂与病机相应”, 以发现“同病异治”、“异病同治”的规律; ( 四) 主治病证名为“脾”、“胃”、“脾胃”、“大肠”者。“方与病相对”、 “药与病相对”通过本组方剂来研究; ( 五) 方名冠有“脾”、“胃”、“脾胃”、“大肠”,而不是治疗脾胃病证, “查垩塑堡:塑鍪塑塑塑夏望婴茎 其治法! 、_ 是从脾胃入手的:疗剂。借此类方可研究“方剂与冶法的相应”。 2 2 数据的预处理 在对各种数据进行分析前,必须做到数据的质量要符合数据挖掘的要 求,因此有必要对某些数据做加工处理,以使其被相应的数据挖掘方法认可 并接纳。由- i i 妄药理论形成的特殊的文化背景和哲学体系,导致了它的诊 :宁理论和行为的多元化和个性化,历经几千年,虽然积累了大量的描述性数 据,但由于这些数据的模糊性、不确定性强而未能得到很好的利用。如果用 数据挖掘方法来研究中医药,必须对所选择的数据进行预处理。方i 正* - i i 应需 要规范的数据包括症状、病机、病名、药名、功效、剂量等等中医理论体系 的基本元素。 描述性数据的规范【1 8 1 + 【2 5 1 祖国医学历史悠久,发展过程中融合了哲学、理学、佛学等等多种学科, 在学术上广泛开展“百家争鸣”,形成了至今内容广博、学派众多的中医药 理论体系,因此导致了不同派别、不同医家对某些问题的认识不致;再加 上中医学描述性语言多来源于自然语言,从而使中医学描述性数据存在如下 几个现象: ( 一) 一词多义。指一个名词概念有多种解释,如症状描述中的“眩晕”, 既指头昏、头晕,又指目眩,还可以指眩晕并见;再如功效描述中的“散结” 一词,既可以指散有形之痰结、瘀结,又可指散无形之气结如结胸证、痞证。 ( 二) 多词一义。指概念的内涵相同或相近,但其表述各异,这种情况 较普遍,如下列对大便异常的描述,“便溏”、“大便溏薄”、“大便溏”、“大 便溏烂”、“大便稀薄”、“大便稀”、“大便不成形”等;再如对药物功效的描 述中的一系列同义词,“祛瘀”、“化瘀”、“散瘀”、“行瘀”、“通瘀”、“消瘀” 等。 1 6 “塑塑窑:塑墼塑望塑互鎏堡壅 一一 一一 ( 三) 词义模糊。指概念的具体涵义不明确、模楞两可,如“面自”可 以指面色淡自、面色苍白、面色咣白,再如补l 肾”,可以理解为补肾阳、 补肾阴、补肾气。 ( 四) 词义交叉或涵盖。指两个或多个词在含义上有交叉或涵盖,如“活 血化瘀,与“活血行血”交叉的含义有“活血”;再如“胸痞满”、“胸痞满”、 “胸满闷”、“胸痞闷”、“胸闷”、“胸痞”。在词义上有重叠,“胸痞闷”可以 涵盖“胸闷”、“胸痞”。 由于以上问题的存在,使得中医药信息中存在大量的不规范、重复、无 效的数据,为减少这些数据对数据挖掘的不良影响提高所有事实性数据对 数据挖掘的可利用度,必须对其中的一些数据进行“清洗”、“过滤”、“整形”, 针对以上问题,分别采取了相应的处理措施: ( 一) 针对一词多义现象,参考中国中医药主题词表、中医症状鉴 别诊断学( 第二版) ,将词义做明确的规定,或分解其含义后再分别定义, 或对其它含义赋予新术语。如“眩晕”,中国中医药主题词表的解释为“眩 是眼花,晕是头晕,统称为眩晕:轻者闭目即止,重者如坐舟车,旋转不定, 不能站立,或伴有恶心呕吐,甚者昏倒”。此种解释的不妥之处在于,当单 独的目眩或头晕出现时,用“眩晕”来表达则不明确,因此我们将眩晕定义 为头晕,对它的另外一个意思,则用“目眩”来表达。 ( 二) 对于多词一义,首选中国中医药主题词表做规范,次按中 医症状鉴别论断学来统一,如上述相近于“大便溏”的词条,在中国中 医药主题词表中没有一条入选,按中医症状鉴别论断学的命名,应为 “大便溏”,故将所有近义词统规范为“大便溏”;对于中药名称的规范则 首选中华人民共和国药典2 0 0 0 版,次选中国中医药主题词表,再次 选中药大辞典。 ( 三) 对于词义模糊,有的需要以上述两书为标准;有的需要查阅原文 来确定词义:有的通过以上两种途径仍确定不了暂时保留,但不参与结果的 “方证相应”的数据挖掘方法研究 分析。 ( 四) 词义交叉或涵盖,采用分解词义,组合表达的方法。分解词义就 是将文字信恩拆解成不可再分割的具有独立内涵的最小的基本信息单位,以 期所有的词义的表达都可通过这些基本信息单位的组合来实现。这样不仅可 以减少词义的重叠,还可以从整体上看到每一信息系统的整体结构。如“清 热化痰”、“清热燥湿”、“清热凉血”、“燥湿化痰”,四个词在词义上有重叠, 我们将其分解为“清热”、“化痰”、“燥湿”、“凉血”四个基本信息单位,通 过两个或两个以上的组合可以表达多个意思。如果不拆分,“清热化痰”、“清 热燥湿”、“清热凉血”、“燥湿化痰”虽然在词义上有共性,但在数据上它们 是完全不同的,因为它们分别为独立的信息单元,而分解组合后的数据,则 能将其共性与个性表达得更准确、更全面。 通过以上的规范措施,对参加分析的信息规范结果简述如下: 药物药物的信息包括正名、别名、四性、五味、归经、功效、常用剂 量范围、禁忌,各项内容以中华人民共和国药典2 0 0 0 版为准进行文 本的标准规范,以中药学五版教材、中医大辞典中药分册、中药 大辞典为补充规范。四性有“大寒、寒、平、温、微温、热、大热”, 五味有“辛、甘、淡、酸、涩、苦、成”,归经有“肺、大肠、胃、脾、 心、小肠、膀胱、肾、心包、三焦、胆、肝”。药物的性味归经,分别为 独立的最小信息单元,不必再对其进行拆分。功效的信息进行系统解析 后,拆分为1 1 7 个数据单元,通过这个1 1 7 个数据的组合来实现信息的 完全表达。药物的基本信息收入基本药物表中,并建立了规范功效与非 规范功效对照袁,并可根据需要随时做修改与扩充。如下图所显示( 部 分) : “方证相应”的数据挖掘方法研究 分亚类药别名功效昧昧昧归归归归四母最高 最低 备注 类 名 123经 经 经 经性 剂量剂量 1234 补补血阿驴皮胶补血甘肺肝肾 亚 o 39 虚药胶止血 药养阴 安胎 陛 消食阿 臭阿魏消积苦 奎 肝 脾罔 温0 91 5 药 魏 杀虫 酾 解毒 图表3 基本药物表 规范功效 非规范功效 养阴滋阴 祛瘀 行瘀,通瘀,破瘀,消瘀,破血 祛痰 行痰,涤痰,消痰 逐水 泻水,攻逐水饮 泻火 泻热,泄热,降火 化积 消积,破积,消滞,化滞,破滞,导滞,荡积滞 催乳 通乳,下乳 疏肝 疏肝解郁 升阳 升提,升阳举焰j 利湿 渗湿利水,行水,利水渗湿 图表4 规范功效与非规范功效对照表 证候证候的规范以中医症状鉴别诊断学中的6 2 3 条症状为基础,在 系统性、科学性、规律性和实践性原则的指导下,进行必要的补充、删 繁,症状兼容的,予以分割;内容重复的予以合并;无实际临床意义的, 予以删除。通过以上的修整规范,到目前为止,共形成了1 3 5 0 条基本症 状单元,并建立了基本症状表,可以随时修改与扩充。如下图的部分显 一 :查堡塑鏖:塑堑塑堡塑塑蓬婴墨 不 2 3 数据库的建立 图表5 基本症状表 数据的转换是将处理过的数据转换成能被数据挖掘工具直接读取利用 的数据,包括将数据读入数据表,建立各数据表间的联系。 根据所要分析的数据( 药物的性味、药物的功效、证候、病机、治法) 的特征和各数据间的联系,我们选择在a c c e s s 数据库中创建了方剂表、药 物组成表、主治证候表三个主表,三个主表通过方剂的代码连接,在药物组 成表中又创建了基本药物予数据表,在主治证候表中又链接了基本证候子数 据表,各表的结构字段如图: “方证相应”的数据挖掘方法研究 别病 备 编号 方名出处病机煎制法服用法 名名注 2 8 4丁附汤证治要诀类呕 中脘停寒水煎日服二次 方卷一 吐 8 0 4 9理中加 景岳全书吉方呕中脘停寒 水煎日服三次 丁香汤八阵卷五十八吐 3 6 7 3益术丸丹溪心法卷嗜中脘宿食留饮水泛为 每服七十 j 1 = 了 杂 九 丸,姜汤 送下。 图表6 方剂表 编号原始症状 规范症状 1 8 4物入吐出 呕吐 2 8 4喜食辛热 喜食异物 8 0 4 9呕吐 呕吐 8 0 4 9喜辛 喜食异物 3 6 7 3嘈杂 嘈杂 3 6 7 3或口吐清水 呕吐 1 3 6 7 3吞酸 吞酸 3 6 7 3脘痛 胃脘痛 图表7 主治证候表 “方证相应”的数据挖掘方法研究 l 编号处方名正名剂量炮制 1 2 8 4附子附子缺两 f 2 8 4丁香丁香 缺两 2 8 4 青皮 青皮缺两 f 2 8 4陈皮橘皮 缺两 5 2 8 4干姜干姜 缺两 l2 8 4甘草 甘草缺两 2 8 4自术白术缺两 f 2 8 4人参人参 缺两 8 0 4 9丁香丁香十粒 f 8 0 4 9炙甘草炙甘草 三两 9 0 4 9炒干姜 干姜三两 炒 8 0 4 9炒白术白术 三两炒 8 0 4 9 i 人参 人参三两 3 6 7 3苍术苍术 一两五钱柑浸炒 l 3 6 7 3炒神曲神曲 三两炒 c 3 6 7 3陈皮 橘皮一两 3 数据挖掘的实施 图表8 药物组成表 这一阶段是整个数据挖掘过程的核心,主要是选择适当的挖掘工具和挖 掘技术对方剂数据进行处理,从而揭示其潜在的规则、模式和趋势等,即知 识发现。 “方证相应”的势据挖掘方法研究 一一一一一一 3 1 系统聚类 3 1 1 概念及应用 聚类分析( c l u s t e ra n a l y s i s ) 研究事物分类的一种统计方法,是宜接比较 样本中各指标( 或样品) 之间的性质,将性质相近的归为一类,性质差别较 大的归在不同类。聚类方法常用的有系统聚类法( h i e r a r c h i c a lc l u s t e r i n g m e t h o d ) 和逐步聚类法( k - m e a n sm e t h o d ) ,前者是先把n 个对象( 样品或观 察指标) 看成n 个类,然后逐步合并,直至n 个对象并成一类为止;后者 是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。通过聚类后, 数据集就转化为类集,在类集中,同一类中的数据具有相似的变量值,不同 类之间数据的变量值不具有相似性。区务不同的类是属于数据挖掘过程的一 部分,这些类不是事先定义好的,而是通过聚类算法采用全自动:芎式获得f 2 6 1 : 通常,聚类过程是数据挖掘过程的第一个阶段。它萏先把数据区分于不 同的类,以便于做进一步的分析。 聚类分析主要是用来分析组成脾胃病类方的药物的分类特征,从分类的 角度研究用药特点。对药物的聚类属于q 型聚类,采用系统聚类法,统计值 主要用距离,所选类方的组成药物4 1 4 味,观察指标有1 17 个功效、1 2 个归 经、4 个性味,如果从所有属性来聚类,由于( o ,1 ) 距阵中的0 太多,聚 类结果不理想,我们分别从功效、性味对药物做了聚类分析,原始数据如下 表( 部分显示) : “方证相应”的数据挖掘方法研究 p 蕊物篓 i 群专ji 舞案露满彝鬣l 薹瓤醚i 粼i 餮蘸垂蘸测翁纂瓤 蕊翁蝼 i 人参 loooo00l l 大枣 ioooo0ol l 黄芪 1o0oo o | 0 0 白术 loooooo o l 党参 1ooo oo10 乳香 o1looo 00 延胡索 o11o ooo o 玫瑰花 o1i o0o0 0 川芎 o110 ooo o 图表9 药物功效聚类原始数据 药名 宴 甘苦酸咸寒 执 温凉平 郁李仁 lll00 0oool 续断 11l0 0oo10 o 香附 l1l oo0oo ol 培膏 ll0oo oooo o 葛根l1o000 oool 升麻 1l0o ooool 0 1 八角茴香 ll0o o0olo o l 莱菔子llo000oo 0l 神曲 llo 0o0ol o0 【韭菜子 lloo o0olo o f 当归llooo o 0 i 1o0 l 莲子 l1o 0oo 0 0 ol 3 1 2 分析结果 图表10 药物性昧聚类原始数据 采用s p s s1 0 0 统计软件,以药物的功效为观察指标,对药物做系统聚 “方证相应”的数据挖掘方法研究 类结果如下:功效聚类结果 阳起石一温肾壮阳 补骨脂一一温肾助阳 韭菜子一温肾壮阳固精止呃 蛇床予一温肾助阳燥湿杀虫 钟乳石一温肺壮阳下乳 莲子养心益肾健脾止泻 山药一健脾胃益肺肾补虚赢 芡实一益肾固精补脾止泻 鸡内金一健脾胃消食滞止遗尿化结石 神曲一消食调中健脾和胃 谷芽一缝脾开胃消食和中 茯苓一利水渗湿健脾和胃宁心安神 生姜皮一行水消肿 赤茯苓一行水利窍 茯苓皮一利水消肿 萆薜一祛风利湿 猪苓一利尿渗湿 泽泻一利水渗湿泄热 茯神一宁心安神利水 半夏一燥湿化痰降逆止呕消痞散结 草果一燥湿除寒祛痰截疟 橘皮一理气健脾燥湿化痰 厚朴一温中下气燥湿消痰 天南星一一燥湿化痰祛风定惊 秦皮一清热燥湿止咳祛痰凉肝明 “方证相应”的数据挖掘方法研究 采用v i s u a lc + + 编程,聚类结果为 性味聚类结果 图表1 1 药物性味聚类结果 “方证相应”的数据挖掘方法研究 功效聚类结果 3 2 模糊聚类 图表1 2 药物功效聚类结果 3 2 1 概念及应用 模糊聚类( f u z z yc l u s t e r i n ga n a l y s i s ) ,采用模糊数学的方法,对带有模 糊特征的事物进行聚类分析,称为模糊聚类。 所谓模糊,主要是指客观事物的差异在中间过渡中所呈现的“亦此亦彼” 性。中医药理论中普遍存在着模糊性概念和现象,原因在于传统中医药学属 于一种经验科学,而人类经验( 包括专家经验) 中存在大量模糊性概念。如 四诊所得的症和证的判断:药物的四性五味、升降浮沉、功效等基本概念等 “方证相应”的数据挖掘方法研究 均具有明显的模糊性。因此利用模糊聚类方法分析脾胃病类方的用药特点t 具有可行性。鉴于中药性味被认为是药物发挥功效的物质基础,我们以性味 为指标,对药物进行了模糊聚类【2 7 】- 【2 9 1 。 3 2 2 聚类结果 红滕 没药 枇杷叶 桑枝 萆薜 j i i 贝母 椿皮 l 苦凉类 牛黄i 白及 j 花蕊石 金樱子 五倍子 罂粟壳 3 3 频繁集 数据挖掘工具中要实现的一个很重要的功能就是关联规则( t s s o c i m i o n r u l e ) 的寻找,关联规则是指寻找在同一个事件中出现的不同项的相关性, 类凉 、jl厂f_、 参 仁 一旦沙麦茹花苡 绿南小竹葛薏 类平苦 厂_l孓i_、 类乎酸 厂_【人_j “方证相应”的数据挖掘方法研究 描述同事件中的不同项同时出现的规律的知识模式。而关联规则找寻的第 一步就是要找到相应的频繁集。 3 3 1 方法简介 频繁集( f r e q u e n ti t e ms e t ) 是关联规则挖掘的第一步,关联规则挖掘是 寻找给定数据集中项之间的有趣联系,通过频繁集叫以发现哪些数据频繁地 被同时使用。本课题中使用频繁集主要是为了挖掘药物与症状、药物与药物、 症状与症状、病机与症状、病机与药物之间有趣的关联 1 5 】。 3 3 2 分析结果 症状频数 1 泄泻腹痛 8 8 呕吐腹痛 7 8 呕吐厌食 7 6 腹痛腹胀 7 0 呕吐恶心5 9 泄泻厌食 5 6 腹胀厌食 5 4 呕吐呃逆 4 9 陋吐腹胀 4 8 腹痛厌食 4 8 腹胀腹满 4 7 【呕吐心下痞满 4 6 泄泻腹胀 4 5 图表1 3 症状频繁集 f2 ,药麟。:搿艇。燃o 自术人参 2 3 2 : 橘皮白术l 2 1 7 + 白术茯苓l 2 1 3 1 白术人参茯苓 l 1 4 2 j 橘皮白术茯苓l 1 3 6 ; 橘皮半夏茯苓l 9 2 1 l 白术人参茯苓甘草 7 8 橘皮白术人参甘草 7 3 自术人参甘草当归 6 0 图表1 4 药物频繁集 i药物症状频数 人参眍吐 1 3 2 白术泄泻 1 15 橘皮腹胀 9 9 橘皮厌食 9 7 半夏眍吐 9 7 木香腹痛 9 1 人参甘草呕吐 7 7 橘皮厚朴腹胀 6 l 白术呕吐泄泻 5 6 白术茯苓泄泻 5 6 当归白芍药腹痛 5 4 白术人参炙甘草泄泻4 8 r 橘皮茯苓半夏眍吐4 3 图表1 5 药物症状频繁集 “方证相应”的数据挖掘方法研究 i童垫堕墼二;主l 羔:塑塑:二。i k-_q-_nt口_ooo_-o一 人参脾气虚 6 3 l 白术脾气虚 5 8 j ;人参白术脾气虚 4 4 1 :桶皮脾气虚 4 3 l 炙甘草脾胃虚寒 1 6 炙甘草人参脾胃虚寒 1 3 炙甘草白术脾胃虚寒 1 2 【白术脾胃虚寒 1 2 干姜脾胃虚寒 】2 j 肉桂脾胃虚寒j 1 2 、。一一一一一l , 图表1 6 药物病机频繁集 。攘状瘸瓤蒜漆k 。+ 褒灏数。黪 泄泻脾气虚 2 7 腹胀脾气虚 2 5 泄泻腹胀脾气虚 1 5 泄泻脾胃虚寒 2 0 呕吐脾胃虚寒 1 6 眍吐泄泻脾胃虚寒1 2 腹痛脾胃虚寒1 3 腹痛脾胃湿热 9 呕吐中焦痰湿8 l 泄泻中焦痰湿 7 图表1 7 症状病机频繁集 “方证相应”的数据挖掘方法研究 3 。4 相应分析 3 4 1 方法简介 十h 9 2 j ) f i ( c o r r e s p o n d e n c ea n a l y s i s ) ,也叫对应分析。是一种在同一个直 角坐标系内同时表达变量与样品
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030非洲滑石精粉加工基地建设可行性分析报告
- 2025-2030青年租客心理健康与社区文化活动设计指南
- 2025-2030隔音节能复合窗市场细分与高端产品定位策略研究
- 2025-2030辅具租赁商业模式创新与市场培育策略专题报告
- 2025-2030费托蜡行业隐形冠军企业技术路线与市场壁垒解密报告
- 2025-2030费托蜡行业产能扩张与供需平衡预测
- 2025-2030费托蜡在新能源电池材料中的应用可能性分析
- 钟南山抗疫精神主题班会方案
- 2025年度果品指定采购协议合同
- 委托代理合同解除流程及范本
- 境外信托合同范本
- 2024届高考二元思辨作文写作指导课件
- 数据治理的数据治理组织与流程
- (高清版)TDT 1055-2019 第三次全国国土调查技术规程
- 个人施工安全免责简单协议书(通用)带详尽条款
- 电梯结构与原理-第2版-全套课件
- SWITCH塞尔达传说旷野之息-1.6金手指127项修改使用说明教程
- 128个护理诊断和措施大全
- 蒋介石-教学讲解课件
- 尿培养标本的留取规范及临床意义课件
- 中山大学2019级本科培养方案修订说明
评论
0/150
提交评论