(计算机应用技术专业论文)中医药数据挖掘系统TCMiner设计、实现与核心技术研究.pdf_第1页
(计算机应用技术专业论文)中医药数据挖掘系统TCMiner设计、实现与核心技术研究.pdf_第2页
(计算机应用技术专业论文)中医药数据挖掘系统TCMiner设计、实现与核心技术研究.pdf_第3页
(计算机应用技术专业论文)中医药数据挖掘系统TCMiner设计、实现与核心技术研究.pdf_第4页
(计算机应用技术专业论文)中医药数据挖掘系统TCMiner设计、实现与核心技术研究.pdf_第5页
已阅读5页,还剩124页未读 继续免费阅读

(计算机应用技术专业论文)中医药数据挖掘系统TCMiner设计、实现与核心技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中医药数据挖掘系统t c m i n e r 设计、实现与核心技 术研究 计算机应用技术专业 研究生李川指导教师唐常杰教授 中华医药有着3 0 0 0 多年的积淀和长期的医疗诊病历史,是中国文化的重 要组成部分。然而,由于中药方剂为具体医疗经验的人工汇总,且为历史的继 承,虽然有广博精深的中医理论作为支持,但传统中医理论为诊病方剂的人为 总结和提炼,其整体性、辩证性、动态性等本质特征过于抽象和定性化,难于 定量和具体的把握。数据挖掘旨在借助计算机强大的存储和计算能力,通过对 分析需求的确切定义和高效的算法设计实现大规模数据库中有效的知识发现, 为中医处方的研究提供了新的途径。四川大学计算机学院和成都中医药大学自 2 0 0 3 年起合作进行了3 年中医药数据挖掘的研究并合作开发了中医药数据挖 掘系统t c m i n e r1 0 。 本文的主要贡献包括: ( 1 ) t c m i n e r 原型设计。设计中医药数据挖掘原型系统t c m i n e r 并实现其第 l 版本t c m i n e r1 0 。首先,介绍中药数据分析方法学与技术路线,其次, 分析中医药方剂多维数据分析的核心需求,再次,讲述t c m i n e r 系统中各 方面的设计问题,然后,勾勒最终t c m i n e r 需实现的系统功能和应当采取 的体系结构,最后,描述高效算法的实现。 ( 2 ) t c m i n e r 核心技术研究。提出t c m i n e r1 0 的核心技术:( a ) 基于基因表 达式编程的数据挖掘,( b ) 基于关联规则的配伍分析,( c ) 基于多维频繁 模式挖掘的主成分分析。 ( 3 ) 基于基因表达式编程的数据挖掘一提出基于s c a l e 的g e p 。s c a l e 支持 一次创建多次使用,解决了动态生成释放e t 带来的时间开销,基于s c a l e 的基因评估算法只需一次遍历s c a l e 即可完成基因的评估,解决了传统方 法重复遍历和重复计算的问题,大大提高了g e p 表达和评估的性能。实 验表明:本文算法较传统g e p 在表达效率上平均快6 - - 1 0 倍,评估速度 平均提高3 5 倍。 ( 4 ) 基于关联规则的配伍分析。提出索引频繁模式树z 即r 和基于胛r 高效 关联规则挖掘算法最近邻优先m v f 。实验表明:( a ) n n f 算法的速度较 l i n e a r 算法快1 个数量级,空间消耗节省1 个数量级,加旧算法较 t r a v e r s e 算法速度提高1 倍,( c ) n n f 算法较a p r i o r i 算法速度提高6 - - 9 倍,且具有更好的可伸缩性。( d ) n n f 在t c m i n e r1 0 中能有效地进行药 物配伍分析。 ( 5 ) 基于多维频繁模式挖掘的主成分分析:提出高效挖掘多维频繁模式的算法 m d i t - m i n i n g ,挖掘多维频繁模式而不生成数据立方。主要贡献如下:( a ) 正式提出多维频繁模式的概念和基于扩充a p r i o r i 性质的剪枝策略,( b ) 提 出多维索引树( m d i t ) 和基于m d i t 的多维频繁模式挖掘算法, j m d i t - m i n i n g ,( c ) 证明m d i t 的空间复杂度是o ( ( 2 勺d ,与维度的势相 互独立,( d ) 实验表明:( i ) 随着数据维度和数据势的增长,m d i t - m i n i n g 的速度较基于数据立方的算法快2 个数量级,( i i ) 在多数情况下,m d i t 的 空间增长较基于数据立方的方法节省4 个数量级,o i i ) m d l t - m i n i n g 在 t c m i n e r1 0 中能有效地进行主药发现。 关键词:中医药、数据挖掘、配伍分析、主成分分析、对应分析、频繁模式、 多维频繁模式、关联规则、多维关联规则 d e s i g n ,i m p l e m e n t a t i o na n dc o r et e c h n o l o g i e s s t u d yo ft c m i n e r m a j o rc o m p u t e ra p p l i c a t i o n s t u d e n tl ic h u a n a d v i s o rt a n gc h 柚鲥i e t r a d i t i o n a lc h i n e s em e d i c i n e ( z 岣,b e i n ga l li m p o r t a n tp a r to fc h i n e s ec u l t u r e , h a sah i s t o r yo fm o r et h a n3 0 0 0y e a r s h o w e v e r , d u et o t h ef a c tt h a tt c m p r e s c r i p t i o n sa r es u m m a r i z e df r o mp a r t i c u l a rt r e a t m e n te x p e r i e n c e sb yh a n d , p a s s e d d o w nf r o mg e n e r a t i o nt og e n e r a t i o n , t h ei n t e g r i t y , d i a l e c t i ca n dd y n a m i cf e a t u r e so f t c m t h e o r ya r et o oa b s t r u s e ,q u a n l i f i e da n dd i f f i c u l tt ob eq u a n t i f i e da n dg r a s p e d d a t am i n i n ga i m sa tr e a l i z i n gt h ee f f e c t i v ek n o w l e d g ed i s c o v e r yf r o ml a r g es c a l e d a t a b a s ew i t hr e s o r tt ot h ep o w e r f u l s t o r a g e a n dc o m p u t a t i o nc a p a c i t yt h r o u g h p r e c i s ed e m a n dd e f i n i t i o na n de f f i c i e n ta l g o r i t h m si m p l e m e n t a t i o na n dt h e r e f o r e p r o v i d ean e wg r o u n df o rt c mr e s e a r c h c o m p u t e rs c h o o lo fs i c h u a nu n i v e r i s i t y h a sc o l h b o m t e dw i t hc h e n g d uu n i v e r s i t yo ft c mi nt c md a t am i n i n gr c s e a r c h s i n c e2 0 0 3a n dd e v e l o p p e dat c m d a t am i r d n gs y s t e mt c m i n e r1 0 t h ec o n t r i b u t i o n so f t h i sd i s s e r t a t i o ni n c l u d e : ( 1 ) p r o p o s i n gt h ep r o t o t y p eo ft c m i n e r :t h ed i s s e r t a t i o nd e s i g n e dt h ep r o t o t y p eo f t c m i n e ra n di m p l e m e n t e di t sf i r s te d i t i o n , t c m i n e r1 0 f i r s t l y , t h et c md a t a a n a l y f i sm e t h o d o l o g i e sa n dt e c h n i q u er o u t i n e sa l ei n t r o d u c e d s e c o n d l y , t h e e o l ed e m a n d so fm u l t i - d i m e n s i o n a lt c md a ma n a l y s i sa r ea n a | y z e d t h i r d l y , t h ed e s i g np r o b l e m so ft c m i n e ra r ei n v e s t i g a t e di nm a n ya s p e c t s t h e nt h e f u n c t i o n a l i t i e sa n da r c h i t e c t u r eo ft c m i n e ri s o u t l i n e d f i n a l l y ,e f f i c i e n t a l g o r i t h m si m p l e m e n t e da 地d e s c r i b e di ng e n e r a l ( 2 ) p r o p o s i n ga n ds t u d y i n gt h ec o r et e c h n o l o g i e so ft c m i n e r :( a ) g e pb a s e dd a t a m m i n i n g ,( b ) a s s o c i a t i o n r u l e sb a s e dt c mp a r i n g a n a l y s i s ,a n d ( c ) m u l t i - d i m e n s i o n a lf r e q u e n tp a t t e r nm i n i n gb a s e dm a j o rc o m p o n e n ta n a l y s i s ( 3 ) g e p b a s e dd a t am i n i n g :1 1 l i sd i s s e r t a t i o np r o p o s e dan o v e lm o d e l ,s c a l e - b a s e d g e p 、i t hv a r i a b l e sm a t r i x g e n e sa l ee x p r e s s e di n t oas c a l ew i t h o u te x p r e s s i o n t r e e sc o n s t r u c t i o n s c a l ei si n i t i a l i z e do n c ea n dc a l lb eu s e dp e r m a n e n t l yw i t h o u t f u r t h e rm a i n t e n a n c e v ,i r i a b l em a t r i xi su s e dt oa v o i dr e p e t i t i v eo p e r a t i o n si n g e n ee v a l u a t i o n 。e x p e r i m e n t ss h o w :( a ) s c a l e - b a s e de x p r e s s i o ni s6 1 0t i m e s f a s t e rt h a ne t - b a s e dm e t h o da v e r a g e l y , a n dc o ) s c a l e b a s e de v a l u a t i o n o u t p e r f o r m se t - b a s e dm e t h o d 3 5t i m e s c o n s t a n t l y a s s o c i a t i o nr u l e sb a s e dt c mp a r i n ga n a l y s i s :t h i sd i s s e r t a t i o np r o p o s e di f p t a n di f p t b a s e da s s o c i a t i o nm i n i n ga l g o r i t h mn n f e x p e r i m e n t ss h o w :萄n n f i sf a s t e rt h a nl i n e a ra tlo r d e ro f m u l t i t u d e a n dt h es p a c ec o n s u m i n gi sl e s sa tl o r d e ro fm u l t i t u d e , n n fi st w i c ea sf a s t e ra st r a v e r s e ,嫡n n fr u n s p 9 t i m e sf a s t e rt h a na p r i o r ia n dh a sf a rb e t t e rs c a l a b i l i t y , a n dt n n fc a nf u f i l l m e d i c i n ep a r i n g a n a l y s i se f f e c t i v e l yi nt c m i n e r1 0 ( 5 ) m u l t i d i m e n s i o n a lf r e q u e n tp a t t e r nm i n i n gb a s e dm a j o rc o m p o n e n ta n a l y s i s : t h i sd i s s e r t a t i o np r o p o s e da ne m e i e n tm e t h o dt om i n em u l t i d i m e n s i o n a l f r e q u e n tp a t t e r n sf r o mt c mp r e s c r i p t i o n sw i t h o u td a t ac u b ec o n s t r u c t i o n t h e c o n t r i b u t i o n sa r e :( a ) f o r m a l l yp r o p o s i n gt h ec o n c e p to fm u l t i - d i m e n s i o n a l f r e q u e n tp a t t e r n , c o ) p r o p o s i n gan o v e lm d l ts t r u c t u r ea n dam d l t - b a s e d m u l t i d i m e n s i o n a lf r e q u e n tp a a e r n sm i n i n gm e t h o d ( m d i t - m i n i n g ) ,( c ) p r o v i n g t h a tt h es p a c ec o m p l e x i t yo fm d l ti so ( ( 乃习,i n d e p e n d e n to fc a r d i n a t i t y , ( d ) e x p e r i m e n t ss h o w :( i ) t h es p e e do fm d i t - m i n i n gi s2o r d e r so fm u l t i t u d e s f a s t e rt h a nd a t ac u b eb a s e dm e t h o d , i i ) t h es p a c eo tm d r ii sm o r et h a n 4o r d e r s o fm u l t i t u d e ss m a l l e rt h a nd a t ac u b e ,( i i i ) m d l t - m i n i n gc a na c c o m p l i s hm a j o r m e d i c i n ed i s c o v e r yi nt c m i n e r1 0 k e y w o r d s :t r a d i t i o n a lc h i n e s em e d i c i n e ,d a t am i n i n g , p a r i n ga n a l y s i s ,m a j o r c o m p o n e n ta n a l y s i s ,f r e q u e n tp a t t e r n s ,m u l t i - d i m e n s i o n a lf r e q u e n t p a t t e r n , a s s o c i a t i o nr u l e s ,m u l t i d i m e n s i o n a la s s o c i a t i o nr u l e s i v 四川大学博士学位论文 1 1 研究背景 第1 章绪论 中医药数据挖掘是近年来在中医药理论研究界和数据挖掘研究界逐步兴起 的研究热点之一,是数据挖掘在中医药数据分析领域的应用,是一个有着光明 前途和远大希望的前沿交叉学科。本节简要介绍中医药数据挖掘产生的背景。 1 1 1 中华医药简介 中华医药,源远流长,博大精深,是国粹,是中华民族的文化瑰宝。在3 0 0 0 多年的发展历程中,中医药逐步形成了相对完整的理论体系和完全不同于西医 西药的独特诊疗方法。在几千年的历史长河中,中医药为中华民族抵御疾病、 维护健康,伴随着中华民族一代代的繁衍生息和发展壮大。中华医药资源丰富, 记载在古中医书中的数十万计的历代验方是几千年来中医医疗诊病实践的真实 记录。中医理论博大精深,相对西医单一的“还原论”而言,中医思想具有“整 体性、动态性、辩证性”三个本质特征,即“天人合一”或“大而化之”的哲 学思想”。 近1 0 年来,随着中药现代化热潮的兴起,中药学的研究取得了长足的发 展,就其工作方向而言,大致呈现如下两种研究路线:( 1 ) 自顶向下的传统中 药学研究方法,强调中药的整体性;( 2 ) 以西化派为主导的自底向上的现代还 原派研究方法,强调中药的动态性和辩证性。前者的研究主要集中在如下方面: ( a ) 系统整理中医典籍,试图用本体方法对之进行重新表达。( b ) 应用统计学、 机器学习、人工智能、数据挖掘等技术对大量临床病例的中医证候进行规范化 和标准化研究,努力制定中药在证、症、剂量、毒性等诸多方面的数字化标准 并最终实现这些概念的量化。( c ) 流行病学、循证医学方法。( d ) 方剂结构研究。 自顶向下研究的共同特点是:研究仍在中医理论框架之内,以“整体论”为指 导,并不打破传统中药理论的黑箱结构,对药方及人体进行整体意义上的研究。 “整体论”思维的主要观点是认为“总体不等于部分之和,总体不仅是个体数 量上的加和,更是结构上的积累;系统的功能不等于组成系统的各部分功能的 第1 页 中医药数据挖掘系统t c m i n c r 设计、实现与核心技术研究 简单相加,研究系统的功能需从总体出发,以综合的观点看待系统的各部分”。 后者的研究工作主要集中于如下方面:( a ) 以实验方法证明中药理论的有效性 和科学性,通过直接的实验验证或间接的理疗验证为原有中医理论赋予现代医 药科学的内涵。( b ) 对证候存在实质的研究。通过实验室的检测指标对证候机 理进行解释并做出相应的定量诊断。目前研究者在五脏证、阴阳证实质等方面 已经进行大量研究,监测指标也从组织、细胞、分子等不同水平逐渐深入,已 进展到建立证的基因表达谱、蛋白质表达谱等研究水平。( c ) 利用各种前沿技 术测定中药及其复方的作用靶点,以期揭示中药的基本作用机理。( d ) 中药及 方剂的现代研究。首先研究单味药,再研究复方、拆方、药对等,其涉及领域 包括中药药性理论、药物在方中的地位及药物体内外药理比较,研究水平从整 体、器官水平到血清药理、细胞、分子水平等等。该研究路线的共同特点是以 “还原论”为指导思想,打破黑箱,使中药白箱化,从中药成分的最低层结构 寻找中药理论体系存在的科学依据。“还原论”的基本假设是:所有的事物均可 以分解还原成“若干要素”,把所有要素相加,即可得到事物的整体。其深层次 假定是:各个要素之间仅存在简单的线性关系,因而可以单独研究各个要素; 只要把各个基本要素的性质和规律加起来即可导出事物整体的性质和规律1 2 1 。 西医西药传入中国仅一百多年的历史,而我国的传统中医药学已经传承、 发展了三千多年,在世界医学中占据着举足轻重的地位,发挥着不可替代的作 用,尤其是中医药在慢性病治疗方面的作用正在得到越来越广泛的国际承认 随着中国加入世界贸易组织o t t o ) ,大量的资金有效的投入到中医药的研发领 域中,大大促进了中医药的发展和创新 3 1 。而且,近年来世界卫生组织也在积 极地推动中医药发展和中医药的现代化进程。可以说,中医中药既是传统的, 也是现代的,既是中国的,也是世界的 4 1 。 1 1 2 数据挖掘简介 1 1 2 1 数据挖掘的目标 第2 页 四川大学博士学位论文 随着大量数据的收集,简单的查询、报告处理已不能满足日益增长的市场 需要。数据挖掘继数据收集、数据库创建、数据提取、事务处理之后成为信息 技术发明的又一领域。 图1 j 信息技术的演化 第3 页 中医药数据挖掘系统t c m i n e r 设计、实现与核心技术研究 信息技术自然演化的进程印证了数据挖掘产生的必然性,如图1 1 所示。 6 0 年代,信息技术开发出原始的文件系统来进行事务处理。7 0 年代网状数据 库、层次数据库诞生并开始流行起来。8 0 年代关系数据库系统得到了飞速发展。 s q l 语言、面向对象技术为数据库应用提供了简单、直观、可靠、友好的用户 界面,访问数据变得十分方便。8 0 年代中期以来,应用新模型的数据库,如扩 充关系的,面向对象的、对象关系的和演绎的数据库,以及特种数据库包括空 间的、时间的、多媒体的、主动的和科学的数据库相继出现。进入9 0 年代, i n t e m e t 的飞速发展进一步形成全球信息系统。为了更好地支持用户决策,数 据仓库应运而生。数据仓库是多个异种数据源在单一站点一致模式的存储。数 据仓库是面向主题的、集成的、时变的和非易失的数据存储,并能很好地支持 联机分析处理( o l a p ) 。联机分析处理( o i a p ) 是一种分析技术,包括上卷、 下钻、切片、切块等操作,具有汇总、合并和聚集的功能,提供用户不同角度 和抽象层观察的数据视图。 图1 2k d d 过程 第4 页 四川大学博士学位论文 海量数据被快速地收集、存入数据库,没有强有力的数据分析工具,大量 的数据没有被充分利用,除简单查询之外,很难从中得到有价值的规律性知识, 形成“数据丰富,但信息贫乏”的局面。致使大型数据库变成了“数据坟墓” 一难得再被光顾的数据档案。用户决策往往根据感觉做出而不是基于数据库中 丰富的数据,难免出现不必要的差错。 为使海量数据发挥其应有的价值,解决数据库知识提取的热切渴望,为用 户决策提供有力支持,数据挖掘应运而生。数据挖掘可以由海量数据库中发现 重要的模式,弥合数据和信息之间的鸿沟,指导实践活动的进行,把“数据坟 墓”变成了知识“金块”,对政府政务、商务策略、科学和医学研究有极其重要 的意义。 1 1 2 2 数据挖掘的概念 简而言之,数据挖掘是由大量数据中通过非一般性方法发现知识的过程, 又称数据库中知识挖掘、知识提取、数据分析、数据考古或数据捕捞。数据挖 掘可被视为另一常用术语“数据库中知识发现”即肋d 的同义语,也可以被 视为k d d 过程的一个基本步骤。k d d 过程包含如下几个步骤: ( 1 ) 数据清理( 清除数据噪音和不一致数据) ( 2 ) 数据集成( 多种数据源的一致模式存储) ( 3 ) 数据选择( 提取与分析任务相关的数据) ( 4 ) 数据转换( 数据转换成适合挖掘的形式) ( 5 ) 数据挖掘( 使用智能方法提取数据模式) ( 6 ) 模式评估( 根据兴趣度,识别有趣模式) ( 7 ) 知识表示( 可视化技术提供挖掘的知识) 数据清理、数据选择到数据转换都可看作数据挖掘的准备工作。数据挖掘 是知识发现过程中最重要的一个步骤。用户在数据挖掘步骤指定感兴趣的模式 描述,通常是兴趣度阈值或者是模型和模板,系统根据用户指示调用数据挖掘 引擎,运行结果返回用户所以,数据挖掘的广义观点认为:数据挖掘是由数 据库、数据仓库或其他信息仓库的大量数据中挖掘用户感兴趣知识的过程。 数据挖掘涉及数据库技术、统计分析、人工智能、算法设计、计算理论、 模式识别、神经网络、数据可视化等多学科技术的集成,发现有趣的模式、知 第5 页 中医药数据挖掘系统t c m i n e r 设计、实现与核心技术研究 识,并提供各个不同的视角。所发现的知识可用于决策、过程控制、信息管理、 查询处理等,是联机分析处理的高级阶段。数据挖掘提供较联机分析更为深入 的统计分析功能,是数据库技术发展最重要的前沿,也是最有前途的数据库新 应用。 1 1 2 3 数据挖掘的功能 总体来讲,根据所发现模式的类型,数据挖掘可以分为两种:描述性数据 挖掘和预测性数据挖掘。描述性数据挖掘意在刻画数据的特性和特征。预测性 数据挖掘在当前数据上进行推断,以进行预测。另外,数据挖掘能够发现各种 位于不同抽象层的模式。这些数据模式由不同的视角为用户提供领域知识,为 用户聚焦有趣模式的搜索带来了方便。具体来讲,数据挖掘功能大略可以归纳 如下: ( 1 ) 概念描述 描述数据的分布是很有意义的。比如,对学生性别、年龄、家庭、学习情 况的刻画可以分别寻找优等生、良好学生、中等生、差生几个类型的特征,并 根据其特征进行区分。用概括的、简明的方式描述每个学生类能够帮助老师和 校方分析影响学生成绩的因素,改善教学环境、提高学生成绩。这种对类的描 述称为概念描述。概念描述可以从如下角度得到: 数据特征化( 汇总目标类的数据,发现特征) 数据区分( 比较目标类对比类,找到差异) 数据特征化和比较( 同时进行汇总和比较) 概念描述包括特征描述与区分描述。特征描述是对数据总体特征的刻画, 旨在发现目标类数据的大致分布特点。区分描述将目标类的特性与对比类特性 进行比较,旨在发现目标类和对比类数据分布的大体差异。 概念描述通常采用的有效方法有: 联机分析处理的上卷操作( 沿着指定维进行数据汇总) 面向属性的归纳( 自动进行数据的泛化和特化) 概念描述通常采用的特征输出方法有: 饼图、柱图、曲线、多维数据方、数据透视表 泛化关系、比较度量、特征规则、区分规则 第6 页 四川大学博士学位论文 概念描述往往是比较一般的轮廓,比如7 0 男同学英语成绩为优良,7 0 背诵古诗的同学语文成绩为优秀。沿着指定维下钻,如4 驴( ,) ,添加新维,如 s t u d y,) ,可以帮助发现两类之间的更多区分特性。 ( 2 ) 关_ h 联a 分b i t 析s ( 关联分析发现展示在给定数据集中属性值出现的关联关系。关联分析广泛 应用于购物篮或事务数据分析。关联分析发现满足用户支持度和置信度的关联 规则。关联规则是形如z jl 即“a j 州。jb j 地”的蕴涵式;其中, a t ( i e l ,肌 ) ,卸 ,棚 ) 是属性一值对。关联规则解释为“满足x 中条件 的数据库元组多半也满足l ,中条件”。 ( 3 ) 分类和预测 分类是通过训练数据集和测试数据集试图发现精度达到一定程度的分类模 型的过程。分类模型的建立能够用来预测类标号未知对象的类。分类模型可以 用多种形式表示,如分类( 胆7 聊) 规则,判定树、数学公式、或神经网络 等。判定树是一个类似于流程图的结构,每个树内结点代表一个属性值上的测 试,每个分枝代表一个测试路经,树叶节点代表类。判定树容易转换成分类规 则。神经网络是线性阈值单元的集合,可以识别不同的类对象。 分类用于预测数据对象的类标号。然而,某些应用中,可能希望预测某些 遗漏或空缺值,而非类标号,通常称预测。预测,通常限于值预测,不同于分 类。数据发展趋势预测,如人口发展趋势,天气预报都属于预测。 为使分类和预测有效和高效地进行,属性相关分析往往是必需的。相关分 析通常通过计算信息增益,试图发现与分类和预测属性有关和有较强相关性的 属性集合,排除不相关或弱相关的属性集合。 ( 4 ) 聚类分析 聚类不同于分类,事先不知道有几个类,聚类分析数据点之间的相似程度, 根据类内尽可能相似和类间尽可能不同的聚类原则对数据对象进行分组并生成 新的类标号。聚类分析广泛应用于客户分析、市场划分、模式识别、数据预处 理等领域。 ( 5 ) 演变和偏差分析 演变分析描述事物随时间变化的规律性或趋势,包括时间相关数据的特征、 区分、关联、分类或聚类,这类分析的不同特点包括时间序列分析、序列或周 第7 页 中医药数据挖掘系统t c m i n e r 设计、实现与核心技术研究 期模式匹配和类似性数据分析。 1 1 2 4 数据挖掘的分类 数据挖掘是一个建立于包括数据库系统、统计分析、机器学习、人工智能、 信息科学等多个领域的交叉学科。同时,哲学、心理学等学科为数据挖掘的发 展导引方向。数据挖掘采用的技术十分广泛,如神经网络、模糊集理论、知识 表示、归纳逻辑程序设计、或高性能计算等。对于不同数据类型或不同应用, 数据挖掘系统还可集成空间数据分析、信息提取、模式识别、图象分析、信号 处理、计算机图形学、w e b 技术、经济、或心理学等领域的技术。 根据不同的角度,数据挖掘系统可以分类如下: ( 1 ) 根据数据库类型分类 不同数据库系统可能采用不同的数据模型,需要不同的数据挖掘技术。数 据挖掘系统就可以相应分类。根据数据模型的不同,有关系的、面向对象的、 对象关系的,或数据仓库的数据挖掘系统。 ( 2 ) 根据应用背景分类 不同的数据库系统有不同的应用背景,需要不同的数据挖掘技术。根据所 处理的数据的不同类型分类,有空间的、时间序列的、文本的、多媒体的、w w w 的、主动的数据挖掘系统。还有异种数据挖掘系统和遗产数据挖掘系统等。 ( 3 ) 根据挖掘的知识类型分类 根据数据挖掘系统所挖掘的知识类型,即根据数据挖掘的不同功能,如特 征、区分、关联、聚类、趋势和演化分析等进行分类。数据挖掘系统还可根据 所挖掘知识的不同粒度或抽象层进行区分,包括泛化知识,原始层知识,或多 层知识等。 ( 4 ) 根据应用的不同技术分类 数据挖掘可以根据所用不同数据挖掘技术进行分类。这些技术可以根据用 户交互程度,或所用的数据分析方法描述,例如,面向数据库或数据仓库的技 术、机器学习、统计、模式识别、神经网络等。复杂的数据挖掘系统通常采用 多种数据挖掘技术,或采用有效的、集成的技术,结合一些方法的优点 6 1 第8 页 四川大学博士学位论文 1 1 3 中医药数据挖掘的产生 随着近年来中医药现代化进程的开展,已有大量中医药数据以各种不同形 式存储于数据库中。然而相对更为广阔和深厚的中医药理论和实践而言,这种 以数字化为标志的现代化进程仍然有巨大的发展空间。据有关方面统计,当前 国内现存的1 9 1 1 年以前的中医药学古籍文献达1 3 0 0 0 余种,其中在社会上影 响较大的古籍有1 0 0 0 多种。同时,现代也出版了大量中医药方面的专业书籍、 杂志和期刊。据统计,中国中医研究院图书馆就收录1 9 1 1 年以后出版的中医 药图书达1 2 0 0 0 余种,中医期刊约2 3 0 种。来自中国中医药期刊文献数据库 的数据显示,1 9 8 7 - - 2 0 0 3 年间国内发表的中医药文献达5 3 0 7 0 0 篇,可见中医 药数字化前景之广阔,任务之重大。而数据挖掘则成为研究和分析这些海量数 据以从中寻找有意义的模式和知识的当然之选【5 l 巾】。 由于中药方剂为具体医疗经验的人工汇总,且为历史的继承,虽然有广博 精深的中医理论作为支持,但传统中医理论为诊病方剂的人为总结和提炼,其 整体性、辩证性、动态性等本质特征过于抽象和定性化,难于定量和具体的把 握。中药概念上的不准确、不完全和无统一标准使得中医诊疗的过程和成败过 多地依赖于郎中诊疗行医的历史,其医疗决策易受制于经验的相对浅显,难免 被直观的感性和个体体验所影响。此外,师带徒式的心传口授也会使有限真实 的信息在传播中大打折扣。这一切都给中医药的传承和发展提出了很大的挑战。 数据挖掘即从大规模数据集中通过非一般性的方法发现符合人们需求的模式和 知识的过程,旨在借助计算机强大的存储和计算能力,通过对分析需求的确切 定义和高效的算法设计实现大规模数据库中有效的知识发现。决策直接来源于 记录现实情况的数据,如果算法是有效的和全面的,就能克服人为决策所带来 的由于个体不同体验而引起的偏见,因而为中医处方的研究提供了新的途径。 1 1 3 1 进行中医药数据挖掘的必要性 如前所述,中医中药理论的整体性观点与西医西药“还原论”为核心的思 维方式有着根本区别。由于生命系统各要素相互之间的紧密关联,很难说某一 功能或功效是哪一单一的组织、细胞或系统独立实现的;随着生命科学的进一 步发展,西医西药“还原论”的局限性逐渐被研究界认识和提起重视。系统性 第9 页 中医药数据挖掘系统t c m i n e r 设计、实现与核心技术研究 思维重新得到应有的重视,正是在这样的背景下,系统生物学被提到了议事日 程。自2 0 世纪8 0 年代开始的“人类基因组计划”在某种程度上也是这一趋 势的结果。了解得人都知道,生物信息学研究的基因序列、蛋白质折叠方式、 微阵列、结构功能关系等课题更强调系统间的相互关联,并在很多课题中直接 以之为目标嗍与生物信息学类似,以中医药数据挖掘为核心的交叉学科研究 必将成为2 1 世纪生命科学研究的热点内容之一,而在这一进程中,人工智能 与数据库、统计学、机器学习等学科则是所谓“大科学研究”不可缺少的重要 组成部分 9 1 。身处这一学科交叉融合的整体发展趋势当中,以整体性思维为主 要方法论特点的中医中药应顺应这个历史潮流,抓住这个历史机遇,不断完善 和发展自身的理论并加强与信息技术的融合和交叉,以促进大生命科学的进一 步发展。数据挖掘作为知识发现的核心技术当然会在这一浪潮中发挥其独特的 作用。中医药数据挖掘对于中医理论的证实、完善和发展,对于中医人才培养, 乃至对于数据挖掘这一学科本身都具有极其重要意义。 目前,我国的中医中药的发展压力巨大。近几年来,我国的中成药产品在 国际市场上普遍缺乏应有的市场竞争力,每年在国际市场中,中成药市场的份 额占有率仅为3 4 。相映成趣的是,中医中药原材料大量出口日本、韩国 等国家,在那里被制成中成药产品并再度出口。之所以出现这样的被动局面, 一个主要原因是我国对于中药方剂有效治病成分的分离和提取缺乏有效、快速 的技术和方法。另一个原因是随着人类居住和生活条件、生存环境的改善,新 的疾病不断出现,如s a l t s 等。而且疾病谱也发生了很大的改变。这些年来, 免疫障碍性疾病、环境污染导致的疾病、恶性肿瘤、医疗过程中被无辜感染的 疾病、由营养过剩或营养不均衡导致的疾病、性病、中老年性疾病等呈明显增 加势头。相应的,疾病的治疗也从单纯的打针吃药逐渐过渡到依靠预防、保健、 治疗、康复等过程相结合的一整套维护健康的体系。而现有的西医西药也己不 能完全适应社会需要【1 0 】,人类健康呼唤天然药物的大规模开发和应用。面对医 药及诊疗手段回归自然的发展趋势与现代市场化的竞争形势,加快我国中药现 代化的发展已成为一个迫在眉睫的任务。在此形势下,利用数据挖掘技术,深 化对方剂配伍规律的认识和理解【l l i ,加快中医药方剂中有效成分提取的技术和 方法研刭“j ,对中医中药的产品研究、开发和生产具有不可替代的重要意义和 作用。 第1 0 页 四川大学博士学位论文 1 1 3 2 中医药数据挖掘的可静l 生 越来越多的人意识到,应用数据挖掘、人工智能等技术进行中医药方剂等 领域研究的前提是中医药信息的数字化。中医药信息的数字化指的是在计算机 技术、网络技术、测试技术和计算技术的支撑下,根据中医药传统理论,用数 字描述中医药理论的病、证、药、方等概念及其各方面的评价指标;通过对中 药成分的结构、含量等多项特征进行测评,定量而非仅仅定性地对中药的传统 理论进行解释。中华医药的信息资源极其丰富。据统计,中药方剂有数十万个, 每个方剂涉及若干种药物。加上传统的中草药共有l1 0 0 0 多种,这些方剂和药 物的不同组配和变化是个天文数字,是名副其实的海量数据,只能依靠计算机 进行存储和管理,只能依靠数据挖掘技术进行分析和理解。数据挖掘技术的应 用,可以帮助人们从传统中医诊疗经验和海量数据中提取出许多有价值的模式 和知识。例如,通过关联规则挖掘的方法研究中医方剂,可以从方剂数据库中 发现大量有关单个药物和其他药物配伍治疗疾病的情况,及它与其他药物在配 伍后所产生的相须、相使、相畏、相杀等关系,从而帮助人们设计出治疗某种 疾病的最佳配伍方剂,提高中药和天然药物在创制新药方面的命中率。 中医药数据挖掘在基因序列数据研究中的应用对于中药筛选也很有价值。 其主要方法是,通过找出某种中药制剂中的特定基因或d n a 序列,将其固定 在玻片上,然后再将其制成基因芯片,继而,将致病基因放置到基因芯片中与 中药提取物相互作用,最终观察并得到哪些中药提取物的基因序列对哪些致病 基因表达具有遏制作用。这种对致病基因的遏制作用即中药方剂的疗效。根据 得到的结果,可以快速而有效地筛选出应对某一疾病的有效中药。针对某些因 基因缺陷而引起的疾病,可以通过这种方法并参照中医药配伍理论发明出一批 复方新药,以充分发挥中医中药对人体多层次、多靶点的治疗作用。利用该技 术还可以建立中药方剂的基因表达图谱,同时通过处方分析优化治疗靶标,以 观察不同中草药成分的作用与毒副反应,从多个不同层次探索中医中药的治病 机理。 总之,数据挖掘对分析成分复杂的中药方剂及中草药提供了新的有效思路。 第l l 页 中医药数据挖掘系统t c m i n e r 设计、实现与核心技术研究 1 2 研究现状 随着中医药数据挖掘的兴起,国内众多高校和科研院所纷纷加入到这一研 究行列中来,如北京中医药大学、成都中医药大学、中国中医研究院、浙江大 学、西南交通大学等等。这里简单介绍两所高校所做的工作。 1 2 1 北京中医药大学的工作 北京中医药大学药学院近年来在院长乔延江的带领下进行了中药数据挖掘 多个领域的研究和探讨。主要研究方向包括中药复方配伍规律发现、中药复方 再优化研究、中药防治脑衄管病药效评价方法研究、中药防治胃肠系统疾病药 效评价方法研究、中药新荆型的研究、中药新技术的研究等。这里简要介绍中 药信息学和中药复方再优化。 中药信息学应用信息技术、网络技术和数据库技术研究传统中药药性理论 及复方配伍规律的科学内涵,开展中药药效物质基础的有指导筛选,是中药学 科与信息科学的交叉和新的学科生长点。该研究采用数据挖掘技术分析中药药 效分子的各种参数、搜寻与确定中药药效团、进行定量组效关系研究,为揭示 复方作用机理和药效物质基础的确定提供参考,为中药新药有指导的研究开发 提供技术支撑。目前,乔延江课题组已完成国家博士后基金课题:“调节虹脂示 范复方药效化学物质基础的计量学研究”,目前正在承担科技部重大课题“中药 基本数据库研究”及国家“9 7 3 ”子项目“方剂化学物质基础研究”等项目。 中药复方再优化使用数据挖掘进行中药复方的再优化,以避免繁琐的常规 设计,减少实验量,为进一步的研究与临床应用奠定基础,并为解释中药组方 的理、法、方、药和君、臣、佐、使等配伍原则以及科学组方提供相应的理论 依据。中药复方再优化已应用于国家博士点、自然基金等课题及教育部中药工 程中心项目中,并得到国内有关专家的关注,为筛选、开发中药复方高效新制 剂另辟新径,也是中医药数据挖掘的一个新的增长点。 第1 2 页 四川大学博士学位论文 1 2 2 浙江大学的工作 浙江大学计算机学院c c n t 实验室在吴朝晖教授的带领下,自1 9 9 8 年 开始和中国中医研究院合作进行中医药数据挖掘的研究。他们主要做了如下4 方面的工作: ( 1 )建设中医药数字化的基础设施。他们和各校同行一起搭建了中医药科技数 据库群和具有1 7 个分中心的分布式数据库综合访问平台【1 3 1 。通过全国 3 0 余家中医药学院、大学和科研院所近3 0 0 名科技工作者的通力合作, 数据库目前集成了5 0 多个中医药子数据库,其中包括著名的中国中医药 期刊文献数据库( 收录了中医药文献5 3 0 7 0 0 篇) 、中国中药数据库( 收 录中药1 0 0 0 0 余种) 、疾病诊疗数据库( 收录了各科疾病约3 7 7 6 种) 、 中国方剂数据库( 收录古今中药方剂8 5 9 8 9 首) 、方剂现代应用数据库 ( 9 6 0 0 余种方剂的应用信息) 、中国中药化学成分数据库( 收录了3 0 0 0 余种中药化学成分) 等等。 ( 2 )构建中医药本体,解决中药术语多义性问题。浙江大学与中国中医研究院 合作建立了国内第1 个基于语义的中医药数据库网格,支持网格环境下 中医药数据库资源的动态化的语义注册、分布式的语义查询和知识级的语 义浏览,初步建立中医药本体库,为中医药语言系统的一体化提供了基础, 并基于语义w e b ,初步开发出具有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论