(计算机应用技术专业论文)dartspora数据挖掘平台的构建.pdf_第1页
(计算机应用技术专业论文)dartspora数据挖掘平台的构建.pdf_第2页
(计算机应用技术专业论文)dartspora数据挖掘平台的构建.pdf_第3页
(计算机应用技术专业论文)dartspora数据挖掘平台的构建.pdf_第4页
(计算机应用技术专业论文)dartspora数据挖掘平台的构建.pdf_第5页
已阅读5页,还剩86页未读 继续免费阅读

(计算机应用技术专业论文)dartspora数据挖掘平台的构建.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文 摘要 摘要 在信息时代,随着互联网的发展,人类积累了海量数据。激增的数据背后 隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地 利用这些数据,因而数据挖掘显得越来越重要。数据挖掘是一个复杂而又需求 庞大的任务。即便已经建立了很多方法来处理层出不穷的问题,依然还需要面 临许多挑战。数据挖掘需求的快速变化要求能够支持对已有方法的最大程度重 用和创新组合,同时简单快速的集成新的方法。 随着中医药的信息化进程的推进,数据挖掘也越来越广泛的应用到中医药 领域。方剂数据经过中医学界及相关领域广大工作者的不懈努力,规范整理形 成了几大方剂数据库。复方数量达十几万首,其中中医古方剂库就包含了8 万 方剂,为研究方剂配伍规律打下了坚实的基础。 在本文中,我们设计并开发了d a r t s p o r a 数据挖掘平台,与中医科学院合 作,将d a r t s p o m 平台应用到中医方剂领域,研究方剂配伍规律。本文主要的 研究内容如下: 1 应用a j a x 技术以g o o g l ew e bt o o l k i t s ,g w t - e x t 开源框架和r a p i d m i n e r 开源项目设计与实现d a r ts p o r a 数据挖掘平台。包括实验管理模 块、d a r tg r i d 模块、数据库连接管理模块、用户管理模块等。 2 整合d a r t s p o r a 与d a r tg r i d ,以提供基于语义集成的分布式数据库访问。 用户在不需要了解基于语义集成的分布式数据库结构的情况下,凭借 自身的领域知识就能获取需要的数据进行数据挖掘。 3 针对中医方剂数据的特点,设计基于规则的替换与拆分预处理方法。提 高了中医方剂数据处理的效率和可配置性。 4 改进传统经典a p d o r i 算法,引入数据权值,开发w a p d o r i 算法;并分 别以互联网知名度和历史文献认可度为权值,对脾胃方剂进行挖掘。 将实验室已开发的各种算法移植到d a r t s p o r a 平台。 5 d a r t s p o r a 平台在中医方剂领域的应用案例。主要包括:基于规则的替 换与拆分进行中医方剂预处理、病毒性心肌炎方剂最大高频模式挖掘、 脾胃方基于数据可信度的加权频繁模式挖掘。 浙江大学硕士学位论文摘要 关键词:数据挖掘平台,中医方剂配伍规律,a j a g ,g o o s e w e bt o o l l d t s , g w t - e x t , w c i g h t c d - a p r i o r i 一1 l 一 浙江大学硕士学位论文 a b s t r a c t i nt h ei n f o r m a t i o ne m 、聃lt h ed e v e l o p m e n to fw o r l d - w i d e - w e b ,p e o p l e a c c u m u l a t em a g n a n i m i t yo fd a t a t h e r ea r eal o to fi m p o r t a n ti n f o r m a t i o nu n d e r c o v e rt h ep r o l i f e r a t ed a t a i n o r d e rt om a k eu s eo fd a t a , p e o p l ew a n tt oa n a l y s i st h e d a t ao nah i g h e rv i e w , t h a t sw h yd a t am i n i n gi sb e c o m i n gm o r oa n dm o r ei m p o r t a n t d a t am i n i n gi sac o m p l e xa n dd e m a n d i n gt a s k w h i l eal a r g en u m b e ro fm e t h o d s h a v e b e e ne s t a b l i s h e df o rn u m e r o u sp r o b l e m s ,m a n yc h a l l e n g e sr e m a i nt ob es o l v e d t h er a p i d i l yc h a n g i n gr e q u i r e m e n to fd a t am i n i n gn e e d sm a x i m a lr e - u s ea n d i n n o v a t i v ec o m b i n a t i o n so fe x i s t i n gm e t h o d s ,a sw e l la ss i m p l ea n dq u i c k i n t e g r a t i o no fn e wo n e s w i t ht h ep r o m o t i o no ft h et c mi n f o r m a t i o n a l i z a t i o np r o c e s s ,d a t am i n i n gi s m o r ea n dm o r ew i l d l ye m p l o y e di nt c m w i t hu n r e m i t t i n ge f f o r t so fp e o p l ei nt c m a n do t h e rr e l a t e df i e l d s ,s e v e r a lh u n d r e dt h o u s a n d so ft c mp r e s c r i p t i o n sh a sb e e n g e n e r a l i z e di n t os e v e r a lp r e s c r i p t i o nd a t a b a s e a m o n gt h i st c mp r e s c r i p t i o n st h e a n c i e n tp r e s c r i p t i o nd a t a b a s ec o n t a i n s8 0t h o u s a n dp r e s c r i p t i o n s t h e s ed a t as c t v ea s t h ef o u n d a t i o nf o rt c mp r e s c r i p t i o nc o m p o s i t i o nr u l e sr e s e a r c h i nt h i st h e s i s ,w ed e s i g na n di m p l e m e n tt h ed a r t s p o md a t am i n i n gp l a t f o r m , c o o p e r a t ew i t hc h i n aa c a d e m yo fc h i n e s em e d i c a ls c i e n c e s ,a p p l yd a r t s p o m p l a t f o r mt ot c mp r e s c r i p t i o n ,s t u d yt h et c mp r e s c r i p t i o nc o m p o s i t i o nr u l e s w e f o c u so nt h ef o l l o w i n gi s s u e si nt h i sp a p e r 1 u s i n gg o o g l ew e bt o o l k i t s ,g w t - e x to p e n s o u c ea j a xf r a m e w o r k ,a n d w o r l dw i l dp o p u l a rd a t am i n i n gt o o lr a p i dm i n e rt od e s i g na n di m p l e m e n t d a r t s p o r ad a t am i n i n gp l a t f o r m i ti n c l u d i n ge x p e r i m e n tm a n a g em o d u l e , d a r t g r i dm o d u l e ,d a t ab a s ec o n n e c t i o nm a n a g em o d u l e ,a n du s e rm a n a g e m o d u l e 2 i n o r d e rt op r o v i d ea c c e s st od i s t r i b u t e dd a t a b a s ew h i c hi sc o m p o s i t e db a s e d o ns e m a n t i c ,w ei n t e g r a t ed a r tg r i dw i t hd a r t s p o r a u s e rc a ng o td a t at h e y r e a l l yn e e d 、) l ,i m t l l e i rd o m a i nk n o w l e d g e ,w i t h o u tu n d e r s t a n d i n gt h e 浙江大学硕士学位论文 3 c o n t r a p o s et h ec h a r a c t e ro ft c mp r e s c r i p t i o nd a t a , w od e s i g np r c p r o e c s s o t m a t o rb a s e d o n 、:u s e r - d e f i n e dr u l e s ,s p e e d u pt h ee f f i c i e n c ya n d c o n f i g u r a t i o no f t c mp r e s c r i p t i o nd a t ap r e p r o c e s s 4 i m p r o v i n gt r a d i t i o n a lx r r i o r ia l g o r i t h mb yi n t r o d u c i n gd a t aw e i g h t , a n d d e v e l o pw 西g h t e d - a p f i o f ia l g o r i t h m u s i n gw e bw e l l - k n o w na n dh i s t o r y l i t e r a t u r ea u t h o r i z a t i o na s w e i g h t , a p p l yw e i g h t e d - a p r i o d i n t o s p l e e n - s t o m a c ht c mp r o s c r i p t i o nc o m p o s i t i o nr u l e sr e s e a r c h t r a n s p l a n t a l g o r i t h m sd e v e l o p e db yc c n tl a bi n t od a r t s p o r ap l a t f o r m 5 a p p l yd a r t s p o r ap l a t f o r mi n t ot c mp r e s c r i p t i o nr e s e a r c h h e r ew o s h o w3 a p p l i c a t i o nc a s e s :t c mp r e s c r i p t i o nd a t ap r o p r o c c s su n d e ru s e r - d e f i n e d r u l e s ,v i r a lm y o c a r d i t i st c mp r 懿c r i p f i o nm a x - p a t t e r nm i n i n g , t c m p r e s c r i p t i o nw r i g h tf r e q u e n tp a t t e r nm i n i n gb a s e do nd a t ar e l i a b i l i t y k e y w o r d s :d a t am i m n gp l a t f o r m ,t c mp r e s c r i p t i o nc o m p o s i t i o nr u l e s ,a j a x , g o o g l ew e bt o o l k i t s ,g w t - e x t , w e i g h t e d a p r i o r l v 浙江大学硕士学位论文 图目录 图目录 图2 1 典型数据挖掘系统结构8 图2 2k d n u g g e s t s c o m2 0 0 7 年数据挖掘软件的调查结果1 3 图2 3 传统w e b 应用模型与a j a xw e b 应用模型1 5 图2 4 传统w e b 应用模型的同步交互与a j a x 模型的异步交互对比1 6 图3 1 基于工作流构建数据挖掘流程2 l 图3 。2d a r t s p o r a 平台架构2 3 图3 3d a r t s p o r a 与d a r tg r i d 整合方案2 8 图4 1d a r t s p o r a 数据挖掘平台操作流程图3 2 图4 2d a r ts p o r a 工程开发结构3 4 图4 3d a r t s p o r a 数据挖掘平台主界面3 4 图4 4 新建数据挖掘实验3 5 图4 5o p e r a t o rt r e e 的构建界面3 6 图4 7o p e r a t o r 参数配置界面3 7 图4 6o p e r a t o rt r e e 编辑菜单3 7 图4 8d a r ts p o r a 与d a r tg r i d 整合流程图3 8 图4 9d a r tg r i do p e r a t o r 语义查询配置界面3 9 图4 1 0 基于语义集成的分布式数据库查询结果3 9 图4 1 1 基于规则的替换与拆分m u l 设计图4 0 图4 1 2 数据库连接管理模块4 l 图4 1 3 数据库连接s q l 动态生成界面4 2 图4 1 4 数据库查询结果预览4 2 图4 1 5 用户管理与系统配置流程图4 3 图4 1 6 用户登录4 4 图4 1 7 用户注册? 4 5 图4 18 用户实验列表4 5 图4 1 9 用户工作目录管理4 6 图5 1 方剂预处理流程5 7 浙江大学硕士学位论文 图目录 图5 2 基于规则的替换与拆分实验o p e r a t o rt r e e 5 7 图5 3 e x c e l e x a m p l e s o u r c e 读入的待处理数据5 8 图5 4 经过基于规则的替换后的结果5 8 图5 5 预处理后药物组成拆分结果5 9 图5 6 病毒性心肌炎症状与药物组成高频最大模式挖掘流程6 0 图5 7 病毒性心肌炎症状与药物组成高频最大模式挖掘o p e r a t o r t r e e 6 1 一n 一 浙江大学硕士学位论文 表目录 表目录 表1 1 数据挖掘系统的发展h 1 1 表2 1 常用数据挖掘软件对比1 3 表3 1 文本预处理最常用操作2 8 表5 1 古代方剂库方剂样例5 4 表5 2 规则种类5 5 表5 3 预处理规则实例o 5 6 表5 4 病毒性心肌炎原始数据6 1 表5 5 经p r e p r o c e s s b y r e g u l a r e x p 预处理后的结果6 2 表5 6 症状和药物组成分别映射为i d 6 2 表5 7 病毒性心肌炎高频最大模式挖掘部分结果6 3 表5 8 中国方剂数据库中同名异方情况最明显的十首方剂名6 9 表5 9 脾胃方w a p r i o r i 挖掘结果( 不带权值) 7 1 表5 1 0 脾胃方w a p r i o d 挖掘结果( b a i d u 检索次数为权值) 7 2 表5 1 1 脾胃方w a p d o r i 挖掘结果( b a i d u 检索次数取l 0 9 2 为权值) 7 2 表5 1 2 脾胃方w a p r i o r i 挖掘结果( 历史文献认可度为权值) 7 3 表5 1 3 脾胃方数据集上各l e x , e l 的平均互联网知名度7 4 表5 1 4 脾胃方的w a p r i o r i 分析结果( 文献l e v e l 互联网知名度为权值) 7 4 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 除了文中特别加以标注和致谢的地方外,论文中不包含其他入已经发表或撰写过的研究成 果,也不包含为获得澎鎏盘堂或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:关诹签字日期:刀咿年 占月口日 学位论文版权使用授权书 本学位论文作者完全了解逝鎏盘鲎有权保留并向国家有关部门或机构送交本论 文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝姿态堂可以将学位论文的全 部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段保 存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名炭裂礼 签字日期:2 刃眸占月扣日 新躲p 纶 签字日翘乞砷分年6 月,一日1 产七石 l ) 浙江大学坝士学位论文 1 1 数据挖掘软件的发展 第1 章绪论 自数据挖掘技术提出以来,数据挖掘软件的发展己经历了二十几个年头。 目前较为流行和公认的说法是( 美国) 国家数据挖掘中心的r o b e r tg r o s s m a n 1 - 2 】 提出的观点,将数据挖掘系统划分为四代,如表1 1 所示。 表1 1 数据挖掘系统的发展口1 幽翻圈圈嚣凰0 8m _ 一曩一。一 隧翰瑷霜豳。隧 l 豳翳强秘嘲缫鹚嘲翻豳豳脯圈藏l 豳嘲隧圜睡豳嘲 一* 黧鳃 一m 霾豳霞程 第一代作为一个独支持一个或多独立的系统单个机器 向量数据 立的应用个算法 第二代和数据库以多个算法;能数据管理系 局部区域的计算有些系统支 及数据仓库够挖掘一次不统,包括数据机集群持对象,文本 集成能放进内存的库和数据仓和连续的媒 数据库体数据 第三代和预言模型多个算法数据管理和 i n t r a n e t e x t r a支持半结构 系统集成 预言模型系 n e t 网络计算化数据和w e b 统数据 第四代和移动数据多个算法数据管理、预移动和各种计算普遍存在的 各种计算设言模型、移动设备计算模型 备的数据联系统 合 第一代数据挖掘软件一般是针对某个特定应用,编写一个或几个算法进行 挖掘,就构成一个挖掘系统。数据的表示、提取、整理、过滤以及挖掘结果的 表示统统集成在一起。数据一般采用向量模型来表示。该类系统通常缺乏数据 管理手段,挖掘的数据需要一次调入内存。主要的缺点是当数据量比较大时, 特别是变化比较频繁时,就需要数据库或者数据仓库技术进行管理。 第一代挖掘系统显然不能满足应用要求。第一代数据挖掘软件的代表产品 一1 一 浙江大学硕士学位论文 绪论 是新加坡国立大学开发的c b a 系统。它实现的是基于关联规则的分类算法, 能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测。 第二代数据挖掘软件的特点是与数据库管理系统的集成,能够支持数据库 和数据仓库,和它们之间具有高性能的接口,可扩展性大大提高。由于使用了 数据库系统管理数据,所以该类系统能够挖掘大型数据集以及更加复杂的数据 集。第二代系统的另一个显著的进步是用户与系统之间可以通过数据挖掘语言 进行交互,定义数据挖掘任务和返回数据挖掘结果。其主要缺点在于,由于没 有统一的模型描述标准,不同厂商的产品无法兼容。这一代的数据挖掘产品比 较多,如s f u 的d b m i n e r 和s a s 的s a se n t e r p r i s em i n e r 等。 第三代数据挖掘软件的特点是预言模型标记语言的广泛支持,数据挖掘系 统能够与预言模型系统无缝集成,使得数据挖掘软件产生的模型变化能够及时 地反映到预言模型系统中。由数据挖掘软件产生地预言模型能够自动地被操作 型系统接收,从而与操作型系统中的预言模型相联合提供决策支持的功能。这 个时期的另一个特点是网络数据挖掘和异质数据挖掘。s p s s 公司的s p s s c l e m e n t i n e 属于第三代数据挖掘系统,它能够以p m m l 格式提供与预言模型系 统的接口。 信息技术的发展使得移动计算愈发重要,将数据挖掘与移动计算结合成为 当前的一个重要的研究领域。第四代数据挖掘软件是指能够挖掘各种嵌入系统、 移动系统和普遍存在计算设备产生的各种类型的数据。 第四代数据挖掘原型或者商业系统尚未见报。p k d d 2 0 0 1 上k a r g u p t a 3 】发 表了一篇移动环境下挖掘决策树的论文,k a r g u p t a 是u n i v e r s i t yo fm a r y l a n d b a l t i m o r ec o u n t r y 正在研制的c a r e e r 数据挖掘项目的负责人。该项目研究期 限是2 0 0 1 年4 月到2 0 0 6 年4 月,目的是开发挖掘分布式和异质数据的 ( u b i q u i t o u s 设备) 的第四代数据挖掘系统。 目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现, 第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代 数据挖掘系统,比如i b mi n t e l l i g e n ts c o r es e r v i c e 。第四代数据挖掘原型或商业 系统尚未见报导。 夕 浙江大学硕士学位论文绪论 1 2 数据挖掘在中医药方剂领域的研究 中医药是中华民族的瑰宝,进行中医药的数据挖掘是中医药现代化研究的 重要组成部分【5 1 ,是对中医药几千年沉淀的宝贵历史数据进行去伪存真、去粗 取精的过程,也是为更好地推进中医药的发展,保持其优势与特色的重要方法。 中药方剂是以病症为主体,通过辨证立法,以法统方,以方遣药,并经过 临床实践确定的。在方剂中,“方、药、证 之间存在着错综复杂的对应关系。 由于数据挖掘技术可以反映多维数据之间的相互映射关系,为现代方剂的研究 提供了非常有力的研究工具。例如通过关联规则a p f i o d 以分析方剂配伍的模式 或规则;通过频繁集方法,可以分析药物与症状、药物与病机、症状与病机等 不同属性间的相关性;在对功效进行分类的基础上用贝叶斯信念网络实现对复 方共性规律的认识;粗糙集理论可以实现对复方的简化和特征的抽取,寻找方 剂配伍规律与主治症之间的特殊对应关系。通过多角度和多层次来认识方剂之 “方、药、证 之间的关联,将有助于发现方剂的药物组成与病机、症状的关 联规律,明确复方药物的配伍关系以及药味之间的关系,进而明确方剂的“君、 臣、佐、使 配伍机制,从而能为有效方药筛选和合理配伍提供支持【6 】。 1 2 1 中医方剂数据挖掘的必要性 以数字化为标志的现代化进程仍然有巨大的发展空间。据有关方面统计, 当前国内现存的1 9 1 1 年以前的中医药学古籍文献达1 3 0 0 0 余种,其中在社会上 影响较大的古籍有1 0 0 0 多种。同时,现代也出版了大量中医药方面的专业书籍、 杂志和期刊。据统计,中国中医研究院图书馆就收录1 9 1 1 年以后出版的中医药 图书达1 2 0 0 0 余种,中医期刊约2 3 0 种。来自中国中医药期刊文献数据库的数 据显示,1 9 8 7 2 0 0 3 年间国内发表的中医药文献达5 3 0 7 0 0 篇,可见中医药数字 化前景之广阔,任务之重大【7 】。而数据挖掘则成为研究、分析、深度利用这些 海量数据的关键手段。 1 2 2 中医方剂数据挖掘的可能性 方剂数据挖掘研究是可行的。应用数据挖掘技术的前提是海量数据得以数 字化。浙江大学计算机学院c c n t 实验室在吴朝晖导师的带领下和中国中医研 一3 一 浙江大学硕士学位论文绪论 究院于1 9 9 8 年就开始合作搭建中医药科技数据库群,并成功建立了集成全国 1 7 个分中心的分布式多库融合平台。通过全国3 0 余家中医药学院、大学和科 研院所近3 0 0 名科技工作者的数据录入工作,该平台目前已集成了5 0 余个数据 库,其中包括中国中医药期刊文献数据库( 收录了中医药文献5 3 0 ,7 0 0 篇) 、中国 中药数据库( 收录中药1 0 0 0 0 余种) 、疾病诊疗数据库( 收录了各科疾病约3 7 7 6 种) 、中国方剂数据库( 收录古代中药方剂8 万余首) 、方剂现代应用数据库( 9 6 0 0 余种方剂的应用信息) 、中国中药化学成份数据库( 收录了3 0 0 0 余多中药化学成 份) 等。同时,为建立中医药一体化语言系统并解决系统集成中出现的语义问题, 我们与中医研究院合作,开始基于s e m a n t i cw e b 技术搭建中医药本体论。到目 前为止,在全国2 0 多个分中心的协作下已经完成了1 0 ,0 0 0 多条中医药术语的 编辑,并初步实现了一个面向中医药的本体论浏览器。2 0 0 2 年开始搭建的信息 网格平台,逐步将原有多库融合平台转变为数据库网格平台,提供动态的数据 库注册与绑定、关联导航等功能。这些中医药信息化的工作,实现了海量中医 药数据的整理、存储和共享,为利用数据挖掘技术,从海量方剂库中发现有用 的知识、实现数据的有效利用创造了很好的条件【8 】。 可以说浙江大学计算机学院c c n t 实验室从1 9 9 8 年与北京中医研究院合 作进行中医药信息化建设至今,尤其是网格数据库平台的建设,使中医药方剂 数据挖掘研究甚至是中医药网格数据挖掘研究成为可能。本文提出的d a r t s p o r a 数据挖掘平台正是在这个背景下诞生的,随着d a r t s p o r a 的逐步完善,使得对 中医药进行数据挖掘更是如虎添翼。 1 2 3 中医方剂数据挖掘研究现状 目前随着中医药信息化的发展,中医药数据挖掘的兴起,国内众多高校和 科研机构纷纷加入到这一研究热潮中来,如中医科学院、四j i i 大学、北京中医 药大学、成都中医药大学、西南交通大学等等。这里主要从挖掘算法角度来介 绍研究现状。 蒋永光等 6 1 基于聚类分析、对应分析和频繁集方法对13 5 5 首脾胃方进行了 药物、方剂、证型之间关系的挖掘试验。周忠眉【引、王春山【9 】等针对方剂特点 4 浙江大学硕士学位论文绪论 式算法,并做了方剂功效聚类算法。刘娟掣1 0 】基于关联规则对3 2 1 首白术方中 药物之间、药与证之间关系进行数据挖掘试验:陈波等【i l 】用关联规贝i j 算法对东 垣脾胃方中方、药、证不同属性间的相关性进行了挖掘。何前锋等【1 2 】基于聚类 算法将具有相同或相似功效的单味药归类在一起;张菊英等【1 3 】基于对应分析挖 掘脾胃方中药物与病机之间的关系等。各种算法能够从不同侧面反映事物的本 质,数据挖掘过程中多种方法的交互与混合应用,将比单一方法更能有效地挖 掘出所需要的知识。故多数挖掘试验采用不止一种算法。黄翌【1 4 】采用l o g i s t i c 回归分析、频繁集、关联规则等算法对所选6 1 8 个慢性乙肝病案进行症状、药 物等方面的分析。雍小嘉【1 5 1 采用空间矢量方法及神经网络方法进行方剂功效判 断试验,证明后者有效率不如前者但对前者起补充作用。尚景盛【1 6 1 采用频数统 计、关联规则、因子分析、对应分析、模糊逻辑等算法从药味加减和剂量变化 以及主治病证方面探讨半夏泻心汤方剂配伍规律等。 1 3 本文主要解决的问题 面: 基于以上的背景和问题描述,本文主要的研究内容和任务包括以下几个方 1 应用a j a x 技术以g o o g i cw e bt o o l k i t s ,g w t - e x t 开源框架和r a p i d m i n e r 开源项目设计与实现d a r ts p o r a 数据挖掘平台。包括实验管理模 块、d a r tg r i d 模块、数据库连接管理模块、用户管理模块等。 2 整合d a r t s p o m 与d a r tg r i d ,以提供基于语义集成的分布式数据库访问。 用户在不需要了解基于语义集成的分布式数据库结构的情况下,凭借 自身的领域知识就能获取需要的数据进行数据挖掘。 3 针对中医方剂数据的特点,设计基于规则的替换与拆分预处理方法。提 高了中医方剂数据处理的效率和可配置性。 4 改进传统经典a p r i o r i 算法,引入数据权值,开发w a p r i o r i 算法;并分 别以互联网知名度和历史文献认可度为权值,对脾胃方剂进行挖掘。 将实验室已开发的各种算法移植到d a r t s p o r a 平台。 5 d a r t s p o r a 平台在中医方剂领域的应用案例。主要包括:基于规则的替 一5 一 浙江大学硕士学位论文 换与拆分进行中医方剂预处理、病毒性心肌炎方剂最大高频模式挖掘、 脾胃方基于数据可信度的加权频繁模式挖掘。 1 4 本文的组织结构 论文第一章从数据挖掘软件的发展展开,阐述了中医方剂数据挖掘的必要 性和可行性。第二章综述数据挖掘技术,介绍了开源数据挖掘软件及对比,从 传统w e b 应用框架的缺点引入a j a xw e b 框架,并重点分析了g w t 框架及其 优点。第三章从核心需求、核心技术、平台架构以及各个核心模块设计来介绍 d a r t s p o r a 数据挖掘平台的设计。第四章介绍d a r t s p o r a 平台的具体实现。第五 章通过3 个案例,介绍了d a r t s p o m 在中医方剂数据挖掘方面的应用。案例主 要包括:基于规则的替换与拆分进行中医方剂预处理、病毒性心肌炎方剂最大 高频模式挖掘、脾胃方基于数据可信度的加权频繁模式挖掘;并对a p r i o r i 提出 改进,引入权值。第六章是总结与展望。 一6 一 浙江大学硕士学位论文技术背景及相关工作 第2 章技术背景及相关工作 2 1 数据挖掘技术简介 2 1 1 什么是数据挖掘 数据挖掘是指从大量数据中提取或“挖掘 知识【1 7 1 。数据挖掘( d a t am i n i n g ) , 又称为数据库中的知识发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e , k d d ) ,就是从大 量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程, 简单的说,数据挖掘就是从大量数据中提取或“挖掘知识f 1 8 】。 知识发现的主要过程由以下步骤的迭代序列组成: 数据清理:消除噪声和不一致数据 数据集成:多种数据源可以组合在一起 数据选择:从数据库中提取与分析任务相关的数据 数据分类:数据变换或统一成适合挖掘的形式 数据挖掘:使用智能方法提取数据模式 模式评估:根据某种兴趣度度量,识别表示知识的真正有效的模式 知识表示:使用可视化和知识表示技术,向用户提供挖掘到的知识 2 1 2 典型数据挖掘系统结构 典型的数据挖掘系统的结构如图2 1 所示,其主要成分有数据库、数据仓 库或其它信息库、数据库或数据仓库服务器、知识库、数据挖掘引擎、模式评 估模块、图形用户界面【1 9 】。 一7 一 浙江大学硕士学位论文技术背景及相关工作 圄 图2 i 典型数据挖掘系统结构 1 数据库、数据仓库和其它信息库 数据库、数据仓库和其它信息库是进行数据挖掘的数据源,可以在它们的 数据上进行数据清理和集成。 2 数据库或数据仓库服务器 根据用户的数据挖掘要求,数据库或数据仓库服务器负责提取相关的数据。 3 知识库 知识库是特定的领域知识,用于指定搜索或评估结果模式的兴趣度。这种 知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。 4 数据挖掘引擎 数据挖掘引擎是数据挖掘的最重要的基本部分,由一组功能模块组成,用 于特征化、关联、分类、聚类分析以及演变和偏差分析。 5 模式评估模块 通常模式评估模块使用兴趣度度量,并与数据挖掘模块交互,以便将搜索 聚集在有趣的模式上。它可能使用兴趣度阀值过滤发现的模式。模式评估模块 也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。 6 图形用户界面 图形用户界面在用户和数据挖掘系统之间通信,允许用户与系统交互,指 定数据挖掘查询或任务,提供信息、帮助搜索聚集,根据数据挖掘的中间结果 进行探索式数据挖掘。此外,还允许用户浏览数据库和数据仓库模式或数据结 r 浙江大学硕士学位论文 技术背景及相关工作 构、评估挖掘模式。 2 2 开源数据挖掘软件 随着数据挖掘的广泛应用,数据挖掘软件也是层出不穷。本节介绍了常用 数据挖掘软件,并从应用广泛程度、开发语言等各方面进行对比。 2 2 1 常用开源数据挖掘软件简介 2 2 1 1r a p i d m i n e r r a p i d m i n e r t 2 3 1 ( 前称y a l e ,y e ta n o t h e rl e a r n i n ge n v i r o n m e n t ) 以其顶尖 的技术和广泛应用的完美组合成为世界上领先的开源数据挖掘解决方案。它由 a r t i f i c i a li n t e l l i g e n c eu n i to ft h eu n i v e r s i t yo fd o r t m u n d 大学于2 0 0 1 年开始开 盥 及。 r a p i d m i n e r 基于工作流的思想,把数据挖掘中常用的操作抽象成o p e r a t o r , 用户可以任意组合使用超过4 0 0 种的数据挖掘o p e r a t o r ,操作流程可以很方便 的用g u i 完成,并自动生成x m l 文件。基于x m l 的脚本语言使得r a p i d m i n e r 成为机器学习和数据挖掘的集成开发环境( i d e ) 。r a p i d m i n e r 遵循的快速建模理 念大大加速了达到预期结果的速度。除此之外,r a p i d m i n e r 还能单独作为一个 j a v a 数据挖掘库。 r a p i d m i n e r 的主要功能有: 自由的开源知识发现环境 1 0 0 纯j a v a ( 可以在主流的操作系统中运行) 将知识发现过程模拟成o p e r a t o rt r e e s ,使其变得非常直观且功能强大 o p e r a t o rt r e e s 或者子树能够保存起来以备后用 内部x m l 表示保证了数据挖掘实验的标准交换格式 简单的脚本语言可以自动运行大规模的实验 多层次的数据视图概念保证了效率及数据处理的透明度 r a p i d m i n e r 灵活的使用方式: 用于交互建模的图形用户界面模式 一9 一 浙江大学硕士学位论文技术背景及相关工作 用于自动运行大规模试验的命令行模式 提供j a v a a p i 供用户的应用程序使用 简单的插件和扩展机制,提供大量现成的各种插件,用户也可以非常 方便的添加自己的插件 强大的图表生成工具,为数据和模型提供高维可视化技术 多达4 0 0 个机器学习、评估、输入输出、出处理与后加工、可视化 o p e r a t o r ,以及数量众多的元优化方案( m e t ao p t i m i z a t i o ns c h e m e s ) 集成机器学习库w e k a 2 2 1 2w r e k a w e k a 2 4 】的全名是怀卡托智能分析环境( w a i k a t oe n v i r o n m e n tf o rk n o w l e d g e a n a l y s i s ) ,是一款免费的、非商业化的( 与之对应的是s p s s 公司商业数据挖 掘产品一c l e m e n t i n e ) ,基于j a v a 环境下开源的机器学习以及数据挖掘软件。 它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写w e k a 也是n e w z e a l a n d 独有的一种鸟名,而w e k a 的主要开发者同时恰好来自新西兰的怀卡托 大学。 w e k a 自1 9 9 3 年的怀卡托大学进行开发,最初的软件基于c 语言实现。1 9 9 7 年,开发小组用j a v a 语言重新编写了该软件,并且对相关的数据挖掘算法进 行了大量的改进。2 0 0 5 年8 月,在第1 1 届a c ms i g k d d 国际会议上,怀卡 托大学的w e k a 小组荣获了数据挖掘和知识探索领域的最高服务奖,w e k a 系统 得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完 备的数据挖掘工具之一。 w e k a 作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务 的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及 在新的交互式界面上的可视化。而开发者则可使用j a v a 语言,利用w e k a 的架 构上开发出更多的数据挖掘算法。读者如果想自己实现数据挖掘算法的话,可 以看一看w e k a 的接口文档。在w e k a 中集成自己的算法甚至借鉴它的方法自己 实现可视化工具并不是件很困难的事情。 一1 0 一 浙江大学硕士学位论文 技术背景及相关工作 2 2 1 3k n l m e :k n i m e 2 5 】是由德国k o n s t a n z 大学的c h a i rf o rb i o i n f o r m a t i c sa n d i n f o r m a t i o nm i n i n g 开发的开源数据挖掘软件。用户可以可视化的创建数据流 ( 通常称为管道) ,可选择的执行一部分或者全部分析步骤,然后可以通过数据 和模型的交互式视图来研究结果。 k n i m e 基本版本已经集成了超过1 0 0 个p r o c e s s i n gn o d e ,用于数据输入输 出、预处理和去噪、模拟、分析以及多种交互视图。它涵盖了著名的w e k a 数 据挖掘环境的所有分析模块并支持r - s c r i p t s 运行的额外插件,可以使用巨大的 统计学例程库。 k n i m e 是基于e c l i p s e 平台的,并且很容易通过它的组件化a p i 做扩展。 只需几个小时就可以集成用户定义的节点和类型,使得k n i m e 不仅应用于生 产环境,而且可以用于教学和原型研究。 2 2 1 4r p r o j e c t rp r o j e “2 6 1 是属于g n u 系统的一个自由、免费、开放源代码的软件,是 一个用于统计计算、数据分析和统计制图的优秀工具。作为一个免费的统计软 件,它有u n i x 、l i n u x 、m a c o s x 和w i n d o w s 等版本,均可免费下载使 用。 rp r o j e c t 是一个集成数据操作、计算、图形显示的软件工具。它包括: 一个高效的数据处理和存储工具 一组支持数组,特别是矩阵的计算操作 一个庞大的、一致的、完整的数据分析工具集 用于数据分析的图形工具 一个良好开发的简单高效编程语言,包括条件转移、循环、用户自定义 的递归函数和输入输出 2 2 1 5a l p h a m i n a a l p h a m i n 一2 7 2 即是一个开源数据挖掘平台,具有基于工作流的案例构造、 插件组件体系结构和通用数据挖

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论