(管理科学与工程专业论文)基于数据挖掘的中医医案分析系统的设计与实现.pdf_第1页
(管理科学与工程专业论文)基于数据挖掘的中医医案分析系统的设计与实现.pdf_第2页
(管理科学与工程专业论文)基于数据挖掘的中医医案分析系统的设计与实现.pdf_第3页
(管理科学与工程专业论文)基于数据挖掘的中医医案分析系统的设计与实现.pdf_第4页
(管理科学与工程专业论文)基于数据挖掘的中医医案分析系统的设计与实现.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(管理科学与工程专业论文)基于数据挖掘的中医医案分析系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东师范大掌硕士掌位论文 摘要 数据挖掘作为一门在海量数据中获取知识的技术,已被越来越多地扩展到不 同领域的应用中,在中医药领域应用数据挖掘技术是个有着广阔前景而又充满 挑战性的研究方向。但是,截至目前,对名老中医的学术思想和临证经验的研究, 尚停留于整理、归纳阶段,带有。定的主观成份。本课题的主要目的是依据数据 挖掘技术,通过收集治疗典型病例的众多医案,从大量有噪声、不完整甚至是不 一致的数据中,挖掘出典型病例的用药规律,为中医临床治疗、中医药教学及中 成药的研制提供参考。 本文的主要研究工作如下: 1 、深入分析和探讨了一些典型的关联规则挖掘算法,如a i s 算法、a p r i o r i 算法、f p g r o w t h 算法、d l g 算法等。同时,提出了a p r i o r i 算法的一种改进算 法基于数组的挖掘关联规则的d r a 算法,并将该算法与经典的a p r i o r i 算法 的运行效率进行了分析比较,该算法只需要扫描数据库一遍,不需要产生候选集, 运行效率有了较大提高。 2 、在w i n d o w sx p 平台上v i s u a lb a s i c 6 0 的环境下,采用a p r i o r i 算法和 d r a 算法,开发了基于数据挖掘的中医医案分析系统。 3 、基于原始数据的可靠性、准确性和完整性方面的考虑,本研究以自2 0 0 4 年7 月- 2 0 0 5 年1 0 月在山东中医药大学附属医院心血管门诊收集丁书文教授医 案2 2 6 2 份为医案来源,以高血压病和冠心病为例,采用a p r i o r i 算法和d r a 算 法进行频繁项集的搜索,所得医案模型几乎完全符合丁教授在治疗高血压病时常 用的钩藤方和在治疗冠心病时常用的黄芪方。 本课题借助于数据挖掘技术对名老中医的用药规律进行了系统、客观地分 析,突破了以往单纯应用整理、归纳方法总结名老中医经验的传统思路,开创了 应用计算机辅助分析名老中医经验的新方法,对于通过现代科学技术对中医药科 学内涵进行证明和阐述、带动中医药学术水平的提高、拓展中医药的生存空间将 会产生积极的促进作用。 山东师范大掌硕士掌位论文 i i 关键词:数据挖掘;频繁项集;a p r i o r i 算法:用药规律:名老中医经验 山东师范大学硕士学位论文 a b s tr a c t a sak i n do ft e c h n o l o g yo b t a i n i n gk n o w l e d g ef r o mp l e n t i f u ld a t a ,d a t am i n i n g t e c h n o l o g yh a sb e e na p p l i e di nm o r ea n dm o r ed o m a i n s d a t am i n i n gi nt r a d i t i o n a l c h i n e s em e d i c i n eh a sb r o a dp r o s p e c to fa p p l i c a t i o nb u tf u l lo fc h a l l e n g e s of a rt h e s t u d i e so ff a m o u so ro l dt r a d i t i o n a lc h i n e s em e d i c i n ed o c t o r s l e a r n i n gt h o u g h ta n d c l i n i c a le x p e r i e n c e sh a v es t i l lb e e ni ns t a g eo fa r r a n g i n ga n di n d u c i n g t h e r ea r e s u b j e c t i v ei n g r e d i e n t si nt h es t u d i e s t h ei m p o r t a n tp u r p o s eo ft h i st a s ki st om i n e u s i n gd r u g sr e g u l a r i t yf r o mc l i n i c a lm e d i c a lr e c o r d sw i t hd a t am i n i n gt e c h n o l o g ys o a st op r o v i d et h er e f e r e n c ef o rt r e a t m e n t ,t e a c h i n go f t r a d i t i o n a lc h i n e s em e d i c i n ea n d m a n u f a c t u r eo f t r a d i t i o n a lc h i n e s ep a t e n tm e d i c i n e t h em a j o r i t yo f o u rw o r ki ss u m m a r i z e dh e r e : 1 、t h ee x i s t i n gm i n i n ga l g o r i t h m so f a s s o c i a t i o nr u l ea r ea n a l y z e da n dd i s c u s s e d t h o r o u g h l y , s u c h a sa i sa l g o r i t h m 、a p r i o r ia l g o r i t h m 、f p g r o w t ha l g o r i t h m 、d l g a l g o r i t h ma n ds oo n w ep u tf o r w a r d an e wc h a n g e da i g o r i t h m d r aa l g o r i t h mo f m i n i n ga s s o c i a t i o nr u l eb a s e d o na r r a y a tt h es a n a et i m e ,c o m p a r i n gi tw i t ht r a d i t i o n a l a p r i o r ia l g o r i t h m s ,w ea n a l y z et h ee f f i c i e n c yo ft h ea l g o r i t h m s d r aa l g o r i t h mo n l y n e e d ss c a nt h ed a t a b a s eo n et i m e ,n e e d n tg i v eb i r t ht oc a n d i d a t ei t e m s t h ee f f i c i e n c y h a sb e e ni m p r o v e d 2 、w ed e s i g nt h ea n a l y z i n gs y s t e mo ft r a d i t i o n a lc h i n e s em e d i c i n e sc l i n i c a l m e d i c a lr e c o r d sw h i c ha d o p tt h ea p r i o r ia l g o r i t h m sa n dd r aa l g o r i t h m si nw i n d o w s x pa n dv i s u a lb a s i c 6 0 3 、b a s i n go nt h ea d v i s e m e n t o fd e p e n d a b i l i t y ,v e r a c i t ya n di n t e g r a l i t y , 2 2 6 2 p r o f e s s o rd i n g sc l i n i c a lm e d i c a lr e c o r d sw e r ec o l l e c t e df r o mj u l y , 2 0 0 4t oo c t o b e r , 2 0 0 5i nv a s c u l a rm e d i c i n ec l i n i c a lo fs h a nd o n gu n i v e r s i t yo ft r a d i t i o n a lc h i n e s e m e d i c i n ea f f i l i a t e dh o s p i t a l i no r d e rt op r o v et h en i c e t yo ft h ea l g o r i t h m s ,w ea d o p t t h ea p r i o r ia l g o r i t h m st os e e kt h ef r e q u e n ti t e m so fh y p e r t e n t i o na n dc o r o n a r yh e a r t d i s e a s e t h em o d e l sn e a r l ya c c o r dw i t ht h eg o ut e n gf a n ga n dt h eh u a n gq if a n go f p r o f e s s o rd i n gs h u w e nc u r i n gh y p e r t e n t i o na n dc o r o n a r yh e a r t d i s e a s e w e ,w i t ht h eh e l po fd a t am i n i n gt e c h n o l o g y , a n a l y z et h ef a m o u so ro l d l i i 山东师范大学硕士学位论文 t r a d i t i o n a lc h i n e s em e d i c i n e d o c t o r s u s i n gd r u g sr e g u l a r i t ys y s t e m a t i c a l l ya n d o b j e c t i v e l y , b r e a c ht r a d i t i o n a lt h o u g h to fa r r a n g i n ga n di n d u c i n gf a m o u so ro l d t r a d i t i o n a lc h i n e s em e d i c i n ed o c t o r s l e a r n i n gt h o u g h ta n dc l i n i c a le x p e r i e n c e s s i m p l y , c r e a t ean e wm e t h o dt h a tu s i n gc o m p u t e r st o a n a l y z ef a m o u so ro l dt r a d i t i o n a l c h i n e s em e d i c i n ed o c t o r s e x p e r i e n c e ,a n di sa b o u tt ob r i n ga c t i v ee f f e c tf o r t e s t i f y i n g a n de x p a t i a t i n gc o n n o t a t i o n ,a d v a n c i n gl e a r n i n g l e v e l ,e n l a r g i n ge x i s t e n t s p a c eo f t r a d i t i o n a lc h i n e s em e d i c i n e k e yw o r d s :d a t am i n i n g ;f r e q u e n ti t e m s ;a p r i o r ia l g o r i t h m :u s i n gd m g s r e g u l a r i t y :f a m o u so ro l dt r a d i t i o n a lc h i n e s em e d i c i n ed o c t o r s e x p e r i e n c e v 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得( 注:如 没有其他需要特别声明的,本栏可空) 或其他教育机构的学位或证书使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示谢意。 学位论文作者签名 丧辞 新繇印坳7 学位论文版权使用授权书 本学位论文作者完全了解堂撞有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。 本人授权堂撞可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在 解密后适用本授权书) 学位敝储躲专镡 导师签字 签字f | 期:2 0 0 t手月日签字日期:2 0 0 石年,月而 山东师范大学硕士掌位孛f i - 文 第一章引言 1 1 课题提出的背景和意义 中医药是中华民族的瑰宝,进行中医药的数据挖掘是中医药现代化研究的重 要组成部分,是对中医药几千年沉淀的宝贵历史数据进行去伪存真、去粗取精的 过程,也是为更好地推进中医药的发展,保持其优势与特色的重要方法。 中医药在漫长的发展过程中形成了自己独特的理论和诊疗经验,中医医案中 的方、药、证之问的关系错综复杂,在一定程度上保持了中医药系统的特色,但 也成为中医药走向世界的障碍。大量的医案散见于文献刊物中,散见于名老中医 的案头,他们的学术经验是中医药事业的一笔巨大财富。总结其经验,继承其学 术,既是今天振兴中医药事业的需要,也是历史赋予我们的重任。目前,对名老 中医的学术思想利临证经验尚停留于口授、身教、整理、归纳阶段,带有一定的 主观成份,缺乏全面系统的整理与统计,学者搜寻不易,难以为广大医务工作者 借鉴应用。本课题对数据挖掘技术在中医药方面的应用进行了有益的探索,设计 并实现了基于数据挖掘的中医医案分析系统,通过收集治疗典型病例的众多医 案,从大量有噪声、不完整甚至是不一致的数据中,挖掘出典型病例的中医用药 规律,突破了以往单纯应用整理、归纳方法总结名老中医经验的传统思路,为中 医临床治疗、中医药教学及中成药的研制提供参考,开创了应用计算机辅助分析 名、老中医经验的新方法。 1 2 数据挖掘简介及其在中医药研究中的应用 1 2 1 数据挖掘简介 数据挖掘( d a t a m i n i n g ,d m ) 是为解决“数据丰富,知识贫乏”状况而兴起 的边缘学科之一,是从海量数据中获取知识的可靠技术。近年来数据挖掘引起了 信息产业界的极大关注。其主要原因是随着数据库技术的成熟和数据应用的普 及,各个领域所积累的数据量正在阻指数速度增长。人们正面临着“数据丰富而 知识贫乏”的问题,所以迫切需要一种新的技术从海量数据中自动、高效地提取 所需的有用知识。数据挖掘技术就是适应这一要求迅速发展起来的一种处理数据 山东师范大掌硕士学位论文 的新技术,它可以从大型数据库中的大量原始数据中提取人们感兴趣的、隐含的、 尚未被发现的有用的信息和知识。 数据挖掘是一个融合数据库、机器学习、数理统计、可视化和信息科学技术 为一体的新兴的交叉学科领域。它的发展不仅可以为商务管理、科学研究、查询 优化、过程控制、医药等领域提供决策支持,而且可以为相关的计算机学科注入 新的活力,从而推进计算机科学向纵深方向发展。作为仍在迅速发展的领域,数 据挖掘还没有形成统一的定义,比较公认的定义为:数据挖掘是从大量数据中提 取或“挖掘”出有用的知识“。 1 2 2 数据挖掘技术在中医药研究中的应用 数据挖掘技术只有十多年的发展时间,但其应用十分广泛。在商业、金融业、 工业中都有成功的应用例子,取得了一定的经济和社会效益。数据挖掘技术在中 医药研究领域中的应用刚刚起步,但已经表现出了很好的势头,目前数据挖掘技 术在此领域中的应用主要表现在以下几个方面。 l 、在中医药信息化研究中的应用 对中医药信息进行文本数据挖掘是促进中医药信息结构化的途径之一。从中 医诊断、辨证到组方的各个环节,用文字语言描述的过程占很大比例,使得定性 内容相对多一些。当中医药在实现以计算机技术为主要工具的信息化研究时,这 种定性信息的量化常常会遇到相当的网难,即使是原先有量化信息的用药剂量, 也因不同中药有效成分含量的差异而失去了原先的意义。因此,对以古语言和纯 文本为主的中医药理论和实践进行结构化解析是中医药信息化研究的重要内容, 其中的某些内容可以通过对文本的数据挖掘技术来实现。可以采用特征抽取的方 法,或者采用聚类的方法描述某些相似病症的内容,找出其中隐含的相似关系。 2 、在中医药专家系统研究中的应用 计算机和人工智能技术在中医药研究中最普遍的应用是各种专家系统,如关 幼波肝病专家系统等”3 。专家系统是一种面向特定对象的决策支持系统 ( d e c i s i o ns u p p o r ts y s t e m ,d s s ) ,它根据专家对某种疾病的认识及多年积累的 治疗经验,在建立相应知识库的基础上,采用各种推理方法模拟专家进行疾病的 诊断和治疗。对于一个专家系统来说,实际诊断成功与否的关键取决于它的知识 库中知识的完备程度,而仅凭中医专家的口授心传和系统设计者的领悟,往往难 山东师范大掌硕士学位论文 以满足专家系统知识库的要求,而且相对简单的推理往往也难以体现出人最活跃 的主观能动的部分,知识的获取途径和表示方法因此成为限制专家系统发展的瓶 颈。而数据挖掘可以在大量经验中发现隐含的、客观有用的新型知识,这对于丰 富专家系统的知识库将起到积极的作用。 3 、在中医药基础理论研究中的应用 数据挖掘不仅在中医药临床实践中有广泛的应用,也可应用于中医药基础理 论的现代化研究中。如中药药性理论的现代化研究,中药药性理论是中药配伍应 用的核心内容之一,其内容完善的程度将直接影响到组方的准确性和治疗的有效 性。中医对于中药药性的认识是一个逐渐积累和完善的过程,至今还存在某些药 物的药性不完整的情况,如华山参的药性特征为只有性味而无归经”;对于中药 的功效归类也因专家对药物认识程度的不同,而导致同一药物分属于不同类别, 甚至功效分类名称也不统一的情况。数据挖掘技术可以在分析大量历史数据的基 础上,协助中药药性的完善研究。如数据挖掘中的分类方法可以依据药性特征的 辨识结果,将一些还未归类的中药进行分类预测;也可用聚类方法将药味聚类后, 根据同类药物的药性相近,归类也应相近的特点进行分类预测;用决策树和关联 规则分析可以自动对药物进行功效分类与其药性特征之间的关联模式或规则研 究;粗糙集理论可以实现对药物分类的简化药性特征研究等。进行中药药性特征 的数据挖掘研究,对中药复方配伍的科学规律研究有着重要意义。 4 、在中药化学研究中的应用 中药发挥作用的物质是其所含的化学成分,在中药中提取有效成分直接用于 新药开发或作为先导化合物,经过结构修饰或改造后进行合理药物设计,然后开 发为新药的途径,已成为现代新药开发的热点。中药化学成分一般较人工合成的 成分复杂,具有相同药效的成分往往具有相似的活性基团和比较稳定的活性构象 。因此通过对大量中药化学成分的二维和三维构象分析,以及结构与活性之间 关系的分析,进行药效基团的建模研究,并实现对中药化学成分数据库的柔性搜 索,为更充分利用中药化学成分提供技术支持。如利用分子对接技术( d o c k ) 在进 行受体与配体结合分析的基础上,建立对应结构类型不同配体的构效方程和它们 的结合模式:比较分子力场分析( c o m f a ) 和定量构效关系( q s a r ) 的结合可以在提 取大量分予共同活性结构模式的基础上,揭示出化合物之间的联系和潜在特征以 a l l 东师范大掌硕- a 学位论文 及与生物活性之间的关系,并可实现对成分数据库和活性数据库中有价值信息的 挖掘。 5 、在中医医案方面的应用 中医医案在中医药科学中扮演着非常重要的角色,大量的医案散见于文献刊 物中,散见于名老中医的案头,他们的学术经验是中医药事业的一笔巨大财富。 但“百花齐放、百家争鸣”的局面使得医案经常出现药味和药量千差万别的情况, 无法形成中医在整体上对疾病规律统一的认识。应用数据挖掘方法对众多中医专 家的宝贵经验进行全面整理和挖掘,将会比较全面地获得对中医药基础理论和临 床实践规律的统一的认识。其中决策树、关联规则和面向属性的归纳方法可以在 不同配伍层次( 单味药、药物功效分类等) 上分析药味配伍的模式或规则。 6 、在中医药其他方面的应用 数据挖掘技术不但可以应用到中医药研究中的上述方面,而且在研究中医病 证与复方组方的关系、中医症候与现代医学i 临床表现之间关联的关系以及中医药 信息数据仓库的开发研究等方面都可以得到广泛应用。 1 3 本课题的主要研究目标 本课题拟开发设计基于数据挖掘的中医医案分析系统,实现对名老中医的医 案从辨证用药、对症用药和辨病用药等多层面进行系统、客观地统计分析,主要 研究工作如下: l 、深入分析和探讨一些典型的关联规则挖掘算法,如a i s 算法、a p r i o r i 算 法、f p - g r o w t h 算法、d l g 算法等。同时,提出a p r i o r i 算法的一种改进算法一 一基于数组的挖掘关联规则的d r a 算法,并将该算法与经典的a p r i o r i 算法的运 行结果及运行效率进行分析比较。 2 、在w i n d o w sx p 平台上v i s u a lb a s i c 6 0 的环境下,采用a p r i o r i 算法和 d r a 算法,开发基于数据挖掘的中医医案分析系统。 3 、基于原始数据的可靠性、准确性和完整性方面的考虑,本研究以自2 0 0 4 年7 月一2 0 0 5 年1 0 月在山东中医药大学附属医院心血管门诊收集丁书文教授医 案2 2 6 2 份为医案来源,以高血压病和冠心病为例,采用a p r i o r i 算法和d r a 算 法进行频繁项集的搜索,检验算法的准确性。 4 山东师范大学硕士学位论文 第二章数据挖掘技术研究 2 1 数据挖掘技术 2 1 1 数据挖掘功能概述 数据挖掘任务一般可分为两类:描述和预测。描述性挖掘任务刻划数据库中 数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。通过以 下数据挖掘功能以及它们发现的模式类型可以达到预测和描述的目的。 l 、概念类描述 概念是思维的基本形式之一,反映客观事物的一般的、本质的特征。概念 描述( c o n c e p td e s c r i p t i o n ) 的目的是产生代表概念的数据的特征化比较描述, 而不是对数据的简单枚举。概念描述也称为类描述( c l a s sd e s c r i p t i o n ) 。数据 特征化( d a t a c h a r a c t e r i z a t i o n ) 是目标类数据的一般特征或特性的汇总。通常 用户反映指定类的数据通过数据库查询收集。数据区分( d a t ad i s c r i m i n a t i o n ) 是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。目标类 和对比类由用户指定,而对应的数据通过数据库查询检索。 2 、关联分析 关联分析( a s s o c i a t i o na n a l y s i s ) 发现关联规则。关联规则是指发现客体 之间的相互关系。关联规则通常表示成a ;b ,即a i a ,jb i 岛这 样的形式,其中,a i ( j 1 ,m ) ) ,毋( j l ,n ) ) 是属性一值对。它 意味着在目标数据中客体bj 风倾向于同客体a i a ,一起出现。例 如:规则:c o m p u t e r j s o f t w a r e ( 1 ,6 0 ) 指出1 销售记录中包含“c o m p u t e r ” 和“s o f t w a r e ”两个商品;而对于条包含( 购买) “c o m p u t e r ”商品的交易事 务记录中有6 0 可能也包含( 购买) “s o f t w a r e ”商品。这里,6 0 为关联规则的 信任度,而1 为关联规则的支持度。 3 、分类和预测 分类( c l a s s i f i c a t i o n ) 就是找出一组能够描述数据集合典型特征的模型( 或 函数) ,以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离 散类别之一。分类挖掘所获得的分类模型可以采用多种形式加以描述输出。其中 山东师范大掌硕士学位论文 主要的表示方法有:分类规则( i f t h e n ) ,决策树( d e c i s i o nt r e e s ) 、数学公式 ( m a t h e m a t i c a lf o r m u l a ) 。分类通常用于预测未知数据实例的归属类别,如一个 银行客户的信用等级是属于a 级、b 级还是c 级。 预测( p r e d i c t i o n ) 是用于预测某数值属性的值( 连续数值) 。预测和分类的 不同点在于:用预测法来表示连续数值的预测,用分类来表示对有限离散值预测。 4 、聚类 聚类( c l u s t e r i n g ) 是根据客休属性对一系列未分类客体进行类别的识别,把 一组个体按照相似性归并成若干类别,即“物以类聚”。它的目的是使得属于同 一类别的个体之间的距离尽可能的小而不同类别的个体间的距离尽可能的大。客 体的聚类应使类内相似性最大,而类间相似性最小。一旦聚类得以确定,各个客 体就作相应的聚类标记,并概括同一聚类中的各个客体的共同特性,从而形成类 别描述。例如,对一个商场购买力较大的顾客居住地进行聚类分析,以帮助商场 主管针对相应顾客群采取有针对性的营销策略。 5 、离群挖掘 一个数据库的数据一般不可能都符合分类预测或聚类分析所获得的模型,那 些不符合大多数数据对象所构成的规律( 模型) 的数据对象就被称为离群数据。在 一些应用场合,如各种商业欺诈行为的自动检测,小概率发生的事件往往比经常 发生的事件更有挖掘价值。对离群数据的分析称为离群挖掘( o u t l i e rm i n i n g ) 。 数据中的离群数据可以利用数据统计方法分析获得,即利用已知数据所获得的概 率统计分布模型,或利用相似度计算所获得的相似数据对象分布,分析确认离群 数据。 6 、演变分析 演变分析( e v o l u t i o na n a l y s i s ) 就是对随时间变化的数据对象的变化规律 和趋势进行建模描述。这一建模手段包括:概念描述、对比概念描述、关联分析、 分类分析。这类分析的不同特点包括时间序列分析、序列或周期模式匹配和基于 类似性的数据分析。 2 1 2 数据挖掘系统的结构 典型的数据挖掘系统的结构如图2 1 所示,其主要成分有数据库、数据仓库 或其它信息库、数据库或数据仓库服务器、知识库、数据挖掘引擎、模式评估模 山东师范大学硕士学位论文 块、图形用户界面。 f = = = 习 蚓 图2 - i 数据挖掘系统总体结构描述 i 、数据库、数据仓库和其它信息库 数据库、数据仓库和其它信息库是进行数据挖掘的数据源,可以在它们的数 据上进行数据清理和集成。 2 、数据库或数据仓库服务器 根据用户的数据挖掘要求,数据库或数据仓库服务器负责提取相关的数据。 3 、知识库 知识库是特定的领域知识,用于指定搜索或评估结果模式的兴趣度。这种知 识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。 3 、数据挖掘引擎 数据挖掘引擎是数据挖掘的最重要的基本部分,由一组功能模块组成,用于 特征化、关联、分类、聚类分析以及演变和偏差分析。 4 、模式评估模块 通常模式评估模块使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚 集在有趣的模式上。它可能使用兴趣度阈值过滤发现的模式。模式评估模块也可 以与挖掘模块集成在起,这依赖于所用的数据挖掘方法的实现。 5 、图形用户界面 图形用户界面在用户和数据挖掘系统之间通信,允许用户与系统交瓦,指定 数据挖掘查询或任务,提供信息、帮助搜索聚集,根据数据挖掘的中间结果进行 山东师范大学硕士学位论文 探索式数据挖掘。此外,此成分还允许用户浏览数据库和数据仓库模式或数据结 构、评估挖掘模式。 2 1 3 数据挖掘与传统数据分析工具和机器学习的区别 对于在线分析o l a p ( o nl i n ea n a l y t i c a lp r o c e s s i n g ) ,用户首先建立一 个假设,然后用o l a p 检索数据库来验证这个假设是否正确。比如一个分析师想 找到是什么导致拖欠贷款,他可能先做一个初始假设,认为低收入的人信用也低, 然后他可以用o l a p 来验证他的假设,如果这个假设没有被证实,他可能去查看 那些高负债的账户,如果还不行,他可能要把收入和负债一起来考虑,继续进行 下去直到找到他想要的结果或放弃。也可以这么说,o l a p 分析师是建立一系列 的假设,然后通过o l a p 验证或推翻这些假设来最终得到自己的结论。o l a p 过程 本质上是一个演绎推理的过程。数据挖掘与o l a p 相比其不同之处在于数据挖掘 不是用来验证某个假设的模式( 模型) 的正确性,而是在数据库中自己寻找模型。 它在本质上是一个归纳的过程。举个例予,一个用数据挖掘工具的分析师想找到 引起贷款拖欠的因素,数据挖掘可以帮他找到高负债和低收入是引起这个问题的 因素,甚至还能发现一些分析师从没想过或试过的其它因素。 概括说来,数据挖掘与传统的数据分析( 如查询、报表、联机分析处理) 的 本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识9 。数据 挖掘所得到的信息应具有原先未知、有效和实用三个特征。先前未知的信息是指 该信息是预先未预料的。即数据挖掘是要发现那些不能靠直觉发现的信息或知 识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价 值。 数据挖掘是从现实世界中存在的一些具体的数据中提取知识,这些数据在数 据挖掘出现之前早已存在;而机器学习所使用的数据是专门为机器学习而特别准 备的数据,这些数据在现实世界中也许毫无意义。由于数据挖掘使用的数据来自 于实际的数据库,所要处理的数据量可能很大,因此数据挖掘算法的效率和可扩 充性就显得尤为重要;此外,数据挖掘所处理的数据由于来自于现实世界,数据 的完整性、一致性和正确性都很难保证,如何将这些数据加工成算法可以接收的 数据也需要进行深入的研究;再者,数据挖掘可以利用目前数据库技术所取得的 研究成果来加快挖掘过程,提高挖掘的效率。最后,由于数据挖掘处理的数据来 山东师范大掌硕士学位论文 自于实际的数据库,而与这些数据库数据有关的还有其他一些背景知识,这些背 景知识的合理运用也会提高算法的效率。 2 2 关联规则 2 2 1 关联规则介绍 数据挖掘所发现出的知识种类中关联规则的应用是目前数据挖掘领域中研 究最为广泛的课题之一”1 。关联规则是描述数据库中数据项之间潜在关系的规 则。关联规则挖掘的一般对象是事务数据库,起初丰要应用于零售业,比如超级 市场的销售管理。条形码技术的发展使得数据的收集变得更容易更完整,从而存 储了大量交易资料,关联规则是通过辨别这些交易资料,来分析顾客的购买模式。 根据关联规则提供的信息可以用做商品销售目录设计、商品布置、针对性的营销 等。 1 9 9 3 年a g r a w a lr 等人首先提出了挖掘顾客交易数据库中项集的关联问题 “,并于1 9 9 4 年提出了挖掘关联规则的经典a p r i o r i 算法“”。后来有不少学者 对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有a p r i o r 算法 进行优化,如引入随机采样。”、并行的思想“”、使用哈希方法“”等,以提高算法 挖掘规则的效率,有的为了避免频繁集产生方法的一些缺陷,提出了独立于 a p r i o r i 算法的挖掘关联规则的新方法,如j i a n w e ih a n 等人提出的不产生候选 挖掘频繁项集的f p - g r o w t h 方法“”、基于关联图的挖掘关联规则的方法“6 1 等。 2 2 2 关联规则的有关定义 设,= i ,f z ,k ) 为数据项集合,d 为与任务相关的数据集合,也就 是一个交易数据库,其中的每个交易r 是一个数据项子集,( ,) ,每个事务 都有一个标识符,称为t i d 。 定义l 设4 为一个数据项集合,交易r 包含a 当且仅当,。 定义2 包含k 个项的项集称为后一项集,例如( m i i k ,c a k e ) 是一个2 一项集。 定义3 如果项集a 在事务数据库d 中的支持度不少于用户给定的最小支 持度阈值,则称a 为频繁项集,频繁k 一项集的集合记作厶。 定义4 关联规则表示为ajb 的形式,其中aci ,bc ,并且 9 山东师范大学硕士学位论文 a nb = o 描述关联规则属性常用的参数有: l 、支持度( s u p p o r t ) 支持度s 是d 中包含一u 口的事务百分比,它是概率,( at 3b ) ,即 s u p p o r t ( ajb ) = p ( aub ) ,它描述了一和b 这两个物品集的并集在所有的 事务中出现的概率。例如,一事务数据库中共有1 0 0 0 条记录,其中同时包含a 和 b 的有1 0 0 条,则关联规则a j b 的支持度为1 0 0 1 0 0 0 x 1 0 0 = l o 。支持度表 示了规则的频度。满足最小支持度的项集称之为频繁项集。 2 、置信度( c o n f i d e n c e ) 置信度c 为d 中包含a 的事务中同时也包含曰的百分比,它是概率 ,( 曰la ) ,即c o n f i d e n c e ( ajb ) = p ( ba ) 。在上例中,如果有2 0 0 条记录 包含a ,则关联规则ajb 的置信度为1 0 0 2 0 0 1 0 0 = 5 0 。置信度表示了规 则的强度。 同时满足最小支持度阈值和最小置信度阈值的规则称作强规则。 r 3 、期望置信度( e x p e c t e dc o n f i d e n c e ) “” 期望置信度p 为d 中包含b 的事务百分比,即尸( b ) 。期望置信度描述在没 有任何条件影响时,物品集曰在所有事物中出现的概率有多大。在上例中如果有 1 5 0 条记录包含b ,则关联规则a j b 的期望置信度为1 5 0 1 0 0 0 x l o o = 1 5 。 4 、作用度( l i f t ) 1 作用度是置信度与期望置信度的比值,即p ( ba ) p ( b ) 。作用度描述了 项集4 的出现对项集b 的出现有多大的影响,作用度越大,说明物品集占受物品 集a 的影响越大。因为项集曰在所有事务中出现的概率是期望置信度;而项集丑 在所有项集a 出现的概率是置信度,通过置信度与期望置信度的比值反映了在加 入“项集爿出现”这个条件后,项集b 的出现概率发生了多大的变化。在上例中, 关联规则ajb 的作用度为5 0 1 5 “3 3 。般情况,有用的关联规则的作用 度都应该大于1 ,只有关联规则的可信度大于期望可信度,才说明一的出现对b 的出现有促进作用,也说明了它们之间某种程序的相关性,如果作用度不大于1 , 则此关联规则也就没有意义了。 5 、兴趣度( i n t e r e s tm e a s u r e ) 8 1 1 ”。3 山东师范大掌硕士学位论文 在数据挖掘中,并不是所有的强关联规则都是足够的有趣而值得向用户提 供。例如一个学校的5 0 0 0 名学牛进行早晨参与活动与早餐的情况调查。数据显 示:6 0 的学牛( 3 0 0 0 ) 晨练,7 5 的学生( 3 7 5 0 ) 吃早餐,4 0 的学生( 2 0 0 0 ) 即晨 练又吃早餐。假设最小支持度为4 0 ,最小置信度为6 0 ,则晨练j 吃早餐。是 一强关联规则,因为其支持度为4 0 ,置信度为2 0 0 0 3 0 0 0 1 0 0 = 6 6 ,满足最 小支持数和最小置信度的要求,然而以上规则是误导,因为总的吃早餐的学生占 7 5 ,比6 6 还要大,为了修剪一些无趣的规则,即避免牛成错觉的关联规则, 下面定义了兴趣度这个度量值。 基于差异思想的兴趣度定义i r - 丽忑c k 面- i s ( 页b 两) ,分母上的删 。,s ( 8 ) 只 m a ) 【 l ,j l 廿” 是一个标准化因子,使得i ri ( 1 。根据这个式子,一条规则的兴趣度越大( s o ) 说明对这条规则越感兴趣( 即其实际利用价值越大) :一条规则的兴趣度越小 ( 0 ) 说明对这条规则的反面规则越感兴趣( 即其反面规则的实际利用价值越 大) 。 基于概率论的兴趣度定义:j = j i j 蔷暑。这样整个关联规则的评价体系就 可以统一在概率论的范畴内。即从概率论的角度说,兴趣度,反映了关联规则中 一和b 之间的关系究竟如何密切。通过定义可以说明,当a 和口相:芒i = 独立时,他 们同时发生就纯属偶然,他们同时发生的意义就不会被人们关注。即,当 s ( a b ) * s ( a ) s ( b ) 时,其所对应的关联规则是没有意义的。相应的,当一条关联 规则的兴趣度大于1 说明对这条规则越感兴趣;当一条规则的兴趣度越小于1 说明对这条规则的反面规则越感兴趣;显然,此种定义的兴趣度不小于0 。 关联规则描述了彳的出现影响到丑的出现。现实中,这样的例子很多。例如 超级市场利用收款机收集存储了大量的售货数据,这些数据是一条条的购买事务 记录,每条记录存贮了事务处理时间,顾客购买的物品,物品的数量及金额等。 这些数据中常常隐含形式如下的关联规则:在购买牛奶的顾客当中,有7 0 的人 同时购买了面包。这些关联规则很有价值,商场管理人员可以根据这些关联规则 更好的规划商场,如将面包和牛奶这样的商品摆放在一起,能够促进销售。一些 数据不像售货数据那样很容易就能看出一个事务是许多物品的集合,但稍微转换 山东师范大掌硕士学位论文 一下思考角度,仍然可以像售货数据一样处理。比如人寿保险,一份保单就是一 个事务。保险公司在接受保险前,往往需要记录投保人详尽的信息,有时还要到 医院做身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工 作地址、工资水平等。这些投保人的个人住处就可以看作事务中的样品。通过分 析这些数据,可以得到类似以下这样的关联规则:年龄在4 0 岁以上,工作在a 区的投保人当中,有4 5 的曾经向保险公司索赔过。在这条规则中。年龄在4 0 岁以上是物品甲,工作在a 区是物品乙。向保险公司索赔过则是物品丙。可以看 得出来,a 区可能污染比较严重,环境比较差,导致工作在该区的人健康状况不 好,索赔率也相对比较高。 2 2 3 关联规则的分类 我们将关联规则按不同的情况进行分类。1 : 1 、基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的 关系:而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字 段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数据 值型关联规则中也可以包含种类变量。例如:性别= “女”j 职业= “秘书”, 是布尔型关联规则:性别= “女”j a v g ( 收入) = 1 8 0 0 ,涉及的收入是数值类型, 所以是一个数值型关联规则。 2 、基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 在单层的关联规则中。所有的变量都没有考虑到现实的数据是具有多个不同 的层次的:而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例 如:i b m 台式机j s o n y 打印机,是一个细节数据上的单层关联规则;台式机 j s o n y 打印机,是一个较高层次和细节层次之间的多层关联规则。 3 、基于规则中涉及到的数据的维数,关联规则可以分单维和多维的。 在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而 在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联 规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关 系。 山东师范大学硕士学位论文 2 3 挖掘关联规则的经典算法 为了描述算法,我们给出了原事务数据库如图2 2 ,并给每个项目赋一个整 数,b r e a d l ,c o k e - 2 ,m i l k 一3 ,b e e r 一4 ,c a k e - 5 ,得整数化后的数据库如图2 3 。 设最小支持度为2 2 ,因为一共有9 个事务,所以频繁项目集至少要出现 ( 9 x 2 2 z 2 ) 2 次,给定一个事务数据库d ,挖掘关联规则的问题就是找出所有 满足最小支持度和最小置信度的关联规则,即挖掘出所有的强规则。该问题可分 解为两个子问题:找出所有频繁项目集,即出现频率至少和预定义的最小支持 度一样的项目集。由频繁项目集产牛关联规则。一旦找出了频繁项目集,则由 它们产生强关联规则就简单了,因为可以用c o n f i d e n c e ( ajb ) = p ( ba ) = 型胆塑【二竺竺掣来计算置信度,其中s u p p o r t _ c o u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论