




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘在中文病历中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 数据挖掘也被称为知识发现,她是指在些事实或观察数据的集合中寻找隐 藏模式的决策支持过程。文本数据瘴分类是数据挖掘中的一个重要蠹容。电子病 历也是一类文本数据集。对这些数据集进行数据挖掘及分类是非常有必要的。本 研究中,我们研究了一静薪的基于短语匹配熬特征提取算法。并把这种算法应用 到中文真实病历豹分类中,取得较好的分类效采。具体处理过程是,首先采集了 医院内科真实中文病历2 0 0 份。然后进行数据清洗过程,因为数据是来源予医院 的真实数据,蕊戬存在着不完整麴、含有噪声的和不一致的数据。之后对数据进 行壁化工作,特征提取,在我们的实验中采用的是一种新的特征提取方法即基于 短语酶特征提取方法;我翻将这2 0 0 份含寿4 种瘸静的病历进行3 种组合,然爱 通过算法将他们分别进行分类。其中所用到的短语匹配算法可以归纳为如下的步 骤: 1 ) 获得数据库中每对文档的匹配短语集合。 2 ) 创建一个包括步骤l 所有集合的集合。去除这个集合中的匹配短语。 3 ) 把每个文档表示为一个淘量,并 趋一诧。 4 ) 用s o m 创建一个对威于这个向量集合的分类器。 5 ) 可视讫分类结采,我穗黧每一类裰关的特征短语。 真实病历数据实验表明,这种新的方法能够以很高的准确度对真实病历进行 分类。这种算法麓鑫动铁病历数据集中提取塞主要羲特征,对病历进 亍分类链缀 好地帮助医务工作人员诊断疾病,并且总结出不同病种间有哪些以前从未发现的 不同薛表现特征。尽管在我绷的实验中所尾到的数据集是医院匏病历,但是这墨 提出的分类方法如果应用到其它类型的文本数据集也是适用的。 关键 霉:数据挖拖,神经霹络,中文瘸历,文本分类,特征提取 a b s t r a c t a b s t r a c t d a t am i n i n g ,a l s oc a l l e dk n o w l e d g ed i s c o v e r y ,m e a n sad e c i s i o ns u p p o r t i n g p r o c e s so ff i n d i n go u th i d d e np a t t e r n s i nal a r g es e to ff a c t so ro b s e r v e dd a t a c a t e g o r i z a t i o no ft e x td a t a b a s ei so n e o ft h ei m p o r t a n tt a s k so fd a t am i n i n g e l e c t r o n i c m e d i c a lc a s er e c o r d si sa l s oac l a s so ft e x td a t a s e t d a t am i n i n ga n dc a t e g o r i z a t i o no f t h o s ed a t a s e t si so fm u c hs i g n i f i c a n c e i nt h i ss t u d y , 2 0 0r e a lc h i n e s em e d i c a lr e c o r d s w e r ec o l l e c t e df r o mt h ea f f i l i a t i o nh o s p i t a lo fc h e n g d um e d i c a lc o l l e g e a n dt h e n ,d a t a c l e a n s i n g w a sc o n d u c t e d ,s i n c et h er e a ld a t a s e ti n c l u d e si m p e r f e c t ,n o i s ya n d d i s c o n t i n u o u sd a t a t h en e x ts t e pi st oq u a n t i f yt h ed a t aa n dt oe x t r a c tt h ef e a t u r e s i n t h i ss t u d y , w ee m p l o y e dan o v e lf e a t u r ee x t r a c tm e t h o d t h ep h r a s eb a s e df e a t u r e e x t r a c t i n gm e t h o d w ec o m b i n et h e2 0 0c h i n e s em e d i c a lr e c o r d sc o v e r i n g4 d i f f e r e n t d i s e a s e si n t o3d i f f e r e n tg r o u p s i ns u m m a r y , t h em a t c h i n gp h r a s ea l g o r i t h mc a nb e s t a t e da sf o l l o w s 1 ) o b t a i nt h es e to ft h em a t c h i n gp h r a s e so f e a c hp a i ro f d o c u m e n t si nd a t a s e t 2 ) c o n s t r u c ta s e ti n c l u d i n ga l lt h es e ti ns t e p1 r e m o v i n gt h er e p e a t i n gm a t c h i n g p h r a s e s 3 ) r e p r e s e n te a c hd o c u m e n tb ya v e c t o r 4 ) u s i n gs o m t oc o n s t r u c tac l a s s i f i e rt ot h ev e c t o rs e t 5 ) v i s u a l i z et h er e s u l ta n df i n do u tf e a t u r ep h r a s e st h a ta r ea s s o c i a t e dw i t he a c h c l a s s f i n a l l y , w ec a t e g o r i z et h ed a t ab yt h ep r o p o s e dm e t h o d ,s u c ha l g o r i t h mo b t a i n s g o o dp e r f o r m a n c eo fc a t e g o r i z a t i o n i naw o r d ,t h ep r o p o s e dm e t h o dc a na u t o m a t i c a l l y e x t r a c tm a j o rf e a t u r e so fd i f f e r e n td i s e a s e sf r o mm e d i c a lc a s er e c o r d sd a t a s e t a n d c a t e g o r i z a t i o n so ft h ed a t a s e tw i l la s s i s tt h em e d i c a ls t a f ft od i a g n o s ed i s e a s e sa n dt o i n v e s t i g a t et h ef e a t u r e so fd if f e r e n td i s e a s e s ,w h i c hm a y n o tb ed i s c o v e r e db e f o r e a i 疆o u g ht h ew o r kp r e s e n t e dh e r ei sa i m e da tm e d i c a lc a s er e c o r d sc a t e g o r i z a t i o n ,i t c o u l db ee a s i l ya d a p t e dt oa n yd o c u m e n tt y p ea sw e l l k e y w o r d s :d a t am i n i n g ,n e u r a ln e t w o r k ,c h i n e s em e d i c a lr e c o r d s ,t e x tc a t e g o r i z a t i o n , f e a t u r ee x t r a c t l l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名: 日期:涉年,月z 口e t 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:导师签石j 眩 l 1 , 导师签名:! 丛 日期:谚年r 月洳日 第一章前言 1 1 研究目的和意义 第一章前言 随着计算机科学与技术的发展,计算机被应用到各行各业,计算机软件带来的效 率、效益越来越被人们重视。然而由此带来的大量数据,使人们陷入数据的海洋却在慨 叹知识贫乏;如何从大量的数据中提取并找到有用信息以指导决策,是要迫切解决的问 题,在这种情况下,数据挖掘【l 】这一新型的数据分析技术于1 9 9 5 年诞生了。近十年, 数据挖掘的研究工作取得了很大的进展,各种数据挖掘软件的应用极大地推动了人们掌 握、处理信息的能力,并为人们带来了很好的经济效益。 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越 来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分 析,以便更好地利用这些数据。目前的数据库系统无法发现数据中存在的关系和规则, 无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致 了数据爆炸但知识贫乏的现象。面对这一挑战,数据丌采和知识发现( d m k d ) 技术应运 而生,并很快成为了一种决策支持的新手段【2 】【3 】【4 】。 1 9 8 9 年8 月,在第1 1 届国际人工智能联合会议的专题研讨会上,首次提出在数据 库中的知识发现( k d d :k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 技术。1 9 9 1 、1 9 9 3 、1 9 9 4 年又 相继举行了k d d 专题讨论会。1 9 9 5 年,在美国计算机年会( a c m ) j 2 ,提出了数据挖掘 ( d m ,d a t am i n i n g ) 的概念。即通过从数据库中抽取隐含的、未知的、具有潜在使用价 值信息的过程。 由于数据库中的数据被形象地比喻为矿床,因此,数据挖掘一词很快流传开来。 由于它应用的普遍性及由此带来的高效益,新型的数据分析技术数据挖掘成为一个 具有广阔应用f j 景的热门研究方向。k d d 的研究吸引了大量的各个领域的专家和研究 机构从事该领域的研究。许多公司纷纷推出了自己的数据采掘系统。 目前见到的专门讨论数据挖掘技术在中文病历分类中的应用的论著还很少,主要 集中在单独应用数据挖掘对公司的数据库进行针对性的分析当中,很少有实际数据挖 掘产品应用到医学临床上。电子病历是临床医学常见的文本数据,不同病人的不同病 种构成了一类文本数据集。人们对这些数掘集进行数据挖掘及分类是非常有必要的。 在本研究中,通过实验,我将讲述种数据挖掘应用到中文电子病历集中的方法,即 电子科技大学硕士学位论文 对中文病历数据集进行分类的方法。此数据挖掘技术能自动从病历数据集中提取出主 要的特征,从而对病历进行分类,这样能很好地帮助医务工作人员诊断疾病,并且总 结出不同病种间有哪些以前从未发现的不同的表现特征。另外,在实验中所用到的数 据集是取自于成都医学院附属医院的真实病历。 1 2国内外研究现状 近年来,数据挖掘引起了信息产业界的极大关注。国内外各研究机构纷纷开展了 对数据挖掘技术的研究和探索工作。下面,本文将分别从国内和国外两个方面对数据挖 掘技术的研究现状进行阐述,并对数据挖掘技术的未来发展趋势、研究方向及热点问题 进行探讨。 1 2 1国内现状 我国的数据挖掘研究开始于9 0 年代中期,到9 0 年代中后期,初步形成了知识发 现和数据挖掘的基本框架。自9 0 年代中期一批研究成果( 学术论文) 逐渐发表在计算 机学报、计算机研究与发展、软件学报、人工智能与模式识别等刊物上研究重 点也正在从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学 科之间的相互渗透。但是基本上还是以学术研究为主,实际应用上处于起步阶段。与国 外相比,国内对d m k d 的研究稍晚,没有形成整体力量【5 】【6 】7 】【8 】,进行的大多数研究项 目是由政府资助进行的,如国家自然科学基金、8 6 3 计划、”九五”计划等。1 9 9 3 年国家 自然科学基金首次支持该领域的研究项目。国内从事数据挖掘研究的人员主要在大学, 也有部分在研究所或公司,所涉及的研究领域很多,一般集中于学习算法的研究、数据 挖掘的实际应用以及有关数据挖掘理论方面的研究。如清华大学、中科院计算技术研究 所、空军第三研究所、海军装备论证中心等。其中,华中理工大学、复旦大学、浙江大 学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的 优化和改造。 1 2 2 国外现状 从第一届k d d 国际研讨会于1 9 8 9 年8 月在美国底特律举行到2 0 0 2 年7 月第八届 a c m s i g k d d 知识发现和数据挖掘国际会议在加拿大艾德蒙顿举行,有关k d d 的国 际学术会议己经召开了1 4 次,规模由原来的专题讨论会发展到国际学术大会,人数由 2 第一章前言 二三十人上升到七八百人,论文收录比例从2 :l 上升到3 0 8 :4 4 ,研究重点也逐渐从发现 方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗 透。2 0 0 3 年8 月,第九届a c m s i g k d d 知识发现和数据挖掘国际会议在美国华盛顿 举行。还有一些其它国际或地区性数据挖掘会议,如知识发现和数据挖掘太平洋亚洲会 议( p a k d d ) ,数据库中知识发现原理与实践欧洲会议( p k d d ) ,数据仓库与知识发现国 际会t s l ( d a w a k ) 等【9 】【1 0 】【11 】【1 2 】。 涉及数据挖掘和数据仓库的研究结果已在许多数据库国际学术会议论文集发表, 包括a c m s i g m o d 数据管理国际会议( s i g m o d ) ,超大型数据库国际会议( v l d b ) , a c m s i g m o d - s i g a r t 数据库原理研讨会( p o d s ) ,数据工程国际会议( i c d e ) ,扩展数 据库技术国际会议( e d b t ) ,数据库理论国际会议( i c d t ) ,信息与知识管理国际会议 ( c i k m ) 。 应用国际会议( d e x a ) ,数据库系统高级应用国际会议( d a s f a a ) 等。数据库、人 工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了k d d 专题或专刊, 包括 i e e e 知识与数据工程汇刊( t k d e ) , a c m 数据库系统汇刊( t o d s ) ,( ( a c m 杂志( j a c m ) ,信息系统, v l d b 杂志,数据与知识工程,智能信息系统国际 杂志( j i i s ) 等,其中,i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 汇刊领先在1 9 9 3 年出 版了k d d 技术专刊,所发表的5 篇论文代表了当时k d d 研究的最新成果和动态,较 全面地论述了k d d 系统方法论、发现结果的评价、k d d 系统设计的逻辑方法,集中 讨论了鉴于数据库的动态性冗余、高噪声和不确定性与其它传统的机器学习、专家系统、 人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6 篇论文摘要 展示了k d d 在从建立分子模型到设计制造业的具体应用。 一份最近的g a r t n e r 报告中列举了在今后3 5 年内对工业将产生重要影响的五项关 键技术,其中k d d 和人工智能排名第一。同时,这份报告将并行计算机体系结构研究 和k d d 列入今后5 年内公司应该投资的l o 个新技术领域。根据最近g a r t n e r 的h p c 研究表明,随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采 用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长 点。所有这些均表明数据挖掘己成为当前计算机科学界的一大热点。 关联规则数据挖掘首先由a g r a w a l ,i m i e h s k i 和s w 锄i 【】提出,著名的a p r i o r 算法 由a g r a w a l 和s r i k a n t 【1 4 j 提出,使用类似的剪枝方法的算法变形由m a n n i l a 、t o i v o n e n 和 v c = r k a m o 】研究。为提高关联规则挖掘效率,随之产生了很多新的技术,例如,散列技 术被p a r k 、c h e n 和y u 5 】研究,事务压缩技术被a g r a w a 和s r i k a n t 1 6 1 ,h a n 和f u 【17 1 ,以 及p a r k 、c h e n 和y u 1 8 】研究,划分技术被s a v a s e r e 、o m i e c i n s k i 和n a v a t h e 1 9 】提出,选 电子科技大学硕士学位论文 样方法被t o i v o n e i l 【2 0 】研究,动态项集技数被b r i n 、m o t w a n i 、u l l m a n 和t s 一2 1 】提出等。 许多新的方法被提出以扩充关联规则数据挖掘,包括a g r a w a l 和s r i k a n t 的序列模式挖 掘【2 2 】,z a k i 、l e s h 和o g i h a r a 的对p l a nf a i l u r e 的序列模式挖掘【2 3 】,g u h a 、r a s t o g i 和s h i m 的基于约束的序列模式挖掘【2 4 1 ,m a n n i l a 、t o i v o n e n 和v e r k a m o 的e p i s o d e s 挖掘【2 5 1 , k o p e r s k i 和h a n 的空间关联规则挖掘【2 6 1 ,o z d e n 、r a m a s w a m y 和s i l b e r s c h a t z 的有环关 联规则挖捌2 7 】,s a v a s e r e 、o m i e c i n s k i 和n a v a t h e 的否定关联规则挖掘【2 8 】,l u 、h a n 和 f e n g 的事务间关联规则挖掘【2 9 1 ,r a m a s w a m y 、m a h a j a n 和s i l b e r s c h a t z 的日历购物篮分 析【3 0 1 ,b a y a r d 的最大模式的挖掘,p a s q u i e r 、b a s t i d e 、t a o u i l 和l a k h a 的频繁闭合项集 的挖掘( 其有效挖掘算法由p e i 、h a n 和m a o 提出) ,h a n 、p e i 和y i n 提出的挖掘频繁项 而不产生侯选的方法,f e l d m a n 和h i g h 的文本数据库中的关联规则挖掘等。另外,多 层关联规则挖掘被h a n 和h u ,s k i k a n t 和a g r a w a l 研究,量化关联规则的非基于栅格的 使用部分完全性度量的挖掘技术由s k i k a n t 和a g r a w a l 提出,强关联规则的兴趣度问题 由c h e n 、h a n 和y u ,b r i n 、m o t w a n i 和s i l v e r s t e i n ,以及a g g a r w a l 和y u 研究,推广关 联到相关的有效方法由b r i n 、m o t w a n i 和s i l v e r s t e i n 给出,基于约束的关联规则挖掘被 n g 、l a k s h m a n a n 、h a n 和p a n g ,l a k s h m a n a n 、n g 、h a n 和p a n g ,以及p e i 和h a n 研究, 并行和分布关联规则挖掘被p a r k 、c h e n 和y u ,a g r a w a l 和s h a f e r ,以及c h e u n g 、h a n 、 n g 、a f u 和y f u 研究等。 分类规则数据挖掘最常见的技术是判定树归纳,其算法包括c 4 5 算法、1 0 3 算法、 i d 4 算法、i d s 算法、q u e s t 算法、p u h l i c 算法、c l l a i d 算法等;i n f e r u i l e 算法由非决定的 数据学习构造判定树:k a t e 算法由复杂的结构化数据学习构造判定树;s l i o 算法、 s p r i n t 算法、雨林算法、b o a t 算法等强调构造可伸缩性的判定树;判定树剪枝算法包 括代价复杂性剪枝、减少错误剪枝、悲观估计剪枝等;规则推导算法包括c n 2 算法、a q l 5 算法、i t r u l e 算法、f o i l 算法、s w a p 1 算法等。分类规则数据挖掘的其它方法还有贝叶 斯分类法、向后传播算法、神经网络方法、机器学习方法、关联分类法、c a e p 分类法、 j e p 分类法、最临近方法、遗传算法、粗糙集方法、模糊逻辑方法、回归技术等【3 | 】【3 2 】【3 3 】【3 4 】。 聚类规则数据挖掘的算法也有很多。关于划分的方法有k 平均算法、k 中心点算 法、k 一模( 聚类分类数据) 算法、k 原型( 聚类混合数据) 算法、e m ( e x p e c t a t i o n m a x i m i z a t i o n , 最大期望) 算法、c l a r a n s 算法等。凝聚的层次聚类( 如a g n e s ) 和分裂的层次聚类( 如 d i a n a ) 哇dk a u f m a n 和r o u s s e e u w 提出。d b s c a n 是一个基于密度的聚类方法;o p t i c s 是一个基于密度的聚类排序方法;d e n c l u e 是一个基于一组密度分布函数的算法。 s t i n g 是一个基于网格的多分辨率方法;w a v e c l u s t e r 是一个通过小波变换来转换 原始特征空间的多分辨率聚类方法;c l i q u e 是一个综合了基于密度和基于网格方法, 第一章前言 用于聚类高维数据的聚类算法。另外,还有基于模型的聚类方法、概念聚类方法、统计 聚类方法、神经网络方法、模糊聚类方法等。 随着数据挖掘理论研究的逐步成熟,数据挖掘产品也应运而生。目前,世界上比 较有影响的典型数据挖掘产品有:s a s 公司的e n t e r p r i s em i n e r 、i b m 公司的i n t e l l i g e n t m i n e r 、s g i ( s i l i c o ng r a p h i c si n c ) 公司的m i n e s e t 、加拿大s i m o n f r a s e r 大学的d b m i n e r 、 s p s s 公司的c l e m e n t i n e 、s y b a s e 公司的w a r e h o u s es t u d i o 、r u l e q u e s tr e s e a r c h 公司 的s e e s 、i b m 公司a l m a d e n 研究中心的q u e s t ,还有c o v e r s t o r y 、e x p l o a r 、k n o w l e d g e d i s c o v e r yw o r k b e n c h 等。还可以访问h t t p :w w w d a t a m i n i n g l a b c o r n ,该网站提供了许多 数据挖掘系统和工具的性能测试报告。 1 2 3 未来趋势展望 当前,数据挖掘和知识发现的研究方兴未艾,其研究与开发的总体水平相当于数 据库技术在7 0 年代所处的地位,迫切需要类似于关系模式、d b m s 系统和s q l 查询语 言等理论和方法的指导。鉴于数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖 掘技术提出了许多挑战性的课题,这些课题包括: 1 数据挖掘应用的探索: 2 可伸缩的方法: 3 交互式发现: 4 与数据库系统、数据仓库系统和w e b 数据库系统的集成: 5 数据挖掘语言的标准化: 6 可视化数据挖掘: 7 复杂数据类型挖掘: 8 w 曲挖掘,隐私保护和信息安全等。 电子科技人学硕士学位论文 第二章关于数据挖掘与人工神经网络 计算机网络与数据库技术的发展和广泛应用,使得信息在企业发展中的重要作用 越来越得到人们的认同。人们利用信息技术生产和搜集数据的能力也大幅度提高,无数 个数据库被用于商业管理、政府办公、科学研究和工程开发等这一势头仍将持续发展下 去。在这些数据背后隐藏着极为重要的商业知识,但是这些商业知识是隐含的、事先未 知的。于是,如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信 息利用率就显得尤为重要。在这样地背景下,新的数据处理技术数据挖掘( d a t am i n i n g ) 技术便应运而生了。 2 1数据挖掘定义及常用软件 2 1 1定义 数据挖掘,英文是d a t am i n i n g ,中文又译作数据采掘,还有很多和这一术语相近似 的术语,如从数据库中发现知识( k d d ) 、数据分析、数据融合( d a t af u s i o n ) 以及决策支持 等。一种比较公认的定义是u s a m am f a y y a d 、g p i a t e t s k y 、s h a p i r o 等t 3 5 】【3 6 】【3 7 】人提出的: 数据挖掘,就是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事 先未知的潜在有用的信息,提取的知识表示为概念( c o n c e p t s ) 、模式( p a t t e r n s ) 、规则 ( r u l e s ) 、规律( r e g u l a r i t i e s ) 等形式,这种定义把数据挖掘的对象定义为数据库,而更广泛 的说法是【3 8 】:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过 程,数据挖掘的对象不仅仅是数据库,也可以是文件系统,或其它任何组织在一起的数 据集合,例如w w w 信息资源。最新的对象是数据仓库。 数据挖掘的前身即知识发现( k n o w l e d g ed i s c o v e r y ) ,它源自于人工智能的机器学习 领域,其实质的内涵是在一个已知状态的数据集( d a t as e t ) 上,通过设定一定的学习算法, 从数据集中获取所谓的知识。人工智能领域中的知识发现技术已经发展到了一个很成熟 的阶段,但是由于缺乏应用的土壤,它的路越走越窄。而与此同时,数据库技术也已经发展 到一定的阶段,并得到了广泛的应用,各个企业都已经积累了无数的数据资源,迫切需要 6 第二章关于数据挖掘与人工神经网络 有一种技术能够帮助他们从数据中发掘出其内在的规律,数据挖掘技术正好能满足这一 需求,它实质上就是知识发现技术在数据库领域中的应用。数据挖掘如图2 1 所示。 图2 - 1 数据挖掘 数据挖掘的核心技术是人工智能、机器学习和统计学,但是一个数据挖掘系 统不是多项技术的简单组合,而是一个完整的体系,它还需要辅助技术的支持, 才能完成数据采集、预处理、数据分析、结果表达这一系列任务,最后将分析结 果呈现在用户面前。因此,数据挖掘系统是一个集信息管理、信息检索、专家系 统、分析评估、数据仓库等为一体的应用软件系统。它由各类数据库、挖掘前处 理模块、挖掘操作模块、模式评估模块、知识输出模块组成,这些模块的有机组 成就构成了数据挖掘系统的体系结构。如2 2 图所示。 回| 知识输出模块 : 模式评估模块 图2 - 2数据挖掘系统体系结构图 2 1 2 数据挖掘常用软件及不同应用领域 电子科技大学硕士学位论文 从数据挖掘的定义可以看出,作为一个学术领域,数据挖掘和数据库知识发现 k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 具有很大的重合度,大部分学者认为数据挖掘和 知识发现是等价的概念,人工智能( a i ) 领域习惯称k d d ,而数据库领域习惯称数据挖 掘,也有学者把k d d 看作发现知识的完整过程,而数据挖掘只是这个过程中的一个部 分【”】。我们倾向于前一种观点,认为数据挖掘从理论和技术上继承了知识发现领域的 成果,同时又有着独特的内涵。数据挖掘更着眼于设计高效的算法以达到从巨量数据中 发现知识的目的。数据挖掘充分利用了机器学习、人工智能、模糊逻辑、人工神经网络 的理论和方法。 与数据挖掘关系密切的研究包括归纳学习( i n d u c t i v el e a m i n g ) 、机器学( m a c h i n e l e a r n i n g ) 、统计( s t a t i s t i c s ) 分析。特别是机器学习,被认为和数据挖掘的关系最密切。 二者的主要区别在于:数据挖掘的任务是发现可以理解的知识,而机器学习关心的是提 高系统的性能,因此,训练神经网络来控制一根倒立棒是种机器学习过程,但不是数 据挖掘:数据挖掘的对象是大型的数据库,一般来说机器学习处理的数据集要小得多, 因此效率问题对数据挖掘是至关重要的。 再来看看数据挖掘在决策支持( d e c i s i o n s u p p o r t ) 处于何种地位。k p a r s a y e 把决 策支持从应用层次分成4 个子空间:数据空f 日- ( d a t as p a c e ) 、聚合空间( a g g r e g a t i o n s p a c e ) 、影响空间( i n f l u e n c es p a c e ) 和变化空f ( v a r i a t i o ns p a c e ) 。 数据空间处理基于关键字( k e y - - b a s e d ) 的决策查询,比如回答产品a 的价格是多 少这类浏览式的查询数据空间中最典型的是联机事务处理( o l t p ) 系统。对数据空间 中数据元素进行聚合运算( 如s u ma v e r a g e ,m a x ,m i n 等) 形成的空间就是聚合空间。 目前,常用的提法有联机分析处理( 0 l a p ) 和多维空i f i j ( m u l t i d i m e n s i o n a ls p a c e ) 。聚合空 间处理诸如某一商场在某月某种商品的销售额是多少? 这类关系到聚合运算的决策查 询。 以上两种空问都是处理数据值的计算,而影响空间处理逻辑性质的决策支持,比 如回答是什么因素影响在纽约的销售情况这样的问题。这个空间能够提供比其它空间丰 富得多的有用信息。这些信息就是通过数掘挖掘而得到的。 变化空间负责回答某种变化的过程和速率问题,例如:在过去3 个月中的销售额增 长是怎样变化的? 在以上4 个空间中,数掘挖掘处于影响空间中。从中我们可以看到数据挖掘在整 个决策支持空间中所处的重要位置如果一个企业的领导不仅仅满足于一些统计报表, 那么数掘挖掘就是必要的。它提供非常主要的决策信息,而这些信息对于决策者可能是 完全崭新的。在当今高度复杂的社会,信息已成为世上最有价值的商品,而数据挖掘所 第二章关于数据挖掘与人工神经网络 能提供给我们的信息比其它财产更宝贵,更有用。 2 1 2 1 常用数据挖掘软件及其比较 为了适应数据挖掘的发展和应用,涌现出了大量不同的数据挖掘软件,据著名数据 挖掘网站k d n u g g e t s 统计,目前约有5 0 多种数据挖掘软件问世。根据数据挖掘软件的 开发目的和用途,一般可以分为专业型和通用型两种。专业型数据挖掘软件一般是针对 某个特定领域的问题提供解决方案,在设计算法的时候充分考虑到数据的规模、类型以 及研究者的需求等特点,并作了优化;而通用型数据挖掘软件不区分具体数据的含义,能 处理常见的数据类型,具有较为广泛的使用范围,其所包含的数据挖掘方法也较为全面。 而且通用型数据挖掘软件还具有良好的数据库管理能力以及其他常规的统计分析方 法。 优点缺点 c l e m e n t i n e e n t e r p r i s em i n e r i n t e l l i g e n tm i n e r m i n e s e t m o d e l1 m o d e l q u e s t p r w l 】j 视化的囝彤绦作界面,较多的算法 算法具较深的深震,友,的撵作界丽 输出结果其i 较好的叮视化显乐效果较 觉的算程0 左择l , - 阿 优秀的| l r 视化效果 容易操作,自动化的梭翌发聪 较宽的算法选择范嘲 r 裔的算法,自动化地幢弱生择 r 叮测馈性较整 较雕掌握0 使用,版奉更新很快 仪提供较少的算法选择,自动化绦作程度 轻低 援供的算法较少,无馋型输 i 结果 。个真匝垂直化挽作i :具 绦f 1 界嘶小够友好 朽限的i 叮视化程度 图2 - 3 各软件主要优缺点小结 通过这个表可以非常直观的看到一些结果。如m i n e s e t 虽然仅具有较少的算法且 多基于决策树模型,但却是很好的可视化工具。相反p r w 虽然具有丰富的算法,却缺少 可视化功能。尽管这1 0 种软件都是非常有效的数据挖掘软件,但是每一软件都有自己 最适合的使用领域。【4 1 】 2 1 2 2 数据挖掘在不同领域的应用 ( 1 ) 数据挖掘在人工神经网络的应用 神经网络( n e u r a ln e t w o r k s ) 方法中可分为前向神经网络( b p 算法等) 、自组织神经网 络( 自组织特征映射、竞争学习等) 等。神经网络通过学习分析数据中的模式来构造模 型,它由“神经元”的互连或按层次组织的节点构成。通常神经模型由三个层次组成:输 入、中间层和输出。每一神经元求得输入值,再计算总输入值,由过滤机制( 例如阀值) 比 9 电子科技大学硕士学位论文 较总输入,然后确定自己的输出值。可通过连接一组神经元来对复杂行为模型化。当修 改连接层“连接度一或参数时,神经网络就进行了学习或“训练”。 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在 其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。还有很多和这一术 语相近似的术语,如从数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e , k d d ) 、数据分析、数据融合( d a t af u s i o n ) 以及决策支持等。 ( 2 ) 超市中的数据挖掘应用 超市通过p o s 机和银行信用卡可以获知顾客在买什么,这提供了数据挖掘的基 础。简单地,超市可以用关联规则分析顾客购买的商品品种、品牌或价位,推销相关商 品或提供优惠;发现哪些商品可能会被一同购买,以调整商品的摆放或布局。 根据顾客消费的金额进行顾客分类,为每一类顾客设定花费目标,制定促销手段, 根据促销前后顾客消费的变化进行促销活动的有效性分析。数据挖掘可以发现顾客的 喜好,例如一种他过去没有购买过,但是应该喜欢的新商品。厂商需要知道不同种族的 目标客户的习惯和偏爱是否有不同,而这种不同对品牌商品的市场定位有实际的意义。 零售业中,一个种类商品的某个供应商可以被称作“种类首领”,它决定着其他同类商 品在商店里的价格。供应商可以通过数据挖掘来增加商品的利润率,从而竞争“种类首 领 。通过顾客荣誉卡信息,记录一个顾客的购买序列,通过序列模式挖掘可以分析顾 客消费的改变或忠诚度的改变,进行商品价格或种类的合理调整,给出购买推荐或商 品参照。 ( 3 ) w e b 中的数据挖掘应用 可以从用户的行为模式来自动地生成动态链接。当一个用户浏览一个网站的时候 我们看他去了哪些网页,根据这些信息我们可以把他归为一个或者几个已知的类,根 据这个类中用户的历史行为我们可以为他增加他感兴趣的网站的链接,为每个用户度 身定做个性化的浏览模式。 ( 4 ) 电信业中的数据挖掘应用 用o l a p 进行电信数据的多维分析。根据呼叫源、呼叫目标、呼叫量和呼叫类型 等通过多维关联和序列模式分析发现电信服务的使用模式和客户分组,以提高特殊服 务( 或服务组合) 的销售和可用性。进行盗用模式分析和异常模式识别。例如根据总占 线无法接入、转换或路由阻塞、从自动拨出设备发出的周期性呼叫等异常现象,确定潜 在的盗用者及其非典型的使用模式,检测准备侵入用户账号的企图,以及发现需要引 起注意的其它异常模式。 ( 5 ) 金融业中的数据挖掘应用 1 0 第二章关丁数据挖掘与人j r 神经网络 进行贷款偿还预测和客户信用政策分析。例如根据特征选择和属性相关性排序,识 别重要因素( 如偿还与收入比率是主要因素,而受教育水平和负债率是次要因) 。 对目标市场客户分类与聚类。例如用决策树或最近邻算法来区分不同的用户群或 将一个新用户归于其所属的用户群。侦破洗黑钱和其它的犯罪活动。但需要多种数据 库的集成,例如银行交易数据库和犯罪历史数据库。 ( 6 ) 生物医学中的数据挖掘应用 d n a 序列由成千上万个核苷a c g t 构成。通过d n a 序列间相似搜索和比较,可 以发现每类经常出现的序列模式( 例如带病的和健康的) 之间的差异,鉴别各个基因序 列在带病患者的基因组所扮演的角色。 通过关联分析,找出经常共同出现的基因序列或那些极有可能同时出现在目标样本中 的基因组,以确定疾病是由某一个基因所引发,还是由多个基因共同引发。 通过序列分析,发现在疾病不同阶段的活动的致病基因,开发针对疾病不同阶段的治疗 药物。 ( 7 ) 农业中的数据挖掘应用 农业有其自身特点,例如土壤类型多和成因复杂,作物品种多,病虫害发生频繁,肥 水气类型复杂等等,由此形成的数据库具有大型、多维、动态、不完全、存在噪声和与 时间有关等特征。 在农业方面,数据挖掘技术的表现形式更倾向于专家系统或决策支持系统,包括作 物生产管理、灌溉、施肥、品种选择、病虫害控制、温室管理、牛奶生产管理、牲畜 环境控制、土壤保持、食品加工、粮食储存、环境污染控制、森林火灾控制、经济分 析、财务分析、市场分析、农业机械选择、农业机械故障检测等众多方面。只要有农 业数据,数据挖掘并不困难。例如以决策树形式选取高程、岩石类型、土属类型、土地 利用类型、坡度、坡向、平面曲率和剖面曲率来预测研究区土壤有机质含量等级或土 壤质量等级;通过聚类分析,发现土壤质量或利用类型相似的区域等等。 数据挖掘技术综合运用人工智能、计算智能( 人工神经网、遗传算法) 、模式识别、 数理统计等先进技术从大量数据中挖掘和发现有价值和隐含的知识,因而能有效地应 用于建模、优化、预测、医疗诊断等领域并且能克服以往存在的知识获取瓶颈。【4 2 】 2 2 数据挖掘的对象 2 2 1数据仓库 电子科技大学硕十学位论文 数据仓库( d a t aw a r e h o u s e ) 是从多个数据源收集数据,存储于一个统一的数据模 式下的数据体,通常驻留在单一站点。首先它是面向主题的,每一行业甚至企业建立自己 的数据仓库,其次它集成存储了整个企业各部门各时期的数据,因此它是时变的和非易 失的。数据仓库是面向企业的,用于企业决策,因此它的数据内容是庞大而复杂的,它的 建立费用也很昂贵。而在实际数据挖掘中经常使用的是数据集市( d a t am a r t ) ,它面向部 门,只关心某一主题,因此更灵活和实用。 数据仓库的物理结构可以是关系数据库或数据立方体。目前,数据立方体的物理实 体一般为关系数据库中的表,从观察数据的特定角度,把某一类属性的集合称为一个维, 如一个三维数据立方体:销售城市、季度和商品类型。在数据立方体上可以进行上卷或 下钻等o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 操作,即对不同的数据层次进行概化或细 化,用s q l 语句即可实现o l a p 操作,但是s q l 查询绝不能代替数据挖掘。“2 1 2 2 2 文本数据库 图2 4 数据仓库的基本结构图 随着信息技术的不断进步,对超大文本集合的电子存储已经成为可能,于是形成了 文本数据库( t e x td a t a b a s e ) 或者称全文数据库(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 音乐作品创作与发行权转让协议
- 2025年建筑工程法规更新解析试题及答案
- 现代管理学课程安排与内容试题及答案
- 突破难关的建筑工程试题及答案技巧
- 市政学考察的重要性试题及答案分析
- 2024年春九年级历史下册第五单元冷战和美苏对峙的世界5.19亚非拉国家的新发展课后提分训练新人教版
- 2025年行政公文写作考试版图试题及答案
- 2025版合同终止协议书:辞职与解除劳动合同的规范化流程
- 2025借款合同模板2
- 2025私人委托合同范本
- 国开2024年秋《心理健康教育》形考任务1-9答案
- 电力运维管理平台方案设计
- 安全培训管理体系
- 机场地震应急处理与疏散预案
- 南京工业大学《化工废水处理》2022-2023学年第一学期期末试卷
- 《阻燃材料与技术》课件 颜龙 第3、4讲 阻燃基本理论、阻燃剂性能与应用
- 高三第二轮复习之文言翻译(李丽君)省公开课获奖课件市赛课比赛一等奖课件
- 服务礼仪培训课件
- 2024年江苏省盐城市中考语文真题
- 教辅资料进校园审批制度
- 九年级你准备好了吗崔喜利公开课获奖课件百校联赛一等奖课件
评论
0/150
提交评论