




已阅读5页,还剩72页未读, 继续免费阅读
(计算机应用技术专业论文)中医医案数据挖掘技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士论文中医医案数据挖掘技术研究 摘要 名老中医的医案是智慧的结晶,使用数据挖掘技术可以帮助我们从专家的医 案中挖掘出大量隐藏的临证经验与用药规律。然而中医医案是以自由文本的形式 存在的,必须先使用文本挖掘技术从自由文本中抽取出信息,构建结构化的医案, 才能更好地使用数据挖掘技术来获取知识。 本文首先研究了文本挖掘技术中的文本分类和信息抽取这两个技术,并将这些技术 应用于名老中医医案结构化研究中。对于上述结构化医案,采用数据挖掘方法挖掘出其 中的一些临证经验。本文研究内容如下: 1 研究了基于字特征的中文文本分类技术。采用了信息增益( i g ) 技术进行特征选择, 用余弦相似度来度量文档间的相似性,采用k n n 分类器,在基于复旦大学新闻语料库 的实验中,文本分类的正确率达到8 6 9 2 ,宏平均分类性能达到接近8 7 的水平。实 验结果表明字特征是中文文本分类特征建模中的一种有效方法。 2 研究了中文文本信息抽取技术。针对名老中医医案,采用了m e t a b o o t s t r a p p i n g 算法来提取术语,并设计了术语抽取中所需的模式结构。该方法无需任何浅层自然语言 处理和语料标注,仅需提供少量的种子词,经过一定的迭代次数,就可以完成术语抽取 任务。在对某名医2 0 6 份医案的术语抽取实验中,方剂名,辨证信息和治则的术语抽取 实验f l 一测度值分别为6 4 2 9 ,5 6 2 1 和7 6 6 4 。在抽取术语的基础上,完成了医案结 构化的实验。 3 基于文本分类和信息抽取处理后的病案,本文就名老中医临证经验挖掘系统中 的数据预处理模块进行了深入研究,为后续数据挖掘工作的进行提供了清洁的,结构化 的源数据。 4 基于预处理后的症状信息,完成了慢性胃炎辨证过程的建模研究。采用基于因 子分析的方法对现有的隐结构模型进行改进,改进了模型的准确性和训练速度。 5 基于预处理后的处方信息,完成了药物量效关系研究。设计并实现了基于加权 欧式距离的层次聚类算法。以某名医哮喘医案数据为例,挖掘了药物使用的规律并得到 合理的解释。 关键词:文本挖掘,文本分类,信息抽取,m e t a b o o t s t r a p p i n g 算法,e m 算法,隐结 构模型,层次聚类 硕士论文中医医案数据挖掘技术研究 a b s t r a c t t h em e d i c a lr e c o r d so ft c m ( t r a d i t i o n a lc h i n e s em e d i c i n e ) e x p e r t sa r ec r y s t a l l i z a t i o no f f a m o u sh e r b a l i s td o c t o r s se x p e r i e n c e ,d a t am i n i n g ( d m ) c a nh e l pu st og e tt h ec l i n i c a l e x p e r i e n c eo ft h ef a m o u sh e r b a l i s td o c t o r sa n dt h e i rm e d i c i n el a w h o w e v e r ,t h em e d i c a l r e c o r d sa r eu s u a l l yi nt h ef o r mo fu n s t r u c t u r e dd a t a , i no r d e rt om i n es u c hd a t a , t e x tm i n i n g t e c h n o l o g ys h o u l db eu s e dt oe x t r a c ti n f o r m a t i o nf r o ms u c hs oa st os t r u c t u r a l i z et h em e d i c a l r e c o r d s ,w h i c hi st h ef o u n d a t i o nf o rm i n i n g i nt h i st h e s i s ,t e x tm i n i n gt e c h n o l o g yi sr e s e a r c h e df i r s t ,w h i c hf o c u s e so nt h et e x t c l a s s i f i c a t i o na n di n f o r m a t i o ne x t r a c t i o n t h e n ,t h e s et e c h n i q u e sa r ea p p l i e dt os t r u c t u r a l i z e m e d i c a lr e c o r d so ff a m o u sh e r b a l i s td o c t o r s b a s e do na b o v es t r u c t u r a l i z e dm e d i c a lr e c o r d s , s o m ed a t am i n i n gm e t h o d sa r eu s e dt om i n es o m ec l i n i ce x p e r i e n c e c o n c r e t er e s e a r c hw o r k i sa sf o l l o w s : 1 t h es t u d yo fc h i n e s et e x tc l a s s i f i c a t i o nb a s e do nc h a r a c t e rf e a t u r e t h et e c h n i q u e so f i n f o r m a t i o ng a i ni sa p p l i e dt os e l e c tf e a t u r e s ,c o s i n ed i s t a n c et om e a s u r et h es i m i l a r i t y b e t w e e nd o c u m e n t s ,a n dk n nm e t h o d sa sc l a s s i f i e r , as y s t e m a t i cc o m p a r a t i v ee x p e r i m e n t s h a v eb e e nc o n d u c t e do nt h en e w sc o r p u sf r o mf u d a nu n i v e r s i t y , w h i c ha c h i e v e st h e8 6 9 2 p r e c i s i o na n d8 7 m a c r o - fs c o r e t h ee x p e r i m e n t a lr e s u l t si n d i c a t et h a tc h a r a c t e rb a s e d f e a t u r ei sa ne f f e c t i v em o d e l i n gm e t h o df o rc h i n e s et e x tc l a s s i f i c a t i o n 2 t h es t u d yo fi n f o r m a t i o ne x t r a c t i o nt oe x t r a c tt h et e r m sf r o mc l i n i c a lm e d i c a lr e c o r d s f o rs t r u c t u r e dm e d i c a lr e c o r d s ,i ta d o p t e dt h em e t a - b o o t s t r a p p i n ga l g o r i t h mt oe x t r a c tt e r m s , m e a n w h i l et h ep a t t e r ns t r u c t u r ew a sd e s i g n e df o rt h i sp u r p o s e t h ea l g o r i t h mb e g a nw i t ha f e ws e e dw o r d sp r o v i d e da r t i f i c i a l l y , a f t e rs e v e r a li t e r a t i o n s ,t e r me x t r a c t i o nc a nb e a c c o m p l i s h e d ,w h i c hf e a t u r e dn on e e do fa n ys h a l l o wc h i n e s en l pt e c h n i q u e sa n dl a b e l e d t r a i n i n gc o r p u s t h ee x p e r i m e n t sa r ec a r r i e do u to nt h e2 0 6c l i n i c a lm e d i c a lr e c o r d s t h e n a m e so fp r e s c r i p t i o n ,t h ed i a l e c t i c a li n f o r m a t i o na n dt h er u l e so ft r e a t m e n ta r ee x t r a c t e d ,f1 s c o r ea c h i e v e d6 4 2 9 ,5 6 21 a n d7 6 6 4 r e s p e c t i v e l y o nt h eb a s i so ft e r me x t r a c t i o n , u n s t r u c t u r e dm e d i c a lr e c o r d sa r ec o n v e r t e di n t os t r u c t u r e dr e c o r d s 3 b a s e do nm e d i c a lr e c o r d sp r o c e s s e db yt e x tc l a s s i f i c a t i o na n di n f o r m a t i o ne x t r a c t i o n , d a t ap r e p r o c e s s i n gf o rd a t am i n i n gs y s t e mo ft r a d i t i o n a lc h i n e s em e d i c i n eh a sb e e n r e s e a r c h e d ,w h i c hp r o v i d ec l e a n ,s t r u c t u r e dd a t af o rt h es u b s e q u e n tm i n i n gw o r k 4 b a s e do nt h es t r u c t u r e ds y m p t o mi n f o r m a t i o ni nm e d i c a lr e c o r d s ,al a t e n ts t r u c t u r eo f s y n d r o m ed i f f e r e n t i a t i o no fc h r o n i cg a s t r i t i sh a sb e e nr e s e a r c h e d t h ei m p r o v e m e n tw a sm a d e i i i a b s t r a c t硕十论文 o nc u r r e n tl a t e n ts t r u c t u r eb a s e do nt h ef a c t o ra n a l y s i s ,w h i c hi m p r o v e dt h ea c c u r a c yo fm o d e l a n dt r a i n i n gs p e e d 5 b a s e do ns t r u c t u r e dp r e s c r i p t i o n s ,t h ed o s e e f f e c tr e l a t i o n so fc h i n e s em e d i c i n eh a s b e e nm i n e d a na g g l o m e r a t i v ec l u s t e r i n ga l g o r i t h mb a s e do nw e i g h t e de u c l i d e a nd i s t a n c e h a sb e e nd e s i g n e da n di m p l e m e n t e d t h ee x p e r i m e n to nt h ea s t h m a t i cc l i n i c a lr e c o r d so fa f a m o u sh e r b a l i s td o c t o rs h o w st h ee s s e n t i a l so fh i se x p e r i e n c ea n dh a sb e e nw e l ls u p p o r t e db y t h et h e o r yo ft r a d i t i o n a lc h i n e s em e d i c i n e k e yw o r d :t e x tm i n i n g ,t e x tc l a s s i f i c a t i o n , i n f o r m a t i o ne x t r a c t i o n ,m e t a - b o o t s t r a p p i n g a l g o r i t h m ,e ma l g o r i t h m ,l a t e n ts t r u c t u r em o d e l ,a g g l o m e r a t i v ec l u s t e r i n g 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 卅年6 月万日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对 于保密论文,按保密的有关规定和程序处理。 为1 年匆月巧日 硕十论文中医医案数据挖掘技术研究 1 绪论 1 1 课题研究背景与意义 信息技术的飞速发展,数据库规模的不断扩大,使得各行业都积累了大量的数据资 料。然而面对这些海量的电子数据,人们却缺乏有效的手段和技术从中获取有用的知识。 在这种“数据太多而知识太少 的尴尬局面下,人们对新的,能自动地从海量数据中获 取对用户有价值的信息和知识的方法有着迫切的需求。因此,数据挖掘( d a t a m i n i n g ,d m ) 和数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 应运而生。 文本挖掘是k d d 研究面向自由的非结构化文本数据的延伸。由于大量非结构化文 本信息的存在和文本信息的重要性,使得文本挖掘已经成为数据挖掘研究的一个热点。 文本挖掘技术是从文本集中发现和挖掘归纳性的有效、创新、有用和最终可理解的 知识如模式、模型、趋势、规则等的过程。相对于数值型的结构化数据,文本数据更加 复杂且内涵丰富。因此除了传统k d d 相关的理论和算法之外,还需要额外的预处理方 法如特征选择、特征抽取和浅层自然语言处理等来完成文本挖掘的过程。机器学习方法 是文本挖掘实现的关键技术,信息抽取和文本分类的研究是文本挖掘研究的基础。 本文拟从信息抽取和文本分类两个方面来进行文本挖掘技术的研究,并将这些技术 应用于名老中医医案清理中;然后采用数据挖掘中的聚类分析方法对病案中的经验知识 进行发掘。题目的背景来源于“十一五 国家科技支撑计划,希望凭借现代分析挖掘方 法,挖掘出存在于大量名老中医医案中的临证经验。而名老中医的医案基本上都是文本 信息,并且名老中医本人都有各自擅长的领域。要想应用现代数据挖掘技术对名老中医 的临证经验进行挖掘,就必须先将文本信息分类并处理成易于应用的结构化信息。因此, 对于我们的课题来说,文本挖掘技术研究具有必需意义。另一方面,从已经结构化的数 据库中进一步发掘名老中医经验知识,现代数据挖掘方法的研究是关键。 1 2 课题研究现状 中医药是医学的奇葩,我国的瑰宝。其历史悠久,理论体系复杂,效果显著,是聚 集了古代中国劳动人民智慧的医学科学。中医药的学术特征是,以生物学为基础,与理 化数学交融,与人文哲学互相渗透。在现今世界回归大自然的趋势下,其优势越来越突 出,也逐渐得到越来越多的人的认可,必将对全人类医疗保健事业发挥更加积极的作用。 新世纪的到来,中医药学只有在对已有中医药理论和经验科学地继承和发扬的基础 上,才能更好的实现现代化和国际化的目标。而当代中国名老中医通过在临床实践中与 中医学理论相互印证、思考直至突破和创新,将中医传统基础理论与自己的独创心得体 l 绪论 硕士论文 会融会贯通,积累了大量的诊疗经验。这些经验是发展中医药学的宝贵财富。因此当代 名老中医学术思想临证经验的继承不仅能丰富中医药学的理论体系,更能对整个医学科 学的发展产生巨大的推动作用。 “十五”的后两年,在国家中医药管理局直接领导下,我们与南京中医药大学共同 承担了“十五”国家科技攻关计划“基于信息挖掘技术的名老中医临床诊疗经验及传承 方法研究的分课题“名老中医临证经验分析挖掘方法研究”( 编号:2 0 0 4 b a 7 2 1 a 0 1 h 0 4 ) , 取得了圆满的结果。对于名老中医的病案,首先采用基于关联规则的方法,分析挖掘了 症状一方药之间、基本症状一证型之间、证型一方药之间以及中药配伍之间的多重关联 关系,分析结果与老中医的经验有较好的吻合度;其次,采用基于偏差检测的方法,挖 掘老中医具有特色的个性化诊断经验,分析结果得到了名医认可。目前已发表相关论文 3 篇。 “十一五”期间,在国家科技支撑计划的资助下,我们将会在对方法学的可行性和 适用性进行系统论证、评价的基础上,以更多名医的医案为研究对象,对每位名医的个 性化诊疗经验中蕴含的辨证规律、症候学规律、用方规律、用药规律、药物剂量规律等 信息进行全面分析,并将形成的比较成熟的成果用于指导中医药的临床实践,以便为名 医个性化诊疗经验各个信息单元之间内在隐含关系的挖掘、规律的总结提供技术上的支 持,从而为名医经验继承提供新思路、新方法。 1 3 数据挖掘概述 数据挖掘( d a t am i n i n g ) 是从大量的、不完全的、有噪声的、模糊的、随机的数 据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过 程【1 1 。信息技术的高速发展使得人们积累了大量的电子数据,却缺少有效的技术从 中获取有价值的信息。在这种情况下,数据挖掘( d a t am i n i n g ,d m ) 和数据库中的知识 发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 就诞生了。 在19 8 9 年举行的第1 1 届美国人工智能协会( a m e r i c a na s s o c i a t i o nf o ra r t i f i c i a l i n t e l l i g e n c e ,a a a i ) 学术会议上,f a y y a d 等人首先对k d d 进行了明确的定义:从大量数 据中提取出可信的、新颖的、有效的,并能被人理解的模式的高级处理过程。k d d 处 理过程总共分为9 个阶段:数据准备,数据选取,数据预处理,数据缩减,k d d 目标 确定,挖掘算法确定,d m ,模式解释及知识评价。这个处理过程表明d m 只是k d d 的一个处理阶段,但它却是k d d 最重要的环节。然而,实际学习工作中,人们常把d m 与k d d 相互混用而不加以区分。d m 实际上是指按照预先定好的目标,通过搜索大量 数据,以揭示数据中隐藏的规律并将规律模型化的有效方法。 1 3 1 目标与定义 2 硬论文中案教据挖掘技术研究 数据挖掘是基于人工智能、机器学习、统计学等技术,高度自动化地分析数据,做 出归纳性的推理,从中挖掘出潜在的模式或者行为,以帮助决策者做出正确决策的过程 8 1 。也就是说为了寻找未知的模式或趋势而在细节数据中进行搜索的过程,从而生成新 的信息和知识。 1 3 2 数据挖掘系统结构 圈11 描述的是典型的数据挖掘系统结构闭。 船删 日i p , l 毁嚣库教据仓库 圈1l 典型的数据挖掘系统结构 由图1 1 可知,典型的数据挖掘系统具有以下主要成分口】: 1 数据库、数据仓库或其他信息库:足一个或一组数据库、数据仓库、电子表格或 其他类型的信息库。可以对数据进行数据清理和集成。 2 数据库或数据仓库服务器:负责根据用户的数据挖掘请求,提取相关数据。 3 知识库:用于指导搜索,或评估结果模式的领域知识。 4 数据挖掘引擎:数据挖掘系统基本的部分,由一组功能模块维成,用于特征化、 关联、分类、聚类分析以及演变和偏差分析。 1 绪论 硕十论文 5 模式评估模块:通常,此成分使用兴趣度度量,并与数据挖掘模块交互,以便将 搜索集中在有趣的模式上;也可以与挖掘模块集中在一起,依赖于数据挖掘方法的实现。 6 图形用户界面:本模块在用户和数据挖掘系统之间通信,允许用户与系统交互, 对数据挖掘的过程提供一些定制信息;还允许用户浏览数据库和数据仓库模式或数据结 构,评估挖掘的模式,以不同的形式对模式可视化。 1 3 3 数据挖掘任务 数据挖掘可以解决大量的商业问题。基于这些商业问题的性质,把这些问题分成下 面几种数据挖掘任务:分类、聚类、关联、回归、预测、序列分析和偏差分析。 1 3 4 数据挖掘主要方法 数据挖掘将机器学习、数据库技术、统计学等学科领域结合起来,从一个新的角度 出发,尝试从更深层面来发掘隐藏于数据内部的有价值的、具有潜在效用的乃至最终可 理解的模式。由此,根据所属领域的不同,可以将数据挖掘方法分为以下几类【3 j : ( 1 ) 数学统计方法:该方法首先从训练数据中构建一个数学统计模型,接着使用建 立好的模型从待挖掘的数据中学习有用知识。 ( 2 ) 机器学习方法:机器学习是根据生理学、认知科学等对人类学习机理的了解, 建立人类学习过程的计算模型或认识模型,发展各种学习理论和学习方法,研究通用的 学习算法并进行理论上的分析,建立面向任务的具有特定应用的学习系统。目前,机器 学习的方法研究已经比较成熟,并为d m 所广泛应用。 ( 3 ) 面向数据库的方法:数据库技术的不断发展使得一些数据处理方法日臻完善。 d m 能够利用现有的数据库技术和一些专门针对数据库的启发式方法,挖掘出隐藏在数 据库中的知识。 ( 4 ) 混合方法:无论是数学统计方法,机器学习方法还是面向数据库的方法,都各 自有其优点与缺点。结合这几种方法,取其精华,去其糟粕,可能会对提高d m 的效率 有益。 ( 5 ) 其它方法:数据可视化技术、知识表示技术等也是可供选择的效果较好的方法。 具体可以概括为以下几种主要的数据挖掘方法: ( 1 ) 相关性分组或关联规则挖掘 挖掘关联规则就是发现存在于大数据集中的关联性或相关性。一个常见的例子是超 市中客户在购买商品a 的同时,经常会购买商品b ,即a = b ,这就构成了一个 关联规则,其深层意义表明了客户购买商品a 时有多大的倾向会一起购买商品b 。 超市可根据此类关联规则对货架的摆放做出合理部署,提高售出量。 ( 2 ) 粗集方法 粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点: 4 硕上论文 中医医案数据挖掘技术研究 不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处 理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展 起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学 基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在 的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制 出来了一些基于粗集的工具应用软件,如加拿大r e g i n a 大学开发的k d d r ;美国 k a n s a s 大学开发的l e r s 等。 ( 3 ) 决策树方法 决策树是一种常用于预测模型的算法,它通过将大量数据有目的地分类,从中找到 一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模 的数据处理。最有影响和最早的决策树方法是由q u i n l a n 提出的著名的基于信息熵的i d 3 算法,它对越大的数据库效果越好。在i d 3 基础上又出现了许多较好的改进算法,如 s c h l i m m e r 和f i s h e r 设计了i d 4 递增式学习算法;钟鸣,陈文伟等提出了i b l e 算法等。 ( 4 ) 神经网络方法 神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容 错等特性非常适合解决数据挖掘的问题,因此近年来受到越来越多的人的关注。典型的 神经网络模型主要分3 大类:以感知机、b p 反向传播模型、函数型网络为代表的,用 于分类、预测和模式识别的前馈式神经网络模型;以h o p f i e l d 的离散模型和连续模型为 代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以a r t 模型、k o h o l o n 模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是”黑箱”性,人们难 以理解网络的学习和决策过程。 ( 5 ) 覆盖正例排斥反例方法 这种方法利用覆盖所有正例排斥所有反例的思想来寻找规则。比较典型的有 m i c h a l s k i 等人的a q l 5 方法、洪家荣改进的a q l 5 方法和a e 5 方法。 ( 6 ) 可视化技术 将数据与结果转化和表达成可视化的形式,如图形、图像等,对于用户来说,数据 的剖析将更为清楚。 另外还有统计分析方法、遗传算法、模糊集方法、演绎逻辑编程、b a y e s 网络等方 法。 1 4 文本挖掘概述 1 4 1 目标与定义 在现实世界中,数据不仅以传统数据库中结构化数据的形式出现,还以诸如研究论 1 绪论硕上论文 文、新闻文章、书籍、w e b 页面及电子邮件等文本的形式出现。近年来,随着网络技术 的快速发展,能够获取的文本数据集呈爆炸性增长。人们在为获得如此海量、丰富的文 本资源而欣喜的同时,又面临如何发现蕴含其中知识的问题。由于此类非结构化的数据 中存在着大量的知识,如何对这些非结构化数据进行挖掘分析【4 j ,从中提取感兴趣的、 潜在的有用模式和隐藏的信息成为数据挖掘研究的一个热点。在这一背景下,文本挖掘 5 - 6 1 ( t e x tm i n i n g ) 技术应运而生。 文本挖掘是k d d 方法在文本数据集上的运用,并结合相关的文本处理技术如信息 抽取,文本分类等进行知识发现的过程。文本挖掘强调从文本数据中归纳发掘创新知识 的过程。 文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽 取、机器学习、信息检索、计算语言学、自然语言处理、统计数据分析、概率理论、线 性几何甚至还有图论。 1 4 2 文本挖掘任务 文本挖掘是从文本中进行数据挖掘( d a t am i n i n g ) 。从这个意义上讲,文本挖掘 是数据挖掘的一个分支。文本挖掘是一个边缘学科,由机器学习、数理统计、自 然语言处理等多种学科交叉形成。文本数据挖掘是应用驱动的。它在智能商务 ( b u s i n e s si n t e l l i g e n c e ) 、信息检索( i n f o r m a t i o nr e t r i e v a l ) 、生物信息处理 ( b i o i n f o r m a t i c s ) 等方面都有广泛的应用;例如,客户关系管理( c u s t o m e rr e l a t i o n s h i p m a n a g e m e n t ) ,互联网搜索( w e bs e a r c h ) 等等。综合来说,文本挖掘任判6 j 分为以下几 类:文本总结( t e x ts u m m a r i z a t i o n ) 、文本分类( t e x tc l a s s i f i c a t i o n ) 、文本聚类( t e x t c l u s t e r i n g ) 、关联分析( a s s o c i a t i o n a n a l y s i s ) 和分布分析与趋势预测( t r e n dp r e d i c t i o n ) 。 总之,我们把对文本数据的分类、融合、压缩、摘要以及从文本中抽取发现 知识与信息都看作是文本数据挖掘。机器学习方法是文本挖掘实现的关键技术,信息 抽取和文本分类的研究是文本挖掘研究的基础。 1 4 3 文本挖掘技术发展现状 国内对文本挖掘的研究起步较晚。1 9 8 1 年,侯汉清先生首先探讨了计算机在文本挖 掘研究工作中的应用,并介绍了国外计算机管理分类表,计算机分类检索等方面的情况。 1 9 9 8 年,我国国家重点基础研究发展规划首批实施项目中,将文本挖掘的研究列为“图 像、语音、自然语言理解与知识挖掘”中的重要内容。国内研究文本挖掘技术的机构主 要集中在科研院所和高等院校,并且取得了不错的成果。如上海交通大学计算机系研究 的语句语义、自然语言模型、构造解释模型、范例推理;清华大学电子工程系研究的手 写汉字识别、汉字识别多分类器集成;中科院计算机语言信息工程中心所研究的汉语分 词、自然语言接口、句法分析、语义分析、音字转换等。 6 硕士论文中医医案数据挖掘技术研究 国外对文本挖掘的研究开展则相对较早。到目前为止,国外的文本挖掘研究已经从 最初的可行性基础研究经历了试验性研究进入到了实用化阶段,并在电子会议、邮件分 类、信息过滤等方面取得了较为广泛的应用。某些研究机构( 如贝尔实验室和帕洛阿尔 托研究中心) 的研究成果,已经成功应用于商业领域。如i b m 的文本智能挖掘机; m e g a p u t e r 的t e x ta n a l y s t 系统和a u t o n o m y 公司的核心产品c o n c e p ta g e n t s 等。 国内外在深入研究和探讨了文本挖掘的理论方法与实现技术后,进一步明确了文本 挖掘的应用领域: 1 信息过滤。针对用户的特定需求,在比对过多个不同的信息集之后,通过采用信 息过滤技术,获得符合用户需求的、适量的信息。 2 基于内容检索。传统的检索采用基于关键词的思想,难以描述具有丰富内涵的信 息;文本挖掘技术采用基于内容的检索,能够从大量文本信息中获取更贴近目标的信息, 从而大大提高检索的全面性与准确性。 3 信息智能代理。对用户屏蔽了底层实现和信息存在的具体形式以及信息存储的地 域与介质,在分布式信息网络环境下,自动检索出符合用户检索要求的信息。 4 文本信息文摘。抽取题目与文本中的关键信息,选择文本中的重要语句,自动抽 取表达出文本的摘要信息。 1 4 3 1 文本分类发展现状 文本分类就是对一定领域的自由文本自动分配一个或多个类标识的过程。其关键技 术和过程涉及到特征表示、特征抽取、分类器以及性能评价等内容。 2 0 世纪5 0 年代末,h e l h u l l 在这一领域进行了开创性的研究,提出了词频统计 思想用于自动分类。1 9 6 0 年后,m o a m 发表了关于自动分类的第一篇论文。 8 0 年代,文本分类的研究主要以知识工程为基础,并基于手工建立的规则来进行分 类。然而,因为大量数字文档的积累,特别是数字图书馆的发展,专家系统的知识获取 瓶颈日益暴露出来。因此从9 0 年代起基于经验数据的机器学习方法已经成为实现自动 文本分类的关键技术。 参与文本分类的样本必须采用一定的特征表示,而且在训练和测试阶段一般采用相 同的特征表示方法。研究人员通过理解、探讨文本的语义单元以及语义单元的组合来选 择特定的文本特征表示方法。目前,主要的特征表示法是g e r a r ds a l t o n 和m c g i l l 于1 9 6 9 年提出的向量空间模型v s m 。以向量来表示文本是其核心思想。在现有的研究中,对 于西文文献,由于存在特定的分隔符( 如英文中的空格符) ,故西文文本的表示通常选 择经过分割后的词特征,并用词在文本中出现的频率对文本进行向量化;大部分中文文 本的表示也选择了词特征,现在也存在少数研究选择用字特征来表示文本。继v s m 思 想之后,研究人员提出以词频为依据的倒排挡词频权重方法t f i d f 。该方法认为词条在 文献中的频率正比于其在文献中出现的频率,反比于文本内出现该词条的文档数。此外, 7 1 绪论硕上论文 还有统计语言模型n g r a m ,将词在文档中出现的顺序序列作为特征。 目前,中文文本分类的多数研究都集中在基于词特征的分类方法和特征约简研究 1 2 1 。相关研究表明1 0 】,中文文本分类存在一个严重的问题:由于采用了词特征来表示 文本,导致了超高的词特征维数。中等的语料库建模约产生1 0 5 1 0 6 的词特征数量。其 次,由于多数研究并没有提及其采用的分词算法的具体情况也使这些结果缺乏好的可比 性。同时,也有一些研究人员将目光转向了基于字特征的中文文本分类技术研究1 1 3 。1 5 】。 p e n ge ta l 1 采用统一的n g r a m 语言模型来进行中西文文本分类研究,其实验结果表明 1 - g r a m 字特征也许是一个好的中文文本分类特征表示形式。曹素丽等i l3 j 提出了一种根据 汉字统计特性和基于实例映射的中文文本自动分类系统。文章认为如果能从汉字中筛选 出具有分类意义的汉字定义向量空间的维数,将大大降低分类系统运行的时间和空间复 杂度。文献 1 6 】表明,分词算法对于基于词特征的中文文本分类性能有实质性地影响, 而字特征是中文文本分类的有效特征表示方法。周雪忠【l7 】采用几种常见的分类方法,对 基于字特征的中文文本分类技术进行了系统性的比较实验,实验表明字特征在中文文本 分类性能上具有相当高的竞争力。 1 4 3 2 信息抽取发展现状 信息抽取研究在2 0 世纪8 0 年代d a r p am u c 的推动下取得了很大的进展。其已有 应用包括电子病历、天气预报、论坛通知、课程主页、公寓出租广告和工作招聘等等。 信息抽取1 1 7 l ( i n f o r m a t i o ne x t r a c t i o n ) 希望能实现从文本中抽取部分计算机能自动处理 的结构化信息。信息抽取研究中著名的m u c 会议( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e s ) 已经对信息抽取作了严格和相当准确的定义,其中文为:信息抽取是从受限领域文本中 抽取具体、类型良好定义的信息,从而填充预先定义的模板属性值的任务。由于自然语 言的复杂性,信息抽取是高难度的研究领域。2 0 世纪9 0 年代,机器学习已经成为信息 抽取活跃的研究方向【1 8 - 1 9 1 。在后续将近1 0 年的研究中,信息抽取以浅层特征表示如词, 关键词和通用机器学习方法如k n n 、n a i v eb a y e s 和基于穷尽搜索或信息增益的自上而 下或自下而上的关系型学习为主。 早期的信息抽取系统大多依赖于大量手工编制知识。例如m u c 3 上使用的c i r c u s 系统,所使用的三个主要知识库词典、案例框架库和篇章分析规则库都是用手工编制的。 一般来说,只有专业的人员( 具有应用领域知识,知识描述语言知识的人员) 才能胜任 手工编制领域知识这项枯燥费时的工作。由于系人工构建,编制过程容易出错产生疏漏, 且费用较高。此外,人工编制的知识库较难达到很高的语言覆盖面。当信息抽取的任务 发生改变时,要组织人员重新编制规则,而此时原来的开发人力资源很难得到,系统的 可移植性差。因此手工知识获取问题已经成为制约信息抽取技术广泛应用的一个主要障 碍。 a u t o s l o g 和p a l k a 等是最早向自动获取知识迈进的系统之一。随后实现的c r y s t a l 8 硕上论文中医医案数据挖掘技术研究 和l i e p 系统,也着眼于实现自动获取知识。但这些系统仍较多的依赖于手工的参与, 即利用加工过的语料来学习语言的规则模式,是典型的机器辅助式知识获取系统。需要 较多的手工标记数据或者依赖于与用户交互的形式是这些系统的共同特点,可认为这些 系统是一种半自动化的知识获取系统。 知识获取的更进一步自动化是从未标记的文本来学习规则知识。人们只要指出文本 是否与目标领域相关即可而无需在训练文本中手工标记目标信息。由于标记学习样本与 目标领域是否相关无需专业的领域知识,对于手工的依赖已不像纯手工编制知识库系统 和半自动化知识获取系统那样多,可以认为已达到了知识自动获取的目的。 y a r o w s k y 2 0 - 2 1 】做了类似b o o t s t r a p p i n g 方法的早期工作,他采用语义类型的种子信息 来b o o t s t r a p p i n g 实现词语歧义区分的任务。b r i n 2 2 采用b o o t s t r a p p i n g 方法从w 曲页面 中抽取书本名称及其作者信息,其提供的d i p r e 算法初始时只需提供一个小的书本名 称及作者信息种子集,接着算法检索页面并学习抽取模式,然后利用这些模式以确认新 的书本信息,即种子词。如此迭代反复进行。而b l u m 和m i t c h e l l 2 3 j 针对文本分类采用 的c o - t r a i n i n g 方法也是利用非标注训练集的一种类似方法。j o n e se ta l 2 4 】采用 b o o t s t r a p p i n g 方法分别对信息抽取和非标注语料的文本分类进行了研究,提出了 m e t a - b o o t s t r a p p i n g 和m u l t i 1 e v e lb o o t s t r a p p i n g 的方法以提高迭代过程中模式和新种子 信息的质量,从而提高信息抽取效果。 1 5 本文的研究思路和主要内容 本文的研究思路如图1 2 所示。 图1 2 中阴影部分为本文的研究内容,主要包括以下五个方面的研究内容: 1 文本分类技术:主要研究如何有效地对中文文本信息进行分类,包括文本特征如 何表示,如何进行特征选择即降维,选用何种分类器,如何进行性能评价。 2 信息抽取技术:主要针对未标注语料集,研究如何采用机器学习的方法从自由文 本中,抽取出具体,类型良好定义的信息,即结构化的信息。 3 技术的应用:本论文的背景是“名老中医学术思想临证经验现代分析挖掘方法研 究”,需要将文本分类与信息抽取的技术应用于名老中医医案分析中。文本分类技术用 于对医案进行分类;信息抽取技术用于将医案中的症状、方剂、辨证、治则和处方信息 抽取出来,进行结构化描述。 4 基于隐结构的中医辨证研究:针对结构化后病案中的症状数据,采用基于因子分 析的隐结构方法建立中医辨证模型。 5 中医医案药物量效关系研究:针对结构化后病案中的处方数据,对名老中医处方 药物量效关系进行研究。 9 1 绪论硕i :论文 国 1 6 本文的组织结构 圉 图1 2 本文研究思路 本文主要研究文本挖掘中的文本分类,信息抽取技术和数据挖掘中的聚类分析技术 以及这些关键技术在中医医案分析中的应用,其主要内容如下: 第一章为“绪论 部分。介绍课题研究的背景意义,以及该课题当前的研究现状; 对目前数据挖掘技术的发展及其热点分支文本挖掘技术的发展进行综述;最后总结了本 文的主要研究内容和研究思路。 第二章介绍了中文文本分类技术的关键技术以及难点,提出避开中文文本分词的瓶 l o 硕十论文 中医医案数据挖掘技术研究 颈,以字特征来进行特征建模;比较不同特征降维方法与不同分类器的分类效果。 第三章介绍了自由文本信息结构化的研究现状以及难点,采用m e t a - b o o t s t r a p p i n g 算法来进行中医医案结构化。 第四章在第二、三章文本挖掘技术研究的基础上,设计和实现了名老中医临证经验 挖掘系统的数据预处理功能模块。对非结构化的自由文本名老中医医案进行了清 理,得到了结构化的医案。 第五章以结构化医案中的症状信息为实验数据,设计并实现了基于因子分析的隐结 构模型进行中医辨证建模,使得中医辨证过程能够客观化、定量化。 第六章以结构化医案中的处方信息为实验数据,进行了中药药物量效关系研究的应 用实验。改进了层次聚类的算法,设计并实现了基于加权欧式距离的层次聚类方法来研 究中医医案药物量效关系。 第七章总结了本文所作的工作,针对本文工作的不足提出了一些想法,有待在进一 步研究中得到完善。 2 基于字特征的中文文本分类研究硕上论文 2 基于字特征的中文文本分类研究 2 1 中文文本分类一般步骤 文本分类是指:给定一个分类体系,根据文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 说课时间分配课件
- 语言文字培训基础知识课件
- 2025年上海市果蔬种植买卖合同示范文本
- 难忘的端午节赛龙舟作文(10篇)
- 合同审批及管理流程模板化指南
- 农业资源合理利用与生态保护合同
- 红楼梦第四十回课件
- 红楼梦第八回课件
- 农业智能灌溉系统使用与维护协议
- 农村农副产品生产加工协作合同书
- 板绘插画师基础知识培训课件
- 2025至2030年中国分时度假行业市场运营现状及投资规划研究建议报告
- 孕期甲状腺功能课件
- 2025年版《煤矿安全规程》考试题库(含答案)
- 押运员持枪证考试试题及答案
- 医药代表一院一策工作汇报
- 居民健康档案管理服务规范解读
- 2025年保密观试题题库及答案
- 人教新课标品德与社会五年级上册《诚信是金2》教学设计【教案】
- 2024年四川泸州医疗卫生辅助岗位招募笔试真题
- 机加检验员考试试题及答案
评论
0/150
提交评论