(计算机应用技术专业论文)形式概念分析和本体在文本挖掘中的应用.pdf_第1页
(计算机应用技术专业论文)形式概念分析和本体在文本挖掘中的应用.pdf_第2页
(计算机应用技术专业论文)形式概念分析和本体在文本挖掘中的应用.pdf_第3页
(计算机应用技术专业论文)形式概念分析和本体在文本挖掘中的应用.pdf_第4页
(计算机应用技术专业论文)形式概念分析和本体在文本挖掘中的应用.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)形式概念分析和本体在文本挖掘中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 捅要 面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息, 如何帮助用户在日益增多的信息中发现潜在有用的知识,目前已成为信息技术领 域研究的热点问题之一。数据挖掘就是为解决这一问题而产生的研究领域。由于 现实生活中绝大部分信息资源是以非结构数据的形式存在,而数据挖掘则普遍以 结构化数据为对象,因此对非结构化信息进行挖掘成为数据挖掘之后出现的又一 重要课题。 在常见的非结构化数据中,文本数据是应用最为广泛的一种形式。常用于数 字图书馆、产品目录、新闻组、医学报告、组织及个人主页。在自然语言理解、 文本自动摘要、信息提取、信息过滤、信息检索等领域,文本挖掘技术都有着广 泛的应用,因此具有更高的商业价值。 形式概念分析是德国学者w i l l e 于1 9 8 2 年首先提出的一种数学理论,概念格 结构模型是它的核心数据结构。概念格本质上描述了对象和属性之间的联系,表 明了概念之间的泛化和例化关系。目前形式概念分析已被广泛地研究,并应用于 机器学习、信息检索和软件工程等领域。 本体是共享概念模型的形式化规范说明。本体作为一种能在语义和知识层次 上描述信息系统的概念模型建模工具,在计算机的许多领域得到了广泛的应用, 如知识工程、数字图书馆、软件复用、信息检索和w r c b 上异构信息的处理、语义 w r e b 等。 本文以文本数据为研究对象,以形式概念分析和本体为工具,研究了文本挖掘 中的文本特征提取、文本聚类、文本分类等问题。 本文的研究工作和创新包括以下两个方面: ( 1 ) 文本聚类是文本挖掘中的一种重要方法。基于形式概念分析和概念相似度, 给出了一种新的多背景文本模糊聚类方法和模型。该方法不仅考虑了多背景关键 词之间的语义关系,而且通过非距离计算得到模糊相似矩阵。可根据不同要求得 到相应的聚类结果,具有较好的灵活性。最后通过示例说明了所给算法的可行性。 ( 2 ) 文本分类在文本挖掘和文本管理中扮演着重要角色,在文本预处理阶段引 入核本体w b r d n e t 丰富文本的表示形式,提高了文本表示的泛化能力。然后采用 州算法对文本进行分类。最后在标准文集r e u t e r s - 2 1 5 7 8 上的实验表明,在文本 分类中与没有使用本体相比,使用本体的某些策略能取得更好的效果。 关键词:概念格;本体;文本挖掘;文本聚类;文本分类 形式概念分析和本体在文本挖掘中的应用 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n ta n ds d f e a do fi n t e m e t ,e l e c t r o n i ci n f o 咖a t i o n i n c r e a s e sd r a m a t i c a l l y i tb e c o m e sah o t s p o tf b ri n f o 加a t i o ns c i e n c e 柚dt e c h n o l o g yt h a t h o wt oc o l l e c ta n df i n dt h ei n t e r e s t e di n f o 珊a t i o no fu s e r a l l dd i s c o v e r yl a t e n t ,u s e f u l k n o w l e d g eq u i c k l y e x a c t l ya i l df u l l y d a t am i n i n gt e c h n o l o g yi san e w f e s e a r c hf i e l dt o s o l v et h ep r o b l e m s t m c t u r a ld a t as u c ha sr e l a t i o n a ld a t a b a s ei sm a i nr e s e a r c ho b e c tf o r d m ,b u tam a o r i t vo fi n f 0 加a t i o ne x i s t sw i t ht h ef o mo fu n s t m c t u r a ld a t ai n r e a l i z a t i o n s on l i n i n gt h eu n s t l l l c t u r e di n f o 珊a t i o ns u c c e e d sd ma san e w c h a l l e n g e t b x td a t ai saf o 咖0 fi n f o m a t i o nu s e dm o s ts p r e a da m o n gc o m m o nu n s t r u c t u r a l d a t a ni so f t e nu s e di nd i 酉t a ll i b r a r y ,p r o d u c tc a t a l o g ,n e w s 伊o u p ,m e d i c i n er e p o n , o 略a n i z a t i o na n di n d i v i d u a lh o m e p a g e r e x tm i n i n gt e c h n i q u ei sa l s oa p p l i e da b r o a d l y t on a t u r a ll a n g u a g eu n d e r s t a n d i n g ,t e x ta u t o m a t i ca b s t r a c t i n g ,i n f o m a t i o ne x t r a c t i n 岛 i n f o 加a t i o nf i l t e r i n g ,i n f o 咖a t i o nr e t r i e v a lf i e l d s ,e t c s oi t sv a l u eo fb u s i n e s si sh i g h e r t h a n d m f o 咖a l c 0 n c e p ta n a l y s i s( f c a ) i sa no f d e f e d t h e o r e t i cm e t h o df o r t h e m a t h e m a t i c a la n a l y s i so fs c i e n t i f i cd a t a ,i n v e n t e db yr 、m l l ei n1 9 8 2 c o n c e p tl a t t i c e s t r u c t u r e dm o d e li si t sc o r ed a t as t r u c t u r e c o n c e p tl a t t i c ec a i lb ee x p l o i t e dt od i s c o v e r i m p l i c a t i o n sa m o n gt h eo b j e c t sa n da t t r i b u t e sa n dm a l l i f e s tc o n c e p tr c l a t i o nb e m e e n a b s t r a c t i o na n di n s t a n c e n o w a d a y sf c ac a nb ee x p l o i t e da b r o a d l ya n da p p l i e di n m a c h i n el e a m i n g ,i n f 0 册a t i o nr e t r i e v a l ,s o 腑a f ee n 百n e e r i n gf i e l d s ,e t c o n t o l o g y i sf b m a ls p e c i f i c a t i o no fs h a r e d c o n c e p t u a l i z a t i o n o n t o l o g yi s a m o d e l i n gt o o lo fd e s c r i p i n gi n f 0 姗a t i o ns y s t e mi ns e m a n t i c s 觚dk l l o w l e d g e i ti s a p p l i e da b r o a d l yi nm a n yc o m p u t e rf i e l d ss u c ha sk n o w l e d g ee n g i n e e r i n g ,d i g i t a ll i b r a r y , s o f 细a r er e u s e ,i n f o 衄a t i o nr e t r i e v a l ,h e t e r o g e n e o u si n f 0 肌a t i o np r o c e s s i l l go nw e b , s e m a n t i cw e ba n ds o0 n t e x td a t ai s e x p l o i t e do b j e c ta i l dt h er e s e a r c hf o ra p p l i c a t i o no ff o 姗a lc o n c e p t a n a l y s i s 锄d0 n t o l o g yi nt e x tm i n i n gi sd o n ei i lt h i sp a p e r ,i n d u d i n gt e x tf e a t u r c e x t r a c t i n g ,t e x tc l u s t e r i n g ,a i l dt e x tc l a s s i f i c a t i o n 觚ds oo n o u r p r i m a r yw o r k sa r ea sf o l l o w ( 1 ) t b x tc l u s t e r i n gi sa nj m p o n a l l tm e t h o di nt e x tm i n i n g an o v e lm u l t i - c 0 n t e x t t e x tf u z z vd u s t e r i n gm e t h o da l l di t sm o d e lb a s e do nf o 瑚a lc o n c e p ta n a l y s i sa n d c o n c e p ts i m i l a r i t yi sp r o p o s e d t h es e m a n t i cr e l a t i o n s h i p sb e t w e e nm u l t i 一n t e x tk e y w o r d sh a v eb e e nt a :k e ni n t oa c c o u n ta n dt h ef u z z vs i m i l a r i t vm a t r i xh a sb e e nd e r i v e d 仃o mn o n - d i s t a n c ec o m p u t i n gi nt h i sm e t h o d t h ec o r r e s p o n d i n gc l u s t e r i n gr e s u l t sw i h b eo b t a i n e da c c o r d i n gt ot h ed i f ! i b r e n tr e q u i r e m e n t sa n dt h i sa p p r o a c hh a sb e t t e r n e x i b i l i t y f i n a l l y ,t h ee x a m p l ei sg i v e nt oi l l u s t r a t et h ef e a s i b i l i t yo ft h ea l g o r i t h m ( 2 ) t e x td a s s i f i c a t i o np l a y sa ni m p o n a n tr o l ei nt h ef i e l d so ft e x tm i n i n ga l l d d o c u m e n tm a n a g e m e n t t h ec o r eo n t o l o g yw b r d n e ti nt e x tp r e p m c e s s i n gh a sb e e n i n t r o d u c e dt oe n r i c ht e x t r e p r e s e n t a t i o n t h a t i m p r o v e s i t s g e n e r a l i t y t _ l l e n k n n a l g o r i t h mh a sb e e nu s e dt oc l a s s i f yt e x td o c u m e n t s f i n a l l yt h ee x p e r i m e n t a lr e s u l t so n t h ec o 叩u so fr e u t e r s 一2 1 5 7 8s h o wt h a ts o m es t r a t e g i e su s i n go n t o l o g yc a na c h i e v e b e t t e rp e r f o 姗a n c ei nt e x tc l a s s i f i c a t i o nc o m p a r e dw i t ht h em e t h o dw i t h o u tu s i n g i i 硕士学位论文 o n t o l o g y 1 始yw o r d s : c o n c e p tl a t t i c e ,o n t o l o g y ; t e x tm i n i n g , t e x t c l u s t e r i n g , t e x t d a s s i f i c a t i o n m 形式概念分析和本体在文本挖掘中的应用 插图索引 图1 1 文本挖掘的过程2 图1 2 文本预处理的一般过程3 图1 3 文本特征抽取的一般过程4 图1 4 文本分类流程图7 图2 1 用于文本分类的特征选择1 8 图2 2 线性可分情况下的最优分类线2 3 图2 3 三层b p 神经网络结构图2 4 图2 4 保持法2 5 图2 5k 折交叉验证2 6 图3 1 一种新的多背景文本模糊聚类模型3 4 图3 2 最大树3 7 硕士学位论文 附表索引 表3 1 文档编号和关键词( 1 ) 3 5 表3 2 文档编号和关键词( 2 ) 。3 6 表4 1 基于背景知识的叮n 文本分类实验参数和值4 2 表4 2 没有使用本体与使用本体的各种策略的叮n 的宏平均查准率和宏平均查 全;l :4 :! v 兰州理工大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果 由本人承担。 作者签名:序明晾 日期:灿略年舌月上日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学 校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权兰卅i 理工大学可以将本学位论文的全部或部分内容 编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。同时授权中国科学技术信息研究所将本学位论文收录到中 国学位论文全文数据库,并通过网络向社会公众提供信息服务。 日期:洳8 年月乙日 日期:蜥二月6 日 时,珥 明、盈袋 名名 签签 者师 作导 硕十学位论文 第1 章绪论 本章首先阐述了文本挖掘方面国内外的研究现状,然后介绍了形式概念分析 和本体在该方面的应用,最后给出了本文的主要研究内容和论文的组织结构。 1 1 研究背景 随着互联网的大规模普及和企业信息化程度的提高,文本信息的快速积累使 公司、政府和科研机构在信息处理和使用中面临前所未有的挑战。一方面,互联 网和企业信息系统每天都不断产生大量文本数据,这些文本资源中蕴含着许多有 价值的信息;而另一方面因为技术手段的落后,从大量数据资源中获取需要的信 息十分困难。人们迫切需要研究出方便有效的工具,去从大规模文本信息资源中 提取符合需要的简洁、精炼、可理解的知识,文本挖掘就是为解决这个问题而产 生的研究方向。 在1 9 世纪早期发展起来的以统计技术为基础的数据挖掘技术,已经发展的较 为成熟,并在大规模结构化关系数据库上取得成功应用。人们自然想到将数据挖 掘的成果应用于分析用自然语言描述的文本,这种方法被称为文本挖掘( t e x t m i n i n g ) 或文本知识发现( k n o w l e d g ed i s c o v e r yi nt e x t ) 。与传统的自然语言处理不 同( n a t u r a ll a n g l l a g ep r o c e s s i n 曲,关注词语和句子的理解不同,文本挖掘的主要目 标是在大规模文本集中发现隐藏的有意义的知识,即对文本集的理解和文本间关 系的理解。因此,文本挖掘是自然语言处理和数据挖掘技术发展到一定阶段的产 捌1 1 。 1 1 1 文本挖掘的定义 在现实世界中,可获取的大部信息是以文本形式存在的,由来自各种数据源 的大量文档组成,如新闻文档、研究论文、书籍、数字图书馆、电子邮件和w e b 页面。由于电子形式的文本信息飞速增涨,文本挖掘已经成为信息领域的研究热 点。 文本数据库中存储的数据可能是高度非结构化的,如w w w 上的网页;也可 能是半结构化的,如e m a i l 消息和一些x m l 网页;而其它的则可能是良结构化的。 良结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构 字段,如标题、作者、出版日期、长度、分类等等,也可能包含大量非结构化文 本成分,如摘要和内容。通常,具有较好结构的文本数据库可以使用关系数据库 系统实现,而对非结构化的文本成分需要采用特殊的处理方法对其进行转化。 文本挖掘是一个交叉的研究领域,它涉及到数据挖掘、信息检索、自然语言 形式概念分析和本体在文本挖掘中的应用 处理、机器学习等多个领域的内容,不同的研究者从各自的研究领域出发,对文 本挖掘的含义有不同的理解,不同应用目的文本挖掘项目也各有其侧重点。因此, 对文本挖掘的定义也有多种,其中被普遍认可的文本挖掘定义如下: 定义1 1 【1 】文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最 终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。 直观的说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就 称为文本挖掘。 文本挖掘也称为文本数据挖掘【2 】或文本知识发现【3 j ,文本挖掘的主要目的是从 非结构化文本文档中提取有趣的、重要的模式和知识。可以看成是基于数据库的 数据挖掘或知识发现的扩展【4 j 。 文本挖掘是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相 类似。但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本 身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义;而数据挖 掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。 因此,有些数据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本 集预处理的基础之上。 1 1 2 文本挖掘的过程 有些人把文本挖掘视为另一常用术语文本知识发现( k d t ) 的同义词,而另一些 人只是把文本挖掘视为文本知识发现过程的一个基本步骤。文本知识发现主要由 以下步骤组成,如图1 1 : 文档集 文本预 1 r i 文档中间形式 i i 文本挖 士 l 模式l i l 评估与 上 | 知识i ii 处理 掘 表示 图1 1 文本挖掘的过程 ( 1 ) 文本预处理: 选取任务相关的文本并将其转化成文本挖掘工具可以处理的中间形式。通常 包括两个主要步骤( 如图1 2 ) : 2 硕士学位论文 特征抽取:建立文档集的特征表示,将文本转化成一种类似关系数据且能 表现文本内容的结构化形式,如信息检索领域经常采用的向量空间模型就是这样 一种结构化模型。 特征选择:一般说来结构化文本的特征空间维数较高,需要对其进行缩减, 只保留对表达文本内容作用较大的一些特征。 i 文本集 特征抽取 啼 特征选择 l 文 文本特征表示 ( 咩 阵 图1 2 文本预处理的一般过程 ( 2 ) 文本挖掘 在完成文本预处理后,可以利用机器学习、数据挖掘以及模式识别等方法提 取面向特定应用目标的知识或模式。 ( 3 ) 模式评估与表示 最后一个环节是利用已经定义好的评估指标对获取的知识或模式进行评价。 如果评价结果符合要求,就存储该模式以备用户使用;否则返回到前面的某个环 节重新调整和改进,然后再进行新一轮的发现。 1 2 文本挖掘的研究现状 在文本挖掘过程中,文本的特征表示是整个挖掘过程的基础;而关联分析、 文本分类、文本聚类是三种最主要也是最基本的功能。下面,以文本特征表示和 文本挖掘的两种核心功能为线索,对文本挖掘的研究现状和已经取得的成果作简 要地回顾。 1 2 1 文本特征表示 传统数据挖掘所处理的数据是结构化的,其特征通常不超过几百个;而非结 构化或半结构化的文本数据转换成特征向量后,特征数可能高达几万甚至几十万。 所以,文本挖掘面临的首要问题是如何在计算机中合理的表示文本这种表示法既 要包含足够的信息以反映文本的特征,又不至于太过庞大使学习算法无法处理。 这就涉及到文本特征的抽取和选择【。 文本特征指的是关于文本的元数据,可以分为描述性特征,如文本的名称、 日期、大小、类型以及语义性特征,如文本的作者、标题、机构、内容。描述性 特征易于获得,而语义特征较难获得。在文本特征表示方面,内容特征是被研究 得最多的问题。 定义1 2 1 1 j 项 3 形式概念分析和本体在文本挖掘中的应用 当文本内容被简单地看成由它所包含的基本语言单位( 字、词、词组或短语等) 组成的集合时,这些基本的语言单位被称为项( t e 咖) 。如果用出现在文本中的项表 示文本,那么这些项就是文本的特征。 对文本内容的特征表示主要有布尔模型、向量空间模型、概率模型和基于知 识的表示模型。因为布尔模型和向量空间模型易于理解且计算复杂度较低,所以 成为文本表示的主要工具。 ( 1 ) 特征抽取 中文文档中的词与词之间不像英文文档那样具有分隔符,因此中、英文文档 内容特征的提取步骤略有不同。 中文文档集 图1 3 文本特征抽取的一般过程 消除停词: 文本集有时包含一些没有意义但使用频率极高的词。这些词在所有文本中的 频率分布相近,从而增加了文本之间的相似程度,给文本挖掘带来一定困难。解 决这个问题的方法是用这些词构造一个停词表或禁用词表( s t o pw o r dl i s t ) ,在特征 抽取过程中删去停词表中出现的特征词。 常用的停词包括虚词和实词两种,如 ( 1 ) 虚词:英文中的“a ,t h e ,o f ,f o r ,w i t h ,i n ,a t ,o n ”; 中文中的“的,地,得,把,被,就”。 ( 2 ) 实词:软计算会议上的论文中的“概念格”一词,可视为停词。 词干抽取: 定义1 1 】令y o ) 是由彼此互为语法变形的词组成的非空词集,y ( s ) 的规范 形式称为词干( s t e m ) 。 例如,如果y ( 5 ) = i m p r o v e d ,i m p r o v i n 舀i m p r 0 v e m e n t ) ,那么s = i m p r o v e 是矿( s ) 的词干。 词干抽取( s t e m m i n g ) 有四种不同的策略:词缀排除( a f ! f i xr c m o v a l ) 、词干表查询 ( t a b l e1 0 0 k u p ) 、后继变化( s u c c e s s o rv a r i e t y ) 和n g 姗。其中词缀排除最直观、简单 4 硕士学位论文 且易于实现。多数词的变形是因添加后缀引起的,所以在基于词缀排除策略的抽 取算法中后缀排除最为重要,p o n e r 算法【5 】是后缀排除算法中最常用的一种。 词干抽取将具有不同词缀的词合并成一个词,降低文本挖掘系统中特征词的 总数,从而提高了挖掘系统的性能。 当然,也有两点需要注意【1 】: 词干抽取对文本挖掘性能的提高仅在基于统计原理的各种分析和挖掘技术 下有效。在进行涉及语义和语法的自然语言处理时,不适宜采用词干抽取技术。 词干抽取对文本挖掘或信息检索准确性的影响至今没有令人信服的结论, 因此许多搜索引擎和文本挖掘系统不使用任何词干技术。 汉语切分: 汉语的分词问题已经基本解决,并出现了多种分词方法。这些分词方法可以 分为两类:一类是理解式分词法,即利用汉语的语法知识、语义知识及心理学知 识进行分词;另一类是机械式分词法,一般以分词词典为依据,通过文本中的汉 字串和词表中的词逐一匹配完成词语切分。第一类分词方法算法复杂,实际应用 中经常采用的是第二类分词方法。机械式分词法主要有正向最大匹配法,逆向最 大匹配法,逐词遍历法。 由于词典的容量有限,在大规模真实文本处理中,会遇到许多词典中未出现 的词,即未登录词。未登录现象是影响分词准确率的重要原因。为解决这个问题, 人们提出利用n 擎锄语言模型进行词项划分【6 】,从而摆脱基于词典的分词方法对 词典的依赖。与基于词典的分词方法不同,基于n 龋锄技术得到的词项不一定具 有实际意义。 例如:“形式概念分析”的所有n 酉a m 项为: 1 g f a m :形,式,概,念,分,析 2 莎姗:形式,式概,概念,念分,分析 3 留a m :形式概,式概念,概念分,念分析 4 g r 锄:形式概念,式概念分,概念分析 其中除1 g r a m 是单字外,2 g r a m 中的“式概,念分”,3 鲫a m 中的“形式概, 式概念,概念分,念分析”,4 毋a m 中的“式概念分”都不具有实际意义。 ( 2 ) 特征选择 特征选择也称特征子集选择或特征集缩减。经过特征抽取获得的特征词数量 很多,有时达数万个特征。如此多的特征对许多文本挖掘方法,如文本分类、聚 类、文本关联分析来说未必都是有意义的;而过大的特征空间还会严重影响文本 挖掘的效率,因此选择适当的特征子集十分必要。 通常采用机器学习的方法进行文本特征选择。虽然机器学习中有许多选取特 征子集的算法,但有些算法复杂且效率低下,不适于处理庞大的文本特征集。国 5 形式概念分析和本体在文本挖掘中的应用 外对特征选择的研究较多用,特别是已有专门针对文本分类特征选择方法的比较研 究【8 1 。国内对这一问题的研究以跟踪研究为主,集中在将国外现有特征评估函数用 于中文文本特征选择【9 】及对其进行改进1 1 0 1 。 1 2 2 文本分类 文本分类【1 1 以3 】是一个有指导的学习过程。它根据一个已经被标注的训练文档 集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系 模型对新的文档进行类别判断。可以更形式化地对文档分类过程进行描述。假设 有一组文档概念类c 和一组训练文档d 。文档概念类和文档库中的文档可能满足 某一概念层次关系 。客观上,存在着一个目标概念g ,有: g :d c ( 1 1 ) 这里,g 把一个文档实例映射为某一个类。对d 中的文档d ,丁似) 是已知的。 通过有指导地对训练文档集的学习,可以找到一个近似于g 的模型日: h :d 寸c ( 1 2 ) 对于一个新文档畋,h ( 以) 表示对吒的分类结果。一个分类系统的建立或者 说分类学习的目的就是寻找一个和g 最相近似的h 。即给定一个评估函数,学 习的目标应使g 和h 满足: 砌( 2 厂( g ) 一日 ) ) ) ( 1 3 ) 一般来讲,文档分类需要解决五个问题,或者说有五个步骤【1 1 】: ( 1 ) 获取训练文档集 训练文档集选择是否合适对文档分类器的性能有较大影响。训练文档集应该 能够广泛地代表分类系统所要处理的客观存在的各个文档类中的文档。一般而言, 训练文档集应是公认的经人工分类的语料库。 ( 2 ) 建立文档表示模型 即选用什么样的语言要素( 或者说文档特征) 和用怎样的数学形式组织这些语 言要素来表征文档。这是文档分类中的一个重要技术问题。目前的文本分类方法 和系统大多以词或词组作为表征文档语义的语言要素;表示模型则主要有布尔模 型和向量空间模型。 ( 3 ) 文档特征选择 语言是一个开放的系统。作为语言的一种书面物化或者电子化的文档也是开 放的。它的大小、结构、包含的语言元素和信息都是开放的,因此它的特征也是 无限制的。文本分类系统应该选择尽可能少而准确且与文档主题概念密切相关的 文档特征进行文档分类。 ( 4 ) 选择分类方法 也就说用什么方法建立从文档特征到文档类别的映射关系,这是文本分类的 6 核心问题。常用的方法有n a i v eb a y e s 、k n n 、类中心向量、回归模型、支持向量 机,人工神经网络等。实际使用较多的是叮n 方法和支持向量机方法,这两种方 法分类效果不错,而且具有较强的稳定性。 ( 5 ) 性能评估模型 即如何评估分类方法和系统性能或者说分类结果。真正反映文档分类内在特 征的性能评估模型可以作为改进和完善分类系统的目标函数。在文本分类中,到 底使用什么评价参数取决于具体的分类问题。单标注分类问题( 一个测试文档只属 于一个类) 和多标注分类问题( 一个测试文档可以属于多个类) 所使用的评估参数 是不一样的。目前使用比较多的分类性能评估指标为查全率和查准率,这是来源 于信息检索中两个术语。 图1 4 为文本分类主要步骤的示意1 1 l 】。 图1 4 文本分类流程图 显然,特征选择、分类训练和测试构成了一个循环。根据测试结果,调整特 征选择和分类训练的参数,使得分类器具备最佳的分类效果。 1 2 3 文本聚类 文本聚类【1 1 ,1 4 】是根据文本数据的不同特征,将其划分为不同数据类的过程。 其目的是要使同一类别的文本问的距离尽可能小,而不同类别的文本间的距离尽 可能的大。主要的聚类方法有统计方法、机器学习方法、神经网络方法和面向数 据库的方法。在统计方法中,聚类也称聚类分析,主要研究基于几何距离的聚类。 在机器学习中聚类称作无监督学习或无教师归纳。聚类学习和分类学习的不同主 要在于:分类学习的训练文本或对象具有类标号,而用于聚类的文本没有类标号, 由聚类学习算法自动确定。 传统的聚类方法在处理高维和海量文本数据时的效率不很理想,原因是: ( 1 ) 传统的聚类方法对样本空间的搜索具有一定的盲目性; - ( 2 ) 在高维很难找到适宜的相似度度量标准。 7 形式概念分析和本体在文本挖掘中的应用 虽然,文本聚类用于海量文本数据时存在不足。但与文本分类相比,文本聚 类可以直接用于不带类标号的文本集,避免了为获得训练文本的类标号所花费的 代价。根据聚类算法无需带有类标号样本这一优势,n i g a m 等人提出从带有和不 带有类标号的混合文本中学习分类模型的方法【1 5 j 。其思想是利用聚类技术减少分 类方法对有标号训练样本的需求,减轻手工标记样本类别所需的工作量,这种方 法也称为半监督学习。 文本聚类包括以下三个步骤: ( 1 ) 获取结构化的文本集。 结构化的文本集由一组经过预处理的文本特征向量组成。从文本集中选取的 特征好坏直接影响到聚类的质量。如果选取的特征与聚类目标无关,那么就难以 得到良好的聚类结果。对于聚类任务,合理的特征选择策略应是使同类文本在特 征空间中相距较近,异类文本相距较远。 ( 2 ) 执行聚类算法,获得聚类谱系图。聚类算法的目的是获取能够反映特征空 间样本点之间的“抱团”性质。 ( 3 ) 选取合适的聚类阈值。在得到聚类谱系图后,领域专家凭借经验,并结合 具体的应用场合确定阈值。阈值确定后,就可以直接从谱系图中得到聚类结果。 目前,常见的聚类算法可以分成以下几类1 1 6 】: ( 1 ) 平面划分法;( 2 ) 层次聚类法;( 3 ) 基于密度的方法;( 4 ) 基于网格的方法; ( 5 ) 基于模型的方法。 有些聚类算法集成多种算法的思想,因此难以将其划归到上述类别中的一类, 如c u q u e 综合了密度和网格两种聚类方法。 文本聚类有着广泛的应用,比如可以用来1 1 l : ( 1 ) 改进信息检索系统的查全率和查准率; ( 2 ) 用于文本集浏览; ( 3 ) 搜索引擎返回的相关文本的组织; ( 4 ) 自动产生文本集的类层次结构。在带有类标号的文本集上发现自然聚类, 然后利用自然聚类改进文本分类器。 1 3 形式概念分析在文本挖掘中的应用 形式概念分析( f o 珊a lc o n c e p ta m a l y s i s ,简写为f c a ) f 1 7 1 9 l 由德国学者r u d o l f w i l l e 于1 9 8 2 提出。概念格是该理论中的核心数据结构。因为概念格能清晰地表示 出概念之间的层次结构关系,所以它可以将数据库的知识结构进行可视化。因此,概 念格被认为是数据分析的有力工具。概念格在数据挖掘、软件工程、信息检索和 聚类分析等方面有着重要的应用。 在信息检索方面,g o d i n 等对使用概念格结构的信息检索进行了实验,并和两 8 硕上学位论文 种较为传统的检索方法闭j :在手工建立层次分类系统中导航和使用索引项的布尔 查询,做了比较实验。结果表明,在布尔查询和概念格检索方法之间并没有显著 的性能差异;然而层次分类系统检索的查全率要明显低于其它两种方法。因此得 出结论,基于概念格结构的检索是非常有吸引力的,因为它将主题搜索的良好性 能和浏览的潜力结合在了一起。c a 印i n e t o 等对基于概念格的文本数据库的自动组 织和混合导航进行了研究,设计了一个检索系统u l y s s e s 【2 l l 。它首先建立数据的 格结构,即先对文本进行索引,再对索引后的文本进行聚类。格结构为系统的导 航阶段提供支持。文章最后将基于格结构的信息检索与传统的布尔查询在两个数 据集上进行了比较试验,结果表明格检索的性能优于布尔检索。 概念格在其它方面也得到了广泛的应用。r i c h a r d s 等利用概念格对r i p p l e d o w nr m e 进行有机的组织【2 2 l ;c o l e 的c e m 电子邮件管理系统【2 3 】将e m a i l 存储 在概念格中,而不是常用的树状结构中,使得在检索电子邮件时获得了更大的灵 活性;还将概念格应用于智能帮助系统的领域建模。 ( 1 ) 分类分析 形式概念分析理论是进行数据的分类分析的一种切实有效的方法。下面介绍 基于形式概念分析理论进行数据分类分析的基本思路。 其实,基于概念格的知识表示方法,可以把关联规则、分类规则和特征规则 用统一的规则形式彳净b 来表示,如果指定规则的后件为决策属性的某个类别, 那么就可以得到分类规则。因此,在进行基于形式概念分析理论的分类算法的设 计时,在进行概念格的构建时,只需设定一个限制条件,即只生成内涵属性中含 有决策属性的类别的概念,只生成整个概念格的分类有用的部分,这样所构建的 概念格不是一个完整的概念格,称作半格,因此这种算法称作半格法。 对于增量式关联规则的提取算法稍加修改即可得到分类规则的提取算法,即 在生成上层节点时,只生成具有指定后件为决策属性的某个类别的规则,即为分 类规则。增加这个限定条件以后,概念格的构建速度和生成分类规则的速度都变 得更快。 概念格构建完成以后,就可以根据概念格提取分类规则,具体方法与关联规 则的提取方法类似,在此不作详细叙述。 ( 2 ) 聚类分析 对于聚类分析,有基于统计的方法、基于句法结构的方法,基于神经网络的 方法,基于层次的方法等。其中,基于统计的和基于句法的方法不能表达结构信 息,基于神经网络的方法不能表达语义信息。分类和聚类是机器学习领域、统计 学、知识发现领域的研究者广泛研究的一个问题。 c o b w e b ,a u t o c l a s s 都是典型的利用概念的可能的表达的非监督学习方 法。c o b w e b 将数据组织成具有推理能力的形式。a u t o c l a s s 利用贝叶斯的方 9 形式概念分析和本体在文本挖掘中的应用 法确定优化类型。c l u s t e r 2 是早期的非常有影响的概念聚类方法,利用概念的 传统的视角,从而实现共同的特征到所有的类成员之间的很好的连接。现在,通 过使用概念的类的视角,研究了几种基于概念格的概念学习系统。 概念格的构建过程其实是一个概念聚类的过程,所构建的概念格是一个概念 的分层系统,根据不同的层次,以该层次内的概念节点作为不同的聚类中心即可 得到不同的概念聚类。 1 4 本体在文本挖掘的应用 近些年来,随着计算机应用需求的不断增强,计算机科学与技术的发展日新 月异。然而在这种快速发展的同时,也面临着种种的困难。主要的困难包括:知 识的表示、信息的组织、软件的复用等。特别是由于因特网的快速发展,面对信 息的海洋,如何组织、管理和维护海量信息并为用户提供有效的服务也就成为一 项重要而迫切的研究课题。为了适应这些要求,o n t o l o g y 作为一种能在语义和知 识层次上描述信息系统的概念模型建模工具,自被提出以来就引起了国外众多科 研人员的关注,并在计算机的许多领域得到了广泛的应用,如知识工程、数字图 书馆、软件复用、信息检索和w r e b 上异构信息的处理、语义w r c b 等。 o n t o l o g y 最早是一个哲学上的概念,从哲学的范畴来说,o n t o l o g y 是客观存 在的一个系统的解释或说明,关心的是客观现实的抽象本质。在人工智能界,最 早给出o n t o l o g y 定义的是n e c h e s 等人,他们将o n t o l o g y 定义为“给出构成相关领 域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的 规则的定义”1 2 4 j 。 1 9 9 3 年g m b e r 给出了o n t o i o g y 的一个最为流行的定义,即“o n t o l o g y 是概念 模型的明确的规范说明”【2 5 1 。后来,b o r s t 在此基础上,给出了o n t o l o g y 的另外一 种定义“o n t o l o g y 是共享概念模型的形式化规范说明”。s t u d e r 等对上述两个定义进 行了深入的研究,认为o n t o l o g y 是共享概念模型的明确的形式化规范说明【冽。这 包含4 层含义:概念模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o 皿a 1 ) 和共享 ( s h a r e ) 。“概念模型”指通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而 得到的模型。概念模型所表现的含义独立于具体的环境状态。“明确”指所使用的概 念及使用这些概念的约束都有明确的定义。“形式化”指o n t o l o g y 是计算机可读的 ( 即能被计算机处理) 。“共享”指0 n t o l o g y 中体现的是共同认可的知识,反映的是相 关领域中公认的概念集,即0 n t o l o g y 针对的是团体而非个体的共识。o n t o l o g y 的 目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同 认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇间相互关系 的明确定义。 o n t o l o g y 的研究与应用主要包括3 方面:( 1 ) 理论上的研究,主要研究概念及 硕十学位论文 其分类、o n t o l o g y 上的代数;( 2 ) 在信息系统中的应用,主要包括处理信息组织、 信息检索和异构信息系统互操作问题;( 3 ) o n t o l o g y 作为一种能在知识层提供知识 共享和重用的工具在语义w e b 中的应用。 自上世纪9 0 年代以来,随着计算机在人类社会和生活的各个方面的广泛应用, 数字信息的共享和利用已不再是研究人员的专利,大众对数字信息的需求也越来 越强烈,众多的信息系统被开发出来,为用户提供其感兴趣的内容。数字信息一 方面为人们的日常工作和生活带来了帮助,另一方面,大量的信息又使人们不知 所措。如何组织和提供信息就成为信息系统要解决的关键问题。 目前,信息检索技术可分为3 类:全文检索( ,r e x tr e t r i e v a l ) 、数据检索( d a t a r e t r i e v a l ) 和知识检索( k n o w l e d g er

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论