




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着i n t e r n e t 的发展,互联网上的数据和信息呈现海量特征,文本分类作为处理 和组织大量文本信息的关键方法,可以方便人们准确地找到自己所需要的知识。信 息的爆炸式增长,使人们对文本分类的要求越来越高。传统的基于统计和机器学习 的分类方法需要大量的训练集来训练分类模型,如果类别改变需要重新收集大量的 训练集合,费时费力。这些传统方法大多采用向量空间模型进行文本表示,会导致 特征向量的高维性和稀疏性。在高维的特征空间中实现文本分类,分类的计算量大 而且效率低,无法满足用户的需求。 本文提出一个基于本体的文本分类的通用框架,重点对文本分类任务中的特征 降维和分类两个关键方法进行了深入研究,同时将潜在语义索引算法和领域本体应 用到该文本分类的通用框架中,实现了基于本体和潜在语义索引算法的文本分类原 型系统。具体内容如下:1 在领域专家的协助下,采用本体开发工具p r o t e g e 3 3 ,手 工构建茶本体,为实现文本分类提供语义信息。2 采用潜在语义索引算法对特征向 量进行降维,剔除对分类作用不大的特征项,减少向量维数。3 基于前人工作的基 础,结合领域本体知识构建分类器,实现基于语义的文本分类。4 通过与传统的朴 素贝叶斯分类器进行对比实验,验证了该方法的可行性和有效性。实验结果表明该 方法能够取得较好的分类精度,提高了文本分类的性能。 本体作为知识组织和知识表示手段,在理论上具备很多的优势和潜在的功能。 将本体的概念引入到文本挖掘领域的应用层面上,为人们实现文本的自动分类提供 一种新思路。基于本体的分类方法无需训练样本,可以通过本体获得语义信息并结 合文本分类的关键技术实现对文本的自动分类。该研究为基于语义的信息挖掘提供 了重要的基础,具有重要的实用价值和广泛的应用前景。 关键词:文本分类;本体;特征降维:潜在语义索引;向量空间模型 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e t ,d a t aa n di n f o r m a t i o nh a si n c r e a s e db ye x p o n e n t i a l g r o w t hl e v e l a sak e ym e t h o dt op r o c e s sa n do r g a n i z eal a r g en u m b e ro ft e x t s ,t e x t c l a s s i f i c a t i o nc a l lm a k ep e o p l ee a s i l yf i n dw h a tk n o w l e d g et h e ye x a c t l yn e e d t h e e x p l o s i v eg r o w t ho fi n f o r m a t i o nm a k e su sn e e dh i g h e ra n dh i g h e rr e q u i r e m e n tf o rt e x t c l a s s i f i c a t i o n t r a d i t i o n a lm e t h o d sb a s e do nm a c h i n el e a r n i n ga n ds t a t i s t i c sr e q u i r el o t so f t r a i n i n gs a m p l e st ot r a i nc l a s s i f i c a t i o nm o d e l i fc a t e g o r i e sa lec h a n g e d ,w en e e dt o r e - c o l l e c tt r a i n i n gs a m p l e s ,w h i c hi st i m e c o n s u m i n ga n dl a b o r i o u s f u r t h e rm o r e ,t h e s e m e t h o d su s ev e c t o r s p a c em o d e lt oe x p r e s st e x t s ,a n d t h i s w i l ll e a dt os u c h h i g h d i m e n s i o n a lf e a t u r ev e c t o r s i ti sd i f f i c u l tt or e a l i z et e x tc l a s s i f i c a t i o ni nt h e h i g h - d i m e n s i o n a lf e a t u r es p a c e ,l a r g ec a l c u l a t i o nq u a n t i t ya n dl o we f f i c i e n c yc a nn o t s a t i s f yu s e r s n e e d s t h i sp a p e rp r o p o s e dag e n e r a lf r a m e w o r kb a s e do no n t o l o g yf o rt e x tc l a s s i f i c a t i o n , a n dc o n d u c t e da ni n d e p t hr e s e a r c ho nb o t hd i m e n s i o n a lr e d u c t i o na n dc l a s s i f i c a t i o n p r o c e s s w ec o m b i n e dl a t e n ts e m a n t i ci n d e x i n ga l g o r i t h mw i t ho n t o l o g ys c h e m eo nt h e g e n e r a lf r a m e w o r kt or e a l i z eap r o t o t y p es y s t e m t h ed e t a i l sw e r eg i v e na sf o l l o w :1 w i t ht h ea s s i s t a n c eo fe x p e r t si nt h ef i e l d ,w eu s e do n t o l o g yd e v e l o p m e n tt o o lp r o t e g e 3 3 t ob u i l dt e ao n t o l o g ym a n u a l l y a n dt h et e ao n t o l o g yc a nb ea sb a c k g r o u n dk n o w l e d g et o p r o v i d es e m a n t i ci n f o r m a t i o nt or e a l i z et e x tc l a s s i f i c a t i o n 2 w eu s e dl a t e n ts e m a n t i c i n d e x i n ga l g o r i t h mt or e d u c eh i g h d i m e n s i o n a la n ds p a r s ef e a t u r es p a c e ,r e m o v e dt h e c h a r a c t e r i s t i c si t e m sw h i c hh a dl i u l ec o n t r i b u t i o n st ot e x tc l a s s i f i c a t i o ni no r d e rt or e d u c e t h ed i m e n s i o n so fv e c t o r s 3 b a s e do nt h eb a s i so fp r e v i o u sw o r k , w eu s e dd o m a i n o n t o l o g yk n o w l e d g et ob u i l dc l a s s i f i e ra n dr e a l i z e ds e m a n t i c - b a s e dt e x tc l a s s i f i c a t i o n 4 c o m p a r ew i t l lt h et r a d i t i o n a ln a i v eb a y e sc l a s s i f i e r , s o m ee f f i c i e n ti m p l e m e n t a t i o n sf o r o u ra l g o r i t h m sc o n f i r m e dt h em e t h o dw a sc o r r e c ta n df e a s i b l e a n das e r i e so f c o m p a r a t i v ee x p e r i m e n t a lr e s u l t ss h o w e dt h i sm e t h o dc o u l da c h i e v eb e t t e rc l a s s i f i c a t i o n a c c u r a c ya n di m p r o v et h ep e r f o r m a n c eo f t e x tc l a s s i f i c a t i o n a sam e a n so fk n o w l e d g eo r g a n i z a t i o na n dr e p r e s e n t a t i o n ,o n t o l o g yh a sal o to f a d v a n t a g e sa n dp o t e n t i a lf u n c t i o n si nt h e o r y t h ei n t r o d u c t i o no fo n t o l o g yt ot e x tm i n i n g a p p l i c a t i o nc a np r o v i d ean e wi d e af o rp e o p l et oa c h i e v ea u t o m a t i ct e x tc l a s s i f i c a t i o n o n t o l o g y b a s e dt e x tc l a s s i f i c a t i o nd o e s n tn e e dt r a i n i n gs a m p l e s ,a n dj u s to b t a i n s s e m a n t i ci n f o r m a t i o nf r o mo n t o l o g yt h r o u g ht h ec o m b i n a t i o nw i t ht h ek e yt e c h n o l o g yi n t e x tc l a s s i f i c a t i o n ,a n dr e a l i z e sa u t o m a t i ct e x tc l a s s i f i c a t i o n t h i sr e s e a r c hp r o v i d e sa n i m p o r t a n tf o u n d a t i o nf o rs e m a n t i c b a s e dd a t am i n i n g ,a n dw i l lh a v eg r e a tp r a c t i c a lv a l u e a n daw i d ea p p l i c a t i o np r o s p e c t s k e yw o r d s :t e x tc a t e g o r i z a t i o n ;o n t o l o g y ;f e a t u r er e d u c t i o n ;l a t e n ts e m a n t i c i n d e x i n g ;v e c t o rs p a c em o d e l i i 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作所取得 的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集体,均已在文中作了 明确的说明。本声明的法律结果由本人承担。 学位论文作者签名: 塑二缉 日期:兰翌2 笪 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东 北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许 论文被查阅和借阅。本人授权东北师范大学可以采用影印、缩印或其它复制手段保存、 汇编本学位论文。同意将本学位论文收录到中国优秀博硕士学位论文全文数据库 ( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论文全文数据库( 中国科学技 术信息研究所) 等数据库中,并以电子出版物形式出版发行和提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:避 日 期:埘 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名:互垒玉兰 日 期:掣 电话: 邮编: 东北师范大学硕士学位论文 1 ,1 选题背景及意义 第一章引言帚一早 i苗 1 1 1 选题背景 商务智能( b u s i n e s si n t e l l i g e n c e ,b i ) 是从无明显特征或模式的海量信息中进行 分析和探测从而获得信息特征趋势和结论,它将人工智能、数据挖掘、机器学习、 专家系统、决策支持和联机分析处理( o l a p ) 等知识理论综合应用于企业商务,利 用各种人工智能算法对数据进行分析挖掘出相关的商务模式,提高商务决策水平, 改善商务流程,提升商务业绩,增强商务竞争力的智慧和能力。目前商务智能研究 己广泛应用于国内外各个领域,如人口普查、医疗保险等。数据挖掘与知识发现是 商务智能过程中的一个重要阶段,其主要任务从海量的数据中发现潜在的,有价值 的知识( 规则或模型) 的过程。数据挖掘是知识发现过程的一个基本步骤,其功能 包括分类、聚类、预测、关联分析、偏差分析及相似性分析等。分类是数据挖掘的 核心技术,其主要目的是发现属于同一类数据对象的共同特性,构建分类器,对未 知类别的样本进行类别判断,为商务智能的实现提供重要的技术支持。 网络信息以各种不同的形式为人们提供有用的知识。随着i n t e m e t 的飞速发展, 互联网上的文本信息也呈现指数级地增长,如何有效地组织和管理海量的文本信息, 快速准确从中找到人们所需要的知识,成为当前计算机领域亟待解决的首要问题。 文本分类作为处理和组织海量数据的有力手段,其自动分类的关键技术得到了空间 的发展,引起人们的广泛的关注。文本分类是在给定的分类模型下,根据文本的内 容让计算机自动判断文本类别的过程,可以按照类别自动地组织和处理文本信息, 方便人们准确地定位自己所需的知识。目前基于统计和机器学习的分类方法仍是文 本分类的主流,如r o c c h i o 算法【l 】,朴素贝叶斯1 2 ,k 近邻1 3 】,支持向量机【4 1 ,神经网 络【5 】等,它们更注重分类器模型的自动挖掘和生成及动态优化能力,在分类效果和灵 活性上都比基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究 和应用的经典范例1 6 。信息的爆炸式增长,使人们对文本分类的要求越来越高,这些 传统的分类方法已无法满足用户的需求。 随着语义网的兴起,本体作为语义网发展的基础也得到了迅速的发展。本体具 有良好的概念层次结构,是知识组织和知识表示的重要手段,在理论上具备很多的 优势和潜在的功能,越来越多的引起人们的广泛关注。将本体的概念引入到文本挖 掘领域的应用层面上,为人们实现分类提供一种新思路。基于本体的分类方法无需 先验知识,可以根据数据自然分布获取知识,实现对文本的自动分类,近年来成为 文本分类领域的研究热点。 东北师范大学硕士学位论文 1 1 2 研究意义 文本分类能够有效的组织和管理海量信息,越来越多地得到了人们的重视,成 为知识管理中的热点问题。随着文本分类技术的发展,其应用领域也越来越广泛, 在自然语言处理、搜索引擎、信息检索、自动标识、自动文摘、邮件过滤等多个领 域都扮演着重要角色。基于本体的分类研究能够有效的提高分类性能,为基于语义 的信息挖掘提供了重要的基础。这一研究将具有重大的理论价值和广泛的应用前景, 为促进信息产业的发展起到了巨大的推动作用。 作为文本分类中的关键步骤,特征降维是文本信息处理领域的研究热点。如何 有效的结合语义知识减少同义词带来的计算干扰并降低特征向量的维数,具有重要 的研究意义。降维的主要目的是要保留那些准确表达文本信息并能够区分类别语义 信息的特征项,剔除那些对分类效果影响不大特征项,从而使向量的维数减少。有 效地对数据进行降维,不仅能够提高计算效率和分类的精度,同时能够降低处理开 销和分类运算的复杂度,改善分类器的性能。 1 2 国内外研究现状 1 2 1 文本分类的研究现状 自动分类研究始于2 0 世纪5 0 年代末,美国i b m 公司的h p l u h n m 在这个领域 进行了开创性研究,他提出了词频统计的思想并主要应用于自动分类。其后有许多 学者对这文本自动分类产生浓厚的兴趣,并致力于该领域的研究。国外主要研究单 位有卡耐基梅隆大学,斯坦福大学等,他们对文本分类以及信息检索、信息抽取等 领域的各个问题进行了相当深入的研究,并取得了令人瞩目的研究成果。如自动分 类新闻稿件的文本分类器f 8 】。 到目前,自动分类主要经历了四个发展阶段:第一阶段( 1 9 5 8 - 1 9 6 4 ) :主要进 行自动分类的可行性研究:第二阶段( 1 9 6 5 - 1 9 7 4 ) :进行自动分类的实验研究;第 三阶段( 1 9 7 5 1 9 9 8 ) :进入了实用化阶段;第四阶段( 1 9 9 0 至今) :因特网自动分 类阶段。从2 0 世纪6 0 年代到8 0 年代末,这段时期最有效的文本分类系统是基于知 识工程的分类系统。需要在知识工程师的协助下,领域专家用形式化语言归纳分类 所需要的知识和规则,基于这些规则建立文本自动分类的专家系统,也称为基于规 则的文本分类系统。典型应用时卡内基集团为路透社开发的c o n s t r u e 系统,它主要 是用分类规则来指导分类的,在r e u t e r s 部分语料库上的分类效果很好,平均准确率 和召回率都可达到9 0 ,但是在其他应用领域使用这个系统会耗费大量的入力和物 力。 2 0 世纪9 0 年代逐渐成熟的基于机器学习的分类方法开始取代基于知识工程的 方法成为文本分类的主流。因为它更注重分类器模型的自动挖掘和生成及动态优化 能力,在分类效果和灵活性上都比基于知识工程和专家系统的文本分类模式有所突 2 东北师范大学硕士学位论文 破,成为相关领域研究和应用的经典范例。目前经典的机器学习算法都在文本自动 分类领域得到了应用,如朴素贝叶斯,k 近邻,支持向量机,神经网络等。这些方 法在英文文本分类中取得了很好的效果。国外的自动分类系统已经从最初的可行性 研究经历了实验研究进入到了实用化阶段,并在邮件分类、电子会议、信息过滤等 方面得到了较为广泛的应用。 国内文本分类的研究起步较晚,始于8 0 年代初期。主要的研究单位有中科院计 算所、北京大学,东北大学,上海复旦大学,哈尔滨工业大学等。他们主要对中文 文本分类进行了研究,在英文文本分类研究的基础上采用机器学习的分类算法,并 结合中文文本的特点,开发中文文本分类系统,从而大大地缩短了人们整理资料的 时间,有利于实现文档的存档管理,提高了信息检索的效率,而且为推动个性化服 务的发展奠定了坚实的基础,具有重要的研究价值和意义。 1 2 2 本体的研究现状 近年来,本体已经成为信息科学及其相关领域普遍关注的研究热点。作为一种 能在语义和知识层次上描述信息系统的概念模型建模工具,它已经被广泛地应用到 人工智能、信息系统、知识系统、图书情报、企业管理、电子工程、化学工程、电 子商务和生物信息学等众多领域。本体己经在多个领域出现了具体应用,其研究集 中在知识工程、本体工程、信息组织与检索和语义w e b 等方面。 国外的许多学者对本体的理论和应用进行了深入研究,如美国卡耐基梅隆大学、 德克萨斯大学、西班牙萨拉戈萨大学等,取得了丰富的研究成果。其中最有代表性 的是德国卡尔斯鲁厄大学的a i f b 研究所和美国斯坦福大学的知识系统实验室。德 国卡尔斯鲁厄大学的r u d is t u d e r 、a l e x a n d e rm a e d c h e ,和以他们为首的应用情报学 和规范描述方法研究所( i n s t i t u t eo fa p p l i e di n f o r m a t i c sa n df o r m a ld e s c r i p t i o n m e t h o d s ,a i f b ) 对本体基础理论和本体的数学表达进行了深层次的研究1 9 】。他们研 究的课题范围涉及知识管理、知识表示与推理、语义网、本体工程、万维网系统、 知识门户、数据和文本挖掘、语义标注、机器学习、办公信息系统、商业过程分析 等众多领域,已经从基础理论研究转向了应用阶段。由欧洲信息社会技术( e u i s t ) 支持的o n t o w e b ( o n t o l o g y b a s e di n f o r m a t i o ne x c h a n g ef o rk n o w l e d g em a n a g e m e n t a n de l e c t r o n i cc o m m e r c e ,知识管理和电子商务领域中基于本体的信息交换) 就是依 托a i f b 研究所的o n t o w e b 项目建立的以知识管理为目的的网上知识门户。其目标 是集合欧洲语义网网页标准的研究人员和产业学会的力量,加强该领域的跨学科协 作,促进欧洲文化的复兴,保护欧洲语言多元化和欧洲文化多样性,并在本体领域 的研究中占据主导地位i 埘。 美国斯坦福大学的知识系统实验室( k n o w l e d g es y s t e m sl a b o r a t o r y ,k s l ) ,无 论是在本体建模工具领域还是在本体应用层的研究方面都走在了知识工程领域的最 前沿。k s l 研究课题主要包括知识共享技术,物理系统建模与分析,应用性智能系 j 东北师范大学硕士学位论文 统等三个方面i 】。其中知识共享技术居于研究首位,而在知识共享技术中,有关本 体和以本体为基础的与语义网技术的研究又处于首位。他们的本体研究立足于触 领域,注重与d a r p a 和a i f b 等机构的交流合作,在技术层面上推动了本体相关技 术产品的开发与应用。 与国外的许多研究项目和研究成果相比,国内关于本体的研究尚处于起步阶段。 国内的主要科研力量有中国科学院计算所和数学所等的实验室、哈尔滨工业大学计 算机系、浙江大学人工智能研究所等。中国科学院已经完成和正在进行的本体相关 课题研究包括国家自然科学重点基金项目、国家“九五”重点科技攻关项目、国家 8 6 3 高科技基金项目、国家重点基础研究发展规划前期研究专项( 9 7 3 ) 、国家重点 基础研究发展规划( 9 7 3 ) 项目以及中科院知识创新工程项目等共1 0 余个项目。哈 尔滨工业大学的研究项目有国家自然科学基金资助项目,8 6 3 c i m s ( c o m p u t e r i n t e g r a t e dm a n u f a c t u r e ) 主题资助项目和黑龙江杰出青年基金项目等,他们主要研究 是国内少数面向企业需求进行本体构建的实用性研究,具有重要的实践价值和指导 意义。上海交通大学,东北大学,北京邮电大学等单位的科研人员在做本体的研究 课题。 一 1 2 3 对现有研究的归纳总结 目前基于统计和机器学习的方法在文本分类领域得到了广泛的应用。如r o c c h i o 算法,朴素贝叶斯,k 近邻等。这些分类模型实现起来比较简单,效率较高。但信息 的爆炸式增长使传统的文本分类无法满足用户的需求。随着语义网的兴起,本体作 为语义网发展的基础也得到了迅速的发展。作为知识组织与知识表示的建模工具, 本体中具有良好的概念层次结构,能够提供较丰富的语义信息。国内外有很多学者 试图将本体引入文本分类中,取得了一定的效果。如文献 1 2 提出了将本体知识作 为背景知识应用到文本表示中,实现对文本的分类。p r o b o w o 等人f 1 3 】用本体与d d c 、 l c c 两个分类模式相结合对w e b 网页进行分类。2 0 0 5 年,文献 1 4 等人提出了一种 利用领域本体中的概念实现对在线的w e b 网页进行分类方法。该方法从网页信息中 抽取出语法知识来构建领域本体,并通过计算本体中的概念与文本中抽取出的术语 之间的相似度来实现分类,取得了较好的分类效果,其准确率和召回率分别达到了 8 9 6 8 和9 5 4 3 。2 0 0 7 年,文献 1 5 提出了一种基于本体的自动分类的方法。首先 利用自动构建领域本体的方法构建了一个本体集合,然后并用经验模式分解( e m d ) 方法计算文本集合中的文本与本体集合中的本体之间的相似度,实现分类。最后实 现了网页排序算法对分类结果中的网页集合进行排序,方便人们对文本进行检索。 然而这些方法没有考虑对特征向量进行有效地降维。在高维和稀疏的向量空间 中实现分类是十分困难的,不但计算量大而其效率低。对传统的分类算法来说,训 练和分类的时间都会随着特征数量的增加而迅速增大,噪声数据和不相关的特征对 分类效果起反作用。寻求有效的特征降维方法是提高文本分类精度的关键。目前较 4 东北师范大学硕士学位论文 典型的方法是特征选择1 1 6 1 【1 7 】,如文档频度、互信息、信息增益、x 2 统计量等,y a n g y i m i n g 等人曾对这四种方法做过实验对比,发现x 2 统计的方法优于其它的方法。但 这些方法没有考虑文档中索引项之间存在的语义关系,可以采用语义词典将词抽象 为概念并利用概念间的语义关系对特征空间进行降维。如文献 1 8 利用w o r d n e t 通 用本体结合传统的潜在语义索引算法,实现了对信息检索中的文档向量进行降维, 取得较好的效果,该方法也适用于大规模的文档集。文献 1 9 提出基于语义集索引 的英文文本分类方法,利用w o r d n e t 的语义集代替单词作为文本特征向量的特征项, 结合潜在语义索引算法模型将语言知识和概念索引有效地融合到文本表示中,取得 较好分类效果。文献 2 0 将通用本体w o r d n e ti 入到文类过程中指导分类。虽然通 用本体包含的词汇量很多,涉及范围广,但是该通用本体包含的表示某个具体领域 知识的词汇较少,在领域内指导分类并不能取得较好的分类结果。 本文对现有的传统的文本分类方法和基于本体的文本分类方法进行了深入的研 究与分析,归纳总结出这些分类方法中存在的不足之处如下: 1 传统的分类方法需要大量的训练样本进行训练,来构建分类器,如果类别改 变了,就需要重新收集大量新的训练样本进行训练,费时费力。 2 大多数分类方法采用向量空间模型进行文本表示,把向量空间中的每个词看 成是文本中的属性,通过计算文本中词条出现的频度来构造词条一文本矩阵。其缺点 是特征空间具有高维性和稀疏性。在高维稀疏的向量空间中进行分类,其效率和性 能都很低,影响分类效果。 3 现有的基于本体的分类方法采用通用本体w o r d n e t 和潜在语义索引( 1 a t e n t s e m a n t i ci n d e x i n g ,l s i ) 算法对文本进行分类。通用本体包含的词汇量多,涉及范 围广,但是通用本体中缺少表示具体领域内的专用术语,在针对具体领域的文本分 类时,不能取得较好的分类效果。 1 3 本文的主要工作 在认真分析与研究了现有的文本分类方法基础上,本文提出一个文本分类的通 用框架,并将潜在语义索引算法和本体引入到文本分类中,结合现有的文本分类的 关键技术,实现了分类器原型系统。重点对文本分类过程中的特征降维和分类两个 关键方法进行了深入的研究。同时将潜在语义索引算法和领域本体应用到文本分类 通用框架中。利用潜在语义索引算法对文本特征向量进行降维,然后利用领域本体 作为知识库支持基于语义的文本分类。 本文工作的主要内容如下: 1 认真研读了大量的国内外相关领域的文献,掌握了文本分类技术的发展趋势, 归纳总结了文本分类的相关知识,并详细探讨了经典的分类算法及特征降维算法。 2 在领域专家的协助下,以中国茶叶大辞典作为参考资料,选择o w l 本体的描 5 东北师范大学硕士学位论文 述语言对本体进行形式化描述,选择p r o t e g e 3 3 本体开发工具,采用一种类面向对象 分析( o b j e c t o r i e n t e da n a l y s i s ,o o a ) 的七步法,手工实现了茶本体的构建,为实 现文本分类提供语义信息。 3 对现有的传统的文本分类方法和基于本体的文本分类方法进行了深入地研 究,分析总结出这些分类方法存在的不足之处,并提出了一种基于本体和潜在语义 索引算法的文本分类方法,并实现的基于本体和潜在语义索引算法的文本分类器。 4 分别对基于本体和潜在语义索引算法的文本分类器、基于本体的文本分类器 和传统的朴素贝叶斯分类器进行了相关实验,并采用三个评价指标分别对其分类结 果进行评估。 1 4 论文的组织结构 针对研究内容,本文的组织结构如下: 第一章:引言。本章阐述了论文的选题背景及研究意义、国内外研究现状,介 绍该领域的研究进展和发展动向。在此基础上总结出现有的分类方法中存在的不足, 提出了本文的研究内容及其后面章节的安排。 第二章:文本分类相关技术的探讨。本章首先研究了文本分类的相关技术,包 括文本分类的概念、文本表示及主要分类算法等。然后具体阐述了降维的目的及研 究意义,特征降维方法的种类及经典的特征选择算法等,重点对潜在语义索引算法 进行了详细的研究。 第三章:茶本体的设计与构建。本章首先详细探讨了本体论及其相关理论的知 识,包括本体的定义、建模语言、本体分类、本体的作用及现在有本体等。阐述了 构建本体的必备条件包括本体的构建原则、本体的构建方法的选择、本体描述语言 的选择、本体开发工具的选择等知识,并在此基础上重点介绍了茶本体设计的总体 思路和构建全过程。 第四章:本体和潜在语义索引算法在文本分类中的应用研究。本章是整个论文 的核心部分,在分析了传统分类方法和现有的基于本体分类方法的基础上,提出一 个文本分类的通用框架,并重点对特征降维和分类两个关键技术进行了研究,实现 了基于本体的文本分类原型系统。 第五章:实验结果与分析。本章介绍了实验的开发平台、性能评价指标等内容。 对基于本体和潜在语义索引算法的分类器、基于本体的分类器和传统的朴素贝叶斯 分类器进行了分类对比实验。从精准率、召回率和f l 一度量值三个性能指标对分类 结果进行分析总结,表明加入潜在语义索引和本体的分类方法能够得到更高的平均 分类性能指标。 第六章:总结与展望。本章首先对本文的工作进行了分析与总结,并对未来的 研究方向做了展望,并阐述了未来研究工作。 6 东北师范大学硕士学位论文 第二章文本分类相关技术的探讨 2 1 文本分类的概念、文本表示及分类算法 2 1 1 文本分类的概念 文本分类( t e x tc l a s s i f i c a t i o n ) 是数据挖掘中一项非常重要的任务,在机器学习 中,它被称作是有监督的学习过程。其定义就是将文本按照一定的规则划分到预先 定义好标签的类别中。具体来说,通过对每个类别的样本进行训练,创建一个分类 模型。根据这个分类模型,对新来的样本进行分类,将它分到一个或多个类别中。 从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到己有 的类别中,用数学公式表示为f :a _ b 。其中,a 为待分类的文本集合,b 为分 类体系中的类别集合f 2 n 1 。 传统的基于统计和机器学习方法的文本分类系统通常包含两个过程:训练过程 和分类过程。训练过程的目的是要对训练样本进行训练,构建分类模型用于文本分 类。如图2 1 所示: 图2 1 分类过程图 2 1 2 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l ,v s m ) 是由g s a l t o n t :2 1 等人在2 0 世纪6 0 年代提出的,其主要思想是认为文本由一组词条( t l ,t 2 ,t n ) 构成,每一词条 都赋以一定的权值w ,文本被映射为由一组词条矢量组成的向量空间中的一个向量。 每个文档表示为特征向量i d = t l ,w l ;t 2 ,w 2 ;t n ,w n ) ,其中t 表示词条,w 表示词条的权值,这样文本表示成为结构化数据的形式。 向量空间模型的优点是把文本简化为向量表示形式,从而把分类过程简化为对 空间向量的计算,使得问题的复杂性大大减少。其缺点是向量空间模型中的文本集 被抽取成为若干个索引项,每个文本由其索引项组成一个文本向量。每个索引项在 7 东北师范大学硕士学位论文 文本集中的各个文本中的权值的集合就构成了一个索引项的向量空间。向量空间模 型假设所有的索引项之间是相互独立的,但实际上这些索引项之间不是孤立存在的, 它们之间存在着一定的语义联系,采用基于统计的分类方法会导致分类的不准确。 2 1 3 分类算法 目前有很多分类算法,如r o c c h i o 算法,朴素贝叶斯,k 近邻,决策树算法冽 等。下面简单介绍几种基本算法,本文在实验部分与朴素贝叶斯分类器的分类结果 进行对比实验,在本小节重点介绍了朴素贝叶斯分类算法。 1 朴素贝叶斯( n a i v eb a y e s ,n b ) 。 朴素贝叶斯是比较简单而有效的经典分类方法,该算法是基于贝叶斯定理,是 对贝叶斯算法的一种改进。它基于一种假设即在文本中出现的词与词之间出现的频 度是相互独立的,通过计算给定的文本属于某个类别的最高的概率,从而确定文本 的类别。 设d = w l ,w 2w 3 ,w f ,w 胛) 为一个文本的所有词汇的集合,则计算公式为 4 ) = 雄,) 州j e ) 其中,尸( c j ) 是训练样本中的文本属于类别f ,的先验概率, 表示为尸( c ,) = ,n 。n c j 为训练样本中属于c ,类别的文本数,n 为训练样本中的文 本总数。基于独立性假设,e ( a ,ic ,) = 1 ip ( w 膳lc ,) ,尸( 刃ic ) 是文本谚属于 七= i 类别勺的条件概率。p ( w t kc j ) 2 瓦荔t e - r l。y c j 为嵋在类别勺中出现的次数,n 0 为 训练样本中属于c 。类别的文本数,m 为每个类别中所有词的总数,v 为类别的个数。 2 k 近邻算法( kn e a rn e i g h b o r ,k n n ) 。 k 近邻算法是机器学习中广泛使用的一种分类算法,它根据测试样本在特征空 间中k 个最近邻样本中多数样本的类别进行分类。其基本思想是将给定的测试文本 预处理生成特征向量,通过向量相似度比较找出与它最相近的k 个近邻,将该未知 文本划分到k 个近邻中最普遍的类别中。k 近邻算法分类器是一种基于实例的懒惰 的学习方法,它的整个分类过程并没有真正训练,而是在已分类文本中检索与未知 类别的文本最相似的文本,从而获得被测文本的类别。实现起来简单,但存储量和 计算量比较大。 3 r o c c h i o 算法。 r o c c h i o 算法来源于向量空间模型理论,其主要思想是将文本表示为向量空间的 高维向量,将训练集中正例的向量赋正值,反例赋负值,相加平均计算每个类别的 中心。对未知的待测文本,计算它到每个类别中心的相似度,对其进行类别的划分。 当类间距离比较大而类内距离比较小的类别分布时,r o c c h i o 算法可以达到较好的分 类效果。 8 东北师范大学硕士学位论文 4 决策树算法( d e c i s i o nt r e e s ,d t ) 。 决策树算法是一种贪心算法,其基本思想是通过对训练数据的学习,选取一个 最能区分不同类别样本的属性,让它做树根,并把训练样本集分为相应的几块,再 依次在每一块样本中选择区分度大的属性,做第二层节点,依次类推,最后所有的 叶子节点都只是包含一个类别的样本结束,这样构造出决策树,然后总结出规则来 解决问题。 2 2 特征降维 特征降维是数据挖掘任务的关键步骤,能够有效的提高挖掘的效率。近年来, 特征降维方法越来越多地被应用到文本分类、图像检索、生物基因特征的分析识别 等领域。随着数据的海量增长,其在数量和维度上的剧增趋势对特征降维方法提出 了更加严峻的挑战。 2 2 1 降维的目的及意义 特征降维2 4 】( f e a t u r ed i m e n s i o nr e d u c t i o n ) 是从初始高维特征集合中选出低维特 征集合,并根据一定的评估准则最优化缩小特征空间的过程,通常是机器学习的预 处理步骤。数据的特征数目的海量增加使得大量机器学习算法在可测性和学习性能 方面产生了严重的问题。在高维稀疏的特征空间中,包含了大量的特征数据,看似 用越多的特征来描述,事情会变得越简单。然而在这些特征数据中包含许多冗余信 息和噪音数据,它们不但对学习过程不起正面作用,反而会极大的降低学习算法的 性能。对分类算法来说,训练和分类的时间都会随着特征数量的增加而迅速增大。 从知识发现的角度看,识别出预测结果中的低维特征是非常有用的,消除无关和冗 余的数据特征,提高数据挖掘的效率,改善预测精准性等学习性能。有效的对数据 进行降维,不仅能够提高计算效率,而且能够提高分类的准确度。 2 2 2 降维方法的分类 特征降维方法主要分为特征选择和特征重构两种。特征选择是依据某个算法, 从原来的高维特征向量中选择部分最能反映模式类别统计特征的特征,即最能反应 文本内容的最优特征集,将其保留得到的是原来的高维特征空间的一个子集。特征 选择本质上是对原高维特征空间的约简,而不是把原来的特征转换为一个全新的特 征。目前较为典型的特征选择方法( 详见2 2 3 小节) 如文档频度、互信息、信息 增益、x z 统计量等。 特征重构嘲又称特征抽取或特征转换,它涉及到一系列的预处理技术,是基于 特征项之间的语义相关性、类内文本聚合程度、类间离散程度的影响力等方面因素, 对文本特征集进行压缩,从而把数据集的原来的特征向量转换成为一个不同的更紧 凑的低维的空间,同时仍然能够保持尽可能多的信息。特征重构将原来的特征向量 9 东北师范大学硕士学位论文 转换成为新的低维的特征向量。目前的特征重构方法主要有主成成分分析( p c a ) , 线性区分分析( l d a ) ,潜在语义索引( l s i ) 等。除此以外,还有一些其他方法如 r o d v s l 提出将词抽象为概念,并利用概念问的语义关系( 即同义词集) 对特征空间进 行降维处理。近年来,基于分形的降维方法也得到人们关注i ”1 。采用分形的思想, 可以较准确地估计出数据的本征维【2 8 1 ,从而为进一步地降维提供指导性的参考。 2 2 3 特征选择算法 特征选择方法的功能是在不损伤分类精度的前提下,尽量减少特征空间中的索 引项的数目,从而降低向量空间的维数,提高分类效率。本小节重点介绍几种常用 的特征选择算法。 1 文档频率( d o c u m e n tf r e q u e n c y , d f ) 。 文档频率是指在文本集中出现某个特征项的文本数目。在特征选择过程中计算 每个特征项在训练集中出现的频率,根据预先设定的阈值去掉低频特征和高频特征。 文档频率是一种最简单的词约简技术,它假设很少出现( 没有代表性) 或多于频繁 出现( 没有区分度) 的特征项对分类所起到的作用很小j 去掉这些特征有助于降低 特征空间维数,简化分类过程。但实际上有些稀少的词也可以包含重要的信息,对 分类有重要价值,不宜过多的删除。 2 互信息( m u t u a li n f o r m a t i o n ,m i ) 。 互信息通过计算特征和类别之间的关联程度来完成特征选择。对于特征t 和类 别c 的互信息定义为: m l ( t , c ) _ 1 。g 篇_ l o g 等 1 ) 其中,p ( tlc ) 是特征t 在类别c 中的出现的概率,j p ( f ) 是特征t 出现的概率。如果 特征t 和类别c 相互之间独立,则船( 芒,c ) 为零。 公式( 2 - 1 ) 是计算单类别的,为了将互信息公式应用到多类别中,通常有两种 计算方法,通过这些单类别的互信息值得到该特征的平均互信息值或是最大互信息 值。去掉低于特定阈值的特征,保留高于阈值的特征。互信息的值越大说明特征与 类别的相关性越高,特征和类别共现的程度越大。 假设有m 个类别,则互信息的平均值和最大值的计算公式分别为: l 4 r g ( t ) = 尸( q ) j o ,q ) ( 2 2 ) 厶刎( f ) = 麟墨lp ( c i ) l ( t ,q ) ( 2 3 ) 3 信息增益( i n f o r m a t i o ng a i n ,i g ) 。 信息增益常被应用于机器学习领域中,它通过某个特征项在一个文本中的出现 与否来计算对类别
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 急需资金购买房屋借款合同5篇
- 新解读《GB-T 30959-2014河西绒山羊》
- 范本代理记账合同范文2篇
- 解除租房合同范本
- 房屋倒塌租赁合同范本
- 退休聘用保洁合同范本
- 解除洗衣厂合同范本
- 护理个人年度计划书模板(5篇)
- 职高入团考试题目及答案
- 控烟工作心得体会怎么写(例文10篇)
- 二年级开学第一课:快乐启航新学期
- 小红书离婚协议书模板
- 激光焊接安全措施试题及答案
- 农村租地种植合同样本
- 典型故障波形分析-典型故障下录波图的分析(电力系统故障分析)
- 2025高考政治命题纲要解读
- 万科物业管理服务方案
- 中国糖尿病行为与生活方式干预指南(2024版)解读课件
- 《对外汉语比字句》课件
- 《中华人民共和国职业分类大典》(2022年版)各行业职业表格统计版(含数字职业)
- 养老院消防应急演练的不足与改进措施
评论
0/150
提交评论