(计算机应用技术专业论文)基于关联的中文文本分类系统的设计与实现.pdf_第1页
(计算机应用技术专业论文)基于关联的中文文本分类系统的设计与实现.pdf_第2页
(计算机应用技术专业论文)基于关联的中文文本分类系统的设计与实现.pdf_第3页
(计算机应用技术专业论文)基于关联的中文文本分类系统的设计与实现.pdf_第4页
(计算机应用技术专业论文)基于关联的中文文本分类系统的设计与实现.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(计算机应用技术专业论文)基于关联的中文文本分类系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息工程大学硕士学位论文 摘要 随着i n t e m e t 的迅速发展,网络信息不断膨胀,为了提供高效、准确的信息服务,人 们开展了对文本检索、信息获取、信息过滤、数据组织等数据挖掘与知识发现技术理论的 研究。文本分类技术是数据挖掘与知识发现领域的重要研究内容之一,在信息自动化处理 中发挥着极其重要的作用。 然而,中文文本自动分类系统在理论与应用等方面发展的还不是很成熟,分类过程中 仍存在大量问题。例如,文本分词中用的是直接的字符匹配,而基于编码匹配研究较少; 特征抽取中用的是直接的词频统计法,很少考虑文档之间的关联关系;文本分类结果的校 验处理研究较少,还无系统的校验方法。这些问题严重影响了中文分类效果,造成分类系 统实用性不够。 论文在已有研究成果的基础上,对中文文本自动分类进行深入的研究,提出一套基于 关联的中文文本分类机制,主要研究成果如下: 1 、基于哈希技术,提出一种高效的最大反向匹配分词算法:建立基于哈希函数的中文 词库,利用文档中词条的哈希长度在词库中进行匹配,加快了匹配的速度,提高了分词效 率。 2 、提出一种基于关联分组最优树的文本特征提取方法:对文档进行关联挖掘,分析文 档间的关联关系,建立一棵关联分组最优树,然后抽取树中文档概率极大值内的词频概率 最大值作为文本的特征值,有效地降低了文档的维度,选择出的文本特征值更加准确。 3 、引入贝叶斯分类算法的判别理论,对分类结果进行f 检验:详细研究了贝叶斯分类 算法,根据贝叶斯判别理论分析文本类在贝叶斯判别法下的差异,对分类结果进行f 一判别, 有效地提高了分类的准确率,使分类的结果更加合理化。 在本文的实验中,本文将基于关联的中文文本自动分类方法与s v m 、k n n 等几种常 用的分类方法进行对比,分析了各种方法之间的差异,验证了本文方法的有效性和高效性。 实验表明,本文的中文分类系统在性能上有较大的改进,分类结果有较为准确。 关键词:文本分类中文分词特征抽取关联分析贝叶斯理论机器学习 第页 信息工程大学硕士学位论文 a b s t r a c t w i t ht h ee x p e d i t i o n sd e v e l o p m e n to ft h ei n t e m e tt e c h n i q u e ,n e t w o r ki n f o r m a t i o ne x p a n d s c o n t i n u o u s l y t op r o v i d ee f f e c t i v ea n de x a c ti n f o r m a t i o ns e r v i c e ,m a n yp e o p l ec o m m e n c et o s t u d yt h ed a t am i n i n ga n dk n o w l e d g ed e t e c t i o nt e c h n o l o g ya c a d e m i cc o n t a i n i n gt h et e x ti n d e x , i n f o r m a t i o no b t a i n m e n t ,i n f o r m a t i o np e r c o l a t i o n ,i n f o r m a t i o nm a n a g e m e n te t e t h et e x t c a t e g o r i z a t i o nt e c h n o l o g yi s o n eo ft h ei m p o r t a n ds t u d y i n gc o n t e n ti n d a t am i n i n ga n d k n o w l e d g ed e t e c t i o nt e c h n o l o g ya c a d e m i c ,i tp l a y st h ev e r yi m p o r t a n tr o l ei ni n f o r m a t i o n a u t o m a t i z a t i o n h o w e v e r ,t h ea u t o m a t e dt e x tc a t e g o r i z a t i o ns y s t e mf o rc h i n e s ed o c u m e n t si sj u v e n i l i t yi n t h e o r ya n dp r a c t i c e ,c a t e g o r i z a t i o np r o c e s se x i s t sm a n yp r o b l e m s s u c ha s ,p e o p l ea d o p tt h e c h a r a c t e rm a t c h i n gd i r e c t l yi nt h ec a t e g o r i z a t i o np r o c e s sw h i l et h em e t h o d sb a s e do nc o d e m a t c h i n gi ss e l d o m ;i na d d i t i o np e o p l ea d o p tt h ef f e q u e n c es t a t i s t i cm e a s u r e sd i r e c t l yi nt h et e x t f e a t u r es e l e c t i o np r o c e s sw h i l ei ti sf b s ht oc o n s i d e rt h ea s s o c i a t i o ns h i pb e t w e e nt h ed o c u m e n t s m o r e o v e r , t h et e s t i n gt r a n s a c to f t h ec a t e g o r i z a t i o nr e s u l t si sl e s s ,t h e r ea r en o ts y s t e m a t i ct e s t i n g m e a n 8 t h e s eq u e s t i o n sm a k et h ee f f e c to f t h ea u t o m a t e dt e x tc a t e g o r i z a t i o ns y s t e mf o rc h i n e s e d o c u m e n t si sn o ti d e a l ,i tw i l lb ef a rf r o mt h ep r a c t i c a l i t ya n dc o m m e r c i a lp r a c t i c e t h i sp a p e rp r e s e n t saa u t o m a t e dt e x tc a t e g o r i z a t i o ns y s t e mf o rc h i n e s ed o c u m e n t so nt h e f o u n d a t i o no f t h ee x i s t i n gf r u i t sa n do u rt h o r o u g hs t u d y ,t h em a i nf r u i t si sb e l o w : l - b a s e do nt h eh a s ht e c h n o l o g y t h ep a p e rp r e s e n t sal 【i n do fh i 2 9 he f f e c tr e v e r s e dm a x m a t c hc a t e g o r i z a t i o na r i t h m e t i c :w ee s t a b l i s hc h i n e s ew o r d sl i b r a r yg r o u n d e do nt h eh a s h f u n c t i o n , u t i l i z et h eh a s hl e n g t ho ft h ev o c a b u l a r ye n t r i e st op u tu pt h ev o c a b u l a r ye n t r i e s m a t c h i n g ,t h i sm e a s u r e sa b o v ec a nq u i c k e nt h es p e e do f t h ev o c a b u l a r ye n t r i e sa n dp r o m o t et h e e f f i c i e n c yt h ep a r t i c i p l e 2 p r e s e n tak i n do ft e x tf e a t u r es e l e c t i o nm e t h o db a s e do nt h eo p t i m i z a t i o nt r e eo f a s s o c i a t i o nt e r m :w ed oa t e r ml e v e la s s o c i a t e dm i n i n g f o rt h ed o c u m e n t s f i n do u tt h e a s s o c i a t e dr e l a t i o n s h i pa n ds e tu pa s s o c i a t e dg a t h e rg r o u p s ,t h e nb u i l dao p t i m i z a t i o nt r e eo f a s s o c i a t i o nt e r mu s i n gt h es t r u c t u r ef e a t u r eo faa s s o c i a t e dg a t h e rt r e ef o re a c ha s s o c i a t e dl e v e l t e r m ,a f t e r w a r ds e l e c tt h em a x i m a lf r e q u e n c yp r o b a b i l i t yv a l u eo ft h em a x i m a ld o c u m e n t s p r o b a b i l i t ya st h et e x tf e a t u r ev a l u e ,s u c hw a yr e d u c e se f f e c t i v e l yt h ed i m e n s i o n m i t yo ft h e d o c u m e n t sa n dt h et e x tf e a t u r ev a l u es e l e c t e di sm o r e r e p r e s e n t a t i v e 3 i m p o r tt h eb a y e sc a t e g o r i z a t i o na l g o r i t h m i cd i s t i n g u i s ht h e o r ya n dc a l l yt h r o u n g f v e r i f i c a t i o nf o rd i s p o s a lr e s u l t s w et r a v e r s et h eb a y e sc a t e g o r i z a t i o na r i t h m e t i c ,m e a n w h i l e c o n c l u d et h ed i f f e r e n t i ao ft h et e x tg e n u sb a s e do nb a y e st h e o r y t h e nc a r r yt h r o u n g 第v 页 信息工程大学硕士学位论文 f v e r i f i c a t i o nf o rd i s p o s a lr e s u l t s t h i sm e t h o dc a l lp r o m o t ee f f e c t i v e l yt h ep r e c i s i o na n dr e c a l l r a t ea n do b t m nas u i t a b l ec a t e g o r i z a t i o nr e s u l t s i nt h et e x t u a le x p e r i m e n t , t h ep a p e r c o m p r eo b rc a t e g o r i z a t i o ns y s t e mw i t hs v m a n dk n n c a t e g o r i z a t i o ns y s t c m ,a n a l y z et h ed i f f e r e n t i aa m o n gt h e s ec a t e g o r i z a t i o nm e t h o d sa n dv a l i d a t e i t sv a l i d i t ya n dh i 曲e f f i c i e n c y e x p e r i m e n t ss h o wt h a tt h ep r e c i s i o no fo u rs y s t e mc a nr e a c h 9 1 ,c o r r e s p o n d i n g l yi th a v eag r e a t t e rp r o m o t i o ni nt h ec a p a b i l i t ya n db e t t e ru s i n gv a l u e k e y w o r d s :t e x ta u t o m a t i cc a t e g o r i z a t i o n , c h i n e s ev o c a b u l a r ye n t r ys y n c o p a t e ,t e x tf e a t u r e s e l e c t i o n , a s s o c i a t ea n a l y s i s ,b a y e sd i s t i n g u i s hs t a n d a r d 第页 中文文本自动分类研究与实现 论文原创性声明和使用授权 本人声明所呈交的论文是我个人在导师指导下进行的 研究工作及取得的研究成果。尽我所知,除了本文中特别加 以标注和致谢中所罗列的内容外,论文中不包含其它人已经 发表或撰写过的研究成果;也不包含为获得信息工程大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中做了明确的 说明并表示了谢意。 本人完全了解信息工程大学电子技术学院有关保留和 使用学位论文的规定,即:学院有权保留论文的复印件,允 许查阅和借阅论文;可以公布论文的全部或部分内容;可以 采用影印、缩印或其它手段保存论文。涉密论文按保密规定 执行。本论文取得的研究成果归学院所有,学院对该研究成 果享有处置权。 本人签名八弓够祷日期:闩1y b 撕叛锄蒲吼州厂 信息工程大学硕士学位论文 第一章引言 1 1 文本自动分类的发展及应用 1 1 1 文本自动分类的提出 随着信息技术的不断发展,特别是i n t e m e t 应用的普及,人们己经从信息缺乏的时代过 渡到了信息极其丰富的年代,出现的各种各样的信息情报、科技文献和新闻语料等都需要 管理,这就要求人们花费大量的时间和金钱,以有效地保留大的文本集合【”。对文本进行 有效管理的方法之一,就是将它们进行系统地分类,使之成为方便于人们的查询阅览的宝 贵资料,而不浪费人类资源【2 l 。目前的一个研究热点是网络文本信息的处理,它包括信息 检索、文本分类和信息过滤等,而文本分类则是其中一个重要的环节【3 1 。 文本分类是自然语言处理的一个重要应用领域,直到2 0 世纪8 0 年代末,在文本分类 方面占主导地位的一直是基于知识工程的分类方法,即是由专业人员手下编写分类规则来 指导分类【3 】。其分类过程,首先是由专家来将它们分类,然后被保存于适合的记录材料, 象计算机形式或硬拷贝【4 】。在这期间需要大量工作,并且要求专业的分类人员具有较多经 验和专门知识。然而,分类质量有时还是得不到保证,且周期长,费用高,效率低,不易 满足人们的实际需要【5 1 。由此可见,在人工分类文本过程中存在着的大量问题。为解决这 些问题,许多专家和学者开始在信息研究领域从事许多专业的研究工作。 综上所述,文本信息的剧增一方面增加了对于快速、自动的文本分类的迫切需求,另 一方面又为基于机器学习的文本自动分类方法准备了充分的资源 6 1 。在这种情况下,文本 自动分类为了适应信息检索系统的发展和应用要求而出现了。 1 1 2 文本自动分类的发展与应用 国外对文本自动分类的研究开展较早,5 0 年代末,h p l u h n 在这一领域进行了开创性 的研究,提出了词频统计思想用于自动分类i ”。1 9 6 0 年,m a r o n 发表了关于自动分类的第 一篇论文嗍,随后,众多学者在这一领域进行了卓有成效的研究工作,如k s p a r k 、g s a l t o n 以及r m n e e d h a m 、m e l c s k 、k s j o n e s 等【9 “o 】。到目前为止,国外的文本自动分类研究 己经从最初的可行性基础研究经历了试验性研究进入到了实用化阶段,并在邮件分类、电 子会议、信息过滤等方面取得了较为广泛的应用,其中较为成功的系统有麻省理工学院 ( m ) 为白宫开发的邮件分类系统、卡内基集团为路透社开发的c o n s t r u e 系统等【l l ”】。 第1 页 信息工程大学硕士学位论文 国内对于文本自动分类的研究起步较晚,1 9 8 1 年,候汉清教授对于计算机在文本分类 上作中的应用做了探讨,并介绍了国外计算机管理分类表、计算机分类检索、计算机自动 分类、计算机编制分类表等方面的概况。此后,我国陆续研制出一批计算机辅助分类系统 和自动分类系统【2 3 1 。例如,广东省中山图书馆的莫少强开发的计算机辅助图书分类系统 ( c a b c ) 、清华大学吴军研制的自动分类系统、山西大学刘开瑛等人开发的金融自动分 类系统2 4 ,2 5 1 、东北大学图书馆的图书馆分类专家系统【2 6 1 ,上海交通大学王永成等研制的基 于神经网络优化算法的中文自动分类系统【2 7 】、广州西风公司研制开发的西风文本自动分类 系统等等【2 引。虽然中英文之间存在着较大差异而无法直接照搬国外的研究成果,但是,随 着中文信息处理技术特别是中文自动分词技术的日渐成熟,以此为基础的中文文本分类技 术的研究得到了快速发展,短短2 0 年就己经完成了从可行性探索到实用化阶段的转变【2 圳。 特别是近几年,各种各样的系统对分类系统的迫切需求,分类系统受到了人们的广泛 的重视,硬件的飞速发展使人们对分类系统更加关心的为分类系统分类结果的准确率问题 【1 3 】,人们尝试将较为智能化的技术应用到中文文本系统分类中,来提高其准确率,这就大 大地促进了分类系统的发展。例如基于语料库构建自动分类系统【14 1 、构建实用性更强的自 动分类专家系统与构建适合自动分类的机读分类法等分类模式成为人们研究的重点对象 【1 5 】。考虑到文本分类与相关领域的关系,分类的研究思路一般是将信息检索及自然语言处 理领域中的成熟技术与模式识别中分类的基本思想相结合,采用相关的算法来抽取关键词 和特征向量【1 6 】( 文本特征) ,运用信息检索中的计算模型进行特征加权,采用模式识别算 法进行类别判别。 1 2 文本分类及其相关技术理论 文本自动分类的关键问题是如何构造一个分类模型,并利用此分类模型将未知文本映 射到给定的类别空间。 1 2 1 文本分类需要解决的问题 根据需要不同,标准不同,目的不同,可以设计不同的类别体系。对于计算机进行的 文本自动分类,要求各类文本之间具有一定的区分度。类别体系确定以后,如何将文本划 分到各个类别中呢? 让我们先看一下人是如何进行分类的。人类在成长过程中,在与周围 社会、自然环境接触的过程中储备了庞大的知识库于大脑中,这使人在进行分类时,可以 通过人脑所具有的抽象思维能力来理解文本内容,达到文本分类目的,人类所做的文本分 类是一种基于篇章理解的分类【1 6 】。由于自然语言的复杂性以及知识库的严重不足,目前采 用计算机来做篇章理解,还远远未能达到理解各种各样真实文本的水平【l 。因此,需要通 过各种方法找出真实文本的一些可量化特性来描述各个文本类别的特征,并以此作为分类 第2 页 信息工稃大学硕士学位论文 的依据。至此,文本自动分类问题可以被看作一种特定的模式识别问题,真实文本所反映 出的文本类别特征可以看作一种待识别的模式。 细化文本分类的过程,将文本分类进行剖析,则发现对一篇文章分类的理解主要包含 了以下几个问题: 1 、获取训练文档集 训练文档集选择是否合适对文档分类器的性能有较大影响。训练文档集应该能够广泛 地代表分类系统所要处理的客观存在的各个文档类中的文档,一般地,训练文档集应该是 公认的经人工分类的语料库【1 8 】。 2 、建立文档表示模型 即选用什么样的语言要素( 或者说文档属性) 和用怎样的数学形式组织这些语言要素 来表征文档。目前的文档分类方法和系统都是以词或词组作为表征文档语义的语言要素: 表示模型则主要有布尔模型和矢量空间模型【1 9 1 。 3 、文档属性选择 文档分类系统应该选择尽可能少而准确且与文档主题概念密切相关的文档属性进行分 类,选择什么样的文档属性由具体的度量准则确定1 2 0 i 。 4 、选择分类方法 也就是说用什么方法建立从文档属性到文档类别的映射关系。目前有回归模型、k n n 法、v s m 方法、b o o s t i n g 方法、b a y e s 方法、决策树方法和人工神经网络方法等。实际使 用较多的是b a y e s 方法、v s m 方法以及k n n 算法【2 1 1 。 5 、性能评估模型 即如何评估分类方法和系统的性能或者说分类结果。目前使用比较多的分类性能评估 指标为查全率( r e c a l l ) 和查准率( p r e c i s i o n ) 1 2 2 1 。 查全率和查准率按以下公式计算: 查准率( p r e c i s i o n ) = 分类的正确文本数实际分类的文本数 查全率( r e c a l l )= 分类的正确文本数应用文本数 1 2 2 文本自动分类的关键技术 本文研究的是中文的文本自动分类,由于中文与西文之间存在差异,所以面向中文的 文本自动分类其既具有与西文文本自动分类的共同之处,又具有自身的特点,中文文本自 动分类所涉及到的关键技术大致包括以下几个方面: 1 、文本自动分词技术 第3 页 信息工程大学硕士学位论文 自动分词是针对于中文的一种自然语言处理技术,中文同英文不同,句子中各个词条 间没有固有的分隔,为了对文本信息进行分类、索引等处理,首先需要对中文文本进行词 条切分( 简称分词) 。中文文本的分词处理就是指在中文文本中连续的能够代表语义单元 的词或者r l 一元词条间加入分隔符,将中文文本的连续字节流形式转化为离散单词流形式的 过程。自动分词技术是各种中文信息处理技术的基础,也是中西文之间研究文本自动分类 的主要差异所在,中文文本自动分类要在自动分词的基础上进行,对中文文本进行分词的 过程也是文本特征集的确定过程【2 。 2 、文本特征抽取技术 特征选择是文本分类中的一个重要环节。由于文本特征集的数量非常庞大,一般的学 习算法无法对其进行类别学习,使得进行特征子集的抽取变得十分必要。特征选择可以从 两个方面提高系统性能:一是分类速度,通过特征选取,可以大大减少特征集合中的特征 数,降低文本向量的特征数,提高系统运行速度。二是准确率,通过适当的特征选择,不 但不会降低系统准确性,反而会使系统精度提高【硎。 3 、文本计算模型 为了使计算机能够真正处理文本特征,必须对文本特征进行特征加权,将文本表示成 计算机可以处理的数学向量。自从文本检索( a u t o m a t i ct e x tr e t r i e v a l ) 和信息检索 ( i n f o r m a t i o n r e t r i e v a l ) 概念首次被提出后,出现了许多诸如基二文档( d o c u m e n t ) 和问 题( q u e r y ) 之间相关词语比较的计算模型,具有代表性有布尔模型( b o o l e a nm o d e l ) 、向 量空间模型( v e c t o rs p a c em o d e l ) 、概率模型( p r o b a b i l i s t i cm o d e l ) 等。这些模型从不同 角度出发,使用不同的方法处理特征加权、类别学习和相似计算等问题怛“。 4 、识别算法 文本分类是一个特定的模式识别问题,在文本中使用模式识别的机器学习方法会取得 比相关反馈方法更好的效果。如果况文本分类曾一度被看作信息检索问题,现在文本分类 正越来越被作为模式识别的一个特例进行研究。大量经典的模式识别学习算法己经被应用 于文本分类中,如近邻分类法、贝叶斯决策法、决策树、神经网络、支持向量机等,取得 了令人鼓舞的结果f 2 “。 1 3 文本分类目前存在的问题 随着国内外学者的深入研究,越来越多的理论算法被提出来,较多的已经被应用到实 践和产品中去。例如i b m 公司开发出的文本智能挖掘机高级搜索引擎( a d v a n c e ds e a r c h e n g i n e e r ) t e x t m i n e r 、w e b 访问工具( w e ba c c e s st o o l s ) 包括w e b 搜索引擎n e t q u e s t i o n 和w e bc r a w l e r 以及文本分析工具( t e x ta n a l y s i st o o l s ) 等,a u t o n o m y 公司的核心产品 c o n c e p ta g e n t s 27 1 ,国内研究开发的俄汉机译系统、英汉题录机译系统t i t l e 、汉一法英 第4 页 信息工程大学硕士学位论文 日,俄德多种语言机器翻译系统f a j r a 、8 6 3 i m t e c 英汉系统、s i n o t r a n s 汉英汉日机译 系统和通译英汉汉英系统等产品工具【2 8 1 。这些工具在一些领域内不可缺少,正发挥着越来 越重要的作用,其地位越来越重要。 这些文本分类系统虽然得到广泛的开发和应用,然而由于算法先天的缺陷和人为的原 因,这些分类系统的准确率大都在8 0 左右,离实用化和商品化阶段还有一段距离,仍存 在着一些不足之处,归纳如下: 1 3 1 分词技术面临的难题 中文分词是由计算机自动识别文本中词边界即词条划分的过程,它是中文信息处理最 重要的预处理之一,然而到目前为止,真正成熟实用的中文分词系统还几乎没有,这成为 严重制约中文信息处理发展的瓶颈之一f 2 9 】。事实证明,并非有了成熟的分词算法就能轻松 地解决中文分词的问题,因为中文是一种十分复杂的语言,而让计算机理解中文语言是非 常困难的,在中文分词过程中,一直面临着两大难题: l 、歧义识别和新词识别 分词歧义的产生主要有两种情况:组合型歧义和交集型歧义1 3 0 】。所谓组合型歧义是某 个词的- - + 部分也是一个完整的词,如“中华人民共和国”中“中华”、“人民”和“共 和国”都是词,但是它们合起来也是一个词;而交集型歧义就是说两个相邻的词之间有重 叠的部分,如“今天下午”中“天下”是一个词,“下午”也是一个词,它们重用了一个 “下”字。研究表明,歧义的产生主要是后一种,它约占整个分词歧义的9 0 1 4 9 1 。所以, 处理好交集歧义字段在很大程度上能保证一定的分词精度。另外还存在一种歧义是真歧义, 真歧义是指给出一句话,人也无法判断哪个应该是词,哪个应该不是词。例如:“乒乓球 拍卖完了”,可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”, 如果没有上下文相关句子,将无法知道“拍卖”在这里是否是一个词。 新词,又称为未登录词。随着语言在不断的发展和变化,导致新词的不断出现,同时 词的衍生现象非常普遍,所以词表中不能囊括所有的词。最典型的是人名。例如在句子“李 小浩去上海了”中,人很容易理解“李小浩”作为一个人名是个词,但计算机识别就困难 了。如果把“李小浩”作为一个词收录到字典中去,全世界有那么多名字,而且时时都有 新增的人名,如此一项巨大的工程即使可以完成,问题仍旧存在。例如:在句子“李小浩 然正气”中,“李小浩”是词吗? 新词中除了人名以外,还有机构名、地名、产品名、商 标名、简称、省略语等这些人们经常使用的词都是很难处理的问题。因此在信息搜索中, 分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的 重要标志之一【2 ”。 2 、文本分词的速度较慢 第5 页 信息工程大学硕士学位论文 在中文分词过程中,由于中文语句是由各种各样的词条组成,在词条之间并没有标识 符号,切分词条往往需要很长的匹配过程,因而造成分词的效率低下,不利于用户的使用。 本文通过对中文分词的分析,总结出以下几个原因: 中文词库包含了十几万个词,词库太过庞大; 智能化越高的算法的分词准确率越高,然而效率却越低,反之依然; 词库中词条的匹配算法往往都是词条的直接匹配,没有经过预处理。 1 3 2 特征抽取过程中存在的问题 大规模文本信息处理技术得到了较快的发展,但是近年来,特征词集的生成研究一直 处于停滞不前的状态。人们热衷于用各种数学模型来优化特征词集的生成,实践反复证明 其效果是十分有限的,文本信息处理的准确率不够高( 基于向量空间运算的文本分类准确 率以及检索的查全率和查准率等总是停留在7 5 左右) f 2 们,很难投入实际应用。 1 、降维的阀值难以把握 中文分词之后,词频矩阵的维数是很高的,一般都要上千上万维,而其中包含了大量 的冗余信息。很多关键词在一个文档中出现之后,就极少在其他的文档中出现,此时就需 要抽取其中作用大、可以代表文本意思的词做为关键词,而这些关键词一起组成特征矩阵 以进行模式识别和学习1 3 0 ,3 ”。然而,对于维度的把握十分重要,如果维度太低,则说明其 中一些重要的信息也被当作冗余信息删除了:如果太高,则影响文本分析的精度,因此阀 值是非常重要的。 然而,闽值的确定是十分困难的,理论上,没有很好的解决方法,一般采用预定初始 值,然后给出测试文本,使用分类器进行分类,再根据分类的准确程度调整初始值,这样 的方法有两个缺点,首先,初始值的确定不容易,完全是根据经验或简单的测试而定,其 次,调整的幅度无法确定,当初始值过高或过低需要增减时,增减的幅度无法很好的确定, 只能反复测试,反复调整,这样就大大地增加了工作量。而且,一个分类系统的阂值由于 测试文本的不同也无法完全应用于另一个分类系统中。 2 、维度过高,缺乏必要的预处理,没有考虑到文本之间的关联关系 统计学、模式识别和机器学习中都有许多进行特征抽取的方法,是人们普遍采用的一 种文本表示方法,然而它要对文本集的每个词都赋予权重,从而使得文本向量具有非常高 的维数,计算量过大无法直接使用,并且其中存在大量的噪音数据和冗余数据,分类效果 十分不理想同。例如神经网络分类算法输入节点的数目惊人,结构十分庞大,学习训练的 时间难以估量,贝叶斯模型的特征维度过高导致过多的交叉计算等。在文本特征提取中, 这些算法面对超高维的原始文本特征集时,都变得不再适用,人们目前采用特征独立性假 第6 页 信息工程大学硕士学位论文 设来简化特征选择的过程,达到计算时间和计算质量之间的折中。一般的做法是采用某种 评估函数对每个文本特征独立进行打分,然后把特征按分值高低排列,通过设置特征阂值 的办法选择预定数目的最佳特征作为文本特征子集。常用的评估函数如下几种:文档频数 ( d f ) 、信息增益( i g ) 、互信息( m i ) 、x 2 统计( c h i ) 、期望交叉熵( c e ) 和词组 强度( t s ) 等。这些算法一定程度上解决了高维度的难点,提高了分类效率,然而很少考 虑到文档和关键词之间潜在的关联关系,特征词和特征矩阵的提取准确性并不是很高。 1 3 3 分类器存在的问题 自动分类系统在研究和工作中的地位日渐突出,许多著名的公司在文本分类方面都颇 有建树,并且在不停的提出新的方法来实现文本的分类,例如基于语料库构建自动分类系 统、构建实用性更强的自动分类专家系统、构建适合自动分类的机读分类法等,然而目前 的分类器并十分完善【3 “。 1 、分类准确率不高,缺乏必要的结果判别 基于人工智能的中文自动分类专家系统虽然分类效果越来越好,然而准确率依然不算 太高。在所有的文本分类算法中,贝叶斯算法在满足特征独立性假设条件后,效果基本上 是最优化的,拥有较高的准确率和查全率。然而其仍然存在文本类别无法识别的问题,并 且文本分类的结果的准确率仍没达到切实实用的标准。 2 、分类过程中交叉问题严重 各学科发展异常迅猛,分支学科、边缘学科不断涌现,使得文本挖掘中特征抽取变的 非常复杂,在抽取的过程中,进行非用词处理之后,人们一般抽取词频极大值作为关键词, 而在一些情况下这是不准确的,所以就要考虑到文本的关联性和整体性,以及文档和关键 词之间潜在的关联关系4 1 。 当我们在阅读一篇文章时,一篇文章包含的内容是交叉的,它可以属于这门学科,同 时也关联到别的学科,这样由于其包含的弱成分学科可能被忽视点,这样是十分不正确的, 但在有些情况下这些内容作为噪音信息忽视可以提高提取的准确度。 1 4 本论文的主要工作及创新点 1 4 1 本论文的主要工作 通过参阅大量的参考文献,分析当前中文文本分类的优点与不足,提出基于关联的中 文文本分类系统,主要工作包含了以下几个部分如图1 1 所示: 第7 页 信息工程大学硕士学位论文 图1 1 中文文本分类算法的原理结构图 概括起来,主要进行了以下几个方面的工作: i 、参阅大量国内外近几年的文献资料,详细分析了中文文本分类的构造模型,以及不 同时期的各种分类算法,并重点介绍了目前常用的几种分类算法,为后面的分类系统打下 基础; 2 、建立了一个自动分词系统,采用网上下载的人民日报( 2 0 0 2 年) 新闻语料库, 建立哈希词库,并利用h a s h 函数法来进行词条单元的匹配。实验证明,分词过程中响应 速度较快,不失为一种行之有效的方法; 3 、在文本特征提取中,提出一种基于关联分组最优树的文本特征提取方法;下载了目 前涉及政治、经济、社会等3 8 个类的训练预料库,并对这些库文件进行训练,抽取其特征 值进行测试; 4 、在文本分类器的构造上,使用了传统的b a y e s 分类算法,并分析b a y e s 的判别算法, 对分类结果进行性能判别和正误判别,可以在一定的程度上提高分类的准确率。 1 4 2 本论文的创新点 本文经过对中文文本分类的详细分析与研究,提出一种基于关联的中文文本分类系统, 主要有以下几个创新点: 1 、在中文分词过程中,将词库分为六部分:单字词、二字词、三字词、四字词、五字 词和六字词,并利了h a s h 算法建立基于h a s h 的词库。计算词库中每个关键字在h a s h 函数处理下的长度,利用长度和h a s h 函数查找法在词库中查找词条,速度较快,分词效 果较好; 2 、特征提取中引入中文版本的w o r d n e t 库。利用目前已经比较热门的技术来处理关键 词之间的关联关系,对一部分关键字和文档不用再进行复杂的预处理计算,正确率较高, 速度较快,处理更加方便; 3 、提出一种基于关联分组最优树的中文文本特征提取算法。求取关联分组中词频极大 第8 页 信息工程大学硕士学位论文 值作为特征值,降低维度,处理更加迅速:在特征抽取中,考虑的是文本中关联组的出现 概率,而非单个关键字的词频概率,降低维度,处理更加准确;针对文本数据维数过高的 问题,使用先分类或聚合的方法,有效地解决了文本数据维数过高造成的文本分析过于复 杂的问题; 4 、在分类器分类中,引入贝叶斯判别理论。细化了贝叶斯分类算法,引入了贝叶斯判 别理论,并进行贝叶斯判别理论分析,在理论上归纳文本类在贝叶斯判别法下的差异,最 后对分类结果进行f 判别,提高了分类的精度和准确率。 1 5 论文组织 本文针对文本分类方法和中文分词算法进行了详细的论述。论文共分五章: 第一章论述了文本分类方法的发展现状,中文文本分类中需要解决的问题以及存在的 难题,从而引出本文研究的目的: 第二章详细介绍了中文文本分类模型中的关键技术,并且罗列了目前在中文文本分类 过程中应用到的主要技术理论; 第三章是本文的中心部分,阐述了自己在中文分词技术、特征抽取技术和分类技术各 个方面的理论研究成果,同时用实验给予分析; 第四章提出了基于关联的中文文本自动分类系统的实现模型,介绍了本系统的实现流 程,并用大量的实验对本论文中分类系统进行测评; 第五章总结论文的研究成果,计划下一步的工作。 第9 页 信息工程大学硕士学位论文 第二章中文文本自动分类模型体系 本章给出了中文文本自动分类的体系框架,详细地介绍了中文文本自动分类中的自动 分词、特征抽取和分类器的构建等技术理论目前的发展状况。 2 1 中文文本分类的体系框架 中文文本分类的框架体系包括四大核心技术:自动分词、特征提取、分类模型与性能 评估。图2 1 概括了中文文本分类的框架体系,主要包括3 项: 图2 1 中文文本分类框架 1 、文本表示: 根据文本表示的知识( 如词典) 及统计信息将自然文本转换成可为计算机表达的数值 向量或符号向量。文本表示主要运用两项关键技术:自动分词技术和特征提取技术。已有 的研究工作表明,“文本表示”的好坏,将影响分类器的选择与训练,最终影响文本分类 的质量: 2 、机器学习,通过逻辑推理得到学习器: 机器学习是中文文本分类研究的核心内容,主要有两种,即数值学习方式和符号推理; 3 、分类器的应用实践、优化及改善: 文本分类研究走出实验室,真正展现无限生命的一步,主要解决如何评价分类器在不 同模型、不同测试语料以及不同应用领域上的性能,继而如何优化分类器等的问题。 本文第二章主要针对文本分类中的中文分词技术、特征抽取以及分类器的构建等做详 细的概括,介绍目前的文本分类的各种技术理论,并分析各种分类方法的优缺点,提出目 前文本分类技术仍存在的问题。下面将分别在2 2 、2 3 、2 4 章节对中文文本自动分类的三 个过程进行分析和说明: 第1 0 页 一早卤豳。,一一| 刿;。一 一墓雷荨蚕! | 信息工程大学硕士学位论文 2 2 中文自动分词的主要理论技术 中文文本的分类难度较大,主要是因为汉语分词比较困难,为此而需要建立完整的汉 语概念、汉语语法、语义和语用分析体系也就是十分复杂。而这一问题对于英文等西文文 本处理并不存在,英文单词( w o r d ) 与单词之间以空格分隔,而中文文本并无这种显式的 边界标志。中文分词的任务就是要由机器将中文词条之间分隔开来。 自上世纪8 0 年代中文信息处理领域提出自动分词以来,相关领域的专家、学者提出了 许多分词方法,如最大正向匹配法( m m ,m a xm a t c h ) 、最大反向匹配法( r m m ,r e v e r s e d m a xm a t c h ) 、最优匹配法( o m ,o p t i c a lm a t c h ) ,逐词匹配法、切分标志法等,这些分 词算法都在8 0 年代末9 0 年代初提出,这个时期提出的分词算法受计算机的存储空间限制 比较大,算法考虑的首要因素往往是空间复杂度,对于时间复杂度来讲这些算法不够理想 【2 绷。9 0 年代之后,又陆续提出了更多的新分词算法,这些算法都有比较好的时间复杂度。 例如中国社会科学院语言文字应用研究所汉字整理研究室1 9 9 0 提出的近邻匹配分词算法, 可以描述为基于首字h a s h + 二字词的二分查找近邻匹配方法,它支持首字h a s h 和完全 二分查找,因此大大降低了分词过程中的匹配次数,提高了分词的响应速度【2 ”。s a l t o n g 在1 9 9 1 开始提出了基于首字的h a s h 的分词算法,但首字h a s h 之后不能进行二分查找 1 1 8 。这些算法均以v i m 法或r m m 法为基础进行改进,着眼于提高算法的时间效率。 9 0 年代后期以来,由于计算机硬件技术的飞速发展,分词算法的空间、时间开销不再 成为瓶颈,研究的焦点逐渐转向中文分词的质量。由于中文的歧义、新的词汇不断增补以 及姓名地名复杂多样,要有效地提高分词的准确度亦是一件复杂的工作。有关专家、学者 提出了最大概率分词法,如孙茂松,邹嘉彦的中文姓名的自动辨识提出了基于概率统 计的方法来处理中文中的姓氏、地名【1 9 】。宋柔的基于语料库和规则库的人名识别法与 张俊盛的多语料库作法之中文姓名辨识等提出了基于语料库和规则库的人名识别方法。 但是最大概率法并不能有效解决交集型歧义问题和组合歧义问题。孙茂松,邹嘉彦的消 解中文三字长交集型分词歧义的算法、詹卫东的p p + v p i + v p 2 格式歧义的自动消 解和杨晓峰的一种基于知网的语义排歧义模型研究等提出了基于词性,语义的歧义 消解算法例。另外还有学者提出采用某些人工智能的方法提高分词质量。 中文分词算法大致可以分为字符串匹配法、扫描及条件决择法、复杂人工智能法。下 面对中文分词算法进行详细的分析: 第l l 页 信息工程大学硕士学位论文 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论