(计算机软件与理论专业论文)基于χ2统计的中文文本分类特征选择方法研究.pdf_第1页
(计算机软件与理论专业论文)基于χ2统计的中文文本分类特征选择方法研究.pdf_第2页
(计算机软件与理论专业论文)基于χ2统计的中文文本分类特征选择方法研究.pdf_第3页
(计算机软件与理论专业论文)基于χ2统计的中文文本分类特征选择方法研究.pdf_第4页
(计算机软件与理论专业论文)基于χ2统计的中文文本分类特征选择方法研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

两南大学硕士学士论文中文摘要 摘要 随着i n t e m e t 的大规模普及,信息量迅速增长,用户要在海量的信息中找到自 己所需要的信息,就像大海捞针一样困难。如何从大量繁杂的文本信息中获取有 用的信息? 文本分类就是实现它的最重要的方法之一。文本分类和特征选择方法 是文本挖掘的两个重要的研究方向。 文本特征选择是文本分类过程中的一个重要环节,它直接影响文本分类的查准 率。本文在全面分析文本分类特征选择方法的基础上,重点研究了基于z 2 统计的 特征选择方法,发现传统的z 2 统计方法有如下缺点:1 ) 只考虑了特征在所有文档 出现的文档频数,没有考虑特征在某一文档中出现的文档频率,因此对文档频率 低的特征词不可靠。在类内部的文档中,如果特征词在少量文档中频繁出现很有 可能对分类的贡献很大,比如专指概念,显然这样的特征词能够很好代表这个类 的特征,然而传统的z 统计方法没有考虑这种情况;2 ) 当特征词在其他类出现频 率比较高,在指定类出现频率比较低时,在传统的统计方法中,仍然会将这些特 征词作为该类的特征项。但是,这样的特征词很明显不能够代表这个指定类,不 应该作为该指定类的的特征项。 针对传统的z 2 统计方法存在的缺陷,通过引入文档内频度、类内正确度等指 标对传统的z 2 统计方法进行改进,解决了对低频词不可靠等问题。本文的另外一 个工作是,构造出了一个集分词、特征选择、分类于一体的中文文本分类系统。 该系统的分词、特征选择、分类3 个模块之间相互独立但它们之间的接口是统一 的。也就是说各个模块可以很方便地调用其它模块,某一模块所作的修改对其它 模块是透明的,对任何一个模块进行改进时不会引起其他模块的变动。 对比实验结果表明本文方法的整体混淆矩阵、总体查全率、查准率、乃值以 及各个类的查全率、查准率、乃值与传统方法、已有改进方法相比都有明显提高。 关键词:文本分类特征选择z 2 统计方法中文文本分类 两南大学硕士学士论文 a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to f 嘲t h en u m b e ro fd o c u m e n t so nt h ei n t e r n e tm c r e a s e s s w i f t l ya n dv i o l e n t l y t h eu s e rm u s tf i n dt h ei n f o r m a t i o nw h i c hi nt h em a g n a n i m o u s i n f o r m a t i o no n e s e l fn e e d e d ,l i k e l yl o o k e df o ran e e d l ei nah a y s t a c kt h es a m ed i f f i c u l t y h o wt oo b t a i nt h eu s e f u li n f o r m a t i o nf r o mt h el a r g en u m b e ro fc o m p l e xt e x t i n f o r m a t i o n ? t e x tc a t e g o r i z a t i o ni so n eo ft h em o s ti m p o r t a n tw a y s f e a t u r es e l e c t i o n m e t h o d sa n dc l a s s i f i c a t i o na l g o r i t h m sa r ei m p o r t a n tr e s e a r c hd i r e c t i o no ft e x t c a t e g o r i z a t i o n t e x tf e a t u r es e l e c t i o ni sa l li m p o r t a n tp a r to ft e x tc a t e g o r i z a t i o n i tw i l ld i r e c t l y a f f e c tt h ep r e c i s i o no ft e x tc l a s s i f i c a t i o n i nt h i sp a p e r , ac o m p r e h e n s i v ea n a l y s i so ft h e c h a r a c t e r i s t i e so ft e x tc l a s s i f i c a t i o no nt h eb a s i so fs e l e c t i o nm e t h o d s ,w ef o c u so nz 2 s t a t i s t i c sf e a t u r es e l e c t i o nm e t h o d t h et r a d i t i o n a lz 2s t a t i s t i c sf e a t u r es e l e c t i o nh a s t w ol i m i t a t i o n s :1 ) i to n l yt a k et e x tf r e q u e n c yo ff e a t u r ei na l lt e x t si n t oa c c o u n t ,i n d e f i a n c eo ff e a t u r ef r e q u e n c yi no n et e x t ,t h a tm e a n si ti sn o tr e l i a b l et of e a t u r eo fl o w t e x tf r e q u e n c y i raf e a t u r et e r ma p p e a r sf r e q u e n t l yi naf e wd o c u m e n t so fac a t e g o r y , i t m a yh a v em o s tc o n t r i b u t i o nt ot h ec a t e g o r i z a t i o ns u c ha se x p e r tt e r m s ,o b v i o u s l y , t h e y c a nb eag o o dr e p r e s e n t a t i v eo ft h ec h a r a c t e r i s t i co ft h i sc a t e g o r y , h o w e v e r , t r a d i t i o n a l z 2 a p p r o a c h d o e sn o tt a k el f t i se a s ei n t oa c c o u n t 2 ) t h ef e a t u r et e r ma p p e a r s f r e q u e n t l yi no t h e rc l a s s e sn o ti nt h es p e c i f i e dc l a s s o b v i o u s l y , s u c h f e a t u r et e r m c a n n o tr e p r e s e n tt h i ss p e c i f i e dc l a s s h o w e v e r , t r a d i t i o n a lz 2a p p r o a c hd o e sn o tt a k e t h i sc a s ei n t oa c c o u n t t oo v e r c o m et h e s h o r t c o m i n g s o ft r a d i t i o n a l ta p p r o a c h 。t h i sp a p e r c o m p r e h e n s i v e l yt a k e sc r i t e r i o n ss u c ha sd o c u m e n tf r e q u e n c y a n dc l a s sa c c u r a c yo ft h e t r a d i t i o n a ls t a t i s t i c a lm e t h o d st oi m p r o v ez 2a p p r o a c h f e a t u r et e r m sw h i c ha p p e a r f r e q u e n t l yi no n ec a t e g o r yag o o dr e p r e s e n t a t i v eo ft h ec h a r a c t e r i s t i c so f t h i sc a t e g o r y , s ow et a k ef r e q u e n c yi n t oa c c o u n t ;ah e l p f u lf e a t u r et e r ms h o u l dm o s t l ya p p e a ri no n e c a t e g o r yr a t h e rt h a na p p e a ri na l lc a t e g o r i e s ,s ow e t a k ec o n c e n t r a t i o na m o n gc a t e g o r i e s i n t oa c c o u n t ;af e a t u r et e r me v e n l yd i s t r i b u t e da m o n gd o c u m e n t so fac a t e g o r yi s h e l p f u lt ot h ec a t e g o r y , s ow e t a k ed i s t r i b u t i o nw i t h i nc a t e g o r i e si n t oa c c o u n t t h eo t h e rw o r ko ft h i sp a p e ri st ob u i l dac h i n e s et e x tc a t e g o r i z a t i o ns y s t e m w o r d s e g m e n t a t i o n , f e a t u r es e l e c t i o na n dt e x tc a t e g o r i z a t i o na r et h r e ep a r t so ft h es y s t e m t h e ya r ei n d e p e n d e n t ,b u tm e yh a v ec o n s i s t e n ti n t e r f a c e i tm e a n se v e r yp a r tc a n c o n v e n i e n t l yu s eo t h e rp a r t sa n dc h a n g i n go fo n ep a r ti st r a n s p a r e n tt oo t h e rp a r t s i ti s 1 1 西南大学硕十学士论文 a b s t r a c t v e r yc o n v e n i e n tt oi m p r o v eo n ep a r tw i t h o u t e f f e c t st oo t h e r p a r t s i no r d e rt ov m f ye f f i c i e n c yo fi m p r o v e dz 2a p p r o a c h , t h e r e i sae o n t r a s f i v e e x p e r i m e n t t h ee x p e r i m e n tr e s u l t ss h o wt h a ti m p r o v e dz 2 a p p r o a c hi ss u p e r i o rt o t r a d i t i o n a lz 2 a p p r o a c ha n dt h ei m p r o v e da p p r o a c hi nf e a t u r es e l e c t i o n ,w h i c hv e r i f i e s e f f i c i e n c ya n dp r o b a b i l i t yo fi m p r o v e dz 2 a p p r o a c h k e y w o r d s :t e x tc a t e g o r i z a t i o n ;f e a t u r es e l e c t i o n ;z 2 a p p r o a c h ;c h i n e s e t e x t c a t e g o r i z a t i o n i i i 独创性声明 学位论文题目:基王z 2 统i 土的圭塞塞奎佥娄挂堑选叠友洼互巍 本人提交的学位论文是在导师指导下进行的研究工作及取得的研 究成果。论文中引用他人已经发表或出版过的研究成果,文中已加特 别标注。对本研究及学位论文撰写曾做出贡献的老师、朋友、同仁在 文中作明确说明并表示衷心感谢。 学位论文作者:离鸯签字日期: 姗弓年5 月刃日 学位论文版权使用授权书 本人提交的学位论文是在导师指导下进行的研究工作及取得的研 究成果。论文中引用他人已经发表或出版过的研究成果,文中已加特 别标注。对本研究及学位论文撰写曾做出贡献的老师、朋友、同仁在 文中作明确说明并表示衷心感谢。 ( 保密的学位论文在解密后适用本授权书,本论文:囤不保密, 口保密期限至年月止) 。 学位论文作者签名:漳 签字日期:2 哆年s 月幻日 导师签名:厂磐l ,哆 、 , 导师签名:苔0 v 汐 签字日期:吖年f 月二7 - - e 7 两南大学硕十学士论文绪论 第一章绪论弟一早珀l = 匕= 1 1 研究背景和意义 近些年来,随着科学技术的迅速发展,特别是因特网的快速发展,信息及电 子文本数目迅速增加。随着i n t e m e t 的普及和网络技术的不断完善,i n t e r n e t 已经 成为了全球最庞大最丰富的信息资源库。由于i n t e m e t 的开放性,各类信息都能在 第一时间发布在i n t e m e t 上。然而,i n t e r n e t 的这种开放性也导致了i n t e m e t 上信息 的杂乱性和冗余性。根据1 9 9 8 年的统计结果,全世界每年出版大约1 5 6 0 0 0 种 期刊,而且这一数字以每年1 2 0 0 0 种的速度递增。同时,仅美国国内就有近1 4 0 万种图书复印,这一数据还以平均每年6 万种的速度增加。1 9 9 9 年,美国国会图 书馆藏书约为1 7 0 0 万种,平均每天接受的新书多达7 0 0 0 种。另一个增长更为 惊人的信息渠道为i n t e m e t 。1 9 9 9 年的统计结果表明,i n t e r n e t 上有约3 5 亿个 静态h t m l 页面,每天增加将近1 0 0 万。 面对如此庞大而且不断增长的信息,如何有效的组织和管理,以及快速的找 到用户需要的信息,是当代信息科学和技术领域面临的一大挑战。文本分类能够 处理大量的文本,可以较大程度解决信息紊乱的现状,方便用户准确地定位所需 要的信息。文本分类作为信息检索、信息过滤、搜索引擎、文本数据库、数字化 图书馆等领域的技术基础,有着广泛的应用前景【l 】。因此,文本分类技术随着时代 的需求而蓬勃发展了起来。 文本分类是文本挖掘的一个重要内容,是指按照预先定义的主题类别,为文 档集合中的每个文档确定一个类别。通过自动文本系统把文档进行归类,可以帮 助人们更好地寻找需要的信息和知识。文本自动分类已经成为处理和组织大量文 档数据的关键技术。但是,随着信息量日趋丰富,人们对于内容搜索的查准率、 查全率等方面的要求会越来越高,因而对文本分类技术需求大为增加,文本分类 前文本预处理及特征选择模块首先要对文本特征进行预处理,经分词程序分词后, 生成原始特征向量。由于文本数据的半结构化甚至于无结构化的特点,使得表示 文本数据的特征向量高达几万维甚至于几十万维。即使经过初始化筛选处理( 使用 停用词表、稀有词处理、单词归并) ,还会有很多高维数的特征向量留下。其中有 很多无用的特征高维的特征空间会使一些分类算法无法进行或效率非常低,例如 支持向量机,k 近邻分类器等。文本分类中,可用特征选择的方法进行维数约简, 选用的特征词过少当然不能准确地区分各个类别的文档。然而选用的特征词过多 时,一些区分度很低的冗余词汇也被加了加来,这样那些区分度较高的词在其中 被“稀释”了,不能有效地为区分文档做贡献,因此导致特征空间增大时文档分 类的准确度降低。 西南大学硕十学十论文绪论 因此文本分类的关键是对高维的特征集进行降维,高维的特征集对分类学习 未必全是重要和有效的,同时高维特征集会加剧机器学习的负担,而且分类器的 算法和实现的复杂度都随特征空间维数的增加而增加,进行特征降维对文本分类 的训练时间、分类准确性都有显著的影响。研究有效的特征降维方法能够为文本 分类技术的发展奠定坚实的理论基础,同时也能够比较方便地把相应成熟的文本 分类技术集成到实际应用中,比如在w e b 网页的自动分类、垃圾邮件过滤等方面 有着广泛的商业前景和应用价值。 1 2 国内外文本分类研究现状综述 1 2 1 文本分类介绍 文本分类【1 0 1 ( t e x tc a t e g o r i z a t i o n 或t e x tc l a s s i f i c a t i o n ,缩写为t c ) 是指根据文 档的内容或属性,将大量的文本归到_ 个或多个类别的过程。这里所指的文本可 以是媒体新闻、科技报告、电子邮件、技术专利、网页、书籍或其中的一部分。 文本分类问题关注的文本种类,最常见的是文本所涉及的主题或话题( 如体育、政 治、经济、艺术等) ,也可以是文本的文体风格( 如流派等) ,或文本与其他事物( 如 垃圾邮件等) 之间的联系( 相关或不相关) 。显然,用人工对文本材料进行分类的过 程是通读所有文章,然后再对它们进行归类保存。当然这需要许多具有丰富经验 和专门知识的分类人员做大量的工作,显然这个过程具有周期长、费用高、效率 低的特点,在信息爆炸的今天很难满足实际需要,如何运用计算机进行自动分类 成了当今的研究方向。 。 根据需要不同、标准不同、目的不同,可以设计不同的类别体系。对于计算 机进行的文本自动分类,要求各类文本之间具有一定的区分度。类别体系确定后, 如何将文本划分到各个类别中呢? 先看一下人是如何进行分类的。人类在成长过 程中,在与周围社会、自然环境的过程中储备了庞大的知识库于大脑中,这使人 在进行分类时,可以通过人脑所具有的抽象思维能力来理解文本内容,达到文本 分类的目的,人类所做的文本分类是一种基于篇章理解的分类。由于自然语言的 复杂性以及知识库的严重不足,目前采用计算机来做篇章理解,还远远未能达到 理解各种各样真实文本的水平。因此,需要通过各种方法找出真实文本的一些可 量化特性来描述各个文本类别的特征,并以此作为分类的依据。因此,文本自动 分类问题可以被看作一种特定的模式识别问题,真实文本所反映出的文本类别特 征可以看作一种待识别的模式。 文本分类方法一般分为两个类型:基于外延方法的分类方法、基于语义的分 类方法。而文本分类模型是文本分类的核心技术,根据分类知识获取方法的不同, 大体上文本分类模型可以分为两种【1 l 】【1 2 】,即基于规则的文本分类和基于统计的文 两南大学硕士学十论文 绪论 本分类。具体的相关知识在第二章详细介绍。 1 2 2 特征选择介绍 随着文本分类、组合化学和遗传学等领域的数据的快速增长,特征选择逐渐 发展为一个具有挑战性的研究课题【l3 1 。这些领域的数据集很多都包含数百甚至数 千的特征。其中,大部分特征一般都是冗余的或是不相关的。由于缺乏足够的领 域知识,多余的特征仍被包括于数据集中。由于大多的分类技术初始设计时并没 有考虑到处理这批数目较大的不相关特征,所以特征选择技术逐渐发展起来以弥 补这块空白。 特征选择的精确定义取决于它的应用。一般最常用的定义【1 3 1 是:选择一个特 征子集合,使得在这一特征集合中可以得到最优的性能。这一定义后的基本原理 是,不相关或是冗余的特征常常是数据中的噪音,会误导分类模型,并降低分类 器的性能。移除那些垃圾特征,剩下一个有限、较小的特征子集。在这个子集上 的分类性能和全集合相同或是更好。此外,显然较少的特征占用的空间较小,分 类器的运算速度也会变快,分类器还可以应用到更大的数据样本上。此外,降低 特征数目可以帮助人工专家专注于相关的特征子集,更好的理解数据的潜在本质 和特性。 特征选择的目的 1 j 】是:改进分类器的预测性能;促使生成更快、更高效的分 类器;伎生成的分类模型更简单;了解数据生成过程的潜在本质。 特征选择算法可以被分为3 个主要类别【1 3 】: 过滤型方法( f i l t e rt e c h n i q u e s ) :通过分析数据的内在性质除去多余的特征。 大部分情况下,对每个特征计算一个分值,分值低的特征被除去。 包装型方法( w r a p p e rt e c h n i q u e s ) :生成和评估多个特征子集。对特征子集的 评估是通过训练和调试某分类模型来完成的。 嵌入式方法( e m b e d d e dt e c h n i q u e s ) :特征选择策略被包含于分类模型中,直 接使用分类模型的参数来决定选用或拒绝。 1 2 3 国内外研究现状 文本分类在国外的研究开展时间较早,1 9 5 7 年美国母m 公司的h e l u h n 2 】自 动分类领域最先进行了开创性的研究,提出了词频统计思想用于自动分类。1 9 6 0 年m e m a r o n 3 】在( ( j o u r n a lo fa c m ) ) 上发表了有关自动分类的第一篇文章c o n r e l e v a n c ep r o b a b i l i s t i ci n d e x i n ga n di n f o r m a t i o nr e t r i e v a l ) ) ,提出了自动关键词分类 技术,正式宣告了自动分类技术的诞生。随后,众多学者如许多著名的情报学家 如k s p a r c h 、g s a l t o n 及r m n e e d h a m 在这一领域进行了卓有成效的研究。 从2 0 世纪6 0 年代起步至8 0 年代末,文本分类主要是以专家人工构建识工程 西南大学硕士学十论文绪论 技术为支撑,具有代表性的是麻省理工大学为白宫开发的邮件分类系统以及卡内 基集团为路透社开发的新闻自动分类系统( c o n s t r u es y s t e m ) 。基于知识工程的分类 系统具有较好的分类效果,但无法移植,需要大量领域专家的参与。从2 0 世纪9 0 年代开始,。随着模式识别、机器学习、统计学习、数据挖掘等理论研究的发展, 文本分类被注入了新的活力。自动文本分类出现了,从预先经人工正确分类的训 练文本集合中学习类别的特征信息,根据算法生成分类器。这种分类方法适应性 强,方便移植,不需要行业专家的介入。这种分类方法所达到的分类性能已经不 亚于人工分类。典型的代表系统有g o o g l e 公司的搜索引擎和i b m 公司的文本智能 挖掘机等。到目前为止,国外的文本自动分类研究已经在邮件分类、电子会议、 信息过滤等方面得到了广泛的应用【4 】【5 1 。, 相对于国外的情况,我国开展自动分类的研究起步稍晚一些。由于中文与英 文存在较大的差异,因此不能照搬国外的研究成果,有必要研究并开发出实用化 的中文文本自动分类系统。1 9 8 1 年,侯汉清对计算机在文献分类工作中的应用作 了探讨,并介绍了国外计算机管理分类表、计算机分类检索、计算机自动分类、 计算机编制分类表等方面的概况。8 0 年代中期开始,我国的一些大学、图书馆和 文献工作单位开展了档案、文献或图书的辅助或自动分类研究,并陆续研制出一 批计算机辅助分类系统和自动分类系统,这些系统主要集中在中文处理领域。 1 9 8 4 年,广东省中山图书馆的莫少强开发出计算机辅助图书分类系统 ( c a b c ) 。该系统设计思想是:以中图法军事类中的1 0 0 个类目为基础,建立模 拟的机读分类表。1 9 8 7 年,上海交通大学电脑应用技术研究所的朱兰娟、王永成 等开发了中文科技文献( 计算机类) 实验性分类系统。1 9 8 9 年,天津医学情报所 的张炳恒开发出半自动图书分类系统。进入9 0 年代,分类系统更是得到了全面的 应用。1 9 9 5 年,南京大学信息管理系的苏新宁等人推出汉语档案自动分类系统; 杭州应用工程技术学院的叶新明推出中文文献自动分类系统:清华大学电子工程 系的吴军利用以语料相关系数作为分类依据,以字频、词频以及常用搭配作为补 充,采用了停用词表和人工指导分类的思想推出自动分类系统;1 9 9 7 年山西大学 计算机系的刘开瑛、刘静等人推出金融档案自动分类系统等等。 在国内,文本分类技术还是一个较前沿的研究领域。其中特别值得注意的是 复旦大学的周水庚等人用n g r a m 方法对中文文本进行分类,从文档中提取n g r a m 属性,然后用k n n 方法判别文本类别,摆脱了对分词词典的依赖,实现了文本分 类的领域无关性和时间无关性【6 】。 国内外当前流行的文本分类方法有主要有k 一近邻法张如叼、n a i v eb a y e s 方 法、决策树方法、神经网络方法、s v m 支持向量机方法,遗传算法等,在近期的 研究中,较为常用的研究方法是采用基于统计的方法,由于统计方法实现文档分 西南大学硕士学十论文绪论 曼曼曼曼! 曼! 曼曼曼曼曼曼曼曼皇曼曼曼曼曼曼曼曼曼曼蔓曼曼曼曼皇曼曼曼鼍曼曼曼曼曼笪曼曼曼曼曼曼曼曼曼曼曼曼曼曼曼曼曼! 曼曼曼曼皇ii i i 曼! 曼曼曼曼曼曼曼寡曼! 皇皇曼 类简单,对大多数实际文档分类速度较快,准确度在一定的条件约束下较高,系 统成本比较低,因此为大多数文档分类系统所采用。其中k n n 、n b 和s v m 由于 分类效果较好,成为近几年人们研究的热点 7 - 9 】。 1 3 本文的研究内容 1 3 1 本文的主要工作 特征选择是文本分类的关键技术,特征选择的好与坏直接关系到文本分类的 效果,本文将特征选择作为重点研究对象,对传统特征选择方法提出了改进措施, 具体的工作如下 ( 1 ) 重点研究分析了基于z 2 统计的特征选择方法,并分析了传统z 2 统计特征 选择方法的不足:1 ) 只考虑了特征在所有文档中出现的文档频数,没有考虑特征在 某一文档中出现的频率,因此对文档频率低的特征词不可靠;2 ) 当特征词在其他 类出现频率比较高,在指定类出现频率比较低时,在传统的统计方法中,仍然会 将这些特征词作为该类的特征项。但是,这样的特征词很明显不能够代表这个指 定类,不应该作为该指定类的的特征项。 ( 2 ) 针对这些不足,给出了改进方案。引入文档内频度,解决对文档频率低的 特征不可靠问题:引入类内正确度,解决特征词在其他类出现高,指定类出现低 的问题。将我的改进方法和已有改进方法比较,做对比实验。 ( 3 ) 为了验证提出的改进方案,采用了一个集分词、特征选择、文本分类于一 体的中文文本分类系统。将本文方法和传统方法以及已有改进方法分别在相同数 据集上做特征选择,用它们选择出的特征词用相同的分类算法来分类,通过比较 其分类的结果来检验改进方案的正确性。 1 3 2 本文的组织 本文共分六章,文章结构及各章主要内容组织如下: 第一章介绍了文本分类的研究背景及研究意义,分析了国内外文本分类的研 究现状、以及当前的研究难点。给出了本文的主要研究内容,最后,给出了本文 的整体组织结构。 第二章介绍了文本分类中涉及的主要技术,包括文本分类的流程,文本表示 模型,文本分类算法,以及分类效果的评价指标,为后面章节的讨论作概念和技 术准备。 第三章对文本分类中的特征选择方法进行介绍,包括特征选择的概念,以及 常用特征选择方法及评价。 第四章首先介绍了z 2 统计的特征选择方法,讨论了基于z 2 统计的特征选择方 硒南大学硕士学士论文绪论 法的不足。针对它存在的缺陷,通过引入文档内频度、类内正确度等指标来提升 特征选择的准确性,提出了一种改进的z 2 统计特征选择方法。最后讨论了基于z 2 统计的中文文本分类系统的构造,引入了一种中文文本分类系统的构造方法 第五章对本文方法和传统z 2 统计方法、已有改进方法三者做对比实验,通过 实验结果表明本文方法是有可行性的。 第六章总结了本文的研究工作,并计划今后的研究工作。 两南大学硕+ 学士论文 文本分类技术 第二章文本分类技术 本章根据文本分类相关技术的重要性主要介绍了文本分类的概念、文本分类 的结构、常用的文本分类的方法及文本分类结果的评估指标。 2 1 文本分类的定义 文本分类( t e x tc a t e g o r i z a t i o n 或t e x tc l a s s i f i c a t i o n ,缩写为t c ) 是根据给定 文本的内容,将其判别为实现确定的若干个文本类别中的某一类或某几类的过 程。文本分类的形式化一般定义为1 4 4 5 1 ,对于给定的文本集合d o c = 反,d 2 d m ) 其中“i 表示第i 篇文档,d o c 由m 篇文章组成:预先定义的文档类别集合 c a t = c l ,c 2 ,c ,c ,) ,c a t 总共有l c l 个类别。假定在文本与类别之间存在严格未知的 映射函数:中:d o e c a t 一 t r u e ,f a l s e 文本分类就是要找到一个函数:6 :d o e c a t 一 t r u e ,f a l s e 尽量逼近未知的目标函数。在文本分类中,函数6 称为一个分类器( c l a s s i f i e r ) , 或者是分类模型( m o d e l ) 。如果6 ( d i ,c ,) = t m e ,表示文档d r 属于类别c ,并且嘭为 c ,的正例;6 ( 么,c j ) = f a l s e ,表示文档d f 不属于类别c j ,9 v f _ n d l 为c j 的反例。实际 上,文本分类器6 由一系列两类分类器组成。 从数据挖掘的角度来说,文本分类是个有监督( s u p e r v i s e dl e a r n i n g ) 的学习 过程。在这个学习过程中,它根据一个已经被人工处理过的训练文本集合( t r a i n i n g s e t ) 去挖掘出文本属性和文本类别之间的关系模型,然后根据学习得到的这种关系 模型对新到来的文本测试集合( t e s ts e t ) 进行自动的类别判断。因此,文本分类简 言之,就是先学习找到一个分类模板,然后根据该模板对新的文本进行分类。 整个文本分类模型为如下图2 1 西南大学硕士学士论文文本分类技术 分类过程 图2 1 文本分类模型 f i g2 1t e x tc l a s s i f i c a t i o nm o d e l 2 2 文本分类任务流程 文本分类主要步骤为分词、词干抽取、去掉停用词、特征选择、生成文本表示 模型、构建分类器及文本分类。对于这些步骤将在本小节介绍1 1 9 】。 1 ) 分词 分词主要是针对汉语、阿拉伯语等东方语言文本来说的,对于英语、法语等西 方语言不需要分词,因为词与词之间是通过空格来进行分隔的。目前汉语自动分 词方法至少有十几种,其中最常见的有:正向最大匹配法、反向最大匹配法、双 向最大匹配法、设立切分标志法、最佳匹配法以及机械分词加歧义校正法和知识 分词方法等等。这些方法虽然名称各异,分词速度也不尽相同,但从本质上可将 它们分为两类:机械分词方法和理解性分词方法。 2 词干抽取 词干抽取( s t e m m i n g ) 是将文本中具有相同或相近的单词合并成一个语义单位 ( 或词项) 的过程。词干抽取主要是针对英文数据集进行的。英语中名词有单、复数 的变化,动词有时态、人称的变化等,这就使得同一个单词会出现多种不同的形 式,但是对于分类来说,它们属于同一个单词。例女n :a c t o r 的复数形式为a c t o r s ;a c t 会出现a c t s ,a c t i n g ,a c t i o n 等形式。如果不进行词干抽取,在文本表示时,同一 单词的不同形式会被看成不同的特征,这样不但增加了特征空间的维数,而且会 分散这个特征的权重计算,这样会影响文本的正确表示,影响分类器的决策,从 两南大学硕十学十论文文本分类技术 而降低分类的精度。所以词干抽取的目的是将由词干派生的词还原为词干,以集 中词干的权重,从而提高分类器的分类性能,同时也使得文本中的相关词义得到 集中,使得使用不同形式的单词但是表达相同主题的文本具有更高的相似性,词 的权重计算也更加科学。目前词干抽取主要有两种基本实现途径:基于规则的方 法和基于词典的方法。前者依据一定的规则逐个剥离各个单词的后缀,得到表明 其基本含义的词根。著名的p o r t e r 取词根算法就是一个典型的基于规则的取词根 方法【1 8 】。 3 ) 去停用词 停用词指的是那些出现频率很高但是对文本分类却没有太大作用的单词。无论 是英文、中文还是其他语言,都有很多停用词。比如英文中的“t h e 、a n d 、t o 、f o r ”, 汉语中如“的,地,得,这,那”等等词几乎出现在任何一个英文或中文文本中, 但是它们对这个文本所表达的内容几乎没有任何贡献,更多的作用是在语法上。 所以如果以这些单词作为文本特征的话,即使是内容上完全不同的两个文本也会 因为这些共有的特征而很难被区分开来。因此,非常有必要将这些停用词从原始 的文本中过滤掉,这个过程即称为停用词过滤或去停用词。 去停用词涉及到停用词表的构造,停用词表的构造与特定的语言有关,一般由 特定语言中出现频率高但是含义虚泛的词构成。因此,在实际应用中,通过将出 现在停用词表中的单词直接进行过滤,方法简单,也能将一些对分类无用的单词 滤掉,防止这些在文本中大量出现的词将有用词“淹没 。实际上可以将这一过程 理解为特征空间的降维,只不过这种降维工作的实现比较粗糙。 4 ) 特征选择 采用词干抽取和去停用词后,特征空间的维数在一定程度上大大降低,这就是 所谓的文本特征空闻的粗降维过程。虽然如此,特征空间的维数仍然是成千上万 维,这对于大多数的分类器来说,是难以忍受的,而且这么多维的特征对将进行 的分类过程来说未必是重要的、有益的,甚至会大大干扰训练效果、降低分类性 能,因此有必要采取措施进一步地降低特征空间的维数。对于文本分类来说,目 前最常用的方法是使用特征选择函数进一步地降低特征空间的维数,提高分类器 的分类性能。关于特征选择是本文研究的重点,将在下一章详细介绍。 5 ) 生成文本表示模型 通过前边几步的处理就可以对文档进行文本形式化表示。因为文本是一个由众 多字符构成的字符串,属于一种非结构化的数据,无法被其直接用于训练或分类。 要将自主训练技术运用于文本分类问题,首先需要将作为训练和分类对象的文本, 转化为自主训练算法易于处理的形式。即运用各种文本表示方法将所有文本都表 示成具有某种相同结构的数据。将在2 3 节详细讨论。 西南大学硕士学十论文文本分类技术 6 ) 构建分类器及文本分类 经过了文本预处理就可以选择合适的分类算法进行分类器的构建和进行新增 文档的分类。也就说用什么方法建立从文档特征到文档类别的映射关系,这是文 本分类的核心问题。常用的方法有n a i v eb a y e s ,k n n ,类中心向量,支持向量 机等。实际使用较多的是k n n 方法和支持向量机方法,这两种方法分类效果不错, 而且具有较强的稳定性。 2 3 文本表示模型 从本质上讲,文本是一个由众多字符构成的字符串,无法被学习算法直接用 于训练或分类。要将机器学习技术运用于文本分类问题,首先需要将作为训练和 分类对象的文档文本,转化为机器学习算法易于处理的向量形式。即,运用各种 文本形式化表示方法对文档进行文本形式化表示。通常文本表示方法有:布尔模 型( b o o l e a nm o d e l ) ,向量空间模型( v e c t o rs p a c em o d e l ) ,概率模型( p r o b a b i l i s t i c m o d e l ) 等。 2 3 1 向量空间模型 向量空间模型是由美国的s a | t o n 等人于2 0 世纪6 0 年代提出【2 0 】,并成功地应 用于s m a r t 系统中。向量空间模型的基本思想是把文档表示成特征向量,通过相似 度来确定文档内容间的相关程度。在向量空间模型中,每个文档都可被抽象表示 成如下形式 v ( d ;) = ( ( f l ,w l ( d ,) ) ,- ( f 2 ,w 2 ( d ,) ) ,( f i ,w i ( d ,) ) ,( r 。,w 。( d ,) ) ) 式2 1 其中,t i 是特征项( t e r m ) ;w i j ( d i ) 是t i 在文档d i 中的权值函数,反映特征t i 决定文 档d i 属于某一类的重要程度。特征项是从文档中提取的特征词,根据“贝叶斯假 设,假定特征项之间对文本的类别归属的影响是相互独立的,这样就可以把文本 表示成由特征项的集合所表示的向量。 向量空间模型把文档简化为以项的权重为分量的向量表示,把分类过程简化为 空间向量的运算,使得问题的复杂性大大减少。此外向量空间模型对项的权重的 评价,相似度计算都没有做一个统一的规定,只是提出一个理论的框架,可以使 用不同的权重评价函数和相似度计算方法。使得此模型有广泛的适应性。 2 3 2 布尔模型 布尔模型( b o o l e a nm o d e l ) 是最简单而常用的严格匹配检索模型【2 1 1 ,它的基本 思想是以关键词出现与否来表示文档内容。布尔模型定义了一个二值变量集合来 表示文档,这些变量对应于文档中的特征项,一般是由文档集中的词条或短语组 西南大学硕士学+ 论文文本分类技术 成。如果某特征项在文档中出现时,该特征项所对应的变量的值就为l ( t r u e ) ,否 则就是0 ( f a l s e ) 。在布尔模型中,用户查询也被表示成布尔表达式,使用逻辑运算 符将查询关键词连接起来。检索时,根据用户提交的检索条件是否满足文档表示 中的逻辑关系将检索文档分为两个集合:相关文档集和不相关文档集。检索结果 因其二值性( 相关或不相关) 而无法进行相关性排序。布尔逻辑模型的优点是:结构 简单,实现起来容易,检索速度快。例如y a h o o ,i n f o r m a t i o ns e e k 等诸多搜索引擎 都采用了布尔检索模型,中文文本检索系统有t r s ,清华光盘版全文检索管理系 统等。但布尔模型的文档表示能力差,无法区分特征项对文档内容的重要程度, 并因匹配过于严格而时常发生漏检情况,检索结果的精确度也不高,使用起来极 为不便。 2 3 3 概率模型 由于信息检索中文本信息相关判断的不确定性和查询信息表示的模糊性,导 致了人们用概率的方法解决这方面的问题。概率模型基于概率排队理论:当文件 按相关概率递减原则排列时可以获得最大的检索性能。选用概率模型1 2 2 1 可以克服 布尔逻辑模型和向量空间模型忽略词条关联性、视文档中词条互为独立的缺点。 概率模型是利用词条间及词条与文档间的概率相依性进行信息检索。 设文档d 和用户查询c 都可用二值词条向量组( a 1 ,a 2 ,硝表示,当词条t i d 时,有碣= 1 ,否则为o ,其相关公式为2 2 s i m ( d ,c ) :yl o g 型盟 式2 2 一。g f ( 1 一p f ) 其中,p ,= r i r ,q ,= ( f r i ) ( f r ) 。f 为与训练文档集中的文档总数 r 为文档集 中与用户与查询相关的文档数,五表示训练文档集中包含特征项t i 的文档数,r i 表 示r 个相关文档中包含特征项t j 的文档数。 概率模型有严格的数学理论基础,采用了相关反馈原理克服不确定性推理的 缺点,它的缺点是参数估计的难度比较大,文件和查询的表达也比较困难。 2 4 常用的文本分类方法 分类算法是文本分类中的另一个研究重点,根据分类知识获取和类别判断方法 的不同,文本分类方法主要有两大类: 基于规则的分类方法【1 4 】 基于规则的方法主要依赖领域专家知识,需要领域专家预先编制大量的推理 规则作为分类知识。其基本原理是利用领域专家系统知识,由推理机根据领域知 识推导分类。优点是分类体系细致合理,分类正确率较高,适用于专业领域的知 识组织和管理。但实现起来比较复杂,开发费用相当昂贵,领域性太强,不易移 西南大学硕士学士论文 文本分类技术 植,管理和扩展费用很高,难以保证一致性和准确性,而且面对网络这种海量的 信息数据,基于知识的方法几乎不可能完成。 ? 这方面的例子有卡内基集团为路透社开发的c o n s t r u e 系统,国内外一些专业 网站也采用该方法进行类目组织,如y a h o o 、搜狐等。国内也有一些基于专家系统 的分类系统,如王永成等( 1 9 9 7 ) 利用正向推理在肿瘤学专业文献上建立了一个启发 式分类的分析型专家系统;邓要武等( 1 9 9 7 ) 建立了正向推理分级知识库的产生式系 统;刁倩( 2 0 0 0 ) 根据当前中文信息的分布特点,并参照以往自动分类的研究经验, 基于仿人思想,利用人工智能方法,总结了在科技文献中文献主题词决定文献类 别的规律,设计和开发了一个基于知识的中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论