(计算机软件与理论专业论文)基于词和基本短语模式的特征提取方法.pdf_第1页
(计算机软件与理论专业论文)基于词和基本短语模式的特征提取方法.pdf_第2页
(计算机软件与理论专业论文)基于词和基本短语模式的特征提取方法.pdf_第3页
(计算机软件与理论专业论文)基于词和基本短语模式的特征提取方法.pdf_第4页
(计算机软件与理论专业论文)基于词和基本短语模式的特征提取方法.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 i n t e r n e t 的发展带动了信息的迅速增加,如何从海量的信息中快速有效地找到有用 的信息,已经成为亟待解决的问题。文本信息的自动分析可以有效地解决这一问题,而 文本信息自动分析中的一个主要技术就是文本分类。文本分类技术可以使用户按照自己 的要求搜索到有用的信息,不仅大大提高了文本信息的利用率,还具有广泛的研究价值 和商业价值。 文本分类主要包括四个部分:文本预处理、特征提取、特征权重计算和分类器分类。 其中特征提取是文本分类的关键,而消除语义歧义和降低向量空问维数是特征提取的难 点。传统的文本分类方法都以词作为文本的特征进行提取,而单个词语所能涵盖的文本 特征含义十分有限。本文改进了特征项单一性的缺点,提出了一种基于词和基本短语模 式的特征提取方法。本文采用了对分词后的词语进行词性标注,并且使用同义词词林处 理同义词和多义词的方法。即有效地消除了语义歧义,还降低了空间向量维数。 本文用k n n 分类器和s v m 分类器分别进行了实验。实验结果表明,分类的准确 率和召回率都得到了提高。 关键词文本分类特征选取基本名词短语基本动词短语 a b s t r a c t a b s t r a c t t h ef a s td e v e l o p m e n to fi n t e r n e th a sm a d et h er a p i di n c r e a s eo fi n f o r m a t i o n h o wt og e t t h eu s e f u li n f o r m a t i o nw i t h i ns u c hah u g ea m o u n tm e s s a g e sh a sb e c o m eap r o b l e mw h i c h m u s tb er e s o l v e di m m e d i a t e l y a u t o m a t i ct e x ta n a l y s i sc o u l db ea ne f f e c t i v ew a yt os o l v et h i s p r o b l e m ,a n do n eo ft h em a i nt e c h n i q u e si n t e x t a n a l y s i s i st e x tc a t e g o r i z a t i o n t e x t c a t e g o r i z a t i o nl e tt h eu s e r sf i n dt h eh e l p f u li n f o r m a t i o nb a s e do nt h e i ro w nr e q u i r e m e n t s s o t h et e x tc a t e g o r i z a t i o nt e c h n o l o g yc a nn o to n l yi n c r e a s et h ee f f i c i e n c yo fi t su s a g e ,b u ta l s o h a v ee x t e n s i v ea n dg r e a ti m p o r t a n c ei nr e s e a r c ha n db u s i n e s sa p p l i c a t i o n t h et e x tc a t e g o r i z a t i o nt e c h n o l o g yh a sf o u rp a r t s ,i n c l u d i n gp r e p r o c e s s ,f e a t u r ee x t r a c t i o n , w e i g h tc a l c u l a t i o na n dc l a s s i f i c a t i o n f e a t u r ee x t r a c t i o ni st h ek e yo ft h ec a t e g o r i z a t i o n ,a n d w s da n dt h ed i m e n s i o nr e d u c t i o no ft h ev e c t o rs p a c ea r ea l w a y st h ed i f f i c u l t i e si nf e a t u r e e x t r a c t i o n t h em e t h o d si nf e a t u r ee x t r a c t i o na r ep r e s e n t e de m p h a t i c a l l y t h et r a d i t i o n a lt e x t c a t e g o r i z a t i o nm e t h o d su s u a l l yu s ew o r d sa st e x tf e a t u r e sf o rt h ee x t r a c t i o n ,b u tt h ec o n t e n t c o v e r e db yas i n g l ew o r di sq u i t el i m i t e d a c c o r d i n gt ot h i sp r o b l e m ,t h eu n i q u e n e s so ft h e f e a t u r ei t e mi si m p r o v e di nt h i sp a p e r ,a n dam e t h o di se x p l o r e do nt h eb a s i so ft h em i x e d m o d eo fb a s i cp h r a s e sa n dw o r d s w es t a r tw i t hp o st a g g i n g ( p a r t - o f - s p e e c ht a g g i n g ) a n d t h e nc i l i ni su s e dt ot a c k l et h es y n o n y m sa n dp l o y s e m e s n o to n l yw s di ss u c c e s s f u l l y a p p l i e dt ot h ef e a t u r ei t e m sb o t hs e m a n t i c a l l ya n dg r a m m a t i c a l l y , b u tt h e v e c t o rs p a c e d i m e n s i o ni sr e d u c e d t h et e x tc a t e g o r i z a t i o ne x p e r i m e n t sa r ed o n ew i t hk n nc l a s s i f i e ra n ds v m ( s u p p o r t v e c t o rm a c h i n e ) t h ee x p e r i m e n td a t aa r es h o w nt h a tt h ep r e c i s i o na n dr e c a l lo ft h e c a t e g o r i z a t i o na r ei m p r o v e d k e yw o r d s t e x tc a t e g o r i z a t i o nf e a t u r ee x t r a c t i o nb a s e n pb a s e v p i i 河北大学 学位论文独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教 育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了致谢。 作者签名日期:趔年月三= _ 日 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存 论文。 本学位论文属于 l 、保密口,在年月日解密后适用本授权声明。 2 、不保密口。 ( 请在以上相应方格内打“4 ”) 保护知识产权声明 本人为申请河北大学学位所提交的题目为裔词南蛰随涌楚融操匆燃 的学位论文,是我个人在导师( 獭福j 指导并与导师合作下取得的研究成果, 研究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费 资助下完成的。本人完全了解并严格遵守中华人民共和国为保护知识产权所制定 的各项法律、行政法规以及河北大学的相关规定。 本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大 学的书面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内 容。如果违反本声明,本人愿意承担相应法律责任。 声明人 作者签 导师签 日期:迸年鱼月鱼日 日期:俎年月翻 日期:蝉年上月丝日 第1 章绪论 1 1 研究背景及意义 第1 章绪论 网络的发展带来了信息的爆炸,并且从各个方面影响着人们的生活。一方面,i n t e m e t 及相关技术的飞速发展不仅丌阔了人们的眼界,而且大量的信息中蕴涵着很多具有巨大 价值的信息;另一方面,大量信息的出现也使得人们陷入了选择的i i j 境,面对如此浩瀚 的信息海洋,人们显得茫然无策。如何从这些庞大、复杂的信息中快速、有效地找到有 用的信息成了人们关心的话题。靠人工阅读并对信息进行分类显然是不现实的做法,所 以各种自动分类方法应运而生。文本自动分类有效地解决了这一难题,其相关方面的研 究在近些年来也有了长足的发展。 文本分类( t e x tc a t e g o r i z a t i o n 或t e x tc l a s s i f i c a t i o n ,t c ) 最初是在信息检索系统【l 】 的基础上发展起来的,定义为在给定的分类模型下,根据文本的内容判断文本类别的过 程【2 】,为对文本按类别进行统一存储、检索打下了基础。文本分类的目的就是根据一定 的规则对未知文本进行合理处理和组织,使得这些文本能够按照类别区别开来。在文本 分类的发展中经历了人工分类和自动分类两大过程。人工分类不仅耗费大量的人力、物 力、财力而且还存在分类结果一致性不高的问题,已经远远不能满足现代技术的要求。 自动分类技术将人工智能技术和信息检索技术相结合,以计算机为工具对文本进行分 类。它不仅克服了人工分类的缺点,而且还能进行更深层次的信息挖掘,提高了信息的 利用率。 中文是世界上使用人数最多的语言,中文在世界的各个领域都发挥着前所未有的作 用。由于中文文本分类问题与英文文本分类问题具有相当大的区别,比如,中文文本的 原始特征空间维数比英文文本更大,词性变化更加灵活;英文词与词之间有间隔而中文 词语之间没有明显的间隔。所以在英文文本分类中表现良好的分类方法未必适用于中文 文本分类。所以,中文文本分类的研究不仅具有很高的学术价值还有巨大的商业价值。 总之,在信息服务的过程中,中文文本分类是文本挖掘的核心基础,是自然语言处 理的关键技术之一。它为信息检索提供了更为高效的搜索和更为准确的查询基础。 河北人。、i :。誓硕十何沦文 1 2 研究现状 1 2 1 国内外研究现状 早在2 0 世纪5 0 年代术,美国i b m 公司的h p l u h n 就对文本自动分类进行了开创 性的研究,第一次将词频统计的思想融入到了文本自动分类中【3 1 。1 9 6 0 年,m a r o o n 4 】 发表了第一篇关于自动分类的论文。随后,k s p a r c k 、g s a l t o n 和r m n e e d h a m 、m e l e s k 、 k s j o n e s 5 】等人都相继在这个领域取得了突破性的研究成果。总的来说,他们所进行的 主要是文本分类的理论上的研究,其中基于词频统计分析的自动分类实验取得了一定的 成功,但是很少投入实际的应用。经过几十年的发展,文本分类目前己被广泛应用于电 子邮件分类、电子会议、数字图书馆、搜索引擎、信息检索等领域。 到目前为止,文本自动分类在国外大致经历了四个发展阶段【6 】: 第一阶段( 1 9 5 8 1 9 6 4 ) 主要进行自动分类的可行性研究; 第二阶段( 1 9 6 5 1 9 7 4 ) 进行自动分类的实验性研究; 第三阶段( 1 9 7 5 1 9 9 8 ) 进入实用化阶段; 第四阶段( 1 9 9 0 一至今) 因特网文本自动分类研究阶段。 1 国外研究现状 国外较早的文本分类系统中,最典型的是卡内基集团为路透社开发的c o n s t r u e 系统【7 1 和麻省理工为白宫丌发的邮件分类系统【8 1 。c o n s t r u e 能够对路透社数以万计的 稿件进行自动分类。该系统在r e u t e r s 的部分语料库上取得了较好的分类效果,而在其 它领域则要消耗大量的人力和物力。该系统的缺点在于:在不同的领域转换时都要重新 获取相应的专业知识,不能自动的更新。 进入2 0 世纪9 0 年代以后,基于机器学习( m a c h i n el e a r n i n g ) 的分类技术成为了 文本分类的主流技术。该方法不再需要大量领域专家的参与,算法和领域无关,系统本 身具有了一定的学习功能,而且随着学习资料的增加,机器学习的效果也在不断的改进。 它为文本分类技术的研究翻开了新的一页,产生了许多文本分类算法,如朴素贝叶斯方 法、k 一近邻方法、关联规则方法、神经网络方法和支持向量机方法【9 , 1 0 。其相应的主 要研究包括【i l 】:北欧w a i s 万维网自动分类项目、日本的国际十进分类法数字自动组合 系统和用于分类体系自动交叉参照的基于知识的系统等。 2 第1 章绪论 2 国内研究现状 我幽文本自动分类的研究工作始于2 0 世纪8 0 年代初。1 9 8 1 年,候汉清先生首先对 中文文本自动分类进行了探讨【1 2 】,并介绍了国外在计算机管理分类表、计算机分类检索、 计算机自动分类、计算机编制分类表等方面的概括。经过二十多年的研究,中文文本自 动分类技术也同趋成熟,我国也研制出了一批计算机分类系统。其中使用较多并且技术 比较成熟的是基于统计学的分类技术和基于人工智能的自动分类技术。 基于统计学的自动分类技术是将分类算法建立在统计学的基础上,通过比较文本特 征向量与预定类别特征向量的相似度来进行归类。它的本质是一种基于概率的非确定性 的定量推理方法。常用的基于统计的方法有朴素贝叶斯、k 一近邻、类中心向量【13 1 、回 归模型【1 4 j 、支持向量机和最大熵模型【1 5 】等。基于这种分类技术的自动分类系统主要有: 1 9 9 5 年清华大学电子工程系吴军的汉语语料自动分类系统;1 9 9 5 年南京大学苏新宁推 出的档案自动分类系统;同年,杭州应用工程技术学院叶新明的采用类名主题词表、组 配词表以及禁用词的方法和1 9 9 7 年由山西大学计算机系的刘开瑛和郑家恒推出的三维 加权算法。 基于人工智能的自动分类技术首先利用人工智能建立专家系统,依靠知识工程技术 构造知识库,把特定领域专家们的知识和经验等存放到预先建立的知识库中,然后构造 推理机进行推理分类。主要分类系统有【1 1 】:1 9 9 2 年,陈大访和陆浩实现的实验性辅助 分类专家系统;李欣和陈星等人在1 9 9 4 年研制成功的东北大学图书馆的图书分类专家 系统和邓要武、王连俊于1 9 9 7 年推出的长春地质学院图书馆的图书自动分类专家系统。 1 2 2 当前研究重点问题 文本分类虽然已经成为一项比较成熟的技术,但是从应用的广度和深度来说存在许 多待解决和重点研究的问题。主要集中在以下几个方面: 1 信息资源不充分,缺少标准、开放的语料库。由于国内的中文文本自动分类系统 起步比较晚,中文文本的测试集版本虽多但是没有统一标准的测试集,所以其分类结果 不具有一定的可比性,这就给中文文本分类的评估造成了一定的影响。 2 分词算法也是影响分类结果的一个重要因素。由于中文文本的特殊性,在中文文 本分类之前要进行有效的分词。分词的准确性直接影响着分类器的训练和测试。更主要 的是分词词库的发展总是跟不上中文的更新和发展,这就对分词理论的创新和词典的构 3 河北人学i :学硕 j 学何论文 造提出了更高的要求。 3 分词过后的特征提取主要目的就是要用最少的特征词来表示文本的内容,从而降 低文本向量维数。但是每个特征提取算法都是差强人意。互信息虽然可以克服类与类之 间的不均衡问题但是非常受词条边缘概率的影响【1 6 】;词条z 统计量则忽略了低频词的 贡献【1 7 】。所以特征提取算法的改进也是研究的重点。最重要的还是分类器算法的改进。 目前分类算法多种多样,但是都各有利弊,所以选择一个合适的分类算法也是影响分类 结果的重要因素。在实际的应用中,需要根据具体的条件选择合适的算法。 1 3 本文的研究工作及组织 本文对文本分类的相关技术进行了详细的介绍,主要对特征提取部分进行研究。根 据预处理阶段得到的信息,确定文本的特征并将能表示文本主要内容的特征提取出来, 去掉其它不能表示文本特征的词条,从而降低文本的空问向量维数,提高分类器分类的 准确率。鉴于中文文本的主要特点,主要研究内容为: 1 研究中文基本短语的特点; 2 研究基本短语组成规律,有效地将分词构成所需要的基本短语形式; 3 研究词和基本短语模式的特征提取方法,并能有效去除歧义。 文章结构及各章主要内容组织如下: 第1 章绪论。介绍文本分类的研究背景、研究意义,分析了国内外研究现状和研究 重点,并给出了本文的主要研究工作。 第2 章中文文本分类技术概括。对文本分类的概念、分词与词性标注、特征选取、 文本表示、分类方法和分类评测标准进行了详细论述。 第3 章基本短语的识别。对基本名词短语和基本动词短语进行了详细的定义和分类。 介绍了将分词构成基本短语的过程和相关算法。 第4 章基于词和基本短语模式的中文文本分类方法的实现。给出了基于词和基本短 语为特征的文本分类方法的基本步骤,最后在s v m 分类器和k n n 分类器上进行了实 验,实验证明了该方法的有效性。 第5 章对本文工作进行了总结,同时对以后的研究工作进行了展望。 4 第2 章文本分类技术概况 第2 章文本分类技术概况 2 1 文本分类的基本概念 文本分类是信息处理的关键技术,文本分类系统的主要任务就是:在给定的分类系 统下,根据文本的内容自动地确定文本关联的类别,系统的输入为大量的文本,输出为 与文本相对应的类别名称。 文本分类是一个有指导的学习过程,分为训练部分和测试部分。它通过训练文本集 合,找到每一类文本的特征( 属性) 和文本类别之间的关系模型( 分类器) ,从而利用 这种学习得到的关系模型对其它的文本进行科学的类别判定【1 8 】。从数学的角度来分析, 文本分类就是一个映射的过程,它将未知类别文本映射到相应的类别中。用数学语言描 述为【1 9 】: r :d s 映射,将所有文本转换为特征向量。 t :d c ,已知的映射,已知训练集合中文本的类别。 c :类别集合;d :所有文本集合;d :训练文本集合。其中d _ cd ;s :文本特征 向量;d :文本。 分类的工作是给出映射r ,并以此为基础,使用t 、r 、d 、c 构造映射h :d c , 使得h 与t 尽可能地接近。文本分类的映射规则是系统通过训练而掌握到每一类别的数 据信息,总结出相应的规律和特征而建立的判别公式或判别规则。所以,系统的学习方 法不同,所建立的判别公式或者判别规则也不同。判别规则或者判别公式建立以后,系 统通过计算和判断就可以将新的文本划分到相应的类别中。 2 2 文本分类的一般过程 一般的中文文本分类过程包括训练集和测试集两部分主要包括四个阶段。首先对文 本进行预处理,将文本分词并用模型表示;其次进行特征提取并进行特征分析;然后用 分类器对该文本分类并对分类的结果进行评估;最后,对于新的文本用已经训练好的分 5 河北人学i :学硕f j 学f 市沦文 类器分到某一类别中。 下面给出实现中文文本分类的一般过程,如图2 1 所示: 习1 洲缘i 再料 卜 一7 一“- | 2 3 文本预处理 图2 1 中文文本分类的一般过程 2 3 1 中文分词 自然语言处理是基于知识的工程,要想使计算机具有人的语言能力,就必须把人的 语言知识存储在计算机中,所以计算机的所有语言知识都是来自于机器词典、句法规则 以及有关词和句子的语义、语境、语用知识库等。中文信息处理系统对于涉及到句法、 语义( 如检索、翻译、文摘、校对等应用) 时就需要以词为基本单位进行处理。另外, 汉语单字同音现象非常严重。常用的汉字有6 7 6 3 个,而其中没有同音字的汉字只有1 6 个,其中最多的有1 1 6 个同音字。而汉语词的同音现象则相对较少,5 2 5 0 5 个词语中没 有同音词的有3 5 9 4 2 个之多【2 0 1 。对于更高一级的文本处理,例如自然语言理解、句法分 析、语句理解、自动文摘、文本分类、文本校对、信息检索和机器翻译等,更是少不了 词的详细信息。因此,中文分词和词语分析是中文信息处理的基础和关键,是汉语自然 语言处理的第一步。 分词就是将连续的字串或序列按照一定的规范重新组合成词序列的过程。而中文文 本的分词定义为在中文文本中连续的、能够代表语义单元的词或者二元词条加入分隔 符,将中文文本从连续字节流形式转化为离散单词流形式的过程。众所周知,中文文本 与英文文本在形式上都存在着很大的区别。首先英文文本词与词之间都有空格作为分隔 符,而中文文本都是没有分隔符的一系列的字符串,词与词之问没有明显的分割标识。 6 第2 章文本分类技术概况 在中文文本中,只有字、旬和段落可以通过简单的分界符来划分,而作为汉语中最小的、 独立的、有意义的语言成分词语,在中文文本中却缺乏自然分割的信息。这就使得 中文分词比英文分词要复杂和困难得多。经过十几年的发展,中文文本自动分词技术取 得了很大的进步,出现了一些实用的分词系统【2 1 2 2 、2 3 1 ,这些系统在分词速度和分词的 精确度上都达到了相当高的水平,但是仍需要进一步的研究。现阶段,中文自动分词技 术所面临的困难【2 4 】主要有:汉语中“词”的概念缺乏清晰的界定,歧义的消除和未登录 词识别。 现有的中文分词方法有很多,主要分为三类,基于机械匹配的中文分词算法、基 于统计语言模型的中文分词算法和基于理解的中文分词算法。 1 基于机械匹配的分词方法。基于机械匹配的方法是最常用的方法,基本思想是: 建立一个尽可能包含所有词汇的词库。对给定的待切分的字符串s ,按照一定的原则取 s 的字串,如该字串与词库中的某一词条相匹配,则把该字串记录为词,继续切割直到 剩余部分为空。基于机械匹配的分词算法采用简单机械的分词策略,实现起来比较简洁, 容易,时间复杂度低。由于不涉及语法和语义知识,所以不能克服歧义切分带来的困难, 切分精度不高,同时受到词库容量的影响,分词的效率和准确性也偏低。 目前实用的自动分词系统在机械分词方法的基础上加入了少量的语法和语义的分 析,取得了明显的效果。主要有基于标记法,约束矩阵法和句模切分法等【2 5 】。 2 基于统计的分词方法【2 6 1 。基本思想是:通过计算每一个汉字在文本上下文中 与其它汉字可能出现的概率来反映他们组成词语的可信度。该方法又称无词表的分词方 法,它主要利用机器学习的手段,通过对大规模语料的不断学习来完善自己,摆脱了词 典的束缚,可以自动排除切分歧义,识别未登陆词。但是也有一定的局限性,它对常用 词的识别能力较低,反而经常抽出一些出现频度高但不是词的常用词组,例如“我是 、 “有的”等,时空开销较大。 3 基于理解的分词方法。基本思想是在分词的同时进行语法,语义分析,利用句 法信息和语义信息来处理歧义现象。它通过分词子系统、句法语义子系统、总控部分模 拟实现了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉 语语言知识的复杂性和多样性,难以将各种语言信息组成机器可读取的形式,因此目前 该分词系统还处于实验阶段。 7 ;【f j 北人学i 学硕f j 学f 市论文 综上所述,各种分词方法各有特性,归纳起来有两种:一种是有词典的分词方法, 如机械分词方法,通过文本中的汉字串与词表中的词逐一匹配来完成;另一种是基于理 解方式的分词方法,即利用汉语的语法知识和语义知识以及心理学知识进行分词。在具 体的应用中要根据不同的情况选择不同的分词方法。任何一个完备的分词系统决不能单 独使用一种分词方法,结合使用效果更明显。 2 3 2 中文词性标注 词性标注是实现自然语言处理目标分析和理解语言的一个中间环节,其任务是 为文本中的每一个词都标记上一个合适的标记,也就是说要确定每个词是名词、动词、 形容词或其他词性【2 7 1 。词性标注是自然语言处理的基础,在信息检索、机器翻译、语音 识别和信息抽取等领域有着广泛的应用前景。 首先,词性标注有效地消除了词语的歧义,减少了识别的模糊性。其次,词性标注 可以去除停用词。英文中的一些停用词比较好删除( 如介词i n ,a t ) ,但是汉语确不容易。 一些人名、地名或者未登陆词中的一些词,虽然在停用词表中存在但也不能随便去掉。 如果中文文本做了词性标注,后续的处理技术可以参考英文相关处理技术。最后,词性 标注是文本分类向智能化方向发展的基础,尤其能为搜索引擎向以自然语言为查询接口 和智能化方向发展提供帮助。 常用的自动词性标注研究方法主要分为以下几种: 1 基于规则的方法:所谓的规则是语言学家手工制定的内省规则。这种方法在上 个世纪7 0 年代比较流行。2 0 世纪9 0 年代以来,产生了一种新的基于规则的词性标注方 法基于转换的学习方法,正确率达到9 5 9 6 。该方法的成功是建立在大量的人 力之上的,并且具有很强的主观性,很难保证规则的一致性和真实文本处理中的有效性。 2 基于统计的方法:2 0 世纪8 0 年代初,基于统计的词类标注方法开始占据了主 导地位,也是目前最常使用的一种方法。常用的方法有基于频度的方法,基于n 元语法 ( n g r a m ) 模型和基于隐马尔可夫模型。基本思想是:对于一个给定的字符串,先确定 其所有可能的词性串,然后按照一定原则对所有可能词性串进行计算,选择计算结果最 大的作为最佳的词性串并输出。 3 统计和规则相结合的方法:该方法发挥了两种方法的优势,弥补了双方的缺点。 由于其操作简单,效果明显,统计和规则相结合的方法是大部分研究者的首选方法。 第2 章文本分类 上术 1 5 c 况 总之,在汉语的词性标注中,由于对词类的定义和认谚 存在着分歧,比如兼类训语 的界定和如何在某个具体的环境确定兼类词的词性。相对而言,确定了标注集以后,在 良好标注的训练语料库基础上,进行词性的自动标注已经成为一项成熟的技术。国内比 较有影响的标注集有:北京大学计算机语言研究所的现代汉语语法信息词典,中科 院计算所汉语词性标记集,清华大学汉语书库词性标记集等。 2 4 文本表示 2 4 1 特征项的选择 文本内容用自然语言描述,自然语言是一系列的字符串,属于一种非结构化的数据。 而计算机识别的是结构化的数据,所以预处理之后要将词语转化为计算机所能识别的模 式,这就是所说的文本特征表示。即对文本中抽取的特征项( 词汇) 进行量化,以结构 化形式描述文本信息。文本特征表示通常从以下两个方面考虑: 1 如何确定表示文本的基本单位。 文本的内容不同,特征项出现的频率也不同但都具有一定的规律性,由此根据不同 的特征项就可以区分不同内容的文本。一个有效的特征项集合不仅能够标识文本的内 容,使得特征向量的维数尽可能的小,而且还应具有区分目标文本与其他文本的能力。 另外,文本在特征集上的分布都具有较为明显的统计规律,特征项之间的分离比较容易 实现,这样才能使得计算的复杂度低。文本的特征表示可形式化为: f :t 一 ( k ,r v ) )( 2 1 ) 其中t 表示文本,k 为表示该文本的特征向量,w 为该向量的特征值。 2 采用何种方法建立文本表示模型 文本表示的模型常用的有:布尔逻辑模型( b o o l e a nm o d e l ) ,向量空间模型( v s m , v e c t o rs p a c em o d e l ) ,潜在语义索弓i ( l s i ,l a t e n ts e m a n t i ci n d e x i n g ) 和概率模型( p r o b a b i l i t y m o d e l ) 等。不同的模型有不同的理论基础,计算的复杂度和效率也不同,下面对这四种 模型分别进行介绍。 2 4 2 布尔模型 布尔模型【2 8 】是最简单的文本表示模型,也是其它模型的基础。它定义了一个二值变 9 河北人学l :。学硕f j 。学f 节沦文 量集合表示文本,这些变量埘应文本中的特征项,当这些特征项出现在文本中时,权值 为1 ,否则权值为0 。在具体检索时,主要通过三种布尔运算符实现功能:逻辑与( a n d ) , 逻辑或( o r ) 和逻辑非( n o t ) 。文本的表达形式为; d ,= ( w f l ,w f 2 ,) ( 尼= l 以) ( 2 2 ) 其中n 为特征项的个数,当第k 个特征项在文本i 中出现时,岷的值为1 ,否则为0 。 布尔模型是一种简单常用的严格匹配模型。它的优点是简单,速度快,文本表示形式容 易掌握。由于只能基于二元判定标准,布尔模型的缺乏精确的表达形式,不能反映特征 词对一个文本的重要程度。 2 4 3 向量空间模型 向量空间模型( v s m o 是g e r a r ds a l t o n 等人早在6 0 年代提出的【捌,使用向量空间模 型最有名的是s m a r t 系统。向量空间模型用词袋法表示文本,基于这样一个假设:即文 本的类别与文本中词条出现的顺序或位置是无关紧要的,只与某些特定的词或者词组在 该文本中出现的频率有关。它们对于文本的类别所起的作用是相互独立的,因此可以把 文本看作一系列无序词条的集合。在该模型中,文本空间被视为一组正交词条向量所组 成的向量空间。每个文本d 都可以映射为此空间中的一个特征向量。它的核心概念描述 如下: 1 特征项:组成文本的字、词、句子等。d o c u m e n t = d ( t l ,t 2 ,t ”,t 。) 其 中f ,表示第k 个特征项,作为一个维度。 2 特征项的权重:在一个文本中,每一个特征项都被赋予一个权重,以表示特征 项在该文本中的重要程度。 3 向量空间模型:在舍弃了各个特征项之间的顺序信息之后,一个文本就表示成 向量。如文本d i 表示为: v ( d ) = ( t l ,w l ( d ) ,t i , w i ( d ) ,t n , w 。( d ) )( 2 3 ) 其中t i 为词条项,t ,可以是文本d 中出现的单词或短语,w i ( d ) 一般定义为t i 在d 中 出现频率的t f ;( d ) 的函数,即w i ( d ) - - v ( t f i ( d ) ) 。 4 相似度是指两个文本v 和u 之间的相关程度。用s i r e ( y ,u ) 来表示。常用的 计算相似度的方法为基于距离相似度的方法,主要思想是定义数据对象对之问的距离或 l n 第2 章文本分类技术概况 相似度函数来衡量数据对象之i i j 的距离。相似度计算公式如下: s i m( y ,u ) = 或用夹角余弦值表示为: 形蹦+ 缸( 2 - 4 ) s i m ( v ,u ) = c o s ( v ,u ) = ( 形诎 w 妇) 1 七= l ( 2 - 5 ) 向量空间模型中项的权重评价、相似度计算没有统一的规定,可以使用不同的权重 评价函数和相似度计算方法。向量空间模型是目前使用最广泛的文本表示模型,它的优 点主要表现为:在知识表示方法上的优势相当明显,文本内容被形式化为多维空问中的 一点,通过向量形式表示,提高了自然语言文本的计算性和可操作性。布尔模型是向量 空间模型的特殊形式,向量空间模型通过调节词语权重的大小来反映词与文本的相关程 度,这在一定程度上克服了布尔模型的缺陷。其次向量空间模型可以满足用户的多样化 需求及多样化的匹配手段。但是,向量空f i j 的维数过高,导致计算量的增大,影响了系 统的运行速度。 2 5 特征选取 经过中文分词后的表示文本的向量空问的维数非常庞大,可以达到几千维,甚至上 万维,这不仅降低了分类器的分类效率还增加了计算需要的空间和时间。其次,这些特 征词中还包括无关和冗余的特征项,通常表现为常用词频率高而冷僻词频率低,这些词 对文本分类的贡献小,影响了分类的精度。所以要对文本进行降维。特征选取是降维的 有效手段之一。 所谓特征选择是指依据某个准贝0 从众多原始特征中选择部分最能反映模式类别统 计特性的相关特征。特征选取的目的主要就是通过一定的算法选出和剔除特征空间中那 些被认为与文本无关或是关联性不大的特性,而尽量留下可以代表文本特性的关键词。 这样做的好处是:第一,压缩了特征集的数量,大大的降低了特征空间的维数,有效地 提高了分类效率;第二,影响小的特征项的去除可以降低其对分类结果的干扰,提高了 分类的精度。 常用的特征评估函数为:文本频率( d o c u m e n tf r e q u e n c y ,d f ) 、互信息( m u t u a l 河,i 匕人r 。学硕十。:o 何论文 i n f o r m a t i o n ,m i ) 、信息增益( i n f o r m a t i o ng a i n ,i g ) 、期望交叉熵、z 统计( c h i ) 等。 这些方法都是基于阈值的统计方法,先对统计每个特征的度量值,然后设定一个阈值, 剔除小于阈值的特征项保留大于阈值的特征项。 1 文本频率【3 0 】 文本频率是指有该词条出现的文本数量。即: d f t e x t ( w ) - - 单词出现的文本数i j i i 练集的文本总数 ( 2 6 ) 它基于这样一个假设:在文本中的出现频率过高和过低都不能表现文本的特征,只 有在闽值范围内的词才能更好的表现文本的特征。小于阈值的词条代表了在该文本中没 有代表性,也就是说它对于表现文本特征没有实际的意义,只是起到了一定辅助的作用。 而大于某个阈值的词条则代表了没有区分度,这些噪声词降低了分类的精度。 文本频率法是最简单的特征选取技术,它的优点是:可以满足大型特征集合的要求, 计算量小但效果明显。该方法也有一定的缺陷,比如对于某一类文章中的某些特征项出 现频率并不高但却包含着重要的判断信息。在实际应用中d f 通常作为辅助的特征提取 方法。 2 互信息 互信息在统计语言模型中使用广泛,可以度量特征项与类别的相关度。互信息为零 时,表明词条和类别相互独立,不存在关联关系。当特征项的出现只与类别有关系时, 特征与类别的互信息非常大。当特征很少在该类文本中出现时,它们之间的互信息为负 数。互信息越接近零,表明词条和类别的关联程度较弱,互信息量越大,词条和类别的 关联程度越强。互信息方法的计算过程如公式所示: 聊) = 莩粥) 1 0 9 帮 其中c i 是类别,p ( wlc i ) 表示文本中出现词w 时文本属于c i 的概率, 是类别出现的概率【3 i 】。 ( 2 - 7 ) p ( c i ) 由于互信息有一个完善的标准,所以能很好的反映类与特征之间的关系,并且计算 量也不是很大。但是它也有一个很大的缺点,它没有考虑特征词出现的概率,特征词的 边缘概率的负面影响很大,这就使得互信息的评估函数会选择大量的稀有词,而删掉一 些有用的高频词。 1 2 第2 审文木分类技术概况 3 信息增益 信息增益是一种在机器学习中广泛使用的特征词评判标准,主要依据特征项是否在 文本中出现来评价它对分类的贡献,是一个基于熵的评估方法,定义为某个特征在文本 中出现前后的信息熵之差。信息增益的基本思想是:根据训练数据,计算出各个特征词 的信息增益,信息增益的值越高,对分类预测提供的信息就越多,然后设定一个阈值, 将信息增益值小于阂值的词删掉,从而降低了空间特征向量的维数,最后按照信息增益 从大到小排列剩余的特征词【3 2 1 。信息增益的计算公式如下: i g ( w ) = 一p ( c ,) l o g ( p ( c f ) ) + p ( w ) p ( c 。1w ) l o gp ( c f w ) + f = 1f = l p ( 万) p ( c ,i 万) l o gp ( c ,i 万) f = l 其中p ( c i ) 表示类别c i 出现的概率,p ( w ) 表示特征词w 出现的概率,p ( c f | w ) 表示特征词 w 在属于类别c i 的文本中出现的概率,p ( c l w ) 表示特征词w 在不属于类别c i 的文本中出现 的概率,m 为文本的类别数。 算法中包含了条件概率的估算和信息熵的计算。条件概率估算的时间复杂度为d ( m , 空间复杂度为q ,其中n 为训练的文本数,v 为词条集合上的词条数量。信息熵计算的 时间复杂度为q 旧。它的优点是:考虑了未出现词对文本的影响,且易于提取出分布 不均匀的特征,提高了分类效果。但是,正是因为它考虑了特征不出现的情况,所以某 个特征不出现也可能对判断文本的类别有贡献。实验证明,这种贡献往往小于考虑特征 不出现情况所带来的干扰。 4 期望交叉熵 期望交叉熵反映的是文本类别的概率和在出现了某一个特定特征的条件下文本类 别概率之间的距离。它与信息增益不同的是信息增益要求计算所有特征属性的值,而期 望交叉熵只计算出现在文本中的词。期望交叉熵的计算公式【3 3 1 如下: 一t r o p y ( f ) = p ( w ) z ,砷g 等 弘9 , 1 3 河北人学i :学硕 ? 学何论文 其中每个符号代表的意义与信息增益相同,特征词的交叉熵与它对文本类别分布的 影响成正比,特征词的交叉熵越大,对文本类别分布的影向就越大。 5 z 统计 z 统计用来测定特征词w 和类别c i 之间独立性与相关性,并将其类比为一个自由度 的z 分布。z 越大,独立性越小,相关性越大。与互信息相比,c h i 不仅表征了两个 变量之间的相关性,还考虑了特征的出现和不出现时对文本分类的影响。c h i 的计算公 式为【3 4 】: 以w 一,2 两舞岩岩丽 陆 考虑到n ,a + c ,b + d 都是常数,公式( 2 1 0 ) 可以简化为: 九沪等茄去 弘 其中w 表示一个特征词c j 表示一个类别,b 为特征词w 出现而类c j 不出现的次数,c 为特征词w 不出现而类c j 出现的次数,d 为特征词w 和类c j 都没有出现的次数,n 为i , ) l l 练 文本集中的样本总数。当zz ( w ,c ,) 的值为零时,说明特征项w 和类别c i 之间各自独立; 当zz ( w ,c _ ,) 的值小于零时,说明特征项w 和类别c i 之间正相关,即词条的出现说明某 个类别的出现;当z2 ( w ,c ,) 的值大于零时,说明特征项w 和类别c i 之间负相关,即词 条的出现说明某个类别的不出现。 z 统计法的归一化值可以比其它方法大约减少5 0 的词汇,分类效果好,但是对 于低频的特征项不可靠。 综上所述,每个特征选择方法都有一定的适应条件和优缺点。实验证明,特征选择 函数的效果与使用的数据集和所要采用的分类算法密不可分,所以使用单一的特征选择 函数具有局限性。在实际操作中,要根据不同的情况选择不同的特征选择函数,以期在 准确率和效率之间达到一个很好的平衡。 1 4 第2 章文本分类技术概况 2 6 权重计算 在向量空间模型中,特征项选择出来以后,要对每个特征项赋予权重。特征项的权 重反映了该特征项对文本的贡献度和文本之间的区分能力。如果一个特征项在文本中出 现的频率越高,那么它和该文本的类别越相关,对文本的区分能力就越强,但是它对于 各个文本的区分能力就越弱。常用的加权函数主要有布尔权重,开根号权重和t f i d f 权重。 1 布尔权重 布尔权重是一种简单的加权方法,其公式如下: 州盯= 1 。, ,t 卵fo玎:00(2-12) 州 2 1o ,卵: ) 其中w 勺表示特征词f 在中的权重,碣表示特征词f 在文本中出现次数。布尔权 重只有0 和1 ,当特征项在文本中出现时就赋值为1 ,否则赋值为0 。 2 开根号函数 开根号函数公式如下: w i k = 、f r e qi k( 2 1 3 ) 其中w 腩为文本d ,的第尼个特征项的权重,砌,表示其在d ,中出现的次数。 3 t f - i d f ( t e r mf r e q u e n c y 木i n v e r s ed o c u m e n tf r e q u e n c y ) t f i d f 是1 扫s a l t o n 在1 9 8 8 年提出的【3 5 1 ,是词频与倒文本频率的综合方法。词语在文 本中出现的频率是该词的重要标志之一。如果在给定的阈值内,词语a 的出现频率大于 词语b 的出现频率,就说词语a 的重要性大于词语b 。所以特征项频率o e r mf r e q u e n c y :t f ) 是最简单权重方法。然而t f 方法本身存在很大的弊端,词频作为唯一的标识尺度不能完 善的表现各个类别中词语之间的差别。此外,一个关键词的权重还应与该词所在的文本 的总数成反比或者近似反比的关系,称为倒文本频率( i n v e r s ed o c u m e n tf r e q

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论