(计算机应用技术专业论文)中文文本分类技术研究.pdf_第1页
(计算机应用技术专业论文)中文文本分类技术研究.pdf_第2页
(计算机应用技术专业论文)中文文本分类技术研究.pdf_第3页
(计算机应用技术专业论文)中文文本分类技术研究.pdf_第4页
(计算机应用技术专业论文)中文文本分类技术研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i n t e r n e t 技术的不断发展和成熟,各种数字化的信息越来越多并且还 在不断增长,面对海量信息,人们已经不能简单地靠人工来处理所有的信息,况 且手工分类已经对此无能为力,如何从巨量的信息中挖掘出用户感兴趣的信息已 经成为当今研究的重要课题。而文本自动分类能够较好的解决大量文档信息归类 的问题,并成为解决该问题的一项关键技术。目前对文本自动分类技术的研究主 要集中在文本的表示、特征的选择和分类算法的改进这三个主要的研究方向。 最大熵模型实际上是一个带约束的最优化问题。2 0 世纪5 0 年代e t j a y n e s 开创性的将最大熵原理作为一种原则或者方法应用于各个科技领域,也使信息熵 的概念和原理走出了热力学的领域。而且最大熵模型是一个比较普遍的统计建模 技术,自然语言处理中很多问题都可以归结为统计分类问题,很多机器学习方法 在这里都能找到应用。最大熵具有较强的知识表达能力,它在数学上是一个十分 完美的模型,被应用到自然语言处理领域后也取得了较好的成绩,因此被研究者 们广泛的使用。 本课题主要针对在中文文本分类任务中涉及到的特征生成( 文本分词) 和特 征的选择算法进行了分析和研究。具体来说,论文首先阐述了中文文本的分词技 术和分词算法,特征选择算法和几种经典的文本分类算法,接下来主要研究分析 了统计语言模型,最大熵模型及相关的平滑技术和迭代算法,然后详细讨论了最 大熵应用于文本分类任务中存在的问题,在深入研究最大熵理论的基础上,引入 了不等式最大熵模型,将其应用于文本分类,并分析了现有特征选择方法生成特 征数目过多而造成分类时间和精度不高等缺点,提出将信息增益、互信息及卡方 统计这几种方法合理的结合起来进行特征选择的改进算法;实验也证明,这种基 于不等式最大熵的特征选择算法是有效地,并具有较强的推广能力。最后阐述了 中文文本原始特征集合的生成方法,即研究了如何通过基于无词典机制的中文自 动分词方法,并结合汉语自身独有的特点,得到初始的特征集合,最后提出了基 于无词典分词机制的中文自动分词算法。并通过实验验证了分词算法的高效性。 最后,对本论文的内容进行了总结,并对中文文本分类涉及的特征选择方法, 分词技术以及最大熵模型将来的应用和发展进行了展望。 关键词:中文文本分类;文本分词;特征选择算法;最大熵模型;不等式最大熵 模型 a b s t r a c t w i t ht h ea d v e n to fi n f o r m a t i o na g e , i n f o r m a t i o nm a n i f e s t sa ne x p l o s i v eg r o w t h t h r o u g h o u ti n t e r n e t i ti st h ek e yd i s c u s s i o nt h a th o w t om i n et h eu s e r si n t e r e s t e d i n f o r m a t i o ni ns u c hm a s s i v ei n f o r m a t i o n , i ti sp o w e r l e s sf o rm a n u a lc l a s s i f y i n g b u t a u t o m a t i ct e x tc a t e g o r i z a t i o nc a ns a v es u b s t a n t i a lh u m a na n df i n a n c i a lr e s o u r c e s , a v o i dm a n yd e f e c t ss u c ha sl o n gc y c l e ,h i g hc o s ta n dl o we f n c i e n c yw h i c h a r t i n c i a l c l a s s i 6 c a t i o nb r o u g h ta b o u t s ot h ea u t o m a t i cc l a s s i f y i n gb yc o m p u t e rh a sb e c o m e a k e yt e c h n o l o g y f o r s o l v i n gt h e s ep r o b l e m s , a tt h es a m et i m e , c h i n e s ew o r d s e g m e n t a t i o ni so n eo ft h ef u n d a m e n t a lc o m p o n e n t s i nc h i n e s ei n f o r m a t i o n p r o c e s s i n g , a n di ti sa l s o f r e q u e n t l yu s e di i f t h et e x to p e r a t i o no fc h i n e s et e x t c l a s s i f i c a t i o n a tt h ep r e s e n t , t h em a i nr e s e a r c ho ft e x tc a t e g o r i z a t i o n i st e x t r e p r e s e n t a t i o n , f e a t u r es e l e c t i o n ,t h ei m p r o v e m e n to fc a t e g o r i z a t i o na l g o r i t h m i nf a c t ,m a x i m u me n t r o p ym o d e la r eac o n s t r a i n e do p t i m i z a t i o np r o b l e m i n l9 5 7 s ,etj a y n e sa p p l i e dm a x i m u me n t r o p yp r i n c i p l et ov a r i o u sf i e l d so fs c i e n c e a n dt e c h n 0 1 0 9 ya sap r i n c i p l eo rm e t h o d b u ta l s om a d et h ec o n c e p to fi n f o r m a t i o n e n t r o p ya n dp r i n c i p l e sg oo u to ft h et h e r m o d y n a m i ca r e a a n dm a x l m u me n t r o p y m o d e li sam o r eg e n e r a ls t a t i s t i c a lm o d e l i n gt e c h n i q u e , i nn a t u r a ll a n g u a g e p r o c e s s i n gt a s k , al o to fp r o b l e m sc a nb ea t t r i b u t e dt ot h es t a t i s t i c a lc l a s s i f i c a t i o n p r o b l e m ,al o to fm a c h i n el e a r n i n gc a nb ef o u n dt h e i ra p p l i c a t i o n sh e r e m a x i m u m e n t r o p yh a v eas t r o n ga b i l i t yt oe x p r e s sk n o w l e d g e ,w h i c hi s av e r yp e r f e c to nt h e m o d e li nm a t h e m a t i c s ,m a x i m u me n t r o p yw a sa p p l i e dt o t h en a t u r a ll a n g u a g e p r o c e s s i n gn e l db ym a n yr e s e a r c h e r s ,a n da c h i e v e da b e t t e rp e r f b r m a n c e ,t h eu s eo f aw i d er a n g eo fr e s e a r c h e r s i nr e c e n ty e a r s , r e s e a r c h e r si nn a t u r a ll a n g u a g e p r o c e s s i n gp a ym a n ya t t e n t i o n st oi t ,i t sa p p l i c a t i o ni n c l u d i n gp a r t o f 二s p e e c ht a g g i n g , s e m a n t i cd i s a m b i g u a t i o n ,p h r a s ei d e n t i 行c a t i o n ,m a c h i n et r a n s l a t i o na n ds oo n t h e s t u d ya n a l y z e d m a x i m u me n t r o p ya n di n e q u a l i t y m a x i m u me n t r o p ym o d e l , r e s e a r c h e dt h ef e a t u r eg e n e r a t i n gm e t h o d sa n df e a t u r e ss e l e c t i o na l g o r i t h m i n c h i n e s et e x tc l a s s i n c a t i o nt a s k s ,n e x t ,w em a i n l ya n a l y z e dt h es t a t i s t i c a ll a n g u a g e m o d e l ,m a x i m u me n t r o p ym o d e l ,t h es m o o t h i n gt e c h n i q u e sa n di t e r a t i v ea l g o r i t h m , t h e nd i s c u s s e dt h ep r o b l e m sw h i c he x i s t e di nu s i n gm a x i m u me n t r o p yt o c l a s s l t y c h i n e s et e x t , a n db a s eo nd e e p l ys t u d y i n go fm a x i m u me n t r o p yt h e o r y , w e i n t r o d u c e di n e q u a l i t ym a x i m u me n t r o p y ,b u ta l s oa p p l i e di t t ot e x tc l a s s i f i c a t i o n m i s s i o n a n dt h e nd i s c u s s e dd i s a d v a n t a g e sw h i c hc a u s e db ye x i s t i n g f e a t u r e s e l e c t i o nm e t h o d st h a tg e n e r a t i n ge x c e s s i v ef e a t u r e s l e a dt ot i m ec o s t i n ga n dl o w 1 1 a c h i e v e dt h ep u r p o s eo fd i m e n s i o n a l i t yr e d u c t i on e x p e r i m e n tr e s u l t ss h o w t h a to u r m e t h o d sp r o p o s e di nt h i sp a p e ri se f f i c i e n tf o ri n e q u a l i t ym a x i m u m e n t r o p y ,b u ta l s o t h e yh a v eag o o de x p a n d a b i l i t y i nf i n a l ,w ec l a r i n e dm e t h o d so ft h eo r l g l n a l f e a t u r e si nc h i n e s et e x t ,i no t h e rw o r d s ,r e s e a r c h e dh o w t os e l e c tf e a t u r e ss e tb y a u t o m a t i cn o n d i c t i o n a r ys e g m e n t a t i o nm e c h a n i s m ,g a v es o m et y p i c a lc h i n e s e t e x t w o r ds e g m e n t a t i o na l g o r i t h m , m o r e o v e r , u n d e rc o n j u n c t i o nw i t h c h l n e s eo w n u n i q u ec h a r a c t e r i s t i c s , w es t u d i e dt h en o n - d i c t i o n a r yc u t t i n gw o r da l g o r l t h m , a i m p r o v e dn e wc h i n e s ew o r ds e g m e n t a t i o na l g o r i t h mi s g i v e na n da p p l i e d a n dw e p r o v e di t sh i g he m c i e n c yb ye x p e r i m e n t f i n a l l v is u m m a r i z e dt h em a i nc o n t e n to ft h i st h e s i s ,a n df u t u r e o ft h et e x t c a t e g o r i z a t i o nt e c h n i q u ew a sg i v e n k e vw o r d s : c h i n e s et e x tc a t e g o r i z a t i o n ; w o r ds e g m e n t a t i o n ; f e a t u r es e l e c t l o n a l g o r i t h m ;m a x i m u me n t r o p y m o d e l ; i n e q u a l i t ym a x l m u me n t r o p y m n d e l i i i 硕f j 学位论文 插图索引 图2 1 文本分类的一般过程1 7 图2 2 线性可分情况下的最优分类线1 8 图2 3k 近邻分类算法示意图1 9 硕f :学位论文 附表索引 表4 1 不等式最大熵模型中控制参数对比表3 3 表4 2c u t o f f 方法在不同分类器下的分类精度3 4 表4 3 两种特征选方法在不等式最大熵中的分类精度3 4 表4 4 不等式m e ,k n n 和s v m 分类器的分类结果比较3 8 4 表5 1 词典分词法与改进的无词典分词法对照3 8 表5 2 不同特征选择方法得到的特征数对比3 9 v 硕f 学位论文 a s s o c i a t ep r o f e s s o rz h a n gy o n g m a r c h ,2 0 0 9 兰州理工大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研 究所取得的研究成果。除了文中特别加以标注引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 本人完全意识到本声明的法律后果由本人承担。 作者签名:套窳i 钞 日期。唧年户日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 即:学校有权保留并向国家有关部门或机构送交论文的复印件和电 子版,允许论文被查阅和借阅。本人授权兰州理工大学可以将本学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学 技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 作者签名:否藏仁 导师签名: 砚扣 日期: 日期: 矽秒7 ;年 1 年 6 月 p 日 月日 硕 :学位论文 第1 章绪论 1 1 研究背景和意义 我们生活在一个信息爆炸的时代,通信、计算机和网络技术已经渗透全世界人类的 生活,也因此使得人们对各种信息地获取与传输变得易如反掌,甚至直接导致了全球范 围内以互联网( i n t e m e t ) 为代表的信息量的急剧增长。 据统计全世界每年出版大约1 5 6 0 0 0 种期刊,而且这一数字以每年1 2 0 0 0 种的速度 递增;增长更为惊人的信息渠道是i n t e m e t ,1 9 9 9 年的统计结果表明,i n t e m e t 上约有3 5 亿个静态h t m l 页面,每天增加将近1 0 0 万;全球i p 网以每1 8 个月翻一番的速度在发 展,国内依然;1 9 9 9 年初,中国上网用户才只有2 1 0 万,而到2 0 0 5 年统计,我国上网 用户己达到1 亿;据i d c 2 0 0 2 年年底发布的一份题为“2 0 0 2 2 0 0 6 全球电子邮件使用预 测,你会收到什么 的研究报告预测【1 j ,到2 0 0 6 年时,全球每天的电子邮件总数将达 到6 0 0 亿封,每封邮件以平均2 k 计算,则到2 0 0 6 年,一天产生的邮件大小将超过1 0 0 t b , 而实际的情况肯定超过这个统计:同时,根据国家互联网相关管理部门2 0 0 3 年上半年 在我国互联网出入口端口的一些数据流量抽样统计,仅仅邮件报文三天的总流量就达到 1 0 0 t 比特以上,如果这个数据扩展到我国所有骨干网络上,然后再扩展到整个国际互 联网,则每天在网上流动的邮件信息量粗略估算将达到p ( 1 0 1 5 ) b 规模。而且,我们 日常接触到的信息中,绝大部分是文本,它们要么以印刷品的方式存在,或者以电子文 档的形式出现,而随着i i l t e m e t 的飞速发展,更多的文本信息表现为电子文档的形式。 一方面,信息通讯技术的高速发展极大地促进了人们的沟通和交流,为人类的文明 和发展做出了巨大的贡献。另一方面,信息爆炸式的增长带来的消极影响日益凸现。特 别是随着i n t e m e t 网的应用不断普及等因素,网上所能提供的信息也在急剧增多,信息产 生的速度远远超过人们对信息的利用能力,从而使人们在海量的信息面前无所适从,带 来了时间、资金、精力的巨大浪费,能否快速、准确地检索到所需的信息资料,成为人 们普遍关心的问题;与此同时,大量的有害信息和无用信息乘虚而入,严重影响着国际 政治、军事、经济、金融安全与决策效率。所以,在网络信息时代,全球正面临前所未 有的信息爆发式增长的挑战,同时,语言文字的信息处理也成为我国信息化建设的“瓶 颈【2 】。 面对如此庞大而且急剧增长的信息海洋,如何有效的组织和管理这些信息,并快速、 准确、全面地用户所要的信息是当前信息科学和技术令月所面临的重要挑战。正是在以 上所述的背景之下,基于人工智能技术的自动文本分类( a u t o m a t i o nt e x tc a t e g o r i z a t i o n ) 逐渐成为一个日益重要的研究领域。在国内,中文信息处理软件的开发已经成为国家产 中文文本分类技术研究 业发展的重点,因此,解决中文信息的处理技术成为我国信息化进程中的“必决之役, 必胜之战”p j 。 文本分类是文本挖掘领域的一个重要分支,是数据挖掘领域中对复杂类型数据的挖 掘技术。而文本挖掘是人工智能、机器学习、自然语言处理、数据挖掘及相关自动文本 处理,如信息抽取、信息检索等理论和技术结合的产物,近年来取得了长足的发展。假 如我们将互联网看作是一个巨大的动态文本数据库,显然,随着网络技术的飞速发展, 文本挖掘将在数据挖掘中扮演着越来越重要的角色。 传统的手工分类由于效率太低而面临越来越多的困难。据报道闻名世界的采用人工 进行信息分类的y a h o o ,其登记申请时间已经由一星期增加到三个月,因此,基于人工 智能的自动文本分类自然地变成了一个有潜力的发展方向。众所周知,一个优秀的检索 系统必须建立在良好的文本分类上,所以许多w w w 索引系统在对下载的w e b 文档进行 索引前,需要对文档分类处理,以便于用户的查找和提高检索的性能和效率。其实这点 很容易理解,如果被检索的文本己经分类,而后在与用户要求相关的文本类别内进行检 索,则可大大降低检索空间,从而提高检索的速度,提高检索系统的性能和精度。自动 文本分类技术产生和发展的一个主要原因就是为了提高文本检索的精度和速度。 分类是人类认识世界,区分客观事物的一种思维活动,也是根据事物的“共性”与“特 性”聚集相同事物,区分不同事物的手段。人们既可以通过分类来认识事物和区别事物, 也可以通过分类使繁杂事物条理化和系统化,从而为探讨事物本质,开展科学研究创造 条件。而文本自动分类是指计算机根据文本的内容,将其自动归到一个或者几个类别中 去,文本的类别和数目可以是预先预定好的,也可以是不确定的,要经过文本的自组织、 聚类后才能得到【4 j 。 文本分类作为处理和组织大量文本数据的关键技术,可以较大程度上解决信息杂乱 的现象,方便用户准确的定位所需的信息和分流信息。因此自动文本分类已作为一项具 有重大实用价值的关键技术,得到了广泛的关注,取得了较快的发展,同时,自动文本 分类作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域技术基础, 有着广泛的应用前景。随着i n t e m e t 技术的发展和w e b 应用的普及,文本分类对于信息处 理的意义更加重要。主要表现在如下几个方面【5 】: 1 文本分类为信息检索提供良好的组织与结构,大大简化了在文本信息库中存取文 本的操作,为信息检索提供了更高效的搜索策略和更准确的查询结果; 2 互联网上的在线文本信息急剧增加,手工分类和处理这些信息不但耗费大量的人 力和物力,在速度和精度方面也远远不能满足用户的要求。文本自动分类技术的应用可 以帮助用户有效收集和选择其所感兴趣的文本信息,尤其是帮助用户在日益增多的海量 信息中发现新的概念并自动分析它们之间的关系,真正做到信息处理的自动化; 3 文本分类在防火墙技术中也有广泛的应用,将快速精细的分类技术与包过滤技术 有机地结合,能有效地防止不健康信息的侵入,同时,也可减少互联网上有害信息的流 2 帧十学位论文 动; 4 文本分类是几乎是所有基于内容的文件管理的学科的基石,是处理和组织大规模 文本信息的关键技术,在文本资料的管理和分类中十分重要,可以说研究文本分类有着 广泛的商业前景和应用价值; 5 分类技术可以把用户分为对不同事物感兴趣的“团体 从而实现个性化的信息推 动。 1 2 国内外研究的现状 国外对于文本挖掘的研究开展的比较早,早在2 0 世纪5 0 年代末,i b m 公司的 h p l u h n 【6 j 在这一领域进行了开创性的研究,并提出了将词频统计思想应用到自动分类。 1 9 6 0 年,m a r o n 发表了关于自动分类算法的第一篇文章,随后,k s p 破、g s a l t o n 等为 代表的众多学者在这一领域又进行了卓有成效的研究工作。g s a l t o n 【7 】于1 9 6 8 年再次指 出文献自动分类的好处,他说:“很明显实际上把每个文献与检索要求进行匹配是不可 能的,因为时间上不允许。因为人们采用了众多措施来解决这个问题,其中名独子的方 法是将文献分成几类再进行自动匹配。也就是用类向量( g r o u pv e c t o r ) 代替各类文献, 计算机只要将检索要求与类向量进行匹配就行。”很多的专家学者在该领域采用各种不 同的自动分类技术进行了较为深入地研究,并且取得了不少令人瞩目的研究成果。到目 前为止,国外的文本挖掘研究已经从最初的可行性基础研究和试验阶段发展到现在的实 用化阶段【8 】,并在电子邮件分类、电子会议、数字图书馆、信息过滤等方面取得了比较 广泛的应用。 国外对文本自动分类的研究主要可以分为以下四个阶段:第一阶段,在这个阶段主 要是对文本自动分类的可能性进行研究;而第二个阶段就进入了文本自动分类的实验阶 段;第三个阶段将文本自动分类技术由实验阶段转到实用性的应用;第四个阶段就是现 在的在英特网上将文本自动分类技术的应用和研究。 国内的对于自动文本分类的研究起步比较晚,在中文自动文本分类研究的最初阶 段,国内的主要工作是介绍国外的本领域的研究成果。在这个时期内,涌现了很多综述 类的文章。1 9 8 1 年,候汉清【9 】教授对于计算机在文本分类工作中的应用做了探讨,并介 绍了国外计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等 方面的概况。此后,我国陆续研究产生一批计算机辅助分类系统和自动分类系统。1 9 9 6 年,吴军等在中文信息学报上发表了“汉语语料的自动分类”的文章,文章中自动文 本分类技术以语料库语言学的预处理手段的角色出现,在方法上借鉴了国外的研究成 果。在随后的阶段内,国内的主要工作集中在对一些经典算法的改进工作上。随着自然 语言理解技术在文本分类中的影响逐渐加大,国内的研究人员也加强了这一方面的工 作,并取得了可喜的成绩。李晓黎【1 0 】在“概念推理网及其在文本分类中的应用”一文中提 出运用语义网络概念推理结构进行文本分类研究, 黄】【1 1 1 提出了一个基于机器学习、独 3 中文文本分类技术_ 开究 立于语种的分类模型。我们欣喜的看到,在研究人员们的不懈努力下,自动文本分类在 各个发展方向上都取得了很大的进展,文本分类使用的文档特征来看,不再仅仅局限于 词、短语或n 郾锄,词性,标点符号【1 2 】等词法特征也被引入到了文本分类。而且,随着 研究的进一步深入,词法特征携带的信息已经越来越无法满足文本分类技术的需要。所 以,基于文本语法层次的一些特征开始应用【1 3 1 4 】,只是这些特征的自动获取还是个悬而 未决的问题。 由于汉语自身的特点,中文文本自动分类存在着较大的困难,但是,随着中文自然 语言理解技术特别是中文自动分词和词语标注技术的日渐成熟,中文文本分类技术的研 究发展的很快,已经逐渐从可行性探索向实用化开始转变。其中有些研究成果己经投入 了使用,直接促进了社会生活的发展。然而对于研究人员来说,中文自动文本分类仍然 是一个很大的挑战,想要找到分类效果极佳的分类方法依然很难,这一切还有待于大家 共同的努力。 1 3 文本分类技术的应用领域 到目前为止,文本分类、信息检索( i n f o 肌a t i o nr e t r i e v a l ) 和信息过滤( i n f o n n a t i o n f i l t e r i n g ) 文本数据库等领域中有了很大的发展。而且自动文本分类技术在信息检索系统 的成功运用,可以将人们从繁重的手工编制索引的劳动中解放出来,从而大大提高信息 检索系统研制的效率和效益。 一般来说,同文本组织( d o c 啪e n to r g a n i z a t i o n ) 相关的任何事务都可以用自动文本分 类技术来处理。例如,就报纸广告栏的编辑而言,在刊登各个广告之前,必须将这些广 告信息进行必要的分类,如分成旅游、培训、房产、招聘等几大类。类似的应用还包括 将报社收到的新闻稿件自动区分为时事、财经、体育、文艺等不同类别以刊登到合适的 栏目中去。另外,将电子邮件归类到不同文件夹中也属于文档组织的范畴。 文档过滤( d o c u m e n tf i l t e r i n g ) 始于上个世纪6 0 年代的有选择的信息分发技术,主要 研究解决如何根据用户的不同需要,自动将相关信息传送到各个用户终端的技术问题。 基本思想就是根据信息用户的需要,对源源不断产生或到来的文本信息进行动态地分 类、筛选,从而保留相关信息、屏蔽无关信息的活动。也就是将用户不感兴趣的无关信 息统统屏蔽掉,使用户根本感觉不到其存在,从而大大减轻用户的负担。网站搜索引擎 就是一个典型的文档过滤系统。 词义辨析( w o r ds e n s ed i s 锄b i g u a t i o n ) 通常指根据多义词所处的上下文环境确定出该 词此时的具体含义的活动。是计算语言学需要解决的众多自然语言歧义性问题中最重要 的一个,词义辨析在自然语言理解、机器翻译等领域有着重要的应用。 除了上述四个方面以外,目前利用自动文本分类技术,在短期内可能有所突破的研 究工作还可以集中在冗余过滤、智能检索、元数据提取、构建索引、歧义消解、信息过 滤等几个方面【1 5 】。意大利科学家f a b r i z i os e b a u s t i a n i 【1 6 】认为文本分类技术可以被看作是 4 硕l :学位论文 所有基于内容的文本信息管理的基础。由此可见文本分类技术在信息处理领域的重要 性。 1 4 本文的研究内容 本人围绕文本分类技术,研究了文本分类的表示,中文文本的分词算法和特征抽取 方法,并对不等式最大熵进行文本分类的特征选择算法进行了改进。同时还提出了基于 无词典的中文文本分词的改进算法。 首先,论文介绍了本课题的研究背景,概述了国内外文本分类的研究现状和文本分 类的应用领域。接着介绍了与文本分类相关的理论知识与技术,包括简单的描述了文本 的预处理、文本的表示方法,然后详细的介绍了常用文本特征的选择方法,阐述了特征 项权重的计算理论和技术。随后详细研究文本分类的具体技术以及涉及到文本分类的常 用的阈值确定方法。接下来,根据不等式最大熵进行文本分类时所使用的特征选择方法 对于大数量的特征子集的选择精度和效率不高的情况,提出了改进的前向循环特征选择 算法。同时重点研究了中文文本的分词技术,讨论了传统特征选择算法的优点和存在的 问题,提出了改进的性能良好的中文文本分词算法。最后总结全文,概括提出本文的结 论,并对未来工作进行展望。 1 5 本文的结构组织 全文主要内容分为五章。大致结构如下: 第一章为“绪论”,系统阐述了文本分类的背景知识和分类的意义,详细介绍了文 本分类在国内外的研究现状,回顾了文本分类在各个领域的应用。并概述了本文的研究 内容。 第二章为“文本分类的相关知识”,首先对文本分类的整个过程进行了详细的阐述。 其次,详细介绍了中文文本分词技术的必要性和存在的困难,并在此基础上给出了分词 算法的评价指标,然后介绍了特征粒度、特征选择和特征抽取的相关概念,接下来介绍 了传统的几种特征选择方法。最后对几种主要的文本分类算法进行了系统的描述,并给 出了文本分类中经常使用的几种阈值策略。 第三章为“最大熵模型理论”,简要介绍了统计语言模型,然后详细讨论了最大熵 原理和最大熵模型,并给出了模型参数估计算法和几种常用的平缓技术。 第四章为“用不等式约束改善最大熵模型的分类性能 ,首先讨论了最大熵模型在 文本分类的应用及其存在的问题,提出了不等式约束,引入了不等式最大熵模型,并且 详细分析了传统特征选择算法的缺点,最后,在研究不等式最大熵文本分类器的基础上, 提出了改进的特征选择算法,进行了文本分类实验,分析了实验结果。 第五章为“面向中文文本分类的分词算法”,详细阐述了本人在学习过程中研究出 的中文文本分词算法,并且提出了粗略的特征过滤策略,得到了一个初始的特征词集合。 5 中文文本分类技术研究 通过分析实验验证了此算法的可行性和高效性。 最后一部分是“总结和展望”,总结了本文的主要工作,对文本分类的发展做了一些 展望,并提出了文本分类以后可以继续研究的方向。 6 第2 章文本分类的理论基础和技术 文本分类是数据挖掘、机器学习、模式识别这三个学科在某一具体领域应用的结合, 它引用到数据挖掘、机器学习、模式识别这三个领域中对分类的技术,同时它又根据具 体的应用,有一些文本分类领域中的特殊的术语、方法和概念。下面我们先给出文本分 类的定义。 定义:文本分类是指基于文本内容将待定文本划分到一个或多个预先定义的主题类 别中的过程。 分类实际上是有教师的学习过程。它的特点是根据已经掌握的每类若干样本的数据 信息,总结出分类的规律性,建立判别公式和判别规则。然后,当遇到新的样本点时, 只需根据总结出的判别公式和类别规则,就能判断该样本点所属的类别。下面对中文文 本分类所涉及到的一些理论基础作一介绍。 2 1 文本挖掘和文本表示 2 1 1 文本挖掘 文本挖掘作为数据挖掘的一个新主题,是近几年来学者们极为关注的一个领域,它 所研究的数据是以大量文档形式存在,主要包括新闻报道、书籍、w | e b 页面、电子邮件 等,所以文本挖掘所处理的数据大多是半结构化或非结构化的,与数据库和数据仓库中 所处理的结构数据不同【1 7 】【1 8 】。同时,它也是一个富于争议的研究方向,目前其定义尚无 统一的结论,需要国内外学者开展更多的研究以便进行精确地定义。类似于我们熟知的 数据挖掘定义,对文本挖掘作如下定义。 定义:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的信 息或知识的过程。 直观的说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文 本挖掘。与信息检索,信息过滤,文本聚类一样,文本分类也属于文本挖掘的范畴,可 以看成是文本挖掘的一项基本任务。以上这些功能的在国外研究得比较的多,并且都是 基于英文环境的。在国内,数据挖掘研究者对中文文本的研究还不太成熟,因此,如何 借鉴国外学者的经验,结合现有的中文处理技术对中文文本进行挖掘仍有很多问题亟待 解决。 2 1 2 文本表示技术 文档的内容是人类使用的自然语言,计算机很难处理其语义,因此现有的数据处理 技术无法直接应用到其上,我们必须对文本进行预处理,抽取代表其特征的元数据。对 于内容难以表示的特征,我们首先要找到一种能够被计算机所处理的表示方式,也即目 7 中文文本分类技术研究 标表示。目标表示的构造过程就是挖掘模型的构造过程。 定义:文本表示是指以一定特征项来代表文档,在文本挖掘时只需对这些特征项进 行处理,从而实现对非结构化的文本的处理。 这是一个非结构化向结构化转化的处理步骤,同时文本表示的构造过程也是文本挖 掘模型的构造过程。对于中文来说,还必须先对文档进行分词。目标表示模型有多种, 常用的有布尔逻辑模型【1 9 】、向量空间模型【2 0 1 、概率模型等。近年来应用较多且效果较好 的目标表示法是向量空间模型( v e c t o rs p a c em o d e l ) 。 1 布尔逻辑模型 布尔逻辑模型是最简单的检索模型,也是其他检索模型的基础。在布尔逻辑模型中, 将文本文档看作为是由一组词条向量巧( ,1 乞岛厶) 构成。将文本中出现的词用l 表示, 没出现的词用0 表示。即如果六= 1 ,表示词在文档中出现过,否则说明词没有出现。 布尔检索模型原理简单易理解,容易在计算机上实现并且具有检索速度快的优点。 但是最终给出的查询结果没有相关性排序,不能全面反映用户的需求,功能不如其他的 检索模型。 2 向量空间模型( v s m ) 向量空间模型是由g e r a r ds a l t o n 和m c g i l l 于1 9 6 9 年提出。在布尔逻辑模型中,词出 现用1 表示,不出现用o 表示,它体现不出特征词在文档中所起得重要程度。而向量空间 模型的主要思想是将文本文档视为由一组词条( q ,哆,q ) 构成的向量,对于文本中的 每一个词条都根据其在文档中的重要程度赋以一定的权值q ,从而我们可以将其看成 是一个n 维坐标系,( q ,哆,嚷) 为对应的坐标值,因此每一篇文档都可映射为由一组词 条矢量组成的向量空间中的一个点。对于所有用户目标或未知文档都可用词条特征矢量 表示,从而将文档信息的分类问题转化为向量空间中的向量匹配问题进行处理。 2 2 中文文本的词语切分技术 汉语分词作为自然语言处理的第一个环节,它所起的作用是显而易见的。汉语分词 是信息检索、篇章理解、机器翻译、文本的语音输入输出、文本校对、自动标注等中文 信息处理重要领域的基础,但由于汉语中的词语规范、歧义切分和未登录词识别等问题, 汉语分词一直困扰着中文信息处理领域。汉语具有无词形的变化、以字而不是词作为基 本的构词单位、词与词之间没有以空格为间隔作为形式上的界限等特点,所以要想进行 汉语的自然语言处理,首先要进行的工作就是汉语的自动分词。 2 2 1 汉语自动分词的必要性 经过多年的努力,汉语自动分词的研究取得了一些突破,但在实用性方面还是有着 很大的局限性。中文自然语言处理【2 l 】,就是利用计算机对汉语信息进行处理。汉语自动 分词迄今为止尚不能下一个完全肯定的结论,但经过国内学者专家不懈地探索,该问题 的答案大体上已呈现出来。毕竟词平面上的研究与句法平面和语义平面的研究相比照, 8 硕士学何论文 本身难度要小得多,并且无论是在计算语言学方面还是在普通语言学方面,所取得的成 果也要成熟、扎实得多。 词的结构特征表现在结构上是一个不可分割的整体,其意义并不是它的几个构成成 分意义的简单总和。汉语自动分词,就是把没有分割标志即没有词边界的汉字串转换成 符合语言实际的词串。自动分词的过程就是由计算机自动识别文本中词语边界的过程。 中文自动分词是任何中文自然语言处理系统都难以回避的第一道基本“工序”【2 2 1 。只 有逾越这个障碍,中文自然语言处理系统才称得上初步打上了“智能”的印记,构建于词 平台之上的各种后续语言分析手段才有展示身手的舞台。 2 2 2 汉语自动分词的难度 词是最小的、能独立活动的、有意义的语言成分。计算机的所有语言知识都来自机 器词典、句法规则以及有关词和句子的语义、语境、语用知识库。在过去的十几年里, 汉语自动分词工作虽然也取得了很大成绩,但无论按照人的智力标准,还是同实用的需 要相比较,差距还很大,我们首先需要对这一工作的困难有充分的认识,具体都反映在以 下几个方面: 1 分词规范的难度 ( a ) 汉语词的概念:汉语自动分词的首要困难是词的概念不清楚。书面汉语是字的序 列,词之间没有间隔标记,使得词的界定缺乏自然标准,而分词结果是否正确需要有一 个通用、权威的分词标准来衡量。分词标准的问题实际上是汉语词与语素、词与词组的 界定问题,这是汉语语法的一个基本、长期的问题【2 3 】。 ( b ) 不同应用对词的切分规范要求不同:汉语自动分词规范必须支持各种不同目标的 应用,但不同目标的应用对词的要求是不同的,甚至是有矛盾的。 2 分词算法的困难 中文分词技术面临的两个最大问题就是切分歧义和未定义词识别问题。前者要解决 自然语言理解的问题,根据上下文环境,在不同切分结果中选择最优解;未登录词即未 包括在分词词表中但必须切分出来的词,包括各类专名和某些术语、缩略词、新词等等, 该问题要解决词典中未收录词的识别。因为各种汉语处理系统都需要使用词频等信息, 如果自动分词中对未登录词识别不对,统计到的信息就会有很大误差。虽然可以在机械匹 配的基础上通过规则的方法来求解上述两个问题,然而规则方法很难穷尽真实文本的各 种现象【2 4 1 。 除此之外,分词与理解的先后也是汉语分词所要解决的问题。计算机无法像人在阅 读汉语文章时那样边理解边分词,而只能是先分词后理解,因为计算机理解文本的前提 是识别出词、获得词的各项信息。这就是逻辑上的两难:分词要以理解为前提,而理解 又是以分词为前提。由于计算机只能在对输入文本尚无理解的条件下进行分词,则任何 分词系统都不可能企求百分之百的切分正确率。 9 中文文本分类技术研究 另外,要将汉语文本的字序列切分成词的序列,即使确定了一个合适的分词标准, 要实现这个标准也还存在算法方面的困难。 2 2 3 文本自动分词算法的分类 文本分词处理是中文信息处理所特有的文本预处理步骤。中文分词的效果对文本分 类系统的表现影响很大,因为在后面的流程中,全都使用预处理之后的文本信息,不再 参考原始文本,因此分词的效果不好,等同于引入了错误的训练数据。目前的中文分词 方法可以总结为三大类:( 1 ) 基于机械匹配的分词方法;( 2 ) 基于理解的分词方法;( 3 ) 基于概率统计的分词方法【2 5 】【2 6 】【2 7 】。下面分别进行详细的介绍。 1 、基于字符串匹配的分词方法 就是通过对已有词典的机械匹配来得到分词结果。所谓机械匹配,是指与己有词典里 的词进行一一匹配,匹配上的词输出到结果,匹配不上的词常以单字的形式输出,所以 又把这种方法又叫做机械分词方法。常用的几种机械分词方法有( 1 ) 正向最大匹配法; ( 2 ) 逆向最大匹配法( 由右到左的方向) ;( 3 ) 最少切分。 还可以将上述各种方法相互组合,实际使用的分词系统,都是把机械分词作为一种 初分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论