




已阅读5页,还剩61页未读, 继续免费阅读
(计算机科学与技术专业论文)面向网络舆情态势分析的文本分类研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院t 学硕士学位论文 摘要 随着信息技术的飞速发展,互联网正凭借其交流快捷、传播迅速的特点成为 越来越多的民众表达真实想法和观点的平台,这就使得网络媒体对社会舆论的导 向作用日益强大。因此,及时掌握舆情动态、积极引导社会舆论是亟待解决的问 题。而为了通过海量的网络文本数据及时的掌握舆情的态势变化,必然要对这些 包含不同信息的文本进行准确高效的分析整理。文本自动分类技术正是解决该类 问题的关键技术之一。 本文在研究中文文本分类技术发展现状的基础上,着重探讨了利用词语相关 度改善特征词所携带信息量,以及非平衡数据状态下文本分类方法的改进问题。 旨在提供一种更适合于处理网络文本数据的文本分类方法,以便于准确分析网络 文本数据,掌握社会各方面的舆情动态,从而积极引导社会舆论。本文主要研究 内容如下四个方面: ( 1 ) 对现有的文本分类相关技术和网络文本的特点进行研究,分析传统分类 方法在此类数据上的可用性以及不足之处,寻找相应解决办法。 ( 2 ) 根据对中文分词器切分后词携带信息量不足问题,设计算法w o r dm i , 计算待选特征词间互信息量,挖掘相邻词之间的组合可能性,将相邻词组合为较 长词,以提高特征词携带文本内容信息量,改善文本分类效果。 ( 3 ) 分析目前分类方法在处理非平衡类数据时的不足,提出特征项非平衡概 念,考虑非平衡数据集下类样本分布情况,提出特征词自动抽样算法 a v gs a m p l i n g ,以及对c h i 特征选择算法的不足进行分析,考虑类间样本频度, 改进得到新的特征选择算法c h ic f ,并通过实验验证了算法的有效性。 ( 4 ) 利用上述研究成果,本文基于i b m 提供的开源u i m a 平台,设计并实 现了面向网络舆情态势分析的网络文本分类系统,为整个网络舆情分析系统的后 续开发作积累和准备。在文中详细说明了主要模块的具体实现。 主题词:网络舆情,文本分类,互信息,非平衡数据,自动抽样、特征选择 第i 页 国防科学技术大学研究生院t 学硕士学位论文 a b s t r a c t a l o n g 谢t hi n f o r m a t i o nt e c h n o l o g y ss w i f td e v e l o p m e n t ,t h ei n t e m e th a sb e c o m ea m o r ea n dm o r ep o p u l a c ep l a t f o r mf o rp e o p l et oe x p r e s st h e i rr e a li d e a r e l y i n go ni t s c h a r a c t e r i s t i c ,e x c h a n g ea n da c q u i r e si n f o r m a t i o nr a p i d l y ,t h i sc a u s e st h en e t w o r km e d i a h a v eag r e a t e rf u n c t i o no fr e f l e c t i n ga n dl e a d i n gt h ep u b l i co p i n i o n t h e r e f o r e ,g r a s p p u b l i co p i n i o nt r e n d s ,a n da c t i v e l yg u i d ep u b l i co p i n i o ni su r g e n t l yw a i t st ob es o l v e d t 1 1 eo r d e rt op r o m p tg r a s pt h et r e n do fp u b l i co p i n i o nc h a n g e st h r o u g ht h e m a g n a n i m o u sn e t w o r kt e x td a t ai sb o u n dt ot h ea c c u r a t eh i g h l ye f f e c t i v ea n a l y s i s r e o r g a n i z a t i o no ft e x t st h a tc o n t a i n sd i f f e r e n ti n f o r m a t i o n n l et e c h n i q u eo fa u t o m a t i c t e x tc a t e g o r i z a t i o ni so n eo ft h ek e yt e c h n o l o g i e st os o l v es u c hp r o b l e m s b a s e do nt h es t u d yo fc u r r e n ts i t u a t i o no fe x i s t i n gc h i n e s et e x tc a t e g o r i z a t i o n m e t h o d ,t h i st h e s i sf o c u s e do nc o n s i d e rt h er e l e v a n c eo ft e r m st oi m p r o v et h ea m o u n to f i n f o r m a t i o nc a r r i e db yt h ef e a t u r ew o r d ,a sw e l la st oi m p r o v et h er e s u l to ft e x t c a t e g o r i z a t i o no ni m b a l a n c ed a t a , i n t e n d e dt op r o v i d ean e w t e x tc a t e g o r i z a t i o nm e t h o d w h i c hd o e sb e t t e r i np r o c e s s i n gn e t w o r kt e x td a t a , i no r d e rt oa c c u r a t ea n a l y z et h e n e t w o r kt e x t ,a b l et og r a s pt h ev a r i o u sa s p e c t so fp u b l i co p i n i o nt r e n d s ,a n dt h u s a c t i v e l yg u i d ep u b l i co p i n i o n t h em a i nc o n t e n t sa r ea st h ef o l l o w i n gf o u ra s p e c t s : ( 1 ) s t u d ye x i s t i n gt e x tc l a s s i f i c a t i o nt e c h n o l o g i e sa n dt h ec h a r a c t e r i s t i c so f n e t w o r kt e x td a t a , a n a l y z et r a d i t i o n a lc l a s s i f i c a t i o nm e t h o d so nt h ea v a i l a b i l i t yo fs u c h d a t aa sw e l la ss h o r t c o m i n g s ,t of i n dt h ea p p r o p r i a t es o l u t i o n ( 2 ) b a s e do nt h ep r o b l e mt h a ta f t e rw o r ds p l i t t i n g ,t h ew o r dc a r r i e si n s u f f i c i e n t a m o u n to fi n f o r m a t i o n ,d e s i g na l g o r i t h m sw o r d _ m i ,c o m p u t et h em u t u a li n f o r m a t i o n b e t w e e nw o r d s ,t a pt h ep o s s i b i l i t yo fac o m b i n a t i o nb e t w e e nt h ea d j a c e n tw o r d s ,t h e n a d j a c e n tw o r d sw o u l db eg r o u p e di n t oal o n g e rt e r mt oe n h a n c et h ea m o u n to f i n f o r m a t i o nt h a tt h ef e a t u r ew o r d sb r i n g ,t oi m p r o v et h et e x tc l a s s i f i c a t i o nr e s u l t s ( 3 ) a n a l y z et h es h o r t a g eo fc u r r e n tc a t e g o r i z a t i o na l g o r i t h mi ni m b a l a n c ed a t a , g i v et h ec o n c e p to fi m b a l a n c ef e a t u r e ,a c c o r d i n gt h ed i s t r i b u t i o no ft h es a m p l e si n i m b a l a n c ed a t a , p r o p o s eaa u t o m a t i cs a m p l i n ga l g o r i t h mo ff e a t u r e :黼g _ s a m p l i n g , a l s oa n a l y z et h ed e f i c i e n c yo fc h if e a t u r es e l e c t i o na l g o r i t h m ,a c c o r d i n gt h ef r e q u e n c y o fs a m p l e sb e t w e e nc l a s s e s ,a m e l i o r a t eo r i g i n a la l g o r i t h mt ot h en e wf e a t u r es e l e c t i o n a l g o r i t h mc h l c f e x p e r i m e n t a lr e s u l t ss h o w t h a tt h ea l g o r i t h m sa r ef e a s i b l e ( 4 ) u s i n gt h ea b o v er e s e a r c hr e s u l t s ,t h i st h e s i sd e s i g n e da n di m p l e m e n t e da a r c h e t y p a ls y s t e mo fn e t w o r kt e x tc a t e g o r i z a t i o nf o rs i t u a t i o na n a l y s i so fp u b l i c o p i n i o ni ni n t e r n e tb a s e do nu i m af o rt h ef o l l o w - u pd e v e l o p m e n t s 。a n da tt h es a m e t i m e ,d e s c r i b e dd e t a i lo ft h ep r i m a r ym o d u l ei nt h et h e s i s k e yw o r d s :i n t e r n e tp u b l i co p i n i o n ,t e x tc a t e g o r i z a t i o n ,m u t u a li n f o r m a t i o n , i m b a l a n c ed a t a ,a u t o m a t i c a l l ys a m p l i n g ,f e a t u r es e l e c t i o n 第i i 页 国防科学技术大学研究生院工学硕+ 学位论文 表目录 表3 1w o r dm i 算法3 0 表4 4a v g _ s a m p l i n g 算法3 9 第1 i i 页 国防科学技术大学研究生院工学硕士学位论文 图目录 图2 1 文本分类系统模型框架6 图2 2 支持向量机原理简图【3 0 】18 图2 3核函数变换示例图【3 0 j 。2 0 图3 1词语组合试验流程图3 0 图3 2 基于互信息量试验图示3 2 图4 1 抽样过程流程图3 7 图4 2召回率宏平均值图示4 3 图4 3 准确率宏平均值图示4 3 图4 4f 1 宏平均值图示4 3 图5 1u i m a 在非结构化信息与结构化信息中的桥梁作用4 5 图5 2u i m a 各概念间关系【”j 。4 7 图5 3 基于u i m a 的文本内容挖掘平台框架图4 8 图5 4 文本分类子系统结构图4 9 图5 5 基于u i m a 的网络文本分类系统流程图4 9 图5 6 文本预处理模块序列图5 0 图5 7 分类器创建模块序列图5l 图5 8 文本分类模块序列图5 2 第1 v 页 独创性声明 学位论文题目:j 堑盈江盈瘤堑赵_ 4 整毛蠢趾金竭五公莨车爱差茧靼l 学位论文作者签名: 刍磊往日期:歹即年2 月罗日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借j 闲;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:面五汕銎幽举磊蚓鼢庭卒垒喹日瓦 学位论文作者签名:一! 臣进基日期:研年1 2 月夕日 作者指导教师签名:聋耋k日期:劬哕年。月夕 日 国防科学技术大学研究生院工学硕士学位论文 第一章绪论 1 1 研究背景及意义 “舆情 ,在其狭义上是指民众受中介性社会事项刺激而产生的社会政治态 度。随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、 电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下 的舆情信息的主要来源有:新闻评论、b b s 、聊天室、博客、聚合新闻( r s s ) 。网 络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。 网络的开放性和虚拟性,决定了网络舆情具有以下特点:1 、直接性:通过b b s 、 新闻点评和博客网站,网民可以立即发表意见,下情直接上达,民意表达更加畅 通;2 、突发性:网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪 化的意见,就可以成为点燃一片舆论的导火索;3 、偏差性:由于发言者身份隐蔽, 并且缺少规则限制和有效监督,网络自然成为一些网民发泄情绪的空间。在现实 生活中遇到挫折,对社会问题片面认识等等,都会利用网络得以宣泄。因此在网络 上更容易出现庸俗、灰色的言论。对现实中出现的各种网络舆论,社会管理者应 能做出及时反馈,防微杜渐,防忠于未然。由于网上的信息量十分巨大,仅依靠 人工的方法难以应对网上海量信息的收集和处理,因此,必须利用现代信息技术 对网络舆情予以分析,需要加强相关信息技术的研究,形成一套自动化的网络舆 情分析系统,形成一个较为完备的舆情的指标体系架构,能实时的展现互联网的 舆情变化,为管理者提供相应决策支持,进行相应处理。 文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,其 中所包含的信息也更易于理解和传播,这使得网络中的资源大部分是以文本( 超文 本) 形式出现,并且其数量仍在急剧增加。所以如何高效迅速的在网络上浩如烟海 而又纷繁复杂的文本中找到对自己最有用的信息逐渐成为信息处理的一大目标。 如果采用传统的人工手段对庞大的数据集进行组织和整理,费时费力而且效率极 低,相比之下,如果能由计算机直接对其进行分析、过滤、分类,得到用户需要 的信息,必将大大提高对网络舆情分析的效率,对网络舆情的监控也将更有时效 性。 对海量信息的处理分析必然要应用到数据挖掘技术,数据挖掘技术应用于互 联网便产生了w e b 挖掘,即从w e b 上分析和挖掘出有用的信息,常用的相关技术 有用户访问模式分析、w e b 文档聚类、文本分类、信息过滤等。其中重要技术之 一的文本分类可以缩小信息检索的范围,增强检索目标和检索对象的相关性,同 时可以便捷地认识和区分不同的文档,使大量、复杂的文本条理化和系统化,可 第1 页 国防科学技术大学研究生院工学硕士学位论文 以极大地提高信息的利用率。因而,文本自动分类成为目f i i 文本信息处理中的一 个重要环节,是重要的研究课题之一。 简单地讲,文本分类就是指在给定的分类体系下,根据文本的内容将文本自 动分配到预先定义好的类别中n 1 。通过文本分类技术可以对网络上的海量文本数据 进行高效快速的整理,从中挖掘到用户所感兴趣的相关信息,过滤用户不需要的 数据,对文本数据的归类,也便于后期对文本的检索和处理,比如y a h o o 就将网 页放在一个巨大的层次分类结构中,通过维护这些类别来帮助用户高速查找知识 和信息。 文本分类技术是自然语言处理的一个很重要的研究方向,而在在对网络舆情 的分析监控系统中,文本分类系统是系统的基础与核心。通过文本自动分类系统, 能够很好地整理和系统化互联网大量的信息,同时帮助用户整理、获取信息,对 舆情分析的正确性和时效性上更有很大优势。中文文本的分类技术已经取得了一 定进展,它还逐步与搜索引擎、信息过滤等技术相结合,成为解决人们网上信息 获取的重要手段。但由于网络文本与正规文本相对而言格式的非规范性及内容的 随意性,在网络文本的自动分类方面仍然还有许多待解决的问题,相关研究仍在 进展中。 1 2 国内外相关研究的现状 1 2 1 文本分类研究现状 文本分类方法从解决问题的理论基础来分可以分为两类:一种是基于自然语 言的理解,挖掘出相应的规则,来对文本进行分类。在语言学和计算语言学领域, 学者们提出了一些句法理论和语义理论,试图通过各种形式化方法去表述文本的 语义,但到目前为止,这些表示方法由于需要比较复杂的语言预处理,在分类时 影响了分类器的吞吐速度,在分类效果上还没有明显的优势。在这种情况下,如 何利用一些容错能力好并且实现简单的方法,把自然语言处理技术融入到文本表 示模型中,实现高鲁棒性的文本表达,则是有待研究的一个课题。另一种则是根 据统计学的理论,采用统计的方法根据字词的频度,创建相应的数学模型进行分 类。目前应用广泛的贝叶斯、最近邻、s v m 分类器都基于统计学的理论,在应用 中也取得了很好的效果。 国外对文本自动分类的研究开展较早。5 0 年代末,h p l u h n t 2 】在这个领域进行 了开创性的研究,提出了基于词频统计思想的文本自动分类方法。1 9 6 0 年,m a r o n 发表了关于自动分类算法的第一篇论文r e l e v a n c e ,p r o b a b i l i s t i ci n d e x i n ga n d i n f o r m a t i o nr e t r i e v a l ,随后以k s p a r k ,g s a l t o n t 3 1 以及k s j o n e s 等人为代表的 第2 页 国防科学技术大学研究生院丁学硕士学位论文 众多学者也在这一领域进行了很有成效的研究工作。目前国外的文本分类研究己 经从实验性阶段进入到了实用化阶段,并在邮件分类,电子会议等方法取得了广 泛的应用。从2 0 世纪6 0 年代直到2 0 世纪8 0 年代末,这期间最有效的文本分类 系统一直是由专家人工构建的基于知识工程技术的分类系统。其中较为成功的有 麻省理工学院为白宫开发的邮件分类系统和卡内基集团为路透社开发的e o n s t m e 系统。 国内对于文本自动分类的研究起步较晚。1 9 8 1 年,侯汉清教授对计算机在文 本分类工作中应用作了探讨和阐述t 4 1 。此后,我国陆续研究产生了一些文本分类系 统,其中具有代表性的有上海交通大学研制的基于神经网络算法的中文自动分类 系统,清华大学的自动分类系统等等同时在不同的分类算法方面也展开了广泛 的研究和实现,中科院计算所的李晓黎、史忠植等人应用概念推理网进行文本分 类【5 i ,召回率达到9 4 2 ,准确率达到9 9 4 。中国科技大学的范嵌等人在k n n 、 贝叶斯和文档相似性研究的基础上提出了一个超文本协调分类器 6 1 ,正确率接近8 0 ,它的特点是适当的考虑了h t m l 文本中结构化信息。复旦大学和富士通研究 中心的黄茸著、吴立德等人研究了独立语种的文本分类【7 1 ,并以词汇和类别的互信 息量为评分函数,考虑了单分类和多分类,最好的召回率为8 8 8 7 。上海交通 大学的刁倩等人结合词权值和分类算法进行分类【8 1 ,基于v s m 的封闭式测试实验 中分类正确率达到9 7 。 1 2 2 网络舆情 传统的舆情分析和调查主要采用人工的手段来获取数据,如访谈,问卷调查 等,再分析处理这些数据,得到舆情态势,这样得到的结果在时效性上往往稍微 滞后。而网络舆情分析系统是让计算机去动态的收集网络上的实时数据,自动对 齐进行分析处理,得到网络舆情的发展态势。一般由数据收集、数据预处理和数 据分析三个模块组成。目前国外研究主要有加州大学伯克利分校社会科学计算实 验室的s d a 项目,主要针对网页数据进行自动分析;国内的人民日报社网络中 心舆情监测室是国内最早从事互联网舆情监测、研究的专业机构之一,北大 方正技术研究院研发推出了中文智能信息挖掘与知识管理的软件开发包与服务系 统:方正智思。 1 3 本文研究的主要内容 本文研究内容集中在样本为网络文本数据上的相关分类研究,包括文本模型表 示,特征选择算法,同一文档内相邻词间互信息度量,非平衡数据分类方法等, 主要研究工作如下: 第3 页 国防科学技术大学研究生院工学硕士学位论文 分析研究特征选择后得剑的特征词项由于会将长词切分导致特征词携带信息 量不足现象,提出算法w o r dm i ,根据信息论中互信息量理论,计算相邻词之间 的互信息量,并根据相应词语在文档中的频度关系,判断是否可以将在文本中相 邻的待选特征词组合为一个包含更多文本信息量的待选特征词。试验证明,该方 法对文本分类结果有明显提高。 研究在网络文本类别分布不平衡情况下现有分类算法和特征选择算法的不足, 提出了特征项非平衡的概念,基于类别文档数目比例,设计并实现对文本预处理 后待选特征词进行自动抽样的算法a v g,将 与_ s a m p l i n g u n d e rs a m p l i n g o v e rs a m p l i n g 相结合,解决对样本抽样所带来的增大训练量和数据丢失问题。分 析特征选择算法c h i 在非平衡数据下的不足,除类别文档频度外,考虑词的类间 文档频分布情况对分类结果的影响,制定新的特征选择算法c h ic f ,在实验中, 改进后算法在更能体现非平衡数据集分类效果的准确率、召回率、f l 值的宏平均 值评价标准上有了明显提高。 在此基础上,设计实现了一个基于i b m 发布的u i m a 平台的网络文本分类心 统,在此基础上,对网页文本数据实现快速高效分类,为整个网络舆情分析系统 的后续开发作积累和准备。 1 4 本文的组织结构 本文共分为六章,各章内容概述如下: 第一章为绪论,首先介绍了面向网络舆情态势分析的文本分类系统的课题背 景以及研究意义,简单介绍了文本分类技术目前的研究现状及存在的不足。最后 概述了本文的主要研究内容。 第二章为中文文本自动分类关键技术,包括中文文本的预处理,文本表示模 型,以及对目前主流的特征选择算法,分类器算法的分析对比,最后对网络文本 的特点进行了简单分析。 第三章为基于互信息理论计算相邻词间组合度,首先介绍了互信息概念在信 息论中的相关理论背景,然后本章具体给出文档中词间互信息值的计算方法,以 及相邻词是否组合为新词的判断条件,并且通过实验验证了该方法的有效性。 第四章为非平衡数据下的数据分类,首先介绍非平衡数据分类的含义、特点, 分析了普通文本分类方法之所以在非平衡数据上不能得到满意分类结果原因,介 绍现有的改善非平衡数据分类效果的相关研究。然后本章根据非平衡数据中少数 类数据缺少的原因,提出了特征项非平衡的概念,基于类别文档数目比例,设计 并实现对文本预处理后待选特征词进行自动抽样的算法a v gs a m p l i n g ,并对特征 选择算法c h i 加以改进,考虑词的类间文档频分布对特征选择的影响,试验证明, 第4 页 国防科学技术大学研究生院工学硕士学位论文 改进后算法在分类处理中取得了更好的结果。 第五章为原型系统设计,首先介绍与原型设计相关的i b m 的开发平台u i m a , 然后本章具体给出了原型系统的各模块功能与设计方法,具体包括文本预处理, 特征选择,分类器模型创建,对测试集分类等具体实现。 最后的结束语对本文的工作进行总结,并对下一步的工作进行展望。 第5 页 国防科学技术大学研究生院工学硕士学位论文 第二章文本分类相关研究 随着信息技术的日益发展,网络上的文本数据量越来越大,如何对这些包含 不同信息的文本进行准确高效的分析整理,成为一个亟待解决的重要问题。文本 自动分类技术是解决该类问题的关键技术之一。文本分类作为数据挖掘领域的重 要技术,目的是把一个自然语言文本根据其主题归入到某一预先定义好的分类体 系中去,文本自动分类则是使用计算机根据一定的分类规则实现文本的自动归类 的过程n 1 。目前文本分类技术在许多场合都扮演着非常重要的角色,如文本索引、 过滤、单词语义消歧、w e b 资源管理、网络舆情监控等,基本所有需要对文档自动 整理、选择的应用系统都需要文本分类技术。 从广义上来讲,文本分类是数据挖掘的一种方法。但是文本的自动分类又与 传统的数据挖掘不同,传统的数据挖掘所处理的大多是结构化的数据,而文本分 类所面对的则是相对较为复杂的非结构化数据。目前文本分类最普遍的技术就是 先将非结构化的文本转化为结构化的数据表示,然后再对结构化的数据采用传统 的分类方法来进行分类。简单的说,文本自动分类就是在给定的类别体系下,根 据文本的内容自动的确定文本的类别,对应的类别可能是一个或多个。从数学角 度来讲,文本分类就是一个将没有指定类别的文本映射到已有的类别体系中的过 程,该映射可能是一对一、一对多、多对多映射。数学公式表示如下: :彳专b ( 2 1 ) 其中a 为待分类文本,曰为类别体系,为a 到曰的映射。 文本分类是要从已掌握的每个类别若干训练样本的数据信息,总结出分类的 规律性从而创建相应的判定规则和分类模型,从而对新文本进行分类。其涵盖了 数据挖掘、中文分词、特征选择、文本分类算法、分类效果评测等多方面内容。 一个完整的中文文本分类过程至少包括下图中的几个部分内容: 鹰, 文档预处理 r 孟出了f 特征降维 广| l ( 分词、除 付扯坝付选至一i l l ( 特征选择、 :广 去停用词) 弋 特征抽取) 分 一 1 i r 屏 类 效 目标特征项 | 果 评 t 一c 3 ( - - 价 1r 根据不同的分类器算法, 1 、j 体 创建分类器模型系 测试文。 特征项匹配 档集 7 上| 。厂:l - l 分类器 7 u 1 广 图2 1文本分类系统模型框架 第6 页 国防科学技术大学研究生院工学硕十学位论文 2 1 文本预处理 文本的预处理是文本分类的前提,普通文本显然不能直接被计算机处理,需要 将其转化为可处理的结构化数据,同时根据不同的情况,将非结构化文本处理为 最适合分类器处理的数据集。文本预处理一般包括中文分词,停用词除去,过滤 非法字符等处理。 ( 1 ) 中文分词 中文分词技术是中文文本分类中特有的概念,由于英文单词之间有空格将各 个词分隔开,而中文则是根据词和词之间的概念来区分,在文本中并没有显式的 分割界限,正因为这样,中文分词是中文文本分类预处理中关键的一步1 9 l f l 们。在中 文文本中,一般认为选取词作为特征项要优于字和词组,这是因为单字所代表的 信息量太少,而且存在很多多义字,字与字之间的界限模糊,而且用字作为特征 项将导致特征空间的高维灾难;词组虽然携带足够的信息量,但词组在文本中出 现的机率不多,选用词组来作为特征项,会导致特征向量稀少,损失很多重要信 息。 分词目的是将连续的字序列按照一定的规范重新组合成词序列的过程。目前 的分词算法一般分为以下三类【1 1 】【1 2 】【1 3 】: 1 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待处理的文本中由标 点符号分开的每句作为一个字符串,与一个“充分大的”机器词典中的词条进行匹 配,若在词典中找到某个字符串,则匹配成功( 识别出一个词) 。按照扫描方向 的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配 的情况,可以分为最大( 最长) 匹配和最小( 最短) 匹配;按照是否与词性标注 过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用 的几种机械分词方法有正向最大匹配( 从左到右) 、逆向最大匹配( 从右到左) 、 最小切分法( 使每句所切分出的词数目最少) 。 一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。 统计结果表明,单纯使用正向最大匹配的错误率为1 1 6 9 ,单纯使用逆向最大匹配 的错误率为1 2 4 5 。但这种精度还远远不能满足实际的需要。实际使用的分词系统, 都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步 提高切分的准确率。 2 基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其 基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处 第7 页 国防科学技术大学研究生院t 学硕士学位论文 理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。 在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来 对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用 大量的语言知识和信息。由于汉语语言知识的复杂性、模糊性,很难将各种语言 信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶 段。 3 基于统计的分词方法 基于统计的分词方法的理论基础是认为词从形式上看,是稳定的字的组合, 所以如果相邻的字在上下文中同时出现的次数越多,就越有可能构成一个词。因 此字与字相邻共现的频率或概率能够较好的反映成词的可信度。这种方法只需对 语料中的字组合频度进行统计,不需要切分词典,因而又叫做无词典分词法或统 计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并 不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对 常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本 的分词词典( 常用词词典) 进行串匹配分词,同时使用统计方法识别一些新的词, 即将词频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点, 又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。 ( 2 ) 停用词过滤、非法字符过滤 一篇文本的内容主要通过名词、动词、形容词等实词来体现,虚词以及在各 种文本里经常出现的部分高频词对分类并无意义,这些无意义的字或词即被称为 停用词。同时由于网络文本数据的不规范性,还可能在文本中存在一定数目的非 法字符,这些词对文本的处理往往没有什么作用。所以需要在文本分词之后,将 这类词进行去除。通常意义上的停用词大致有如下两类: 1 一些词在在所有类中都频繁出现,使得不具备或具备很少的类比区分度信 息。比如,如“我们、人们”等词,这样的词无法保证能够给出真正相关的分类信 息,反而还会降低分类的效率: 2 包括语气助词、副词、介词、连接词等一些虚词,通常自身并无实际意义, 和类别信息没有关联,如常见的“的”、“在。适当地减少文本处理中虚词出 现的频率,可以有效地提高关键词密度,更突出实词的分类信息。 去停用词的方法是构建停用词表依次对分词得到的文本词集中的词与停用词 表进行匹配,如果词存在于表中,表明该词为停用词,则从文本词集中删除;若 不在表中,则保留。停用词表有通用停用词表与专用停用词表之分,其来源有人 工构造与基于统计的自动学习两种方式。基于统计的自动学习方法是从语料中统 计出高频停用词,自动构建停用词表并由人工进行核对,或者从初步的向量分词 第8 页 国防科学技术大学研究生院工学硕士学位论文 结果中得到停用词,然后分词过程中不断地更新频率并根据切分结果进行验证。 2 2 文本表示模型 文本内容是人类所使用的自然语言,表现形式为由大量字符构成的字符串, 它属于一种非结构化的数据,表达了丰富的内容信息,但是这种信息无法被计算 机学习识别并直接用于训练或分类。这就需要将其转换为计算机所能识别的形式 来进行处理。中文文本是由汉字和标点符号等最基本的语言符号组成的字符串, 由字构成词,由词构成短语,进而形成句、段、节、章等结构,用尽量简单而准 确的方法将文本表示成计算机所能够处理的形式是进行文本分类的基础。文本的 特征表示主要采用的模型有:布尔逻辑模型( b o o l e a nl o g i c a lm o d e l ) 、向量空间 模型( v e c t o rs p a c em o d e l ,v s m ) 、潜在语义索引( l a t e n ts e m a n t i ci n d e x i n g ,l s i ) 等。这些方法从不同角度出发,采用不同的方法将自然语言表示的文本数据转化 为计算机可以分析处理的数学模型表示【l 4 1 1 ( 1 ) 布尔逻辑模型 布尔逻辑模型( b o o l e a nl o g i c a lm o d e l ) 也称为完全匹配模型,是一种比较简单 的表示模型1 ”i ,它使用一系列从文档中抽取出来的具有二值逻辑的特征变量,如 关键词等描述文档的特征。如若一个特征向量在文中出现,则值为t r u e ,若否, 则为f a l s e ,特征变量之间的组合的结果通过布尔操作符的运算公式得出。布尔逻 辑模型实现简单,检索速度快,但是表示能力差,无法区分特征项的重要程度, 并且逻辑表达式过于严格,可能由于某个条件未满足而忽略其余特征项,影响系 统的分类精度。 ( 2 ) 向量空间模型 向量空间模型是目前文本分类中应用最为广泛的一种文本表示模型,由s a l t o n 等人于2 0 世纪8 0 年代末提出并成功应用于著名的s m a t r 系统后,在文本分类, 自动标注,信息检索等许多领域得到了广泛应用1 1 6 i 。 向量空间模型的基本思想是使用特征向量来表示文本,在特征向量表示中, 特征项出现在文本中的先后顺序是无关紧要的,每个特征项( 一般是文本中的一 个词) 对应特征空间的一维,文本表示为欧式空间的一个向量,核心概念描述如 下: 定义2 1 :特征项( t e r m ) 文档的内容所含有的基本语言单位,一般为构成文 本的字、词、词组、短语等,统称为特征项项、项或特征词通常标记为f 。 定义2 2 :特征项的权重( t e r mw e i g h t ) 表示项在文本和类别中的重要程度。 对于含有n 个项的文本d ( t l ,t 2 厶) ,项t i 被赋予一定的权值w i ,表示该项在文 第9 页 国防科学技术大学研究生院工学硕士学位论文 本d 中的重要程度。 这样文本可以表示为文本可表示为d = ,w ,) ,( f z ,w :) ( 厶,w 。) 】,其中 瓴们( 1 后刀) 为一个特征项和其权重的序偶,t k 表示特征项,w 是该特征项对应 的权重,用来量化表示这个特征项在文本中的重要程度。 权值的计算主要依据于以下两个方面: 1 某个特征项在某文本中出现的频率越高,它和该文本的主题就越相关。 2 一个特征项在选取的文本集中出现的次数越多,它标示某个特定文本特征 的能力就越弱。 常用的文本权重计算方法有布尔函数w - 揣三1 0 ,平方根函数w = 丽, 对数函数w = l o g ( t f ( t ) + 1 ) ,t f i d f 函数w = t f ( t ) x l o g ( 。- - v ) 。其中,n 为所有文本的 数目,耽,为包含特征项t 的文档数目,t f ( t ) ) 为t 在文档d 中出现的频率。其中 以t f i d f 算法目前应用较多且效果较好。 定义2 3 :向量相似度。 当文本由向量空间模型表示为原始特征空间中的矢量后,两个文本d 1 和d 2 之间的相似度( 内容相关程度,d e g r e eo fr e l e v a n c e ) 就可以用两个矢量之间的 某种距离来表示,从而将两个非结构文本的信息匹配关系转化为向量空间中的矢 量匹配关系。一般所采用的相似度计算方法主要有【1 7 】: ( 1 )基于欧几里德距离的余弦相似度法,在该计算公式中,文本向量中权 重大的特征项对相似度的最终计算结果有着较大影响: y 。w i w ,i 订引出d2 疆等麓奇 ( 2 2 ) :。w2 n :。w2 肚 ( 2 2 ) ( 2 ) h e l l i n g e r 方法,对应特征项权重开方之和,属于概率范畴的度量方 法: s i m ( d t ,d j ) = :,石i 瓦 ( 2 3 ) ( 3 ) t a n i m o t o 方法计算共享特征值与单文档特征值之间的比例,属于相对 相似度,一定程度上考虑了共享特征与单文档特征之间的分布差异: “州如2 豇专兽 q 4 在上述三个公式中,n 为向量维度,w 哦表示文本历中第七维特征项的权重。 ( 3 ) 潜在语义标引( l a t e n ts e m a n t i ci n d e x i n g ,l s i ) 潜在语义标引是由m w b e r r y 和s t d u m a i s 在2 0 世纪8 0 年代末提出 第1 0 页 国防科学技术大学研究生院工学硕士学位论文 了一种新的信息检索模型,它可以看作向量空间模型( v s m ) 的一种改进。它是一 种建立在统计之上的学习方法,试图发现对象之间的关联模式以及隐藏的对象间 的结构关烈1 3 1 。 潜在语义标引方法是利用概念标引代替关键词标引,从语义相关的角度为文 本选择标引词,不考虑标引词在文本中是否出现,其通过矩阵理论中的奇异值分 解( s i n g u l a rv a l u ed e c o m p o s i t i o n ,s v d ) 技术,将词频矩阵转化为奇异矩阵 ( k xk ) ,用转换后的文本向量进行文本分类处理。其基本处理步骤如下: 1 建立词频矩阵( f r e q u e n c ym a t r i x ) ; 2 计算词频矩阵的奇异值分解; 分解词频矩阵成为三个矩阵u ,s ,v 。u 和v 是正交矩阵,s 是奇异值的对角 矩阵( k xk ) ; 3 对于每一个文档d ,用排除了s v d 中消除后的词的新的向量替换原有的向量; 4 使用高级多维索引技术为所有向量集合创建索引; 5 用转换后的文档向量进行相似度计算。 2 3 文本特征选择 在文本分类任务中,高维数据空间的处理一直是其中的一个关键问题。文档 经过分词,除去停用词等预处理操作之后,得到的特征项的待选集中的单词、短 语往往多达数万个,甚至十几万个,如果对这个集合中的词不加以选择分析,直 接用所有的词来构成文本特征向量,势必带来如下问题: 1 会产生所谓的“维数灾难。即高维空间中的稀疏样本问题,由于特征向 量维数过高,而一个文本中往往只有几百或上千词,必然使得所形成的文本向量 极为稀疏。 2 计算复杂性太高。高维向量空间的计算使得文本分类算法效率下降, 3 容易引入噪声,也会使得分类器对训练样本集有极高的分类精度,但是对 训练集外文本精度不高,也即是导致过拟合( o v e rf i t t i n g ) 现象,使得分类器的 泛化能力降低。 所以,必须采用相应降维技术,将高维空间转换为一个低维空间,同时这个 低维空间又尽可能的保存原始高维空间中的重要信息。使得用这个低维空间中的 词作为特征项来构建特征向量能够在文本分类中取得更好的效果,提高分类器的 泛化能力,去除原始信息中的噪声。一个有效的特征项集合必
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度国务院国资委研究中心招聘(2人)笔试备考试题附答案详解
- 2025年综合类-财务会计-第九章收入、费用和利润历年真题摘选带答案(5卷100道集锦-单选题)
- 2025年综合类-移动通信代维人员专业考试-旅游景区(点)讲解员历年真题摘选带答案(5卷100道集锦-单选题)
- 常用的外债借款合同模板(2025版)
- 车辆合同协议书范本(2025版)
- 2025年综合类-甘肃住院医师呼吸内科Ⅱ阶段-呼吸衰竭历年真题摘选带答案(5卷100道合辑-单选题)
- 安装维修合同简单2025年
- 产业园区物业服务合同示范文本2025年
- 法人借款给公司的合同模板2025年
- 2025形象代言合作合同
- 2025年xx医院法律法规培训计划
- 污泥中粪大肠菌群的测定 酶底物法-编制说明
- 安全心理学-应激及事故创伤的心理救援
- GB/T 21220-2024软磁金属材料
- 统编版语文三年级上册第6单元大单元教学设计
- GB/T 44230-2024政务信息系统基本要求
- 宫腔镜技术诊断子宫内膜癌的临床应用
- 2024年全国职业院校技能大赛高职组(护理技能赛项)备赛试题库(含答案)
- 2024-2025学年八年级上册数学第一次月考试卷01【沪科版】
- 应急 村委会与村卫生室协议书
- 2024年洛阳二外小升初英语考卷4
评论
0/150
提交评论