




已阅读5页,还剩48页未读, 继续免费阅读
(计算机软件与理论专业论文)中文文本投诉信息自动分类系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,| 7 | , 二 i j 一 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究 工作所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡 献的个人和集体,均已在文中作了明确的说明。本声明的法律结果由本人 承担。 学位做作者躲隧生嗍 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 日期: 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名:之! 车i 丕乐 e t 期:到! :l :2 电话: 邮编: 氅 - , ,弋 一一 ,毋 。, 摘要 现今i n t e r a c t 已然成为人们获取信息的主要来源,它的快速发展使得信息资源迅速 膨胀,文本自动分类作为有效地组织和管理这些信息的关键技术之一有着广泛的应用前 景。 本文结合东北师范大学理想信息技术研究院“长春市市长公开电话智能综合服务网 络 的项目,其中关于如何对市民发出的投诉信息有效分类的问题进行研究。该项目中 原始的分类系统是基于统计方法建立的,在实际应用中虽然取得了一定效果,但分类准 确率不理想的缺点日益凸显。为了提高分类准确率,本文在原系统的基础上寻求有效的 改进方法。研究工作主要包括:首先,面向投诉领域构建了基于关键词组的分类体系库, 并且对分类体系库的基本单元即关键词组的形式化描述、存储形式进行深入研究。其次, 建立了模糊词典,目的是对分词词典进行同义词的扩展以此提高分词准确率。最后,对 比研究了文本自动分类系统常用的分词算法和分类算法。在现有的研究成果基础上进行 了最大匹配分词算法的改进,以及改进的k n n 分类算法在关键词组概念下的应用。结 合以上主要研究内容,设计并实现了一个基于投诉信息的中文文本自动分类系统,分析 了系统运行的各个关键步骤,通过设置实验测试了系统的分类性能。结果表明,改进后 的分类系统可以有效地提高分类准确率,召回率也有一定程度的提高,说明这些改进是 有效并且切实可行的。 关键词:中文文本分类;分词;关键词组;模糊词典:k 近邻 a b s t r a c t a tp r e s e n t , n e t w o r kh a sb e e nt h em a i ns o u r o ef r o mw h i c hp e o p l eg e ti n f o r m a t i o n w i t h t h er a p i dd e v e l o p m e n to fi n t e m e t , i n f o r m a t i o nr e s o u r c e sh a v eb e e nm u c he n r i c h e d a st h e k e yt e c h n o l o g yt oo r g a n i z ea n dm a n a g ei n f o r m a t i o ne f f e c t i v e l y , t e x tc a t e g o r i z a t i o nh a st h e b r o a da p p l i e df u t u r e t h i sa r t i c l ei sb a s e do nap r o j e c to fi d e a li n s t i t u t eo fi n f o r m a t i o na n dt e c h n o l o g yi n n o r t h e a s tn o r m a lu n i v e r s i t y t h ep r o j e c ti sa ni n t e l l i g e n ta n di n t e g r a t e d - s e r v i c e sn e t w o r k u s e df o rp u b l i ct e l e p h o n eo ft h em a y o ri nc h a n g c h u n t h ea u t h o rh a sr e s e a r c h e dt h ep r o b l e m o fh o wt oc a t e g o r i z et h ei n f o r m a t i o ni nc o m p l a i n i n gf r o mc i t i z e n se f f e c t u a l l y t h ef o u n d a t i o n o ft h eo r i g i n a lc a t e g o r i z a t i o ns y s t e mi nt h ep r o j e c ti ss t a t i s t i c a lm e t h o d a l t h o u g hs o m er e s u l t h a sb e e na c q u i r e di nt h ep r a c t i c a la p p l i c a t i o n ,t h ew e a kp o i n th a sa p p e a r e di st h a tt h e p r e c i s i o no fc a t e g o r i z a t i o ni sn o tg o o d i no r d e rt oi m p r o v et h ep r e c i s i o no fc a t e g o r i z a t i o n ,t h e a u t h o re n d e a v o r e di m p r o v e m e n to fm e t h o d t h em a j o rr e s e a r c h e si n c l u d et h a t :f i r s t l y , o nt h e b a s i so fk e yw o r d sp h r a s e ,as y s t e ml i b r a r yo fc a t e g o r i z a t i o ni nt h ea r e ao fc o m p l a i n th a s b e e ns t r u c t u r e d t h ea u t h o rh a sm a d ei n d e p t hr e s e a r c ho nf o r m a ld e s c r i p t i o na n df o r mo f m e m o r yo fk e yw o r d sp h r a s e s e c o n d l y , af u z z yt h e s a u r u sh a sb e e ns e tu pf o re x t e n d i n gt h e s y n o n y m si ns e g m e n t a t i o nd i c t i o n a r yi no r d e rt oi m p r o v et h ep r e c i s i o no fw o r ds e g m e n t a t i o n f i n a l l y , t h ea u t h o rh a sr e s e a r c h e so ns e g m e n t a t i o na n dc a t e g o r i z a t i o na l g o r i t h m sw h i c h a l w a y su s e df o ra u t o m a t i cc a t e g o r i z a t i o ns y s t e m i m p r o v e da l g o r i t h m so fm a x i m u mm a t c h i n g m e t h o da n dh o wt ou s ei m p r o v e dk n na b o u tf e a t u r ea g g r e g a t i o n sw i t h i nk e yw o r d sp h r a s e h a v eb e e ng i v e n t oc o m b i n ew i t ht h em a j o rr e s e a r c h e sb e f o r e ,t h ea u t h o rh a s p u tf o r w a r da n d r e a l i z e da na c h i e v ea r c h i t e c t u r eo fc h i n e s et e x t c a t e g o r i z a t i o ns y s t e mo nt h eb a s i so f c o m p l a i n i n gi n f o r m a t i o n a n dt h e nt h ea u t h o rd i s c u s s e dt h ek e ys t e p so fs y s t e mw h i c hi si n m o t i o n ,t e s t e dt h ep e r f o r m a n c ea b o u tc a t e g o r i z a t i o no ft h i ss y s t e m t h er e s u l t so ft h e e x p e r i m e n t sp r o v e dt h a t ,p r e c i s i o nh a sb e e ni m p r o v e de f f e c t u a l l y ,a n dr e c a l lh a sb e e n i m p r o v e da l s o s ot h a t ,t h ei m p r o v e m e n tt h ea u t h o rh a sf i n i s h e do ft h i ss y s t e mi se f f e c t u a la n d f e a s i b l e k e yw o r d s :c h i n e s et e x tc a t e g o r i z a t i o n ;w o r ds e g m e n t a t i o n ;k e yw o r d sp h r a s e ;f u z z y t h e s a u r u s ;k n n p ,一 目录 摘;要一一”“”“”一o o oo io “”i a b s t r a c t i i 目录”“”i 1 绪论“”“”1 1 1 文本自动分类研究背景l 1 2 文本自动分类的国内外研究现状l 1 2 1 国外研究现状l 1 2 2 国内研究现状3 1 3 本文主要研究内容3 1 4 论文组织结构4 2 文本分类理论与技术基础6 2 1 文本分类基本概念6 2 2 文本分类涉及的主要技术及方法p o lo 6 2 2 1 文本自动分词6 2 2 2 文本表示8 2 2 3 文本的特征选择与提取1 0 2 2 4 文本特征项的权重1 l 2 2 5 文本分类算法1 2 2 3 文本分类评价体系1 5 2 3 1 查全率( r e c a l l ) 与查准率( p r e c i s i o n ) 1 5 2 3 2b e p 和只函数1 6 2 3 3 宏平均和微平均1 6 3 投诉领域分类系统库s l c c 构建方法1 7 3 i s l c c 概述”1 7 3 2 s l c c 的类别层次结构1 8 3 3 基于关键词组的分类体系库1 9 3 3 1 关键词组的形式化描述1 9 3 3 2 关键词组的存储结构2 0 3 3 3 模糊词典的构建2 0 3 3 4 索引机制2 2 4 文本分类关键技术研究2 5 4 1 文本自动分词2 5 4 1 1 基于最大匹配分词算法的文本自动分词2 5 4 1 2 歧义字段的采集2 6 4 1 3 歧义字段的消解2 7 4 1 4 本文的自动分词流程00 2 7 4 2 文本自动分类2 8 4 2 1 传统的k n n 算法2 8 4 2 2 基于关键词组的改进k n n 算法2 8 1 1 1 5 中文文本投诉信息自动分类系统的设计与实现3 0 5 1 系统的总体结构3 0 5 1 1 系统设计思路3 0 5 1 2 系统的结构和模块设计3 0 5 2 系统的运行结果及分析3 2 5 2 1 开发工具及系统运行环境3 2 5 2 2 系统运行结果分析3 4 6 总结与展望3 7 6 1 工作总结3 7 6 2 课题展望3 8 参考文献3 9 致谢“4 2 在学期间公开发表论文及著作情况4 3 烈 东北师范大学硕士学位论文 1 绪论 1 1 文本自动分类研究背景 在当今的信息社会,网络在人们生活中的普及和数字化信息技术的发展为丰富的资 讯信息迅速准确的传播提供了便利条件,通过网络,人们可以很方便地共享丰富的信息 资源,加速了信息的传播与交流。与此同时,互联网数据及资源以惊人的速度膨胀,呈 现海量的特征。 人们一方面游弋在信息海洋中,一方面面临巨大的信息资源又不知如何及时有效地 获取所需的信息。文档信息的快速增长使得企业、政府、科研机构等及个人用户在信息 处理和检索中面临前所未有的挑战,由于信息量过大,使得人们在有限的时间内获取对 自己所需的信息的困难与日俱增,人们要用越来越多的时间在信息海洋中查找和接受有 关信息,如何缓解用户对资源的顺利使用和海量信息资源之间的矛盾直至消除将具有巨 大的现实意义。传统的解决方法是凭借人力对网络信息的组织和整理进行分类,这种方 法固然具有一定的有效性,但是所存在的弊端亦然显而易见:消耗大量的人力,时间, 分类效率低,分类结果一致性不高等。信息化的时代不仅带给人们庞大的信息量,也为 信息化的自动分类准备了充分的资源。文本自动分类( 简称文本分类) 技术就是为完成 这一任务而提出的。它利用计算机,将用户提交的文本按内容或主题自动分为某一( 几) 类l l j 。概括地讲,文本分类( t e x tc l a s s i f i c a t i o n ) 就是指在给定的分类体系下,根据文本 的内容将文本自动分配到预先定义好的类别中。文本分类技术有效地缓解了信息杂乱无 章的问题,方便用户及时有效地找到所需信息。因此,文本分类技术自出现以来作为搜 索引擎、信息检索、信息过滤、数字化图书馆等领域的技术基础,在学术领域及社会领 域得到了广泛的应用,并取得了巨大的进展。文本自动分类及相关技术日益成为研究热 点。 1 2 文本自动分类的国内外研究现状 文本分类的作用是在更大的程度上帮助用户快速准确地找到他们需要的信息,实现 信息的有效分流。因此,文本自动分类技术越来越引起国内外学者的广泛关注,对该技 术的研究也被提高到了前所未有的高度。 1 2 1 国外研究现状 因为文本分类可以极大程度地增强人们对海量信息的处理能力,早在上世纪中叶, 有关文本分类的研究就已经开展起来。最早将词频统计的思想用于文本分类中的人是供 职于i b m 公司的h e l u h n ,他对此进行的研究具有丌创性的意义。相继许多学者在文 1 东北师范大学硕士学位论文 本分类领域进行了研究,并且取得一定成效。总结起来,可以将国外的研究大致上分为 四个发展阶段【2 l :1 9 5 8 年- 1 9 6 4 年称为第一阶段,对自动分类的可行性进行研究;e 1 9 6 5 - 1 9 7 4 称为第二阶段,进行自动分类的实验研究。1 9 7 5 - 1 9 8 9 称为第三阶段,自动 分类的实用性阶段研究;1 9 9 0 年至今称为第四阶段,因特网自动分类的研究阶段。至今, 在以下方面取得了不错的成果1 3 j : 一、向量空间模型的研究 s a l t o n 等人在6 0 年代末提出向量空间模型的概念,之后该模型得到广泛关注并且被 应用到诸多领域,如:信息检索、自动索引、文本分类等,目前在文本表示模型中已成 为最简便高效的代表【4 1 。它将文本的内容形式化表示为多维空间中的一个点,以向量的 形式表示出来。通过比较不同类型的文本分类系统,结果表明向量空间模型是文本分类 系统中语料库的表示形式中性能较好的表示模型。文本通过向量空间模型的形式化表 示,得以进行后续的文本处理,但是如何使向量空间模型精准地表达文本内容是该模型 的基础性问题。 p 二、对特征项的选择的研究 特征选择方法的基本思想是,首先确定评价函数,利用评价函数对每个原始特征项 进行计算评分,然后把评出的得分按分值由高到低排序,从中选取若干个分值偏高的特 征项。 在将特征项进行深入研究分析的基础上,a n d r e w 和l e w i s 联合相关研究人员通过 r e u t e r s2 1 5 7 8 等标准语料库进行实验后取得的结论为:文本分类时,将w o r d s 优化合并 后作为特征项会取得最佳效果【5 1 。此外,也有不少学者试图定义自己的文本表示空间突 破了以上提到的特征项选择空间,这其中典型的有s a ms c o t t ,他根据自己预先定义的 符号系统中的符号信息结合w o r d s 来进行文本的表示,这个方法具有一定的成果【刚。 三、较完整的分类算法研究 国外在很早的时候就开始文本分类算法的研究,并且研究相对比较完整。文本分类 属于机器学习的一个分支,因此,文本分类的算法是在许多经典的机器学习算法基础上 演变而来。这些算法都进行过相对详细的研究,如:b a y e s 、s v m 、r o c c h i o 、k n n 、神 经网络等【7 1 ,国外研究人员的研究主要集中在英文文本基础上,并且对分类领域的各个 关键问题中的常用方法进行了相当深入的研究和对比。整体看来,这些算法在分类性能 上差别不大,很多相关研究表明k n n 和s v m 是英文文本分类的最好方法。 四、测试语料库的建立 国外学者建立了标准的测试语料库,这其中应用比较广泛的有:r e u t e r s2 1 5 7 8 语 料库;n e w s g r o u p s 语料库;w e b k b 语料库等。 五、较为规范的测试方法 国外学者在传统的测试指标基础上增添了更为细致的测试指标,将测试方法进行了 较为规范的定义。这些方法中以l e w i s 提出的分析方法较为典型,其作为一套相对完整 的方法不仅在测试系统的整体性能时表现优越,同样在多训练文本类和少训练文本类的 分类性能上给出较为科学的分析i 刀。,0 2 东北师范大学硕士学位论文 六、某些特定的信息服务领域对文本分类技术的应用 国外的分类系统已经走出初始研究阶段,在电子会议、信息过滤、邮件分类等方面 得到了广泛的应用。还可以在用户个性化服务系统中应用文本分类技术,先考察用户感 兴趣的资源并对其跟踪,根据跟踪结果对广大的信息资源进行类别判别,从而为用户提 供准确的信息服务。 1 2 2 国内研究现状 在文本分类领域的研究国内与国外相比,可以说起步较晚,由于极大的差异性在汉 语和外语语言之间难以合理有效的消除,因此国外的研究成果并不适用于我国,自主研 发适合中文的文本自动分类系统势在必行。我国自动分类研究的过程大体上可分为三个 阶段,可行性探讨阶段,辅助分类阶段和自动分类系统阶段。国内的研究是在借鉴相对 较成熟的外文文本分类研究的基础上结合汉语文本的自身特点,采取相应策略形成应用 于中文领域的中文文本自动分类研究体系。 国内研究较多的方面是文本表示模型和文本分类算法,其中著名的研究是不仅采用 n g r a m l 8 l ( n 取1 ,2 ,3 ,4 ) 信息对文本进行表示,并且将其应用到文本分类系统中。 在文本分类中,对于领域无关性和时间无关性的问题通过该方法得到了实现,在实现过 程中,由于它没有用到词典和分词,这一点作为其优势使系统摆脱了对词典和分词的依 赖,并且效果喜人【9 j 。文献 1 0 使用概念推理网进行了文本分类的研究。文献 1 1 中构 造了一个基于机器学习的、独立于语种的文本分类模型。对于不含关键词的子模式,采 用m a r k o v 模型来对其信号幅度进行估计,在此基础上生成一个待分类文本的特征序列。 文献 1 2 用b o o s t i n g 来组合决策树( s t u m p s ) 的方法进行文本分类。文献 1 3 从信息粒度 的角度来剖析聚类和分类技术,尝试使用信息粒度原理的框架来统一聚类和分类。 虽然我国在文本分类的研究,取得了一定的成果,但是由于汉语本身的特点,仍然 存在很多亟待解决的问题,如缺少统一的大规模数据集、分词效果不理想、特征提取的 算法及文本分类算法的研究不够完整、测试标准不统一等问题。研究并解决这些问题是 开发出实用化的中文文本自动分类系统的必要前提。 近年来,文本分类由理论研究阶段逐步进入实际应用阶段,各种分类方法也逐渐显 现出自己的优势与不足,实际应用中单纯使用一种分类方法分类效果往往不理想。因此 学者们对多种分类方法的融合进行了广泛的研究,取得了一系列研究成果。面对同一个 文本信息,采取组合分类器的方式对其进行处理,然后将每个分类器得出的结果整合, 根据整合结果确定最终的分类结果。研究表明,作为一个新方法,它可以提高分类器的 性能1 1 4 n 1 5 l 。目前,对分类器进行详细研究并且提出新思路的科研机构和高校主要有中国 科学院、清华大学、复旦大学、东北大学等,他们的研究都取得了些许成果1 1 6 l 。 1 3 本文主要研究内容 作者在对文本分类的研究现状及存在问题进行全面阅读及分析后,结合东北师范大 3 东北师范大学硕士学位论文 学理想信息技术研究院“长春市市长公开电话智能综合服务网络 这个项目,其中如何 对系统收集到的市民投诉信息有效分类的问题进行研究。工作流程概括为:将系统收集 到的市民投诉信息划分到关联的类别,进而将投诉信息发送到相应的政府部门,使投诉 信息在恰当的政府部门得到处理。该项目中原始的分类系统是基于统计方法建立的,现 已投入到了实际应用中,并且取得了一定效果。但是,原系统以概率理论为基础,这样 无疑忽略小概率事件的发生,在实际应用中分类准确率不理想的缺点日益凸显。为了提 高分类系统的分类准确率,本文的工作致力于通过对相关技术和方法的研究,在原系统 的基础上寻求有效的改进方法,并且结合改进方法设计并实现一个文本分类系统。基于 上述的项目背景和研究目标确定了本文的主要研究工作,概括为:1 系统的框架设计; 2 面向投诉领域的基于关键词组的分类体系库的构建,之所以采用“关键词组的形式 是因为关键词组与关键词相比可以更准确地表达信息,从而提高分类准确率;3 基于文 本分类语料库的模糊词典的构建,通过模糊词典的形式对分词词典中的同义词进行扩 展,以提高分词效率:4 研究了文本自动分类系统常用的最大匹配分词算法和州分类 算法。实施这项工作的意义在于协助政府最大程度地达到“专事专办 ,提高政府工作 效率,减轻人员开支。 系统的任务描述为:在已经建立的分类体系下,根据系统收集的文本投诉信息,自 动将这段文字分类到与其关联的类别里面。本系统将收集到的投诉信息作为系统的输 入,这些信息以文本形式表示需要进行分类处理,系统的输出是这个文本投诉信息经过 分类处理所得到的与其相关联的类别。文本分类在数学角度上被理解成是一个映射过 程,该映射是将待分类的文本映射到所属预先确定的分类体系下的类别中的过程,即在 文本上标注与其适合的类标签的过程。文献 1 7 将一个二元组对一个布尔值的映射任 务理解为文本分类,这就是它的形式化定义。由此可见文本分类就是要找到一个适合的 函数,并且能够将未知类别的文本通过该函数尽可能准确地将其分类是分类系统的关键 所在。 利用文本分类技术可以建立起一个自动的文本分类系统,此系统与人工分类比较具 有以下特点: 一、较高的分类效率。与人为劳动的分类相比自动分类系统的分类速率将提高成百 上千倍,自动分类系统的应用会取代大量人为劳动,精简人力。 二、较高的分类准确率。人类个体之| 日j 认知差异,人为错误等无疑会降低分类准确 率,自动分类系统消除类似人为因素对系统分类性能的负面影响。 三、自适应性良好。根据文本及类别信息的变化,自动分类系统可快速做出反应, 以适应不同环境及需求。 1 4 论文组织结构 本文共分六章,文章结构如下: 第一章对文本自动分类的研究背景、研究意义、国内外研究现状进行分析。阐述了 4 东北师范大学硕士学位论文 本文的主要研究工作及研究意义。介绍了本文的整体组织结构。 第二章首先概要介绍了文本自动分类的任务和文本自动分类的一般过程,在此基础 上,分析阐述了分类过程中用到的主要技术和方法,为后续章节的讨论做理论和技术上 的准备。 第三章研究了面向投诉领域文本分类体系库的框架体系、组成结构和构建方法,及 数据库的索引机制。并对基于关键词组的分类体系库的形成进行深入研究。建立了模糊 词典。 第四章详细介绍了本文应用的自动分词算法,并且在歧义检验方面有较深入的研 究。在分类算法方面,研究了基于关键词组的改进k n n 算法的应用。 第五章介绍了系统的总体设计思路,阐述了系统的结构和模块的设计,以及系统的 开发和运行情况,并对运行结果进行分析。 第六章总结了本文的研究工作,并对今后的研究做出了展望。 5 东北9 币范大学硕士学位论文 2 文本分类理论与技术基础 本章将介绍文本分类的基本概念、基础理论以及文本自动分类中所涉及的技术。 2 1 文本分类基本概念 一般情况下这样描述文本分类的概念:首先根据实际情况预先定义分类体系,依据 该体系,通过对待分类文本信息的内容进行分析处理,依据相应分类体系自动确定待分 类文本与其关联类别的对应关系,将待分类处理的文本信息作为系统的输入,将与文本 信息相关联的类别作为系统的输出。文本分类在数学角度上可以理解成一个映射过程, 通过映射将待分类的文本映射到所属预先确定的分类体系下的类别中,当一个文本与一 个类别相关时,文本和类别形成一对一的映射关系,当一个文本与多个类别相关时,文 本和类别形成一对多的映射关系。可以将其形式化的表示为: f :a 呻口其中a 为待分类的文本信息集合,b 为类别的集合。 在文本分类过程中,映射规则通过以下过程形成:首先对每个类别收集若干样本数 据信息,系统通过对样本信息的训练总结出相应的分类规律,在对分类规律进行研究分 析的基础上建立起判别公式和判别规则。当系统在遇到待分类的新文本时,系统以训练 过程总结出的判别规则为依据,对新文本进行类别判定。 2 2 文本分类涉及的主要技术及方法 2 2 1 文本自动分词 众所周知,单词是英文中最小的单位,单词和单词之间是用空格隔开,所以计算机 很容易把一句英文句子分个成一个一个的单词,而中文句子中所有的字连起来才能描述 一个意思,将中文句子里面的每个字单独分离出来就失去了它的意义。中文分词就是把 中文的汉字序列切分成有意义的词的过程。 自动分词是对中文文本进行分析的第一个步骤,是后续分析工作的基础,它提供的 数据可以用于后续处理。中文文本信息处理过程将自动分词作为基础,分词的结果直接 影响到后续的处理过程,因此自动分词是智能化中文信息处理的关键。进行中文文本信 息的处理时,都要以词为基本单位1 1 8 l 。因此,中文文本自动分类的首要任务就是对中文 文本进行分词处理,文本中词汇切分的成功与决定着智能化信息处理的结果。 一、文本自动分词方法 总结当前研究较深入分词算法可将它们归纳为:以字符串匹配为基础的分词算法、 以统计为基础的分词算法和以理解为基础的分词算法。 6 东北师范大学硕士学位论文 ( 一) 基于字符串匹配的分词算法 该方法又叫做机械分词算法。该算法的基本思想是预先建立一个充分大的机器分词 词典,将待分类的文本信息与词典中的词条按照一定的策略进行配,若找到与其相吻合 的词,我们认定为匹配成功,既而将这个词识别出来。根据不同的扫描方向,该方法分 为正向匹配法和逆向匹配法;根据优先匹配的长度不同,又分为最大( 最长) 匹配法和 最小( 最短) 匹配法;根据与词性标注过程相结合的不同情况,还可以分为单纯分词方 法和一体化的分词与标注相结合的方法。 常用的几种机械分词方法有【1 9 l : 1 正向最大匹配法( m a x i m u mm a t c h i n gm e t h o d ,m m 法) : 2 逆向最大匹配法( r e v e r s em a x i m u mm e t h o d ,r m m 法) : 3 二者结合的双向匹配法( s i d i r e c t i o nm a t c h i n gm e t h o d ,b m 法) 。 ( 二) 基于统计的分词算法 这种算法的主要思想是,正常情况下词语是通过字的组合而形成的,倘若我们对相 邻的字在上下文中同时出现的情况进行考察,它们构成词的可能性随着同时出现的次数 的增加而增大。因此字与字是否成词的可信度可以采用它们相邻共现的概率来反映。两 个字的互现信息进行定义,对语料库中各个字的相邻共现情况进行分析考察,对他们的 频度做统计计算,根据统计结果计算它们之间的互现信息,两个字的互信息说明的就是 它们的共现概率。互信息量越大,说明两个字越紧密。预先设定某一个阈值,当两个字 的互信息高于阈值时,我们判定它们构成了一个词。这个分词方法通过对语料库中字的 组合频度进行统计计算,这个过程不依靠词典,基于这个原因,无词典分词法和统计取 词方法是它的另外两个名字。 在消除歧义这个问题上基于统计的分词算法具有自己的优势,但是在一定程度上这 种方法不可避免地具有它的局限性。比如对于一些常用字组,它们并不构成词,仅仅因 为这些常用字组的共现频度高就把它们抽出,这样自然影响系统对常用词的识别精度, 具有时空复杂度大的缺陷。所以为了取得更好的分词准确率实际应用中统计分词系统往 往结合串匹配方法使用,可借助分词词典进行串匹配,亦可使用统计方法识别一些新的 词,即将串频统计方法中消除歧义的优点和串匹配方法中匹配词切分速度快、效率高的 特点结合起来,互补缺憾。 ( 三) 基于理解的分词算法 该方法是通过模拟计算机对句子的理解过程,在对语句理解的i i 提下来进一步完成 对词的识别。其基本思想就是在分词的同时进行句法、语义分析,在分词过程中产生的 歧义现象利用句法信息和语义信息来处理。分词子系统、句法语义子系统和总控部分是 其基本组成部分。将人对句子的理解过程进行模拟,通过总控部分分词子系统获得相关 的句法和语义信息,然后根据所获信息对分词歧义进行判断。丰富的语言知识和信息资 源是以理解为基础的分词方法进行分词的前提,我们都知道汉语语言知识本身是极其复 杂的,所以将中文文本信息转换成易于机器读取的形式是很难的,由此可知,目前以理 解为基础的分词系统尚在试验阶段。 7 东北师范大学硕士学位论文 近年来还出现了人工神经网络分词方法,但是在语法、语义分析尚未得到充分解决 之前,人工神经网络方法尚未得到很好的利用。 二、现有分词方法的局限 现有的分词算法虽然在实际应用领域得到很大程度的肯定,但是尚不能完全解决中 文分词中的问题。因为无论是机械方法还是语义方法都不可避免的具有局限性: ( 一) 分词效率不高。主要指分词速度和分词精度之间的矛盾。 ( 二) 歧义的难以完全消除。在分词过程中,当一句话有两种或者更多的切分方法就 会产生歧义。具有两种或两种以上切分形式的字段称为歧义字段,歧义字段主要分为两 类:交集型歧义切分字段和多义组合型歧义切分字段。在以词典为基础的分词方法中歧 义现象的产生是不可避免的,经过相关研究可将其减少,但是不可能完全消除【1 6 1 。 ( 三) 如何识别未登录词。未登录词是确确实实的词,但是这些词在预先建立的分词 词典中并不存在。通常来讲未登录词主要包括人名、机构名、产品名、商标名、简称、 地名及省略语等,虽然这些词都是人们十分常用的,但是对它们的识别存在很难有效处 理的问题。因此,目前评价一个分词系统好坏的重要标志之一就是未登录词识别的准确 率。 2 2 2 文本表示 在文本分类系统中,计算机面对的是非结构化的自然语言文本,由于计算机只认识 0 和l ,所以并不能识别出它们的内容,因此对这些自然语言文本进行形式化处理是对 它们进行分类处理的前提,形式化处理就是把无结构的自然语言文本转化成机器能够识 别的形式,一般地将形式化处理的结果称为文本表示。在文本表示过程中,将文本通过 特征或特征项的形式表示出来,为进一步的处理做准备,所以文本的特征或特征项是文 本表示的基本单位。当前有多种特征表示模型,目前通常采用的有1 2 1 l 向量空间模型 ( v e c t o rs p a c em o d e l ,v s m ) 、概率模型( p r o b a b i l i s t i cm o d e l ) 和布尔模型( b o o l e a n m o d e ) 。下面分别对这三种模型进行分析比较。 一、向量空间模型 向量空间模型( v s m ) 是由g e r a r ds a l t o n 和m c g i l l 在1 9 6 9 年提出的,由于该模型具 有良好的计算性又易于操作所以它取得了很好的使用效果,并且应用范围广泛1 2 2 1 ,最初 在信息检索领域应用到了向量空间模型,后来该模型又在文本分类领域得到广泛应用。 向量空间模型将文本映射为一个特征向量:( m ,w 2 ,) ,其中m 为第i 个特征项的 权重,向量空间模型将文本映射为一个特征向量 ,似) = ( m p ) :;t 。,w n ( d ) ) ,其 中t i o 一1 2 。j 1 ) 为一列词条项代表在d 中的权值,并且互不相同,一般被定义为i 在d 中 出现频率坑似) 的函数,即w f 似) 一妒何似) ) 。t f - i d f 函数经常用于进行词条权值的计算, 全部文本的数目用n 表示,n 。为含有词条t i 的文本数目。常用的吓一i d f 公式为: r 东北师范大学硕士学位论文 ( 2 - i ) 根据t i m i d f 公式可知,当某一词条在文本集中越多个数量的文本中出现的时候, 说明这个词条对文本类别的判断贡献越低,所以对它负以越小的权值;当某一词条以越 高的频率出现在一个文本中时,说明这个词条对文本类别的判断贡献越大,所以对它赋 以越大的权值。两个文档向量之间的夹角余弦表示它们之间的相似度,即文档讲,巧的 相似度可以表示为: s 咖“砌= c o s 娥d j ) = 一 善 ( 2 - 2 ) 向量空间模型的优点在于1 2 3 】:( 1 ) 标引词加权改进了检索效果;( 2 ) 其部分匹配策略 允许检出与查询条件相接近的文献;( 3 ) 利用余弦公式,根据待测文献与训练文献之间 的相似度对其进行排序。向量空间模型与其他的检索模型相比,具有简单、便捷、分类 性能好的优点,已成为当今应用最广泛的模型。 向量空间模型的缺点1 2 4 j 在于项之间线性无关的假设。在自然语言中,词或短语之间 存在着十分密切的联系,即存在“斜交 想象,很难满足假定条件,因此会对计算结果 的可靠性产生影响。此外,将复杂的语义关系归结为简单的向量结构,亦丢失了许多有 价值的线索。因此,有许多改进的技术,来获得深层潜藏的语义结构。 二、概率模型 概率模型陋】将文本集中的文本分为相关和无关两大类,这个分类结果是依据对词 与词之间的相关性的考察结果得出的,该方法的基本原理为数学理论中的概率论,特征 词在相关文档和无关文档中出现的概率通过对这些词赋予某种概率值来表示,然后系统 根据计算文档间相关概率的结果进行后续的处理。将严格的数学理论作为基础并且以此 为依据进行匹配是合理使用概率模型的前提,这一点正是该方法自身的优点。与此相反 的是它的缺点,这种方法使计算机的存储和运算开销增加,且参数估计难度较大。 三、布尔模型 布尔模型( b o o l e a nm o d e l ) 是以集合论和布尔代数为基础的一种简单常用的严格匹 配模型,文本通过布尔表达式来表示,通过与用户给出的检索式进行逻辑比较来检索文 档。在标准的布尔模型中,文档采用如下的表达形式【1 9 j : d j - ( m l ,w i 2 ,a ,k , ,w 0 ) ( 七一1 2 ,a ,n ) ( 2 3 ) 其中n 表示特征项个数,取值为0 和l ,用来表示第k 个特征项在文档i 中是否 出现。向量模型的一种特例即为柿尔模型,文本中出现特征将其权值取1 ,反之取o 。 仰尔模型具有易于实现的特点,在文本分类领域,其查准率和查全率相对较差。 9 东北师范大学硕士学位论文 2 2 3 文本的特征选择与提取 在对文本进行分类处理时,如果特征项用词来表示,根据分类流程首先将文本集经 过分词得到词集,由于停用词不具实际意义,所以停用词从词集中去除得到特征集,此 时的特征集具有很高的维度,维度过高无疑会影响处理效果,目前的大多数分类算法在 这方面处理效果都不理想。因此,我们需要对特征项进行取舍来降低特征空间的维数, 从而提高分类的效率。所谓特征选择是指从最初的n 个特征中选取t ( t p ( eix 姐_ sm ,j 一i ( 2 1 1 ) 这样,最大化p ( gi x ) 。其中p ( ql x ) 最大的类g 称为最大后验假定。根据贝叶 斯定理p ( c 。ix ) 一旦紫计算。 3 因为p ( x ) 对所有类均为常数,所以只需要p ( xi c i ) p ( c i ) 最大即可。如果类的先 验概率未知,则通常假定这些类是等概率的,即p ( c 。) p ( c :) 一- 尸( c ,) 。并以此为 依据对p ( qix ) 最大化。否则,最大化p ( c ;ix ) 尸( q ) 。其中,类的先验概率可以用 p ( c i ) 一q s 计算,其中毛是类c ic 中的训练样本数,而s 是所有训练样本总数。 4 给定具有许多特征项的数据集,计算p ( xig ) 的开销可能非常大。为了降低计算 p ( xlc i ) 的丌销,可以做类条件独立的朴素假定。给定样本的类标号,假定特征项相互 条件独立,即在特征项l 日j 不存在依赖关系。这样得到 p ( x l c r ) 。u p i c t ) 2 也) 概率p ( x 。ic f ) ,p o 。fc ,) 可以由训练样本估值,其中:如果是a k 分类属性,则 东北师范大学硕士学位论文 e ( x kic ;) = s 雎s ,其中是在属性4 上具有值以的类g 中的训练文本数,而墨是c 中 的训练文本数。 5 对未知文本x 分类,对每个类q 计算尸( xlc ) p ( e ) 。文本x 被指派到类c ,当 且仅当 e ( xic f ) p ( c ;) ) p ( xic ,) p ( c ,) 1s ,sm ,j f ( 2 一1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北京市2025商务部投资促进事务局招聘13人笔试历年参考题库附带答案详解
- 八公山区2025安徽淮南八公山区老年学校(大学)工作人员特设岗位招聘1人笔试历年参考题库附带答案详解
- 乌当区2025贵州乌当区农业农村局招聘驻嘉旺屠宰场动物检疫协检人员笔试历年参考题库附带答案详解
- 黔西南布依族苗族自治州2025贵州黔西南州贞丰县事业单位引进高层次人才和急需紧缺人才25人笔试历年参考题库附带答案详解
- 2025浙江温州市鹿通文化旅游有限公司招聘11人笔试参考题库附带答案详解
- 2025年河北石家庄市供热管理集团有限公司劳务派遣制人员14人笔试参考题库附带答案详解
- 2025年广西盐业集团公开招聘18人笔试参考题库附带答案详解
- 2025年国网青海省电力公司高校毕业生招聘(第二批)调剂笔试参考题库附带答案详解
- 2025年中国铁路南宁局集团有限公司招聘高校毕业生73人三(本科及以上学历)笔试参考题库附带答案详解
- 2025年2月云南思茅产业园区紧缺人才127人笔试参考题库附带答案详解
- 产科护理教学比赛课件
- 2025年芜湖市鸠江区村级后备干部集中招录工作101名考试参考题库及答案解析
- 2025年美容整形师专业知识考核试题及答案
- 2025年茶粉行业研究报告及未来行业发展趋势预测
- 培训民警拍照宣传课件
- 2025一建《建设工程项目管理》冲刺361题
- 人教版二年级数学上册第二单元 1~6的表内乘法必刷卷 (含答案)
- 抖音账号实名认证承诺函模板
- (2025年标准)以捐代购协议书
- GJB3165A-2020航空承力件用高温合金热轧和锻制棒材规范
- 颈部引流管的护理
评论
0/150
提交评论