(计算机软件与理论专业论文)基于科技文献的中文文本分类算法研究.pdf_第1页
(计算机软件与理论专业论文)基于科技文献的中文文本分类算法研究.pdf_第2页
(计算机软件与理论专业论文)基于科技文献的中文文本分类算法研究.pdf_第3页
(计算机软件与理论专业论文)基于科技文献的中文文本分类算法研究.pdf_第4页
(计算机软件与理论专业论文)基于科技文献的中文文本分类算法研究.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(计算机软件与理论专业论文)基于科技文献的中文文本分类算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 文本分类最初是应文本信息检索的要求出现的,但是随着文本数据的 激增,传统的分类研究方法己经不适合大规模文本分类,于是文本数据挖 掘应运而生。作为文本数据挖掘的一个重要功能,文本分类技术日益成为 研究热点。 科技文献的行文和格式都有规范的特点,但其科技文献的自动分类问 题却没有得到足够的关注;与此同时,科技文献分类问题的需求却与日俱 增。针对这一现实需求,本文以计算机类科技文献为例,对科技文献的分 类问题进行了深入研究。 首先,对中文文本分类算法进行了深入研究,从分类算法的应用和分 类效果角度出发,分析了各个算法的分类思想、文本预处理方法、特征项 的选择和特征提取方法以及算法实现关键步骤等,并提出了评价和分析几 个分类算法的定理和方法。 其次,分析了科技文献的行文规范特点,提出了关键词抽取算法。科 技文献的标题、关键词和摘要部分很精简的反映了文章的核心内容,同时 与文档主题内容不相关的描述很少,算法直接从该部分内容抽取关键词集, 取代了传统文本分类算法的中文分词。 然后,提出了一种基于科技文献的文本分类算法,实现了对计算机类 科技文献的层次化分类。应用科技文献自身明显的层次关系结构特点,抽 取各个类别文档的关键词集,构建层次化分类模型,有效地提高了科技文 献的分类精度。 实验结果充分表明,所提出的层次化分类算法的分类效果明显优于传 统的平面化分类算法,有更高的准确率和查全率。 关键词文本分类;向量空间模型:分词;特征选择;权重 燕山大学工学硕士学位论文 a b s t r a c t t e x tc a t e g o r i z a t i o na p p e a r si n i t i a l l yf o rt e x ti n f o r m a t i o nr e t r i e v a ls y s t e m s ; h o w e v e rt e x td a t ai n c r e a s c ss of a s tt 1 1 a tt r a d i t i o n a lr e s e a r c hm e t h o d sh a v eb e e n i m p r o p e rf o rl a r g e s c a l et e x tc a t e g o r i z a t i o n s ot e x td a t am i n i n ge m e r g e s ,a n d t e x tc a t e g o r i z a t i o nb e c o m e sm o r ea n dm o r ei m p o r t a n ta sam a j o rr e s e a r c hf i e l d o f i t c o n t e n ta n df o r m a tt e c h n i c a lt e x th a ss p e c i a lc h a r a c t e r i s t i c h o w e v e la s o n ek i n do fs p e c i a lt e x t t e c h n i c a lt e x tc a t e g o r i z m i o no n l yg o tl i t t l ea t t e n t i o n a tt h es a m et i m e ,t h en e c e s s i t yf o rt e c h n i c a lt e x tc a t e g o r i z a t i o ni n c r e a s e s s t e a d i l y c o n s i d e r i n ga b o v es i t u a t i o n , w ep r o p o s e ds t u d yo nc o m p u t e rt e c h n i c a l t e x tc a t e g o r i z a t i o n f i r s t l y , c h i n e s et e x tc a t e g o r i z a t i o na l g o r i t h m sa l es t u d i e df r o ma l g o r i t h m s a p p l i c a t i o na n dc l a s s i f i c a t i o ne f f e c t s c a t e g o r i z a t i o nt h o u g h t ,t e x tp r e t r e a t m e n t m e t h o d s ,f e a t u r ev e c t o r ss e l e c t i o na n df e a t u r er e p r e s e n t a t i o nm e t h o d so fa l l k i n d so fa l g o r i t h m sa l ea n a l y z e d a tl a s tt h e o r e m sa n dm e t h o d so fe v a l u a t i o n a n dc o n t r a s ta l lk i n d so f a l g o r i t h m sa r ep u tf o r w a r db a s e do nt h i sc o n t e n t s e c o n d l y , s p e c i a lc h a r a c t e r i s t i c so ft e c h n i c a lt e x ta l ea n a l y z e d ;k e y w o r d s r e p r e s e n t a t i o ns e l e c t i o na l g o r i t h m s a r ep u tf o r w a r d t i t l e s ,a b s t r a c ta n d k e y w o r d so ft e c h n i c a lt e x ts i m p l yr e s p o n s et ot h em o s ti m p o r t a n tc o n t e n to f t e x t , a n dh a v el i t t l et h ed e s c r i p t i o no fi r r e l e v a n c e a l g o r i t h m ss e l e c tk e y w o r d s f r o mt h i si n f o r m a t i o n ,r e p l a c eo f c h i n e s es e g m e n t a t i o n t h i r d l y , ac h i n e s et e x tc a t e g o r i z a t i o na l g o r i t h mb a s e do nt e c h n i c a lt e x ti s p u tf o r w a r d c o m p u t e rt e c h n i c a lt e x th i e r a r c h i c a lc a t e g o r i z a t i o n sa r er e a l i z e d i tb a s e sc h a r a c t e r i s t i co ft e c h n i c a lt e x t , s e l e c t sk e y w o r ds e t sf r o m m a i n i n f o r m a t i o n ,a n da p p l i e sh i e r a r c h i c a lm o d e lc o n s t r u c t i n ga l g o r i t h ma n da u t o t e x tc l a s s i f i c a t i o na l g o r i t h mt oc h i n e s et e c h n i c a lt e x tc a t e g o r i z a t i o n t h i s i i a b s t r a e t a l g o r i t h m c a ni m p r o v ec a t e g o r i z a t i o np r e c i s i o n e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ea l g o d t h m sp r o p o s e di nt h i sp a p e ra r e m o r ee f f i c i e n tt h a nt h ec u r r e n to n e s ,a n dh a v em u c hh i g h e rp r e c i s ea n dr e c a l l k e y w o r d st e x tc a t e g o r i z a t i o n ;v e c t o rs p a c em o d e l ;w o r ds e g m e n t a t i o n ; f e a t u r es e l e c t i o n ;w e i g h t i 燕山大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文基于科技文献的中文文 本分类算法研究,是本人在导师指导下,在燕山大学攻读硕士学位期间独 立进行研究工作所取得的成果。据本人所知,论文中除己注明部分外不包 含他人己发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个 人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人 承担。 作者签字王蚀& 日期:砂司年弓月弘) 日 燕山大学硕士学位论文使用授权书 基于科技文献的中文文本分类算法研究系本人在燕山大学攻读硕 士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕山 大学所有,本人如需发表将署名燕山大学为第一完成单位及相关人员。本 人完全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并向 有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授 权燕山大学,可以采用影印、缩印或其他复制手段保存论文,可以公布论 文的全部或部分内容。 本学位论文属于 保密口,在年解密后适用本授权书。 不保密匠k ( 请在以上相应方框内打“4 ”) 作者签名:王飧文 导师签名: 履啧 日期:加年狷加日 日期:二j ! 年 月劢日 第1 章绪论 第1 章绪论 1 1 文本自动分类研究的背景和意义 分类最初是应信息检索( i n f o r m a t i o nr e t r i e v a l ,简称i r ) 系统要求而出现 的,是数据挖掘应用领域的重要技术之一【”。随着全球计算机与通讯技术 的飞速发展、互联网的普及与应用,信息爆炸的现实使人们越来越注重对 分类的研究,文本分类及其相关技术的研究也日益成为一项研究热点。 信息检索系统操纵大量的文本数据,其文本信息库可能相当庞大。如 何在海量文本信息中获取潜在的、有价值的知识,模型或规则? 这就需要 引入文本数据挖掘概念。数据挖掘是从大量的文本数据中提取出事先未知 的、可理解的、可应用的信息和知识的过程【2 1 。文本数据挖掘是以文本数 据为挖掘对象的数据挖掘,它的原则和目标是根据决策目标,分析海量文 本数据、确立分析方法、构建数学模型、定制应用系统、提供决策支持【3 1 。 网络信息的激增一方面增加了对于快速、自动分类的迫切要求,另一方面 为基于机器学习的文本分类方法准备了丰富的资源。 文本自动分类系统的目标就是对文本集进行有序组织,把相似、相关 的文本组织在一起。它作为知识的组织工具,为信息检索提供了更高效的 搜索策略和更准确的查询结果。 传统人工分类有许多弊端,不仅是耗费大量人力、物力和精力,而且 存在分类结果一致性不高的问题。甚至同一个人,在不同时间作分类也可 能有不同的分类结果。采用文本分类技术建立的自动分类系统,相对人工 分类有以下特点。 ( 1 ) 分类效率高自动分类的效率将是人工分类的百倍甚至千倍,从而 大量的节约人力消耗。 ( 2 ) 准确度高文本自动分类技术与人工分类技术相比较,其极大地消 除了人为错误产生的可能。 燕山大学工学硕士学位论文 ( 3 ) 良好自适应性文本自动分类技术有良好的自适应性,可快速适应 文本的更新及类别设置变化,适应不同环境及需求。 ( 4 ) 可扩充性文本分类系统可为研究分类算法提供实验平台,促进文 本分类实用化和不断扩充。 1 2 文本自动分类技术的发展现状 本节介绍文本自动分类技术的国内外发展现状。 1 2 1国外研究状况 国外文本分类的研究开始较早,2 0 世纪5 0 年代末,美国i b m 公司鲁 恩( h 。p l u g ) 撰写文献处理机械化编码和检索用的统计学方法等一系 列文章,对这一领域进行开创性研究,提出将词频统计思想用于自动分类。 1 9 6 0 年,m a r o n 发表关于自动分类的第一篇论文。随后,众多学者在这一 领域进行研究,如k s p a r k 、g s a h o n 、r m n e e d h a m 、m e l e s k 等。1 9 6 4 年,m o s t e l l e r 和w a l l a c e 4 在鉴别文章作者身份的工作中开创了文本分类的 新阶段,他们考虑单词、句子长度、功能词的频率和词汇差异等特征项。 1 9 7 1 年,r o c c h i o 提出了在用户查询中不断通过用户的反馈来修正类 权重向量,构成简单的线性分类器。m a r k v a n u d e n 、m u n 等给出了其它的 一些修改权重的方法。1 9 7 9 年,v a i lg i j s b e r g e n 对信息检索领域的研究做 了系统的总结,其中关于信息检索的一些概念,如向量空间模型( 、,e c t o r s p a c em o d e l ) 和准确率( p r e c i s i o n ) 、查全率( r e c a l l ) 等评估标准,后来被陆续 地引入文本分类中,文中还重点的讨论了信息检索的概率模型,而后来的 文本分类研究大多数是建立在概率模型的基础上。 1 9 9 2 年,l e w i s 博士论文( r e p r e s e n t a t i o na n dl e a r n i n gi ni n f o r m a t i o n r e t r i e v a l ) 中系统介绍了文本分类系统实现方法的细节,并自己建立数据集 r e u t e r s 2 2 1 7 3 ( 后来去掉重复的文本修订为r e u t e r s 2 1 5 7 8 数据集) 进行测试。 这篇博士论文是文本分类领域的经典之作。后来的研究者在特征降维和分 类器设计方面作了大量工作,y i m i n gy a n g 对各种特征选择方法,包括信 2 第l 章绪论 息增益( i n f o r m a t i o ng a i n ) 、互信官, ( m u t u a li n f o r m a t i o n ) 、x 2 统计量等从实验 上进行了分析和比较。她在1 9 9 7 年还对文献上报告的所有文本分类方法进 行了一次大阅兵,在公开数据集r e u t e r s 2 1 5 7 8 和o h s u m e d 上比较了各个 分类器的性能,对后来的研究起了重要的参考作用。 1 9 9 5 年,v i p n i k 基于统计理论提出支持向量机( s u p p o r tv e c t o rm a c h i n e ) 分类方法,基本思想是寻找最优的高维分类超平面。它以成熟的小样本统 计理论作为基石,因而在机器学习领域受到广泛重视。t h o r s t e nj o a c h i m s 第一次将线性核函数的支持向量机用于分类,与传统算法相比,s v m 在分 类性能上有了很大提高,并在不同的数据集上显示了算法的鲁棒性。至今, s v m 的理论和应用仍是研究热点。在其出现同时,1 9 9 5 年及其后,以y o a v f r e u n d 和r o b e r te s c h a p i r e 发表的关于a d a b o o s t 的论文为标志,机器学习 算法研究出现了另一个高峰。r o b e r te s c h a p i r e 从理论和实验上给出 a d a b o o s t 算法框架的合理性。其后的研究者在此框架下给出许多类似的 b o o s t i n g 算法,r e a la d a b o o s t ,g e n t l e b o o s t ,l o g i t b o o s t 等具有代表性。 这些算法被应用到文本分类的研究中,并取得和s v m 一样好的效果。 到目前为止,国外的文本分类研究已经从最初的可行性基础研究经历 实验性研究进入实用阶段,并在邮件分类、电子会议、信息过滤等方面得 到了广泛应用。其中比较成功的系统有麻省理工学院( m i t ) 为白宫开发的邮 件分类系统;卡内基集团为路透社开发的c o n s t r u e 系统;自动分类稿件的 文本分类器【5 】;自动分类w e b 页的文本分类器1 6 j ;自动跟踪用户阅读兴趣 的分类分析器【等。这些系统大多数都建立在向量空间模型基础上,着重 解决特征项选择和权重计算方案、机器学习算法等问题,以提高系统的性 能和效率。至今,在以下一些方面取得了不错的研究成果。 ( 1 ) 向量空间模型的研究日益成熟s a l t o n 等人在6 0 年代末提出的向 量空间模型在文本分类、自动索引、信息检索等领域得到广泛的应用,已 成为最简便高效的文本表示模型之一。通过不同文本分类系统的运行和比 较表明,向量空间模型是文本分类领域大规模语料库较好的表示模型。 ( 2 ) 特征项的选择进行了较深入的研究对于英法德等语种,文本可以 由单词、单词簇、短语、短语簇或其他特征项进行表示。a n d r e w 和l e w i s 燕山大学工学硕士学位论文 等学者对这些特征项进行了分析,并且在r e u t e r s 2 1 5 7 8 等标准语料库上进 行实验,做出了较一致的结论,使用优化合并后的单词作为特征项在文本 分类应用中效果最型”。此外,也有不少学者正在努力突破以上特征项选 择空间,定义自己的文本表示空间,例如,s a ms c o t 定义了一套符号系统, 利用单词和附加的符号信息表示文本,也取得了一定的成果【9 】。 ( 3 ) 完整的分类算法的研究和比较国外对于文本分类算法的研究开 展较早,也较完整。例如,b a y e s 、k n n 、k o c c h i o 、s v m 、神经网络等算 法【1 0 j 都有比较详细的研究和性能比较 1 1 , 1 2 j ,但是各位学者没有得到统一的 结论,总体而言,这些算法在分类性能上差别不大,以k n i t 和s v m 稍好。 ( 4 ) 存在比较标准的测试语料库例如,n e w s g r o u p s 语料库( 约2 0 0 0 0 多 篇文章2 0 个类别) ,w e b k b 语料库( 41 9 9 篇文章7 个类别) ,r e u t e r s2 15 7 8 语 料库( 2 15 7 8 篇文章1 3 5 个类别) 都在一定时期较为广泛的使用,而t r e c 也提 供了较为标准的语料库。 ( 5 ) 较为规范的测试方法国外学者在标准测试语料库上定义了较为 规范的测试方法,除了传统的测试指标外,还有一些更为细致的测试指标, 例如,l e w i s 给出了一套较完整的分析方法,不但测试系统的整体性能,而 且比较科学的分析了多训练文档类和少训练文档类的分类性能【1 3 1 。 ( 6 ) 逐渐开始研究未标记文档对文本分类系统的影响国外学者在整 理语料库的过程中发现收集及分类训练文档是极其费时、费力的过程,因 此提出了在训练文档不充足的情况下如何利用未标记文档提高文本分类系 统的性能,并且开展了一定的研耕1 4 】。 ( 7 ) 逐渐将文本分类技术应用到某些特定的信息服务中例如,将文本 分类技术应用到事件跟踪系统中,为用户( 主要是新闻媒体用户) 收集与事 件相关的文章,制作事件,专题节目【1 5 1 。 另外,将文本分类技术应用于用户个性化服务系统中,跟踪用户感兴 趣的文章,进行类别判别,为用户提供方便的信息服务【1 6 】。 1 2 2 国内研究状况 国内对于文本自动分类的研究起步比较晚,在1 9 8 1 年,侯汉清教授对 4 第】章绪论 于计算机在分类工作中的应用做了详细探讨,并且介绍了国外计算机管理 分类表、计算机分类检索、计算机自动分类、计算机编制分类表类等各个 方面的概况。此后,我国陆续研制出了一批计算机辅助分类系统和文本自 动分类系统。 1 9 8 6 年,上海交大电脑应用技术研究所的朱兰娟、王永成等开发的中 文科技文献( 计算机类) 实验性分类系统。该系统检索并累计特征词在类主 题表中的类归属度,采用b a y e s 分类准则,对每一篇文献计算相应的条件概 率,当该文献属于某一类的条件概率超过一定阈值的时候,就把它划分为 该类。但是由于该系统缺乏全文,并且没有摘要,以文献标题关键词来代 替文献特征词,形成特征向量进行分类,并且由于“类归属度表”难以获 得,类目事先确定,分类结构粗,不适合专用文献。 1 9 9 5 年,上海交大王永成与张琪玉教授和上海第二医学院有关专家合 作开发的以肿瘤学专业文献为例的自动分类系统。系统自动抽取文献标题 关键词并赋予分类号,根据有关专家编制的自动分类用关键词分类归属 表,获得关键词的规范化词作为特征词进行分类。该分类系统标引深度 较大,查准率较高,适合对专业文献的分类。但由于分类用主题词的权重 大小以及主次排列均由人为确定,因此分类的结果存在一定偏差,同时系 统优化困难。 1 9 9 5 年,清华大学电子工程系的吴军研制的汉语语料自动分类系统, 以语料相关系数作为分类依据,以字频、词频及常用搭配为补充,采用停 用词表排除非特征词,进行人工指导分类。 1 9 9 5 年,南京大学的苏新宁研制的档案自动分类系统,采用多因素加 权分类法,并且使用了聚类加权、判别归类以及责任者认证等多种手段来 力图获取正确的分类结果。 1 9 9 8 年,东北大学计算机系的张月杰、姚天顺研制的新闻语料汉语文 本自动分类模型,通过计算预定义类别和文本特征项之间相关性进行分类。 该方法的特征向量规范化,采用多重加权处理。2 0 0 0 年研究者对该分类系 统进行改进,为了提高精度,提出自顶向下,逐层分类,并根据概念词典, 将同义词映射到单一的概念词,缩小特征向量的维数,减小计算量。 燕山大学工学硕士学位论文 1 9 9 9 年,邹涛、王继成等开发的中文技术文本自动分类系统c t d s ( c h i n e s et e c h n i c a id o c u m e n tc l a s s i f i c a l i o ns y s t e m ) 采用了向量空间模型和 基于统计的特征词提取技术,能够根据文本的具体内容将待测试的文本分 配到一个或多个类别。 1 9 9 9 年北京系统工程研究所的何新贵、彭普阳研制的基于模糊技术的 中文本自动分类系统以及吉林工学院计算机系的许建明和胡明研制的文书 类档案的分类标引系统。 2 0 0 1 年中科院计算所软件研究室的智多星中文文本分类系统。 此外还有,m m 中国研究中心采用最新中文信息处理研究成果的深 思智能分类系统。 相比于英文文本分类,中文文本分类的重要的差别是在预处理阶段文 本的读取需要分词,不像英文文本的单词那样有空格来区分。目前作为一 种特殊的文本科技文献,行文具有典型的层次性【i ”,其分类问题还没 有得到足够重视。已有的研究成果有,2 0 0 0 年战学刚,姚天顺等在文献【18 】 中提出了中文文献的层次分类方法。根据类别体系之间的层次结构,自顶 向下,逐层分类的方法,其目的是提高文本分类的精度,通过对类别层次 体系的分析,压缩特征向量,从另一方面减少分类系统计算量。2 0 0 3 年刘 少辉,史忠植等在文献 1 9 】中提出了一种基于空间向量模型的多层次文本 分类方法。把各个类别按照一定的层次关系组织成树状构,并将一个类中 的所有训练文档合并为一个类文档,在提取各类模型时只在同层同一结点 下的类文档之间进行比较。2 0 0 4 年王怡,王继成等在文献 2 0 】中提出了基 于潜在语义分析的中文文本层次分类技术,采用潜在语义索引层次分类技 术,并与传统的层次分类技术进行了比较。2 0 0 4 年袁时金,周水庚等在文 献 2 1 】中提出了层次化文档分类,按照概念层次结构构建文档类别层次结 构树,将层次分类问题逐层分化为局部分类问题,在类别树的每一内部节 点分别建立分类器。2 0 0 4 年姚力群,吴高巍的论文一种基于层次结构的科 技论文分类模型【2 2 l ,适用于英文的科技论文分类。 近年来,关于层次化文本分类的问题逐步成为了国内外学者研究的热 点问题【2 4 2 7 1 ,但是大多数的文本分类方法只关注非层次化的“平面”型分 第1 章绪论 类。事实上,层次化分类较之平面分类更为实用、有效【2 8 q ”。 1 3 文本自动分类技术的应用价值 i n t e r n e t 上的应用。通过i n t e m e t 查找诸如书刊、论文、科研资料、会 议记录等时,要想在网上找到自己所需的资料并非易事。即使借助于专门 的搜索引擎( 目前大部分搜索引擎是按关键词搜索) ,精度和速度往往不能 令人满意,其检索结果经常包含许多无关的资料,采用文本自动分类技术 则可以提高分类的准确率和查全率。 电子邮件分拣中的应用。随着科技的发展,人们之间的交流和沟通进 一步得到加强,其中电子邮件是现代人类沟通的最重要的手段之一。电子 邮件数量增多,还可能包含着大量的垃圾邮件,采用文本自动分类技术对 电子邮件进行整理和过滤,将能给邮件用户提供方便。 电子出版业和电子图书馆的应用。电子出版业蓬勃发展,图书馆文本 资料管理电子化逐步普及,但电子文本的处理速度相对落后于文本搜集速 度。目前对电子文本的分类处理仍以手工为主,效率低,费用高,难度大, 专业性强。如能够自动分类,则会加快对电子文本处理的速度。 网络安全中的应用。网络安全问题越来越多地受到政府和大公司的重 视,根据用户访问的历史记录,对不同用户进行分类,决定是否允许用户 访问,这是在文本分类中典型的两类分类问题。此外,文本分类在防火墙 技术中也有广泛用途,利用文本分类技术可以有效过滤不健康信息。 电视电话会议中的应用。随着网络技术和语音技术的发展,在不同地 点同步进行的电话会议越来越普遍。对会议文档的整理也离不开文本自动 分类技术。 1 4 课题研究内容及论文的组织结构 文本分类问题涉及文本的表示、相似度计算和训练方法以及分类算法 等多种复杂技术的综合应用。本课题针对科技文献特有的行文规范特点, 7 燕山大学工学硕士学位论文 在深入学习传统文本分类算法的基础上,提出了一种用于科技文献的层次 文本分类方法。 本文总体上分为5 章,分章内容介绍如下。 第1 章为绪论。首先介绍文本自动分类的背景和意义,然后介绍中外 文本自动分类的发展状况,接着介绍它在实际生活中的意义,最后介绍论 文的组织结构。 第2 章主要介绍中文文本分类的关键技术。首先概述计算机是如何进 行文本分类的,然后对文本的向量空间模型表示进行具体介绍,接着是文 本预处理和文本分类性能评估标准。 第3 章是中文文本分类算法的研究及其比较。首先对已有的中文文本 分类算法进行了深入的研究和探讨;其次,在深入理解算法核心思想的基 础上,对各个算法的应用情况及分类效果进行了比较分析。 第4 章是基于科技文献的中文文本分类算法部分。本章首先介绍了科 技文献的行文规范特点及其针对其特点提出的关键词抽取算法;其次介绍 了算法提出的背景,并在此基础上分析了分类模型构建算法和自动文本分 类算法实现的关键步骤以及算法如何应用于文本分类。 第5 章是对比实验部分。给出了实验的开发测试环境和数据集,对所 提出的算法与传统的文本分类算法之间进行了实验比较,并提出了进一步 改进算法的可行性措施。 结论部分总结了中文文本分类算法研究的可行性和正确性,对未来中 文文本分类研究提出展望。 第2 章中文文本分类关键技术 第2 章中文文本分类关键技术 本文研究的是基于统计的中文文本自动分类,其研究对象是中文文本, 由于中西文之间存在差异,所以面向中文的文本自动分类既有与西文文本 分类的共同之处,又具有其自身特点。 中文文本分类需要解决如下几个方面的问题:中文文本如何表示、中 文分词处理、文本的特征选择和特征抽取、如何选取文本分类模型、分类 模型如何评估。 2 1 文本分类概述 文本自动分类系统的目的就是对文本集进行有序组织,使相似、相关 的文本能够组织在一起。它作为知识的组织工具,为信息检索提供了更高 效的搜索策略和更准确的查询结果。其中分类的高效性来自于用户可以首 先准确查询的可能性,以减少需要进一步匹配的文本数量;有效性在于相 似的文本很可能与相同的查询之间存在关系,于是检索的准确率和查全率 都得到了提高。 分类实际上是一种知识学习和知识应用的过程。它的特点是根据已经 掌握的每类若干样本的数据信息,总结出分类的规律性,建立判别公式和 判别规则,这是知识学习的过程。当遇到新的样本点时,只需要根据总结 出的判别公式和判别规则,就能够判别样本点所属的类别,这就是知识应 用的过程。 从数学角度来看,文本分类是一个映射的过程 3 2 1 ,它将未标明类别的 文本映射到己有的类别中,该映射可以是一对一的映射,也可以是一对多 的映射,因为通常一篇文本可以同多个类别之间相关联。这种映射关系用 数学公式表示如下。 厂:a b 其中,a 为待分类的文本集合,b 为分类体系中的类别集合。 9 燕山大学工学硕士学位论文 文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信 息,总结出分类的规律性而建立判别公式和判别规则。然后在遇到新文本 时,根据总结出的判别规则,确定文本相关的类别。 文本数据的来源多种多样,可以是论文、报告、单据、新闻、邮件等。 文本的类别和数量可以是预订好的,这需要相关专家知识;也可以是不确 定的,要经过文本的自组织、聚类后才能得到。需要预先定义类别体系的 文本分类为有指导的学( s u p e r v i s e dl e a r n i n g ) 的分类,也称文本自动分类; 类别体系不确定的文本分类为无指导的( u n s u p e r v i s e dl e a r n i n g ) 的分类,也称 文本自动聚类( c l u s t e r i n g ) 3 3 1 。自动聚类系统不需要训练文本,划分出的文 本类别也是不确定的。 本文研究有指导学习方式的中文文本分类。一般意义上,文本分类需 要解决以下几个方面的问题。 ( 1 ) 获取训练文本集训练文本集的选择是否合适对文本分类器的性 能有较大影响。训练文本集应该能够广泛地代表分类系统所要处理的客观 存在的各个文本类中的文档。一般地,训练文本集应是公认的经过人工预 处理的语料库。 ( 2 ) 建立文本特征表示模型选择什么样的语言要素( 或者说文本属性) 来表示特征文档,这是文本自动分类中一个非常重要的技术问题。目前的 文本自动分类系统,不管是概率模型还是向量空间模型,都是以词来表示 特征文档。 ( 3 ) 文本属性选择语言是一个开放的系统,作为语言的一种书面物化 的文本也是开放的。它的大小、结构,包含的语言元素都是开放的,因此 它的属性也是无限制的,文本分类系统应该选择尽可能少而精且和文档类 别概念密切相关的文本属性进行文本分类。选择什么样的文档属性由具体 的度量准则确定。 ( 4 ) 选择分类模型也就是说用什么方法建立从文本属性到文本类别 的映射关系,这是文档分类的核心问题。现有的分类方法主要来自两个方 面:统计和机器学习。比较著名的文本分类方法有n b ,k n n ,s v m ,l l s f , n n e t ,以及b o o s t i n g 等。 1 0 第2 章中文文本分类关键技术 ( 5 ) 性能评估模型即如何评估分类系统的性能或者分类结果。真正反 映文本分类内在特征的性能评估模型可以作为改进和完善分类系统的目标 函数。目前使用较为普遍的文本分类性能评估指标 3 4 1 是准确率( p r e c i s e ) 和 查全率( r e c a l l ) 。 2 2 基于统计的分类模型 近期的研究中,较为常用的研究方法是采用基于统计的方法抽取关键 词( 文本特征) ,应用信息检索中的计算模型进行特征加权,采用机器学习 的算法对类别学习。 基于统计的分类方法具有如下特点。 ( 1 ) 忽略分类文本的语言学结构; ( 2 ) 把文本作为特征项集合对待; ( 3 ) 利用加权特征项构成的向量作为文本表示; ( 4 ) 根据词频信息对文本特征进行加权。 统计方法因其相对简单实现机制,以及在实际环境中所表现出来的良 好性能,而为大多数文本分类系统所采用。利用统计方法实现文本分类速 度快、实现简单,而且分类准确度也比较高,可以满足一般分类的应用要 求。因此,论文采用基于统计的分类模型。 2 3 文本的向量空间模型( v s m ) 表示 为了使计算机能够在真正意义上处理文本的特征,必须首先对文本特 征进行特征加权,将文本表示成计算机可以处理的数学向量。目前在信息 处理方面有布尔模型( b o o l e a nm o d e l ) 、向量空间模型( v e c t o rs p a c em o d e l ) 、 聚类模型( c l u s t e rm o d e l ) 、概率模型( p r o b a b i l i s t i cm o d e l ) 等。这些模型分别 从不同的角度出发,应用不同的表示方法处理特征加权、类别学习和相似 度计算等各个问题。在以上几种模型中,向量空间模型由于具有较强的可 计算性和可操作性,被广泛的使用。本节将详细介绍文本的向量空间模型 燕山大学工学硕士学位论文 ( v s m ) 表示方法。 2 3 1向量空间模型的基本概念和特点 向量空间模型( v e c t o rs p a c em o d e l ,简称v s m ) 3 5 】是现在得到最广泛应 用的基于统计的文本表示模型。它由美国的g s a l t o n 等人在2 0 世纪6 0 年代 提出,并且成功应用在了著名的s m a r t 系统。向量空间模型f v s m ) 的基本 思想是以向量表示文本,该模型及相关的技术在文本分类、自动索引、信 息检索等领域都得到了广泛的应用,已逐渐成为最简便最高效的文本表示 模型之一。 向量空间模型的几个基本概念描述如下。 ( 1 ) 文档泛指一般的文本或文本的片段( 段落、句群或句子) ,一般指 篇文章。尽管文档可以是多媒体对象,但是在下面的讨论中我们只认为 是文本对象,并且对文本和文档不加以区别。 ( 2 ) 词语( 特征项) 文本的内容由一些特征项来表达,一般由文本所含 有的基本语言单位( 字、词、词组或短语等) 来表示,也即文本可以表示为 d o c u m e n t = d ( i l ,1 2 ,i n ) ,其中i i 表示各个词语。换句话说,由这些词语 张开成一个向量空间,每一项表示一个维度。 ( 3 ) 词语的权重在一个文本中,每个特征项都被赋予了一个权重w , 以表示这个特征项在该文本中的重要程度。权重一般都以特征项的频率为 基础进行计算的,比如采用t f i d f 公式表示。这样文本就可以表示成d = d ( 1 1 ,w 1 ,1 2 ,w 2 ,i n ,w 。) ,简记为d = d ( w i ,w e ,n ) ,这时我们说 项i k 的权重为w k ,式中1 9 固l 。 ( 4 ) 向量空间模型给定一自然语言文本,我们可以把它用向量d = d ( i l ,w l ,1 2 ,w 2 ,i n ,w n ) 表示,由于i k 在文本中既可以重复出现又应该 有先后次序的关系,分析起来有一定难度。为了简化分析,可以暂且不考 虑i k 在文本中的先后次序并要求项之间是互异的。这时可以把i l ,1 2 ,i n 看成是一个n 维的空间,w t ,w 2 ,w 。为相应维上的值,因此一个文本 就可表示为n 维空间的一个向量,我们称d = d ( w i ,w 2 ,w 。) 为文本d 的 向量表示或向量空间模型。 1 2 第2 章中文文本分类关键技术 ( 5 ) 相似度度量两个文本d l 和d 2 之间的相关程度常用它们的相似度 s i m ( d l ,d 2 ) 度量。在向量空间模型下,我们应用向量之间的某种距离表示 文本间的相似度。相似度常用向量之间的内积计算。 n s i m ( d l ,蚴= w l k x w 2 k ( 2 1 ) k = l 或夹角余弦表示如下。 s i m ( d 1 ,d 2 ) = c o s 0 n e , o “2 k ( 2 - 2 ) 在向量空间模型中,文档的内容被形式化为多维空间的一个点,通过 向量的形式给出。该模型把文本简化成以项为分量的向量表示,把分类过 程简化称为空间向量的运算,使得问题的复杂性降低。此外,向量空间模 型对项的权重评价、相似度计算都没有统一的规定,只是提供一个理论框 架,可以使用不同的权重评价函数和相似度的计算方法,使得该模型有广 泛的适用性1 3 “。 在文本表示方面,除了向量空间模型外,d t u n a i s ,f u m a s ,l a n d a v e r 和 h a r s h m 锄【3 刀于1 9 9 0 年提出隐性语义索引( l s i ) 模型;b e l k i n 和c r o f t t 3 即于 1 9 9 2 年提出概率模型等。 2 3 2 特征项的选择和特征权重 一般可以选择字、词或词组作为特征项。由于一般“词”能表达完整 的语义对象,有实验结果表明0 9 1 ,选取词作为特征项要优于字和词组,因 此在文本处理中通常选用“词”作为文本特征项,将词作为特征向量的维 数表示文本。 最初的向量表示完全是0 、1 形式,即如果文本中出现了该词,那么文 本向量的该维为1 ,否则为0 。这种方法无法体现这个词在文本中的作用程 度,所以逐渐0 、1 被更精确的词频代替。 词频分为绝对词频和相对词频两种。绝对词频使用词在文本中出现的 鍪生奎兰三兰堡主兰堡笙茎 频率表示文本,相对词频为归一化的词频,其计算方法主要运用t f i d f 公 式。目前存在多种t f i d f 公式1 4 0 ,4 ”,我们在分类算法中采用了一种比较普 遍的t f i d f 公式。 脚,孑) 1 :华坐! 丝丝兰坠坠彳( 2 - 3 ) 埘妙( 口) l o g ( n n , + o 0 1 ) j z 式中,m ( t ,孑) 为词t 在文本d 中的权重,而t f ( t ,孑) 为词t 在文本厅中的词频, n 为训练文本的总数,i l t 为训练文本集中出现t 的文本数,分母为归一化因 子。另外还存在其他的t f i d f 公式,如公式( 2 - 4 ) 所示。统计词频,最终表 示为上面描述的向量。 形( 孑) ;1 三等堕丝丝堡丝丝彳( 2 - 4 ) 面1 1 + l 0 9 20 c ( t ,孑) ) l o g :( n t ) j z 该公式( 2 4 ) 中参数的含义与公式( 2 3 ) 相同。 文本经过分词程序分词后,首先去除停用词,合并数字和人名等词汇, 然后统计词频,最终表示为上面描述的向量。 2 4 文本预处理 文本预处理即去掉一些标记,例如去掉停用词、词根还原。对于中文 文本,因为词与词之间没有明显的切分标志,所以需要分词。分词方法主 要有基于字符串匹配的方法、基于理解的方法和基于统计的方法。对于中 文文本还需要进行词性标注和短语识别等。 2 4 1 文本半结构化 与数据库中的结构化数据相比较,文本是很有限的结构,或者根本就 没有结构。此外,文档的内容是人类所使用的自然语言,计算机很难处理 其语义,文本数据源的这些特殊性使得现有的数据挖掘技术无法直接应用。 我们需要对文本进行分析,抽取代表其特征的元数据,这些特征可以用结 1 4 第2 章中文文本分类关键技术 构化的形式保存,作为文档的中间表示形式。 文本数据与常见的结构化关系数据不同,它是非结构化的,没有属性 和值对应的结构,称为无结构或者半结构化数据。 对于非结构化的文本数据进行挖掘,目前主要有两种处理途径:一种 是采用全新的算法,直接对非结构化文本数据进行挖掘;另外一种是将非 结构化文本数据进行转化,将其转化为结构化的文本数据,然后再进行挖 掘。由于直接构造新算法难度比较大,而且开发的造价很高,算法的实现 也比较困难,所以目前通常采用人工处理的方法,把非结构化的文本数据 转化为结构化的文本数据。 2 4 2 自动分词 相比于英文文本分类,中文文本分类的一个重要的差别就在于预处理 阶段中文文本的读取需要进行分词,它不像英文文本的单词那样有空格来 区分。从最初简单的查词典方法,到后来基于统计语言模型的中文分词方 法,分词技术已逐步趋于成熟。目前比较有影响力的当属中国科学院计算 机研究所开发的汉语词法分析系统i c t c l a s ,现在已经公开发布供中文文 本分类的研究使用。 在很长一段时间内,中文文本分类的研究没有公开的数据集,使得文 本分类算法分类效果难以比较。现在一般采用的中文测试集有北京大学建 立的人民日报语料库、清华大学建立的现代汉语语料库等。其实一旦经过 预处理阶段将中文文本变成了样本矢量的数据矩阵,那么随后的中文文本 分类过程和英文文本分类过程相同,也就是随后的文本分类过程独立于语 种。因此,当前的中文文本分类主要集中在如何利用中文本身的一些特征 来更好的表示文本样本。 自动分词是针对中文的一种自然语言的处理技术。在西方语言的体系 中,句子中各个词汇之间有固定的空格作为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论