




已阅读5页,还剩47页未读, 继续免费阅读
(计算机软件与理论专业论文)基于神经网络的中文文本分类研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电大学硕士研究生学位论文摘要 摘要 随着国际互联网的迅猛发展,网上文本信息资源以指数级的速度增长。如何快速有效地 将文本按其内容进行分门别类的整理,以便于利用这些海量文本,变得越来越重要和困难。 因此,研究文本自动分类技术具有很重要的现实意义。 本文分析考察了文本分类过程中的主要技术:中文分词、特征选择、粗糙集和分类器构 造,并在广泛研究现有文本自动分类方法的基础上,利用人工神经网络具有的自学习性、自 组织性、联想记忆功能和推理意识等在文本自动分类上的独特优势,构建了神经网络分类器。 由于b p ( b a c k p r o p a g a t i o n ,反向传播) 神经网络广泛应用于文本自动分类领域,因此本文对b p 网络文本分类过程分阶段进行了改进,并证明了本文方法的优越性。 本文改进了b p 神经网络分类方法,主要设计思路如下:首先从已有文本中随机选择部分 文本,并建立训练语料库:接着对训练文本进行分词,去掉停用词和标点符号,然后词频统 计,并生成各文本类的特征向量;接着分别使用改进互信息、x 2 统计方法和本文提出的联合 特征选择法,对特征空间做降维处理;然后使用粗糙集理论进行属性约简;最后建立b p 神经 网络文本分类器并初始化网络,用训练语料库训练b p 文本分类器,直至网络的训练满足一定 的收敛条件。至此,基于b p 神经网络的文本分类器构造完成。 关键词:文本分类,中文分词,特征选择,粗糙集,b p 神经网络 南京邮电大学硕士研究生学位论文a b s t r a c t a bs t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ei n t e r n e t ,t e x ti n f o r m a t i o nr e s o u r c e so n l i n e g r o we x p o n e n t i a l h o wq u i c k l ya n de f f i c i e n t l yt e x tw i l lb ec a t e g o r i z e da c c o r d i n gt o t h e i rc o n t e n to ff i n i s h i n g ,i no r d e rt om a k eu s eo ft h e s em a s st e x t ,i s b e c o m i n g i n c r e a s i n g l yi m p o r t a n ta n dd i f f i c u l t t h e r e f o r e ,t h es t u d y a u t o m a t i ct e x t c a t e g o r i z a t i o nt e c h n o l o g yw i l lb ev e r yi m p o r t a n tp r a c t i c a ls i g n i f i c a n c e t h i sp a p e ra n a l y s e st h et e x tc l a s s i f i c a t i o ns t u d yi nt h ep r o c e s so fm a j o r t e c h n o l o g y :c h i n e s ew o r ds e g m e n t a t i o n ,f e a t u r es e l e c t i o na n dc l a s s i f i c a t i o n o f s t r u c t u r e ,a n de x t e n s i v er e s e a r c ho nt h ee x i s t i n ga u t o m a t i ct e x tc l a s s i f i c a t i o n m e t h o db a s e do nt h eu s eo fa r t i f i c i a ln e u r a ln e t w o r k sw i t hs e lf l e a r n i n g , s e l f o r g a n i z a t i o na n dl e n o v om e m o r ya n dr e a s o n i n gi nt h ec o n s c i o u s n e s so fa u t o m a t i c t e x tc l a s s i f i c a t i o no ft h eu n i q u ea d v a n t a g e so fb u il d i n gan e u r a ln e t w o r kc l a s s i f i e r s a sb p ( b a c k p r o p a g a t i o n ,b a c k p r o p a g a t i o n ) n e u r a ln e t w o r kw i d e l yu s e di nt h ef i e l d o fa u t o m a t i ct e x tc a t e g o r i z a t i o n ,t h i sp a p e ro nt h eb pn e t w o r kt e x tc l a s s i f i c a t i o n p r o c e s s c a r r yo u ti np h a s e st oi m p r o v e ,a n dp r o v et h es u p e r i o r i t yo ft h i sm e t h o d t h i sp a p e ri m p r o v e db pn e u r a ln e t w o r kc l a s g i f i c a t i o nm e t h o d s ,d e s i g ni d e a sa s f o l l o w s :f i r s t ,f r o mt h et e x th a sb e e nr a n d o m l ys e l e c ts o m et e x t ,a n de s t a b l i s ht h e t r a i n i n gc o r p u s :t h e ns e g m e n tt h et r a i n i n gt e x t ,r e m o v et h ew o r do u ta n dp u n c t u a t i o n , a n dt h e nc a l c u l a t ew o r df r e q u e n c y ,a n dg e n e r a t et h ee i g e n v e c t o ro ft h et e x t ;t h e n , u s i n gi m p r o v e dm u t u a li n f o r m a t i o no r c h is t a t i s t i c a lm e t h o do rc o m b i n e de x t r a c t f e a t u r e sa l g o r i t h m p r e s e n t e db yt h i sp a p e rt or e d u c ed i m e n s i o n so ft h ef e a t u r e ss p a c e ; t h e n ,u s i n gr o u g hs e t st od oa t t r i b u t er e d u c t i o n ;f i n a l l y ,e s t a b l i s ht e x tc l a s s i f i e r b a s e do nb pn e u r a ln e t w o r ka n di n i t i a l i z en e t w o r k ,t r a i nb pt e x tc l a s s i f i e fw i t h t r a i n i n gc o r p u s ,u n t i lt h et r a i n i n gn e t w o r kt om e e t c e r t a i nc o n d i t i o n sf o rt h e c o n v e r g e n c e ,a tt h i sp o i n t ,t e x tc l a s s i f i e rb a s e do nt h eb pn e u r a ln e t w o r kc o m p l e t e k e y w o r d s :t e x tc 1 a s s i f i c a t i o n ,c h i n e s ew o r ds e g m e n t a t i o n ,f e a t u r es e l e c t i o n ,r o u g h s e t s ,b pn e u r a ln e t w o r k i i 南京邮电大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名:起塑垦日期:丝墨! ! 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电大学研究生部办理。 研究生签名:赵瓶 导师签名:问彭即日期: 南京邮电大学硕上研究生学位论文 第一章绪论 1 1 研究背景和意义 第一章绪论 在过去的十几年中,随着国际互联网和企业内部互联网的飞速发展,各种电子文档急剧 增加,如何高效地访问和使用这些文档数据,己经成为信息系统学科迫切需要解决的重要问 题。文本分类就是解决这个问题的工具之一,它是指按照预先定义的分类体系,将文档集合 的每个文档归入某个类别。这样,用户不但能够方便浏览文档,而且可以通过限制搜索范围 来使文档的查找更为容易。 文本分类现在已经被应用在众多领域,包括以下各方面: i n t e r n e t 上的应用。通过i n t e r n e t 查找诸如书刊、论文、科研资料、会议记录等时, 要想在网上找到自己所需的资料并非易事。即使借助于专门的搜索引擎( 目前大部分搜索引 擎是按关键词搜索) ,精度和速度往往不能令人满意,其检索结果经常包含许多无关的资料, 采用文本分类技术则可以大大提高查全率和查准率旧h 引。 电子邮件分拣中的应用。随着科技的发展,人们之间的交流和沟通进一步得到加强,其 中电子邮件是现代人类沟通的最重要的手段之一。电子邮件数量增多,其中又可能包含着大 量的垃圾邮件,采用文本分类技术对电子邮件进行整理和过滤,将能给邮件用户提供方便旧1 。 电子出版业的应用。随着电子出版业的发展,人们可以直接获取大量的电子文本。但是 对电子文本的处理速度相对落后于文本的搜集速度。目前对电子文本的分类处理过程仍然以 手工为主,效率低,费用高,难度大,专业性强。如果能够自动分类,无疑大大加快对电子 文本处理的速度。 电子图书馆的应用。随着图书馆文本资料管理电子化的逐步普及,也要求对电子图书进 行分类处理。 网络安全中的应用。文本分类在防火墙技术中也有着广泛的用途,利用文本分类技术可 以有效地过滤掉不健康之类的信息。 电视电话会议中的应用。随着网络技术和语音技术的发展,在不同地点同步进行的电话 会议越来越普遍。对会议文档的整理也离不开文本分类技术。 总之,文本自动分类可节约大量人力和财力,避免人工分类带来的周期长、费用高、效 率低等诸多缺陷。可以说研究文本分类有着广泛的商业前景和应用价值。 南京邮电大学硕士研究生学位论文 第一章绪论 1 2 国内外相关研究概述 鉴于文本分类技术在众多领域的应用价值,国内外有众多专家学者在研究该项技术,推 动了相关领域的飞速发展。目前国内外的文本自动分类研究己经从实验性研究进入了实用化 阶段,并在邮件分类,电子会议等方面取得了较为广泛的应用。 1 2 1 国外相关研究现状 国外在文本分类技术以及相关的信息检索、信息抽取等领域进行了较为深入的研究,取 得了不少令人注目的研究成果,并产生了一些可用的分类系统。 例如,自动分类新闻稿件的文本分类器”伽1 ;自动分类w e b 页的文本分类器n 引;自动跟 踪用户阅读兴趣的分类分析器n 加等等。这些系统大多数都建立在向量空间模型( v s m ) 的基础 上,着重解决特征项的选择和权重、机器学习算法等问题,以提高系统的性能和效率。至今, 在以下方面取得了不错的成果: ( 1 ) 向量空间模型的研究日益成熟 s a l t o n 等人在6 0 年代末提出的向量空间模型在文本分类、自动索引、信息检索等许多 领域得到了广泛的应用,己成为目前的最简便高效的文本表示模型之一钔。通过不同文本分 类系统的运行和比较表明,向量空间模型是文本分类领域大规模语料库较好的表示模型。 ( 2 ) 对特征项的选择进行了较深入的研究 对于英法德等语种,文本可以由w o r d s 、c l u s t e r so f w o r d s 、p h r a s e s 、c l u s t e r so fp h r a s e s 或其他特征项进行表示,a n d r e w 和l e w i s 等学者对这些特征项进行了仔细地分析,并且通过 在r e u t e r s2 1 5 7 8 等标准语料库上进行实验,得出了比较一致的结论:使用优化合并后的、 w o r d s 作为特征项在文本分类应用中效果最佳n 引。 此外,也有不少学者正在努力突破以上特征项的选择空间,定义自己的文本表示空间, 例如,s a ms c o t t 定义了一套符号系统,利用w o r d s 和附加的符号信息表示文本,也取得了 一定的成果n 6 。 ( 3 ) 较完整的分类算法的研究和比较 国外对于文本分类算法的研究开展得较早,也较完整。例如,b a y e s 、k n n 、r o c c h i o 、s v m 、 神经网络等算法,都有比较详细地研究和性能比较n 7 1 8 1 ,但是各位学者都没有得到统一的结 论,总体而言,这些算法在分类性能上差别不大,以k n n 和s v m 稍好。 ( 4 ) 存在比较标准的测试语料库 堕室塑皇奎兰堡主翌壅竺兰垡堡茎 兰二皇堕笙 例如,n e w s g r o u p s 语料库( 约2 0 0 0 0 多篇文章2 0 个类别) ,w e b k b 语料库( 4 1 9 9 篇文章 7 个类别) ,r e u t e r s2 1 5 7 8 语料库( 2 1 5 7 8 篇文章1 3 5 个类别) 都在一定时期较为广泛地使 用。而t r e c 也提供了较为标准的语料库。 ( 5 ) 较为规范的测试方法 国外学者在标准的测试语料库上也定义了较为规范的测试方法,除了传统的测试指标外, 还有一些更为细致的测试指标。例如,l e w i s 给出了一套较完整的分析方法,不但测试系统 的整体性能,而且可以较科学地分析多训练文档类和少训练文档类的分类性能n 引。 ( 6 ) 逐渐开始研究未标记文档对文本分类系统的影响 国外学者在整理语料库的过程中发现收集及分类训练文档是极其费时、费力的过程,因 此提出在训练文档不充足的情况下如何利用未标记文档提高文本分类系统的性能,并且开展 了一定的研究9 。 ( 7 ) 逐渐将文本分类技术应用到某些特定的信息服务中 例如,将文本分类技术应用到事件跟踪系统中,为用户( 主要是新闻媒体用户) 收集与 事件相关的文章,制作事件专题节目啪1 。另外,将文本分类技术应用于用户个性化服务系统 中,跟踪用户感兴趣的文章,进行类别判别,为用户提供方便地信息服务n 引。 1 2 2 国内相关研究现状 国内也已经开展了这方面的研究,吴军、吴立德、黄萱菁等都进行了汉语语料自动分类 的研究,他们以字或词为特征项构成特征向量,以频率作为词的权重,利用一些分类算法构 造分类器,取得了一定的效果。 但是总的来说,在文本分类方向上的研究相对落后,主要存在着以下一些问题: ( 1 ) 缺少统一的中文语料库 不存在标准的用于文本分类的中文语料库,各个学者分头收集自己的训练文本集,并在 此基础上开展研究,因此,系统的性能可比性不强。同时,由于财力人力有限,中文语料库 的规模普遍不大。 ( 2 ) 向量空间模型的研究还不十分成熟 国内的学者,l 例如,吴立德和黄萱菁也提出了如何选择特征项的问题,他们提出可以使 用字、词、概念作为特征项构成向量空间模型,并对以此为基础的文本分类系统进行了初步 的性能比较口。但是在这方面的研究还没有深入的开展,尤其是对于概念的定义不清晰,没 有全面的比较和测试系统。另外,在特征项抽取算法方面也缺少系统而深入的研究成果。 堕室墅皇奎堂堡主堕茎生兰垡笙奎翌二里堕堡 ( 3 ) 文本分类算法的研究不十分完整 每个分类器通常只实现一种分类算法,然后进行测试和分析,缺少完整的多种分类算法 性能的比较和测试。 ( 4 ) 测试标准不统一 在国内,由于缺少标准的用于分类的中文语料库,所以文本分类系统的性能测试同一性 比较差,测试方法也比较简单,通常仅给出整个系统的准确率,很少分析训练文档数量和质 量对文本分类系统性能的影响。 ( 5 ) 没有深入开展未标记文档对文本分类系统性能影响的研究 ( 6 ) 文本分类技术与其他信息技术尚未很好结合 国内的文本分类系统主要应用于图书馆等专业信息处理机构,在信息服务领域,除了与 搜索引擎有所结合外,没有很好的结合,还没有得到充分的应用。 1 3 本文的主要工作 本文使用b p 神经网络分类法,结合目前主要的文本分类相关技术,实现了一个改进的 b p 神经网络模型,并实验证明了该模型,取得了良好的效果。 在b p 神经网络模型的实现过程中,详细分析了中文文本分类过程中的各种技术手段, 比较了每一阶段可用技术的优缺点,然后结合本文的工作选择或改进了相关的技术。本文涉 及的主要技术有:文本分类、中文分词、文本表示、特征选择、特征抽取、b p 神经网络和性 能评估等。 本文的主要改进之处为: ( 1 ) 文本预处理时,分别对文本的标题和正文进行中文分词,提高了标题在判别文本所属 类别时的作用。 ( 2 ) 特征选择时,同时采用了改进的互信息和x 2 统计方法进行特征空间的降维,避免了 这两种方法的各自的缺陷,提高了文本分类器的性能。 ( 3 ) 特征选择后,使用粗糙集理论进行了属性约简,进一步降低了特征空间的维度,提高 了分类器的性能。 ( 4 ) b p 神经网络训练时,改变了传统的输入层和隐含层、隐含层和输出层之间的学习率 一致的特性,分别采用了不同的学习率,并主要加大了输入层和隐含层之间的学习率,取得 了良好的效果。 南京邮电大学硕士研究生学位论文 第一章绪论 1 4 论文的组织结构 第一章绪论介绍了研究背景和意义,简述了文本分类在国内外的研究现状和本文的主要 研究工作。 第二章讲述了文本分类的概念和流程,各阶段的常用解决方法,并介绍人工神经网络概 念和应用前景。 第三章提出了基于神经网络的文本分类的方法改进。 第四章实验验证了本文提出的文本分类方法的性能。 第五章总结和展望。 南京邮电大学硕士研究生学位论文第二章文本分类的技术基础 第二章文本分类的技术基础 2 1 文本分类的定义 简而言之,自动分类的任务就是,在给定的分类体系下,根据文本的内容自动地确定与 文本关联的类别。从数学角度而言,分类的实质是一个映射过程,它将未标明类别的文本映 射到已有的类别中,该映射可以是一一映射,也可以是一对多映射。 具体而言,文本分类的任务可以看作是把集合( 0 ,1 ) 中的值映射到一个矩阵上乜副,如表 2 1 所示。 表2 1 类别文档矩阵 卫d l d j d n 类秽 别 c la 1 1 a l j a 1 1 1 c ia i l 粕 a i n c ma m l a m j a m n 这里c = c l ,c m ) 是一个预定义的类别集合,d = ( d 1 ,一,d 。) 是一个要待分类的文档集 合。 若a ;j - 1 ,则表示文档d j 属于c 。类; 若a 。j - o ,则表示文档d j 不在类c 。中。 文本分类就是要找出这个描述文档怎样被分类的函数: 中:d c 一( 1 ,o ) , 这个函数就叫做文本分类器。 文本自动分类的映射规则是系统根据已经掌握的每类若干样本的统计信息,总结出分类 的规律而建立的判别公式和判别规则;然后在遇到新文本时,根据总结出来的判别规则,确 定文本相关类别。 自动分类存在两个基本假设,即:类名仅仅是符号标识而己,在分类器的构造过程中它 不能提供额外的知识;自动分类所使用的知识必须是内源性的( 即从文档中抽取出来的知识) , 6 南京邮电大学硕士研究生学位论文第二章文本分类的技术基础 而不能是外源性的,即必须根据文档语义方面的特征进行分类,而不能根掘元数据( f f f j 女 1 出 版日期、文档类型、来源出版物等) 完成分类任务。 2 2 人工方法和自动方法 由于人工进行文档分类的耗费太大,不能满足海量信息系统如数字图书馆中信息管理的 需要,而且一致性和正确性也难以得到保证。因此,研究人员提出了多种自动文本分类方法。 在8 0 年代,文本分类用到的主要方法之一是知识工程分类器,它的主要思想是手工建造 一个能进行分类决策的专家系统。这类专家系统包括了一些形如i f ( 满足d n f 公式) t h e n ( 属 于该类) 的规则。一个d n f 公式是把一些连接在起的子旬分离开,如果至少满足其中的一 个子句,那么就可以归到该对应的类别中。这种专家系统严格意义上来说也应该归于“手工” 方法一类,这种方法的缺点是构建自动分类器时必须要为领域专家获取的知识和知识工程师 的知识表示之间架起桥梁,二者缺一不可。如果这种分类器被转到完全不同的领域( 如不同 的类集) ,工作必须得重新开始。 从9 0 年代初以来,出现了构建文本自动分类器的一种新方法,即基于机器学习的文本自 动分类器,后文所提到的文本分类将都默认地指文本自动分类。在这种方法中,一般是通过 归纳文本集的特征自动创建一个分类器,这些文档集合事先被领域专家人工地分到各类c ,中。 类集c = ( c i ,”,c a ) 对每一个类c ;c 构建的分类器相互之间独立,每一个分类器都可作为一 个规则决定文档d 。是否属于类c ;。如果类集c 被更新,或者系统被转移到完全不同的领域中, 所要做的只是从新的人工分类文档集合出发,通过机器学习,自动地构造一个新的分类器, 而不要求领域专家和知识工程师再重新介入。 可见,机器学习方法取决于一个起始文档集c o = ( d l ,一,d 。) ,c 。的分类在同样的类集c = c l ”,c ) 上操作,即对c o 的分类,就是填充表2 2 所示矩阵的过程。 若c a ;j = 1 ,则表示d 。属于c ;类;反之,若c a ,j - 0 ,则说明文档不在c ;类中。在分类器构 建的第一阶段,其实的文档集合可以被划分为以下啦! : ( 1 ) 训练集:t ,= ( d 1 ,”,d 。) ,这是一个文档样例的集合。 ( 2 ) 测试集:t 。= f d 川,d 。) ,用来测试分类器的效果,把测试集t 。中的每一个文档 都用产生的分类器判别后所得到的值与专家判别的c a ;,进行比较,就可以知道分类器的好坏。 7 南京邮电大学硕士研究生学位论文第二章文本分类的技术基础 表2 - 2 训练集测试集矩阵 j 训练集合测试集合 类档 别 d i d 。d d k 、 c c a l i c a i ic a jg + lc a l k c jc 8 4 i c s 1 9c a , i g + ic a i k c -c a 1 c a g c a 驴l c 2 3 文本分类过程 文本分类的过程主要由3 个部分组成:预处理,特征提取和分类决策。预处理的目的是 去除噪声,加强有用的信息,并且为后面的特征提取做准备。为了有效地实现分类识别,就 要对原始数据进行变换,得到最能反映分类本质的特征,这就是特征提取的过程。般把特 征提取后得到的分类识别赖以进行的空间叫特征空间,在文本分类中特征空间大多是采用文 档中的关键词来表示。分类决策就是在特征空间中用统计方法把被识别对象归为某一类别。 基本做法是在样本训练集基础上确定某个判决规则,使按这种判决规则对被识别对象进行分 类所造成的错误识别率最小或引起的损失最小。在这里,我们还根据文本分类系统实际需要 在特征提取之后加上一个特征向量再处理的环节,实现对特征空间的降维。这样的文本分类 过程如图2 - 1 所示。 构 造 分 类 器 2 3 1 文本信息的预处理 、训练过程 图2 1 文本分类过程 分类过程 在对文档进行特征提取前,需要先进行文本信息的预处理,对英文而言需进行s t e m m i n g 南京邮电大学硕士研究生学位论文第二章文本分类的技术基础 处理,中文的情况则不同,因为中文词与词之间没有固有的间隔符( 空格) ,需要进行中文分 词处理。在中文信息处理领域,对中文自动分词研究已经得比较多,提出了一些分词方法, 如最大匹配法、逐词遍历匹配法、最小匹配法等。 2 3 2 文本表示 计算机并不具有人类的智能,人在阅读文章后,根据自身的理解能力可以产生对文章内 容的模糊认识,而计算机并不能轻易地“读懂”文章,从根本上说,它只认识0 和1 ,所以 必须将文本转换为计算机可以识别的格式。根据“贝叶斯假设”,假定组成文本的字或词在确 定文本类别的作用上相互独立,这样,可以就使用文本中出现的字或词的集合来代替文本, 不言而喻,这将丢失大量关于文章内容的信息,但是这种假设可以使文本的表示和处理形式 化,并且可以在文本分类中取得较好的效果。 文本表示模型有多种,常用的有布尔逻辑模型、概率型、向量空问模型等。布尔逻辑模 型是一种传统的、简单而普遍使用的严格匹配模型。在布尔逻辑模型中,它以文本中是否包 含关键词做为判断依据,基于关系运算符的逻辑表达式和关键词匹配。 概率型基于贝叶斯概率论原理,不同于布尔和向量空间模型,它利用相关反馈的归纳方 法,获取匹配函数。 目前,文本的表示主要采用的是向量空间模型( v s m ) 。向量空i 白j 模型的基本思想是以向量 来表示文本:( w ,w :,w 。,w 。) ,其中w ;为第。个特征项的权重,特征项一般可以选择字、词 或词组,根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示 为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本,最 初的向量表示完全是0 、1 形式,即,如果文本中出现了该词,那么文本向量的该维为l ,否 则为o 。这种方法无法体现这个词在文本中的作用程度,所以逐渐被更精确的词频代替,词 频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频 为归一化的词频,其计算方法主要运用t f - i d f 公式,目前存在多种t f - i d f 公式,我们在系 统中采用了一种比较普遍的t f - i d f 公式: w i j = t a l o g ( n n ,+ o 0 1 ) 其中,w 。为词i 在文本j 中的权重,而t f 。为词i 在文本j 中的词频,n 为训练文本的 总数,r l 。为训练文本集中出现i 的文本数,分母为归一化因子。 9 南京邮电大学硕十研究生学位论文 第二章文本分类的技术幕础 2 3 3 空间降维概述 经过以上步骤,得到的特征向量的维数是非常高的,如此高维的特征对即将进行的分类 学习未必全是重要、有益的,而且高维的特征会大大增加机器的学习时间而产生与小得多的 特征子集相关的学习分类结果。另外在不同内容的文档中,会出现很多诸如一词多义、周音 异型字、同义词等等情况,或者其他一些无意义的虚词。为了删除噪声,减少冗余度,尽可 能提高分类器效率,且不影响它的准确率,我们必须进行空间降维。空间降维的方法有特征 选择和特征抽取两种。特征选择所得到的特征是原来特征集t 的子集,而用特征抽取得到的 并不是原来特征集的子集,而且所提取出来的特征集与原来特征集并不相似,如原来t 是词 的集合,但提取的t7 可能不是词集。当然t 仍然是由原来的t 通过合成与转换得到的。 2 3 4 特征选择 特征选择算法一般是构造个评价函数,对特征集中的每个特征进行独立的评估,这样 每个特征都获得一个评估分( 我们也称之为权值) ,然后对所有的特征按照其权值大小排序, 选取预定数目的最佳特征作为结果的特征子集。所以,选取多少个最佳特征以及采用什么评 价函数都要针对一个具体的问题通过实验来决定。特征选择主要用于排除那些被认为无关或 关联性不大的特征,依据文档集统计数据,这些特征处于无信息量的状态;并自动将那些低 频的特征用正交方法合并成高频特征。下面对目前常用的五种特征选择方法做个介绍:文档 频率( d o c u m e n tf r e q u e n c y ) ,信息增益( i n f o r m a t i o ng a i n ) ,互信息( m u l t u a li n f o r m a t i o n ) , x 2 统计法( c h i ) 2 4 1 2 引。 ( 1 ) 文档频率( d f ) 文档频率方法提取文档频率较高的特征,它的目的是去掉在训练集上出现次数过少的特 征,保留具有一定影响力的特征。文档频率是最简单的特征选择评估函数,其值为训练集合 中出现该单词的文本数。 州w ,= 絮鬻器 d f 评估函数的理论假设是稀有单词要么不含有用信息,要么太少而不足以对分类产生影 响,要么是噪音,所以可以删去。 d f 在计算量上比其它评估函数小得多,在实际运用中它的效果较好。d f 也有缺点,因为 稀有单词可能在某一类文本中并不稀有,而且包含着重要的判断信息。在实际运用中一般并 1 0 南京邮电大学硕士研究生学位论文 第二章文本分类的技术基础 不直接使用d f ,而常把它作为评判其它评估函数的标准。 ( 2 ) 信息增益( i g ) 信息增益来源于信息论,它表示特征词在文本中出现或者不出现为确定文本的类型所提 供信息量的大小。 令c 。,c :,c 。,表示目标空间中的类集,特征词w 的信息增益值定义如下: 佑( w ) :一kp ( q ) l 。g p ( c ,) + p ( w ) kp ( c ,1w ) l 。g p ( qw ) + p ( 品) 杰p ( c 一) l 。g p ( qi 品) #t-i,= i 其中,p ( c ;) 表示类别c ;出现的概率;p ( w ) 表示w 在整个文本训练集中出现的概率;p ( c ;iw ) 表示文本中出现特征词w 时,文本属于c 。的概率:p ( c 。i1 , 9 ) 表示文本中不出现特征词w 时, 文本属于c i 的概率。一p ( e ) l o g p ( q ) 为常量,对信息增益的大小比较不产生影响,可以不予 计算。 i g 的使用效果较好,不足是考虑了词未发生的情况所做的贡献,而实际上某个词不出现 所带来的干扰往往远大于其贡献。 ( 3 ) 互信息( m i ) 互信息可以度量特征词和类别的共现关系,特征词对于类别的互信息越大,它们之间的贡 献概率也越大。令c 。,c :,c 。,表示目标空间中的类集,特征词w 对于文本类别c 。的互信 息m i ( w ,c ;) 的计算公式为: m i ( w , c , h 。g 高篙 其中p ( w ,c 。) 为特征词w 出现在类c 。中的概率,p ( w ) 为特征词w 在所有文本中出现的概率,p ( c 。) 表示类c ;出现的概率。在某个类别c ;中出现的概率高,而在其它类别中出现的概率低的特征词 w 将获得较高的互信息。 互信息的不足之处在于互信息量非常容易受词条的边缘概率的影响,使得互信息评估函 数经常倾向于选择稀有词条。 ( 4 ) x 2 统计法( c h i ) x 2 统计量测度的是特征词w 和类c 。间独立性的缺乏程度,具体定义为: x 2 ( w ,q ) = 百丽面n ( a 面d - 两c b 面) 2 西面 上式中,a 是类c ;中含有特征词w 的文本数量;b 是类c ;以外含有特征词w 的文本数量: 堕室业皇盔兰堡兰竺壅生堂垡笙奎兰三主兰查坌鲞塑些查苎型 c 是类c ;中不含有特征词w 的文档数量;d 是类c ;以外不包含特征词w 的文本数量;n 为总体 的文本数目。x 2 越大,则独立性越小,相关性越大。 x 2 统计法效果也较好,但是文档中含低频词时,由于x 2 统计法的结果是规格化的,这种 情况下规格化的影响比较大。 以上介绍了四种常用的特征选择方法,它们具有的共同优势是计算量相对较小,而且结 果特征集的解释性强,就是原来特征词集的子集,但是它们一些方面的缺点也促使我们考虑 一些新的方法。比如分类器的特征集包含很多冗余的信息,同义词、多义词都能造成这种情 况,一个词单独可能对分类器的作用不大,特征选择时被删去,但和其它一些词结合却是很 好的辨别因素等等,特征抽取就是解决这些问题的一种方法。 2 3 5 特征抽取 特征抽取的方法是在不影响分类效果的情况下,从原来特征集t 合成个新的特征集t 7 ,而维数大大降低,it 7 i 4 0 ,0 0 0 元l i一 目宙自自 -:。-_h一一、。、:!i!):!i_-_-。?:!:,呈:7j,i。b;。 。、蔷、。、_ 、 _ - ? 乏:。_ “- j 舢删 。詈 、。、 南京邮电大学硕士研究生学位论文第二章文本分类的技术基础 y i ( w * x 。+ b ) 一1 0 由于支持向量与超平面之间的距离为l j w l 。因此构造最优超平面的问题就转化为在上 式的约束下求下式的最小值: 中( w ) = f w i 2 统计学习理论指出:在n 维空间中,设样本分布在一个半径为r 的超球范围内,则满足 条件i wl a 的正则超平面构成指标函数集f ( x ,w ,b ) = s g n ( w x ) + b = o 的v c 维满足下面的界: h m i n ( r 2 a 2 ,n ) + 1 由上式知:可以通过最小化1 w i 使v c 维置信度最小。如果固定经验风险,最小化期望风 险的问题就转化为最小化1 w i 。这就是s v m 方法的思路。 ( 6 ) 神经网络 神经网络方法是本文的重点,将在下一节详细讲述,此处略。 2 4 人工神经网络 2 4 1 神经网络的定义 一般情况下,人工神经元网络是作为信息处理单元来模仿大脑,执行特定的任务或完成 感兴趣的功能。关于它的定义有很多种,而下面的h e c h t n i e l s e n 给出的神经网络定义最具 有代表意义: 神经网络是一种并行的分布式信息处理结构,它通过称为连接的单向信号通路将一些处 理单元( 具有局部存储并能执行局部信息处理能力) 互联而组成。每一个处理单元都有一个 单输出到所期望的连接。每一个处理单元传送相同的信号处理单元输出信号。处理单元 的输出信号可以是任一种所要求的数学类型。在每一种处理单元中执行的信息处理在它必须 完全是局部的限制下可以被任意定义,即它必须只依赖于处理单元所接受的输入激励信号的 当前值和处理单元本身所存储记忆的值乜引。 2 4 2 神经网络的原理 神经网络是人们在模仿人脑处理问题的过程中发展起来的一种新型智能信息处理理论, 它通过大量的称为神经元的简单处理单元构成非线性动力学系统,对人脑的形象思维、联想 记忆等进行模拟和抽象,实现与人脑相似的学习、识别、记忆等信息处理能力。 1 6 南京邮电大学硕士研究生学位论文 第二章文本分类的技术基础 图2 - 4 神经元模型 神经元是神经网络的基本单元,图2 - 4 表示的是一个基本神经元模型,它有三个基本要 素:( 1 ) 加权系数( w 。,i = l ,2 ,n ) ;( 2 ) 求和函数( ) ;( 3 ) 激活函数( f ) ,此外还有一个阀值 ( 0 ) 。一个神经元可以有多个输入( x 。,x :,x ;,x 。) ,但只有一个输出( y ) ,它可表示为: ,月、 y = f l w pl i = l 这个输出可以同时输入给许多其他的神经元。 然而,单个的神经元在“计算”能力上并不强。只有把许多的神经元连接起来,构成一 个网络系统,才能完成复杂的“计算 任务,呈现出智能的特性。因此,神经网络系统是又 一个高度互联的复杂的非线性系统。 2 4 3 神经网络的分类 一个神经网络是由若干个神经元按照一定的规则连接而成的网络。神经网络在目前已有 几十种不同的模型。人们按不同的角度对神经网络进行分类,通常可按5 个原则进行神经网 络的归类。 ( 1 ) 按照网络结构区分,则有分层网络和互联网络。 ( 2 ) 按照学习方式区分,则有有教师学习和无教师学习网络。 ( 3 ) 按照网络性能区分,则有连续型和离散性网络,随机型和确定型网络。 ( 4 ) 按照突触性质区分,则有一阶线性关联网络和高阶非线性关联网络。 ( 5 ) 按对生物神经系统的层次模拟区分,则有神经元层次模型,组合式模型,网络层次模 型,神经系统层次模型和智能型模型。 在人们提出的几十种神经网络模型中,人们较多使用的是h o p f i e l d 网络、b p 网络、 k o h o n e n 网络和a r t ( 自适应共振理论) 网络。 h o p f i e l d 网络是最典型的反馈网络模型,它是目前人们研究得最多的模型之一。h o p f i e l d 南京邮电大学硕士研究生学位论文第一二章文本分类的技术基础 网络是由相同的神经元构成的单层,并且不具学习功能的自联想网络。它需要对称连接。这 个网络习以完成制约优化和联想记忆等功能。 b p 网络是误差反向传播( b a c kp r o p a g a t i o n ) 网络。它是一种多层前向网络,采用最小均 方差学习方式。这是一种最广泛应用的网络。它可用于语言综合,识别和自适应控制等用途。 b p 网络需有教师训练。下一节将重点进行介绍。 k o h o n e n 网络是典型的自组织神经网络,这种网络也称为自组织特征映射网络s o m 。它 的输入层是单层单维神经元;而输出层是二维的神经元,神经元之间存在以“墨西哥帽”形 式进行侧向交互的作用。因而,在输出层中,神经元之间有近扬远抑的反馈特性,从而使 k o h o n e n 网络可以作为模式特征的检测器。 a r t 网络也是一种自组织网络模型。这是一种无教师学习网络。它能够较好地协调适应 性,稳定性和复杂性的要求。在a r t 网络中,通常需要两个功能互补的子系统相互作用。这 两个子系统称注意子系统和取向子系统。a r t 网络主要用于模式识别,它不足之处是在于对 转换、失真和规模变化较敏感。 2 4 4 神经网络的应用 神经网络模式识别方法是近几年兴起的模式识别领域的一个新的研究方向。由于神经网 络的高速并行处理、分布存贮信息等特性符合人类视觉系统的基本工作原则,具有很强的自 学习性、自组织性、容错性、高度非线性、高的鲁棒性、联想记忆功能和推理意识功能等, 能够实现目前基于计算理论层次上的模式识别理论所无法完成的模式信息处理工作,所以, 采用神经网络进行模式识别,突破了传统模式识别技术的束缚,开辟了模式识别发展的新途 径。同时,神经网络模式识别也成为神经网络最成功和最有前途的应用领域之一。 南京邮电大学硕士研究生学位论文第三章中文文本分类方法的研究 第三章中文文本分类方法的研究 人工神经网络是文本分类中的一种常用技术方法,我们充分发挥神经网络一些固有的优 势,并针对它的缺点运用新的技术进行弥补,按照文本分类的过程,对各个阶段的方法进行 了分析和改进。 3 1b p 神经网络模型 b p 神经网络是目前应用最广、最成功的神经网络模型,一般为多层神经网络,这种网络 的结构如图3 - 1 所示: m i 图3 1b p 网络学习结构 它含有输人层、输出层以及处于输入输出层之间单层或多层的中间层,即隐含层。隐含 层虽然和外界不连接,但是,它们的状态则影响输入输出之间的关系。这也是说,改变隐含 层的权值,可以改变整个多层神经网络的性能。 3 2 b p 网络文本分类 基于b p 神经网络的中文文本分类方法的主要设计思路是:首先,从已有文本中随机抽取 部分文本,并按事先设定好的类别归档建立训练语料库。接着建立禁用词表、虚词词表和切 分词典,对训练语料库进行词条切分,去掉停用词和标点符号,并进行词频统计,形成特征 空间。然后使用特征选择或特征抽取的方法,对特征空间中的特征向量进行处理,达到使空 间维度降低的目的。最后建立b p 神经网络文本分类器并初始化网络。利用训练集训练b p 文 1 9 澎 。 。 。 k 妻室坚皇奎兰堡圭塑窒生兰堡笙壅茎三童! 奎壅奎坌鲞塑鎏堕翌窒 本分类器,直至整个网络的训练满足一定的收敛条件。至此,基于b p 网络的中文文本自动分 类器完成建立。 根据以上设计思路,b p 网络文本分类的流程图如下图3 2 所示: 基于b p 网络文本分类的主要步骤如下:( 1 ) 建立训练语料库:( 2 ) 建立禁用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师招聘之《幼儿教师招聘》能力检测试卷附答案详解【巩固】
- 2025呼伦贝尔莫力达瓦达斡尔族自治旗尼尔基第一中学校园引才笔试备考有完整答案详解
- 未包括的互联网服务创新创业项目商业计划书
- 用户生成图文故事创作平台创新创业项目商业计划书
- 低温耐受性马铃薯品种研究创新创业项目商业计划书
- 教师招聘之《幼儿教师招聘》考试模拟试卷附参考答案详解【夺分金卷】
- 教师招聘之《幼儿教师招聘》考前冲刺测试卷附有答案详解及参考答案详解【达标题】
- 智能制造数字化全产业链解决方案
- 教师招聘之《幼儿教师招聘》强化训练模考卷及答案详解【名校卷】
- 2025年四川宜宾市珙县事业单位选调13人笔试备考题库附答案详解
- 无人机公开课课件
- 2025年事业单位招聘考试综合类职业能力倾向测验真题模拟试卷:电子信息工程领域
- 仓库维修协议书
- 食材配送退换货方案
- 城管协管员面试题及答案
- 2025年秋期人教版五年级上册数学全册核心素养教案(教学反思有内容+二次备课版)
- 肥料及基础知识培训课件
- 居家养老服务方案投标文件(技术方案)
- 风电场施工的重点和难点及保证措施
- AI 智能体运行安全测试标准(英文)
- 乙肝dna检测培训课件
评论
0/150
提交评论