已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着网络的迅猛发展,自动信息处理越来越成为人们获取大量信息不u ,缺少 的i 具。文本自动分类作为文字信息处理的重要研究方向,它是指在特定的分类 体系下,根据文本的内容自动判别文本类别的过程。 本文对文本分类中所涉及的关键技术,包括向量空间模型( v s m ) 、特征提取 和编码、b p 神经网络训i 练方法等,进行了一些探讨和尝试。改进了传统的互信 息定义,解决了各个类别样本数目不均衡问题,提出了自己的特征词条提取方法; 在对特征词条编码的基础上,进行了文本编码,同时解决了各个类别的特征词条 的数目不均衡对文本分类的影响,然后使用编码后的文本作为训练样本和测试样 本,进行文本分类和测试。 本文使用b p 神经网络作为分类器实现了一个简单的文本分类系统,并得出 了比较理想实验结果。通过实验系统说明了使用改进的互信息对文本进行编码、 利用b p 人工神经网络作为分类器是一种分类效果很好的文本分类方法。 关键词:文本分类人工神经网络中文信息处理向量空间模型 a b s t r a c t 弹it ht h e h j g h s p e e dd e v e l o p m e n t o f n e t w o r k ,a u t o m a t i c in f o r m a t i o n p r o c e s s i n gb e c o m e s a ni n d i s p e n s a b l e t o o lw i t hw h ic h p e o p l ea c q u i r ea m o u n to fi n f o r m a t i o n a u t o m a t i ct e x tc l a s s i f i c a t i o ni s a n i m p o r t a n tr e s e a r c hd i r e c t i o n o fw o r d p r o c e s s i n g ,w h i c hr e f e r s t o c l a s s i f y t h et e x ti nt e r m so ft h ec o n t e n to ft h ec h o s et e x to na p r e d e s i g n e dc l a s s i f i c a t i o ns y s t e m t h i s p a p e r m a k e ss o m ed i s c u s s i o n sa n d e x p e r i m e n t s o ns o m e k e y t e c h n o l o g i e s ,i n v o l v e di nt h ep r o c e s so ft e x tc l a s s i f i c a t i o n ,s u c ha s v e c t o rs p a c e , n o d u l e ,c h a r a c t e ra b s t r a c ta n de n c o d i n g ,b pn e u r a ln e t w o r k t r a i n i n g m e t h o d i ti n c l u d e st h e i m p r o v e m e n t o ft h et r a d i t i o n a m u t u a l i n f o r m a t i o nd e f i n i t i o n ,a sw e l la st e x te n c o d i n go nt h eb a s i so f c h a r a c t e re n c o d i n g m e a n w h i l e ,i t f o r m sat e x te l a s s i f i c a t i o n s y s t e m a n dd r a w sa c o m p a r a t i r e l ys a t i s f i e dc o n c l u s i o nw i t hb pn e u r a ln e t w o r k f u r t h e r ,i t p r o v e st h a te n c o d i n gt h et e x tw i t hi m p r o v e dm u t u a li n f o r m a t i o na n dm a k i n g u s eo fb pn e u r a ln e t w o r ka sac l a s s i f i c a t i o nt o o li sap r a c t i c a lm e t h o d k e y w o r d : v e c t o rs p a c e t e x tc 1 a s s i f i c a t i o n 。c h i n e s ei n f o r m a t i o np r o c e s s i n g ,a n d g o d u l e 1 i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示了谢意。 签名 烨咻州 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以 公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保 存论文 ( 保密的论文在髌密后应遵守此规定) 签名:拦媾导师签名;呸垒丝日期 迦望二j | 第一章引言 第一壹引言 九十年代以来,i n t e r n e t 以惊人朐速度发展起来,近j l 年更是一日 干里。它容纳了各种类型的海量的原始信息,包括文本信息、声音信息、 图像信息等等。人类第一次拥有了共享海量信息的机会。同时,如何在浩 若烟海而又纷繁芜杂的i n t e r n e t 中快速、全面地掌握最有效的信息就成 为信息处理的一个重要目标。只有对信息实现了有效的组织才能实现对信 息的有效利用。 遗一感的是,迄今为止人们对信息的组织却十分落后。尤其是文字信息, 基= 小上是完全由手i t 搜集、整理、分类、排序和抽取摘要等。我们知道, 文章的分类和抽取摘要有利于文章的快速检索。如果一个文章集合被分成 了n 类,大约平均可提高n 倍的查找速度。所以人们很早就j 1 :始研究文本 分类,并给每篇文章标记相应的分类号。但手工分类这一繁琐的工作却又 带有很强主观性、局限性。一段文字信息的题目、主题、内容提要( 摘要) 等完全由作者、文字工作人员或整理者手工处理,其效率、公正性和准确 性等都不是令人十分满意的。互联网上有数以万亿计网页,如果由人工来 做上述工作,恐怕任何个人、公司,甚至国家都无法承受。因此,简单、 有效的自动文本分类的方法成为了一种迫切的现实需要。 白上世纪6 0 年代初西方就开始了自动文本分类的研究,在我国则是近 十年的事。使用基于人工智能技术的文本分类系统能够依据一定的特征将 大量的文本自动分门别类,从而更好地帮助人们整理文本信息。近年来, 文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤、文本管理等信 息处理技术相结合,成为提高信息服务质量的有效工具。 文本分类的关键问题之一是如何构造分类函数( 也称为分类器) ,将未 知类别文本与给定的类别“模板进行匹配。目前有许多种分类器的构造 北京工业人学理学硕士学位论文 方法,如统计方法、机器学习方法等。国外对文本分类技术的研究已经丌 展了多年,并在邮件分类、电子会议、信息过滤等方面得到了较为广泛的 应用,其中较为成功的系统有麻省理工学院( m i t ) 为白宫开发的邮件分类 系统等。在国内,文本自动分类技术的研究起步较晚,但随着中文环境下 的嗍络用户数目的爆炸性增长,网络中中文信息越来越丰富,使中文信息 处理愈加成为需要迫切解决的问题,因此有必要研究简单、实用的中文文 本自动分类系统。 第二章问题描述 第二章问题描述 2 1 文本分类系统要解决的问题 简单地说,文本分类系统的任务是:在给定的分类体系下( 目前,国 内外都有些标准的分类体系,国内的标准是中图法,本文中没有使用这 些标准。为了便于说明本文提出的方法,我们使用的是自己定义的简单分 类体系) ,根据文本的内容自动地确定文本关联的类别。从数学角度来看, 文本分类是一个映射的过程,它将未知类别的文本映射到已有的类别中, 该映射可以是单射,也可以是一对多的映射,因为通常一篇文本可以同多 个类别相关联。但是,为了问题的简化,多数系统采用一一映射。用数学 公式表示如下: 厂:a 斗b 其中,爿为待分类的文本集合,b 为分类体系中的类别始 文本分类的映射规则是系统根据已经掌握的每类若干个样本的数据信 息,总结出分类的规律性而建立的判别公式和判别规则。然后当输入未知 类别的测试文本时,根据总结出的判别规则,确定文本相关的类别。 2 2 评估分类结果的技术指标 因为文本分类从根本上说是一个映射过程,所以评估文本分类系统的 标志是映射的准确程度和映射的速度。其中,映射的速度取决于映射规则 的复杂程度,而评估映劓准确程度的参照物是通过专家思考判断后对文本 的分类结果( 这里假设专家思考判断后分类完全正确并且排除个人思维差 异的因素) ,与人工分类结果越相近,分类的准确程度就越高,文本分类 系统的最主要的两个指标是准确率和查全率。 所谓的分类正确就是指自动分类结果与人工分类结果吻合。准确率是 所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表 一3 北京工业大学理学硕士学位论文 示如下: 准确率( p r e c i s i o n 、 坌鲞塑垩堕壅查塾 实际分类的文本数 例如:现有人工分类样本1 0 0 篇,自动分类与人工结果吻合7 5 篇,则 准确率= 7 5 1 0 0 = 0 7 5 。 查全率是在可以归类的文本中,自动分类结果与人工分类结果吻合的 比率,其数学公式表示如下: 查镩一硼= 篙纛 例如:现有待分类样本1 0 0 篇,与人工结果吻合7 5 篇,而能够被归类 的样本比率为9 5 ,则查全率= 7 5 ( 1 0 0 * 9 5 ) = 0 7 9 。很显然,当所有 样本都能够归类时,准确率和查全率是一致的。 准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑, 不可偏废,因此,存在一种新的评估指标一一f l 测试值,其数学公式如 下: 砌撇= 蔫繁 另外有微平均和宏平均两种计算准确率、查全率和f 1 值的方法。 微平均:计算每一类的准确率、查全率和f 1 值。 宏平均:计算全部类的准确率、查全率和f l 值。 分类速度反映一个分类系统的时间效率情况,时效性越好,可应用性 就越好。 分类速度= 塑塑号筹( 个秒) 4 第二章问题描述 所有文本分类系统的目标都是使文本分类过程更准确,更快速。由于 目前存在的分类系统普遍准确率不高,故准确应该是第一位的、优先的指 标,速度是第二位的指标。 一5 北京工业大学理学硕士学位论文 第三章文本分类系统使用的主要技术理论 3 1 文本的表示 计算机并不具有人类的智能,人们在阅读文章时,根据自身的理解能 力可以产生对文章内容的模糊的、整体的认识,而计算机并不能轻易地“理 解”文章,从根本上说,它只认识0 和1 。所以必须将文本转换为计算 机可咀识别的表示形式。 可以假定组成文本的字或词条在确定文本类别的作用上相互独立,这 样,就可以只使用文本中出现的字或词条的集合来代替文本,不言而喻, 这将丢失大量关于文章内容的信息,同时“不当地”加强了文章的部分信 息。但是这种假设可以使文本的表示和处理形式化,尽管有不尽如意的地 方,也只有如此,才能暂时回避计算机“理解”文本的难题,便于使用计 算机地处理文本分类问题。 目前,在文本信息处理问题上,文本的表示主要采用向量空间模型 ( v s m ) 。向量空间模型的基本思想是以向量的形式来表示文本,例如: d ,= ( ,吼,) ,d i c j ,j 2 1 ,m 其中矾表示要处理的文本: q 是d i 所属的类; m 是分类体系的类别数;( 本文自定义的分类体系的类别数为1 0 ) 为d ,所属的类q 的第k 个特征项的权重; n 为c i 包含的特征项的数目。 那么选取什么作为特征项昵? 文本“特征抽取”是以文本的内容为基 础,因此分类的基础是对文本的内容能够做充分完全的理解,如果能够正 6 第蚪覃对上述方法的几点思考 确地理解文本的语义,对未知文本进行分类将易于实现,但由于基于自然 语言理解的文本理解技术尚未达到实用程度,所以这一点很难做到。而词、 词组和短语是组成文本的基本元素,且在文本中出现的频度有一定的规律 性,适于作为文本的特征项。特征项的选取必须满足既能体现目标内容, 又能根据特征项集合,将目标文本同其它文本相区分。所以在待处理的文 本中,通过剔除在句子中对句子的含义影响不大的词( 如“的”、“地” 等) ,它们大部分是一些虚词及另外一些不常出现的词。( 通过统计文本中 每个词出现的“频率”,我们预先定义出现“频率”的最小值,低于这个 值的词可以去掉) 目前比较公认的是选取词条作为特征项要优于字和词组。因此,要将 文本表示为以特征词条的数目为维数的向量空间中的一个向量,就首先要 将文本分词,由这些词的一部分作为特征词条。然后生成一个向量来表示 文本。该向量的分量可以为0 、l 形式,即,如果文本中出现了该词,那 么文本向量的对应的分量为1 ,否则为0 。但是这种方法无法体现这个词 在文本中所起作用的程度,在多数实际应用中,该向量的分量通常由意义 更精确的,且与特征词条相关的某个量值所代替。 3 2 特征项的抽取 构成文本的词条,通常数量是相当大的,因此,表示文本的向量空问 的维数也相当大,甚至可以达到几万维,因此我们需要进行维数压缩的工 作。这样做的目的主要有两个:第一,提高分类程序的效率和运行速度; 第二,各个词条对文本分类的意义是不同的,一些常见词、各个类别都普 遍存在的词汇对分类的贡献小,在某特定类中出现的“比重”较大而在其 他类中出现的“比重较小的词汇对文本分类的贡献大。因此对于每一类, 我们应剔除那些表现力不强的词汇,筛选出来能够代表该类的特征项集 北京工业大学理学硕学位论文 特征抽取是文本类共性与规则的归纳过程,是分类系统的核心,特征 抽取算法的优劣直接影响到文本分类的效果。我们在此介绍种基于词频 统计的特征提取方法。 蹁采一嗍她信心。g ( 等卜特征项抽u 断 标准。 其中,尸c 形ic,=眵丁量溉,尸c肜lc,作为词 条w 在类别c 中出现的“比重” i d j ,为g 类的训练文本数; n ( w ,d ,) 为词w 在一中的词频; i v i 为0 类的总词数; ! ,兰( ,d ,) 为所有词在该类的词频和。 而p ( ) 与上面的计算公式相同,只是把所有的训练样本组成一个 “总类”,尸( ) 就是计算词条在“总类”中的比重。 尸( ) = 1 + 莹( ,d 。一 y i + 型。兰( 岷,d ,) 中出现的“比重”; i d l 为“总类的训练样本总数 n ( w ,d ) 为词w 在一中的词频 8 p ( 矿) 作为词条w 在“总类” 第四章对j 述方法的几点思考 1 v l 为“总类”包含的词条数; 型! 。詈j ( 哌,d ,) 为所有词在总类的词频和。 从上面的定义我们可以看出:互信息的意义是词条与类别的相关程度。 通常可以认为,互信息越大,词条与相应类别的的相关性也越大。 c ,类的特征词条抽取算法如下: s t e po n e :初始情况下,该特征项集合包含所有c ,类中出现的词。 s t e p1 w o :对于每佩计算砷i 。类的互黼鼬g ( 等) s t e pt h r e e :对于该类中所有的词,依据上面计算的互信息量排序。 s t e pf o u r :抽取一定数量的词作为特征项,具体需要抽取多少维的特 征项,目前无很好的解决方法,一般采用先定初始值,然后根据实验测试 和统计结果确定最佳值,一般初始值定在几百左右。 s t e pf i v e :将每类中所有的训练文本,根据抽取的特征项,精简向量 表示。 由此,每类中的所有文本均可由长度不等的向量来表示。如类c ,中有 1 0 0 个特征词条,类c 2 中可能有l5 0 个特征词条。一个词条可以同时作为 不同类别的特征词条,但词条和各个类的互信息可能是不同的。 3 3 训练方法与分类算法 训练方法和分类算法是分类系统的核心部分,目前存在多种基于向量 北京 一业大学理学硕_ 上学位论文 空间模型的训练算法和分类算法,例如,向量距离分类法,k 邻近方法和 贝叶斯方法等,本文以下具体介绍三种分类算法: 简单向量距离分类法 该方法的分类思路十分简单,根据算术平均为每类文本集生成一个代 表该类的中心向量,然后在新文本来到时,确定新文本向量,计算该向量 与每类中心向量间的距离( 相似度) ,最后判定文本属于与文本距离最近 的类,具体步骤如下: s t e po n e :计算每类文本集的中心向量,计算方法为所有训练文本向 量简单的算术平均 s t e pt w o :新文本到来后,分词,将文本表示为特征向量 s t e pt h r e e :计算新文本特征向量和每类中心向量问的相似度,公式 为: s i m ( d 。,d ,) = j ( 否吲2 、否w 2 m 盯 其中,d i 为新文本的特征向量,d 为第类的中心向量,为特 征向量的维数,取为向量的第维。 s t e pf o u r :比较每类中心向量与新文本的相似度,将文本分到相似度 最大的那个类别中。 贝叶斯算法 该算法的基本思路是计算文本属于类别的概率,文本属于类别的概率 等于文本中每个词属于类别的概率的综合表达式,具体算法步骤如下: s t e p o n e :计算特征词属于每个类别的概率向量,( m ,w :,鸭) 其中,。= j p ( f c j ) 息量的公式相同 1 + 邕( ,d ,) y l + 鬯,詈( 眠,d ,) 计算公式与计算互信 s t e pt w o :在新文本到达时,根据特征词分词,然后按下面的公式计 算骇文本d i 属于类c ,的概率: 即,= 煮篇筹 其中, p ( q i 旬= 薏鬻, 尸( c ,面为相似含义,i c l为类的 总数,( 眠,d ,) 为岷在d 。中的词频,n 为特征词总数。 s t e pt i i r e e :比较新文本属于所有类的概率,将文本分到概率最大的 那个类别中。 k n n ( k 近邻) 算法 该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新 文本距离最近( 最相似) 的k 篇文本,根据这k 篇文本所属的类别判定 新文本所属的类别,具体的算法步骤如下: s t e po n e :根据特征项集合重新描述训练文本向量 s t e pt w o :在毅文本到达后,根据特征词分词新文本,确定新文本的 向量表示 s t e pt h r e e :在训练文本集中选出与新文本最相似的k 个文本,计算 公式为: 北京工业人学理学硕十学位论文 r v , k 其中,k 值的确定目前没有很好的方法,一般采用先定一个初始值, 然后根据实验测试的结果调整k 值,一般初始值定为几十。 s t e pf o u r :在新文本的k 个邻居中,依次计算每类的权重,计算公 式如下: p ( j ,c ,) = s i m ( y 。,孑。) y ( 孑,c ,) d l e k n n 其中,i 为新文本的特征向量,s i r e ( y :,孑) 为相似度计算公式,与一 一 一步骤的计算公式相同,而y ( 孑,c ,) # , j 类另l j n 性函数,即,如果孑属 于类c ,那么函数值为1 ,否则为0 。 s t e pf i v e :比较类的权重,将文本分到权重最大的那个类别中。 第四章对l 述方法的几点思考 第四章对上述方法的几点思考 4 1 使用互信息量存在的问题 从上面介绍的互信息方法的特征评价公式可以看出,互信息量的直观 意义是:对每个词条,以它在每个类别中的出现的频率的和占它在整个文 本集中的出现的频率总和的比率作为计算特征词条的依据。从经验上来 说,这当然是合理的。但这种方法是基于各个类别中的文本量大致相等的 假设的。或者说,这种方法忽略了各个类别中文本数量的多少对词条在每 个类别中出现的比率的影响。设想种极端情况,类别c ,有1 0 0 个样本, 而类别0 只有1 个样本。这时,假定词条w ,和在c ,和q 中每个文珠 的频率均为5 。经过计算,阱和的互信息的分子分别为1 + 5 $ 1 0 0 和 1 + 5 $ l ,二者的结果相去甚远,对样本数日较少的类别中的特征项显然不 利。基于以上考虑,即使某个词与类别c ,的相关程度很小,计算得出 的它和c ,的互信息可能很大而被选中作为特征项;反之,即使与类别 c j 的相关程度很大,但计算得出的其和c j 的互信息可能很小而被丢弃不作 为特征项。 为此,本文将引入类别文本量占整个文本集的比率来修正上面的结果。 用l d l ,表示训练样本中类别c j 中的样本总数,于是类别0 的样本总数在 所有类样本总数中所占的比率r 可以如下计算: r ( ) :粤 id 1 其中m 是分类体系的类别数。把厅作为修正因子,原来的互信息公 式可以改进为: 1 3 一 扎尿上业天竿挫竿坝j 芋位伦文 蚓汕s c 等+ 志, 扎。c 等t 群一, 可以看出,当每个类别中的文本量相等时,改进的方法和原来的互信 4 2 原方法没有考虑不同的分类的特征词条数量的不均衡 由于各个类别中的特征词条数不同,在后面的计算中,可以看出,特 征词条少的类别只有放大每一个r m l ( 1 1 ,c ) 才能使得该类在计算中不因为 特征词条数目少而处于劣势。如果刁i 这样做的话:直观感觉是样本数目较 火,所含特征数较多的类别对待判样本的“引力”较大。直观解释是:特 征少的类别中,每一个特征词条的重要性应该较大一些。 因此,我们在以后的计算中,使用到r m i ( t ,c s ) 的计算都乘个系数 m 倒,用来解决这种不平等问题。 时f n m ( c s ) 竺竖! 叭d 2 丽2 赢 其中,蚴表示类别c i 的特征词条数 肘r a 表示所有类别的特征词条总数 m 是分类体系的类别数。 第四苹对上述方法的几点思考 4 3 判别公式和判别规则的模糊性使用神经网络的必要性 文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信 息,总结出分类的规律性而建立的判别公式和判别规则。然后当输入新文 本时,根据总结出的判别规则,确定文本相关的类别。但是,所谓的判别 规则始终是模糊的,不明确的,不可能有显式的表达式。判别公式和判别 规则的模糊性是各种文本分类方法的共同属性,无论是简单向量距离分类 法还是贝叶斯分类算法概莫能外。而神经网络对于这种规则比较模糊的判 别上有自己独特的优势。因此,文本分类问题十分适合使用人工神经网络 作为分类器。 白上世纪8 0 年代初兴起第二次神经网络热潮以来,神经网络以它特有 的自学习、自组织、联想记忆和并行处理的功能,被应用到众多的领域, 特别适合处理复杂、模糊的非线性现象。神经网络理论的确已经成为勰决 某些问题的手段和方法,且这类问题是用传统方法要么无法解决,要么在 处理上有很多困难。 其中,b p 网络是使用的最广泛的一种神经网络。b p 网络主要用于以下 领域: 1 函数逼近:用输入矢量和相应标准输出矢量训练一个网络逼近一个 函数: 2 模式识别:用一个特定的输出矢量将它与输入矢量联系起来; 3 数据压缩:减少输出矢量维数以便于传输和存储。 下面一章将简要介绍人工神经网络。 一1 5 北京工业大学理学碳上学位论文 第五章人工神经网络介绍 5 1 人工神经网络原理 人工神经刚络是在现代神经生物学研究的基础上提出的模拟生物过 程,反映人脑的某些特性的一种计算结构。它不是人脑神经系统的真实描 写,而只是它的某种抽象、简化和模拟。但是,在不致混淆的情况下,人 们也常把人工神经网络称为神经网络。 图一神经元模型 神经元常被称为“处理单元”,有时又从网络的观点出发,把它称为 “节点”。人工神经元是生物神经元的一种近似,在功能上将它是一种初 级逼近。它在一定程度上模拟了生物神经元对输入信号的处理过程。上图 表示的是一个基本神经元模型,它有三个基本要素:( 1 ) 加权系数 ( i i ,i - l ,2 ,门) ;( 2 ) 求和函数( ) :( 3 ) 激活函数( ,) ,此外, 还有一个阈值( 口) 。一个神经元可以有多个输入( 丑,地,儿) ,但只 有一个输出( y ) ,它可表示为: y :厂f 宝p ,一p 1 l i = l 这个输出可以同时输入给许多其它的神经元。 1 6 然而,单个的神经元在“计算”能力上并不强。只有把许多的神经元 连接起来,构成一个网络系统,才能完成复杂的“计算任务,呈现出智 能的特性。凼此,神经网络系统是又个高度互联的复杂的非线性系统。 神经网络的连接方式很多,根据连接取向( 或信息流向) 主要分为两种, 即前馈型网络和反馈型网络。而且,每种神经网络模型都有其相应的学习 方法,以“展示”一定的“智能”。 从8 0 年代神经网络的研究再次复苏并成为热点以来,发展非常迅速, 已经取得了丰硕的成果,在应用上更是扩展到了诸如预测、管理、通信、 模式识别、图象处理等许多领域。 5 2 神经网络模型 为了恰当地描述一个神经网络模型,至少需要涉及到一下三个方面, 即网络的拓扑结构、神经元特性以及学习( 训练) 算法。 一个神经网络模型是由若干处理单元( 神经元) 按照某种方式互连而 成的网络。为了表示互连的神经元之间的互相影响程度,对每一连接赋予 一定的权值( 加权系数) 。网络的互连方式以及权值决定了网络的行为。 一般来说,网络是由输入单元、输出单元以及处于它们之间的中间单元( 称 为隐含单元) 构成的,从网络的拓扑结构上,可以将神经网络模型分为两 大类,即前馈型网络( f e e d f o r w a r dn e t w o r k ) 和反馈型网络( r e c u r r e n t n e t w o r k ) 。前者不存在神经元输出与输入之间的反馈连接,而后者则存 在这种连接。其简单的示意图如下图所示。 北京工业大学理学硕:卜学位论文 ( a ) 刺网珞( b ) 删嘞 图二前馈型和反馈型网络 网络的每个处理单元接受来自其它单元的输出,并按照某种规则来计 算本单元的输出,这种输出通常称为活性( a c t i v a t i o n ) 。最常见的处理 单元是把他的若干输入加权求和并对这个和进行非线性处理。一般说来, 每个处理单元都含有个内部门限,用以描述神经元从自发发放到受激发 放转化的闽值,这个门限也称为偏置,它可以并入到加权求和的表达式中。 用来进行非线性处理的函数称为激活函数,它通常是有界的、分段可微的 函数。目前最常用的是s 型( s i g m o i d ) 函数和双极性函数,下图给出了s 型函数和双极性函数的图形。 s 型函数: ,) = 专, 它的导函数为 、厂) = o ,砸一( y ,) 】, 它们的输出范围都为( 0 ,1 ) 。 双极性函数: 1 8 几,) = 高 它的导函数 厂7 ( y ,) = 抄厂2 它们的输出范围为( 一1 ,1 ) 。 l ,u tj 1 ,r ,一 o ( t ) 幽数特畦 i ,f tj 1 ,一 0 一 ,j l 图三s 型和双极性函数特性 f 图给出了一个处理单元是如何工作的。将处理单元看作整个神经网 络系统的一个节点,因而,给处理单元加上了下标j 。 图四神经元工作示意图 1 9 北京工业大学理学硕士学位论文 对于每个神经网络模型都有与其相联系的学习( 训练) 算法。这些算 法决定了权的初值并规定了在学习过程中权应当如何变化以便改善网络 的性能,这些算法要求输入有限的训练样本集。学习又分为两大类,即有 师学习和无师学习两种。其中,有师学习又可以分为自由网络算法和固定 网络算法。前者容许在学习过程中改变网络拓扑结构以及隐含节点数,后 者则只改变网络的权值。对算法的考虑主要是收敛速度的快慢、是否收敛 到全局最优的情况以及算法的适应性等,在以后的章节中,我们将着重讨 论固定网络的算法。 如上所述,神经网络拓扑结构、神经元特性( 求和函数和激活函数) 以及学习特性是比较各种神经元网络模型的基本要素。后边所要介绍的神 经网络模型就是从这三个方面米展丌的。 5 3 多层前馈型网络 多层前馈型网络是由输入层、输出层以及若干隐含层节点互连而成的 一种多层网。它的输入和输山是在( 0 ,1 ) 或( 一1 ,1 ) 之间连续取值的,每个 处理单元对输入的加权和乃加以s 型函数处理后得到其活性输出。 对多层前馈型网络的训练所采用的算法是反向传播训练算法( 简称b p 算法) ,这是一种有导师的学习方法。它利用均方误差和梯度下降法来实 现对网络连接权值的修正。对网络权值修正的目标是使网络实际输出与规 定输出之间的均方误差( m s e ) 减小。对于一个处理单元的情况,如果网 络有k 个训练样本f 纠,对应的正确输出为 矿) ,网络的权为矾则用占表 示的m s e 为: 。:委羔咿b c 1 ) 2 = l 把它看成是权的系数占( 形) ,则它的梯度v s ( 矿) 表示权有一微小变化时 第五覃人工神经刚络介绍 均方误差的最大增长方向;其负值一v g ( w ) 则表示了均方误差的最大减小 方向。因此,我们按照下式来修改权值: w = w p v 占忉) 式中,p 是一个大于零的小数,它规定了修改的步幅。因此,使用梯 度下降法,首先就要设置权值f 的初始值,然后连续计算均方误差相对丁 权的梯度,并按上式逐步修改权值,使其趋于收敛。 5 4matla b 神经网络工具箱简介 m atlab 语言是一种解释性语言,基本数据元素是矩阵,它提供 了各利- 矩阵的运算和操作,并有较强的绘图能力,成为应用广泛、备受人 们喜爱的一种软件环境。神经网络工具箱是m atlab 环境下所开发出 来的许多工具箱之一。它是以人工神经网络理论为基础,用m atlab 语言构造出典型神经网络的激活函数,使设计者对所选定网络输出的计 算,变成对激活函数的调用。另外,根据各种典型的修正网络权值的规则, 加上网络的训练过程,用m atlab 编写出了各种网络权值 j 1 ) 练的子程 序,直接调用即可。网络的设计者可以从繁琐的编程中解脱出来,集中精 力去思考问题和解决问题,从而提高研究工作的效率和质量。bp 网络是 在实际应用中使用最广泛的神经网络模型。它具有多层感知机构,除了输 入层和输出层外,还可含有一个或多个隐含层。 bp 网络模型经常使用的是s 型的对数或正切激活函数和线性函数。 为了训练一个bp 网络,需要计算网络加权输入矢量以及网络输出和误差 矢量,然后求得误差平方和,当所训练矢量的误差平方和小于目标误差, 训练则停止。否则在输出层计算误差变化,且采用反向传播学习规则来调 整权值,重复此过程。当网络完成训练后,对网络输入测试矢量,网络将 输出结果。 2 l 一 北京工业大学理学硕士学位论文 第六章改进的中文信息分类方法 这里,我们通过改进互信息,解决各个类别中的训练文本数量不相等 带来的问题;通过适当使用系数m ( 。= 等罟解决各个类别特征词条数目 不等带来的问题;通过使用人工神经网络解决判别规则的模糊性问题。 结合了前面若干章中所述的关键技术并着眼与以上三点,我们实现了 一个自动文本分类系统。 6 。1 系统的结构框架 训练过程 分类过程 息。 其中: 训练文本的预处理部分一一计算了每一个词条与各个类的改进互信 第六苹杈进的中文信息分类力法 特征词条抽耿部分一以”类”为单位,抽取其中一部分词条作为某类 特征词条。 训练文本编码和测试文本编码部分根据每一个特征词条与每一类 的相关程度( 改进的互信息) 进行编码,对一个文本中包含的所有特征词 条的编码,进而划文本样本进行编码,最后计算该样本的训练或测试输入 向量。 在构造分类器部分一一使用m a t a b 设计和训练b p 人工神经网络作为 文本分类器。 分类和输出部分一一根据神经网络输出结果,判断一个样本所属类别。 6 2i l l l 练文本的预处理、文本特征的抽取以及对特征词条编码 在我们的系统中采用了词条和类别之间的改进的互信息量作为特征项 拙取的判断标准,其算法过程如下所列: s t e po n e :初始情况下,每个类别的特征词条集合包含所有该类中出 现的词条。 s t e pt w o :对于每个词,计算该词和各个类别的互信息量 删w , c i ) - l 。双帮+ 志) 扎。舁+ 面i d i , , 其中,p ( w i c j ) 。 1 + l 兰, ,( ,d ,) y | + ! ,蛩( 巩,d ,) 在类别e 中出现的“比重” 2 3 一 p ( w i c ) 作为词条w 北京工业大学理学硕士学位论文 d 1 ,为q 类的训练文本数; ( ,d ,) 为词w 在d ,中的词频; f v i 为0 类总词数; ! 詈( 呒,z ) 为所有词在该类的词频和。 p ( ) 的计算同上面的计算公式相同,只是把所有的训练样本组成一 个“总类”,( ) 就是计算词条在“总类”中的“比重”。 尸c,=谚再芝溉,pc,作为词条在“总类”中 l d i 为“总类”的训练样本总数; n ( w ,d ,) 为词w 在一中的词频: i v l 为“总类”包含的词条数; ! 型( 岷,d i ) 为所有词在“总类”的词频和。 ) :些中 id 1 m 是分类体系的类别数。 d i ,表示训练样本中类别q 中的样本总数。 s t e pt h r e e :对于每个类中所有的词,依据上面计算的互信息量排序。 s t e pf o u r :除去每个类中互信息量都比较大的特征词条,然后抽取 每个类中剩余的特征词条中互信息量比较大的1 0 的词条作为该类的特征 项,各个类的特征词条组成各个类的特征词库。 , ,。,! 尘童鐾墼篓塞鋈型二,一 s t e pf i v e :对特征词条进行“编码”。在编码时,根据分类精度的 不同需求,将每个类的特征词库划分成若干个不同的级别,这里,特征库 划分为5 级。网时,为了便于量化,分别用1 ,2 ,3 ,4 ,5 表示特征词的 级剐,其中“1 ”表示最高级别,以下依此类推。 具体做法如下: 1计算每个类中的 r g i最大值和最小值的差 m a x ( r m i ( w ,c ,) ) 一m i n ( r m i ( w , ,q ) ) ; 2 将每个类对应的特征词条按r 大小均匀分为5 部分,每部分对 应一个分类级别; 对于每个特征词条w ,它在g 类中的级别为x ,则它在该类中的特征 信息编码为 q w ,c ,3 了三 这样,每个文本西都可以表示为: d ,= ( ,i v y ) ,矾属于c ! ,2 1 ,小。 c ,是d ,所属的类: m 是分类体系的类别数; ( 本文的类别数为t o ) 耽为西所属的类0 的第k 个特征词条的级别; 为c ,包含的特征词条的数目。 6 3 对文本进行编码 为了压缩文本信息编码的维数,且突出文本类别特性,在对类别特征 一2 5 北意工业大学理学硕十学位论文 词条进行编码的基础上,进步对文本信息进行编码。 前面文本表示为: d ,= ( ,帆,) ,4 属于g ,2 l ,。 g 是矾所属的类; 埘是分类体系的类别数; 帆为d ,所属的类g 的第k 个特征词条的级别; 为c ,包含的特征词条的数目。 现在,通过对文本进行的编码,使得矾2 ( 丁,乃,乃,乃,乃,死,丁, ,r 9 ,7 1 d ) ,其中 t j - e x p 荟 一+ 南1,= 【1 性、j , = e x p 既e 。m ( c j ) = e x p 蔷【既一+ l m ( c j ) 1 式中: t j 为文本d i 信息编码的第,维分量,它表示文本露属于q 类的程度; n 表示c j 类特征词条的总个数。 删) = 鬻,其中,蜗) 表示类别。的特征词条数,川c ) 表示所 有类别的特征词条总数; m 为分类体系的类别数。 6 4 设计b p 人工神经网络训练样本 我们对5 5 0 文本样本进行信息编码,得到1 0 维文本的信息编码向量 5 5 0 个,其中2 7 5 个作为b p 网络分类器的输入的训i 练样本,其余2 7 5 个作 为测试样本。 设b p 网络为三层一一输入层、隐含层和输出层。输出神经元1 个,隐 含神经元2 0 。 部分训练样本集如下: p i p 3 p 5 p 7 p 9 0 0 00 0 0 0 0 0 0 0 0 2 8 20 0 00 0 00 0 00 0 00 0 0 o0 000 03 7 104 97 2 9 70 6 20 0 00 ,0 00 0 000 0 0 8 50 1 8 3 2 000 02 8 7 7o 8 70 ,0 00 ,0 0 0 2 200 0 0 0 00 0 00 0 0od o1 4 5 500 01 9 80 0 0 0 0 00 0 0 0 0 00 0 005 20 3 2 5 1 2 0 ,0 00 0 00 0 00 0 00 0 0 训练样本对应的输出为: t = 55555 : 测试样本为: p 2 = 0 0 000 00 0 0 0 0 02 0 8 20 0 0 00 00 0 00 0 00 0 0 p 4 = 00 00 0 0 0 0 0 0 0 01 50 700 00 0 0 0 ,0 0 0 0 00 0 0 p 6 = 00 00 0 000 00 2 1 5 9 900 00 0 00 0 000 000 0 : p g - 0 。0 0 0o 0 03 ,1 7 6 0 0 0 0 00 。o o ( 1 00 0 00 。0 0 ; p l o = 00 00 0 00 0 0 0 2 63 3 。7 90 0 00 0 0 0 0 0 0 0 00 0 0 测试样本对应的输出为 t 1 = 55555 m a t l a b 训练函数为: n e t = n e w f f ( m ir l n l 3 x ( p ) , 2 0 ,1 , t a n s i g ,p u r e l i n ) ,t r a i n g d ) 一2 7 北京工业人学理学硕十学位论文 n e t t r a i n p a r a m 1 r = 0 0 5 :学习速度,此值越大,权值调整越快 n e t t r a i n p a r a m e p o c h s = 1 0 0 0 0 :最大迭代次数 n e t t r a i n p a r a m g o a l = 1 e5 :网络的精度目标 n e t ,t r - t r a i n ( n e t ,p ,t ) : s 3 v es a v e f i le 保存参数 训练过程为: 图五样本训练过程 6 + 5 使用样本测试文本分类系统的分类结果 模拟函数为: a = s i m ( n e t ,p 1 ) 一t i 部分模拟结果误差为: d9 9 2 949 0 d7 d9 8 9 010 4 4 949 9 3 2 43 0 3 450 1 2 849 9 5 4 49 8 8 249 9 3 0 80 0 0 050 0 0 0 5o 0 0 05o 0 0 0 0 ( j i ( j 05o 0 0 0 6o o o o50 0 0 050 9 0 0 50 0 0 0 00 0 7 100 0 5 3 00 1 0 5 二:i 上i i l 00 0 6 8 二k s m k 00 1 2 8 一o0 0 4 6 0 叭1 8 。00 0 7 0 c o iu m n si lt h r o u g h2 0 t9 9 4 8 50 5 15499346 8 8 2 49 0 0 7d9 8 8 2 49 9 4 749 8 5 281 2 2 7 49 9 3 0 50 0 0 0 50 6 0 05o o o o5o o o o50 0 0 0 5o 0 0 05o o o o5o o o o 5o o o o50 0 0 0 90 0 5 2 0 ( 1 5 1 5 0 0 0 6 9 03 1 1 800 0 9 300 【t 8 00 0 5 3 00 1 4 8 312 2 7 00 0 7 0 模拟结果共2 75 个小列,其中,每一小列中有三个数字,从上到 f 含义分别为:分类器计算结果,实际所属类别和计算误差。红色数 字表示误差超过o 5 ,表示归类错误。 下表是错误统计: 应属类别错误计算结果 数量 981 0 97 1 91 0 3 9无对应分类1 24 1 2 31 71 0l 1 08 l 1 051 871 67 1 651 682 6101 322 3l1 411 4 8 1 421 542 5 1 1 58l 总计:3 6 2 9 北京t 业大学理学硕士学位论文 第七章计算结果分析 7 1 计算结果分析 测试样本共2 7 5 篇,结果错误3 6 篇( 红色标识) ,准确率为 3 6 2 7 5 = 8 6 g ,原来使用普通的互信息只有7 8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 填充墙砌体专项施工方案
- 初中八年级科学压强知识清单(浙教版)
- 2026年心理咨询师资格认证考试题目及答案解析
- 《刷子李》精读教学设计-小学语文五年级下册
- 八年级地理(粤人版)上册第四单元第一节农业与科技兴农第一课时核心知识清单
- 八年级生物下册实验探究专题教学设计
- 初中八年级历史与社会《蒸汽时代的大门:工业革命》教学设计
- 病原体检测技术课件
- 八年级数学《实数》单元易错点深度剖析与思维建构教学设计
- 《核心素养导向的初中七年级地理上册全册教案》
- 2026年新版七年级下册道德与法治期末素养测试卷(含答案)
- 2025年湖南省郴州市初二地生会考真题试卷+答案
- 2026年国开形成性考核《刑事诉讼法学》形考任务题库检测试卷带答案详解(基础题)
- 2026中国热带农业科学院分析测试中心高层次人才引进4人笔试参考试题及答案解析
- 无线网络测试优化案例
- 公交公司内部审计制度
- 2026年中考语文备考之名著阅读《经典常谈》知识点汇编(完整版)
- 结肠息肉切除术后迟发性穿孔的早期识别策略-1
- 催化燃烧设备培训课件
- 电梯内控烟制度规范
- 2026年下学期小学二年级语文句子仿写与扩充练习
评论
0/150
提交评论