




已阅读5页,还剩91页未读, 继续免费阅读
(计算机应用技术专业论文)潜在语义分类模型的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 文本自动分类是组织和管理文本信息的有力手段,1 1 以在较大程度上 解决 信息杂乱无章的问题,使用户更容易更准确地定位所需的信息。目前,文木自 动分类是信息检索 ( i n f o r m a t i o n r e t r i e v a l : i r ) 领域中最前沿的研究热点之一, 国内外均有大量学者从事这方面的研究 潜在语义 索引 模型 ( l a t e n t s e m a n t i c i n d e x in g : 1 3 1 ) ,是 近年 来在信息 检索 领域中使用较多并较为有效的维数约简算法之一。应用 l s i 模型进行信息检索 或文本分类,不是基于文档集中表层的词汇信息而是潜在语义结构,其性能比 传统的 基于向 量空间 模型 ( v e c t o r s p a c e m o d e l : v s m) 的方 法要高出 许多。 然而,l s i 在降低维数的同时也会丢失 些关键信息。i , s i 荃于文档的词信 息来构建语义空间, 得到的特征空间会保留原始文档矩阵中最主要的全局信息。 但在某些情况 卜 。一些对类别的正 确识别非常重要的特征,因为放在全局下考 虑显 得不重要,而在维数约减的过程中被滤掉。 针对上 述问题,在扩展 l s i 模刑的基础仁 , 我们提出了一 种新的文本分类 模型: 潜在语义分类模型 ( l a t e n t s e m a n t i c c l a s s i fi c a t i o n : l s o 。本文较为 详细 地阐述了潜在语义分类模型的原理,并研究了l s c模型在特征维数变化 卜 的分 类性能问题和l s c模型与 其它经典分类模型的性能比 较问题。根据我们的实验 结果,l s c模型具有良 好的分类稳定性和准确度;在英文文本分类和中文文本 分类的实验中,均表现出了比k n n分类器和s v m分类器更好的分类性能。 木文的创新之处包括: i )在扩展潜在语义索引模型的基础上,提出了 一 种新的文本分类模型: 潜在语义分类模型 ( l a t e n t s e m a n t i c c l a s s i f ic a t i o n : l s c ); 2 ) 验证和分析了 l s c模型的英文文本和中文文本的分类性能,研究了 l s c模型的分类稳定性以及与 其它多种分类模型的性能比较问题。 关 键词: 文 本 分 类; 潜 在 语 义 索引 ; 潜在 语 义分 类; 偏 最小 二 乘回 归 abs tract a s o n e o f t h e m o s t e f f e c t i v e t e x t i n f o r m a t i o n m a n a g e m e n t m e t h o d , a u t o m a t e d t e x t c a t e g o r i z a t io n ( t c ) c a n h e lp p e o p le m i n i n g 伽 e l e c t r o n i c t e x t m o r e q u i c k l y a n d e a s i l y . n o w a d a y s , t c i s a r e s e a r c h h o t s p o t i n t h e d o m a i n o f i n f o r m a t i o n r e t r i e v a l ( i r ) , a n d m o r e a n d m o r e s c h o la r s a r e i n te r e s t e d i n t h e t c p r o b l e m l a t e n t s e m a n t i c i n d e x in g ( l s i ) m o d e l i s a p o p u l a r f e a t u re re d u c t io n m e t h o d i n i r d o m a i n . a s t e x t s a r e r e p r e s e n t e d勿 t h e l a t e n t s e m a n t i c v a r i a b l e s i n s t e a d o f t h e o r i g i n a l t e r m s , l s i m o d e l e x c e e d v e c t o r s p a c e m o d e l ( v s m ) s i g n i fi c a n t l y h o w e v e r , a c c o m p a n i e d w it h t h e r e d u c t i o n o f f e a t u r e s i z e , l . s i m o d e l w i l l l o s e s o m e c r u c i a l in f o r m a t i o n f o r c la s s i f i c a t i o n . a s w e k n o w , t h e l s i r e p r e s e n t a t i o n c a n c a p t u r e t h e m o s t im p o r t a n t g lo b a l p r in c i p a l c o m p o n e n t s o f t e x t c o l l e c t io n . b u t w h e n l s i i s u s e d i n c l a s s i fi c a t i o n , s o m e i m p o r t a n t f e a t u r e s m a y b e i g n o r e d b e c a u s e o f t h e s m a l l v a l u e s o f t h e i r c o r r e s p o n d i n g e i g e n v a l u e . t o s o l v e t h i s p r o b l e m , w e p r o p o s e a n e w t e x t c l a s s i fi c a t i o n m o d e l : l a t e n t s e m a n ti c c l a s s i fi c a t i o n ( l s c ) m o d e l 勿 e x t e n d i n g l s i m o d e l . t h e m o d e l p r in c i p le a n d t h e r e s u l t s o f t h e i n fl u e n c e o f t h e f e a t u r e d i m e n s i o n o n t h e p e r f o r m a n c e o f l s c m o d e l a r e d e s c r i b e d i n t h i s t h e s i s . i n a d d i t i o n , w e c o m p a r e l s c m o d e l w i t h s o m e c o m m o n c la s s i f i c a t io n m o d e l s , a n d t h e e x p e r i m e n t s s h o w t h a t l s c m o d e l p e r f o r m s b e tt e r t h a n t h e e x i s t in g c l a s s i f i c a t i o n m e t h o d s s u c h a s k n n a n d s v m. t h e m a i n c r e a t i v e p o i n t s o f t h i s t h e s i s a r e : 1 ) b y e x t e n d i n g l s i m o d e l , w e p r o p o s e a n e w t e x t c l a s s i f i c a t i o n m o d e l : l a t e n t s e m a n t i c c l a s s i f i c a t i o n ( l s c ) m o d e l ; z ) w e s t u d y t h e p e r f o r m a n c e o f l s c m o d e l o n e n g l i s h a n d c h i n e s e c o r p u s r e s p e c t i v e l y , a n a l y z e t h e l s c m o d e l s s t a b i l i t y , a n d c o m p a r e l s c m o d e l wi t h s o me c o mmo n c l a s s i f i c a ti o n mo d e l s k e y wo r d s :t e x t c l a s s i f i c a t i o n ; l a t e n t s e m a n t i c i n d e x i n g ; l a t e n t s e m a n t i c c l a s s i f i c a t i o n ; p a r t i a l l e a s tr e g r e s s i o n 第一章 引言 第一章 引言 , . , 研究背像 随着全球信息化浪潮的到来,信息的重要性与日 俱增。虽然目 前网上的多 媒体信息越来越多, 然而在可预见的将来, 文本信息仍然是最重要的信息源。 我们可以 看到,商业部门、 政府机构以 及个人正面对着越来越多与工作、生活 密切相关的文本信息。 尤其是2 0 世纪9 0 年代以 来, i n t e r n e t 上的文本信息增长 迅猛,容量惊人,但在给人们带来丰富信息资源的同时,也使人们陷入了所谓 的 “ 信息灾难”。 文 本自 动 分 类 ( a u t o m a t e d t e x t c a t e g o r iz a ti o n ) , 是 组 织 和管 理 文 本 信 息的 有 力手段,它可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确 地定位所需的信息。因此,如何对这些海量文本信息进行科学分类、有效利用 是当前i待解决的问题。 然而,传统的手工分类方法已 经不适用了,利用计算 机对大量文本信息进行自 动分类处理己 经成为必然的趋势,而且文本自 动分类 技术在数字图书馆、个性化信息检索、 信息过滤和信息推送等领域都具有极其 广泛的应用前景,所以具有极高的研究价值。 文本自 动分类的基本任务是:在给定的分类体系下,根据文档的内 容自 动 地确定与文档关联的类别。也就是对文档根据其内容,从预先定义好的 类别集 合中找出一个或者多个最适合于该文档的类别。系统的输入是需要进行分类处 理的大量文档,系统的输出是与文档关联的类别。 从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文档映 射到分类体系下己有的类别中。该映射可以是一一映射,也可以是一对多的映 射,因为某些文档不但可以与一个类别相关联,也可以与多个类别相关联。该 映射用数学公式表示如下: f : a一)b ( 1 - 1 ) 其中,a为待分类的文档集合,b为分类体系中的类别集合。 文本分类的映射规则 f是文本分类系统的关键;它是分类系统根据已 经掌 握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式或判别 规 则。 根 据 系 统 使 用的 学习 方 法的 不同 , 这 些 判 别 公 式 和 判 别 规 则 的 建 立 和 使 用方式也各有不同。 在已 经确定的映射规则的基础上,系统在遇到新文档时, 通过计算和判断,最终确定文档相关的类别。 第一章 引言 第一章 引言 , . , 研究背像 随着全球信息化浪潮的到来,信息的重要性与日 俱增。虽然目 前网上的多 媒体信息越来越多, 然而在可预见的将来, 文本信息仍然是最重要的信息源。 我们可以 看到,商业部门、 政府机构以 及个人正面对着越来越多与工作、生活 密切相关的文本信息。 尤其是2 0 世纪9 0 年代以 来, i n t e r n e t 上的文本信息增长 迅猛,容量惊人,但在给人们带来丰富信息资源的同时,也使人们陷入了所谓 的 “ 信息灾难”。 文 本自 动 分 类 ( a u t o m a t e d t e x t c a t e g o r iz a ti o n ) , 是 组 织 和管 理 文 本 信 息的 有 力手段,它可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确 地定位所需的信息。因此,如何对这些海量文本信息进行科学分类、有效利用 是当前i待解决的问题。 然而,传统的手工分类方法已 经不适用了,利用计算 机对大量文本信息进行自 动分类处理己 经成为必然的趋势,而且文本自 动分类 技术在数字图书馆、个性化信息检索、 信息过滤和信息推送等领域都具有极其 广泛的应用前景,所以具有极高的研究价值。 文本自 动分类的基本任务是:在给定的分类体系下,根据文档的内 容自 动 地确定与文档关联的类别。也就是对文档根据其内容,从预先定义好的 类别集 合中找出一个或者多个最适合于该文档的类别。系统的输入是需要进行分类处 理的大量文档,系统的输出是与文档关联的类别。 从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文档映 射到分类体系下己有的类别中。该映射可以是一一映射,也可以是一对多的映 射,因为某些文档不但可以与一个类别相关联,也可以与多个类别相关联。该 映射用数学公式表示如下: f : a一)b ( 1 - 1 ) 其中,a为待分类的文档集合,b为分类体系中的类别集合。 文本分类的映射规则 f是文本分类系统的关键;它是分类系统根据已 经掌 握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式或判别 规 则。 根 据 系 统 使 用的 学习 方 法的 不同 , 这 些 判 别 公 式 和 判 别 规 则 的 建 立 和 使 用方式也各有不同。 在已 经确定的映射规则的基础上,系统在遇到新文档时, 通过计算和判断,最终确定文档相关的类别。 江西师范大学硕十学位论文潜在语义分类模型的研究 目 前, 文 本自 动分 类 是信 息 检索( i n f o r m a ti o n r e t r ie v a l : i r ) 领 域 2 6 , 2 7 , 4 7 冲 最前沿的 研究热点 之一,国内 外均有大量的学者从事这方面的研究2 , 1 7 , 2 9 , 3 8 , 4 0 , 4 2 , 4 3 , 4 5 , 4 6 , 4 8 , 4 9 , 5 1 , 5 2 , 5 3 1 。 文本自 动分类技术, 不同于传统的基于数据库的数据分类, 其根本原因在于文档具有自身的特点。其一,电子文档大都是半结构化或非结 构化的,缺乏统一的形式;其二,文本的内容是人类所使用的自 然语言,目 前 计算机很难从语义上进行处理。对于前者,当前的主要办法是进行必要的预处 理,从而把文本转化为一致的、结构化的形式;对于后者,当前的解决办法是 利 用 统 计 分 析 、 机 器 学 习 、 数 据 挖 掘 等 领 域 的 方 法 7 , 10 , 12 , 15 , 19 , 2 0 , 3 3 , 4 4 ,进 行 处 理 , 如 : 回 归 模 型 、 k 近 邻、 决 策 树、 朴 素 贝 叶 斯、 模 糊 集 和 支 持向 量 机 等 1 , 5 , 13 , 14 , 2 1, 2 3 , 2 5 , 3 0 , 3 9 , 4 6 1 1 . 2 本文工作 潜在 语 义 索引 模型 ( l s i : l a te n t s e m a n t ic i n d e x in g ) 6 . 16 1 , 是 近 年 来 在 信 息 检索领域中使用较多并较为有效的维数约简算法之一。其基本思想是认为文档 中的词与词之间存在某种联系,即存在某种潜在的语义结构;因此采用统计的 方法来寻找该语义结构,并且用得到的语义结构来表示词和文档。 潜在语义索引方法,已经被证明是对传统的向量空间技术的一种改良,可 以达到消除词之间的相关性,化简文档向量的目的。 用潜在语义索引方法进行 信息检索或文本分类,不是基于文档集中表层的词汇信息而是潜在语义结构, 其性能比关键字匹配方法要高出许多。该方法在信息检索和文本分类领域己 有 许多实际 应用6 , 8 , 1 6 1 ,并取得了良 好的效果。 然而,l s i 在降低维数的同时也会丢失一些关键信息。l s i 基于文档的词信 息来构建语义空间, 得到的特征空间会保留原始文档矩阵中最主要的全局信息。 但在某些情况下,一些对特定类别的正确分类非常重要的特征,因为放在全局 下考虑显得不重要,而在维数约减的过程中被滤掉;该情况对稀有类别尤为明 显。事实上也是,稀有类中出现的词很可能是整个文档集中的稀有词,那么被 滤掉的可能性就很大了。而如果这样,稀有类的分类性能就肯定会受到影响。 针对上述问题,在扩展l s i 模型的基础上,我们提出了一种新的文本分类模 型: 潜在语义分类模型 ( l a t e n t s e m a n t i c c l a s s i f i c a t i o n : l s o 3 5 , 5 3 1 。 与l s i 模 型类似,我们也希望从原始文档空间中得到一个语义空间:然而不同的是,我 们通过第二类潜在变量的加入,把训练集文档的类别信息引入到了 语义空间中。 也就是在尽量保留训练集文档的词信息的同时,通过对词信息和类别信息联合 江西师范大学硕十学位论文潜在语义分类模型的研究 目 前, 文 本自 动分 类 是信 息 检索( i n f o r m a ti o n r e t r ie v a l : i r ) 领 域 2 6 , 2 7 , 4 7 冲 最前沿的 研究热点 之一,国内 外均有大量的学者从事这方面的研究2 , 1 7 , 2 9 , 3 8 , 4 0 , 4 2 , 4 3 , 4 5 , 4 6 , 4 8 , 4 9 , 5 1 , 5 2 , 5 3 1 。 文本自 动分类技术, 不同于传统的基于数据库的数据分类, 其根本原因在于文档具有自身的特点。其一,电子文档大都是半结构化或非结 构化的,缺乏统一的形式;其二,文本的内容是人类所使用的自 然语言,目 前 计算机很难从语义上进行处理。对于前者,当前的主要办法是进行必要的预处 理,从而把文本转化为一致的、结构化的形式;对于后者,当前的解决办法是 利 用 统 计 分 析 、 机 器 学 习 、 数 据 挖 掘 等 领 域 的 方 法 7 , 10 , 12 , 15 , 19 , 2 0 , 3 3 , 4 4 ,进 行 处 理 , 如 : 回 归 模 型 、 k 近 邻、 决 策 树、 朴 素 贝 叶 斯、 模 糊 集 和 支 持向 量 机 等 1 , 5 , 13 , 14 , 2 1, 2 3 , 2 5 , 3 0 , 3 9 , 4 6 1 1 . 2 本文工作 潜在 语 义 索引 模型 ( l s i : l a te n t s e m a n t ic i n d e x in g ) 6 . 16 1 , 是 近 年 来 在 信 息 检索领域中使用较多并较为有效的维数约简算法之一。其基本思想是认为文档 中的词与词之间存在某种联系,即存在某种潜在的语义结构;因此采用统计的 方法来寻找该语义结构,并且用得到的语义结构来表示词和文档。 潜在语义索引方法,已经被证明是对传统的向量空间技术的一种改良,可 以达到消除词之间的相关性,化简文档向量的目的。 用潜在语义索引方法进行 信息检索或文本分类,不是基于文档集中表层的词汇信息而是潜在语义结构, 其性能比关键字匹配方法要高出许多。该方法在信息检索和文本分类领域己 有 许多实际 应用6 , 8 , 1 6 1 ,并取得了良 好的效果。 然而,l s i 在降低维数的同时也会丢失一些关键信息。l s i 基于文档的词信 息来构建语义空间, 得到的特征空间会保留原始文档矩阵中最主要的全局信息。 但在某些情况下,一些对特定类别的正确分类非常重要的特征,因为放在全局 下考虑显得不重要,而在维数约减的过程中被滤掉;该情况对稀有类别尤为明 显。事实上也是,稀有类中出现的词很可能是整个文档集中的稀有词,那么被 滤掉的可能性就很大了。而如果这样,稀有类的分类性能就肯定会受到影响。 针对上述问题,在扩展l s i 模型的基础上,我们提出了一种新的文本分类模 型: 潜在语义分类模型 ( l a t e n t s e m a n t i c c l a s s i f i c a t i o n : l s o 3 5 , 5 3 1 。 与l s i 模 型类似,我们也希望从原始文档空间中得到一个语义空间:然而不同的是,我 们通过第二类潜在变量的加入,把训练集文档的类别信息引入到了 语义空间中。 也就是在尽量保留训练集文档的词信息的同时,通过对词信息和类别信息联合 第一 章 引言 建模,把词和类别之间的关联考虑进来。这样,我们就可以 得到比 l s i 模型的语 义空间更适合文本分类的语义空间。 在我们的实验中,l s c模型的分类性能表现优异。在 “ r e u t e r - 2 1 5 7 8语 料库”和 “ 复旦大学中文文本分类语料库”上的文本分类实验中,均取得了比 s v m模型和k n n模型更好的文本分类效果。 具体来说,本文的工作主要包括以下 几点: 1 )分析了潜在语义索引模型应用于分类任务时, 存在丢失重要的分类信 息的问题;并针对该问题,在扩展潜在语义索引模型的基础上,提出 了 一 种新的文本分类模型: 潜在语义分类模型 ( l a t e n t s e m a n t ic c l a s s i f i c a t i o n : l s c ); 2 )在英文文本分类语料库 “ r e u t e r 2 1 5 7 8 ” 和中文文本分类语料库 “ 复ji 大学中文文本分类语料库” 下, 分别验证了l s c模型的英文文本和中 文文本的分类性能; 3 ) 通过实验验证了l s c模型在特征维数变化下,分类性能的变化情况, 研究了l s c模型分类性能的稳定性; 4 ) 在相同的文本数据预处理情况下, 分析了 l s c 模型与c 4 . 5 , k n n , s m o 和s v m r gh 四 种经典分类模型之间的性能差异; 得出了 l s c 模型在这几 种模型中,整体分类性能相对最优的结论: 5 )构建了一个完整的文本分类实验平台, 能够完成多种分类模型的文本 分类实验。 本文的创新点包括以下儿点: 1 )在扩展潜在语义索引模型的基础上,提出了一 种新的文本分类模型: 潜在语义分类模型 ( l a t e n t s e m a n t i c c l as s i f i c a t i o n : l s c ); 2 )验证和分析了 l s c模型的英文文本和中文文本的分类性能,研究了 l s c模型的分类稳定性以及与其它多种分类模型的性能比较问题。 , . 3 论文组织 本文的具体安排如下: 第一章为引言,简单介绍了文本分类课题的有关研究背景,说明了本文的 研究工作,并罗列了本文的章节安排; 第二章概括性地介绍了文本分类系统及其相关技术。按文本分类系统的实 第一 章 引言 建模,把词和类别之间的关联考虑进来。这样,我们就可以 得到比 l s i 模型的语 义空间更适合文本分类的语义空间。 在我们的实验中,l s c模型的分类性能表现优异。在 “ r e u t e r - 2 1 5 7 8语 料库”和 “ 复旦大学中文文本分类语料库”上的文本分类实验中,均取得了比 s v m模型和k n n模型更好的文本分类效果。 具体来说,本文的工作主要包括以下 几点: 1 )分析了潜在语义索引模型应用于分类任务时, 存在丢失重要的分类信 息的问题;并针对该问题,在扩展潜在语义索引模型的基础上,提出 了 一 种新的文本分类模型: 潜在语义分类模型 ( l a t e n t s e m a n t ic c l a s s i f i c a t i o n : l s c ); 2 )在英文文本分类语料库 “ r e u t e r 2 1 5 7 8 ” 和中文文本分类语料库 “ 复ji 大学中文文本分类语料库” 下, 分别验证了l s c模型的英文文本和中 文文本的分类性能; 3 ) 通过实验验证了l s c模型在特征维数变化下,分类性能的变化情况, 研究了l s c模型分类性能的稳定性; 4 ) 在相同的文本数据预处理情况下, 分析了 l s c 模型与c 4 . 5 , k n n , s m o 和s v m r gh 四 种经典分类模型之间的性能差异; 得出了 l s c 模型在这几 种模型中,整体分类性能相对最优的结论: 5 )构建了一个完整的文本分类实验平台, 能够完成多种分类模型的文本 分类实验。 本文的创新点包括以下儿点: 1 )在扩展潜在语义索引模型的基础上,提出了一 种新的文本分类模型: 潜在语义分类模型 ( l a t e n t s e m a n t i c c l as s i f i c a t i o n : l s c ); 2 )验证和分析了 l s c模型的英文文本和中文文本的分类性能,研究了 l s c模型的分类稳定性以及与其它多种分类模型的性能比较问题。 , . 3 论文组织 本文的具体安排如下: 第一章为引言,简单介绍了文本分类课题的有关研究背景,说明了本文的 研究工作,并罗列了本文的章节安排; 第二章概括性地介绍了文本分类系统及其相关技术。按文本分类系统的实 江西师范大学硕士学位论文潜在语义分类模型的研究 现步骤,介绍了分文本预处理、文本表示方法、维数约简、分类算法和评价方 法等几个部分; 第三章介绍了两种与潜在语义分类模型相关的理论和模型,包括潜在语义 索引模型和偏最小二乘回归分析; 第四章着重说明了我们提出 潜在语义分类模型的思想和原理,并给出了具 体的算法和推导过程; 第五章为以上的研究内容给出了实验结果。针对得到的实验结果,我们进 行了简单的总结和分析: a六章总结全文,并展望了下一步的工作。 第二章 文本分类概述 第二章 文本分类概述 要能够实现文本的自 动分类,必须要有完整的文本分类系统和一整套的数 据处理流程。 一 般来说,一个完整的文本自 动分类实验平台,应包括如下五个 处理模块: 1 )文本预处理模块:对文档集进行分词、词干提取、剔除停用词和稀有 词等操作。目 前对于英文的预处理技术已经比较成熟, 但对中文的预 处理还存在一定的难度,主要是中文文本的精确分词很难实现; 2 )文本表示模块:统计词频及文档频数, 采用适合的 权重计算方式, 构 建文档集的文档向量矩阵; 3 ) 维数约简模块: 利用一定的方法, 从预处理数据中抽取出 若干最有利 于分类的特征项( 可以 是具体的单词、 短语, 也可以是抽象的语义、 概 念单元) , 并把每个文档表示成特征向量的形式, 其中的每个特征项根 据其重要性确定相应的权值,从而完成文档建模的任务; 4 )学习训练模块: 选择文档集中的若干文档构成训练集, 利用一定的算 法对该训练集进行统计或学习,最终构造出一个自 动分类器; 5 )测试评价模块:以实验文档集中的其它文档构成测试集; 利用训练阶 段获得的自 动分类器,对测试集的文档进行分类;并对分类器分类的 结果与文档真实的类别进行比 较, 选择合适的评价指标对分类器的性 能进行评价。 下面,本文就这五个处理模块分别做一些介绍。 2 . , 文本预处理 文本预处理是进行文本自 动分类的第一个步骤。一般情况下,需要分类系 统处理的文档,是不能直接交由分类模型进行分类的。各种类型文档的存储格 式差别很大,而且文档可能是残缺不全或含有噪声信息;必须经过一定的预处 理,以使文档符合分类模型的输入要求。 文本预处理操作,一般包括去除文档中的格式标记、过滤非法字符、字母 大小写转换、去除停用词和稀有词、词干化处理和中文分词处理等处理步骤。 江西师范大学硕十学位论文潜在语义分类模型的 研究 2 . 1 . 1 去除文档中的格式标记 实际应用的文本分类系统的待处理文档,有很大一部分是以网页形式存在 的。 网页文 件的 存储格式采用的是超文本标记 语言 ( h y p e r t e x t m a r k u p l a n g u a g e : h t ml ),而 h t ml文件中都存在大量表示格式信息的标记 ( t a g )。文本的 自 动分类是基于对文档内容信息的统计知识:文档中的格式标记,在做分类处 理前,一般是需要滤去的。 另外,有很多实验用的标准文本分类语料库采用了标准通用标记语言 ( s t a n d a r d g e n e r a l i z e d m a r k u p l a n g u a g e : s g m l ) ; 与h t m l 类似, s g m l 中的 格 式标记信息一般也是需要滤去的。 当然,文档中的格式标记并不是没有用处,它可以帮助我们提取出文档中 特定部分的内容。比如对h t ml文件来说,一般我们只关心其中的正文、标题 和超链接部分的内 容, 处理时就可以通过 , 和否则为0 . 如 f , 0 否则 ( 2 - 2 ) 这种方法的缺点是无法体现这个词在文本中的作用程度。 2 . 2 . 2 词频权孟 词频权重也是一种比较简单的权重计算方式。即,使用词的频数作为词的 权重。 a jk 二 瓜( 2 - 3 ) 2 . 2 .3 rj i d j 权 重 前两种权重都没有考虑词的文档频数信息。 t f i d a t e r m s fr e q u e n c y i n v e r s e d o c u m e n t f r e q u e n c 目 12 7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年关于路沿石协议书
- 沙石的运输合同范本
- 加工工厂保密协议书模板
- 厂里工序分包协议书模板
- 2025年房产抵押转让协议书
- 老人护工合同协议书样本
- 种业加盟合同协议书范本
- 合同变更的补充协议范本
- (2025年标准)终止饭店协议书
- 医院拒收红包回扣协议书
- 铝格栅墙面安装方案
- 浙江首考2025年1月普通高等学校招生全国统一考试政治试卷(含答案)
- 2025至2030肥厚型心肌病(HCM)治疗学行业发展趋势分析与未来投资战略咨询研究报告
- 水利工程监理单位安全生产责任制
- 2025届江苏苏州中考语文真题试卷【含答案】
- 油漆涂料安全培训
- 2025版心肺复苏术指南
- 高一生物实验教学跨学科融合计划
- 2025年中国液态锻模具市场调查研究报告
- 安全监护考试题及答案
- 私募股权投资合作协议书范本
评论
0/150
提交评论