基于文本序列和语义信息学习的计算机文本分类研究_第1页
基于文本序列和语义信息学习的计算机文本分类研究_第2页
基于文本序列和语义信息学习的计算机文本分类研究_第3页
基于文本序列和语义信息学习的计算机文本分类研究_第4页
基于文本序列和语义信息学习的计算机文本分类研究_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于文本序列和语义信息学习的计算机文本分类研究第一章 绪论1.1 论文研究背景及意义互联网技术发展使得各种信息大量充斥于网络世界,而信息的主要形式就是文本,新闻、小说、博客、聊天等包含了大量的文本内容,如何对文本数据进行自动分类、组织和管理,已成为一个重要的研究课题。对文本进行分类有着重要意义,一方面文本分类可以帮助人们高效、快捷地管理和使用文本数据,例如检索系统;另一方面,文本分类为人们对文本中的数据进一步挖掘提供了基础,例如问答系统、词性标注等。最初的文本分类是专业人士根据领域知识对少量文档进行的,花费高昂且无法大规模分类,不能满足互联网发展的需求1,因此人们希望通过辅助工具来更快、更好和

2、更准确的管理更多的信息。基于机器学习的文本分类系统能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,因此得到日益广泛的关注,成为信息处理领域最重要的研究方向之一1。文本分类最早兴起于上世纪 60 年代,主要通过一些人工定义的规则手动分类,工作量大,效率低1。随着互联网的发展,低效的规则方法无法满足大数据量文本分类的需求,因此发展出了高效的自动文本分类模型。文本分类模型的关键在于学习好的特征,即文本表示学习,其属于表示学习的一部分,良好的文本表示可以极大地帮助提升文本分类的效果。目前主要的文本表示学习的方法和理论有向量空间模型(Vector Sp

3、ace Model,VSM)、主题模型(如 LDA,LSI)和基于神经网络的深度学习模型2-11。向量空间模型的基础为词,通过信息增益等特征选择方法选择特征,通过 TF_IDF 等方法计算特征值,最后以选择的特征和特征值构建文本表示;但其丢失了文本语义和序列信息,一般用于长文本的分类,不适用于短文本和句子级文本的分类。主题模型通过学习词和文本的主题分布来表示文本和词,虽然学习到了浅层语义,但是其所学习语义是粗粒度的、模糊的主题;另外主题模型计算复杂,需要并行化计算,且其不适用于短文本和句子级文本建模。基于神经网络的深度学习模型是目前研究最多和最广泛的方法,该类方法一般在词向量基础上通过深度学习

4、模型(如 CNN、RNN、AutoCoder 等)利用文本的序列信息来学习文本表示;相较于前两种方法,深度学习模型最大的优势在于其可以自动学习文本特征和文本表示,但是其目前对于句子和短文本级的文本建模较多,而对于长文本建模较少,且在长文本分类上的表现不理想。.1.2 国内外研究现状文本分类的任务包括分词、词表示、文本表示和文本分类模型。分词是其他任务的基础,中文分词需要用分词算法切割汉字,英文需要转换形态;词表示是文本表示和分类的基础,词表示有多种方法,包括 one-hot 表征,词向量和主题分布表征等;文本表示一般是在词表示的基础上通过表示学习算法得到;文本分类模型在文本表示基础上学习,包括

5、经典统计机器学习模型、神经网络模型和深度学习模型等。本部分将重点阐述在词表示、文本表示和文本分类模型上的研究。1.2.1 词表示词表示是文本分类的基础,词表示旨在使算法(或计算机)理解词的意思,包括语义等词的语言特征信息。但是此处的理解词与人类理解词是不同的,前者只是将词表示于向量空间中,用某个位置代表某种语义,并不理解其所代表的事物或概念的特征、属性和用法等。最初的词表示采用独热(one-hot representation)模式,即将语料中的所有词编上序号,词所编序号的位置的值为 1,其余位置为 0,例如机器;=0,0,0,1,0。这种方法表示太过稀疏,且词与词之间不存在关联,即使相同语义

6、的词也无法度量,只是将词符号化或者数值化了,不包含任何语义等信息。为克服 one-hot 模式的缺点,人们提出来词的连续空间表示,其中分布式表示是目前应用最广泛的方法。分布式表征是基于分布式假说提出的12,分布式假说认为上下文相似的词,它们的语义也相似;其核心思想可以概括为两点:选择一种方式描述上下文和选择一种模型建立词和其上下文之间的关系13。分布式表示先后有三种实现:基于矩阵的分布式表示、基于聚类的分布式表示和基于神经网络的分布式表示14-17。基于矩阵的分布式表示又被称为分布语义模型,基本思想是通过对词-上下文;矩阵进行矩阵分解(如 SVD,奇异值分解)从而获得低维稠密的向量来表示词,主

7、流方法有 LSA 等模型3,6,7;基于聚类的分布式表示又被称为分布聚类,其基本思想是通过聚类来建立词和其上下文之间的关系;目前主流的表示方法是第三种,本文主要介绍基于神经网络的分布式表示。.第二章 文本分类相关理论与技术文本分类是自然语言处理的一项任务,其研究和实现需要依托于其他相关的基础技术和理论,本章将主要讨论论文依赖的技术和理论,包括:分布式假说、深度学习模型、语言模型、词向量学习模型、分词技术、经典分类算法和 TensorFlow技术。2.1 分布式假说Harris 于 1954 年提出了语言的分布式结构36。Harris 认为语言具有分布式结构,语言可以被多个独立的特征结构化表示,

8、即分布式表示。语言中的元素的分布可以认为是其周围环境(上下文)的综合。针对语言的分布式结构,Harris 从四个方面进行了论证:(1)语言(文本)中的每个部分并非随机出现的,其出现一定是与其他部分相关联的,甚至于其出现的位置也与其他元素的位置息息相关。(2)语言中元素的分布并非自由多变的,而是相对固定和相对受限的,这种限制分布可能出于语义、句法等的需要,且一般适用于其出现的各种环境。例如:形容词一般会修饰名字,蓝蓝的;一般修饰大海;和天空;。(3)语言的分布式表述可以涵盖语言的所有元素且无需其他类型信息的支持,可以表述一个词,一个短语,一句话,一段文本等。(4)语言中每个元素的相关元素对其的限

9、制可以简单地通过一个相关性网络进行描述,甚至某些元素直接作为其他元素的部分而存在。总之,Harris 从各个方面论述语言存在分布式结构。同时,Harris 讨论了语言的分布式结构与语义上的关联,其认为语义是基于元素分布式结构的一个函数。随后,1957 年 Firth 进一步阐述将语言的分布式结构总结为分布式假说,即词的语义由其上下文决定;12。这成为了词表示学习的基础理论,基于此理论,后人通过聚类、矩阵分解和机器学习等方法不断地尝试学习更准确的词表示。.2.2 深度学习模型LSTM(Long Short-Term Memory)模型即长短词记忆模型,是循环神经网络模型(Recurrent Ne

10、ural Network,RNN)的一个变种37。RNN 旨在利用历史信息帮助当前的学习,一般 RNN 模型只使用了前一个历史信息(比如一个词),可以帮助我们记忆短距离的信息,但在实际中由于梯度消失问题(激活函数的原因)导致 RNN 在许多情况下无法记忆历史信息(参数得不到训练),因此人们提出了LSTM 模型,该模型解决了梯度消失的问题,使得模型可以记忆一定长度的历史信息,其结构见图 2-1。从图 2-1 可以看出,RNN 是一个在时间上延展的深度学习模型,其每一个时间步都可以产生一个输出,对于这些输出我们可以取均值,取最大值和取最后一个输出等。LSTM 对 RNN 的改进主要是图中的 A,即

11、隐藏层。LSTM 将隐藏层分层了三部分:输入门(input gate)、遗忘门(forget gate)和输出门(output gate),其结构见图 2-2。.第三章 基于文本语义和序列信息的通用文本表示模型. 213.1 基于词向量的文本语义研究 . 213.2 文本序列信息含义和学习方法研究. 223.3 通用文本表示模型研究 . 243.3.1 文本表示方法分析 . 243.3.2 多粒度文本学习 . 253.3.3 通用文本表示模型 . 263.4 本章小结. 27第四章 基于通用文本表示模型的文本分类研究. 284.1 句子分类模型 . 284.1.1 基于 LSTM and Wo

12、rd-Sum 的句子分类模型 . 284.1.2 基于 CNN and Word-Sum 的句子分类模型. 324.2 文档分类模型. 354.3 本章小结 . 40第五章 实验与分析. 415.1 实验环境. 415.2 实验数据. 415.3 实验内容. 435.4 实验结果与分析. 475.5 本章小结. 55第五章 实验与分析5.1 实验环境本论文的实验在 PC 机上进行,操作系统为 Windows7(64 位)操作系统;开发语言为 python;中文分词工具采用中科院 NLPIR,英文分词和词干提取工具是NLTK;具体实验环境配置见表 5-1 所示。词嵌入数据主要包含中文数据集和英文

13、数据集两部分数据。对于中文数据集,本文选取了 40 万搜狗新闻数据和网络爬虫爬取的 10 万篇新闻数据两个数据集,分别包含了 993147 个词语和 306573 个词语;对于英文数据集,本文选取维基百科 100 万条数据,共包含了 52930 个单词(词干)。在词向量实验中,本文主要使用中文数据集来探讨词向量,所学得的词向量数据是本文文本分类实验的基础。Standard Sentiment TreeBank 是一个对评论极性分类的数据集。该数据集上的任务有两个:一是五分类任务 SST_5;二是二分类任务 SST_2。五分类任务中共包含 9161 个训练数据和 2126 条测试数据,数据分属于

14、 negative、very negative、neural、positive 和 very positive 五个类别;二分类任务中共包含 7388 个训练数据和 1748 个测试数据,分属于 positive 和 negative 两个类别。酒店评论语料是情感极性分类语料,这里主要有积极和消极两种情感。酒店评论语料共有 10000 条评论,我们从中选取较短的句子级别的语料共 5453 条,其中消极评论 1291 条,积极评论 4162 条,我们选取消极评论和积极评论中的一半作为训练集,另一半作为测试集。.结论随着互联网的崛起和发展,各种新闻、论坛、微博等网站涌现在互联网中,人们每天都可以看

15、到各方面、各种类型的信息,这些信息信息中尤以文本信息居多,且覆盖面最广。那么如何去向读者推荐新闻,如何从论文评论中分析人们的行为,如何从万千数据中挖掘有用的信息等这些任务都包含了丰富的商业信息,同时这也可以反过来更好地服务人们。实现这些任务的基本手段是对信息进行分类,其中以文本分类为主要基本手段。文本分类由来已久,现代互联网的发展将自动文本分类推到了研究前沿,近年许多学者投入了文本分类相关的研究。本论文基于近年来人们对于文本语义、文本序列信息、深度学习模型等研究,进一步研究文本表示学习,提出了多粒度文本学习的方法和通用文本表示模型,并在此基础上提出了两个句子分类模型和两个文档分类模型,最终在句

16、子分类和文档分类任务上取得了良好的表现。(1)在词义研究方面,通过对词向量原理的研究和分析,本文揭示词向量所编码的分布式信息的本质含义,即一种包含了语义、词性、语用和语法等一般语言特征的综合编码,是广义上的语义,并最终通过实验进一步发现词向量的这种本质特性不受学习模型、词向量维度和训练数据集的影响,而是源自于分布式假说和语言模型本身。基于此,本文进一步揭示了词向量学习与任务的相关性,即将词向量学习与任务优化共同训练将有助提升任务效果,词向量的动态更新可以帮助模型自动学习更加完好的特征,并最终通过句子分类实验证明了这一结果。(2)在序列信息方面,本文从词和句子两种粒度下揭示了文本序列信息的本质含

17、义。词级的顺序性反应了文本的句法、语法等信息,句子级的顺序性反映了文本的行文逻辑信息,是理解文章的基础。同时,本文从全局序列信息学习和局部序列信息学习两个方面分析序列信息学习方法。最终本文将序列信息的学习用于文本分类的任务,并在句子和文档分类上取得了良好的表现;尤其是句子级序列信息的学习,对文档分类有很大的帮助。(3)在文本表示和文本分类方面,本文提出了多粒度文本学习的方法,并提出了通用文本表示模型。该模型一方面可以帮助学习良好的文本表示,另一方面可以将不同长度的文本表示学习统一起来。同时,基于通用文本表示模型和多粒度文本学习方法本文提出了两个句子分类模型和文档分类模型,并在文本分类任务上取得了良好表现,尤其是在文档分类任务上的效果,充分证明了多粒度文本学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论