中文命名实体识别的傅立叶卷积网络_第1页
中文命名实体识别的傅立叶卷积网络_第2页
中文命名实体识别的傅立叶卷积网络_第3页
中文命名实体识别的傅立叶卷积网络_第4页
中文命名实体识别的傅立叶卷积网络_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中文命名实体识别的傅立叶卷积网络摘要:针对transformer编码器架构在中文命名实体识别任 务上表现不佳的问题,提出使用无参数化的傅立叶子层替换 编码器中自注意力子层,使用卷积神经网络替代前馈神经网 络。实验表明,采用结合傅立叶变换和卷积神经网络的 transformerencoder架构的算法,可以在较小的字符嵌入和 参数量下实现性能提升,且训练过程更快。关键词:中文命名实体识别;编码器;傅立叶变换;卷积神经 网络中图分类号:TP391; TP18文献标识码:A文章编号:2096-4706 (2022) 02-0104-03Abstract:Inviewofthepoorperforma

2、nceoftransformerencoderarchi tectureinthetaskofChinesenamedentityrecognition , anon-parameterFouriersublayerisproposedtoreplacethe selfattentionsublayerintheencoder,andaconvolutionalneuralnetworkisusedtoreplacethefee dforwardneuralnetwork. Experimentsshowthatthealgorit hmbasedonthetransformerencoder

3、architecturecombining Fouriertransformandconvolutionalneuralnetworkcanimp rovetheperformancewithsmallcharacterembeddingandpar ameters, andthetrainingprocessisfaster.KeywordsChinesenamedentityrecognition;encoder;Fouriertransf orm;convolutionalneuralnetwork 0引言命名实体识别是自然语言处理领域的重要基础课题,旨在将 文本中命名实体分类到预定义的

4、类别,如人名、组织和公司 等。自然语言处理领域的一系列下游任务都依赖于命名实体 的准确识别,如问答系统和知识图谱,甚至在推荐系统领域 内NER也开始扮演着重要角色。现有的标准NER模型将命名实体识别视作逐字符的序列标注 任务,通过捕获上下文信息预测每个命名实体的预定义标签 分类概率。该领域内的主要模型可以大致分为以条件随机场 为代表的概率统计模型和以BiLSTM-CRFl为代表的深度学 习模型。Transformer2架构在NLP领域的其他任务中快速地占据了 主导地位,通过从输入的组合中学习更高阶特征的方式灵活 地捕获不同语法和语义关系。但其核心的注意力子层在方向 性、相对位置、稀疏性方面不太

5、适合NER任务。本文引入无参数的傅立叶变换子层和卷积神经网络单元对Transformer架构中注意力子层和前馈神经网络单元进行完 全替代,改进后的Transformer结构解决了中文命名实体识 别中模型特征提取能不足和中文潜在特征表示不充分的问 题。傅里叶子层和卷积神经网络单元的参数规模和并行性能 使得该架构在小规模语料、较小字符嵌入和快速训练场景中 更具实用性。模型在CLUENER20223中文细粒度命名实体识 别数据集上取得了较好的实验性能。1相关工作近年来,基于深度学习的实体识别方法开始成为主流研究方向。Collobert 4等提出使用卷积神经网络完成命名实体识别任务。RNN模型因为能够

6、解决可变长度输入和畏期依赖关 系等问题被引入NER领域,BiLSTM-CRF模型使用双向长短期 记忆网络和其他语言学特征提升模型识别效果。傅立叶变换作为神经网络理论研究的重要方向。 Chitsaz 等 在卷积神经网络中部署了 FFT以加快计算速度,Choromanski等利用随机傅立叶特征将Transformer自注意力机制的复杂 性线性化,而James等5提出的FNet网络更是在训练速度 和模型精度上取得了成功。本文提出了 一种基于新型Transformer编码结构的命名实体 识别方法,通过引入无参数化的快速傅立叶变换弥补 Transformer结构的自注意力机制在中文命名实体识别任务 中方

7、向性和相对位置上的不足,并采用更适合上下文信息交 互的卷积神经网络替换Transformer结构中密集的全连接层。 新型Transformer编码结构结合BiLSTM-CRF模型,在不引 入先验知识和预训练信息的基础上,采用更少的词嵌入长度、 参数量和标注数据语料即可充分捕获文本序列的潜在特征, 构建一种迁移能力更强、完全端到端的命名实体识别模型。 2FTCN模型FTCN模型共包含三个部分:FTCN编码模块,BiLSTM模块和 CRF模块。FTCN编码模块支持随机初始化并自主训练词向量 和预训练词向量微调两种词嵌入方式。BiLSTM模块通过引入 门控机制充分提取文本的双向语义特征。最后,CRF

8、模块采 用动态规划算法将BiLSTM输出的特征向量解码为一个最优 的标记序列。2. 1FTCN解码模块FTCN-Encoder是一种无须注意力机制的Transformer架构, 其中每一层由一个傅里叶子层和一个卷积神经网络子层组 成,模块结构如图1所示。本质上,本文是将每个Transformer 架构的自注意力子层替换成一个傅里叶子层,该子层将输入 序列沿着序列长度和词向量维数两个维度进行离散傅立叶 变换。同时,本文使用卷积神经网络取代每个Transformer 架构的前馈神经网络,卷积神经网络可以模拟实现类似 n-gram模型的效果,充分挖掘上下文字符之间的语义特征, 相较于前馈神经网络参数

9、量更少且更适合命名实体识别任 务。其中,傅立叶变换将函数转换成一系列周期函数,给定一个 序列,离散傅立叶变换的公式为:其中,k0, N-1,对于每个k,离散傅立叶变换将原始输 入表示为之和。傅里叶子层将输入沿着序列长度和词向量维 数两个维度进行离散傅立叶变换。对于结果我们仅保留实数 部分。同时,如果保留Transformer中的前馈神经网络,则 FTCN-encoder模块将退化成无卷积神经网络参与的 FTNN-encoder模块。FTCN-encoder模块的特征提取能力更 强,且可以通过设置各子层的连接方式,选择ResNet连接 或Concat连接。而FTNN-encoder模块的连接方式

10、则更适合 ResNet连接,模型参数量过大且难以收敛。2. 2BiLSTM 模块长短期记忆网络是一种特殊的RNN网络,在动态捕获序列特 征和保存记忆信息的基础上引入门控机制和记忆单元。用于 缓解长序列遗忘问题的三个门控机制分别为遗忘门、输入门 和输出门,这种门控机制通过对记忆单元的信息进行有效遗 忘和记忆,能够学习到长期依赖并解决了不同长度输入和 RNN容易产生梯度消失和爆炸的问题。BiLSTM是对长短期记 忆网络的一种优化改进,使用正向和反向长短期记忆网络来 提取隐藏的前向语义信息和后向语义信息,实现对上下文数 据的充分利用。2. 3CRF模块通常,基于概率统计的机器学习和深度学习都是将命名

11、实体 识别任务视作序列标注问题,所以多采用Softmax等分类器 完成多分类任务。但Softmax分类器忽略了预测标签之间的 依存关系,而依存关系是命名实体识别中重要的机制。条件 随机场模型可以考虑标签序列的全局关系,得到全局最优的 标注序列。3实验与分析本文采用控制变量的方法进行实验设计,为了验证傅立叶卷 积网络FTCN的性能和各个结构对性能提升的占比,将采用 统一的数据处理方法、相同的运行环境和训练参数设置。模 型的差异度仅存在于不同的结构构成,共同部分确保一致。 在每轮实验中都让模型得到充分训练,并采用多轮测试取平 均的方式作为最终的性能指标,排除随机性和其他实验干扰。 3. 1实验数据

12、及评价指标本文使用中文细粒度命名实体识别数据集CLUENER2022,本 数据是在清华大学开源的文本分类数据集THUCTC基础上, 选出部分数据进行细粒度命名实体标注。CLUENER2022采用 四元标记集B, I, 0, S,标注了包括组织、姓名、地址、 公司、政府、书名、游戏、电影、组织机构和景点共计10 个标签类型。其中B表示命名实体的第一个词,I表示命名 实体的其余词,0表示非命名实体词,S则表示命名实体为 单个字符。与其他可用的中文数据集相比,CLUENER2022被 标注了更多的类别和细节,具有更高的挑战性和难度。CLUENER2022数据集的信息统计如表1所列。为了衡量模型的性能

13、,实验采用综合所有标签的准确率(Precision, P)、召回率(Recall, R)和 F 值(Fl-score) 作为评价指标。具体计算公式如下:其中,P=l,表示准确率和召回率权重相同,此处F值即为 F1值。3. 2模型搭建和参数设置实验使用PyTorch搭建模型,并保证模型的数据处理和训练、 测试部分代码的一致性。PyTorch是一个基于Torch的 Python开源机器学习库,用于自然语言处理等应用程序。实 验所涉及模型的参数设置如下:输入维度为128,训练集和 测试集的batch size为32,训练学习率为0. 01, dropout 参数均为0. 5, FTCN中卷积核ker

14、nel_size设置为3和5并 保证输出维数与输入维数一致。3. 3实验结果在CLUENER2022数据集上,为了有效验证FTCN模型的性能, 本文采用以下四种方法进行实验设置:CLUENER2022数据集 中的基线模型BiLSTM-CRF、采用FTCN解码模块的FTCN(encoder) -CRF、将FTCN解码模块中卷积神经网络替换为 transformer 中前馈神经网络的FTNN(encoder)-BiLSTMCRF 和本文提出的FTCN模型。实验结果如表2所示。从表2中可以看出,BiLSTM-CRF的F1值为69. 90%相较于CLUENER2022数据集中提出的基线模型取得了相近的

15、结 果;FTCN (encoder) -CRF模型由于缺少BiLSTM模块所以取 得较差的成绩;FTNN (encoder) -BiLSTM-CRF由于FNN导致 编码模块的特征提取能力不足;本文提出的FTCN模型在准确 率、召回率和F1值三项评价指标上均取得了最优,对比 CLUENER2022 提出的 baseline 即 BiLSTM-CRF 模型将 F1 值从 70%提升至72. 48%,提升幅度约为3. 54%,并且模型训练速 度显著提升,收敛更为迅速。4结论本文提出了 一种全新的端到端神经网络FTCN,并将其应用于 中文命名实体识别任务中且在CLUENER2022中文细粒度命名 识别

16、数据集上验证了模型的性能。该模型的编码模块使用类 似Transformer编码的架构,使用傅立叶变换子层取代了 Transformer中的自注意力子层,并选择更适合自然语言处 理任务的卷积神经网络代替前馈神经网络。在降低模型参数 量的基础上,提升了模型的并行程度,充分挖掘上下文字符 间的语义信息,提升了命名实体识别的性能。参考文献:HUANGZ,XUW,YUK. BidirectionalLSTM-CRFmodelsforsequencetaggingJ /0L. arXiv : 1508.01991cs. CL. 2022-11-02. https : /arxiv. org/abs/150

17、8. 01991.VASWANIA , SHAZEERN , PARMARN , TOC o 1-5 h z etal. AttentionisallyouneedJ/OLarXiv:1706. 03762cs.CL. 2022-11-02. https:/doi. org/10. 48550/arXiv. 1706. 03762.XUL , DONGQ , LIAOY , etal. CLUENER2022 :fine-grainednamedentityrecognitiondatasetandbenchma rkforChineseJ/OL. arXiv:2022. 04351cs. CL. 2022-11-05. https:/doi. org/10. 48550/arXiv. 2022.04351.PINHEIR0P0,COLLOBERTR. WeaklySupervisedSemanticSegmentationwith Convolutional

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论