CN111783461B 一种基于句法依存关系的命名实体识别方法 (衡阳市山伊科技有限公司)_第1页
CN111783461B 一种基于句法依存关系的命名实体识别方法 (衡阳市山伊科技有限公司)_第2页
CN111783461B 一种基于句法依存关系的命名实体识别方法 (衡阳市山伊科技有限公司)_第3页
CN111783461B 一种基于句法依存关系的命名实体识别方法 (衡阳市山伊科技有限公司)_第4页
CN111783461B 一种基于句法依存关系的命名实体识别方法 (衡阳市山伊科技有限公司)_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种基于句法依存关系的命名实体识别方法本发明涉及一种基于句法依存关系的命名所识别到的实体边界和类型都与标注实体的边向长短期记忆网络(Bi-LSTM)网络之后,添加自系编码进上下文信息,最后根据Bi-LSTM网络提2步骤S2,使用双向长短期记忆网络对句子中每个时间步步骤S3,用句法分析技术得到每个句子的句法依存树,步骤S4,根据最短依赖路径得到每个单词的自顶向下步骤S6,使用自注意力机制以归一化的关系权重将单词步骤S6中使用自注意力机制以归一化的关系权重将单词之间的局部关系特征融入全首先对Bi-LSTM1输出的全局特征做一个线性变换,并左乘归一W,eR2h1s为线性变换参数矩阵;签序列;所述步骤S2中使用双向长短期记忆网络对句子中每个时间步的词向量分别进行前向所述步骤S3中用句法分析技术得到每个句子的句法依存树,计算树序列的依存句法树;对于输入序列中任意两个单词a与b,他们之间的最短依存路径SDP为所述步骤S4中根据最短依赖路径得到每个单词的自顶向下以及自底向上的特征序列3{c,使用隐藏单元的个数为h2的双向长短期记忆网络Bi-LSTM2从这两种序列中提取单词之表示,其中是单词wt在Bi-LSTM1的输出,embnb}计算得到后向隐藏状态和连结两个方向的隐t来得到单词wt的局部特征所述步骤S5中通过局部特征点积来计算两两单词之间的关系权重并进行按照相同的方法计算得到文本序列中两两单词之间的关系紧密系数,将所述步骤S1中在模型训练阶段,首先用预训练过的Word2vec把one-hot单词向量映射记词典大小为V,采用预训练过的Word2vec把维度为V的one-hot单词向量映射到定义wt使用融合特征S进行序列标签预测,通过CRF将初步预测的标签所述步骤S8中在模型测试阶段,使用上述步骤训练好的网络来进行命名实体识别包使用监督文本训练好网络参数之后,在测试阶段,使用该网络来边界进行识别。4[0003]在文本中,准确的识别命名实体类型及其实体边界对开[0004]本发明的目的是提供一种在文本中能更加准确识别命名实体边界以及类型的方[0005]为解决上述技术问题,本发明提供了一种基于句法依存关系的命名实体识别方[0007]步骤S2,使用双向长短期记忆网络(Bi-LSTM)对句子中每个时间步的词向量分别5[0015]记词典大小为V,采用预训练过的Word2vec把维度为V的one-hot单词向量映射到[0016]进一步,步骤S2中使用双向长短期记忆网络(Bi-LSTM)对句子中每个时间步的词[0017]使用隐藏单元的个数为h1的双向长短期记忆网络(Bi-LSTM1)对给定时间步t的输入xt进行前向和后向的编码,并将该时间步正向隐藏状态记为反向隐藏状态记为然后,连结两个方向的隐藏状态和来得到隐藏状态便是拥有给定时间步t上下文信息的全局特征,对于输入序21的输出特征为bnb1nm[0022]使用隐藏单元的个数为h2的双向长短期记忆网络(Bi-LSTM2)从t来得到单词wt的局部特征6[0035]进一步,步骤S7中根据融合特征初步预测序列标签,使用CRF对预测序列进行精[0045]步骤S2,使用双向长短期记忆网络(Bi-LSTM)对句子中每个时间步的词向量分别7语言方法。依存语法在保留句子的短语结构信息的基础上直接表示出词和词之间的关系,方法有利于进行实体中的词以及实体与实体外词的关系分析,进而能更好的判断实体边训练过的Word2vec把维度为V的one-hot单词向量映射到定义好的(输出的词向量维度记为[0055]例如对于长度为6的输入样本序列“TsinghuaUniversityislocatedin[0056]进一步,步骤S2中使用双向长短期记忆网络(Bi-LSTM)对句子中每个时间步的词[0057]使用隐藏单元的个数为h1的双向长短期记忆网络(Bi-LSTM1)对给定时间步t的输入xt进行前向和后向的编码,并将该时间步正向隐藏状态记为反向隐藏状态记为然后,连结两个方向的隐藏状态和来得到隐藏状态便是拥有给定时间步t上下文信息的全局特征,对于输入序26}1的输出特征为8[0062]对于输入文本序列“TsinghuaUniversityislocatedinBeijing”中单词[0063]使用隐藏单元的个数为h2的双向长短期记忆网络(Bi‑LSTM2)从个单词及其依存句法树上的支配词之间的依存关系类型dt的分布式表达,例如:d1=及其余关系类型的分布式表达将被随机初始化并随网络模状态thzeRa和后向LSTM2根据自顶向下序列{“located”,“University”,“Tsinghua”}和{“located”,“Beijing”}计算得到后向隐藏状态和9[0075]首先对Bi-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论