版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
号一种融合全局和局部特征的多类别中文文本发明公开了一种融合全局和局部特征的积神经网络在上下文语义特征的基础上提取带渐进的方式先捕获全局语义特征再捕捉局部语2所述上下文语义提取器包括正向Bi-LSTM网络、反向Bi-LSbatchxnx2d,batch为每一批次读入的文本数在Bi-LSTM模块之后引入注意力机制,生成含有注其中,a∈Rbatchxr*nx2d,m=Wa2σ(Wa1H+ba),r表示每个文本的a2∈Rr*nxd表示每个文本不同的注意力方案矩阵,ai是第i时刻的全局语义特征注意得到每一时刻的注意力概率分布ai后,将它们分别和该时刻对应的全局语义特征hi相所述局部语义提取器采用宽卷积神经网络CNN,用于在加权全局语义特征的基础上提把加权全局语义特征V作为宽卷积神经网络CNN的输入,CNN对加权全局语义特征进行卷积操作,每一次卷积都通过一个固定大小的窗口来产生一个新的特征经过卷积后得3把最终得到的特征向量C作为分类层的输入,分类层采用dropout方式将最佳特征Cd连Softmax分类器用于计算出文本数据属于每一类别的概率p(y),它是一个维度为类别S4、采用最小化优化方法,把预测结果与训练文本真实类别之S5、将经过步骤S1、S2处理后的待分类文本数2.根据权利要求1所述的一种融合全局和局部特征的多类别中文文本分类方法,其特3.根据权利要求1所述的一种融合全局和局部特征的多类别中文文本分类方法,其特通过词嵌入矩阵的映射,把按批次读入带有标签的文本维度,每个字在词嵌入矩阵Ew中都有一个唯一的用于检索其对应词向量的索引它是一4.根据权利要求1所述的一种融合全局和局部特征的多类别中文文本分类方法,其特4海量的数据中蕴含着许多有价值的信息,如何高效的挖掘并利用这些信息成了一大难题,且RNN还存在梯度爆炸和梯度消失等问题。Schuster等人提出了RNN的一种变体BiLSTM网长序列信息。针对这一现象Kalchbrenner等人[22]利用宽卷积代替窄卷积,并采用K5本数据映射为一个三维词向量矩阵M,词嵌入矩阵可以由Word2Vec或者NNLM方法得到,此向量维度,每个字在词嵌入矩阵Ew中都有一个唯一的用于检索其对应词向量的索引它[0022]本发明设计的文本分类模型包括上下文语义提取器模块、局部语义提取器模块、[0024]递归神经网络RNN擅长解决时间序列问题,但它不能很好的处理长时记忆的问题6Whfeohoec息,Bi-LSTM网络通过正向和反向两层网络结构来扩展单向的LSTM网络,保证了在时间序b0f0分别表示正向和反向的初始单元状态信息,Cbn和Cfn存储着正向和反向最终的单到反向Bi-LSTM网络,可得到后向隐藏层特征Bi-LSTM网络在第i个时刻的上下文词嵌入表示hi是正向输出和反向输出的级连,拼接每个时间步的语义状态得到全局语义特征a2∈Rr*n×d表示每个文本不同的注意力方案矩[0043]所述局部语义提取器用于在加权全局语义特征的基础上提取文本数据的局部语7[0044]把加权全局语义特征V作为宽卷积神经网络CNN的输入,CNN对加权全局语义特征Wvi∈R2d×h表示卷积操作所采用的卷积核[0051]得到最终的特征向量表示后,最后的工作就是将得到的文本特征向量通过[0055]Softmax分类器用于计算出文本数据属于每一类别的概率p(y),它是一个维度为8[0066]3)在计算加权全局语义特征信息时,为了实现attention的多样性,使用r种[0076]图6示出了本发明在短文本三分类情感分析任务中模型训练过程准确度变化示意[0077]图7示出了本发明在短文本三分类情感分析任务中模型训练过程误差变化示意9量化表示的数据训练本发明提出的文本分类模型;使用训练完成的模型进行文本分类预[0085]本次实验使用的语料数据是利用爬虫技术爬取国内某大型电商平台上关于**感[0088]对**感冒药评论数据进行数据清洗预处理,包括删除原始数据集中的无关数据、[0090]对标注完成的评论数据使用jieba进行分词和去停用词,此过程使用的部分医学[0101]本发明设计的文本分类模型包括上下文语义提取器模块、局部语义提取器模块、发明提出的TBLC-rAttention模型性能,本次实验选取了CNN、LSTM、Bi-LSTM、BiLSTM-的比较结果如表5所示,所有的数据是在训练准确度和测试准确度都不再变化,再循环[0107]在表5中,通过LSTM和Bi-LSTM的实验结果可以发现,虽然Bi-LSTM花费的时间比LSTM多,但是准确度提高了约3这是由于Bi-LSTM网络通过正向和反向两层网络结构来扩展单向的LSTM网络的结果,这样的网络结构可以充分提取文本的上下文信息,因此准确型中引入Attention机制准确度提高了4%左右,说明Attention机制的确可以有效的识别的分类准确率达到了99在本次实验的所有模型中分类准确度最高。[0111]表6展示了TBLC-rAttention模型的验证效果,模型基本上以100%的准确率实现文本多分类任务中各模型总体对比结果;表9示出了在长文本多分类任务中各模型在每一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026农业投资行业市场供需分析投资评估规划深度研究报告
- 2025中小学教师高级职称专业水平能力题库(含答案)
- 2025年AI情绪调节设备库存周转率提升策略
- 2025新证券从业资格考试考点速记题目及答案
- 2026届河北省石家庄市长安区重点达标名校毕业升学考试模拟卷历史卷含解析
- 陕西省合阳城关中学2026届中考英语最后一模试卷含答案
- 医院排队拥挤踩踏应急演练脚本
- 可回收物回收利用隐患排查评估整治技术指南(2025年版)
- 2026年国家电网招聘考试(电工类研究生)历年真题
- 公司“三重一大”制度执行情况报告
- 《新能源发电与控制技术 第4版》 课件 第1章 新能源发电与控制技术导论
- DL-T5418-2009火电厂烟气脱硫吸收塔施工及验收规程
- 河北嘉恒隆生物科技有限责任公司建设年产 10000 吨食品用明胶、5000 吨食用蛋白粉、5000 吨宠物饲料和 5000 吨油脂资源综合利用项目环境影响报告表
- 安全隐患排查及整改制度
- 人教版小学四年级信息技术上册知识点整理与归纳
- 饭店送餐合同协议书
- 《肿瘤分子生物学》课件
- 记账凭证封面直接打印模板
- 治安管理处罚法一本通
- 2023年湖南省长沙市中考物理试题(原卷)
- 头针疗法幻灯片
评论
0/150
提交评论