版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
表1给出了一个混淆矩阵,其中TP代表真实的类别是正例且模型预测结果也为正例;FP代表真实的类别是负例,但是模型预测结果为正例;FN代表真实的类别是正例,但模型预测结果为负例;TN代表真实的类别是负例且模型预测结果也为负例。准确率指的是模型预测结果中分类正确的个数占数据总数的比例,使用公式REF_Ref71617744\h(1)计算:(SEQ(\*ARABIC1)精确率指的是如果模型认为一个数据是正例,则它是正例概率的大小,使用公式REF_Ref71617766\h(2)计算:(SEQ(\*ARABIC2)召回率指的是样本中被正确预测的正例样本占所有正例样本的比值,用来衡量模型在验证集中可以找回正例的比率,使用公式REF_Ref71617898\h(3)计算:(SEQ(\*ARABIC3)F1-Score是精确率和召回率的调和均值,当测量出现了相反的情况时,可以考虑结合测量出来的精确率与召回度之间来进行评估模型,使用公式REF_Ref71617940\h(4)计算:(SEQ(\*ARABIC4)本文采用ACC和F1值两个指标说明预测模型的质量高低。3.4实验结果与分析3.4.1实验设置本次实验是在Windows系统下进行操作完成的,具体环境配置如1所示。表1实验环境配置名称配置操作系统Windows10CPUIntelCorei5-8250U@1.60GHz1.80GHz编程语言Python3.6深度学习框架Tensorflow1.14通过不断训练与优化,为防止过拟合,采用dropout的方法,设置为0.5。本次实验设置卷积核尺寸(kernel_size)为(2,3,5),批处理大小(batch_size)为32,全连接层神经元数(hidden_dim)为128,初始学习率设置为0.00001,训练周期(epoch)设置为100。3.4.2实验结果与分析本文使用的卷积神经网络模型对新闻进行文本分类的效果如图4,可以看出整体准确率达92%以上,实验结果如表2所示。图4表2实验结果实验结果评价指标TextCNNACC0.9229F1Socre0.9228CNN分类模型的分类效果优于传统机器学习分类模型,因为CNN模型比传统机器学习模型能自动提取和学习更多的分类特征,这也说明了深度学习模型在自动特征提取和学习方面比传统的机器学习具有更多的优势。总结与展望本文主要介绍了在现今社会中,新闻文本自动分类的需求及必要性,重点介绍了文本分类的关键技术、基本原理和方法,以及相关的深度学习内容,并通过基于深度学习的卷积神经网络来对文本分类。对文本进行分类的一个关键点就是准确地提取一个文档或其他语言句子的核心思想,而对其他语言进行提取核心思想的一种技术手段就是通过选择提取一个文档或其他语言句子的一个关键词来作为其特征,根据这些关键词的特征来训练一个分类器并对其进行识别和归纳。传统的文本表示方法往往不考虑词与词之间的位置顺序关系,忽略了上下文之间的联系,造成了语义信息丢失的问题。而由于CNN的卷积和池化处理过程是一个关键词特征提取的过程,当我们能够准确地提取出关键词特征时,就能够准确地提取出文档或句子的中心思想。所以这篇论文采用卷积神经网络模型就能更好的理解文本中蕴含的语义信息,对新闻能实现更准确地分类。深度学习这种方法是通过引入CNN进行特征提取,可以达到比较好的效果,但是也可能会存在一些问题,搭建一个CNN模型结构就需要正确地选择许多个超参数,例如:输入表征(word2vec,GloVe,one-hot),卷积核的数量和尺寸,池化的策略(最大值、平均值),以及激活函数(ReLU,tanh)等,这样就导致参数较多而使训练时间相对过长,超参数较多模型调整麻烦等问题。在文本分类中也经常遇到以下的问题需要在后续继续研究:1)数据集类别不均衡:即语料集中,各个类别下的样本数量差异较大,会影响最终文本分类模型的效果。可以通过调整数据做数据增强处理,NLP中一般随分词后的词序列进行随机的打乱顺序、丢弃某些词汇然后分层的采样的方式来构造新的样本数据。也可以使用代价敏感函数来调整:例如图像识别中的FocalLoss等。2)文本分类模型的泛化能力。首先,对于一个未知的样本数据,分类模型只能给出分类标签中的一个,无法解决不属于分类标签体系的样本。我们无法预知未来的数据会是什么样的,也不能保证未来的所有分类情况在训练集中都已经出现过。参考文献CNNIC发布第47次《中国互联网络发展状况统计报告》[J].网信军民合,2021(02).KimY.ConvolutionalNeuralNetworksforSentenceClassification[J].EprintArxiv,2014.HintonGE.Learningdistributedrepresentationsofconcepts.[C]//EighthConferenceoftheCognitiveScienceSociety.1989.HubelDH,WieselTN.Receptivefields,binocularinteractionandfunctionalarchitectureinthecat'svisualcortex.[J].JournalofPhysiology,1962,160(1):106-154.黄少滨,吴汉瑜,李熔盛等.一种基于神经网络的文本分类方法:2020-04-28.陶文静.基于卷积神经网络的新闻文本分类研究[D].北京交通大学,2019.蔡慧苹,王丽丹,段书凯.基于wordembedding和CNN的情感分类模型[J].计算机应用研究,2016,33(10):2902—2905+2909.蓝雯飞,徐蔚,王涛.基于卷积神经网络的中文新闻文本分类[J].中南民族大学学报(自然科学版),2018,v.37;No.126(01):138-143.刘冬瑶,刘世杰,陈宇星,等.新闻文本自动分类技术概述[J].电脑知识与技术,2017,013(035):87-91.刘海峰,王元元,张学仁,姚泽清.文本分类中基于位置和类别信息的一种特征降维方法[J].计算机应用研究,2008(08).宋一凡.自然语言处理的发展历史与现状[J].中国高新科技,2019(3).孙璇.基于卷积神经网络的文本分类方法研究[D].上海师范大学,2018.王天笑.自然语言处理的现状研究与未来发展初探[J].中国科技纵横,2017,0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国古代行政监督制度
- 办学自主权监督制度
- 合同履行监督制度
- 农村考评监督制度
- 人防行政执法监督制度
- 初中师德考核监督制度
- 地税强化服务监督制度
- 公务接待风险点监督制度
- 两类项目综合监督制度
- 内控专项监督制度
- 会展数字化转型
- DL∕T 5370-2017 水电水利工程施工通 用安全技术规程
- (正式版)HGT 22820-2024 化工安全仪表系统工程设计规范
- 高中全册物理实验总结
- (高清版)TDT 1075-2023 光伏发电站工程项目用地控制指标
- 电力建设施工技术规范 第1部分 土建结构工程DL5190.1-2012
- 巩膜后兜带术后护理查房
- 下肢静脉曲张的护理
- 口腔修复前的准备及处理-口腔检查与修复前准备(口腔修复学课件)
- GB/T 18314-2009全球定位系统(GPS)测量规范
- 中国人保财险2022校园招聘笔试试题与答案答案解析
评论
0/150
提交评论