版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络舆情中的情感特征分析案例目录TOC\o"1-3"\h\u18893网络舆情中的情感特征分析案例 [49],即给定样本的类标号,假定属性值条件相互独立同分布,那么在各属性之间则不存在依赖关系,这样有:P概率PX1C(a)Ak是分类属性,则PXkCi是D中属性Ak的值为Xk(b)Ak是连续值属性,通常假定Ak服从均值为μ,标准差为gP(5)在对未知样本X分类时,要计算每个类Ci的PXCP换言之,预测的类标号是使PXCi1.1.2朴素贝叶斯实验分析本文中将网络舆情数据集分为三类,分别用数字代表某一类结果,其中1代表积极,2代表客观,3代表消极,经过去标签化、分词和词向量化之后,样本转变成numpy中的数组,现使用朴素贝叶斯模型进行训练,伪代码由下图所示:图4-2朴素贝叶斯伪代码(1)数据集测试随后使用从舆情数据库中选取的几个句子用以测试,测试结果如下表所示(标注数字表示该语句所属类别,其中1表示积极,2表示客观,3表示消极):表4-1部分测试语句结果序号语句标注1我大遵义厉害!!12平平安安,伤亡不要再增加🙏🙏🙏13祈祷不再有伤亡大家平安14都是同胞25就很轻微的震感,大家下楼也没有很惊慌失措,都是有说有笑的,要是真的地震来了,要是门禁不打开,谁不知道翻过去?与其在这里指指点点,不如去好好关注你自己的生活。26面目表情不是很从容淡定,姿势也比较的凌乱不齐,但勇气可嘉17儿子不懂事3(2)准确性验证本实验从已经经过人工标注的“四川长宁地震”事件评论数据训练集中随机选取200条用来测试,一共进行了20此实验,统计实验结果后将其准确性绘制成曲线如下图所示:图4-3朴素贝叶斯实验结果通过实验发现,在近5000条人工标定的训练集上使用朴素贝叶斯模型进行情感多分类任务的平均准确率在71.3%。1.2基于支持向量机的情感极性分类1.1.1支持向量机模型原理介绍支持向量机(SupportVectorMachine,简称SVM)是一种在机器学习中较为经典的分类模型,其基本思想是在在二维及其以上的特征空间上寻找一个最优超平面,这个超平面能够有效地将大部分数据样本分开,超平面的一侧是正例,另一侧是反例。判定超平时是否最优的标准则是数据样本点里这个超平面的间隔距离,当间隔距离最大时则可认定该超平面为最优。其中,间隔距离指的时超平面到最近的正例和最近的反例之间的距离之和,该思想可用下图表示:图4-5支持向量与间隔该超平面可用以下公式表示:w其中,w=(w1;由于篇幅缘故,现给出支持向量机的基本模型以及添加软间隔概念后的改进模型:基本模型:min改进模型:min其中,ξi另外,在现实生活中,有些数据样本往往不是线性可分的,为此引入核函数对数据进行高维映射,实现原始数据样本的“升维”,从高维空间找到能够将数据样本划分的超平面,下表为几种常用的核函数:表4-2常用核函数核函数类别表达式参数线性核函数κ多项式核函数κd≥1为多项式次数高斯核函数κσ>0,为高斯核函数的带宽拉普拉斯核函数κσ>0Sigmoid核函数κTanh,双曲正切函数,β>0,θ<0使用核函数映射的方法可以大大简化在求解模型过程中高维向量内积的运算,从而使得计算顺利进行。1.1.2支持向量机实验分析(1)特征选取所谓特征选取就是从分类对象中选出该对象所展现的特点,充当实现分类的依据,例如这样的语句:“作为曾经矿用产品从业人士的我知道矿下的危险,尤其是煤矿,瓦斯突出后不是窒息就是爆炸。可以想象吗,十多年前,每年有数千矿工遇难。煤矿重新国有化后,对领导来说,安全是凌驾于经济效益之上的,于是煤矿事故死亡人数大大降低。#有9名矿工在逃生中遇难#”特征是从大量文本中统计出来的高频词,假设在舆情库中由许多这样类似的语句,那么我们可以得知“煤矿”、“事故”、“安全”等是该句子的高频词,也是影响其分类的主要特征。(2)降噪通过去停用词表将该数据中表意不明显或者对句子语义表达无关的词语剔除,并进行分词,在上述例子中,经过降噪处理后,结果如下:['想象','瓦斯','凌驾于','危险','经济效益','中','矿用','窒息','数千','国有化','产品','人士','煤矿','遇难','之上','前','十多年','矿下','逃生','矿工','爆炸','死亡','大大降低','从业','领导','人数','名','事故'](3)数据特征降维数据特征降维是降低词向量的维度,避免出现“维数灾难”,同时降低计算复杂度。在自然语言处理中,特征过多易影响或误导分类器,此时便需要调整参数,过多的特征会使得过拟合的风险增加。本文中,在将无关或冗余的特征数量减少后,不仅加快了计算速度,同时受到的干扰也变少了,分类准确率相应有所提高。在自然语言处理中,对文本信息特征进行提取的方法包括:词频、信息熵、卡方统计、互信息等。本文使用的是词频统计,即统计语料库中出现的词语数量及其频率。比如我可以选择语料库中经降噪后的词频最高的n个词作为文本特征。随后,再将所有的原始文本转化为特征表示的形式。(4)随机划分训练集、测试集在机器学习分类中,要按一定比例将已有数据分为训练集和测试集,这样才能获取该分类器的准确度,依据训练结果,判断该分类器是否高效。本文引入python中的内部模块random,使用其中的shuffle函数来将数据随机化,在定好参数后,根据随机结果划分训练集和测试集。(5)训练与预测我们使用python外部模块scikitlearn中的LinearSVC进行训练和预测,给定实验循环次数,对实验中进行二十次迭代计算,并将每次计算后的准确度打印输出成下表。图4-6支持向量机实验结果通过实验发现,使用人工标定的2万条训练集上使用支持向量机模型进行情感二分类任务的平均准确率在97.7%。1.3两种模型在舆情数据情感分析中的优劣对比1.1.1朴素贝叶斯模型在舆情数据中的优缺点(1)优点朴素贝叶斯模型具有稳定的分类效率,在对小规模舆情数据进行分类时表现很好,且处理效率较高,此外,作为一种有监督的机器学习模型,它不仅能做二分类问题,还能执行多分类任务,这在网络舆情数据的情感分析任务中具有较大优势,因为在大量的舆情数据中,人的情感是十分复杂的,如果单单将这些评论文本数据划分为积极情感和消极情感是远远不够的,无法深入解读评论文本数据中的情感特征。而朴素贝叶斯模型则是能够通过给定的划分好类别的训练样本进行多分类任务,例如本文中将评论数据划分为积极、客观、消极三类,也能较好地完成分类任务。(2)缺点理论上与其他分类方法相比,朴素贝叶斯模型具有较小的误差率,而在实际训练过程中则并非总是如此,其原因就在于朴素贝叶斯的前提假设是数据属性之间相互独立,而这个假设在突发事件网络舆情数据中往往是不成立的,同一事件网络舆情数据之间的关联性较大,因此在分类过程中其分类效果就不算很好,对于这一点则需要通过考虑部分数据之间的关联性适度改进,难度较大。此外,其对于输入数据的表达形式也十分敏感,人工进行数据标定花费时间较长,1.1.2支持向量机模型在舆情数据中的优缺点(1)优点支持向量机有着新颖且坚实的理论基础,适用于小样本分类工作。它基本上不涉及概率测度和大数定律等,简化了通常分类的回归的问题。在突发事件网络舆情数据中进行分类取得了十分优异的效果,一方面在于选取的数据量不是十分庞大,另一方面在于其计算的复杂性取决于支持向量的数目,而非样本空间的维数,这在某种意义上避免了“维数灾难”,少量的支持向量决定了最终的分类结果,而通过软间隔的方式,对异常值不敏感,这不仅可以在突发事件网络舆情数据中抓住关键样本,“剔除”大量冗余样本,而且注定该模型不但算法简单,而且具有较好的“鲁棒性”。(2)缺点支持向量机储存训练样本的核矩阵的空间消耗过大。由于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目越大,运算该核矩
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 临时用电专项施工组织方案
- 三角梅种植工程施工设计方案
- 脑梗死护理常规
- 发电项目660MW机组汽机专业主要施工技术方案
- 方便面项目财务管理方案
- 《区域特征》地理授课课件
- 未来智能交通系统构想
- 车位引导及定位系统技术规范
- 多行业联合人工智能3月报:AI“创造性破坏”重构产业生态
- (新)人体解剖生理学试题及参考答案
- 教育强国建设三年行动计划(2025-2027年)
- 2026季华实验室测试中心招聘5人(广东)笔试参考题库及答案解析
- 2026年吉林四平市高职单招英语试题含答案
- 2026年山区复杂地形无人机起降点选址技术指南
- 《必背60题》 区域经济学26届考研复试高频面试题包含详细解答
- 律所反洗钱内部控制制度
- 2026春人教版(新教材)小学美术二年级下册《天然的形态》教学设计
- 硫化氢安全教育培训课件
- 温县介绍教学课件
- 2025年注册安全工程师考试全程备考指南
- 道路灌缝方案
评论
0/150
提交评论