在线课程评论的情感倾向识别与话题挖掘技术_第1页
在线课程评论的情感倾向识别与话题挖掘技术_第2页
在线课程评论的情感倾向识别与话题挖掘技术_第3页
在线课程评论的情感倾向识别与话题挖掘技术_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、在线课程评论的情感倾向识别与话题挖掘技术伴随信息技术的快速发展,为各行业领域注入新鲜的活 力。以教育领域为例,较多互动学习平台逐渐被引入其中,特别 其中包含的学习者评论数据, 均可为教学质量改善、 用户选课以 及平台支持提供参考, 然而现有的平台运行中并未充分利用这些 反馈信息, 需行之有效的完善策略。 本次研究将对情感倾向识别 与话题挖掘技术做简单介绍, 在此基础上提出在线课程评论样本 处理与特征提取方法、 情感倾向识别算法以及在线课程评论话题 挖掘技术等。信息化时代背景下, 学习资源共享、 平台共享已成为大多学 习者青睐的主要内容, 也因此有较多学习行为数据生成, 如何对 这些数据充分利用

2、成为当前需考虑的主要问题。值得注意的是, 前许多数据提取、 教学系统设计并不能满足数据挖掘需求, 更无 从谈及利用所获取的数据为教学实践进行指导, 要求引入有效的 数据提取、情感倾向识别以及话题挖掘技术。因此,本本文对在 线课程评论的情感倾向识别与话题挖掘技术研究, 具有十分重要 的意义。1 情感倾向识别与话题挖掘技术介绍关于情感倾向识别、 话题挖掘技术的概念, 首先可从教育大 数据进行分析, 近年来在线学习中较多学习平台逐渐引入, 使海 量未结构化数据生成, 这些数据区别于传统结构化数据如考勤记录、考试成绩等,有数据动态变化、数据规模化以及类型多样化 等特点,而满足这些特征的在线学习数据均推

3、动教育大数据的形 成。而在此基础上提出的情感倾向识别,Web2.0 时代下,大众在浏览事物信息中, 更注重对以往相关评论内容关注, 或将自身 的想法、意见与心情表达出来。大数据环境下,便强调数据挖掘 中能够对大众的平均内容做情感分析, 该过程被称之为情感倾向 识别。另外,在话题挖掘技术方面,由于很多情感倾向信息并非 针对一个整体评论对象, 而是对其中某一部分的倾向表现, 而这 些部分便可被叫做话题。 实际进行海量文本浏览中, 便要求引入 话题自动提取技术, 保证信息检索与处理效率, 以此达到话题挖 掘的目的。2 在线课程评论样本处理与特征提取2.1 在线课程评论数据样本处理 本次研究中,主要针

4、对在线课程学习网站中的点评区分析, 具体做样本数据出去中,相关的要求主要包括:(1)对点评区网页结构信息充分了解,这些存储于后台数 据库内的半结构化形式文本数据,向用户展示中,将通过 HTML 页面以相应的格式显示, 因网页引入的通讯技术有一定差异, 所 以在采集数据中有多种方式,如利用HTML表单形式,或借助HTML 结构树抽取;(2)为使服务器访问压力、系统资源减少,一般设计中也 考虑引入加载方式,以 JavaScript 为例,通过脚本动态导入数据。实际做数据采集中,可设定相应的方案流程,整个流程强调 首先对 JS 脚本内有无提取信息判断, 若加载过程需借助 JS 动态 实现,取中间代理

5、方法,对 JavaScript Object Notation页面探测,进行格式解吸, 然后将评论数据相关信息提取出来并存储。 假若加载方式选择HTML静态加载,转换的目标体现在文本对象 模型DOMt,在此基础上做定位解析,将其中信息提取出来并存 储在数据库内。2.2 特征提取所谓文本特征, 主要指被识别对象的特征, 具体进行文本情 感识别中,通常也需由这些特征着手。值得注意的是,在评论信 息中,不同学习者在表达细致程度上有一定差异, 其直接导致课 程评论文本长度不同, 部分评论中有丰富的文字内容, 传递的信 息较多,而部分评论仅有几个字, 其意味文本特征分布有稀疏性、 不均衡性特点。对此,实

6、际进行文本特征提取中,本次研究考虑 引入细粒度特征生成法,如 N-gram 语言模型,所有文本内容, 均以字符单元形式呈现,有长度为N的字符片段序列形成,其中 各片段均被叫做gram。同时,既往研究资料中,也对稀疏文本 特征提取问题提出较多优化方式, 如多空间微粒群优化, 这一方 式侧重于取训练集, 细化为不同交叉训练子集, 通过检验各子集, 提取其中的特征信息,达到文本特征提取目标。3 在线课程评论情感倾向识别算法研究 情感倾向识别的实现,主要强调通过对在线课程评论的分 析,了解情感倾向。本次研究中,考虑引入自适应多视图选择方 法,其亦被称之为AMVS识别中采用半监督情感识别方法,其 区别于

7、传统RSS方法,更注重做情感强度的计算, 能够优先选取 鉴别型高的特征。需注意该方法应用下,选择视图中,要求结合 特征维度、训练精度两者关系,进行维度分布的构建,保证各视 图维度均较为合适, 这样仅需保证特征采样覆盖率适宜, 便可进 行视图生成量的确定。 尽管该算法应用下无需考虑视图划分、 视 图维度等影响因素, 且自适应性强, 但在无标记样本规模影响下, 识别精度可能无法保证。4 在线课程评论话题挖掘技术分析情感识别的基础上, 便要求做话题挖掘。 本文在研究中对于 评论话题挖掘方法的选择, 主要结合既往研究成果, 如话题情感 模型的构建,DEI-TM,这一模型强调对情感表达寻找相应的话题, 融入以往LDA模型话题挖掘机制,即通过语句间关联信息的利 用,过滤出正面、负面情感样本,以分而治之理论为指导,实现 不同情感类别话题信息的提取。实践研究发现,DEI-TM模型运用下,提取后的话题无较高相似度,在泛化能力上较强,可充分 展示话题内单词,极大程度上提高话题挖掘效果。5 结论 情感倾向识别及其话题挖掘是当前在线课程评论数据被充 分利用的关键性保证。 实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论