



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
离散文本论文:针对确定话题的离散文本舆情聚类与可视化研究【中文摘要】随着Web2.0的迅速发展,越来越多的网民习惯通过论坛(BBS)、博客(Blog)等网络载体对一些事物或事件发表自己的观点。这些存储分散、观点各异的离散文本(Discrete Text)构成了一种包罗万象的网络舆情。对离散文本中所包含的情感极性进行定性定量分析,是掌握网民对相关事物或事件的态度和网络舆情的重要途径。在此基础上,对随时间变化的舆情进行聚类分析,并将其结果可视化,可以直观地呈现舆情发展趋势,这是许多领域共同关注的热点问题。综上所述,以情感极性分析为线索、以聚类分析为依据、以观点挖掘为策略、最终实现舆情分析之目标。目前,对中文文本的观点挖掘研究较晚,很多基础性工作仍然在进行中。针对网络离散文本的舆情分析研究工作也仅处于起步阶段,本文针对离散文本的特点,对离散文本进行舆情聚类分析。本文选取离散文本中的博客文本标题和摘要作为研究对象。博客文本情感表达丰富,并且其极性分布非常分散,因此获得博客文本的核心语义或者集中概念难度较大;而标题和摘要包含的情感词较少,所表达的概念相对集中。因此选取博客搜索结果的标题和摘要作为最终研究对象是加速聚类收敛的重要措施。本文实验主要分为博客文.【英文摘要】With the rapid development of Web 2.0, more and more netizens are accustomed to publishing opinions on network carriers like BBS, Blog, etc. The discrete texts with scattered storage and different views constitute an all-encompassing public web opinion. The qualitative and quantitative analysis for sentiment polarity in discrete texts is an important way to know public network opinions and netizensattitude towards things or events. On that basis, the clustering analysis on time-varying public web opinions .【关键词】离散文本 聚类 舆情分析 情感极性 聚类可视化【英文关键词】discrete text cluster public opinion analysis sentiment polarity clustering visualization【目录】针对确定话题的离散文本舆情聚类与可视化研究摘要4-5Abstract5-6第1章 绪论10-191.1 课题研究背景10-111.2 课题研究目的及意义11-121.3 相关技术研究与发展12-161.3.1 离散文本聚类技术12-131.3.2 情感分析13-151.3.3 数据挖掘可视化15-161.4 论文主要工作16-171.5 论文组织结构17-19第2章 Web文本挖掘相关技术19-352.1 Web文本获取技术19-202.2 Web文本预处理20-232.2.1 Web文本去噪202.2.2 中文分词技术20-222.2.3 停用词过滤22-232.3 Web文本特征提取23-252.3.1 Web文本特征表示232.3.2 Web文本特征提取23-252.4 Web文本表示方法25-292.4.1 布尔模型25-262.4.2 向量空间模型26-272.4.3 概率模型27-282.4.4 潜在语义索引28-292.5 文本相似性计算29-302.6 Web文本聚类技术30-342.6.1 聚类分析技术30-332.6.2 Web文本聚类流程33-342.7 本章小结34-35第3章 基于概念的离散文本舆情聚类分析模型35-483.1 离散文本获取35-383.1.1 百度博客搜索引擎363.1.2 百度博客搜索爬虫36-383.2 离散文本预处理38-403.3 基于概念的向量空间模型40-433.3.1 知网简介413.3.2 情感词及概念获取41-423.3.3 基于概念的向量空间模型42-433.4 离散文本舆情聚类分析43-443.5 聚类结果评价44-463.5.1 用户验证443.5.2 地面真值44-463.5.3 间接评估463.6 人工标注46-473.7 本章小结47-48第4章 聚类可视化技术48-554.1 可视化技术484.2 数据挖掘中的可视化技术48-514.2.1 数据可视化技术基本概念494.2.2 主要的数据可视化技术49-514.3 聚类结果可视化技术51-534.4 舆情聚类结果可视化53-544.5 本章小结54-55第5章 实验55-635.1 实验配置环境555.2 实验具体步骤55-565.3 实验数据获取56-585.4 聚类结果可视化58-605.4.1 话题”上海世博会”聚类结果可视化58-595.4.2 话题”让子弹飞”聚类结果可视化59-605.5 聚类结果性能比较与分析60-625.5.1 话题”上海世博会”聚类性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB61T 838-2014 大豆 宝豆6号规范
- 公路施工废弃物回收与处理方案
- 城市公园绿地水体净化方案
- 水库防汛应急预案方案
- 装修施工质量监督管理方案
- 2025四川广元市剑阁县人力资源和社会保障局服务期满“三支一扶”计划人员中考核招聘乡镇事业单位人员8人考试参考试题及答案解析
- 山东省枣庄市峄城区2024-2025学年八年级下学期期末质量检测英语试题(含笔试答案无听力)
- 湖南省长沙市芙蓉区2024-2025学年七年级下学期6月期末考试数学试卷(含答案)
- 2025年癫痫药物试题及答案
- 2025天津工业大学第三批招聘(博士或副高级及以上专业技术职务岗位)19人备考练习题库及答案解析
- 以史为帆明方向+少年立志向未来+课件-2025-2026学年上学期主题班会
- 2025年医卫类病理学技术(中级)专业知识-专业实践能力参考题库含答案解析(5套试卷)
- 2025上海科技馆事业单位工作人员招聘10人笔试备考题库及答案解析
- 八年级语文上册期末考点专题17 新闻阅读(解析版)
- 【初二】【八年级】【道法】2025【秋】上学期开学第一课【统编版】(课件)
- 监狱消防安全应急预案
- 军事类面试题目及答案
- 2025巡护员考试题库及答案
- 产科专科护士结业汇报
- (完整版)采购评审专家考试试题库(附完整答案)
- 河北广电频道管理办法
评论
0/150
提交评论