离散文本论文针对确定话题的离散文本舆情聚类与可视化.doc_第1页
离散文本论文针对确定话题的离散文本舆情聚类与可视化.doc_第2页
离散文本论文针对确定话题的离散文本舆情聚类与可视化.doc_第3页
离散文本论文针对确定话题的离散文本舆情聚类与可视化.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

离散文本论文:针对确定话题的离散文本舆情聚类与可视化研究【中文摘要】随着Web2.0的迅速发展,越来越多的网民习惯通过论坛(BBS)、博客(Blog)等网络载体对一些事物或事件发表自己的观点。这些存储分散、观点各异的离散文本(Discrete Text)构成了一种包罗万象的网络舆情。对离散文本中所包含的情感极性进行定性定量分析,是掌握网民对相关事物或事件的态度和网络舆情的重要途径。在此基础上,对随时间变化的舆情进行聚类分析,并将其结果可视化,可以直观地呈现舆情发展趋势,这是许多领域共同关注的热点问题。综上所述,以情感极性分析为线索、以聚类分析为依据、以观点挖掘为策略、最终实现舆情分析之目标。目前,对中文文本的观点挖掘研究较晚,很多基础性工作仍然在进行中。针对网络离散文本的舆情分析研究工作也仅处于起步阶段,本文针对离散文本的特点,对离散文本进行舆情聚类分析。本文选取离散文本中的博客文本标题和摘要作为研究对象。博客文本情感表达丰富,并且其极性分布非常分散,因此获得博客文本的核心语义或者集中概念难度较大;而标题和摘要包含的情感词较少,所表达的概念相对集中。因此选取博客搜索结果的标题和摘要作为最终研究对象是加速聚类收敛的重要措施。本文实验主要分为博客文.【英文摘要】With the rapid development of Web 2.0, more and more netizens are accustomed to publishing opinions on network carriers like BBS, Blog, etc. The discrete texts with scattered storage and different views constitute an all-encompassing public web opinion. The qualitative and quantitative analysis for sentiment polarity in discrete texts is an important way to know public network opinions and netizensattitude towards things or events. On that basis, the clustering analysis on time-varying public web opinions .【关键词】离散文本 聚类 舆情分析 情感极性 聚类可视化【英文关键词】discrete text cluster public opinion analysis sentiment polarity clustering visualization【目录】针对确定话题的离散文本舆情聚类与可视化研究摘要4-5Abstract5-6第1章 绪论10-191.1 课题研究背景10-111.2 课题研究目的及意义11-121.3 相关技术研究与发展12-161.3.1 离散文本聚类技术12-131.3.2 情感分析13-151.3.3 数据挖掘可视化15-161.4 论文主要工作16-171.5 论文组织结构17-19第2章 Web文本挖掘相关技术19-352.1 Web文本获取技术19-202.2 Web文本预处理20-232.2.1 Web文本去噪202.2.2 中文分词技术20-222.2.3 停用词过滤22-232.3 Web文本特征提取23-252.3.1 Web文本特征表示232.3.2 Web文本特征提取23-252.4 Web文本表示方法25-292.4.1 布尔模型25-262.4.2 向量空间模型26-272.4.3 概率模型27-282.4.4 潜在语义索引28-292.5 文本相似性计算29-302.6 Web文本聚类技术30-342.6.1 聚类分析技术30-332.6.2 Web文本聚类流程33-342.7 本章小结34-35第3章 基于概念的离散文本舆情聚类分析模型35-483.1 离散文本获取35-383.1.1 百度博客搜索引擎363.1.2 百度博客搜索爬虫36-383.2 离散文本预处理38-403.3 基于概念的向量空间模型40-433.3.1 知网简介413.3.2 情感词及概念获取41-423.3.3 基于概念的向量空间模型42-433.4 离散文本舆情聚类分析43-443.5 聚类结果评价44-463.5.1 用户验证443.5.2 地面真值44-463.5.3 间接评估463.6 人工标注46-473.7 本章小结47-48第4章 聚类可视化技术48-554.1 可视化技术484.2 数据挖掘中的可视化技术48-514.2.1 数据可视化技术基本概念494.2.2 主要的数据可视化技术49-514.3 聚类结果可视化技术51-534.4 舆情聚类结果可视化53-544.5 本章小结54-55第5章 实验55-635.1 实验配置环境555.2 实验具体步骤55-565.3 实验数据获取56-585.4 聚类结果可视化58-605.4.1 话题”上海世博会”聚类结果可视化58-595.4.2 话题”让子弹飞”聚类结果可视化59-605.5 聚类结果性能比较与分析60-625.5.1 话题”上海世博会”聚类性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论