中期报告-跨社交媒体数据演化分析.docx_第1页
中期报告-跨社交媒体数据演化分析.docx_第2页
中期报告-跨社交媒体数据演化分析.docx_第3页
中期报告-跨社交媒体数据演化分析.docx_第4页
中期报告-跨社交媒体数据演化分析.docx_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学士学位论文开题报告学士学位论文中期报告论文题目:跨社交媒体信息演化分析 专 业:计算机科学与技术 本 科 生: 学 号: 指导教师:北京航空航天大学计算机学院2015年4月20日北京航空航天大学计算机学院 2 学士学位论文中期报告目 录1选题背景与意义32课题研究内容回顾42.1问题描述及研究目的42.2主要研究内容52.3拟采取的技术方案53已完成工作汇报63.1数据采集与存储63.1.1网络爬虫63.1.2数据格式与存储73.2分词与热词分析74待完成工作及问题74.1数据采集与存储74.2分词与热词分析74.3跨社交媒体信息演化分析84.4存在的问题84.4.1数据的获取84.4.2数据的分析84.4.3效果展示85后期进度安排81选题背景与意义随着计算机网络技术的迅猛发展,尤其Web2.0的壮大,互联网上出现了大量由用户主导生成内容的互联网产品、以用户为中心的互动型社区,这类网站或者服务同时具有社交性以及媒体传播性,其中为我们熟知的包括新浪微博、天涯论坛以及网易新闻腾讯新闻等。在这一类社交媒体中,每个人都可以是信息的制作者、发布者、传播者和分享者,产生大量数据,这些数据不仅包含与每个人日常生活相关的信息,还有如针对社会热点、区域事件的大量观点和讨论,使我们的生活由“信息时代”向“数据时代”跃进。然而正如大数据的多源多样性(Variety)和高速增长性(Velocity)所反映的,信息在不同社交媒体平台下会体现出不同形态及演化规律,在不同时间段也会有不同反映,即使针对同一事件,不同平台下所聚合的数据信息所表现的都会不同,例如,两会期间微博上讨论的主要热点在各类提案讨论分析等,而天涯论坛上反馈出来的热点在于对“两会精神”报道的官方通稿;但是在不同社交媒体平台下的信息又并非孤立存在发展得,而是相互联通传播演化的,然而在传统研究中,往往只针对单一信息源的数据进行分析,没有能够整合多源数据进行对比研究,也就不能够更好的揭示信息演变过程,更好的利用信息价值;而如果我们将这些跨媒体的数据综合起来进行分析,将能够跟完整的表现这个世界,更好的贴近我们的生活;比如对微博网站的信息流、社交网站的评论、媒体分享网站的图片和视频进行分析,可以从不同角度跟踪一个事件的进展和演变;所以对社交媒体多源现象进行研究,理解社交媒体下的多源数据,是挖掘社交媒体大数据价值的重要步骤;研究跨媒体下的信息演化和关联情况对于发现新规律、更全面地利用社交媒体数据、设计复杂社交媒体分析和应用等具有重要意义。论坛微博新闻时间对于同一事件,不同时间有a/b/c子话题aaaa、ba、bb、c、da、b、c跨媒体信息演化分析本文的工作在上述基础上展开,基于多源信息对比演化分析的需求,主要对新浪微博、天涯论坛以及各类门户新闻站点间的数据信息进行动态演化和关联分析,设计并实现一个基于共词系统的跨社交媒体话题演化分析。2课题研究内容回顾2.1问题描述及研究目的参考单源数据情形下对事件演化分析的方法,我们仍旧采用以话题、子话题的形式对其进行研究的方式,这样事件信息的演化过程就可以通过话题讨论的情况来展示;而话题演化分析的主要目的是分析在不同时间段内话题讨论的子话题构成以及子话题重要程度、子话题发展趋势和话题迁移等,主要方法是结合社交媒体的文本特征,将共关键词网络泛化为一般共词网络,并以此为基础利用共词网络社群表示子话题,探测和分析子话题演化过程,实现社交媒体话题演化分析。但是针对不同的社交媒体平台,需要对数据进行整理,以突出跨社交媒体间信息演化的关系。通过对国内外研究现状的分析,针对现实需求,对跨社交媒体的信息演化提出以下问题:1. 不同社交媒体的信息形式,传播演化形式有何区别?对于各类新闻网站的数据,其格式较为统一:时间,地点,人物,事件,来源等,且其标题具有概括性,可以比较准确的提取出关键信息,可以作为话题的一个划分标准。对于论坛,大部分为长内容的帖子,通常描述较为口语化,信息含量较低,所以对于这一部分数据信息,关键词、话题的提取准确度需要提高;对于微博,由于字数限制,还有用户群庞大,所以信息较杂,不过针对某一话题,往往带有#话题标签#,所以能给话题分类带来帮助。另外,对于新闻,具有很强的时效性,往往一段时间之后人们的评论数就会下降,同样对于论坛的帖子数据,往往一段时间之后就会自动排到热度新鲜度排名较后的页面,而对于微博数据,由于转发的影响,所以一个话题信息存在时间会更长。2. 如何区分事件热度?对于一个事件,如果仅在一个平台下讨论或者传播,那么在本项目中认为其信息价值较低,更关注那些在不同平台下均有讨论的事件。分别针对单一平台,我们可以保留选取诸如阅读量,回复数,点赞量,转发量,评论数等,这样可以更有效准确的的表现事件的总体受关注度。3. 如何进行子话题关联?由于采集到的数据为文本信息,针对每一个平台,对文本进行中文分词,找出某一时间/某一文本段中的“热词”,在选取特征词,进而进行特征词匹配,如果在相近的时间阈值类,其特征词匹配度高于某一值,则可认为这是描述同一事件或者衍生话题。4. 如何突出信息演化的跨平台特性?目前的技术往往针对单一社交媒体,并且技术已经相当成熟,例如针对微博的话题检测与跟踪(TDT, Topic Detection and Tracking)技术已经有了充分运用,但是对于多源数据的分析处理方面还有欠缺,例如一个新闻话题,可能最初在天涯上曝光,然后有人转述到微博平台,然后新闻网站报道了此事,然后此事又在天涯、微博上引发二次讨论和传播,如果我们要梳理事件发展,那么必须要将三个平台的信息集合起来,才能得出准确的脉络;并且由于用户群的差别以及信息传播的差异,不同平台下人们对于某一事件的态度会有区别,通过分析可以找出这种差异。当我们分析某一事件(话题、子话题)时,需要结合其来源以及时间信息进行深度对比。2.2主要研究内容针对上述问题和研究目标,有以下三点研究内容:1. 不同平台信息性质及演化机制差异采取爬虫方式,首先使获取的数据格式统一(时间,事件,关注度,以及人们的讨论等文本信息),同时分析其文本特性差异,方便提高特征词(话题)识别时的准确度和效率;同时针对不同社交媒体,其信息演化机制会存在差异,例如微博上某个子话题“上头条”可能来自“大V效应”,而天涯论坛可能需要贴合百姓生活,引发广泛谈论并被版主置顶,对于新闻评论,则没有明显的可能导致广泛关注的原因。2. 事件特征词识别与子话题关联分析针对同一事件,需要选取一定量的特征词用于描述,并且在事件演化过程中随时间推移,特征词往往是动态变化的,人们讨论的子话题也是转移和变换的,基于跨媒体的文本数据,准确的识别特征词,关联时间子话题,是分析研究时间演化的基础。同时,由于社交平台差异,如何实现跨媒体的子话题关联分析,不仅需要关键词匹配,还要结合更多的信息,才能保证准确度。3. 跨媒体的话题信息演化分析针对单一媒体的话题演化追踪,我们只需要对其数据按时间切片即可,然后进行特征词选取,子话题关联分析,然后进行更深的信息演化分析,然而结合跨媒体信息,那么还要加入不同平台数据的比对和关联分析,所以在数据融合的同时又要考虑各平台的独立性和差异性。2.3拟采取的技术方案根据研究的总体目标并结合当前的研究现状,下面给出初步的设计思路和系统方案。上图展示的是初步的系统设计结构图。主要分为三个层次;其作用分别如下:数据采集层:这一层主要是用于数据采集,在本项目中,我们不必采用实时系统方案,而只是采集一定时间段内的跨平台数据,同时保证数据格式上的统一,并且人工分析各平台的文本信息特点,结合特点方便查找特征词。话题关联分析层:这一层主要工作是对于跨媒体文本信息的特征词提取以及跨媒体间的子话题匹配关联分析,对于不同社交媒体平台,可能需要不同的算法,以提高准确度,在已有的技术基础上,结合研究目的、平台差异,思考事件的准确表达形式。跨媒体的信息演化分析层:在分析完同一事件在不同社交媒体平台下的话题关联之后,以关联话题为基准,融合跨平台数据,展示信息的演化过程,同时又要将各平台特性区分开,使整个演化过程清晰、准确。项目方案:以目前的数据量来考虑,只考虑某一段时间内的事件在三个平台下的分布情况。目前的想法是,以新闻信息为线索(因为新闻格式更为规范内容更为清晰),提取出较热门的话题以及相关关键字,首先在天涯、微博数据中进行搜索,找到相关的帖子或者微博,结合时间信息,先对三个平台各自分析,例如对于天涯,其一个帖子围绕一个事件展开,发帖时间和回复时间跨度可能非常大,人们的讨论重点也可能发生变化,所以需要对每一层楼进行分析,才能得出信息在这一条帖子内的变化形式,这样每一个楼层可以对比为一条微博,但是虽然人们对于这个事件的讨论、信息演化在不同楼层中进行,却并不能忽视“同属于一条帖子” 的事实,这样一是可以分析出不同平台下人们对于特定事件的反馈差异,再加上时间属性,也就能分析出不同平台间的信息演化。然后在扩大范围,统计这段时间内不同平台下的关键词、热点,对比出某时间内不同平台下人们所关注的问题差异(不仅仅是针对某一特定事件的讨论差异)。3已完成工作汇报3.1数据采集与存储3.1.1网络爬虫因为三个平台的差异性,所以没有一个统一的工具可以获取这些多源信息。目前新闻网站和天涯论坛采取的是利用爬虫抓取网页,再通过正则表达式等手段过滤信息的方式来获取想要的数据。但是天涯论坛的帖子信息采集起来相对困难(需要多层遍历,另外所要记录的信息较杂较多),而且受限于之前的思路,对帖子中的每一个楼层没有加以区分,能获取帖子数据,但按照设计思路,现在正在尝试将同一个帖子下每个楼层提出来单独爬取存储。另外对于微博,因为之前以为会有已有的数据,但是估计不满足时效性,所以需要利用API来重新获取,所幸之前接触过一点通过OAuth利用API调用已知函数返回欲取得数据的知识。3.1.2 数据格式与存储由于不同平台的数据本身的特性,所以存储的形式也有区别,最复杂的莫过于天涯论坛的数据;因为一个帖子分为很多楼层,每个楼层又有各自的属性,目前在尝试将天涯数据持久化到自己本地的mysql数据库,而非控制台或者文本文件。3.2分词与热词分析学习了TF-IDF特征词识别技术,按照指导自己实现了一遍,看了下具体思路,和实际结果,但是效果不太理想,有一些系数还需要调整优化。另外查找中文分词相关文档的时候,找到工具“NLPIR-ICTCLAS2014分词系统”,使用了一下(以单条新闻和单条帖子为例),效果不错,另外自带关键词提取功能。关于Louvain社群发现算法、Gephi可视化分析软件,自己查了一些资料,展示效果很棒,但是必须在有特定格式的数据的情形下进行分析、展示,所以也先放在一边。4待完成工作及问题4.1数据采集与存储因为天涯论坛的特殊性,同时为了方便后续的数据分析,需要考虑各数据源数据的存储和采集重点和优化。具体来看,以新浪微博API返回的数据格式为指导,同时注意各平台的差异,尤其天涯论坛帖子数据的采集要注意格式和存储。同时因为最近新浪的API调整,原本以为有人做新浪微博或者有部分数据,但是为了保证项目,还要自己手动学习获取一下。在学习存储如自己的数据库的过程中,使用到了Spring和MyBatis,但是到目前还没有理解清楚。另外,由于实验室的存储是在HBase分布式数据库下,这部分知识和实践还需要学习。4.2分词与热词分析目前找到的工具,提供一些接口能实现中文分词和关键词提取,但是当数据量大时能否保证稳定性、效率和准确度还需要研究。关于TF-IDF热词统计分析算法还需要自己针对每个平台进行调整改进;同时实验室数据检索用的是elasticSearch,关于这部分,学长也建议了解一下。4.3跨社交媒体信息演化分析简单来看,可以分为两部分来讨论,一是针对某一事件人们对事件讨论的重点在不同平台,不同时间下的反馈情况;二是不同时间内,不同平台下人们关注问题的方向差异、态度差异。这里还是取关键词、热词、情感态度词等“概括性语言”、“描述性语言”来作为研究重点。另外针对不同平台的差异,需要选取新闻网站作为关键词准确度最高的标准提取源。4.4存在的问题4.4.1数据的获取主要是针对于天涯平台,一篇帖子中会有大量冗余数据(比如重复楼层、引用楼层),一个板块下会有大量低质量的数据,针对这个问题需要大量工作来剔除冗余信息,并且对帖子进行按重要程度进行排序或者赋权重。4.4.2数据的分析在不保证准确度的情况下进行分词和关键词提取相对容易,但是如果要精细划分提取,需要自己试验调整相关系数。如果要分析舆论,还要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论