版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
口残冠又享
毕业设计(论文)
中文题目:微博舆情管理平台
数据分析系统的设计与实现
英文题目:MicroBlogPublicOpinion
ManagementPlatform:TheDesign
andImplementationoftheData
AnalysisSystem
学院:_______________________________
专业:_______________________________
学生姓名:_______________________________
学号:_______________________________
指导教师:_______________________________
年月日
中文摘要
伴随网络技术应用的普及和发展,舆情的传播方式和传播速度都发生
了主线性变化,网络舆情对人类的社会状态产生了全方位的影响,微博舆
情则是网络舆情的重要构成部分,它的特点有:直接性,突发性,偏差性,
丰富性和互动性。
本文以微博消息为研究对象,研究了微博消息传播的特点与模型,通
过对抓取数据的分析发现了微博传播的单向性,便捷性,背对脸等特点,
尚有微博意见领袖在微博传播中的重要作用,微博热点的产生规律。根据
对数据分析的成果提出了趋势分析的算法。运用空间向量模型完毕对微博
内容的构造数据化,运用K-means算法完毕对微博消息的聚类分析,找到
所要分析的某类微博内容,进而在此类微博中找出微博消息意见领袖,提
出微博意见领袖影响力评估算法,WeiboRank算法,并结合算法完毕了微
博消息预警模块的实现,初步实现了微博舆情管理平台的数据预警分析功
能。
关键词:微博舆情文本聚类趋势分析
Abstract
Alongwiththeuniversalapplicationandrapiddevelopmentof
networktechnology,theapproachesthatthenet-mediatedpublic
sentimentspreadhavebeenfundamentallychanged.Thenet-mediated
publicsentimenthasexertedhugeinfluenceonthewaythatthesociety
operates.Astheoneofthemostsignificantpartsofthenet-mediated
publicsentiment,thepublicsentimentwhichisproducedandspreadby
themicrobloghasseveralimportantcharacters,suchasdirectness,
immediacy,deviation,variability,interactivity.
Takingthemicroblogmessagesasourinvestigatingsubject,this
paperaimedtodoresearchonthecharacteristicsandmodelsof
deliveringmessagesbetweenmicroblogusers,Throughtheanalysisofthe
capturedatafoundunidirectional,micro-blogcommunication
convenience,backonthefaceandothercharacteristics,andraisedan
effectivealgorithmtosortthesekindsofmessages.Usingthespatial
vectormodel,theK-meansalgorithmdidclusteranalysisonmicroblog
messages,andfoundouttheopinionleadersamongtremendousmessages.
Then,aninfluentialestimationalgorithmofthemicroblogopinionleaders
wasraised9WeiboRankalgorithm.Togetherwiththeestimation
algorithm,wealsoachievedtheearlywarningpartandsomebasicdata
warninganalysisfunctionsonthewholemicroblog-mediatedpublic
sentimentplatform.
Keywords:microblog-mediatedpublicsentiment,textclustering,
trendanalysis
目录
一、概述
1.1课题背景与研究意义
课题背景
研究现实状况
研究意义
1.2论文构造
二、微博消息传播模型
2.1微博消息传播的特点
2.2微博顾客状态
2.3微博意见领袖
2.4微博传播模型
三、微博舆情管理平台口勺设计与实现
3.1微博舆情管理平台H勺总体流程
3.2数据分析系统设计流程
四、微博舆情管理平台H勺实现
4.1样本选用与数据来源
4.2微博数据转化
4.3微博文本聚类
文本聚类定义
机器学习
算法
4.4微博意见领袖重要性评估
4.4.1PageRank算法
4.4.2WeiboRank算法
4.4.3算法对比
4.5微博舆情预警模块
微博舆情预警
趋势分析模块
4.6趋势分析成果比较
五、结论与展望
5.1系统局限性
5.2未来展望
改善预期
新增功能
5.3结束语
参照文献
附录I:翻译原文
ClusterAnalysis:BasicConceptsandAlgorithms
1Overview
1.1.1WhatIsClusterAnalysis?
1.1.2DifferentTypesofClusterings
1.1.3DifferentTypesofClusters
2.RoadMap
•K-means
•AgglomerativeHierarchicalClustering
•DBSCAN
附录II:中文翻译
聚类分析:基本概念及算法
1概述
什么是聚类分析?
不一样类型的群集合
簇日勺不一样类型
2.路线图
•K-means算法
•凝聚层次聚类
•DBSCAN
一、概述
1.1课题背景与研究意义
1.1.1课题背景
伴随时代的进步,技术的发展和web2.0时代H勺到来,网络舆情也展
现蓬勃发展日勺势头,截至2023年12月底,我国网民规模达5.64亿,网
民规模也已到达4.20亿,我国微博顾客规模为3.09亿,较2023年终增
长了5873万,网民中的微博顾客比例较上年终提高了六个百分点,到达
54.7%o相称一部分顾客访问和发送微博的行为发生在终端上,截至
2023年终微博顾客规模到达2.02亿,即高达65.6%的微博顾客使用
终端访问微博。微博,即微博客(MicroBlog)的简称,是一种基于顾客
关系信息分享、传播以及获取平台,顾客可以通过WEB、WAP等多种客户
端组建个人小区,以140字左右的文字更新信息,并实现即时分享。美国
埃文•威廉姆斯推日的twitter是最早的I微博平台,也是目前最著名日勺平
台。2023年,中国第一家带有微博色彩出J网站“饭否网”开张,到2023
年新浪微博日勺开通,中国第一家推出微博日勺门户网站,微博正式进入中文
上网主流人群视野c2023年10月,中国微博顾客总数到达2.498亿,成
世界第一大国。微博成为网络舆情日勺一大构成部分。
舆情是“舆论状况”口勺简称,是指在一定的社会空间内,围绕中介性
社会事件的发生、发展和变化,作为主体H勺民众对作为客体的社会管理者
及其政治取向产生前持有的社会政治态度。它是较多群众有关社会中多种
现象、问题所体现的信念、态度、意见和情绪等等体现的总和。对于舆情
W、J内涵,国内的研究者们有着不一样的认识。有研究者指出:“所谓‘舆
情’,实际上就是大众亲密关怀区I热门话题或反应了某些社会心理区I观点
与见解,其较高层次是‘思潮’,基本层次是‘情绪大众传媒对此应当
有足够的敏感,并以恰当的方式进行舆论引导,减少社会震荡。”另有研
究者认为:“舆情即民意状况,波及公众对社会生活中各个方面的问题尤
其是热点问题的公开意见(外露的部分)或情绪反应(既也许外露又也许不
外露的部分)。”更多的学者倾向于如下认识:“舆情是指在一定的社会空
间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生
和持有的社会政治态度。假如把中间的某些定语省略掉,舆情就是民众时
社会政治态度J这一定义将舆情界定为民众出J社会政治态度,突出了民
众与国家管理者之间的关系,抓住了舆情日勺关键,因此本文在如下的论述
中,也采用这一定义。
任何一种技术H勺出现及发展,或多或少会对社会生活导致一定的冲击
和影响。网络从诞生的那一天起,就开始深刻地影响人们日勺生活、学习、
思索、交流和娱乐的方式。与此同步,现实生活与虚拟世界交互影响,展
现出一种你中有我、我中有你的局面。以网络为平台,通过新闻、评论、
发帖、答复等为载体体现出来的舆情,就是网络舆情。以网络为载体的网
络舆情,关键是单个或多种事件,是海量网民感情、态度、提议、观点日勺
体现,互动与传播,以及后续W、J影响力H勺集合。带有广大网民口勺主观性,
未经媒体验证和包装,直接通过多种形式公布于互联网上。舆情管理与监
控,就是通过对互联网信息挖掘采集技术口勺整合,实现自动抓取互联网中
日勺海量信息,可以运用某些算法自动对信息分类,主题分析,倾向分析等
功能,形成图表或者简报结论,便于顾客掌握。舆情日勺本质是民众的社会
政治态度,而在网络上,某种抽象的社会政治态度是需要以某些详细的形
式反应出来口勺。或者说,舆情在网络上要为人所知、激起网民共鸣、或者
在网络上被传播,必然要借助于一定H勺载体。在网络上,舆情的载体重要
有新闻评论,论坛(小区)发帖、跟帖,博客,播客,微博等。
与老式舆情相比,网络舆情具有传播迅速和实时互动H勺特点。网络出J
出现使得地球村的梦想得以实现,一条消息可以在瞬间传遍世界。对应Ef、J,
某个舆情通过各大网站、论坛口勺转贴可以在极短时间内为大量人知晓,这
在此前是难以想象H勺;在网络舆情体现最明显H勺论坛、小区、博客、微博
等空间,每一种网民都可以实时地刊登自己日勺观点,大家共同讨论或辩论,
不一样观点或立场的网民进行交锋,可以通过互动推进舆情的发展或深
化,引起更多人日勺关注。
1.1.2研究现实状况
伴随网络技术H勺发展和时代的进步,网络舆情的重要性已经毋庸置
疑,有关网络舆情管理与检测口勺研究也日趋成熟,有关网络舆情管理与监
测的系统越来越多,微博舆情的分析平台也有出现,不过多数为政府和企
业服务,只监控有也许爆发H勺负面信息和重大事件,不对一般顾客开放,
而有关微博消息日勺分析软件不仅费用昂贵并且只是对信息日勺已传播轨迹
进行展现和分析,缺乏对微博消息未来走向的一种分析预测,也无对微博
消息传播范围广度的分级。
1.1.3研究意义
网络舆情反应了民情民意,在为国家管理者决策提供参照根据的同步
也存在引起社会问题的风险,尤其是国内外敌对势力常常运用互联网,别
有专心地煽动不良情绪或发动串联,以期影响我国社会稳定。因此,研究
怎样发现互联网上的舆情、做出预警并在必要时采用合理H勺预控措施,成
为摆在有关部门面前亟待处理H勺问题。
1.2论文构造
论文分为4章,
第一章概述简介了我选择这个课题的背景,论述了目前国内外有关微
博舆情管理平台的I研究现实状况,分析了微博舆情管理平台的重要意义。
第二章分析了微博消息传播的模型,研究了微博消息传播的特点,建
立了微博消息传播日勺模型。
第三章概述了微博舆情管理平台的总体流程,详细讲解了数据分析系
统日勺设计流程,讲述了分词模块,聚类模块及趋势分析模块日勺算法思想,
基木原理。
第四章针对数据分析系统的局限性,提出了未来日勺改善方向。
博消息传播模型
2.1微博消息传播的特点
微博舆情作为网络舆情重要构成部分,有着与网络舆情共同口勺特点,
网络舆情的特点有如下几点;直接性,突发性,偏差性,丰富性和互动性。
网民根据现实社会或者网络上发生日勺新闻可以在多种平台上直接刊登自
己日勺见解和意见,根据其他网民的见解进行互换观点,而网络Ef、J虚拟性也
使虚假不良信息的公布变得轻易和更具蛊惑性,轻易成为热点。这也对网
络舆情的监管提出了规定。而微博也有其自身独特的特点:便捷性,原创
性,背对脸。
伴随智能的普及以及多种便捷移动电子设备的出现,多种微博移
动终端使得微博消息的刊登与接受变得非常便捷,使得网络舆情的直接性
和突发性体现R勺更为突出。而以新浪微博为例,其顾客可以选择一种或多
种的关注组别,例如娱乐,新闻,经济等,这就让顾客可以愈加便捷的理
解自己需要日勺某些方面日勺信息。微博日勺便捷性让网络舆情的消息爆发愈加
忽然,在前很快的雅安地震中,震后3分钟即有第一条有关震区震后实情
区I微博消息出现,这与微博的I便捷性是分不开口勺。
微博消息是由140字左右的短文本构成的,因此其原创性远不小于例
如BBS,论坛,博客等平台,也许体现日勺意思相似,但发出的微博却不一
样样,同样以雅安地震为例,“为雅安祈福”,“雅安平安”,“支援雅
安”等消息出目前微博上,虽然是不一样文本,但同样体现了对雅安地震
灾情的关注和祝愿,这种原创性大大丰富了微博口勺内容,也直接体现了网
络舆情口勺偏差性与丰富性。但也为微博舆情管理增长了难度,对微博内容
日勺分类提出了更高H勺规定。
背对脸这种特性,则是很生动表明了微博与平常网络平台相比最大日勺
特点,其传播消息口勺途径是单向的,被关注者公布消息无需理会关注者口勺
反应,关注者关注着被关注者的消息,就类似一种人在玩电脑游戏,而他
日勺粉丝就是站在他背后观看日勺人,观看者可以看到游戏的进度,但游戏者
却不用理会观看者在做什么,这就是微博消息传播背对脸H勺特性。
根据微博经典口勺这3种特点,我们看出它与其他网络平台舆情传播日勺
明显差异,而想要对微博舆情进行管理,必须很好的运用这三种特点。
2.2微博顾客状态
在调研文献时,病毒在传播的时候会出现三种顾客状态,感染态,免
疫态,易感染态。由于病毒传播与微博消息的相似性,假设一种顾客公布
一条消息后,他的粉丝顾客都一定会看到这条消息,类比病毒传播的三种
状态,将微博顾客也分为三种状态,未知状态,转发状态,已知不传播状
态。
未知状态就是不懂得消息的状态,一般就是他所关注的人中没有传播
这条消息;转发状态就是这个顾客懂得这条消息,并且对这条消息很感爱
好,转发了这条状态,就把这条消息通过他的粉丝继续传播了下去;已知
不传播状态则是懂得了这条消息,不过由于不感爱好,没有转发这消息或
公布有关的消息。如图2T所示,这是一种顾客状态示意图,顾客A公布
了一条状态,B和C关注了A,因此懂得了A公布口勺消息,B不感爱好,
忽视了这条消息、,成为了已知不传播状态,这条消息日勺传播在B处中断,
而C对这条消息很感爱好,转发了这条消息,则成为转发状态,继续向C
自己的粉丝传播这条消息、,则D由不懂得这条消息W、J未知状态变为了懂得
这条消息的已知不传播状态,而E关注了B,虽然被D关注,但根据微博
背对脸的特性,E无法懂得这条消息,一直处在未知状态。在消息传播过
程中,这三种状态是单向转变的,未知状态可以变成已知不传播状态,已
知不传播状态可以变成转发状态,但不能反向转变,已知不传播状态也许
在多次从不一样顾客得知同一消息后变得感爱好从而转变为转发状态。
;消息来源:j已知不传播状态:
C一
;转发状态!\:未知状态:
0-G
图2-1微博顾客状态图
2.3微博意见领袖
意见领袖这一说法来源于20世纪40年代初传播学有关媒介传播效果
日勺研究,传播学者拉扎斯菲尔德在1940年美国大选的调查研究中发现,
大部分选民日勺投票不依托大众传媒,依托日勺是身边的I亲戚、朋友和团体日勺
影响。从而有了意见领袖这一概念,在人际传播网络中常常为他人提供信
息、意见、评论,并对他人施加影响的“活跃分子”,是大众传播效果的
形成过程的中介或过滤口勺环节。而在微博消息传递过程中,人际传播网络
化为微博顾客传播网络,微博意见领袖在其中发挥着巨大作用【10】。
微博意见领袖一般有着数量庞大的粉丝群,一般顾客有着几十或几百
的粉丝,而微博领袖的粉丝数量则一般为上万甚至几十万上百万,成为微
博平台上的明星,通过公布微博消息领导着他们口勺粉丝意见。通过对搜集
到的数据的分析,从数据表明,基本上可以认为20加勺意见领袖顾客领导
着80加勺顾客日勺意见,如图2-2,从一条转发量为561次日勺微博消息日勺前
10名H勺数据可以看出,昵称为“思想焦距”“杜子健”“历史尘封档案”
欧I3位顾客是本次消息传播中最重要的3位意见领袖。
排名昵称粉丝顾客类型时间二次转发
1思想焦距1209767个人认证2023-3-9368
15:03:00
2杜子健324621个人认证2023-3-951
13:07:01
3历史尘封档案538570微博达人2023-3-940
15:45:02
4煮酒谈史214251微博达人2023-3-937
16:11:35
5人性之漂亮213917微博达人2023-3-922
15:06:26
6长江直播47390微博达人2023-3-918
15:17:05
7敌我媒体采访团275145个人认证2023-3-99
15:03:06
8彭三金176135个人认证2023-3-93
15:03:07
9笑着做教师11370个人认证2023-3-93
16:38:55
10王周生7162个人认证2023-3-93
15:23:09
图2-2微博消息影响力前10名
不过转发量并不是判断意见领袖影响力的唯一原则,包括粉丝数,转
发率以及活跃程度均是评估意见领袖影响程度日勺重要参照原则,通过对试
验数据成果日勺总结,发现微博意见领袖有如下几种特点:基本上所有日勺微
博意见领袖均是新浪认证顾客,图2-2也阐明了这一观点,并且认证顾客
轻易获得一般顾客承认和接受,公布消息日勺真实性也比较可靠。认证顾客
中有部分是在现实社会中有着一定影响力,微博则是其社会影响力在网络
中的映射。粉丝数量也不是必然规定,类似消息的二级传播原理,活跃且
粉丝质量高日勺顾客也会有相称大的影响力,这也是某些草根顾客可以成为
影响力大的意见领袖的原因。草根顾客积极参与顾客间的互动,并且努力
公布有价值日勺消息给粉丝,也可以获得较大的影响力。也有部分顾客历来
不与粉丝互动,但其绝对粉丝数量较多,乜可以获得较大影响力。也有草
根顾客凭借实时公布极有价值信息公布获得较大影响力,随之而来的则是
转发和粉丝数量激增。总结上述特点可以得出评估顾客影响力的原则:粉
丝数,转发率,历史转发率(该顾客的活跃程度),与否认证顾客。详细
重要性日勺评估算法将在3.5节详细论述。
2.4微博传播模型
由微博背对脸口勺特点可以懂得微博消息传播日勺单向性,类似病毒区I传
播,病毒感染一台主机则这台主机进入感染态,而感染一台服务器,则访
问这台服务器日勺所有主机都会理解这个病毒,或感染或免疫,微博中消息
传播也是如此,一般顾客相称于终端,而微博意见领袖则相称于服务器,
区别在于,消息的接受是被动的J,只要登录微博就能看到关注者H勺消息、,
而不用像顾客同样需要登录服务器。通过对抓取口勺微博数据日勺分析,发现
20%的顾客领导着80%口勺顾客意见,并且越是在消息初期,微博意见领袖
日勺作用就越大,意见领袖时加入会使消息有一种爆炸式的增长,而伴随加
入的意见领袖增长,消息传播增长趋势放缓,意见领袖的作用减少,当消
息日勺传播广度抵达一定范围后,意见领袖的影响力就趋近于零了。图2-3
是一条有关波士顿爆炸案的微博消息途径图的一部分,通过图2-3可以看
出意见领袖在微博消息传播所占的重要作用,是传播途径上的重要节点,
与消息传播日勺广度息息有关。
图2-3微博消息传播途径图
通过对数据分析可以发目前消息的传播广度和初始微博意见领袖加
入FJ多少有一定关系,当单位时间内意见领袖的影响力到达了一种阈值M
后,可以认为在之后的一段时间内,此消息的传播范围会有一种明显的增
长,有关M值会在3.6详细简介。通过研究发现,消息成为热点中有如下
3种规律,每一种都会在热点日勺成长曲线中出现.对一种范围内日勺微博意
见领袖进行监控,发现意见领袖对一条微博消息的转发比例到达10%时,
可以认为此消息会芍一种广泛日勺传播,会成为一种热点话题;通过对已知
此消息但未转发的意见领袖的比例与已知此消息并转发的意见领袖所占
比例日勺对比,可实现对未来日勺微博消息传播范围的判断;在单位时间内(设
为1个小时)的消息传播量到达一种阈值M后,可以认为此消息传播进入
爆发期,会出现较大增长,通过设置不一样M值,可对未来日勺消息传播范
围有一种大体的分级,不一样级别表达预测此消息传播的最大广度。从趋
势分析角度来说,以上3种规律无论应用哪一种均可以对消息传播趋势做
一种分析,采用多种规律对趋势分析精度口勺提高也是有限的,而对一种规
律分析时足够透彻已经可以到达一种接受H勺趋势分析H勺精确度了。
三、微博舆情管理平台的设计与实现
3.1微博舆情管理平台的总体流程
微博舆情管理平台口勺三大模块如图3-1所示,分为微博信息数据获取
模块,数据分析模块,分析成果展现模块,本文重要研究的是数据分析模
块。
趋势图
图3-1微博舆情管理平台三大模块
微博舆情管理平台H勺重要流程如下,首先输入要查询的微博消息的关
键词或关键微博,然后运用网络爬虫来搜集微博中的消息内容,包括微博
内容,转发关系,博主ID,公布时间等。然后进入中文分词模块,将微
博内容分词后进入VSM,将微博内容口勺文本数据转化为计算机可以处理口勺
构造化数据,将所有有关微博内容预处理后,进入K-means算法对微博内
容进行分类,找到离关键词近来的那个类,认为这个类中日勺微博内容体现
日勺是同一意思,并作为数据分析的主类,然后找出类中符合意见领袖原则
『、J微博领袖逐一进行影响力评估,分析出各意见领袖H勺影响力指标,然后
进入趋势分析预警模块,根据微博的走势代入趋势分析算法进行分析,得
出成果将数据上传到管理平台,管理平台对数据进行处理将成果输出。
3.2数据分析系统设计流程
数据分析系统的重要流程如图3-2所示,获得关键词或关键微博后,
从数据库中获取微博有关数据,将微博内容与微博ID挂钩,用中文分词
系统将微博内容进行分词,然后在数据库中新建一表项,用于存储分词后
的文本内容,继续以微博ID为辨别,将分词后的文本放入K-means算法
中进行迭代聚类,选出关键词或关键微博所在类为有关微博类,删除数据
库中其他无关微博,进而筛选出符合微博意见领袖定义的顾客,进入微博
意见领袖影响力评估算法,分析出每个意见领袖出J重要程度。以小时为单
位,计算单位时间内口勺微博内容传播广度,设定不一样等级阈值M,存在
超过M值的时间段即可分析预测出消息未来走势,进而将意见领袖重要性
在前10名的顾客数据反馈数据库,将顾客准时间次序进行排序存储到数
据库交给管理平台进行成果反馈,这就是整个数据分析系统的重要流程。
图3-2微博舆情管理平台数据分析系统重要流程
U!、微博舆情管理平台的J实现
4.1样本选用与数据来源
网络爬虫日勺重要功能是搜集Internet中的多种信息。它运用网页中
日勺超文本链接(Hyperlink)来访问网页,从一种事先制定好的JURL列表开
始,这个列表中的JURL一般是从过去的访问记录里提取出来的,一般是某
些比较流行日勺站点知新闻网页,运用等原则协议,通过URL从一种页
面爬行到另一种页面,直到没有满足条件R勺新口勺URL产生为止。
4.2微博数据转化
向量空间模型(VectorSpaceModel,简称VSM),其重要思想是以
向量空间中日勺向量运算来处理文本内容,并且使用空间上日勺相似性来描述
语义的相似性,如图4T所示。此时,就可以通过计算向量间H勺相似性
来度量文档间的相似性。
向量空间模型重要波及如下两方面的J工作:
1)构建向量表达文档、查询中的词项
2)度量任意文档向量和查询向量H勺相似性
如下则对该三方面的I工作进行详细简介。
1)构建向量表达文档中的词项
对于文档集中日勺每一种不一样日勺词项,在向量中只记录一种分量。
代询A
>v4,o,4,1,4,2,,4,〃>
A,3>
文1^2v/,。,/,1,"],2,,出,”>
图4-1VSM重要思想
假如词项出现,则在对应向量的I分量处记1;假如词项未出现,则在
对应的分量处记0。通过向量化的文档,就可以在坐标系中表达,如图4-2
所示。
图4-2VSM文档向量化表达示例
然而,二值表达的措施并没有考虑一种词项在文档中出现的次数。因
此,扩展这种表达形式,将词项在文档中出现日勺频率作为向量中各个分量
日勺值。在图4-2中,假如文档D2中A出现了两次,则向量表达为<2,0>。
通过使用向量空间模型,文本数据被表达为计算机可以处理的构造化
数据。此时,通过比较两个向量的相似性就能处理两个文档之间口勺相似性
问题。
2)度量任意文档向量和查询向量口勺相似性
余弦距离常常被用在文本相似性比较中。余弦成果为一种0到1H勺数,
1表达向量一致,0则表达正交,符合相似性比例H勺特性。
不一样文档长度的归一化是通过计算向量内积与文档向量的长度日勺
比值实现的I,即前提是忽视文档向量长度口勺影响。
假设文档向量为di=(dil,di2,…,dit),查询向量为Q=(wql,wq2,
wqt)
余弦小J计算公式:
£W"Xdij
/、)=i
SC(Q,D)=,
£(%)2£M)2
j=1/=1
通过VSM分类H勺文本文档,可以看做粗略的分类,不过不够精确,因
此需要后续日勺文本聚类日勺精确分类来确定所需要日勺微博消息。
4.3微博文本聚类
4.3.1文本聚类定义
所谓聚类,就是一种集群的集合。聚类的目的是找到对象组,深入目
的是通过数据分析确定对数据分析有用时群体。
文本聚类就是从诸多文档中把某些内容相似的文档聚为一类。文本聚
类的基础是著名的聚类假设:聚为一类的文本相似性较大,而聚为不一样
类的文本相似性较小。文本聚类是一种无监督日勺机器学习措施,不依赖于
训练过程,并且不需要提前手动划分文本类别,因此具有一定的灵活性和
较高的自动化处理能力。目前,文本聚类已经成为对文本信息进行摘要、
组织和导航H勺重要手段,受到了越来越多的关注。一种文本体现为一种由
文字和标点符号构成Ef、J字符串,由字或字符构成词,由词构成短语,进而
形成句、段、节、食、篇的构造。要使计算机可以高效地处理文本,就必
须找到一种理想日勺形式化表达措施。下面所简介的文本聚类算法是在空间
向量化模型日勺基础上实现的。
文本聚类算法有划分法、层次法、基于密度H勺措施、基于网格的措施、
基于模型的措施。本系统使用划分法进行文本聚类。划分法:对于一种有
N个记录的数据集,将构造K个分组,每一种分组属于同一种聚类,K<No
K个分组所要满足的条件:
1)至少一种数据纪录属于一种分组
2)每一种数据纪录属于且仅属于一种分组对于给定KJK,算法首先
给出一种初始的分组措施,通过迭代的措施来不停优化分组,每一次优化
后口勺分组方案都会较前一次好。这里提到口勺好的原则是:对于同一种分组
中的记录,越近越好;对于不一样分组中的记录,越远越好【9】。
目前,常用时使用这个思想日勺算法有:K-means算法、K-medoids算
法,系统中使用的I是K-means算法
432机器学习
机器学习(MachineLearning)是一门多领域交叉学科,波及概率论、记
录学、迫近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎
样模拟或实现人类日勺学习行为,以获取新日勺知识或技能,重新组织已经有
的知识构造使之不停改善自身的性能。
机器学习日勺研究是根据生理学、认知科学等对人类学习机理H勺理解,
建立人类学习过程的计算模型或认识模型,发展多种学习理论和学习措
施,研究通用的学习算法并进行理论上的分析,建立面向任务的具有特定
应用的学习系统。
机器学习是研究怎样使用机器来模拟人类学习活动的一门学科。稍为
严格日勺提法是:机器学习是一门研究机器获取新知识和新技能,并识别既
有知识日勺学问。这里所说的“机器”,指的就是计算机。
机器学习按学习形式分类,可分为监督学习与非监督学习。监督学习,
即在机械学习过程中提供对错指示。一般实在是数据组中包括最终止果
((),1)。通过算法让机器自我减少误差。这一类学习重要应用于分类和
预测(regression&classify)o非监督学习又称归纳性学习(clustering)运
用K方式(Kmeans),建立中心(centriole),通过循环和递减运算
(iteration&descent)来减小误差,到达分类口勺目日勺。
K-means文本聚类算法就是一种应用非监督的机器学习的划分法文
本聚类算法。
4.3.3K-means算法
K-means算法是属于划分类的聚类措施,它H勺基本原理如下:
1.顾客输入想要划分的文本聚类输no
2.随机选择n个文本作为聚类中心。
3.对其他文本计算到这n个聚类中心的距离,并把它分到距离
近来的那个聚类里面。
4.重新计算聚类中心。
5.反复环节3,4直抵到达顾客的设定条件为止[9L
图4-3K-means算法流程图
K-means算法的基本思想是:先设置一种聚类数目n,系统随机选择
n个文本作为初始的聚类中心,然后挨个比较每个文本与各个类中心的相
似度,将它赋予给最相似的那个类中心所在的类。然后重新计算选择每个
类的中心。进行不停循环迭代,直到目的I函数收敛不再变化。
4.4微博意见领袖重要性评估
从前文中可以懂得,微博意见领袖在微博消息传播中日勺重要性,而意
见领袖自身也存在着影响力不一样日勺问题,因此根据PageRank算法提出
改善的WeiboRank算法来对意见领袖的重要性进行评估。
4.4.1PageRank算法
著名的JPageRank算法是衡量网络中节点重要程度H勺经典算法。是
Google排名运算法则(排名公式)的一部分,是Google用于用来标识网
页的等级/重要性的一种措施,是Google用来衡量一种网站口勺好坏的唯一
原则。在揉合了诸如Title标识和Keywords标识等所有其他原因之后,
Google通过PageRank米调整成果,使那些更具“等级/重要性”的网页
在搜索成果中的排名获得提高,从而提高搜索成果出J有关性和质量。基本
思想:假如网页T存在一种指向网页A的连接,则表明T日勺所有者认为A
比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:
PR(T)/C(T)
其中PR(T)为T的PageRank值,C(T)为T日勺出链数,则A日勺PageRank
值为一系列类似于T的页面重要性得分值日勺累加。
长处:是一种与查询无关口勺静态算法,所有网页日勺PageRank值通过
离线计算获得;有效减少在线查询时H勺计算量,极大减少了查询响应时间。
局限性:人们日勺查询具有主题特性,PagcRank忽视了主题有关性,
导致成果的有关性利主题性减少;止匕外,PageRank有很严重的对新网页
日勺歧视。
PageRank日勺关键思想是每个节点的PR值根据反向链接日勺数量,均匀
“流”向所有的关系节点。每个节点的JPR值为所有邻居好友对其奉献PR
值日勺综合
4.4.2WeiboRank算法
微博中顾客H勺传播影响力受到诸多原因的影响,例如顾客时跟随者数
量、关注顾客量、帐号与否有认证,以及微博自身的质量、新鲜度等。同
步与微博顾客自身H勺活跃性、与否常常登录微博、公布和分享信息也有很
大的关系。通过借鉴PageRank算法区|设计思想,综合考虑顾客的传播意
愿的互动程度,提出了WeiboRank算法来精确评估每个节点的传播影响
力c
给定一种权重有向网络G=(V,E,W),节点为V,边为E,边权为w,
其中i和j节点间边权Wij表达节点i对节点j日勺影响力。本研究中边权
Wij采用历史转发比率Rt(i,j)来表达。历史转发比率是指顾客j曾经转
发顾客i的微博的次数与顾客i总转发微博数H勺比率。定义如下:
..Rtc@j)+1
RgJ)=SC(O4-1
式中Rte(i,j))是顾客j曾经转载作者i/、J微博时次数。显然,假如
顾客j过去常常转发i区I微博,此后也很有也许转发。SC⑴为顾客i在监
测时间段内所转发的所有微博数量。式⑴是将顾客历史转发状况进行归
一化处理。
为了衡量邻居i对J日勺重要程度,本文提出节点间亲近率的概念。亲
近率定义为节点d对i日勺历史转发率和所有节点J转发过的顾客节点的历
史转发率之和口勺比值。其物理上表征在节点j的所有邻居的互动关系中,
节点i相对于j的重要程度。亲近率C(i,j)定义如下:
R&D
C(iJ)=「^
2R((k,j)
k(k,j)€E
从亲近率定义中可以看出,其综合考虑了顾客W、J传播意愿和与其他节
点互动的程度。
在微博信息传播网络中,我们借鉴PageRank算法的关键思想,提出
weiboRank(wR)算法来评估每个节点日勺信息影响力,定义如下:
WR(i)=(1-d)+d*£VW?0)*C(ij)
jWB]
式中,WR(i)是节点i日勺WeiboRank值,B是指向i日勺节点日勺集合,
其中C(i,j)是节点jH勺传播影响力分派给iH勺比例因子,这里采用上文定
义日勺亲近率。d是阻尼系数,可设定在(0,1)之间,本文中选用0.85。
将所有节点口勺WeiboRank初始值设为0.1,通过迭代到收敛为止,可以
得到所有顾客日勺WR值。
4.4.3算法对比
为了对比WeiboRank算法对顾客传播影响力出J识别精确性,采用如
下2种常用评估微博顾客影响力的方式:
1)被转发量(Retweets):该数量表达顾客公布的信息被其他顾客转发
日勺信息量。
2)粉丝数量(Followers):该数量表达微博中所有收听该顾客的粉丝数
量。
本文采用信息传播实际影响人次覆盖率P作为顾客的传播能力的评
测指标。该数据是以顾客的微博信息在区域内被真实传播FI勺过程中所能影
响到H勺人次日勺实测成果为根据,将每个微博顾客所发出的所有微博的实测
影响人数进行迭加获得H勺每个微博顾客的真实传播影响力。值得注意H勺
是,假如顾客i的某条微博在转发过程中多次传播到顾客j,这种状况需
要进行合并,只计1人次。
为了深入对比加分析算法在真实影响人次这一评价指标下对顾客影
响力的识别精确程度,通过有关算法获得顾客影响力H勺排名,然后通过对
排名的意见领袖顾客影响人次覆盖率进行对比,并与真实顾客传播影响人
次序列进行对比,考察各序列之间口勺相对关系,成果如图4-4所示。
图4-43种算法意见领袖合计覆盖率记录
通过对图4-4中的数据分析发现,WeiboRank算法意见领袖顾客对信
息的合计人群覆盖率都高于其他算法,这充足阐明该算法通过亲近率引入
个体传播意愿和节点互动程度后,可以有效地迫近顾客的真实信息传播能
力。同步我们发现WeiboRank算法和顾客的followers两个序列的传播影
响人次覆盖率比较相近,这阐明假如在不太规定精确性的状况下,顾客粉
丝数量基本上可以反应顾客H勺传播影响力。而顾客retweets日勺序列(转发
信息量)作为顾客日勺传播影响力的评价指标是效果最差的。转发量大日勺顾
客并不一定意味着其影响力也大。从图中可以看出前20%的J顾客的顾客影
响力覆盖了80%日勺顾客传播影响人次,符合人们平常认识中的20/80分
布规律。
4.5微博舆情预警模块
4.5.1微博舆情预警
预警出J概念源于对重大自然灾害征兆的研究。目前有关天气、自然状
况日勺预警系统已经在社会生活中发挥着明显的作用。究其原因,自然现象
内外部影响原因之间的因果关系相对确定,并且这些现象都经历了长期口勺
观测测量,有了很好的量化基础,因而可以以便地进行预警。预警,究其
实质是一种特殊日勺预测,由于预测是预警日勺基础和条件,预警是选择实行
预案的前提和准备c预警体现动态H勺认知,预案体现静态出J防备。
微博舆情预警,就是发现对微博舆情出现、发展和消灭具有重要影响
的原因,并持续不间断地动态监测、度量、及采集它们的信息,根据预警
体系内容,运用综合分析技术,对目前微博舆情做出评价分析并预测其发
展趋势,及时做出等级预报的活动。
网络舆情预警等级日勺设定在综合考虑国际通例、我国有关机构管理规
定及微博舆情发展趋势口勺前提下,微博舆情的预警等级被划分为:
轻警情(IV级,非常态)、中度警情(in级,警示级)、重警情(H级,危
险级)和特重警情(I级,极度危险级)四个等级,并依次采用蓝色、黄色、
橙色和红色来加以表达。
蓝色级(IV级):出现舆情。微博顾客对该舆情关注度低,传播速度慢,
舆情影响局限在较小范围内,没有成为当日热点时也许;
黄色级(in级):出现舆情。微博顾客对该舆情关注度较高,传播速度
中等,舆情影响局限在一定范围内,有一定也许成为当日热点;
橙色级(H级):出现舆情。微博顾客对该舆情关注度高,传播速度快,
影响扩散到了很大范围,舆情有也许成为多日热点;
红色级a级):出现舆情。微博顾客对该舆情关注度极高,传播速度
非常快,影响扩大到了整个社会,舆情必然成为热点并且持续一段时间。
4.5.2趋势分析模块
对曾经成为过热点口勺微博消息口勺传播特点进行整顿后,得出两种热点
传播模型,一种是老式媒体在微博建立的顽客的传播方式,一种是微博达
人的消息传播模式,图43就是两种方式的转发量时间曲线图,例子选择
则是媒体模式选择H勺是南方周末“一名中国公民在波士顿爆炸案中遇
难”的消息传播,微博达人模式选择日勺是“国学大师刘文典说过口勺一句
话”,图4-6和图4-7选择的是传播量时间曲线图,其中南方周末口勺微博
消息在一天H勺时间内的转发量为997,传播顾客量靠近500万,其中南方
周末自身的粉丝数量就占了近450万,转发率非常低,不过传播范围广,
仍然是热点,而微博达人模式则不一样样,转发量为724,最终传播顾客
量靠近10万,在一定范围内也成为了热点,而它口勺传播时间图就和起点
很高日勺南方周末日勺图形很不一样样,有着较高H勺转发率,虽然广度不及南
方周末,但也成为过热点话题。从两者日勺传播图形中可以看出,转发率并
不能成为热点评估H勺原则。两种模式中,有一共同点则是都曾经出现过短
时间内口勺传播量激增,然后成为热点,根据这一特性设计了趋势分析模块,
从最早的意见领袖开始,每出现一种意见领袖,提取这一意见领袖后一小
时的意见领袖日勺传播广度,设定不一样H勺M值(一小时内微博传播量),
根据以往数据可以得出,M值在5000如下为蓝色级基本无威胁,在10000
到50000为黄色级,需要注意,有很大概率成为热点,而50000以上则肯
定成为热点,但持续时间尚未能有效的分级,也就是还不能对橙色和红色
级进行有效分级,但已能辨别热点与否。当M值在5000到10000时,成
为热点的概率通过记录在50%左右,而假如M值在5000到10000之间出
现的次数能到达两次,则成为热点H勺概率能大大提高,大概能到达80%左
右,因此若M值在5000到10000之间时;记录M值的次数,若只出现一
次,则为蓝色级,若出现两次或以上,为黄色级。而若10000以上也出现
两次或以上,则分为橙色级,也就是很也许成为多日热点。
19
充悼模式
给博过人慢大
13’时间/小时
图4-5转发量时间曲线图
1X)000
+
=、
<:左,
军
H
图4-6微博达人模式图
时间/小时
图4-7媒体模式传播图
4.6趋势分析成果比较
运用趋势分析模块对微博消息进行分析,对分析成果与最终消息走势
进行对比,成果如图4-8所示,总共测试了15组微博消息,媒体模式1()
组句子和微博达人模式5组。前10组为媒体传播模式的微博消息,其中“江
苏盐城政府单位吃喝27万”,“南京一邮局被强拆”,“埃及浮雕刻有'丁
锦昊到此一游’”,“人民日报海外版:房地产商哭穷属卖萌装天真”,“郑
州暴雨”,这5条微博成为热点,其他没有成为热点,趋势分析模块没有
预测出“江苏政府单位吃喝”,“人民日报海外版:房地产商哭穷属卖萌装
天真”这两条热点;误测了“李克强刊登发言“,"人民日报:农村孩子为何
不愿跃‘龙门'”为热点,精确率只有60%。在微博达人模式中,“营养
餐食物变质,营养缩水,问题不停”这条热点没有预测出,但其他热点均
成功预测并且没有误报热点,精确率为80%。
成果
微博题目热点预警成果消息最终走势
对比
李克强将在波茨坦会议旧址
黄色级蓝色级错误
刊登发言
江苏盐城政府单位吃喝27万黄色级蓝色级错误
南京•邮局被强拆橙色级橙色级对口勺
李克强:无论多忙都要抽时间
蓝色级蓝色级对的
读书
埃及浮雕刻有“丁锦昊到此一
橙色级红色级对的
游”
人民日报:农村孩子为何不愿
黄色级蓝色级
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南新乡牧野东于道社区卫生服务中心招聘笔试真题及答案
- 2026年小学二年级数学第二学期期末考试卷及答案(十九)
- 2023年病虫害绿色生物防控产品企业组织架构及部门职责
- 小班冬奥会健康 内容框架
- 超声诊断血管黏液肉瘤关节病变
- 高级执法资格考试题附答案
- 燃气公司三级安全教育安全生产管理人员考试试卷(答案)
- (2026年)三方合同转让协议范本
- 2026笔试面试题库及答案
- 2026北美统计学面试题目及答案
- 防洪防汛隐患排查台账
- 2025年中国邮政集团有限公司湖北省分公司招聘笔试备考试题及参考答案详解1套
- 干细胞与健康讲座
- CJ/T 216-2013给水排水用软密封闸阀
- DB32/T 3958-2020化工企业安全生产信息化管理平台建设技术规范
- 福建省厦门市湖里区2023-2024学年六年级下学期期末语文试题(有答案)
- 利津游戏课件
- 教学课件-积极心理学(第2版)刘翔平
- 2025年福建武夷水务发展有限公司招聘笔试参考题库含答案解析
- 2025年炼焦安全生产表态发言稿(2篇)
- 老年人摄影知识培训课件
评论
0/150
提交评论