




已阅读5页,还剩46页未读, 继续免费阅读
(计算机软件与理论专业论文)blog热点话题发现及其作者声誉度研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 目前对话题识别和话题跟踪的研究非常多,但这大都是对新闻事件进行分析。随着 w e b 2 0 的发展,人们对于网络的使用方式大大改变,即人的参与性大大增加,所以众 多基于w e b 2 0 的应用系统应运而生,其中b l o g 就是主要代表之一。b l o g 是目前i n t e m e t 上一种非常重要的媒体,它可以提供给用户方便地发表自己的观点并可以对其他人的观点进 行评论,其中的评论信息是b l o g 中重要的特点,也是其它新闻事件所不具有的。b l o g 这 种自由、发散和随意性的特点也使得它日渐成为舆情产生和传播的主要场所,所以对 b l o g 中发布的话题以及b l o g 作者等方面研究的重要性也就越来越凸显出来。 传统的对于b l o g 热点话题的发现主要根据b l o g 网站中的话题排名,而该排名主要是基 于评论数目来得到的,并没有考虑评论以及话题的内容。为此,本文首先认为话题的评论 数目是影响话题热点度一个因素,评论数目多,该话题为热点话题的可能性就大。在考 虑评论数目的同时,充分分析评论与话题的内容,即首先计算评论与话题的内容相关度, 然后对相关度较低的评论进行情感分析,进行噪音评论的滤除。对于剩余的相关评论信 息,通过对评论内容进行情感分析来计算话题在该b l o g 中的热点度,从而进行b l o g 热点话 题的发现。 在b l o g 热点话题发现基础上,本文对于热点度较高的话题所在的b l o g ,从过滤后的 相关评论信息中进一步分析其所表达的情感,即通过计算评论的情感来进行话题支持度计 算,最终根据计算出的话题支持度得到b l o g 作者的声誉度。实验证明,本文的方法可 以有效地发现b l o g 中的热点话题并判断其作者的声誉情况。该方法有助于网络上b l o g 空间的管理及网络舆情的监控。 关键词:b l o g ;内容相关度;情感分析;热点话题;声誉度 大连理工大学硕士学位论文 b l o gh o tp o s td i s c o v e r ya n da u t l l o rr e p u t a t i o nd e g r e er e s e a r c h a b s t r a c t a tp r e s e n t , t h e r ea y em a n yr e s e a r c h e sa b o u tt o 。p i ed e t e c t i o na n dt r a c k i n g , b u tt h e s e a n a l y s e sa i ma tn e w se v e n t sm a i n l y w i t ht h ed e v e l o p m e n to fw e b 2 0 ,t h eu s i n gw a y sa b o u t i n t e r a c th a v ec h a n g e dal o tf o rp e o p l e , n a m e l y , p e o p l e sp a r t i c i p a t i o nh a si n c r e a s e d s i g n i f i c a n t l y , s om a n ya p p l i c a t i o ns y s t e m sb a s e do nw e b 2 0c o m ei n t ob e i n g b l o gi so n eo f t h em a i nr e p r e s e n t a t i v e s a tp r e s e n t , b l o gi sav e r yi m p o r t a n tm e d i ao ni n t e r n e t ,w h i c hc a l l p r o v i d eu s e 幅w i t l la ne a s yw a yt oe x p r e s st h e i ro w no p i n i o n sa n dd oc o r n m e n t so no t h e r s o p i n i o n s ,a n dc o m m e n t sw h i c hn e w se v e n t sd on o th a v ea r eam a i nc h a r a c t e r i s t i c i n b l o g s p h e r e t h ef r e e d o m ,a r b i t r a r i n e s sa n dd i v e r g e n c ec h a r a c t e r i s t i c si nb l o gf i e l dm a k ei t i n c r e a s i n g l yb e c o m et h em a i np l a c eo fg e n e r a t i o na n dd i s s e m i n a t i o no fp u b l i co p i n i o n s o , t h ei m p o r t a n c eo nt h er e s e a r c ht ob l o gp o s t sa n db l o g g e r si n c r e a s i n g l yb e c o m e sp r o m i n e n t t r a d i t i o n a lb l o gh o tp o s td i s c o v e r yi so b t a i n e db yt h ep o s t sr a n k i n go f b l o gw e bs i t e ,b u t t h i sk i n do fr a n k i n gi sb a s e do nt h en m b e ro fc o m a n e n t sm e r e l y 1 1 1 ep o s t sa n dc o n m a e n t s c o n t e n t sa r en o tc o n s i d e r e d b e c a u s eo ft h eh i g hf l e x i b i l i t yo fc o m m e n t s ,m a n yn o i s e c o m m e n t sa p p e a ri n e v i t a b l y ,s u c ha sa d v e r t i s e m e n t s ,h y p e r l i n k sa n d o n i nt h i sp a p e r , t h e m a i ni d e ai st h a tt h en u m b e ro fc o m m e n t st op o s t si so n l yo n eo ft h ef a c t o r st oi n f l u e n c eh o t d e g r e eo f p o s t s ,o n ep o s th a sm o r ec o m m e n t s ,a n di th a sb i g g e rp o s s i b i l i t yo f b e i n ga h o tp o s t o nt h ep r e m i s eo f t h en u m b e ro f c o m m e n t s ,t h i sp a p e ra n a l y z e st h et e x tc o n t e n t so f p o s t sa n d c o m m e n t s ,c a l c u l a t e st h er e l a t i o nd e g r e eo fc o n t e n t sb e t w e e np o s t sa n dc o m m e n t sf i r s t l y ,a n d t h e nd o e se m o t i o na n a l y s i st ot h ec o m m e n t so fl o w e rr e l a t i o nd e g r e e ,a f t e rt h i ss t e p ,n o i s e c o m m e n t sc a nb ef i l t e r e d f o rl e f tr e l a t e dc o r r k m e n t s ,e m o t i o na n a l y s i si su s e dt oc o m p u t et h e h o td e g r e eo f p o s t s ,a n dt h e nh o tp o s t sa r ed i s c o v e r e d b a s e do nh o tp o s t sd i s c o v e r y ,t h i sp a p e rd o e sf u l t h e ra n a l y s i sa b o u tt h ee m o t i o no f r e l a t e dc o m m e n t sf o rt h eb l o go f h i g h e rh o td e g r e ep o s t s i nt h i ss t e p ,s u p p o r td e g r e eo f p o s t s c a nb eo b t a i n e db yc o m p u t i n ge m o t i o no f c o m m e n t s f i n a l l yb l o g g e rr e p u t a t i o nd e g r e ec a l lb e c o m p u t e db ys u p p o r td e g r e eo f p o s t so b t a i n e da b o v e e x p e r i m e n t ss h o w t h a tt h ea p p r o a c hi n t h i sp a p e rc a l ld i s c o v e rb l o gh o tp o s t sa n dj u d g et h er e p u t a t i o no ft h e i ra u t h o r se f f e c t i v e l y t h em e t h o di nt h i sp a p e rc a nh e l pt h em a n a g e m e n to ft h en e t w o r k sb l o gs p a c ea n dn e t w o r k p u b l i co p i n i o ns u p e r v i s i o n k e yw o r d s :b i o g ;r e l a t i o nd e g r e eo fc o n t e n t s ;e m o t i o na n a l y s i s ;h o tp o s t ;r e p u t a t i o n d e g r e e i i i , 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:剜羔叠日期:型2 曼:! ! 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送 交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理 工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也 可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 作者签名: 导师签名: 塑乒年卫月日 3 0 鲤t 大学硕士学位论文 1 绪论 1 1 研究背景及意义 随着信息传播方式的进步,尤其是互联网的出现,人们已经由信息贫乏进入到一个 信息极度丰富的时代。当今信息社会,随着计算机的普及和i n t e m e t 的迅猛发展,互联 网成为了人们取之不尽、用之不竭的多媒体资源。 由于网络信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地方 并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些事件难以做到全面的把 握。话题检测与跟踪( t d t ) 技术就是在这种情况下应运而生的,它作为一项旨在帮助人 们应对信息过载问题的研究,以新闻专线( n e w s w i r e ) 、广播、电视等媒体信息流为处理 对象,将语言形式的信息流分割成为不同的新闻报道( n e w ss t o r y ) ,监控对新话题的报 道,并将涉及某个话题的报道组织起来以某种方式呈现给用户,同时话题识别与跟踪技 术作为舆情分析的重要技术手段成为近几年的热点研究课题。它的研究目标是要实现按 话题查找、组织和利用来自多种新闻媒体的多语言信息。这类新技术是现实中急需的。 另外,还可以找出用户某一感兴趣话题的所有报道,研究这一话题的发展历程等掣“。 可以帮助人们把分散的信息有效地汇集并组织起来,从整体上了解一个事件的全部细节 以及与该事件与其他事件之间的关系【孙。 目前对话题识别和话题跟踪的研究非常多,但这大都是对新闻事件进行分析,而近 年来,随着网络的普及和w e :b 2 0 的发展,大大改变了人们在网络上的使用方式,即人 的参与性大大增加。人们越来越不满足于只是被动地在网络上查阅自己需要的信息,而 是希望主动去表达自己的观点和看法。所以众多基于w e b 的应用系统应运而生,例如, b b s 、贴吧、b l o g 等。这些系统正悄然地改变着人们的网络生活方式,而b l o g 就是其 中之一。b l o g 是w e b l o g 的简称,w e b l o g 是w e b 和l o g 的合成词。l o g 原义是“航海 日志”,后指任何类型的流水记录。w e b l o g 是在网络上的一种流水记录形式,所以也 称为“网络日志”,中文音译为“博客”。它是i n t e m e t 上一种非常重要的媒体。常被 称作“新闻媒体3 0 ”。1 0 是指传统媒体或旧媒体( o l dm e d i a ) ,2 0 就是人们通常所说 的新媒体( n e w m e d i a ) 或者叫跨媒体,而3 0 就是以“博客”为趋势的自媒体( w e m e d i a ) 或者叫“个人媒体”【3 1 。它是w e b 2 0 的产物,是一种极其简单便捷的网络个人出版形 式,使得任何一个用户都可以拥有自己的个人空间,可以通过b l o g 自由地表达自己的 观点和抒发自己的情感,并可以随时对其他人的观点进行评论。它俨然已经成为了目前 互联网上的一道靓丽的风景线。同时b l o g 这种自由、发散和随意性的特点也使得它日 b l o g 热点话题发现及其作者声誉度研究 渐成为舆情产生和传播的主要场所,同时也成为国家对互联网的管理和监控急需解决的 现实问题,所以对b l o g 中发布的话题以及b l o g 作者等方面研究的重要性也就越来越凸 显出来。 热点事件是在某段时间内各个领域内发生的引起人们较大关注的事件。很多机构每 年都会发布各个领域的热点事件,让人们了解和回顾这一年各个领域发生的重大事件【4 1 。 在b l o g 中,b l o g 作者发布的热点事件即为热点话题。 作为一块正在加速膨胀的思想阵地,互联网已演化成一个虚拟社会,而加上网络本 身虚拟性、隐藏性、发散性、渗透性和随意性等特点,越来越多的人愿意通过此类渠道 表达真实的想法。互联网日渐成为舆情产生和传播的主要场所,网络舆情在社会生活中 扮演着越来越重要的作用【5 l 。而b l o g 就是当今互联网中一种重要形式。由于许多b l o g 都是以在线日志的形式存在,这使得b l o g 作者在发表话题时往往会表达自己的情感。 他们经常通过b l o g 对自身感兴趣的热点话题、新闻事件等发表自己的观点和看法。同 时,在b l o g 世界中,信息极度丰富,且分布分散,这就为网络舆情的产生与传播创造 了条件,如何去识别某个阶段人们一直关注的话题就成为了一件非常困难的工作。同时, 对于热点话题,由于评论的隐蔽性和自由性,往往可以真实地表达评论者对于该话题的 反馈,所以对评论的分析就尤为重要。传统的对于b l o g 热点话题的发现主要根据b l o g 网 站中的话题排名,而该排名主要是基于评论数目来得到的,即评论数目多,话题热点度高; 反之,评论数目少,话题热点度低。并没有考虑评论以及话题的内容。由于评论具有很大 的灵活性与随意性,所以不可避免地会带来许多诸如广告、超链接等的噪音评论。本文 在考虑评论数目的基础上,挖掘与话题相关的评论内容,同时分析评论的情感,进行 b l o g 热点话题发现,随后对于热点话题,计算话题的支持度,进而判断b l o g 作者的声 誉度。 1 2 国内外相关研究现状 1 2 1 话题识别与跟踪 热点事件的研究利用了很多话题识别与跟踪技术【6 ,7 1 ,所以本文首先对话题识别与跟 踪进行简要的介绍。 话题( t o p i c ) 是话题检测与跟踪( t d t ) 研究中的一个最基本的概念。目前使用的话题 概念是包括一个核心事件或活动,以及所有与之直接相关的事件和活动( at o p i ci sd e f i n e dt ob eas e m i n a le v e n to ra c t i v i t y , a l o n gw i t ha l ld i r e c t l yr e l a t e de v e n t sa n da c t i v i t i e s ) 1 8 1 。话 题跟踪是给出某话题的一则或多则报道,把后输入进来的相关报道和该话题联系起来。 话题识别与跟踪的研究始于1 9 9 6 年1 8 l ,同信息检索、信息抽取、文本挖掘等几个交叉的 2 一 大连理工大学硕士学位论文 相关研究相比,话题识别与跟踪更强调对新信息的发现能力,关心涉及特定话题而不是 相对广泛的主题类别信息。 目前,话题识别与跟踪研究集中于5 个子任务展开,各个子任务的解决将有助于最 终研究目标的实现。这5 个子任务包括 i , 9 1 : ( 1 ) 对新闻报道的切分( s t o r ys e g m e n t a t i o n ) :将连续的广播、电视新闻节目的语音 或文字记录分割为不同的报道。 ( 2 ) 新事件的识别( n e we v e n td e t e c t i o n ) :即在新闻报道信息流中识别出对一个新话 题的首次报道。 ( 3 ) 报道关系识别( s t o r yl i n kd e t e c t i o n ) :判断两个随机选择的新闻报道是否讨论同 一个话题。 ( 4 ) 话题识别( t o p i c d e t e c t i o n ) :识别出系统未知的话题,并将相关报道也识别出来。 ( 5 ) 话题跟踪( t o p i c t r a c k i n g ) :监控新闻报道信息流以发现与某一己知话题有关的 新报道。 近年来,大量的相关研究已经展开。 话题识别与跟踪( 1 d t ) 主要关注的重点是事件的检测与追踪。从本质上看,事件检 测是对新闻报道流依据不同的事件做聚类,所以话题发现通常采用聚类的方法,由于数 据的规模和事件的特性,使得对整个数据集聚类的传统方法不太适用。基于上述原因, 增量聚类算法被广泛使用【l ”。 金珠、林鸿飞、赵晶【2 】提出了一种基于信息检索技术和“知网”实现有效的话题跟 踪和话题立场分类的方法。文中针对跟踪任务中话题本身的特点,论述了权重调整、事 件框架和报道扩充等多种提高跟踪性能的策略。同时基于“知网”中的情感体系和动态 角色框架,提出了如何填充框架并结合建立的立场概念库对报道进行话题立场分类。 在话题识别与跟踪领域,如何从得到的事件列表中发现热点事件是一个重要研究内 容,对一个事件“热”的度量是一项困难的工作。 郑伟等【1 2 】提出了对于话题本身的漂移现象的处理办法。他们利用vl a v r e n k o 等提 出的相关性模型【1 3 l ,并进行了改进,对跟踪中伪相关反馈包含的新颖信息进行检测和建 模,并在此基础上动态调整话题空间,跟踪话题漂移,降低漏检率。 周亚东等针对网络舆情分析的需求,给出了网络热点话题定义,即网络热点话题指, 以网络为传播媒介,被一定人群广泛、持续关注,并能够反映网络舆论状况的信息集合, 其中包括对网络热点话题内涵的语义化描述以及话题的传播方式等。同时给出了网络热 点话题的形式化描述,分析了流量内容中热点词语与热点话题的关系,提出了流量内容 中热点词语的相关度计算算法。在此基础上,采用基于高密度连接区域的密度聚类方法 一3 一 b l o g 热点话题发现及其作者声誉度研究 得到热点词语簇,结合热点词语簇相关的网页标题及网站地址信息,得出网络热点话题 的属性描述。 新闻报道是由某一个或几个作者发表,没有读者的参与和反馈,无法全面反映广大 消费者的观点。而在b i o g 领域,由于具有评论这样一类特殊信息,所以可以通过评论 的数量和对其内容的分析来作为发现热点事件的一个主要方法。但与新闻报道相比,网 络评论具有以下显著特点:信息容量大;信息来源丰富;语言表达形式自由;语句成分 不完整;语序紊乱;标点符号使用不规范等等【”】。 1 2 2 b i o g 领域相关研究现状 话题是话题识别与跟踪中最基本的概念以及主要研究对象,同样在b l o g 领域中,对 于b l o g i 舌题的研究仍然是大家关注的焦点。k y u m a r ss h e y k h e s m a i l i 等【i6 】提出了一种基于 b i o g i 舌题之间链接的b l o g 推荐系统,文中将b l o g 之间的链接作为推荐的依据,例如a 博 客指向了b 博客,文中则认为a 博客的作者更倾向于b 博客。基于这种思想,文中采用了 许多经典的推荐算法对b l o g 进行推荐,主要并对不同推荐算法推荐结果的准确率和召回 率进行了比较。结果表明,个性化推荐算法效果优于非个性化推荐算法,主要原因是由 于b l o g 领域是个性化的领域,个人的兴趣具有其特定的重要性。同时,文中也提到,对 于孤立的b l o g ,即链入和链出都非常少的b l o g ,利用文中的算法进行推荐将起不到太明 显的作用。最后,作者提出可以将b l o g 的文本内容融入推荐算法中,即使用b l o g 内容与 链接相结合的方式来解决孤立b l o g 的问题。可见,对b l o g 内容的分析是十分重要的。 评论信息是b l o g 的特色之一。大多数b l o g 作者将用户的评论作为他们继续写b l o g 的动力。所以,评论信息是处理b l o g 的一个非常重要的因素。尽管如此,在目前大量 的对中文b l o g 的研究中,焦点主要放在b l o g 的话题研究,评论信息往往被忽视,主要 原因是获取并处理评论信息是一项非常复杂的工作。g i l a dm i s l m e 和n a t a l i eg l a n c e 】 提出了对b l o g 评论以及评论与话题关系的大规模研究,第一,通过解析b l o g 网页的源 代码并从中分析内容的方式抽取了一定数量的评论语料,并分析了具有评论内容的b l o g 占所有b l o g 的比例;第二,分析了评论数量和平均长度对于b l o g 关注度的影响;第三, 文中说明了评论信息的使用可以提高b l o g 的检索排名,同时还分析了评论中的链接、 争论性评论和非争论性评论的分类等等。所以评论信息这特点对于b l o g 领域的研究 具有重要意义。但是,由于用户可以随意发表自己的评论信息,所以评论的这种灵活性 与随意也带来了许多噪音评论( j s , j 9 】,例如:广告、超链接等等。这样的评论对本文进行 评论的分析会带来负面影响,所以噪音评论的过滤同样是项很重要的工作。 - 4 - 大连理工大学硕士学位论文 1 2 3 情感分析 对文本的情感分析可以鉴别用户对某产品、事件等持褒义还是贬义的观点。目前, 情感分析技术已经广泛地应用在许多研究领域,具有极大的实用价值。在企业中,产品 的网上评论信息往往可以真实地表达用户的观点和看法,这是厂商获取用户建议和反馈 的宝贵资源。对网络评论的情感分析,可以使厂商抓住用户的反馈,为企业决策者提供 准确而有效的决策信息。在垃圾过滤和信息安全方面,将强烈支持不良观点的信息过滤 掉。在其它研究领域,如自动文摘提取中,可将情感词汇密集的句子和段落摘出,更好 的反映原文的中心思想。总之,情感分析已经得到了国内外广泛的关注。 近年来,对于文本内容中主观性词汇的识别和收集已经有了大幅的增长 2 0 l 。随之而 来,对文本内容的情感分析,尤其是对于句子以及文本的倾向性分析已经越来越受到人 们的关注,已经有了一些成果。目前,文本倾向性的主要工作是基于人工标注语料库, 利用机器学习的相关算法,计算词语、句子、篇章的褒贬度【2 ”。 一句话可以表示成为词语形式,因此计算词语情感的方法可以直接应用于句子情感 甚至篇章情感的计算。h a t z i v a s s i l o g l o u 和m c k e o w n 2 2 】首先开始进行了词汇倾向性的研 究。他们主要针对形容词的倾向性分析,利用形容词的词缀和连用时所使用的连词( a n d , o r ,b u t ,e i t h e r - o r 和n e i t h e r n o t 等) 训练生成词汇间的同义或反义倾向性的连接图,然后 利用聚类的方法将词汇聚类成褒义和贬义两类,从而达到了褒贬度计算的目的,精确率 较高,最低的一组实验结果也达到了7 8 0 8 。但缺点是仅限于形容词的计算。 2 0 0 3 年,t u m e y 和l i t t m a n t 2 3 1 采用计算基准词对与词汇相似度的方法识别词汇倾向 性。他们选择了七对褒贬倾向比较强烈的词汇,计算待定词与每个基准词的s o - p m i ( s e m a n t i co r i e n t a t i n - p o i n t w i s em u t u a li n f o r m a t i o n ) 值来判定词汇的倾向性。 2 0 0 4 年,j k a m p s 、m m a r x 、r j m o k k e n 等阱铡用w o r d n e t 计算词汇倾向性。先 选择基准词,判别待定词与基准词在w o r d n e t 中是否为同义词,得出词汇的倾向性。计 算公式如式( 1 1 ) 所示。 s o ( t ) :d ( t , b a d ) - d ( t , g o o d ) ( 1 1 ) d ( g o o d ,b a d ) 其中,d ( t l ,t 2 ) 是词汇t l ,t 2 在由w o r d n e t 生成的相似图中的最短路径,b a d 和g o o d 分别代表贬义和褒义基准词。 以上都是对于词汇级的情感分析。对于句子级的情感分析,大部分研究集中在对句 子的主客观分类上【2 5 捌。p a n 9 2 7 2 8 1 等利用人工标注的训练语料,采用贝叶斯、最大熵和 支撑向量机等方法分析电影评论的情感倾向,并利用上下文信息进一步提高准确率。蔡 b l o g 热点话题发现及其作者声誉度研究 健平【2 9 】等利用上下文关联和机器学习的方法分析了极性词在某一领域内的极性,随后分 别用词语和b a y e s 方法计算了句子的极性。 姚天畴,娄德成【驯提出了利用本体来抽耿语句主题以及它的属性,然后在句法分析 的基础上,识别主题和情感描述项之问的关系,从而决定语句中每个主题的极性。同时, 作者还提出了一种判定汉语语句情感词的语义倾向方法,即计算情感词的静态极性,然 后通过分析它的上下文,计算情感词的动态极性的方法 3 ”。 对于篇章级的情感分析,主要是从篇章整体上判断其情感,即褒贬态度。t u r n e y l 2 5 】 提出将文档中词和短语的情感倾向进行平均,来判断文档的情感倾向。这种方法基于情 感词典,不需要人工标注训练语料。2 0 0 5 年,k o b a y a s h i 3 2 魄出用三元组 表示意见,采用支撑向量机等方法分析汽车评论。同年,日本德岛大学任福继等 人吲基于结构化的情感知识库来识别文本的情感。 在学术研究的同时,情感分析技术也逐渐在商业运作中开展开来。公司和企业通过 分析网络上( 如b b s 、b l o g ) 用户对其生产的产品,品牌等评论的褒贬评价来作为相应的 反馈,以更好地了解用户的需求。微软美国研究院g a m o n i 圳的p u l s e 系统,可以自动计 算出网络用户发表的关于汽车评论的褒贬态度。美国伊利诺斯大学的“u 【3 s 开发了 o p i n i o no b s e r v e r 系统,处理客户对产品的网络评价。i b ma l m a n d e n 研究中心y i l 3 6 】的 w e b f o u n t a i n 系统中的意见挖掘器,可以对数码相机和音乐的评论进行分析计算。以上 这些系统大都依赖于特定领域,需要大量的人工标注,目前还处于实验阶段。 张军掣37 】提出了从u g c 中挖掘对于产品,品牌( 以汽车领域为例) 的评判分析的一 系列方法。u g c ( u s e r g e n e r a t e d c o n t e n t ) 是指用户产生的内容。文中利用采集到的评论 信息,挖掘普通用户对于某企业的品牌以及产品等的评论反馈。在评论的情感分析中, 文中采用了基于词典的方式,对抽取出每个情感词的进行相应打分,同时结合若干启发 式规则形成了对于某产品的评判对,随后利用该评判对,统计每个产品所有情感词的频 率和正面情感词以及负面情感词的分数和来分析用户对该产品的情感。 在b l o g 领域中,由于同样存在大量的评论信息,所以对产品,品牌等的评论的情 感分析也同样应用到b l o g 领域中来。目前,有大量的针对b l o g 的搜索引擎,但是对于 b l o g 情感分析的研究还比较少。 g i l a dm i s h n e 3 8 1 提出了对b l o g 的话题内容进行情感类别的判断,同时利用s v m 分 类器对话题内容进行了情感分类。但是作者发现,在分类时,不论如何增加训练集的数 量,利用常用的分类方法进行情感分类效果都不理想。分析其主要原因,作者认为语料 的长度、训练集的标注准确性、情感类别体系的定义都是影响分类效果的原因。针对上 大连理工大学硕士学位论文 述原因,g i l a d m i s h n e t 2 0 1 提出使用b l o g 话题中的特征词,并通过线性回归模型来预测话 题的情感。这可以在一定程度上弥补话题长度有限、缺乏训练集标注规范等因素的影响。 随后,g i l a d m i s h n e 和n a t a l i e g l a n c e 【3 9 1 又提出了从电影领域的b l o g 中分析b l o g 作 者的情感,进而去预测电影的售票情况。文中的实验也表明情感分析对于预测电影的售 票有很大的帮助。但文中也提出,对于电影领域,仅仅使用情感分析是不够的,需要结 合其它的因素( 例如:电影类型、上映季节等) 来对电影的售票情况进行预测。所以,使 用情感分析技术可以在判别观点方面起到一定的作用。 1 3 论文组织结构 全文分为五章,对b l o g 领域中热点话题的发现及其作者声誉度研究进行了详细阐 述。 第一章介绍了课题研究背景及意义,并详细介绍了话题识别与跟踪方面、b l o g 领域 以及情感分析方面的国内外研究现状。 第二章介绍了本文所提及的相关概念及使用的关键技术。包括b l o g 的概念、特点 及发展历史、网页爬虫、h t m l p a r s e rt 具包、情感词汇本体的描述、知识来源以及情感 词典的建设情况。 第三章详细阐述了本文所使用的算法思想和算法整体流程。 第四章是本文的核心部分,详细介绍了本文算法的具体流程及相应实现方法,包括 语料选择、b l o g 信息采集、b l o g 信息抽取、噪音评论过滤、b l o g 热点话题发现过程以 及b l o g 作者声誉度计算的具体过程。 第五章主要对文中的相应算法进行了实验,并分析了实验结果。同时,对实验中出 现的问题进行了剖析,并提出了相应的解决办法。 最后是对论文中的研究工作的总结,同时提出了本文的不足之处以及下一步努力的 方向。 b l o g 热点话题发现及其作者声誉度研究 2 相关概念 2 1b i o g 概述 2 1 1 b i o g 的概念 b l o g 是w e b l o g 的简称,w e b l o g 这一名字是由j o i nb a r g e r 于1 9 9 7 年1 2 月正式提 出并使用的。w e b l o g 是由w e b 和l o g 两个英文单词组合而成,所以w e b l o g 也通常被 成为“网络日志”。b l o g 中文翻译为“博客”。它是一种基于w e b 的产物,是个人心 中所想事情的发表。b l o g 的出现,可以使越来越多的普通民众( 草根) 参与进来。发表他 们的观点和看法p ”。 一个b l o g 就是一个网页,它通常是由经常更新的帖子( 英文为p o s t ,指张贴的文章, 也可以称为话题) 和评论所构成,这些话题都按照年份和f 1 期倒序排列。b l o g 的内容是 非常自由的,可以是你对国家大事、时事新闻、企业、产品等的看法,或者可以是对个 人日常生活和体会的记录,也可以是一个信息发布和信息共享的工具。它是非常个人的 东西,而以往的媒体都被公司、政府等机构所控制,对于发布的内容有严格的限制,但 它并不纯粹是一种网络日记,网络日记是明显带有私人性质的,而b l o g 则是私人性和 公共性的有效结合,它不仅仅是个人思想的表达和r 常琐事的记录,同时它所提供的内 容是可以包容整个互联网的,可以用来进行交流和与他人共享,并为他人提供帮助,具 有极高的共享精神和价值【帅】。 2 1 2b i o g 的特点 b l o g 具有以下几个显著特点: ( 1 ) 草根性:任何人都可以随意发表自身的观点和看法,且不受任何限制。 ( 2 ) 易用性:b l o g 简单易用,几乎没有技术门槛。用户不用像制作网页一样,去关 心网页的版式、外观等,仅仅要求用户输入内容即可。而目前b l o g 大都结构清晰,用 户通过自行摸索即可掌握其使用方法。 ( 3 ) 共享性:b l o g 类似于一个公开发布的日记本。它不再是纯粹的私人空间,通过 b l o g ,任何人都可以把自己的资料、个人的观点与其他人分享。 ( 4 ) 交互性:用户可以对感兴趣的b l o g 实时发表评论信息,同时,他人也可以随 时对你的b l o g 发表评价或评论,并能显示到页面上,便于实时查看。 ( 5 ) 动态性:b l o g 的话题可以不断更新。话题是按时间顺序排列的,而且是倒序方 式,也就是最新的话题放在最上面,最旧的话题放在最下面。由于信息传递超级快速, 一8 一 大连理工大学硕士学位论文 更新b l o g 就似生物的新陈代谢,没有了新陈代谢也就代表着生命的结束,而没有了更 新,b l o g 也同样失去了生命力。是否经常更新b l o g 的内容,这是一个优秀b l o g 的重要 标志。 2 1 3b i o g 的发展历史 b l o g 的出现才是近几年的事情,但是要书写b l o g 的历史,却不是一件轻松的事情。 许多史料必须像挖掘“古董”一样去求证,而且分歧和争议颇多。 根据“博客”中文译文的创始人方兴东博士有关博客发展简史和基本史实的文章, 本文对b l o g 的发展历史进行一下简要的描述【4 1 啦l 。 b l o g 的发展大致分为三个阶段: ( 1 ) 第一阶段( 9 0 年代中期到9 0 年代末期) :萌芽阶段,或者称为启蒙期。 最早的b l o g 是作为网络“过滤器”的作用出现的,那就是挑选一些特别的网站, 并作简单的介绍。因此有人认为浏览器发明人m a r ca n d r e e s e n 开发的m o s a i c 的w h a t s n e w 网页就是最早的b l o g 网页。j u s t i nh a l l 的黑社会链接网页( h t t p :w w w 1 i n k s n e t v i t a w e b s t o r y h t m l ) 也是最早的b l o g 网站原型之一。 1 9 9 7 年1 2 月,j o mb a r g e r 运行的“r o b o tw i s d o mw e b l o g ”( h t t p :w w w r o b o t w i s d o m c a y m n e t l i t i n d e x h t m l ) 第一次使用w e b l o g 这个正式的名字。至今,在b l o g 领域,他还是 一位非常有影响力的人物。j o i nb a r g e r 的贡献主要体现在形式上,他将l o g 的意义从接 近航海日志那种无人称、拟客观、机械式写作,转换成较接近旅游日志的“有人称、有 个性”的自由书写。 p e t e r m e r h o l z 由此将b l o g 变成动词,后来更衍生出b l o g g i n g 、b l o g g e r 或者i b l o g 、 b l o g s p h e r e ( 博客世界) 等的说法。 这个阶段主要是一批i t 技术迷、网站设计者和新闻爱好者不自觉、无理论体系的 个人自发行为。还没有形成一定的群体,也没有具备一种现象的社会影响力。在悄悄的 演变过程中,也有一些事件和人物起到了非常关键的启蒙与带头作用。 ( 2 ) 第二阶段( 2 0 0 0 年2 0 0 6 年左右) :初级阶段,或者称为崛起期。 到2 0 0 0 年,b i o g 开始成千上万涌现,并成为一个热门概念。在b l o g 发展史上,“9 1 1 ” 事件是一个重要的时刻。正是这场恐怖的袭击,使人们对于生命的脆弱、人与人沟通的 重要、最即时最有效的信息传递方式,有了全新的认识。 同时,各个专业领域的b l o g 如雨后春笋,纷纷浮出水面,越来越成为该专业关注 的焦点。除了美国,英国、匈牙利、德国等欧洲国家的b l o g 也形成声势。亚洲,包括 中国也开始感受到b l o g 的脉动。 一9 一 b 1 0 9 熟点话题发现及其作者声誉度研究 ( 3 ) 第三阶段( 2 0 0 6 年以后) :成长阶段,或者称为发展期。 到2 0 0 6 年左右,作为一种新的媒体现象,b l o g 的影响力有可能超越传统媒体;作 为专业领域的知识传播模式,b l o g 将成为该领域最具影响力的人物之一;作为一种社会 交流工具,b l o g 将超越e - m a i l 、b b s 、i c q ( i m ) ,成为人们之日j 更重要的沟通和交流方 式。 2 2 网络爬虫 2 2 1网络爬虫的概念及工作原理 网络爬虫出自c r a w l e r 的意译,具有相同词义的词语还有s p i d c r 、r o b o t s 、b o t s 、 w a n d e r e r 等等。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网 页,是搜索引擎的重要组成。它是通过网页的链接地址来寻找网页,从网站的某一个页 面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找 下一个网页,这样循环下去,直到把这个网站所有的网页都抓取完为止。 网络爬虫一般有两种策略:广度优先和深度优先。 广度优先是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一 个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法 可以让网络爬虫并行处理,提高其抓取速度。 深度优先是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条 线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络爬虫在设计的 时候比较容易。 总之,两种爬行策略各有各自的优点,在实际应用时,可以根据要求设置不同的爬 行策略。 2 2 2 一种实用的网络爬虫b l e c h w e b l c c h 是一个功能强大的w e b 站点下载工具。它是一个j a v a 开源项目,下载 地址为h t t p :w e b l e c h s o u r c e f o r g e n e t 。它支持按功能需求来下载w e b 站点并能够尽可能 模仿标准w e b 浏览器的行为。同时,w e b l 舭h 有一个功能控制台并可以采用多线程操 作。 同时,w e b l e c h 是一个实现简洁,配置方便和运行高效的网络爬虫程序,它可以通 过配置来指定下载文件的存储目录、下载更新的控制、下载的网页文件类型、爬行的目 录深度、指定地址的匹配度、下载地址的优先度、用户代理、系统线程数目等。其具体 工作原理如下: 大连理工大学硕士学位论文 ( 1 ) 设定爬行入口页面。w e b l e c h 可以人工设定待爬行网站的入口页面,然后爬虫 会自动选择其上面的所有链接,并把这些链接所在的页面加入到要下载的队列中。 ( 2 ) 爬行策略选择。对加入到队列的页面,在爬行时,可以选择广度优先,也可以 选择深度优先,默认情况下,是广度优先。同时,还可以选择爬行的最大深度,如深度 设为“0 ”则为深度不限,即爬行到叶子页面( 无链接的页面) 为止。 ( 3 ) 过滤页面u r l 地址。w
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025内蒙古省际劳务协作招聘岗位考前自测高频考点模拟试题及完整答案详解
- 3.2 阳光的传播-教学设计 -2023-2024学年华东师大版七年级下册科学
- Unit 9 The wind is blowing 教学设计初中英语牛津上海版2008七年级第二学期-牛津上海版试用本
- 3.4 直线与圆的位置关系说课稿-2025-2026学年初中数学青岛版2012九年级上册-青岛版2012
- 新疆2025年新疆第二医学院招聘89人笔试历年参考题库附带答案详解
- 6.18 从九一八事变到西安事变 教学设计 2023-2024学年部编版八年级历史上学期
- 高中地理 第二章 自然地理环境中的物质运动和能量交换 2.1 大气的热状况与大气运动(1)说课稿 中图版必修1
- 2025福建福州市土地房屋开发总公司招聘2人笔试历年参考题库附带答案详解(3卷合一)
- 2025浙江嘉兴市海宁市马桥街道专职消防队招聘专职消防员1人笔试历年参考题库附带答案详解(3卷合一)
- 吉林省梅河口市曙光镇中学九年级化学上册 第二单元 课题3 制取氧气说课稿 (新版)新人教版
- 2025-2026学年第一学期苏教版二年级数学上册第一单元测试卷及答案
- 第五单元漫步经典第4课时《第九十四(惊愕)交响曲》教学设计-西大版初中音乐八年级上册
- 2025年金融科技行业数字支付发展前景研究报告
- 七上语文月考必考名著《朝花夕拾》高频考点简答70道
- 2025榆林镁业(集团)有限公司招聘(9人)考试参考试题及答案解析
- 爱国教育主题班会课件:看中华崛起展少年担当
- 2025年市场营销自考真题及答案
- 数字化转型文化旅游产业智慧化发展研究报告
- 低空经济全景图:新质生产力驱动下的万亿级新赛道与区域标杆实践
- 硫酸安全培训与防范课件
- 2025年营造林监理工程师试题
评论
0/150
提交评论