




已阅读5页,还剩66页未读, 继续免费阅读
(计算机科学与技术专业论文)基于确定话题和情感极性的博客文本聚类研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理- 下大学硕十学位论文 摘要 随着互联网的发展,人们获取信息的需求不断增加,而面对庞大的网络信 息量,同时也给人们获得需要的信息带来极大的困难。网络信息中极为典型的 是博客文本,或简称博客。博客中常包含大量评论,包含了博客作者对人,事 物,事件等的情感和态度( 统称为观点) 。这些情感和态度包含着大量有价值的 信息。了解这些“观点 、“情感极性 或“态度”可以帮助人们获得更有价值 的信息,从而进行有效的抉择,如告诉人们应当购买何种商品,帮助商家制定 市场策略,帮助政府掌握网络舆情。分析和挖掘博客中蕴含的博客作者的观点 成为当前数据挖掘领域研究热点之一。 观点挖掘是一种从论坛、讨论组等内容中挖掘所表达的观点的技术。一般 观点挖掘有四个子任务:( 1 ) 话题抽取( t 0 p i ce x t r a 撕o n ) ( 2 ) 观点持有者识别( h o l d e r i d 锄t i 丘c a t i o n ) ( 3 ) 陈述的选择( c l a i l ns e l e c t i o n ) ( 4 ) 情感分析( s e n t i m e ma n a l y s i s ) 。观 点挖掘的研究国外起步早,主要针对英文文本;国内针对中文文本的观点挖掘 研究起步晚,很多基础性工作尚在进行中。目前,绝大部分的研究把情感极性 ( 或者称为情感倾向,即人对客观事物的好、恶,褒、贬,支持、反对等态度) 分为2 类( 正向和负向) 或3 类( 正向、中立和负向) 。众所周之,人的情感是 丰富的,仅仅使用这2 、3 种,不足以表达蕴含在博客文本中的作者的情感,需 要用更多类的情感极性来表达。目前,基于作者,同期和话题等对博客文本进 行聚类研究已有先例,而基于情感极性对中文博客文本聚类研究仍鲜见报道。 本文主要根据博客文本中的作者的情感极性,采用聚类技术,将中文博客 文本进行分组处理,使组内文本的情感极性相近,组间文本具有不同情感极性, 并达到细分情感极性的目的。经研究发现,尽管博客文本中包含了丰富的情感, 不过这些情感可能很分散,而博客搜索引擎搜索到的博客搜索结果项( 指标题 和摘要部分) 虽然包含的情感比较少,但是这些情感倾向性相对集中。所以, 本次研究使用博客搜索结果来作为博客文本的精练表达,从而以此为研究对象。 本文首先设计一个“爬虫 ,用它来获取g o o 酉e 博客由此得到确定话题( 本 文实验部分选用了两个话题“建国大业 与“刘翔”) 相关的结果。然后,使用 人工标注的方法根据情感极性把采集到的数据集标注成3 类( 正向,中立和负 向) 。接着,使用中科院i c t c l a 分词工具对搜索结果数据集进行分词预处理, 武汉理下大学硕十学位论文 并使用基于词典的方法提取情感词( 文中采用了h o w n e t 和n t u s d 两部中文情 感词词典) 。紧接着,使用a d 锄s c h e n k e r h o r s tb u n k e 等提出的“标准的基于图 的文本表示模型”( 简称为g b r 模型) 和本文作者设计的“整合图文本表示模 型”( 简称为s o b 簪a p h 模型) 分别表示数据集文本;在此基础上使用a d 锄 s c h 锄k h o r s tb u i l l ( e 等使用的基于图文本表示模型的k m e d o i d s 算法,进行情 感聚类分析。最后,使用簇中心方法表示了聚类情感簇,所谓簇中心即同类情 感词的折衷情感词,并使用“g r o u l l dt m t h 方法的三个常用度量:精度 ( p 嗽i s i o n ) ,熵( e i 灯o p y ) 和边缘索引( r a i l di n d e x ) 对聚类结果进行评介。 实验结果表明:使用作者提出的s o b 鳓模型进行的聚类分析性能较好。 关键词:网络舆情,博客,观点挖掘,情感极性,聚类 i i 武汉理工大学硕十学位论文 a b s t r a c t w i 廿lt l l ed e v e l o p m e n to fn l ei i l t 锄e t ,l er e q u i r e m e n t so fg 甜i n gi n f o m a t i o n i i l 昌弱ec o n s t a l l t l y a tt h es 锄et i n l e ,t h e o m l o u sn e t w o r k 锄。蚰to fi i l f b 衄a t i o n b 血gp e o p l eh u g e 昀u b l et 0o b t a i n 根l u i s t e di n f o m a t i o n n et ) ,p i c a li n f o n i l a t i o no f t l l en e 觚o r ki i l f o n i l a t i o ni sm eb l o gt e x t c a l l e db l o gf o rs h o r t 1 1 1 eb l o g sc o n t a i na l a f g em l n l b e ro fr c v i e w s ,m eb l o g g e r s ss 饥t i m 铡曲觚d 枷t u d 懿t 0p e o p l e ,缸n g s , e v 锄t sa i l ds o0 n ( c o l l e c t i v e l yr e 向t e dt 0 勰0 p i i l i o i l s ) 1 1 1 e s es 训m e 幽a n d 枷t i l d 岱 疵l u d eal o to fv a l u a b l ei n f o n i l a t i o l l m a s t e r i n gm 懿e “o p i i l i o 璐,“s e n 缸l e n t p o l 撕t y ,o r “a t t i t l l d e s ”m a yh e l pp e o p l eg a i l lm o r ev a l u a b l ei i l f 0 】咖a l i o na i l dd 0 e 虢c t i v ec h o o s e ,s u c h 鹞t e l l i n gp e o p l e 砌c hc o m m o d i 哆s h o u l db ep u c h 船c d , h e l p i n gc o m p a n i e sm a l ( i n gm a r k e ts 仃a t e 西镐,锄dh e l p i n g9 0 v 蹦吼饥tg e th o l do f n e 咖d ( p u b i co p i n i o n a tp 顶;e i l t a n a l ) r z i n g 锄dm i i l i 】鸣n l eo p i i l i o 粥o fb l o g g 粥 锄b e d d e di n t ob l o g sb e c o m eo n e o f h o t s p o t si i lt l l er e s e 疵hf i e l do f d a t am i i l i n 吕 o p i n i o nm i i l i n gi sat e c l l l l o l o g yw 1 1 i c hi sa p p h e dt 0n l i n et 量l co p i i l i o i l s6 0 mt l l e c o n t e n to ft l l ef o r u m sa n dd i s c u s s i o ng r o u p s g e r a i l y o p i n i o nm i n i n gl 粥f o u r s u b t a s l 【s :( 1 ) 1 0 p i ce x t r a c t i o n ( 2 ) h o l d e ri d e l l t i 6 c a t i o n ( 3 ) c l a i ms d e c t i o n ( 4 ) s e n t i m e i l ta n a l y s i s i l lt l l er e s e a r c h6 e l do fo p i n i o nm “n 吕f o r e i 髓s c h 0 1 a r ss t u d y e 砌i e ra i l da r ef o c u so ne n 酉i s ht e x t ;a i l di n t e n l a ls c h o l a r ss t u d yl a t e r 锄dl e a v em a i l y 旬u n d a t i o n a lw o r d sb e i n gr e s e a r c h e d a tp r e s e l l t ,m o s to fl i t e r 舭sd i v i d es e n t i l i l e i l t p o l 撕t y ( m e a t t i t i l d e st oo b j e 嘶v em i n g s 矗wp e o p l e ,s u c h 嬲l i k 鲥d i s l i k e p r a i s 踟e 蓼a d e ) i n t o 撕oc a t e g o 五e s ( p o s i t i v e 锄dn e g a t i v e ) o rn l f e ec a t e 9 0 r i e s ( p o s i t i v e ,n e u t r a la n dn e g a t i v e ) a sw eh l o w ;t 1 1 es e i :血m e n t so fp e o p l ea r ea :b u n d 雒t ; i ti sn o te i l o u 曲t 0e x p r e s st l l es e n t i m e n t so f b l o g g e 娼e m b c d d e di n t o 廿l eb l o g st e ) 【t 0 1 1 l ym a i ( i n gu s eo f 廿1 e 铆o0 r n l 】陀e c a t e g o r i e s n 0 w a d a y s ,吐l er 懿e a r c h 伪o f c l l l s t 耐n gb l o gt e x tb y 廿l e 锄t l l o r s ,d a t e 锄dt o p i ca l r e a d yl l a _ v ep r e c e d 饥t s ;m e 玉豁e a r c h 豁o h o w e v c l u s t 谢n gc h i n e s eb l o gt e x tb yn l es t i m 锄tp 0 1 撕t ) ,i s r 印o r t e dr a r e i y 啦sm e s i s ,b ym es 锄t i m 吼tp o l 耐t ) ro fm eb l o g g 懿,a d o 幽m ec l u s t 耐n g t e c h o l o g yt 0g r o u pm ec eb l o gt e x ts 0a st 0a c m e v e 廿l ep l l 驴s eo f s u b d i v i d i n g m 武汉理t 大学硕士学位论文 m es e n t i m e l l tp 0 1 撕t y t h r o u 曲s t u d 弘i ti sf o u l l dt h a tt 1 1 e s es e l l t i m e n t sm a yb e s c a t t e r e da l t h o u g hm eb l o 笋t e x ti n c l u d ea m u e n ts e n t i m e n t s ;t om ec o n 廿a r y ,t l l e s e l l t i m e i l tp o l 撕t yc 0 n t a i n 酣i nt l l eb l o gs e a r c hr e s u l t s ( m et i t l e sa n dn l es i l i p p e t s )i s r e l a t i v e l yi n t e n s i v e s ot l l i ss t u d yl l s eb l o gs e a r c hr e s u l t s ( t l l et i n e sa n dt l l es i l i p p e t s ) 鹤也ec o n c i s er 印r e s e n t a t i o n 锄d l e0 b j e c t ss t u d i e d f i r s t l y ,t l l em e s i sd e s i g na “c r a w l 一t 0g e tt l l er e s u l t ss e 觚c h e dw i mg o o 酉eb l o g s e a = r c ha c c o r d i n gt 0c e n a i nt o p i cm 坞t i d p i c t h ef o u i l d i n go far 印u b l i c a n dn l e t o p i c x i 锄gl i u a r ea p p l i c di nt l l ee x p e r i l i l 如t si nm et l l 髂i s ) 1 1 1 e 玛w eu s em e m e t :h o do fm 籼i 锄n o t ;a t i o nt 0l a b e lt h ed a t as e ti n t ot h f c a t e 9 0 r i 髓a c c 0 r d i i l gt o t l l es e i :曲e n tp o l a r i 锣( p o s i t i v 岛m 删a n dn e g a :t i v e ) a n 盱m a l w e 印p l yt h e c l l i n e s ea c a d 锄yo fs c i 铋c c si c t c l ac l l i n e s e 、釉r ds e 舯钮t a t i o n 劬lt 0d e a l 谢t l i 吐l eb l o gs r c hr e 鲫1 t s ,t h 锄a d o p tt h el e x i c o nb 嬲e dm e l o dt 0c x m 畋n l es 既t i m e i l t w o r d sf r o mm e s t r i r i 笋o fw o r d s ( m i s 也e s i sa d o p tm et 、oc l l i n e s es 训m e n tl e x i c 0 n : h o w n e t姐d n t u s d ) t h 饥 诚g “m e s t 锄d 矾g r a p h - b 舔e d d o 伽n 融t 啊,i 髑e i l t a t i o nm o d e l ”p r o p o s e db ya d 锄s c h c n l 喁h 懈tb u n k e 锄ds o ( g b rm o d e l 内rs h o 哟a n dm ei n t e 乎a t e d 黟a p h b 弱e dd o c u m e n tr e p f e s 咖a t i o nm o d e ld e s i g n e db y l i st l l e s i s sa 咄0 r ( s o b g r a p hm o d e lf o rs _ h 0 哟r 印r e i l ts e p a r a t d yt l l et e x ti n 吐l e d a 协s e t ;o nt 1 1 a tb a s i sa p p l ym ek m e d o i d sa l g o r i 吐l mw l l i c hi sb a l s e do nm e 舯p h - b a s e dd o c 啪e l l t 郴e n t a t i o nm o d e lp r o p o s e db ya d a i ns c h 耐呱h o r s tb u n k e 锄ds o t oc l u s t e rc 1 1 i n 鹤eb l o g sb y 胁l b e d d e ds e n t i m e i l t l 椰t l mu s i n gn l ec 印仰i d s r 印r e s e n t a t i o nm e m o dt os h o wm es e l l 血n e md u s t e r s ( m es e n t i m e n tw o r d so fm e d o c u m e n tc o r r e s p o n d i n gt 0m ec e n t r o i da r eu s e dt or e p r e s e n tt l l ec l u s t e r ) 觚du s i n g m 僦c 0 咖0 nm “c s ( 也ep i i e d s i o i l t h e 铋们p y 雏dm er a n di n d e x ) i nm e ( 衲u n d t 1 1 i mm e l o dt 0e v a l u a t em ed u s t 耐n gr e s u l t s t h ee x p 舐m e n tr e s u l t ss h o wt h a t 也ep e r f o n n 趾c ef o rc l u s t 甜n gc l l i n e s eb l o 黟 b y 如1 b e d d e ds e n t i m e n tw i mm es o b 伊a p hm o d e li sb 酬b e rm a nw i n lm eg b r m o d e l k e y w o r d s :n e t 、v o r kp u b l i co p i n i o 玛b l o 吕o p i i l i o nm i i l i n 舀s 酬i m e n tp o l a r i 坝 c l u s t e r i i l g 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 = 嚣翟怒净卜m 一忽 研究生( 签名) :彪纹导师( 签名) :孑主翁彳 日期:2 口d 箩忽 武汉理t 大学硕士学位论文 1 1 课题的研究背景 第l 章绪论 随着互联网技术发展,越来越多的人上网书写博客文章来表达他们对某事, 某物等的情感和观点。博客( 全称是w 曲l o g 即“网络日志) ,是一种通常由个 人管理、不定期张贴新的文章、图像或视频的网站【l 】。博客有些情况下也指博客 文章或其作者( b 1 0 9 9 e f ) ,可根据上下文语境判断。 2 0 1 0 年1 月1 5 日,中国互联网络信息中心( a 州i c ) 发布第2 5 次中国 互联网络发展状况统计报告【2 】。报告显示截至2 0 0 9 年1 2 月3 0 日,我国网民 规模已达3 8 4 亿,互联网普及率进一步提升,达到2 8 9 ;同时我国的博客用 户达到2 2 1 亿,数目超过了我国互联网用户总数的一半。 分析这些观点和看法,可以帮助个人购买商品,可以帮助企业制订营销策 略,还可以帮助政府掌握网络舆情。 舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化, 民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种 现象、问题所表达的信念、态度、意见和情绪等等表现的总和【3 】。 网络舆情,指网络环境下的舆情信息。它的主要来源有:新闻评论、b b s 、 博客、聚合新闻( r s s ) 。网络舆情表达快捷、信息多元,方式互动,具备传统 媒体无法比拟的优势l 3 l 。 因此,人们越来越关心如何收集,管理,分析和利用这些蕴含在博客中的 信息。这些信息广泛地分布在互联网上,人工收集,管理和分析起来,工作量 巨大,非常消耗时间,因而成本很高。观点挖掘( 0 哂i l i o nm i n i i l 曲是一种从论坛、 讨论组等内容中挖掘所表达的观点的技术1 4 】。 情感分析( s e n t i m e n t a n a l y s i s ) 是观点挖掘的一个主要子任务。相对于国内, 国外在这个领域研究较早,技术比较成熟。目前,大多数文献把情感极性( 人 对客观事物的好、恶,褒、贬,支持、反对等态度) 分为2 类( 正向和负向) 或3 类( 正向、中立和负向) 。b l o g g e r s 在博客文本中表达的情感是丰富的。但 是仅仅用这2 、3 种分类不足以描述这些丰富的情感,因此我们需要细分出更多 的情感。基于作者,日期和话题等的博客文本聚类研究已有报道,但是基于情 武汉理1 二人学硕十学位论文 感极性的中文博客文本聚类研究鲜有报道。 本文主要根据蕴含在博客文本中的作者的情感极性,采用聚类技术,将中 文博客文本分组,使组内文本的情感极性相似,组间文本的情感极性不同,从 而达到细分情感极性目的。经研究发现,尽管博客文本包含了丰富的情感,不 过这些情感可能很分散、不集中( 这些情感描述的对象较多,不唯一) ,而博客 搜索引擎查询到的博客搜索结果项( 指标题和摘要部分) 虽然包含的情感比较 少,但是这些情感相对集中( 这些情感描述的对象较少,相对唯一) 。所以,本 课题研究使用博客搜索结果作为博客文本研究对象。 本文先通过博客搜索获取与确定话题相关的博客搜索结果,然后进行分词、 和情感词的提取,在此基础上,使用整合的基于图的文本表示方法将获得的数 据( 即博客搜索结果) 表示成一个个的图,接着使用k - n l e d o i d s 聚类算法进行聚 类并使用簇中心表示方法进行聚类结果的表示。 1 2 课题的研究意义 1 1 1 理论意义 当今世界,信息量巨大,并呈指数级增长,从现有表达方式了解信息,是 一件困难的事情。从巨大的信息量中找到人们关心的信息或者隐含的结论,在 现阶段尚是个难题。本课题研究将使用信息检索技术获得数据源,并采用观点 挖掘技术分析文本的情感倾向( 即情感极性) 从而度量文本的情感倾向相似度,接 着使用数据挖掘聚类技术进行聚类分析,因此,这一研究对克服海量信息带来 困难、获取信息间接相关性具有重要理论价值。 基于确定话题与情感极性的英文博客文本聚类研究已有报道,但是基于确 定话题与情感极性的中文博客文本聚类研究至5 月8 号尚未见报道。 本人于2 0 0 9 年5 月8 日2 0 点5 0 分使用中国知网高级检索功能,在中国期 刊全文数据库,中国博士学位论文全文数据库、中国优秀硕士学位论文全文数 据库和中国重要会议论文全文数据库模糊搜索1 9 7 9 年到2 0 0 9 年,检索项为“题 名 ,检索词为“情感 并且“文本 并且“聚类的文章,结果显示为o ,搜 索结果如图1 1 所示。 2 武汉理= r :大学硕十学位论文 1 | 。_ t ,j 2 嚣j 鬻一i 2 。pp - 一, 鎏鎏塑j 嚣豇 _ i 矗; h i 葡i iv 盹 ”io l ”iq ! “ 图1 - 1 中国知网高级检索关于文本情感聚类的检索结果 1 1 2 现实意义 本课题研究具有一定的现实意义。例如:本课题研究可以帮助个人了解人 们对某些商品的观点和态度,从而选购合适的商品;可以帮助商家搜集市场情 报,从而制定恰当的产品营销策略:尤其可以帮助政府机构了解一定时期人们 对某些话题的观点和态度,从而掌握并引导网络舆情。 1 _ 3 国内外发展现状 与本研究课题相关的两个主要研究领域是b l o g 挖掘和情感分析 1 3 1 b l o g 挖掘 b 1 0 9 挖掘是与本课题息息相关的两个主要领域之一。它主要包括:b 1 0 9 定 义与识别、b l o g 搜索、内容挖掘、社区发现等方面。与本课题关系最为密切的 是b 1 0 9 内容挖掘。 b l o g 内容挖掘指的是运用自然语言处理技术和数据挖掘技术等等技术,从 b l o g 社区自动发现和提取信息的过程。挖掘的对象包括b 1 0 9 文章和b 1 0 9 评论 等等,采用的方法主要包括基于相似度计算的内容分析方法和基于词频统计的 方法i ”。 目前,进行博客聚类的研究太多数是基于话题的,很少是基于情感的。文 献f 6 】提出一种分析博客搜索结果项( 指博客搜索结果的标题部分和摘要部分) 问的相似性的文本聚类方法。不过,该文讨论的是英文搏客文本。文献【7 】使用 p l s a 模型来进行中文博客文本聚类。它处理对象是整篇博客文章,包括了标题。 因此,该文讨论的是长文本。同时它只考虑情感词。但是结构化信息也很重要。 武汉理j i :人学硕+ 学伊论文 1 3 2 情感分析 情感分析是与本课题息息相关的另一个研究领域。情感分析是观点挖掘的 主要任务之一。观点挖掘是一种从论坛、讨论组等内容中挖掘所表达的观点的 技术【4 】。 根据美国加州大学瞄m 和h o v y 对观点的定义【4 1 ,观点由四个元素组成,即 话题( t o p i c ) 、话题持有者( h 0 1 d e r ) 、陈述( c l a i m ) 和情感( s 肌t i i i l e n t ) 。它 们之间有着内在的联系,也就是观点的持有者针对某话题发表了具有情感的观 点陈述。 观点挖掘的过程就是要在自然语言主观性文本中确定这些元素以及它们之 间的关系。( 主观性文本是相对于客观性文本而言的一种自然语言文本表达形 式。一般来说,它有四个子任纠8 】) 。 ( 1 ) 主题抽取( t o p i ce x 仃a c t i o n ) :识别主题属于和领域相关的本体概念; ( 2 ) 观点持有者识别( h 0 1 d e ri d e n t 治c a t i o n ) :确定一件表述的作者和说话 者; ( 3 ) 陈述的选择( c l a i ms e l e c t i o n ) :确定一件表述的范围和过滤客观性表 述; ( 4 ) 情感分析( s e n t i m e n t a n a l y s i s ) : 决定一件陈述的语义倾向( s e m a n t i c o f i e n t a t i o n ) ,即极性( p o l 撕t y ) 。 情感分析根据文章的篇章结构可以分成3 类:词和短语层次的情感分析, 句子层次的情感分析和文档层次的情感分析。这里的文档包括段落和整篇文章。 文档层次的情感分析和本课题联系紧密。 专家学者一般把这个问题作为一个分类的问题来处理,并将文档中包含的 情感分成2 类( 正向和负向) 或者3 类( 正向,中立和负向) 。文献 9 】把评论分 成两类:支持和反对。它分析的是英文文本,而且情感极性只有两类。文献【l o 】 使用一个复合的马尔科夫域概率模型,将文档聚类成四个组,分别对应四种情 感:非常不喜欢,一般的不喜欢,有些喜欢和非常喜欢。虽然这篇文章最终得 到了四种情感极性,不过它处理的也是英文文本,而且处理过程中需要人的参 与以致聚类结果将受参与者的影响。 4 武汉理t 大学硕十学位论文 1 4 本文的主要工作 根据以上分析和现有的设备和技术条件,本课题将研究如何获得中文博客 文本,如何对文本进行分句、分词处理,如何抽取文本的情感词,如何计算中 文文本的情感极性相似度,选择适合本课题的w 曲文本聚类算法,并对实验结 果进行评价,最终设计并实现一个原型系统。本课题的主要工作如下: ( 1 ) 设计一个获取博客搜索结果的爬虫 本研究课题的数据源是网上的关于确定话题的博客搜索结果( b l o gs e a r c h r e s u l t sn e m s ,b s r i t e m s ) 。获取方法:把确定话题词作为关键词,通过博客搜 索引擎和网络爬虫获取相关的博客搜索结果,并保存到本地计算机中,以备课 题研究分析之用。其中一个主要的问题是,设计获取博客搜索结果的爬虫。 ( 2 ) 文本分句、分词处理的研究 中文分词技术发展已比较成熟,已有一些中文分词系统可满足科学研究的 需求。比如哈工大分词系统和中科院分析系统。 ( 3 ) 抽取文本情感词的研究 情感词的提取主要有两种基于语料库的方法和基于情感词典的方法。比如: h o 、m e t 提供了情感词表,可以通过查询h o w | n e t 情感词表来识别和抽取博客搜 索结果中的情感词。 ( 4 ) 包含文章结构化信息的文本表示的研究 经研究,已有一种包含了某些结构化信息的基于图的文本表示方法,同时 使用该文本表示方法进行基于情感极性的文本聚类的论文尚未见报道。本文将 研究使用该图的文本表示方法来做文本情感聚类。 ( 5 ) 适合于图的文本表示的聚类算法的研究 传统的文本聚类算法的处理对象大都是向量,因此需要设计一种新的聚类 算法或者改进现有的算法来适应基于图的文本表示方法做基于情感极性的文本 聚类。 ( 6 ) 聚类结果的评价和表示 研究已有的聚类结果的评价和表示方法,选择出一种适合于本课题研究的 评价方法和表示方法。 5 武汉理t 大学硕士学位论文 1 5 论文组织结构 本文共六章,下面将分别介绍各章主要内容。 第一章绪论。本章首先介绍了本课题的研究背景和意义,接着介绍并分析 了两个主要相关领域,也就是b l o g 挖掘和情感分析的国内外发展和存在的问题, 最后展示了本文的研究目的和研究内容以及本文的篇章结构。 第二章相关理论和技术。本章依次介绍了与本课题研究相关的网络爬虫技 术,中文分词技术,文本情感极性的计算方法,文本表示方法,文本相似性度 量方法以及文本聚类技术。 第三章相关聚类分析模型的建立。本章主要介绍了基于确定话题和情感极 性的中文博客文本聚类研究的模型的设计与建立。 第四章整合的基于图的文本表示模型。本章主要介绍了本文的核心工作, 一种整合的图的文本表示方法以及基于这种文本表示方法的聚类算法。 第五章实验。本章首先对实验采用的数据源进行了介绍,接着介绍了实 验环境和实验步骤,最后评价并分析了实验结果。 第六章总结与展望。对本文工作进行了总结,并提出了进一步的研究问题 和方向。 6 武汉理丁大学硕+ 学位论文 第2 章相关理论与技术 上一章主要介绍了本课题研究的目标和主要工作,本章详细介绍本研究课 题主要涉及到的理论与技术,例如:爬虫技术,分词技术,情感极性的计算, 文本的表示方法以及聚类技术等等。 2 1 网络爬虫技术 网络爬虫,也被称为蜘蛛或者机器人,是一个自动下载网页的程序,它为 搜索引擎从万维网上下载网页,是搜索引擎的重要组成。 传统爬虫从一个或若干初始网页的u r l 开始,获得初始网页上的u r l ,在 抓取网页的过程中,不断从当前页面上抽取新的u r l 放入队列,直到满足系统 的一定停止条件,比如u r l 队列为空或达到预定网页数量等等【l l 】。简单网络爬 虫的算法流程图如图2 1 所示。 团 ,工 图2 1 一个简单网络爬虫的算法流程图 2 2 中文分词技术 语言的研究主要包括三个方面:语法,语义和语用。语法即语言的构成规 7 武汉理t 大学硕十学位论文 则;语义即语言表达的意思;语用意指语句的使用环境( 语境) ,也就是人们通 常所说的“上下文 。一般,一篇文章由若干段落组成,段落又由句子组成。字 组成词,词再组成句子。一般,学术界普遍认为词是最小的语义单位。 计算机处理语言文字前,应先以一种合适的形式表示语言文字。英文单词 以空格隔开,很容易区分,而中文没有这种特点,因此不能像区分英文单词那 样区分中文单词。例如,英文句子“i 锄at e a c h e r ”,对应中文译句“我是一个 老师。 计算机能比较容易地通过英文句子中“t e a c h e r ”单词前的空格知道它是 一个单词,但是如果不进行任何处理的话,很难理解中文译句中的“老和“师 两个字组合起来才表示一个词。 识别中文单词需要运用中文分词技术进行中文分词【1 2 ,1 3 ,1 4 1 5 1 。中文分词 ( c h i l l 销ew | 0 r ds 唧l 锄t a t i o n ) ,有些人习惯称之为切词,指的是把一个汉字序列 切分成一个一个单独的有意义的词。中文分词是中文文本预处理中的一个必不 可少的步骤,也是文本挖掘的基础,对于输入的一段中文,进行合理的中文分 词,以便计算机自动识别语句含义或者以备文字的后续处理。 中分分词属于自然语言处理领域。众所周知,人根据自己已有的知识很容 易明白一篇文章里有哪些句子,每个句子里由哪些词组成,从而进一步理解文 章想表达的意思。那么,怎么让计算机理解这些呢? 也就是设计合适的分词算 法,进行中文分词。 目前常用的中文分词算法包括:最大匹配分词方法,最大概率分词方法等 在盘 口o 2 2 1 最大匹配方法 最大匹配方法根据扫描的方向不同,可分为正向最大匹配方法( 从右到左 扫描的方法) 和逆向最大匹配方法( 从左到右扫描的方法) 。 这两种方法都是按照一定的策略确定一个待分析的最大中文字串,然后把 这个最大中文字串与词典中的词条进行匹配,如果在词典中找到相同的词条则 匹配成功,否则,从最大中文字串中去掉一个汉字后继续匹配,直到在词典中 找到相应的单词为止。 它们都是基于字符串匹配的方法,只不过扫描的方法不同而已。不失一般 性,下面将讨论逆向最大匹配算法,算法如下所示。 武汉理t 大学硕士学位论文 输入:待分词的字串s l ,最大字串长度m a x l e n 输出:字串s l 切分后的单词序列s 2 ( s 2 初始值为空) 方法: ( 1 ) l o o p l ( 2 ) 判断s l 是否为空。如果是,继续往下执行;否则执行第( 9 ) 步。 ( 3 ) 从字串s l 右边开始,取长度为m a x l 钮的候选字串w ;当s l 长度小于m a x l 蚰时取整个s l 串作为w 。 ( 4 ) l o o p 2 ( 5 ) 查词典,判断w 是否在词典中。如果不在,继续往下执行, 否则执行第( 8 ) 步。 ( 6 ) 去掉w 最左边的字,得到新字串作为候选串w 。 ( 7 ) 执行第( 4 ) 步。 ( 8 ) 字串w 保存到s 2 中,执行第( 1 ) 步 ( 9 ) 输出s 2 。 统计结果表明,单纯使用正向最大匹配方法或者逆向最大匹配方法的错误 率分别为l 1 6 9 和l 2 4 5 。 2 2 2 最大概率方法 词是稳定的字的组合,在上下文中,相邻的字同时出现的次数越多,就有 可能构成个词。一般,字与字相邻共现的频率或概率可以比较好的反映它们 成词的可信度。可以对语料中相邻出现的各个字的组合频度( 也就是出现次数) 进行统计,计算它们的互现信息。 两个词w l 和w 2 之间的逐点互信息量( p o i n 觚i s em u t i l a lh l f o 肌a t i o n ,p m d , 可以用p m i = l o g p ( w i ,w 2 ) ( p ( w 1 ) 宰p ( w 2 ) ) 】来计算。p ( w l ,w 2 ) 指词w i 和w 2 同时出 现的概率,可以有多种计算方法。p ( w 1 ) 和p ( w 2 ) 分别指词w i 或者w 2 出现的概率, 同样也可以用多种方法来计算。互现信息值的大小体现了汉字之间结合关系的 紧密程度的大小,值越大表明汉字间结合关系越紧密。如果互现信息值大于一 个阈值时,则认为它们可以构成一个词。 最大概率方法的基本思想是:一个待分词的汉字字串可能有多种分词结果, 9 武汉理: 大学硕十学位论文 分别计算每种分词结果的概率,将概率最大的结果作为该汉字字串的分词结果。 最大概率方法是一种基于统计的分词方法【l 引。 实际上,除了上述介绍的最大匹配分词方法和最大概率分词方法外还有很 多分词方法,比如:基于矩阵约束法的中文分词研究,基于e m 算法的汉语自 动分词方法,基于改进b p 网络的中文歧义字段分析方法,n 最短路径方法,专 家系统分词法和神经网络分词法等等。 2 2 3 基于矩阵约束法的中文分词方法 开始基于矩阵约束法的中文分词研究前,必须明确一些相关基本概念。中 文分词技术有两个主要解决的难题:歧义识别和未登陆词识别。歧义是指一个 句子经中文分词技术分词后可以得到多个切分结果。经研究人员分析,常见的 歧义一般分成2 大类:“真歧义和“假歧义。 “真歧义 是相对与“假歧义 而言的的,“假歧义是由于人根据单独的 句子就可以识别出正确的分词结果,所以叫“假歧义一。而“真歧义”是人根据 单独句子无法判断出正确分词结果的,需要根据上下文来判断的,所以叫“真 歧义 。“假歧义”又可以分为三种,它们分别是交集型歧义( 也叫交叉歧义) , 组合型歧义( 也叫组合歧义) 和混合型歧义。 交集型歧义形如:字串“a b c ,a b 是一个词,c 也是一个词,a 是一个 词, b c 也是一个词,则可以有两种分词结果一一a b c 或b c 。组合型歧义 形如:字串“a b c d ,a 是一个词,b c 是一个词,d 是一个词,a b c d 也是 一个词,所以可以有两种分词结果叫v b c d 或a b c d 。交叉歧义和组合歧义 常常一起出现在句子中,这样的句子可以有多个分词结果。这种情况的歧义称 为混合型歧义。 除了歧义外,中文分词技术还主要存在未登录词识别的问题。未登录词也 叫新词,就是没有收录到词典中的词,如人名,地名等。为什么没收录呢? 本人 分析发现主要有两个原因:新词太多,不方便词典收录,如人名;新词不断产 生,有的来不及收录,如不断产生的网络语言。 为了解决这些问题,现有的分词算法都有相应的策略,主要有两个策略 基于词典的和基于语料库的。基于词典的策略的基本原理是:把一个句子从左 到右扫描一遍,遇到字典里有的词就标识出来,遇到复合词就找最长的词匹配, 遇到不认识的字符串就分割成单字词,于是简单的分词就完成了。基于语料库 i o 武汉理丁大学硕十学位论文 的策略的基本原理是:寻找哪些经常一同出现的字,总是一同出现的字很可能 构成一个词。这种方法利于识别新词,不过需要大量的语料来分析词的同现概 率。 基于矩阵约束法分词切分方法基本思想是:先预处理通过核心字典进行交 叉歧义检测,得到初步切分结果,然后分别通过现代汉语语法信息词典和 现代汉语语义词典对初步分词结果附加语法约束和语义约束,从而提高切 分精度。具体算法如下【1 6 】: 输入: 待切分的中文字串 输出:切分好的词串 算法: ( 1 ) 识别特殊字符预处理( 中英文数字、域名、日期、人名等) ; ( 2 ) l o 叩; ( 3 ) 进行交叉歧义检测,得到初步切分结果; ( 4 ) 使用现代汉语语法信息词典和语法约束矩阵进行语法约束, 如不符合执行第( 2 ) 步,否则继续往下执行: ( 5 ) 使用 这里的缸分别表示的是标题和摘要。 实际上,一个b s r _ i 把m 除了标题和摘要之外还可以包含更多的信息,不过 本课题研究只使用这两部分内容。 3 1 2 g 0 0 9 i eb l o gs e a r c hc t a w l e r g o o 西e b l o g s e a r c h c r d w l e r ( g b s c ) 是针对g o o 出e b l o g s e a r c h 的特殊爬虫, 主要由三部分组成:u r l 构造,网页获取和网页解析。g o o 目e 博客搜索爬虫算 法流程图如图3 _ 4 所示。 ( 1 ) u r l 构造 率课题可以通过分析g o o 西eb 1 0 9s e 甜c hu r l 语法来构造所需要的u r l 队 列。例如:搜索“刘翔”对应的u r l 为: h t 【p :加l o g s 础印酎em 七j o 斟a r d l ? h l = z h c n i e = u t f 一8 q = e 5 8 8 9 8 e 7 b f 9 4 b t n g = e 6 9 0 9 c e 7 b 4 a 2 e 5 8 d 9 a e 5 a e a 2 1 f 经分析已知,其中h 印:帕l o 簪e a 曲学0 0 9 l ec n 佑1 0 尽e a r c h 是0 0 0 舀e b l o gs 咖曲 的基础u r l ,通过它可以访问g o o 舀eb l o gs e a r c h 的首页。接着,u r l 问号后 面连接的是传递给服务器的各种参数信息。部分参数信息如表3 1 所示。不同的 参数之问用“”进行分隔。每一个参数由参数名、等于号和参数值三部分组成。 其中参数值可以为空。其基本语法如下所示: 武汉理:r 人学硕士学位论文 h 却:b l o 笋e a r c h g o o 雷e c n b l o g s e a r c h ? v a r i a b l e l = v a l u e l & v 撕a b l e 2 = v a l u e 2 围 构造- 种子。l 乱 , 厂 ) 为开头标识,以 砒 ) 为 结束标识。s n i p p e t 以 为开始标识,以 叫f 0 i l t f o n ts i z e 一1 ) 为结束标识。另外,获得的t i t l e 和s n i p p e t 里可能含有多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环境科学考研真题及答案
- 2025年医师资格考试医学综合“年两试”中医执业助理医师综合练习题及答案
- 2025年慈溪焊工考试试题及答案
- 机场无线电台操纵修理工岗位操作规程考核试卷及答案
- 小学劳动考试试题及答案
- 中山市2025年医师资格考试(实践技能)复习题库及答案
- 木刻水印雕刻版印刷员标准化作业考核试卷及答案
- 油锯工标准化作业考核试卷及答案
- 井筒维修工招聘考核试卷及答案
- 湖南娄底市2025年医师资格考试(实践技能)复习题库及答案
- 2025双11大促商家一站式指南
- 助理医师考试题库及答案
- 咖啡基础培训课件
- 人才服务合同书
- 2025年工会财务大赛理论题库(附答案)
- 家庭经济困难学生认定申请表
- 生理学全套课件
- GB 30678-2014 客车用安全标志和信息符号(高清版)
- 电力管道、电力井施工方案
- 中国传统节气二十四节气秋分简介农民丰收节专题资料PPT课件
- 起诉状(变更抚养权)
评论
0/150
提交评论