(管理科学与工程专业论文)网络舆情发现与角色分析研究.pdf_第1页
(管理科学与工程专业论文)网络舆情发现与角色分析研究.pdf_第2页
(管理科学与工程专业论文)网络舆情发现与角色分析研究.pdf_第3页
(管理科学与工程专业论文)网络舆情发现与角色分析研究.pdf_第4页
(管理科学与工程专业论文)网络舆情发现与角色分析研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论第1 页 于葡要 随着互联网技术的发展和普及,网络上的环境变得日趋的复杂,网 络上的一些话题已经不仅仅是人们茶余饭后的谈资,它已经开始对人们 的社会和社会的安定造成了影响。网络舆情的生成很快,传播的范围很 广,影响也非常大,但是网络舆情的控制却是非常难。 本文从网络舆情的话题发现和传播分析入手,深入分析了网络舆情 从信息收集到传播控制需要解决的一系列问题。在本文中成功将社会网 络分析方法应用到了网络舆情的研究中来,并在此基础上提出了一个完 整的基于社会网络分析的网络舆情传控模型,该模型包括了信息收集子 模块,热点话题发现子模块和社会网络分析子模块三个部分。之后,本 文对实现模型各个模块的具体功能所需的相关技术及其具体应用给出了 比较详细的说明。最后本文利用从网上收集的数据对该模型的效果进行 了检验,实验证明该模型在网络热点话题发现方面有着很好的效果,经 过对某一热点话题的相关站点的社会网络分析对于各个站点在该话题传 播中的作用也有着不错的效果。 本文针对网络舆情的控制提出的基于社会网络分析的网络舆情传控 模型为网络舆情的研究提供了一种新的研究方法,为网络舆情的控制研 究做出了自己的一点贡献。 关键词:网络舆情;话题发现;社会网络分析; 西南交通大学硕士研究生学位论第li 页 a b s t r a c t w i t l lt h ed e v e l o po ft h ei n t e r n e tt h ee n v i r o n m e n to nt h ec y b e r s p a c ei s m o r ea n dm o r ec o m p l i c a t e d s o m et o p i c so nt h ei n t e m e th a v eb e e nn om o r e t h a ns o m ee n t e r t a i n m e n tf o rp e o p l e ,t h e yh a v ei n f l u n c e do np e o p l e s1 i f ea n d s o c i a ls t a b i l i t y f o rt h ec y b e r s p a c ep u b l i c eo p i n i o nw h i c hg e n e r a tv e r yq u i c k y a n dt r a n s m i tw i d e l yh a sal a r g ei m p a c t i ti sv e r yd i m c u l tt oc o n t r 0 1 i nt h i sp a p e r , w es t a r tw i t ht h et o p i cd e t e c t i o na n dt r a n s m i ta n a l y s i so ft h e w e b p u b l i co p i n i o n ,t h e n w ew i l l a n a l y s i s s o m eq u e s t i o n sa b o u tt h e i n f o r m a t i o nc o l l e c t i o na n dt r a n s m i tc o n t r o l i n go ft h e 、阮bp u b l i co p i n i o n i nt h i s p a p e rw ew i l l i n t r o d u c ean e wm e t h o d s o c i a ln e t w o r k a n a l y s i s ( s n a ) a n da p p l yi tf o rt h es t u d yo f t h ew e bp u b l i co p i n i o n b a s e do n t h em e t h o do fs o c i a ln e t w o r ka n a l y s i sw ec o n s t r u c tam o d e lf o rt 1 1 ew e b p u b l i co p i n i o n st r a n s m i t i n ga n dc o n t r o l i n g i n t h i sm o d e lt h e r ea r et h r e e m o d u l e s :t h ei n f o r m a t i o nc o l l e c t i o nm u d u l e ,t h eh o tt o p i cd e t e c t i o nm o d u l e a n dt h es n am o d u l e a f t e rt h a tw ew i l lg i v ead e t a i l e di n t r o d u c t i o no ft h e t h r e em o d u l e s f u n c t i o n sa n dt h et e c h n i q u e sw h i c hw i l lb eu s e d i nt h ee n do ft h ep a d e rw ew i l lt e s tt h em o d e l sf u n c t i o nu s i n gt h ed a t a c o l l e c t e df r o mt h ei n t e r n e t t h er e s u l t sp r o v et h a tt h em o d e lh a v ea g o o de f f e c t i nt h eh o tt o p i cd e t e c t i o na n dt h ea n a l y s i so fw h a ti st h er o l et h en o d e sp l a yi n t h et r a n s m i t i n go ft h ew e bp u b l i co p i n i o n k y ew or d s :t h ew e bp u b l i co p i n i o n ;t o p i cd e t e c t i o n ;s o c i a ln e t w o r ka n a l y s i s ; 西南交通大学四南交迥大罕 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规 定,同意学校保留并向国家有关部门或机构送交论文的复印件和 电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将 本论文的全部或部分内容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复印手段保存和汇编本学位论文。 本学位论文属于 1 保密口,在年解密后适用本授权书: 2 不保密口,使用本授权书。 ( 请在以上方框内打“4 ”) 学位论文作者签名:盛刃仁升。指导老师签名:计度 日期:少矸j z 、加 日期研、腹,彩 西南交通大学学位论文创新性声明 本人郑重声明:所呈交的学位论文,是在导师指导下独立进 行研究工作所得的成果。除文中已经注明引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写过的研究成果。对本 文的研究做出贡献的个人和集体,均已在文中作了明确的说明。 本人完全意识到本声明的法律结果由本人承担。 本学位论文的创新点如下: 将社会网络分析法( s n a ) 应用于网络论坛关于某一热点话题的众 多参与者中,运用该方法分析各个参与者在热点话题的传播中所 扮演的角色以及当中的小团体等。 拿位论文作者签名:旌群懈 日期:y 卵年月 西南交通大学硕士研究生学位论第1 页 第1 章绪论 1 1 研究目的及意义 随着计算机技术和通信技术的飞速发展,互联网早已成为了人们生 活的重要组成部分。据最新统计,截止至u 2 0 0 7 年全球的网民人数已达到 1 2 亿【。 随着网络的普及,越来越多的人开始通过网络来获取及发布信息, 网络舆情这个互联网时代的新名词也应运而生。 网络舆情指网民基于网络主题的情绪、意见、态度等的集体反映。 当前我国网民数量急剧增长,根据中国互联网络中心的数据,据c n n i c 第 二十一次中国互联网调查截至2 0 0 8 年1 月,中国网民总人数达到2 1 亿,仅 次于美国,位居世界第二【2 j ,为网络舆论的形成提供了庞大的参与人群。 目前,我国拥有近1 4 0 万个b b s 论坛,规模为全球第一,几乎所有门户网 站都开设论坛。在b a i d u ,g o o g l e 等综合性搜索网站,网民可以就任何热 门主题设立专门的论坛,任何对此事件或话题感兴趣的网民都可以到论 坛发表个人意见,平均每天发布新帖多达2 0 0 万个。几乎每条受网民关注 的新闻后面都开设了跟帖,网民可以通过电脑、手机等方式随时在新闻 后面发表自己的观点,特别是某些热门话题的跟帖超过数十万条。又据 艾瑞市场咨询的研究数据显示,高达3 6 8 的网民每天都上网络社区,每周 登录网络社区4 6 次的网民占2 5 5 ,每周登录网络社区2 3 次的网民占 2 3 8 。【3 j 然而互联网信息内容庞杂多样,既有大量进步、健康、有益的 信息,也有不少反动、迷信、黄色的不健康内容,所以网络的高速发展 和普及促进网络文化高速发展的同时,也带来一系列的问题,如“网络恶 搞”、“网络暴力 等道德问题。 网络舆情形成迅速,对社会影响巨大,已经引起党和政府的密切关 注,国家开始重视对于网络舆情的管理与控制引导,但是现如今,对于 网络舆情的的管理中还存在着很多尚未解决的问题,如:网络舆情管理 主体不到位,网络舆情理论研究薄弱,网络舆情管理机制不完善等。所 以对于网络舆情的理论与监测研究有着很深的现实意思与理论意义。 西南交通大学硕士研究生学位论第2 页 1 2 国内外研究现状 1 2 1 网络舆情研究现状 由于网络舆情是一个新兴的概念,所以目前国内外对于网络舆情的 研究大多局限于理论指导层面的,而对于如何实现对网络舆情进行控制 引导的技术相对来说还没有太多太深入的研究。 此外对于现有的舆情监控系统最有名的要算是美国的t d t ( t o p i c d e t e c t i o na n dt r a c k i n g ) 系统【4 】。t d t 的原身是一个研究如何发现和归纳 数据流中重要信息和内容的算法的研究项目。t d t 项目正式开始于1 9 9 8 年经过了若干年的演变,最新的版本是t d t 2 0 0 4 在t d t 中主要设计五 个主要的研究内容:连续文本的分割,主题跟踪( t o p i ct r a c k i n g ) ,主题 发现( t o p i cd e t e c t i o n ) ,新事件发现( f i r s te v e n td e t e c t i o n ) ,相关发现( 1 i n k d e t e c t i o n ) 。 在国内方面,在近几年里已经成型的且比较出色的还要数北大方正 技术研究院推出的方正智思舆情预警辅助决策支持系纠川。 北大方正技术研究院的智思舆情预警辅助决策支持系统,成功地实 现了针对互联网海量舆情自动实时的监测分析,有效地解决了政府部门 以传统的人工方式对舆情监测的实施难题,对于促进加强互联网信息监 管,组织力量展开信息整理和深入分析,应对网络突发的公共事件,全 面掌握社情民意都起到了一定的推动作用。 方正智思舆情预警辅助决策支持系统提供了一下功能全文检索、自 动分类、自动聚类、主题检测追踪、相关推荐与消重、关联分析与趋势 分析、自动摘要与自动关键词提取、突发事件分析、生成统计报表等功 能。 1 2 。2 社会网络分析 社会网络的概念最早是由人类学家b a r n e s 在1 9 5 4 年为了研究挪威一 个小渔村的社会结构时提出的,在1 9 6 0 年之后,社会网络的概念逐渐为 大家接受并且开始广泛的应用于人际互动,交换,决策,支持以及意见 的传播等f6 1 ,现在社会网络分析法已经被认为是一种最具说服力,最为 简单明朗的研究视角之一。 ( 1 ) 社会网络分析在合著网络中的应用。社会网络分析法在合著网 西南交通大学硕士研究生学位论第3 页 络方面的研究成果比较多。在这些研究成果中,作者往往根据各自的研究 目的选取一定范围的学者,或者是某一数据库中有关一个特定主题的所有 文献的作者,或者是一个专业数据库中所有文献的作者。在构建社会网络 时,将这些作者作为网络中的节点,而作者之间的合著关系则构成作者之 间的连线,然后应用社会网络分析法对合著网络进行分析。例如,在li u x i a o m i n g 等人对a c m 和i e e e 各自的数字图书馆会议以及a c m i e e e 联 合召开的数字图书馆会议j c d l ( j o i n tc o n f e r e n c eo nd i g i t a ll i b r a r y ) 的 文献进行研究中【7 】,他们首先根据社会网络理论建立起作者之间的合著 网络,然后应用社会网络分析法中的中心性分析研究该合著网络,同时还 在p a g e r a n k 方法的基础上提出了a u t h o r r a n k 方法,并应用该方法对合著 网络进行分析,最后对两种方法的分析结果进行了_ 定的比较。也有学 者对自然科学领域的合著网络进行了类似的研究。例如m e j n e w m a n 就 应用社会网络分析方法对物理学、生物医学和计算机科学领域的合著网 络进行了比较研究,指出了不同学科合著类型的差异情况瞵j 。 ( 2 ) 社会网络分析法在引文网络中的应用。社会网络分析人员认为 “社会结构可以用网络来表示用一组节点和一组关系来表示他们之 间的交互 【9 】,而这种方法和引文分析家所使用的方法是一致的。所以 引文分析学认为社会网络分析法也可以作为他们的研究方法加以利用。 在引文网络中如果作者a 引用了作者b 的文献,并不代表作者b 就一定引 用了作者a 的文献,所以用无向网络来表示就不太适合,这时就要采用有 向网络。而在社会网络分析法中为了方便利用计算机进行量化处理,需要 把网络图转换为关系矩阵。在国外学者的研究成果中,从网络图转换出的 关系矩阵有两种:二值矩阵和赋值矩阵。所谓二值矩阵,就是用l 和o 表示 两个作者之间的引用关系,如果a 引用了b 的文献,不管引用了多少次,只要 有引用关系存在,都用l 来表示二者之间的引用关系,反之,则用0 表示二 者之间不存在引用关系。用二值矩阵来表示网络关系的优点是比较简单 明了,其缺点是忽略了引用的次数,因此丢失了大量的信息,进行分析的 结果可能与现实有些出入。例如南京大学的朱嫒媛和许晴华对为南京大 学中国社会科学研究评价中心的数据库“中文社会科学引文索引”( c s s c i ) 的研究中【l o 】,他们首先根据社会网络理论建立3 2 名高被引用作者的引用 西南交通大学硕士研究生学位论第4 页 网络,然后应用社会网络分析法中的点度中心度分析,中间中心度分析 和凝聚子群分析得出这3 2 名作者中的各人在该领域的学术研究中所起到 的作用以及该领域内的内部小团体等结论。 ( 3 ) 社会网络分析在知识管理方面的应用。这方面的研究成果集中 于探讨社会网络理论与知识管理的关系研究如何应用社会网络理论和社 会网络分析法促进组织中的知识共享,特别是隐性知识的共享。有的学者 在利用“社会网络分析法”这一工具来促进组织中隐性知识的共享方面 进行了理论方面的分析,在定量方法基础上构建分析方法,为组织隐性知 识共享提供具体的操作工具,尝试解决目前研究中面临的一些问题,例如 王平在“基于社会网络分析的组织隐性知识共享研究”一文中提出的方 法i l 。有的学者进行了实证分析,以中国人民大学经济科学实验室为应用 案例,对其社会网络进行数据收集、网络分析,获取了一些初步的成果,并结 合该案例详细介绍了应用s n a 促进隐性知识管理的具体步骤、问卷设计、 数据收集、网络分析等关键环节,例如殷国鹏,莫云生,陈禹在“利用社会 网络分析促进隐性知识管理 中提出的利用社会网络分析法促进隐性知 识管理的具体实施步骤和过程以及当中应该注意的一些问题【l2 1 。 1 3 本文的内容安排 本文的内容安排如下:第二章中着重介绍与网络热点话题发现相关 的技术,如:信息收集,信息预处理及文本聚类等。这里主要介绍这些 技术在网络热点话题发现过程中的的功能和具体实现措施。在第三章中 我们主要介绍社会网络分析相关的知识,包括社会网络的概念,作用以 及表达方法,还有社网络分析的方法等。第四章是本文的重点章节,在 本章中我们会介绍一个基于社会网络的网络舆情模型,还会详细的介绍 为了验证该模型我们做的一些具体工作还有最后的实验及对结果的分 析。第五章对全文做一个总结,总结本文所取得的成果以及工作中尚存 在的不足,并指出下一步的改进及研究方向。 西南交通大学硕士研究生学位论第5 页 第2 章网络热点话题发现的相关技术 本章中我们将重点介绍与网络热点话题发现相关的一些关键技术, 其中包括:信息收集技术、信息预处理技术、以及中文文本聚类技术等。 2 1 信息收集技术 网络是一个庞大的信息资源库,它通过网页间的链接使得物理上处 于不同位置的服务器上的资源成为了一个逻辑上的整体。如何在众多的 信息中尽可能全的获取我们需要的信息,就需要网页搜集技术,一般称 为“网络爬行器( c r a w l e r ) 、“网络蜘蛛 或者“网络机器人”。 网络爬行器从种子页面开始读取网页的内容,然后通过种子页面上 的链接找到其他地址,从而找到下一个页面。这样一直循环下去( 也可 以根据需要人为的设定一定的下载层数) ,如果把整个互联网当成一个网 站,那么网络爬行器就可以用这个原理把互联网上几乎所有的网页都抓 取下来。 2 2 信息预处理技术 由于用网络爬行器抓取下来的页面中存在着大量的我们不需要而且 会对我们的工作造成不利影响的“噪音”内容,而且这些信息尚不符合 我们的格式要求,我们无法对它们直接进行操作所以我们还要对这些网 页信息进行一些预处理工作。这些工作就包括:网页净化,中文分词, 文本向量化,文本特征提取,文本特征降维,文本特征向量权重计算等。 2 2 1 网页净化技术 互联网上的网页一般都包涵两方面的内容:一种是网页的主题信息, 如新闻网页中的新闻报道部分就是网页的主题信息。还有一种是与网页 的主题信息无关的“噪音”部分,如广告信息,导航条,问卷信息等等。 网页净化就是将网页中的“噪音”部分去掉只保留对我们有用的“主题” 部分【l “。h t m l 是一个标示性语言( m a k e u pl a n g u a g e ) ,它定义了一套 标签来描述网页显示时的页面布局,因此,对于h t m l 网页可以通过构 造网页的标签树来表示该网页。标签树构造完成之后,对于网页的净化 就变成了对标签树结点的裁剪。即裁剪掉网页中用于表示格式和脚本的 西南交通大学硕士研究生学位论第6 页 t a g 结点,如:“ , , , 等,只保留网页中 有用的文本信息。 根据网页的类型不同,网页净化的方法也不相同。由于我们用到的 网页全部都是有主题型的网页,所以这里我们只介绍这种网页的净化方 法。首先,将目标网页以h t m l 标签树的形式表示出来,之后,识别出 网页中的主题内容块,再后,依据主题内容块在剩余内容块中识别出与 主题相关的内容块,乘下的内容块就是噪音内容块,最后将噪音内容块 去除就完成了网页的净化。 2 2 2 中文分词技术 无论对于中文还是外文,分词都是文字信息处理的首要步骤。汉字 的简体繁体转换、信息检索和信息摘录、搜索引擎、文本挖掘、文木分 类、文本校对等中文信息处理系统都首先需要分词作为其最基本的模块。 由于语言的特点,外文分词只需简单的根据空格就能完成,而中文要考 虑到语意,语境等所以中文的分词就要复杂的多。目前,中文信息处理 系统处理对象越来越多的是规模较大的语料信息,因此分词的速度,效 果和分词算法的易实现性变得相当关键。 目前国内分词系统所采用的或者正在研究的方法基本上简单的划分 为两大类1 1 4 】:第一类主要基于字典、词库的匹配和词的频度统计,这类 方法实用、具体,比较容易实现;第二类方法主要基于句法、语法分析, 并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界, 这类方法试图让机器具有人类的理解能力,其原理较为晦涩,一般不易 实现。目前的分词系统采用的分词方法主要有三种类型,下面我们主要 介绍一下这三种最常用的分词类型: 一、机械分词法。机械分词法可以细分为最大匹配法m m ( t h e m a x i m u mm a t c h i n gm e t h o d ) 、逆向最大匹配法( r m m 、o m m 、i m m ) 、 部件词典法、逐词遍历法、词频统计法、二次扫描法、设立标志法等【15 1 。 其中,最大匹配法是使用较广的一种方法,它提出了一种最基本的分词 思想。正向最大匹配法( m a x i m u mm a t c h i n gm e t h o d ) ,通常简称为m m 法, 其基本思想为:设d 为词典,m a x 表示d 中的最大词长,s 仃为待切分 的字串。m m 法是每次从s 仃中取长度为m a x 的子串与d 中的词进行匹 西南交通大学硕士研究生学位论第7 页 配。若成功,则该子串为词,指针后移m a x 个汉字后继续匹配,否则 子串逐次减一进行匹配。逆向最大匹配法( r e v e r s em a x i m u mm a t c i n g m e t h o d ) ,通常简称为r m m 法。r m m 法的基本原理与m m 法相同,不 同的是分词的扫描方向,它是从右至左取子串进行匹配。 机械分词法的缺点是过分依赖于词典的完全性,而且对于歧义问题 无法很好的解决,对于字典中没有的词条,该方法就无法处理。但是机 械分词法忽略了许多难度较大的自然语言自身信息的处理,实现起来比 较简单,所以这种方法仍然得到了广泛的应用。 二、语义分词法:语义分词法可以细分为:知识分词语义分析法、 扩充转移网络法、邻接约束法、后缀分词法、综合匹配法等。在此主要 介绍下扩充转移网络法,扩充转移网络法是一种在数据库自然语言查询 中普遍应用的方法。它主要是由一个递归网络、一个测试集体以及一组 寄存器组成,该方法对句子进行语义分析时,测试条件( 检查弧上所标识 的语法成分的条件及其它相关测试条件) 用来确定是否与一弧匹配,测试 结果为真才允许通过该弧,寄存器则用来保存被分析单词( 或短语) 的有关 特性及分析过程的中间结果。因此,要实现该方法需要建立一个语法知 识库,并以此作为弧间状态转移的测试条件。这也是语义分词法更为复 杂的一个方面,语法知识库的建立,虽然提高了分词的精度,并使得切 分深度也更进一步,但是从另一方面讲也大大增加了该方法实现的难度。 语义分词法引入了语义、语法分析,相对于机械分词法来说其对自 然语言自身的语言信息进行了更多的处理,因此该分词法提高了分词精 准度,但也因此使得其实现起来更为复杂,难度也较大。故在实际应用 中,大部分系统一般只是把语义分词作为机械分词的补充,作为一种辅 助方法。 三、人工智能法:根据不同的处理方式,人工智能法又可分为专家 系统分词法和神经网络分词法。专家系统分词法将自动分词过程看作知 识推理过程,力求从结构和功能上分离分词过程,并且实现分词所依赖 的汉语语法知识、句法知识以及部分语义知识。这种方法需要考虑知识 表示、知识库的逻辑结构与知识库的维护,其不足之处在于它的串行处 理机制导致学习能力低,对于外界最新的信息反映的滞后性。神经网络 西南交通大学硕士研究生学位论第8 页 分词法模拟人脑的运作机制,以非线性并行处理作为主流的一种非逻辑 信息处理方式。它将分词知识分散隐式的方法存入神经网络内部,通过 自学习和训练来修改内部权值,从而达到正确的分词结果。该方法最大 的特点是知识获取快。并行、分布性和联接性的网络结构为人工神经网 络的知识获取提供了良好的环境,并通过样本学习和训练来自我更新。 但神经网络的知识分布在整个系统内部,对用户而言是黑箱操作,对于 它得到的结论不能做出合理的解释【l 州。 目前,国内已开发出许多实用的分词系统,如哈工大统计分词系统, 清华大学s e g 分词系统,北大计算语言所分词系统,中科院的中文分词 系统i c t c l a s 系统等。 2 。2 3 文本向量化表示 文本表示就是将文本以计算机可以识别的数字来表示。自2 0 世纪6 0 年代以来人们提出了大量的文本表示模型。其中最重要的三个模型是: 布尔模型,概率模型和向量空间模型。而最常用的模型是向量空间模型 ( v s m - - v e c t o rs p a c em o d e l ) ,下面我们就主要介绍一下向量空间模型。 向量空间模型是2 0 世纪6 0 年代末由g e r a r ds a l t o n 等人提出的【| 7 】。 该模型将文档空间看作是由一组正交词条向量所组成的向量空间,每个 文档表示为其中的一个特征向量,该模型涉及的基本概念如下: 文档( d o c u m e n t ) :一般指一篇文章,本文中是一篇论坛帖子报道。 项( t e r m ) :构成文档的基本语言单位( 字、词、词组或短语等) 统 称为项,所以一篇文档d 可以用项集( t e r ml i s t ) 表示为d ( t 1 ,t 2 ,t n ) , 其中t k 是项,1 k n 。 项的权重( t e r mw e i g h t ) :对于一个含有n 个项的文档d ( t l ,t 2 , t n ) ,项t k 常常被赋予一定的权重w k 表示它在该文档中的重要程度,即 d = d ( t 1 ,w 1 ;t 2 ,w 2 ;t n ,w n ;) ,简记为d = d ( w 1 ,w 2 ,一,w n ) 。 也就是说项t k 的权重是w k ,其中1 k n 。 相似度( s i m i l a r i t y ) :用来衡量两个文档d 1 和d 2 之间的内容相关 度( d e g r e eo f r e l e v a n c e ) 的标准,表示为s i m ( d 1 , d 2 ) 。当文档被表示为v s m , 相似度常用向量之间的内积来计算,即向量的夹角余弦值。 向量空间模型将文档映射为一个特征向量v ( d ) = ( t l ,f f d ) ;k , 西南交通大学硕士研究生学位论第9 页 n ( d ) ) ,其中t i ( i = l ,2 ,n ) 为一系列互不相同的词条项,i ( d ) 为t i 在d 中的权值,一般被定义为t i 在d 中出现频率t f i ( d ) 的函数,即i ( d ) = 1 l r ( t 丘( d ) ) 。e l 前,常用的词条权重计算方式为t f i d f 函数,见公式2 1 : 矿( d ) l 。g ( 型+ 0 1 ) u i ( d ) = ( 2 - 1 ) 其中n 为所有文档的数目,n i 为含有词条t i 的文档数目。通过公式 2 1 可以看出当文档集中包含某一词条的文档越多,说明它区分文档类别 属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的 频率越高,说明它区分文档内容属性的能力越强,其权值越大。 两个文档d i 和d j 之间的相似度用其对应的向量的夹角余弦值表示的 公式如公式2 2 : s i m ( d i ,d j ) 2 q ( z ) 峨( d ,) 膏= 1 ( 2 2 ) 2 2 4 文本特征提取 一个文本的基本组成元素包括词、词组和短语。一个文本中的词条 数量是非常大的,当文本被表示成向量时,由于一个词条对应一个空间 向量的维,因此文本的空间向量的维数也响应的会非常大,有的多达上 千几万维。所有的向量都要在按照特征空间计算其值,这显然对于后续 操作是非常不利的。因为一个文本中会出现很多常用的但是与文本的内 容关联不是很大的词条,如:的、昵、了、我、我们、其 等等常用词。因此我们可以对词条进行筛选,从而降低文本空间向量的 维数。对于后续的文本聚类来说,不同的词条对此的意义不同,对于那 些通用的,对于聚类贡献小的词条可以筛掉不考虑,对于只在某类中出 现比重较大而在其他类中比重小的词条,它们对于聚类的意义就比较大。 降低向量的维数不仅可以提高有效信息的利用率,还可以大大降低文本 聚类的时间。有效降低计算代价对于实际的工程商业应用十分重要,这 西南交通大学硕士研究生学位论第1 0 页 也成为推动文本聚类在搜索引擎中应用的重要因素。因此为了降低空间 向量的维数,提高聚类的精度我们要对词条进行选取,即取出那些对于 文本内容表现力不强的词条,选出那些能够表现文本内容的特征词集, 这就是文本的特征提取。 而判断一个词集是否为一个特征词集的标准主要有两个:第一、该 词集中的特征词是否可以体现文本的内容,这称为特征词集的完全性。 第二、是否可以凭借该词集将文本同其他文本区别开,这称为特征词集 的区分性。 特征词集的选取就是按照以上两个标准对文本中的词条用评价函分 评分,并按照分值排序,最后选取分值高的几个词条组成特征词集,特 征词集中词条的数量也由评分函数决定。目前常用的评分函数主要有: z 2 统计量法、互信息量法、文档频率法等【1 8 】。下面我们就简答介绍下这 三种方法。 z 统计量法 z 2 统计量法( c h i s q u a r es t a t i s t i c ,c h i ) 特征选择方法又被称作开方 拟合检验( c h i ,z 2 t e s t ) ,它可以用来衡量特征词集x 与类别文本c 之 间的统计相关性。其计算公式如2 3 所示: c h i ( x , c 1 :塑坐:尘:丛兰:尘二坐:1 2 :璺三! 丛 ( 2 3 ) p ( x ) p ( x ) p ( c ) p ( c ) 其中n 为文本总数,x 为特征词集,c 为类别文本。从上式可以看出 当x 与c 相互独立时即c h i ( x ,c ) = 0 时,特征词集x 不包含与c 类文 本相关的信息,而c h i ( x ,c ) 的值越大,那么说明特征词集x 中包含 的与c 类文本有关的信息越多。 互信息量法 互信息( m u t u a li n f o r m a t i o n ,m i ) 本来是信息论中的概念,用来表 述一个信息中两个信号间的相互依赖程度。在特征选取方面用来表示x 与c 间的依赖程度。将特征x 与各个类别的互信息融合起来作为特征的 权重,特征x 与类c 的互信息m ic x ,c ) 的值计算公式如2 4 所示: 西南交通大学硕士研究生学位论第1 1 页 慨c 蝴l 。妫蕊州。鬣桐怕鬣诫a 曲鬣4 ) 与c h i ( x ,c ) 同样的道理,m i ( x ,c ) 值越大则特征x 与类别c 的互信息越大,说明特征中包含的与类别有关的鉴别信息就越多。 文档频率法 某个特征词x 的文档频率( d o c u m e n tf r e q u e n c y ,d f ) 一般指出现特 征x 的训练文档的个数,记为d f ( x ) 。当d f ( x ) 值越小即文档频率越 低,那么该特征包含对于分类有用的鉴别信息越少,反之当d f ( x ) 值 越大即文档频率越高,那么该特征包含对于分类有用的鉴别信息越多。 所以运用该方法进行特征选取时首先要计算各个特征词的文档频率,然 后选取那些文档频率高于某个阀值的特征词。可以看出,文档频率法是 比较简单的一种特征选取方法,但是它确实非常有效的一种方法。 2 2 5 文本特征向量权重 对于一个文档来说,不同的特征项对它的重要程度是不同的,这个 重要程度也可以说是指将文档同其他文档区别开来的区别度,因此在对 文本进行处理时就要对不同的特征项赋予不同的权重,这一步骤主要是 通过赋值函数来实现的。常用的赋值函数有布尔函数和t f i d f 函数,由 于布尔函数相对简单,只是在某些特殊情况下使用,对于文本处理而言 应用最多的还是t f i d f 函数,下面我们就主要介绍下该函数: 1 f 和i d f 是两个在中文检索中计算向量权重的重要的参数,它们是 衡量特征项在表达文档内容属性能力方面的重要指标l l 圳。 t f 是特征项频率( t e r mf r e q u e n c y ,t f ) ,表示特征项在文档中的出 现范围频度,t f 越大说明特征项在文档中出现的范围频度越高,则特征 项对于文档而言重要程度越高。 d f 是文档频率( d o c u m e n tf r e q u e n c y ,d f ) ,前面那我们介绍过了, 文档频率就是文档集合中出现某个特征项的文档数目。在特征项选择中, 计算每个特征项在文本集合中出现的频次,根据预先设定的阀值去除那 些文档频次特别低和特别高的特征项。 i d f 是倒文档频率( i n v e r s ed o c u m e n tf r e q u e n c y ,i d f ) ,引入该因 素主要是因为单纯使用频率因子并不能保证系统的查询性能。当高频特 西南交通大学硕士研究生学位论第12 页 征项在文档集合中经常出现的时候,使用它进行查询就会得到集合中的 大多数文档,这会影响检索系统的查准率。因此需要引入一个与文档集 合有关的因子,加大文档之间的区分度,i d f 就是一个关于文档集合的 因子,在文档总数为n 的集合中,如果包含某特征项的文档数为n ,相 r 应的文档集因子f = l o g 兰。这样特征项在集合中较少的文档中出现, , 则相应的文档集因子i d f 较大。 一般文档查询时通常要求能够将一些特定文档与文档集合中其它文 档区别开来的特征项,这种特征项不仅要有较高的出现频率,还要在文 档集合中较少的文档中出现。将频率因子和文档集因子相乘就可以实现 此目的,这就是最常用的t f i d f 赋权函数。 2 3 文本聚类技术 前面我们主要介绍了信息的收集和预处理,这些都是为了接下来我 们的文本聚类做准备工作。在网络热点话题发现这个过程中,热点话题 的发现核心部分就是文本的聚类,聚类效果的好坏直接影响最后得出的 结果。下面我就主要介绍下文本聚类的相关知识。 2 。3 1 文本聚类概述 文本聚类是众多聚类研究中的其中一种。传统的聚类研究主要针对 的是结构型的数据,如事务型的,关系型的以及数据库中的数据等。但 是在现实生活中我们能够获取的很多信息都是一文档的形式存储在文本 数据库中的。随着计算机技术的飞速发展,电子形式的信息量也极速的 扩展,这使得文本数据库得到的快速的发展。此外,传统的信息检索技 术已不能适应日益增加的大量文本数据处理的需要。典型的大量文本中 只有很少一部分与某一个体或用户相关。而不清楚文本中的内容,就很 难形成有效的查询,从数据中分析和提取有用信息。用户需要有关的工 具完成不同文本的比较,以及文本重要性的相关性的排列,或找出多文 本的模式或趋势。因此,文本挖掘就成为数据挖掘中一个日益流行而重 要的研究课题。 文本聚类是一种基于“聚类假设”的无指导文本分类【2 0 j 。它根据“相 关文本之间的相似性比无关文本之间的相似性更大 这一假设将一个文 西南交通大学硕士研究生学位论第13 页 本集分成若干称为簇( c l u s t e r ) 的子集,每个簇中的文本之间具有较大的相 似性,而簇之间的文本具有较小的相似性。 目前国内外对于文本聚类都进行了大量的研究。如国外的c j v a n r i j s b e r g e n ,( 1 9 8 9 ) 1 2 1 1 和g e r a l dk o w a l s k i ,( 1 9 9 7 ) 2 2 j 将文本聚类应用于改 善信息检索系统中的查准率和查全率。d o u g l a s sr 和d a v i d k a r g e r ( 1 9 9 2 ) 1 2 3j 等人将文本聚类用于浏览文本集以及重新组织查询引擎。还 有人将文本聚类应用于对顾客的e m a i l 进行分析从而找出不同用户群的 购物特点,为商业决策提供支持等等方面。与国外相比,国内对中文文 本聚类的研究和 应用起步较晚。目前国内少数单位正从事中文文本聚类算法的研究 及其应用,如:中国科技大学的姜宁( 2 0 0 2 ) p4 | ,解放军理工大学的李 家福( 2 0 0 3 ) 2 5 1 和中国科学院计算所的b 东波( 2 0 0 3 ) 刚等人。 2 3 2 文本聚类过程 一般的聚类采用的方法大多是非常明确的定量方法因为一般聚类通 常面对的是结构化的数据( 事物、关系及数据库中的数据等) ,聚类过程 包括数据取样、特征提取、模型选择、问题归纳和知识发现。而中文文 本聚类由于处理的是非结构化的文本,因此其采用的方法与一般聚类不 同,它必须利用文本处理技术。 如今一般的文本聚类过程有如下几个主要步骤:文本特征建立、特 征缩减、文本聚类、效果评估等。如图2 1 所示: 图2 1 文本聚类的一般过程 文本特征的建立 文本的内容一般是人类所使用的自然语言,计算机并不能直接识别, 西南交通大学硕士研究生学位论第14 页 因此很难对其进行直接处理。因此首先必须把文本内容表示成为计算机 能够处理的、可体现文本本质特征的形式。文本信息大多是具有有限的 结构获是根本没有结构,这使得无法对其使用现有的数据发现技术。我 们需要对文本进行预处理,抽取代表其特征的元数据,这些特征可以用 结构化的形式保存,作为文本的中间表示形式,这个过程就是文本特征 的建立。 文本的特征可以分为描述性特征和语义性特征。描述性特征包括文 本的大小,日期,类型等。语义性特征包括文本的标题,作者,内容等。 我们说的问特征的建立主要是针对于文本的语义特征,更具体说是针对 文本的内容特征。目前对于文本内容特征的建立应用的主要方法就是我 们前面已经介绍过的向量空间模型法( v s m ) ,对于该方法我们前面已经 详细的进行了介绍,因此在这就不在过多的介绍了。 特征缩减 当文本用向量空间模型法表示为向量后,由于文本特征项众多导致 向量维数非常高,这无疑给后续处理带来很多的不便,因此特征集的缩 减便成为了必不可少的步骤。 目前在文本聚类中,特征缩减的方法大多利用的技术都是利用多个 词之间的依赖关系来合并这些词,达到降维的目的。下面我们就几种常 用的方法进行简单的介绍: 由j a c k s o n 在1 9 9 1 年提出的p c a ( p r i n c i p a lc o m p o n e n ta n a l y s i s ) 1 2 u 方法是一种目前应用较广的降维方法。该方法给定一个m n 阶文本一 词矩阵,p c a 用一个m m 阶协方差矩阵的k 个主要的特征向量来降 低词空间维数,最终得到比m 小得多的k 个特征空间维数。这k 个主 要的特征向量表示了特征之间最大的差异,相当于最初m 个特征的线 性合并。该方法的缺点是需要很大的内存空间,计算量也很大。其中协 方差矩阵需要o ( m 2 ) 个单位的内存,找出k 个主要的特征向量的时间复 杂度为o ( k m 2o 对于大规模文本,词数m 通常有上万个,那么时间和 空间的需求变得不可接受。 1 9 9 5 年m w b e r r y 和s t d u m a i s 等人提出了一种广泛用于信息检 索领域的降维方法l s i ( l a t e n ts e m a n t i ci n d e x i n g ) 1 2 8 1 方法。从本质上讲, 西南交通大学硕士研究生学位论第15 页 l s i 方法与p c a 方法相似。但是l s i 不是对协方差矩阵进行奇异值分解, 而是对初始的m n 阶文本一特征矩阵进行奇异值分解,然后选出这些 奇异特征向量作为代表,从而降低维数。由于不需要计算协方差矩阵, 所以l s i 在n 小于m 时,内存和计算量的需求都较p c a 要小。同年, s t d u m a i s 通过实验证明了当l s i 作用于范围广泛的文本集上时,该方 法能够显著提高信息检索性能b 9 i 。 此外,g e o r g ek a r y p i s 和e u i h o n g ( s a m ) h a n 提出了一种将文本聚类 为k 个簇,然后利用这些簇的中心向量将高维向量降为k 维的方法:c i ( c o n c e p ti n d e x i n g ) 1 3 0 1 o1 9 8 8 年a 。k j a i n 和r c d u b e s 提出了一种将 高维的初始数据转换为低维的数据,同时还尽可能保持数据点间距离的 等级顺序的降维方法:m d s ( m u l t i d i m e n s i o n a ls c a l i n g ) 1 3 1 】。t k o h o n e n 于1 9 9 8 年提出了一种基于神经网络的降维方法,s o f m ( k o h o n e n s e l f - o r g a n i z i n gf e a t u r em a p ) 3 2 j 该方法中的神经网络保存了特征之间的 大概关系,它能将高维的输入数据映射为低维的输出数据。 2 3 3 文本聚类经典算法 在文本聚类过程中,最重要的一步就是应用聚类算法对文本进行聚 类。随着数据挖掘技术的发展,目前已经发展出了许多非常成熟的聚类 算法。按照一般的划分标准可以大致分为五类:划分方法( p a r t i t i o n i n g m e t h o d ) ,层次方法( h i e r a r c h i c a lm e t h o d ) ,基于密度的方法( d e n s i t y b a s e d m e t h o d ) ,基于网格的方法( g r i d b a s e dm e t h o d ) 和基于模型的方法 ( m o d e l b a s e dm e t h o d ) p “。对于聚类算法的选择,往往都是根据实际应用 中的聚类目的,数据类型等进行。就网络热点话题发现为例,下面我们 主要介绍下该领域内一些常用的、有代表性的聚类算法。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论