




已阅读5页,还剩48页未读, 继续免费阅读
(计算机软件与理论专业论文)基于语义和链接的话题跟踪方法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 作为自然语言处理一个新的研究方向,话题识别与跟踪旨在发展一系列基于事件的 信息组织技术,以实现对新闻媒体信息中新话题的自动识别以及对已知话题的动态跟 踪。话题识别与跟踪( t d t ) 技术可以把分散的信息有效地汇集并组织起来,使人们能够 从整体上了解一个事件的全部细节以及该事件与其它事件之间的关系。 话题跟踪作为话题识别与跟踪的一项子任务,是指根据给出的某一话题的一则或多 则报道,把与该话题相关的报道联系起来。本文主要研究了话题跟踪,在借鉴国内外关 于话题跟踪研究的先进技术的同时,也对新闻报道的自身特点进行了有益的探索。将语 义和链接分析引入到了话题跟踪方法中,利用链接则对w e b 新闻网页的针对性更强, 利用语义则对新闻报道内容刻画更形象具体。实验证明基于语义和链接的跟踪方法提高 了跟踪的性能。 w e b 新闻网页不同于传统的文本文档,一部分w 曲新闻网页以新闻图片和相关链 接为主,而只有极少的文字内容,这使得传统的基于内容计算的话题跟踪方法很难发挥 好的效果。因此,本文主要研究了链接分析在w e b 话题跟踪中的应用,提出了一种基 于内容计算和链接分析相结合的针对w e b 新闻信息的话题跟踪方法。 由于向量空间模型中的向量维数较高,重要的特征词经常会被区分能力较弱的特征 词所淹没,且对事件表示不够形象直观,本文提出了一种利用语义框架来表示话题和报 道的方法。 最后,将话题跟踪方法应用于科技文献,使话题跟踪思想的应用不单单局限于新闻 报道。讨论了适用于科技文献的权重计算方法。采用了基于同义词的话题模型扩充方法, 跟踪过程中采用了一种利用引文关系的类k n n 方法。实验证明这一应用比较合理。 关键词:话题跟踪;语义框架;向量空间模型;链接分析 大连理工大学硕士学位论文 t h ea p p r o a c hf o rt o p i ct r a c k i n gb a s e do ns e m a n t i ca n dh y p e r l i n k a b s t r a e t a san e wd i r e c t i o no fr e s e a r c ho nn a t u r a ll a n g u a g ep r o c e s s i n g , t o p i cd e t e c t i o na n d t r a c k i n ga i m sa td e v e l o p i n gt e c h n o l o g i e sf o re v e n t - b a s e di n f o r m a t i o no r g a n i z i n gs u c ha s d e t e c t i n gs t o r i e so nn o v e lt o p i ca n dt r a c k i n gs t o r i e so nk n o w nt o p i c s t o p i cd e t e c t i o na n d t r a c k i n g ( t d t 、c a l lo r g a n i z et h ed i s t r i b u t e di n f o r m a t i o ns ot h a tp e o p l ec a ng r a s pa l lt h e d e t a i l sa b o u te v e n t sa n dt h er e l a t i o n sb e t w e e ne v e n t s t o p i ct r a c k i n gi sas u b t a s ko ft d t i ta i m sa tf i n d i n gr e l a t e ds t o r i e so nac e r t a i nt o p i c t h a ti si d e n t i f i e du s i n gs e v e r a ls a m p l es t r o r i e s t l l i sp a p e rf o c u s e so nt h es t u d yo ft o p i c t r a c k i n gt a s k ,m a k e st h er e s e a r c ho nt h ec h a r a c t e r i s t i co fe v e n tn e w sa n da d v a n c e dt o p i c t r a c k i n gs y s t e mo fo t h e r r e s e a r c hi n s t i t u t i o n s s e m a n t i ca n dh y p e r l i n ka n a l y s i sw o f e i n t r o d u c e dt ot h et o p i ct r a c k i n gm e t h o di nt h i sp a p e r n i cu s eo f h y p e r l i n ka n a l y s i sm a k e st h e m e t h o dm o r eu s e f u l lf o rt h ew e b p a g e s ,a n dt h eu s eo fs e m a n t i ca n a l y s i sm a d et h et o p i c e v e n t m o d l em o r ei n t u i t i v ea n dm o r es p e c i f i cf o rn e w s t h ee x p e r i m e n t ss h o w st h a tt h ea p p r o a c h b a s e do ns e m a n t i ca n dh y p e r l i n ki m p r o v e st h eq u a l i t yo f t o p i ct r a c k i n g w e b p a g e sa r ed i f f e r e n tf r o mt h et r a d i t i o n a lt e x td o c u m e n t s s o m ew e b p a g e sh a v em a n y p h o t o sa n dh y p e r l i n k sa n do n l yaf e ww o r d s ,t h i sm e a n st h a tt h et r a d i t i o n a lt o p i ct r a c k i n g m e t h o db a s e do nc o n t e n ta n a l y s i si sd i f f i c u l tt od ow e l l t h e r e f o r e ,t h i sp a p e rs t u d i e st h e a p p l i c a t i o no fh y p e r l i n ka n a l y s i si nt o p i ct r a c k i n g , a n dp r e s e n t sa na p p r o a c hc o m b i n i n gt h e h y p e r l i n ka n a l y s i sw i t hc o n t e n tc o m p u t i n g n ev s mo f i e r nh a sh i i g hd i m e n s i o n s ,i nw h i c hi m p o r t a n tf e a t u r e so f t e nb ei n u n d a t e d , a n di sn o tv i s u a lo n o u i g hf o rt h ee v e n t s ,t h i sp a p e r p 溺翎临a na p p r o a c hw h i c h u s e das e m a n t i c f r a m ea se v e n tr e p r e s e n t a t i o nf o rt o p i ct r a c k i n g f i n a l l y , t h et h i n k i n go ft o p i ct r a c k i n gi sa p p l i e dt ot h e s e s ,t h ea p p l i c a t i o no ft o p i c t r a c k i n gs h o u l dn o tb ej u s tl i m i t e dt on e w sr e p o r t s 删sp a p e r d i s c u s s e st h em e t h o do ft e r m w e l g h tc a l c u l a t i o nt h a te x p l o i t e dt h ef e a t r u e so ft h e s e s ,u s e sa ne x p a n s i o nm e t h o do ft o p i c m o d e lb a s e do ns y n o n y m o u s 1 1 l ea l g o r i t h mo f t r a c k i n gb a s e do nc i t a t i o n si si m p r o v e df r o m k n n e x p e r i m e n tp r o v e st h a tt h ea p p l i c a t i o nw a sr e a s o n a b l e k e yw o r d s :t o p i ct r a c k i n g ;s e m a n t i cf r a m e ;v e c t o rs p a c em o d e l ;h y p e r l i n ka n a l y s i s 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了丈中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:l 查壁日期:竺1 堡! ! 鱼三翊 大连理工人学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送 交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理 工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也 可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 作者签名: 2 鎏:量 导师签名 _ = 兰丑年旦月旦日 大连理工大学硕士学位论文 1 绪论 1 1t d t 的发展史 随着互联网的不断发展,新闻网页已经成为能够和报纸、电视以及广播齐名的四大 媒体之一。与传统媒体相比,互联网新闻在时效性上有着不言而喻的优势。但由于网络 信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地方,并且出现在 不同的时间,仅仅通过这些孤立的信息,人们对某些事件难以做到全面的把握。在这种 情况下,如何快捷准确地获取感兴趣的信息成为人们关注的焦点。目前的各种信息检索、 过滤、提取技术都是围绕这个目的展开的。 话题识别与跟踪( t o p i cd e t e c t i o na n dn , a c k i n g ,) t ) 技术就是在这种情况下应运而 生的。一个t d t 系统的功能与一位信息工作者的工作相似,对于一个新的报道能够将 其汇总到已识别到的话题中或者将这篇报道视为一个新的话题,它可以帮助人们把分散 的信息有效地汇集并组织起来,从整体上了解一个事件的全部细节以及该事件与其他事 件之间的关系【”。 与一般的信息检索或者过滤不同,) t 所关心的话题不是一个大的领域或者某一类 事件,而是一个很具体的事件( e v e n t ) 。目前看来,t d t 的研究呈现以下特点:多数已 公开系统采用的方法主要还是传统的文本分类,信息过滤和检索的方法,专门针对话题 发现与跟踪自身特点的算法还未形成;综合使用多种相对成熟的方法,从长期看来在实 际应用中可能效果最佳,同时这也是将来的一个研究发展方向【2 j 。 话题识别技术和话题跟踪技术合称为话题识别与跟踪,是国际上t d t 项目的两个 重要任务。话题识别与跟踪的基本思想源于1 9 9 6 年,当时美国国防高级研究计划委员 会( d a r p a ) 根据自己的要求,提出需要开发一种新技术,能在没有人工干预的情况下 自动判断和识别新闻信息流的事件话题。 随后,来自d a r p a 、卡内基梅隆大学、d r a g o n 系统公司以及麻萨诸塞大学的研究 者开始定义话题识别与跟踪研究的内容,并开发用于解决问题的初步技术。这些初始研 究的目的是要确定来自信息检索领域的基于主题的技术在多大程度上能够用来解决基 于事件的信息组织问题。为保持统一的命名方式,这些初始研究及评测后来被命名为 t d t1 9 9 7 或t d tp i l o t i3 1 。 在1 r i ) t 初始研究中,确定话题识别与跟踪有四项子任务| 4 1 :切分( s e 掣n e n t a t i o n ) 、 跟踪( t r a c k i n g ) 、反省识别( r e t r o s p e c t i v ed e t e c t i o n ) 和在线识别( o n 1 i n ed e t e c t i o n ) 。其中, 反省识别是话题识别任务的一种变异,它允许系统在开始话题识别任务之前可以先预览 基于语义和链接的话题跟踪方法 一下要处理的整个新闻报道集合。设立两种不同的话题识别任务,目的在于比较有无关 于待处理文本信息流的先验知识对系统性能的影响。 从1 9 9 6 年下半年到1 9 9 7 年进行的t d t 初始研究非常成功,它把研究问题以易于 处理和能够评测的方式确定下来,标志着话题识别与跟踪这一新的自然语言处理研究方 向的正式确立。 从1 9 9 8 年开始,为了推动话题识别与跟踪研究的发展,借鉴信息抽取、信息检索 等研究的成功经验,d a r p a 以及后来的美国国家标准技术研究所( n i s t ) 资助并主持了 话题识别与跟踪系列评测会议。这是一种评测驱动的研究方式,它具有以下一些特点: 研究任务明确具体、有公共的研究资源( 训练与测试语料) 、进行公开的评测。这种方式 将研究置于公共的研究平台之下,对某些假定系统进行受控的实验模拟,测试潜在技术 的有效性,定量估计研究进展情况,并提供交换研究信息的论坛。 到目前为止,t d t 评测己经成功地举办了7 次。t d t1 9 9 8 是话题识别与跟踪技术 的首次公开评测,共有9 家研究单位参与,设立了三项评测任务:对新闻报道的切分、 话题跟踪与话题识别。评测的目的是评定由自动语音识别产生的错误和训练样本数目对 t d t 的性能的影响。1 9 9 9 年秋季进行第二次t d t 评测,这次评测将1 9 9 8 年的三个任 务扩展到汉语语料中,另外增加了两项新任务:新事件话题的首报道识别和相关识别, 这两个新任务都针对英语语料。2 0 0 0 年进行的第三次评测,重点是多语言的话题识别与 跟踪。第四次评测在2 0 0 1 年举办,主要任务是提高在多语言新闻数据流中同时进行的 ) t 技术。在2 0 0 2 年举办了第五次1 r i ) t 评测,阿拉伯语的语料加入到了测试集中,并 提倡对文本过滤、机器翻译、语音识别、文本分割等技术的研究。t d t 2 0 0 3 的任务主要 有:首报道识别、相关识别、话题识别、话题跟踪。2 0 0 4 年的1 r i ) t 评测与以往评测有 较大的变化:报道分割任务不在再进行评测;保留话题跟踪任务、话题识别和相关识别 任务;增加了有监督的自适应话题跟踪任务和层次话题识别任务。 t d t 系列评测过程中共建立了五个可用于话题识别与跟踪研究的训练和测试语料, 包括:t d t 1 或t d t p i l o t 、t d t - 2 、1 d t 3 、t d t - 4 和t d t - 5 。t d t 评测采用的语料是 由语言数据联盟( l d c ) 提供的t d t 系列语料,都由人工标注了若干事件话题作为标准 答案。 t d t 评测越来越受到人们的重视。国内外的很多著名的大学、公司和研究机构都参 加了该评测。国外的机构主要有:i b mw a t s o n 研究中心、b b n 公司、卡耐基梅隆大学、 马萨诸塞大学、宾州大学、爱荷华州大学、马里兰大学等等。国内这方面的研究开展的 相对较晚。1 9 9 9 年国立台湾大学参加了t i ) t 话题识别任务的评测,2 0 0 0 年香港中文大 学参加了t d t 某些子任务的评测。北京大学计算语言学研究所、中科院计算所【2 1 、哈工 大连理工大学硕士学位论文 大、东北大学、复旦大学、微软亚洲研究院、清华大学等国内研究机构的自然语言处理 ( n l p ) 研究人员也在进行t d t 相关技术的研究。) t 是一个新兴的研究热点。 1 2t d t 的基本任务 早期的话题识别与跟踪研究主要集中于五个子任务展开,各个子任务的解决将有助 于最终研究目标的实现。这五个子任务包括【3 , 4 1 :对新闻报道的切分( s t o r ys e g m e n t a t i o n ) 将连续的广播、电视新闻节目的语音或文字记录分割为不同的报道;新事件的识别( n e w e v e n td e t e c t i o n ) 即在新闻报道信息流中识别出对一个新话题的首次报道;报道关系识别 ( s t o r yl i n kd e t e c t i o n ) 判断两个随机选择的新闻报道是否讨论同一个话题;话题识别 ( t o p i cd e t e c t i o n ) 识别出系统未知的话题,并将相关报道也识别出来;话题跟踪( t o p i c t r a c k i n g ) 给出某话题的- - n 或多则报道,把后输入进来的相关报道和该话题联系起来。 t d t 2 0 0 4 评测中新增加了两项评测任务:有监督自适跟踪( s u p e r v i s e da d a p t i v e t r a c k i n g ) 和层次话题识别( h i e r a r c h i c a lt o p i cd e t e c t i o n ) 。 对新闻报道的切分是指将从一个信息源获得的语言信息流分割为不同的新闻报道。 由于从新闻专线获得的文本信息流本身就是以单个报道出现的,所以这一任务只适用于 对来自广播、电视等媒体的音频数据的处理。一段新闻节目通常包含很多条报道,但是 这些节目本身很少在不同的新闻报道问设置明显的分隔标记。比如,商业广告就很可能 出现在某篇报道的中间。要切分的语料或数据可以是音频记录本身,也可以是由人工或 通过自动语音识别( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 从音频记录得到的文字记录。 报道切分是其他四项任务的预处理。也就是说,其他任务都是在报道切分的基础上 进行的,它们需要以文本形式的报道流作为输入。有关报道切分对其他任务的影响的研 究表明,它对跟踪任务影响较小,但对各种识别任务影响很大。报道切分系统的性能依 赖于源数据的形式以及做出决策允许的最大延迟时间。对这一任务的处理,一个比较成 功的做法是使用最大熵和决策树混合的模型,利用各种与信息源相关的特征,如语速( 电 视播音员在新闻报道的开始语速要快些) ,句子的长度( 长旬多出现在新闻报道的开始) , 在节目中的位置( 可能知道商业广告会出现在某个可预测的时间段内) ,以及字或词的n 元文法。另外,贝叶斯分类器、各种词汇线索( 如前后边界触发词) 、停顿间隔、变化的 能量级别等方法或信息也被许多系统采用或利用【5 】。 新事件识别任务的目标是识别出以前没有讨论过的新闻话题的出现,比如一次炸弹 爆炸、火山喷发、某个政治丑闻等等。这项任务也被看作是对一个话题识别系统的透明 测试,因为判断每个报道是否讨论了一个新话题是一个话题识别系统的基础。目前,在 新事件识别任务中采用的典型方法是:用以向量或概率分布形式表示的特征集合代表每 基于语义和链接的话题跟踪方法 篇报道,每遇到新来的报道,就将其特征集合与过去所有报道的特征集合进行比较,据 此判断该报道是否描述了一个新的话题。j a m e sa l l a n 等人认为采用这种基于文本相似性 比较的简单方法已经不能指望通过简单的参数调整来提高系统的性能,必须要探索其他 完全不同的方法1 6 j 。 在报道关系识别任务中,系统对给定的两篇新闻报道做出判断,即它们是否讨论同 一个话题。这项技术是其他几项任务的一个重要的核心技术。一个好的关系识别系统也 可用于解决话题跟踪、识别以及对新发生事件的识别等问题。与其他任务相比,尽管这 一任务没有直接的应用目标,但由于绝大多数t d t 方法依赖某种相似性判定函数,对 报道关系识别任务的评价至少可以使对这些不同相似性判定函数的评价成为可能。目 前,对这一任务的研究并没有受到应有的重视,这可能主要因为它的应用目标尚不明确。 目前,最成功的报道关系识别系统使用一个余弦相似性计算函数,并用到以下一些资源 或技术:停用词、词干分析、二元术语向量、增量修订t f x i d f 的取值以及基于时白j 的 罚分策略( 即如果两篇报道出现的时白j 间隔越大,那么它们描述同一话题的可能性就越 小) 。 话题识别意在将输入的新闻报道归入不同的话题簇,并在需要的时候建立新的话题 簇。从本质上看,这项研究等同于无指导的( 系统无法预先知道该有多少话题簇、什么 时候建立这些话题簇) 聚类研究,但只允许有限的向前看。通常的聚类可看作是基于全 局信息的聚类,即在整个数据集合上进行聚类,但话题识别中用到的聚类是以增量方式 进行的。这意味着,在做出最终的决策前,不能或只能向前面看有限数量的文本或报道。 话题识别作为一种增量聚类,可以划分为两个阶段:识别出新事件的出现;将描写先前 遇到的话题的报道归入相应的话题簇。显然,第一个阶段就是对新发生事件的识别。话 题识别任务是对新事件识别任务的一个自然的扩展。但是,这两项任务的区别也是很明 显的:前者关心将谈论某个话题的所有新闻报道归入一个话题簇,如果仅仅不能正确识 别出对某个话题的首次报道,问题并不严重;后者则正好相反,它只关心系统能否将引 出某个话题的第一篇报道识别出来。 话题识别可以看作是一种按事件的聚类,研究者常采用的算法有:增量k - m e a n s 聚 类、a g g l o m e r a t i v e 聚类、单遍聚类等【”。i b m 公司开发的一个相对比较成功的话题识别 系统采用了种两层聚类策略,使用对称的o k a p i 公式来比较两篇报道的相似性。该系 统首先将报道暂时归入不同的小话题簇,然后在有限的延迟时间后再将其归入最终的话 题簇。 话题跟踪就是要识别出关于某个已知话题的新闻报道,通常要事先给出一个或几个 已知的、关于该话题的新闻报道。这项研究类似于信息检索领域基于例子的查询以及信 大连理工大学硕士学位论文 息过滤研究。在话题跟踪中已知的训练正例非常非常少,并且与某个话题相关的报道常 常集中出现在特定的时间段内。话题跟踪系统的性能受到以下一些因素的影响:训练用 新闻报道的数量,训练及测试语料使用的语言,文字记录的质量,即是由人工转录的还 是由自动语音识别系统得到的。有多种不同方法在这项研究中被尝试使用,如r o c c h i o 分类方法、决策树方法、基于h m m 的语言模型等等,其中比较成功的是k 最近邻居方 法或多种方法的组合嗍。 有监督自适应话题跟踪:与前面描述的话题跟踪很相近,首先提供给系统几个报道 ( 通常是1 至4 个) ,这些报道都是关于同一个话题,期望在到来的新闻流中找到所有有 关该话题的报道。不同的是,系统可以使用一个预先给定的报道和话题的映射表。当系 统对一个报道做出判断后,将该判断与映射表对比,再将报道加入到训练集中,调整模 型和参数。再判断下一个报道。 层次话题识别任务是将报道集按照话题进行自动聚类。聚类的结果集合主要有以下 几个特点:每个报道可以属于一个或多个类;一个类可以是其他类的子类也可能覆盖其 他类;类别之间的关系用只有一个根节点的无循环图表示。该任务与以往的话题识别任 务不同。话题识别的聚类结果中每个类代表一个话题,每个报道只能属于一个类。 t n o ( 荷兰国家应用科学研究院) 着眼于选取一部分种子文档先构造出一个有向无环图, 再把剩下的文档插入到图的结点中去;u m a s s ( 马萨诸塞大学) 先把文档分成很多小类, 再按报道来源、时间和语种将小类合并;c u h k ( 香港中文大学) 采用自顶向下的分裂 式k m e a n s 算法来产生有向无环图结构;中科院的于满泉等提出了基于多层聚类的 m l c s 算法对话题进行层次化组纠”。 1 3 话题跟踪的研究现状 话题跟踪任务是1 r i 丌评测中较为重要的任务,参加该项评测的单位比参加其它任 务单位要多一些。在过去几年的评测中,参加单位使用的方法基本上都是在原有信息检 索方法的基础上进行改进的。这些方法通常是从训练报道中抽取特征集作为话题特征, 当新报道到来时,与话题特征比较如果匹配得好,则判定为话题相关,否则被判定为不 相关。使用的方法大致包括:向量检索和概率检索【i o 】、最近邻分类、神经网、b o o s t i n g b a y e s 分类器、决策树、动态聚类和支持向量机等【3 1 。在建立模型时使用了实体名词识 别、词特征向量、t f x l d f 权重计算、打分规范化、文本扩展、无监督自适应、多种方 法组合等方法。 基于语义和链接的话题跟踪方法 在历年的y r 评测中,参加话题跟踪任务的单位主要有c m u ( 卡内基梅隆大学) 、 u m a s s 、d r a g o n 公司、b b n 公司、g e 公司、u m d ( 马里兰大学) 、o l o w a ( 爱荷华大学) 】、 i b m 、t n 0 1 1 2 , 1 3 、l i m s i ( 法国国家科研中心c n r s 下属的机械与工程科学计算实验室) 。 c m u 是最早参加t d t 评测的单位之一,它参加了1 9 9 8 年和1 9 9 9 年的t d t 话题 跟踪任务的评测。1 9 9 8 年的评测系统使用了两种众所周知的方法_ k 最近邻居法和决 策树法。在1 9 9 9 年进行了改进,仍然使用k 最近邻居法,同时增加了核心向量法和基 于隐马尔可夫模型的t s 模型。c m u 使用上述三种方法分别建立话题跟踪模型,并将这 三种模型组合在一起。评测结果表明,系统的组合能够很大的提高话题跟踪系统的性能。 在该年的评测中,c m u 取得了第二名 5 , 1 4 1 。 u m a s s 也是最早参加评测的。在1 9 9 8 年的评测中,它采用了最简单的模型向 量空间模型,它的基本思想是将报道文本表示成向量。在它的系统中,不进行特征筛选, 不使用禁用词表,对于英文使用了词形还原技术,在建立向量时,使用特征的t f x l d f 值作为权重。2 0 0 0 年它所提交系统的核心是用向量模型来表示文本,报道向量的项是单 个的词,用基于字典的词形还原方法进行词形还原。并采用k n n 的方法。该年它参加 了中文的话题跟踪任务,取得了较好的成绩。2 0 0 1 年它将语义模型引入到话题跟踪任务 中。2 0 0 2 年它又采用了新的模型关联模型,并在英文语料的评测中取得第一名。 d r a g o n 参加了三年的话题跟踪评测任务。每年提交的系统都是采用了语言模型。用 m 个训练集的词来建立语言模型,在选择特征时,去掉了禁用词并采用b a c k o f f 平滑技 术来平滑语言模型,它所设计的系统中,对于不同的m 值每个话题的平滑参数也都不同。 b b n 参加了两年的t d t 话题跟踪的评测。每年都取得了很好的成绩。1 9 9 8 年它建 立了3 个独立的系统t o p i cs p o t t i n g ( t s ) ,i n f o r m a t i o nr e t r i e v a l ( i r ) 和r e l e v a n tf e e d b a c k ( c i 江) 。在t s 和r f 中使用了无监督学习。系统使用逻辑回归进行系统合并和评价。它 的系统还使用了无监督自适应算法和时间惩罚的方法。时间惩罚的方法就是离话题相关 的报道的时间越长,则越有可能不相关。1 9 9 9 年它侧重了跨语言的话题跟踪,它所使用 的方法所基于双语字典的汉译英翻译系统,将汉语翻译成英语,再进行跟踪。 g e 也参加了两年的t d t 话题跟踪任务的评测。在1 9 9 8 年的评测中使用了传统的 向量空间模型,使用t f x l d f 计算特征的权重,并用余弦相似度计算公式计算报道与话 题的相关性。在1 9 9 9 年的评测中使用了c o 1 0 c a t i o n 技术。 u m d 参加了四年的话题跟踪任务的评测。1 9 9 8 年使用了p r i s e 信息检索系统【1 6 】, 采用了向量空间模型和核心向量法进行跟踪。1 9 9 9 年侧重跨语言的话题跟踪,对于中文, 使用了翻译系统。在描述话题时,使用了文本扩展技术,并使用c h i 特征选取方法进行 特征选取。系统性能较上一年有所提高。2 0 0 0 年时,在前一年的基础上,在翻译系统中, 6 大连理工大学硕士学位论文 增加了对短语的翻译功能,系统性能有较大的提耐”】。2 0 0 2 年它增加了对阿拉伯语的 跟踪,将阿拉伯语翻译成英语。采用一元语法模型进行话题跟踪,并使用了打分归一化 策略。 m m 只参加了一年的话题跟踪任务的评测,取得第一名的好成绩。它的系统的特点 就是使用了实体名词的识别【】。 l i m s i 从2 0 0 1 年才开始参加评测。2 0 0 1 年系统基于一元语法模型,为了解决训练 文本数过少的问题,采用文本扩展方法和在线无监督自适应技术。2 0 0 2 年增加了去禁用 词、词形还原和对报道边界的识别。 国内话题跟踪的研究开展得相对较晚。北京大学计算语言学研究所、中科院计算所、 哈工大、东北大学等国内研究机构也先后开始了对话题跟踪相关技术的研究,并参加了 t d t 评测。东北大学利用初始跟踪器与后续报道计算相似度,利用相关报道生成新的弱 跟踪器,并利用报道距离先验知识的时间差对新跟踪器的权重进行调整,再将所有跟踪 器融合成强跟踪器【1 9 】。哈工大提出子话题分治匹配【2 0 1 、基于相关性模型跟踪等方法【2 i 】。 清华大学的贾自艳等借鉴s i n g - p a s s 聚类思想,并结合新闻要素给出一种基于动态进化 模型的话题探测和跟踪算法i 矧。 综上所述,话题跟踪任务中主要还是使用传统的信息检索模型。表示话题和报道的 特征一般都是词。然而,尽管话题跟踪和信息检索中的任务有些相似,但仍有其自身的 特点。如果仅仅局限在现有的方法上,很难进一步提高话题跟踪系统的性能。 1 4 本文研究工作内容 话题识别与跟踪作为信息检索的一个新的研究方向,旨在发展一系列基于事件的信 息组织技术,目前国内外对t d t 关键技术的研究非常活跃,同时取得了一些很好的研 究成果和进展。 本文主要研究了1 r i ) t 中的一个子任务一话题跟踪任务,话题跟踪就是要识别出 某个已知话题的所有相关新闻报道。对于这个领域,国内外的学者已经作了一些富有成 效的研究,笔者认为还存在以下的不足。 ( 1 ) t d t 的评测语料为纯文本,这使目前的话题跟踪研究局限于对纯文本的分析。 但互联网的迅速发展,网页新闻应该是话题跟踪更大的发展空间。虽然传统的基于内容 计算的话题跟踪方法也可以应用于w e b 话题跟踪,但w c b 页面具有如下特点:w e b 页 面之间的超链接是文本文档和w c b 页面之间最主要的区别,它对聚类一个具有相关性 的页面群体提供了非常有价值的信息;一部分w e b 新闻网页以新闻图片和相关链接为 主,而只有极少的文字内容。这使得传统的基于内容计算的话题跟踪方法很难发挥好的 效果。 ( 2 ) 目前,话题和报道多用特征词组成的特征向量来表示,对特征词的语义不进行 区分,无法充分体现特征词地位的不平等。有时向量维数较高,重要的特征词经常会被 区分能力较弱的特征词所淹没。但在话题跟踪过程中,新闻事件的描述与特定时间、地 点和人物是相关的,这就使对特征词进行语义区分成为必要。 ( 3 ) 话题跟踪从诞生到目前多是以新闻报道为对象,t d t 语料提供的也是不同语言 的新闻报道。但笔者认为话题跟踪的思想可以有诸多的应用,比如:b l o g 、科技文献等 等,不应单单局限于新闻报道。话题跟踪是一项直接面向应用的研究,它在信息安全、 金融证券、行业调研等领域都有广阔的应用前景,目前对于话题跟踪思想应用的研究较 少。 针对上述问题,本文主要完成了以下三方面的研究内容。 ( 1 ) 针对w e b 页面的重要特点,本文主要研究了链接分析在w e b 话题跟踪中的应 用,提出了一种基于内容计算和链接分析相结合的针对w e b 新闻信息的话题跟踪方法, 并针对新闻网页的结构特征对传统的权重计算方法进行了改进。 ( 2 ) 本文针对向量空间模型的不足,提出了一种利用语义框架来表示话题和报道的 方法,并应用于话题跟踪。 ( 3 ) 将话题跟踪思想应用于新闻报道之外的又一领域科技文献。讨论了适用于 科技文献的特征词权重计算方法。采用了基于同义词的话题模型扩充方法,给出了一种 利用引文关系的类k n n 的跟踪方法。 1 5 论文结构 全文分为五章内容。 第一章介绍了课题研究背景和话题识别与跟踪( t d t ) 的发展史,并阐述了话题识别 与跟踪研究的基本任务及各项任务常用的技术手段。介绍了本文主要研究的t d t 任务 话题跟踪的国内外研究现状。最后说明了本文的主要研究内容及论文结构。 第二章介绍了话题跟踪的基础知识。2 1 节介绍了话题跟踪的几个基本概念。2 2 节 介绍了话题跟踪任务的定义,并分析了任务的特点。2 3 节介绍了话题跟踪一般的解决 问题思路,包括:建立话题,报道模型、相似度计算、跟踪策略。2 4 节分析了可能影响 话题跟踪性能的几个因素。 第三章针对w e b 话题跟踪提出了基于内容计算和链接分析相结合的w e b 话题跟踪 方法,详细介绍了该方法的思想和实现。首先介绍了针对新闻网页的等级得分权重计算 一8 一 大连理工大学硕士学位论文 方法。然后,介绍了链接分析在w e b 话题跟踪中的应用,包括:引入链接分析的原因、 链接分析方法、链接相似度的计算方法。给出了跟踪方法的基本思想及算法流程。本章 最后给出了实验结果,并对实验结果进行了分析。 第四章针对向量空间模型的不足,提出了话题报道模型的语义框架表示方法,并利 用该模型进行话题跟踪。4 1 节给出了话题报道模型的框架表示。4 2 节详细介绍了框架 间的匹配机制。4 3 节详细介绍了基于语义框架跟踪算法的流程。4 4 节给出了跟踪的实 验结果及结果分析。 第五章是基于话题跟踪的科技文献推荐。5 1 节给出了这一应用问题的详细问题描 述,并解释了这一应用中的话题模型和报道模型。5 2 节分析了科技文献在结构、内容、 组织上的特点。5 3 节给出了话题建模的方法,并给出了基于同义词的话题模型扩充。 5 4 节给出了针对科技文献的基于多特征权重计算方法。5 5 节提出了一种利用引文关系 的类k n n 跟踪策略。5 6 节给出了跟踪的实验结果并对结果进行了分析。 在本文的结束语部分,对本论文的工作进行了系统的总结。对研究中的创新点和不 足进行了说明,并讨论了将来的研究工作。 9 一 基于语义和链接的话题跟踪方法 2 话题跟踪相关技术 2 1 基本概念 话题( t o p i c ) 是话题识别与跟踪研究中的一个最基本的概念,它的含义与语言学上 使用的概念不同。在最初的研究阶段( 1 9 9 9 年前) ,话题与事件含义相同。一个话题指由 某些原因、条件引起,发生在特定时间、地点,并可能伴随某些必然结果的一个事件【2 1 。 在目前使用的话题概念要相对宽泛一些,它包括一个核心事件或活动以及所有与之 直接相关的事件和活动( at o p i ci sd e 缸e dt ob eas e m i n a le v e n to ra c t i v i t y , a l o n gw i t ha l l d i r e c t l yr e l a t e de v e n t sa n da c t i v i t i e s ) 。因此,如报道论述的事件与话题种子事件有直接联 系,则其与话题相关。而随着时间发展,媒体对某话题报道的侧重点会发生变化。例如: 某话题描述2 0 0 0 年韩国总统金大中获得诺贝尔和平奖。颁奖前,报道侧重对诺贝尔奖 得主的猜测上;颁奖时集中于颁奖情况的描述;颁奖后侧重揭示金大中获奖原因以及韩 国和朝鲜对其获奖的反应上。这些报道都与话题相关,因此话题存在随着时自j 逐渐漂移 的现象,也称为话题的迁移或分化。 与话题相应的一个概念是主题( s u b j e c t ) ,它的含义更广些。话题与某个具体事件相 关,而主题可以涵盖多个类似的具体事件或者根本不涉及任何具体事件。如:“飞机失 事”是一个主题,而“2 0 0 2 年5 月7 日北方航空公司一架客机在大连失事”则是一个话 题。 一个事件( e v e n t ) 通常由某些原因、条件引起,发生在特定时间、地点,涉及某些 对象,并可能伴随某些必然结果,可以简单地认为话题就是若干对某事件相关报道的集 合。如果一篇报道讨论了与某个话题的核心事件直接相关的事件或活动,那么就认为该 报道与此话题相关。比如,搜寻飞机失事的幸存者、安葬死难者等都被看作与某次飞机 失事事件直接相关。 在上面的叙述中使用了报道( s t o r y ) 这一概念,在话题识别与跟踪领域,它是指一个 与话题紧密相关的、包含两个或多个独立陈述某个事件的子句的新闻片断( at o p i c a l l y c o h e s i v es e g m e n to fn e w st h a ti n c l u d e st w oo rm o r ed e c l a r a t i v ei n d e p e n d e n tc l a u s e sa b o u ta s i n g l ee v e n t ) 。 2 2 话题跟踪任务及其特点 话题跟踪任务就是识别与给定样例报道讨论同一话题的其他相关报道。例如:给定 一个或两个关于选举的报道,用户标记这些报道,当讨论这一话题的新报道出现时,系 统就会提醒他去阅读。它与信息检索中过滤任务有些相似,但还存在很大的差距。话题 1 0 大连理工大学硕士学位论文 跟踪的“查询”是针对一个话题的,是确确实实在现实世界中发生的事情,该话题用几 个实例进行定义,而信息检索中的查询是更广义上的话题,由用户直接定义。 如图2 1 所示,一个话题跟踪系统的功能与一位信息工作者的工作相似,对于一个 新的报道能够将其汇总到给定的话题中或者将这篇报道视为话题话题无关,它可以帮助 人们把分散的信息有效地汇集并组织起来,从整体上了解一个事件的整个发展过程。 图2 1 话题跟踪的定义 f i g 2 1 t h ed e f i n i t i o no f t o p i cn a c k i n g 在任务中,首先提供给话题跟踪系统m 个报道= 1 , 2 ,4 ) ) ,这些报道都是关于同 一话题r 的,期望在到来的新闻报道中找到所有关于该话题r 的报道。跟踪过程中必须 遵循如下规则。 ( 1 ) 跟踪系统独立的训练和测试每个话题。系统不能使用其他任何话题的 定义,这些定义往往能够使得跟踪任务变简单。因此对于每个话题它的训练语料和测试 语料都是不同的。 ( 2 ) 对于当前报道进行跟踪时,只能使用发生在该报道之前的报道,不能使用该报 道之后的报道。也就是说,跟踪不能向前看,必须对当前报道立刻做出判断。 话题跟踪任务的特点主要体现在以下几个方面。 ( 1 ) 训练语料少,一般只有1 到4 个正例。 ( 2 ) 到来的报道也就是测试报道按时问排序。 ( 3 ) 面向话题而不是面向概念更宽泛的主题,判断的依据更具体,粒度更细。 基于语义和链接的话题跟踪方法 ( 4 ) 面向动态的,随时间变化的新闻报道集,而不是静态的文本集合。 ( 5 ) 研究的侧重点不同,这体现在采用不同的评价指标上。相对精确率而言,话 题跟踪更强调召回率,认为不遗漏信息更重要。 2 3 解决问题思路 由话题跟踪的定义可以知道它实际上包括两步,如图2 2 所示。首先根据给出的一 组种子报道训练得到话题模型,然后在后续报道中找出所有讨论目标话题的报道。话题 跟踪可以简略地描述为以下几步。 ( 1 ) 利用m 个种子报道构造话题模型; ( 2 ) 将当前报道生成报道模型; ( 3 ) 根据一定跟踪策略、利用某种相似度计算方法对报道和话题进行相关性判断; ( 4 ) 输出话题相关报道 图2 2 话题跟踪的系统框架 f i g 2 2 a r c h i t e c t u r ef o rt o p i ct r a c k i n gs y s t e m 如图2 2 所示,话题跟踪由两个过程组成,训练过程和跟踪过程。在训练过程中, 选定一种特征表示方法和模型,从话题中抽取特征,并对话题建模,构造出话题模型。 跟踪过程:对于到来的报道首先也进行如上的预处理,然后对报道建模,根据一定的跟 踪策略、利用某种相似
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教A版高中数学选修2-1:2.4.1 抛物线的标准方程教学设计
- 化肥厂财务设备检查细则
- 房地产代理合同
- 第22课《杞人忧天》说课稿2025-2026学年统编版语文七年级上册
- 新课标人教版高中数学必修一 2.2基本初等函数-对数函数 教学设计
- 2024-2025学年高中物理 第一章 静电场 3 电场 电场强度和电场线说课稿 教科版选修3-1
- 中医期末试卷试题及答案
- 个体经营户与电商平台合作运营合同
- 时尚电子产品代言人合作合同范本及市场开发协议
- 高新科技园区车间租赁及创新成果转化合同
- 华北电力大学授予本科生学士学位名单
- 学生休学证明模板
- 机电安装工程技术标书(模板)
- 部编版小学一年级上册语文带拼音阅读练习题26篇
- 无机及分析化学第2章-化学热力学基础1
- GB/T 2930.1-2017草种子检验规程扦样
- 会计学原理模拟试题一套
- 第一章-宗教社会学的发展和主要理论范式课件
- 国内外新能源现状及发展趋势课件
- 临床常见护理技术操作常见并发症的预防与处理课件
- 高速公路改扩建桥梁拼宽施工技术及质量控制
评论
0/150
提交评论