(计算机应用技术专业论文)基于知网的话题跟踪和倾向性跟踪研究.pdf_第1页
(计算机应用技术专业论文)基于知网的话题跟踪和倾向性跟踪研究.pdf_第2页
(计算机应用技术专业论文)基于知网的话题跟踪和倾向性跟踪研究.pdf_第3页
(计算机应用技术专业论文)基于知网的话题跟踪和倾向性跟踪研究.pdf_第4页
(计算机应用技术专业论文)基于知网的话题跟踪和倾向性跟踪研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 由于网络信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地方 并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些事件难以做到全面的把 握。话题检测与跟踪( t d t ) 技术可以帮助人们把分散的信息有效地汇集并组织起来,从 整体上了解一个事件的全部细节以及该事件与其它事件之间的关系。话题跟踪是话题检 测与跟踪任务中的一个子任务,话题跟踪就是要检测并组织关于某个已知话题的新闻报 道,倾向性跟踪的任务就是对报道的立场作出判断。 本文主要研究了话题跟踪和倾向性跟踪的相关内容。在借鉴国内外关于话题跟踪研 究的先进技术的同时,也对话题的自身特点进行了有益的探索。考虑到事件主题的迁移 和分化对跟踪性能的影响,本文利用了事件框架、报道扩充和权重调整等多种策略来提 高话题跟踪的性能。进一步对话题立场倾向性进行了研究,提出了话题立场倾向性跟踪 算法。本文中的话题立场是指简单观点,即第三方客体对某一事件的态度,分为正态度 和负态度。本文利用了从知网管理系统导出后的知识词典,基于知网事件类中的情感体 系和动态角色框架,提出了填充动态角色框架的方法,并依据建立的立场概念库和报道 提供的信息结构、句子之间的逻辑关系等对报道进行了倾向性跟踪,从而在语篇情感计 算角度实现了对话题相关信息的组织。 在此基础上,本文构建了一个面向战争领域的话题跟踪系统模型,引入了知网这个 语义资源,实现了话题跟踪和报道倾向性跟踪,试验结果表明本文提出的研究方法是有 效的。 关键词:话题跟踪;信息检索;事件框架;知网;话题立场 基于知网的话题跟踪和倾向性跟踪研究 s t u d y o n t o p i ct r a c k i n g a n d t e n d e n c y c l a s s i f i c a t i o n b a s e do oh o w n e t a b s t r a c t b e c a u s et h ea m o u n to f i n f o r m a f i o ni st o om u c h , t h ei n f o r m a t i o na b o u t t o p i ci ss e p a r a t e di n d i f f e r e n t p l a c e sa n de m e r g e d i nd i f f e r e n tt i m e o n l yb yt h e s ei s o l a t e di n f o r m a t i o n , w ec a nn o t g r a s pt h ee v e n ti nw h o l e t o p i cd e t e c t i o na n dt r a c k i n g ( r o t ) c a nh e l pu st oo r g a n i z et h e p o t e n t i a li n f o r m a t i o ns ot h a tw ec a ng r a s pa l lt h ed e t a i l sa b o u t e v e n t sa n dt h er e l a t i o n sb e t w e e n e v e n t s t o p i ct r a c k i n gi n v o l v e st r a c k i n gag i v e nn e w se v e n ti nas t r e a mo fn e w ss t o r i e si e f i n d i n g a l ls u b s e q u e n ts t o r i e si nt h en g w ss t r e a mt h a td i s c u s st h e g i v e n e v e n t t 扯s p a p e rf o c u s e so n t h et o p i c t r a c k i n gt a s ka n dt o p i ct e n d e n c yt r a c k i n gt a s k , m a k e s t h e r e s e a r c ho nt h ec h a r a c t e r i s t i co f t o p i ca n da d v a n c e dt o p i ci r a e k i n gs y s t e mo fo t h e rr e s e a r c h i n s t i t u t i o n s i nv i e wo ft h ei m p a c to ft r a n s f e ra n dd i f f e r e n t i a t i o no fe v e n to nt o p i ct r a c k i n g , p a p e rd i s c u s s e s t h e c o m p r e h e n s i v em e t h o d so fw e i g h ta d j u s t m e n t , e v e n tf l - , d r n e a n ds t o r y e x p a n s i o nt oi m p r o v et h et r a c k i n ge f f e c t i v e n e s s f i n a l l yp a p e rp r o p o s e st h ea l g o r i t h mo fs t o r y t e n d e n c yc l a s s i f i c a t i o nb a s e d o da f f e c t i v ew o r d sa n dd y n a m i cr o l ef r a m ei nh o w n e t t h e t o p i c t e n d e n c yo f p a p e r r e f e r ss i m p l ep o i n to f v i e wt h a ts h o w sa t t i t u d et os o m ee v e n to nt h i r d p a r t i t f a l l si n t ot w ok i n d so fa t t i t u d et h a ti sa g r e ea n d o p p o s e i t sa k i n do fi n _ f o r m a t i o no r g a n i z a t i o n a b o u tt o p i c r n l er e s e a r c ho ft o p i c t r a c k i n g i sa ni n t e g r a t i o no fk n o w l e d g ee x p r e s s i o n 、 i n f o r m a t i o nr e t r i e v a la n dn a t u r a ll a n g u a g e p r o c e s s i n gw t f i c hh a sb e c o m e o n eo fh o tq u e s t i o n s f o rd i s c u s s i o na r o u n dw o d d b e s i d e st i f f s ,p a p e rc o n s t r u c t st h et o p i ct r a c k i n gs y s t e mm o d u l eb a s e do nw a rf i e l da n d r e a l i z e st h et o p i ct r a c k i n ga n dt e n d e n c yt r a c k i n gb a s e do ns e m a n t i cr e s o n l 3 e h o w n e t | n l e e x p e r i m e n t r e s u l ts h o w st h a tt h er e s e a r c hm e t h o d sa r ee f f e c t i v e k e yw o r d s :t o p i ct r a c k i n g ;i n f o r m a t i o nr e t r i e v a l ;e v e n tf r a m e ;h o w n e t ;t o p i c t e n d e n c y 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或其他单位的学位或证书所使用过的材料。与我一同工作 的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 意。 作者签名: 大连理工大学硕士学位论文 引言 在目前信息爆炸的情况下,如何快捷准确地获取感兴趣的信息成为人们关注的主要 问题。由于网络信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地 方并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些事件难以做到全面的 把握。而基于关键词的检索工作返回的信息冗余度过高,很多不相关的信息仅仅因为含 有指定的关键词就被作为结果返回了,因此人们迫切地希望拥有一种工具,能够自动把 相关话题的信息汇总供人查阅。话题检测与跟踪技术( ) t ) 就是在这种情况下应运而 生的,它可以帮助人们把分散的信息有效地汇集并组织起来,从整体上了解一个事件的 全部细节以及与该事件与其它事件之涮的关系。 与一般的信息检索或者过滤不同,t d t 所关心的话题不是一个大的领域或者某一 类事件,而是一个很具体的事件( e v e n t ) 。目前看来,t d t 的研究呈现以下特点:多 数已公开系统采用的方法主要还是传统的文本分类,信息过滤和检索的方法,专门针对 话题发现与跟踪自身特点的算法还未形成;要取得整体上比较满意的效果并不太困难, 但对某个用户感兴趣的特定话题,现有系统都无法保证取得满意的效果,比如对于用户 最为关注的“伊拉克战争”,系统不能保证取得高于平均值的准确率;综合使用多种相 对成熟的方法,从长期看来在实际应用中可能效果最佳,同时这也是将来的一个研究发 展方n 1 1 。 话题跟踪是话题检测与跟踪任务中的一个子任务,话题跟踪就是要检测并组织关于 某个已知话题的新闻报道。对于这个领域,国内外的学者已经作了一些富有成效的研究, 采取的策略主要集中在机器学习、相关反馈和查询扩展等方面,但是对于话题本身的特 点还没有提出很好的解决方法。本文主要研究话题跟踪任务,在针对话题自身的特点的 研究中结合多种策略来提高话题跟踪的性能,并对报道立场倾向性进行了信息组织。最 后通过构造出面向战争领域的话题跟踪和倾向性跟踪系统模型来验证方法的可行性。在 这个过程中,我们利用了知网这个语义资源,本文所使用的知识词典是从公开的知网管 理系统中导出生成的。 基于知网的话题跟踪利倾向性跟踪研究 1 绪论 1 1 话题检测与跟踪的发展史 话题检测与跟踪的基本思想源于1 9 9 6 年。当时美国国防高级研究计划委员会 ( d a r p a ) 提出需要一种能自动确定新闻信息流中话题结构的技术。随后,来自 d a r p a 、卡内基梅隆大学、d r a g o n 系统公司以及麻萨诸塞大学的研究者开始定义话 题检测与跟踪研究的内容,并开发用于解决问题的初步技术。这些初始研究的目的是要 确定来自信息检索领域的基于主题的技术在多大程度上能够用来解决基于事件的信息组 织问题。为保持统一的命名方式,这些初始研究及评测后来被命名为t d t1 9 9 7 或t d t p i l o t 2 3 。 在t d t 初始研究中,确定话题检测与跟踪有四项予任务:切分( s e g m e n t a t i o n ) 、 跟踪( t r a c k i n g ) 、反省检测( r e t r o s p e c t i v ed e t e c t i o n ) 和在线检测( o n - l i n e d e t e c t i o n ) 。其中,前两项任务与本章第2 部分介绍的对新闻报道的切分和话题跟踪相 同,在线检测与话题检测相同。丽反省检测是话题检测任务的一种变异,它允许系统在 开始话题检测任务之前可以先预览一下要处理的整个新闻报道集合。设立两种不同的话 题检测任务,目的在于比较有无关于待处理文本信息流的先验知识对系统性能的影响。 由于四项子任务都可以看作是某种检测任务,所以) t1 9 9 7 确定用漏报率和误报率 两个指标评价) t 系统的性能。另外,还用一种检测错误权衡图( d e t , d e t e c t i o ne r r o r t r a d e o f f p l o t ) 来直观地描绘t d t 系统发生错误的情况。 从1 9 9 6 年下半年至0 1 9 9 7 年进行的t d t 初始研究非常成功,它把研究问题以易于处理 和能够评测的方式确定下来,标志着话题检测与跟踪这一新的自然语言处理研究方向的 正式确立。 为了推动话题检测与跟踪研究的发展,借鉴信息抽取( m u c ) 、信息检索 ( t r e c ) 等研究的成功经验,d a r p a 以及后来的美国国家标准技术研究所( n i s t ) 资助并主持了话题检测与跟踪系列评测会议( t d t ) 。这是一种评测驱动的研究方式, 它具有以下一些特点:研究任务明确具体、有公共的研究资源( 训练与测试语料) 、进 行公开的评测。这种方式将研究胃于公共的研究平台之下,对某些假定系统进行受控的 实验模拟,测试潜在技术的有效| 生,定量估计研究进展情况,并提供交换研究信息的论 坛。从1 9 9 8 年到2 0 0 2 年,已经成功举办过5 次大规模的公开评测。 t d t1 9 9 8 是话题检测与跟踪技术的首次公开评测,共有1 l 家研究单位参与,设立了 三项评测任务:对新闻报道的切分、话题跟踪与话题检测。从这次评测开始,一种将漏 2 大连理 :大学硕士学位论文 报率与误报率结合起来的新指标一错误检测代价开始作为主要的评测指标。除了原有的 英语外,t d t1 9 9 8 还引入了汉语( 普通话) 。t i ) t1 9 9 8 评测表明,话题跟踪与报道切 分的性能相当好,已经可以用于某些实际应用中。 美国国家标准技术研究所从1 9 9 9 年开始主持t d t 系列评测,共有1 1 家单位参加了 t d t1 9 9 9 的评测。除了原有的三项评测任务,t d t1 9 9 9 新增了两项任务:首次报道检 测和报道关系检测。 从2 0 0 0 年开始,话题检测与跟踪研究由原来的“广播新闻理解计划”归属到著名的 “跨语言信息检测、抽取及摘要计划”( t d e s ) 中。 最近的几次评测与t d t1 9 9 9 一样,仍然包含五项任务。不过选择了两项子任务作为 评测的重点:报道关系检测和话题跟踪。分别有9 家单位参加了t d t2 0 0 0 和t d t2 0 0 1 的 评测。在t d t 2 0 0 2 中又引入了一种新的评测语言一阿拉伯语。 t d t 系列评测过程中共建立了四个可用于话题检测与跟踪研究的语料库:1 i ) t _ 1 或 t d t - p i l o t 用于t d t1 9 9 7 的评测;t d t - 2 用于1 i ) t1 9 9 8 的评测;t d t - 3 用于t d t1 9 9 9 、 2 0 0 0 及2 0 0 1 的评测:t d t - 4 用于t d t2 0 0 2 的评测。其中,语料t d t - 3 被用于3 次评测 中,但每次测试的话题是不同的。这些语料可以通过语言数据联盟( l d c ) 购买得到。 通常,先前开发的语料在某次评测中被用做训练语料,而新标注的语料胖f 测试。 。从研究问题的提出到t d t 系列评测,我们能够强烈地感觉到这项研究背后巨大的 推动力量一应用。t d t 系列评测一直试图模拟真实的应用环境,在评测中包含大量话 题( 上百个) 、多语言文本和多种来源的质量参差不齐的文本( 比如,a s r 系统的错误 率高达2 5 4 0 ) 。另外,t d t 系列评测特别强调集成测试,将多种自然语言处理技术 的研究成果( 如信息检索、机器翻译、语音检测等) 放在实际的应用背景下进行测试。 显然,t d t 研究在努力将自然语言处理研究的现有成果用于满足人们信息处理的实际需 要。 1 2 话题检测与跟踪常用的技术手段 目前,话题检测与跟踪研究集中于五个子任务展开,各个子任务的解决将有助于最 终研究目标的实现。这五个子任务包括 2 3 】: 对新闻报道的切分( s t o r ys e g m e n t a t i o n ) :将连续的广播、电视新闻节目的语音或 文字记录分割为不同的报道; 新事件的检测( n e w e v e n t d e t e c t i o n ) :即在新闻报道信息流中检测出对一个新话题 的首次报道: 报道关系检测( s t o r yl i n kd e t e c t i o n ) :判断两个随机选择的新闻报道是否讨论同一 3 基于知网盼话题跟踪和倾向性跟踪研究 个话题; 话题检测( t o p i c d e t e c t i o n ) :检测出系统未知的话题,并将相关报道也检测出来; 话题跟踪( t o p i ct r a c k i n g ) :给出某话题的一则或多则报道,把后输入进来的相关 报道和该话题联系起来。 对新闻报道的切分是指将从一个信息源获得的语吉信息流分割为不同的新闻报道。 由于从新闻专线获得的文本信息流本身就是以单个报道出现的,所以这一任务只适用于 对来自广播、电视等媒体的音频数据的处理。一段新l 司节目通常包含很多条报道,但是 这些节目本身很少在不同的新闻报道间设置明显的分隔标记。比如,商业广告就很可能 出现在某篇报道的中间。要切分的语料或数据可以是音频记录本身,也可以是由人工或 通过自动语音检测( a s r ,a u t o m a f i cs p e e c hr e c o g n i t i o n ) 从音频记录得到的文字记录。 报道切分是其他四项任务的预处理,也就是说,其他任务都是在报道切分的基础上 进行的,它们需要以文本形式的报道流作为输入。有关报道切分对其他任务的影响的研 究表明,它对跟踪任务影响较小,但对各种检测任务影响很大。报道切分系统的性能依 赖于源数据的形式以及做出决策允许的最大延迟时间。对这一任务的处理,一个比较成 功的做法是使用最大熵和决策树混合的模型,利用各种与信息源相关的特征,如语速 ( 电视播音员在新闻报道的开始语速要快些) ,句子的长度( 长旬多出现在新闻报道的 丌始) ,在节目中的位置( 可能知道商业广告会出现在某个可预测的时间段内) ,以及 字或词的n 元文法。另外,贝叶斯分类器,各种词汇线索( 如前后边界触发词) ,停顿 间隔,以及变化的能量级别等方法或信息,也被许多系统采用或利用 4 。 新事件检钡4 任务的目标是检测出以前没有讨论过的新闻话题的出现,比如一次炸弹 爆炸、火山喷发、某个政治丑闻等等。这项任务也被看作是对一个话题检测系统的透明 测试,因为判断每个报道是否讨论了一个新话题是一个话题检测系统的基础。目前,在 新事件检测任务中采用的典型方法是:用以向量或概率分布形式表示的特征集合代表每 篇报道,每遇到新来的报道,就将其特征集合与过去所有报道的特征集合进行比较,据 此判断该报道是否描述了一个新的话题。l a m e sa l l a n 等人认为采用这种基于文本相似性 比较的简单方法已经不能指望通过简单的参数调整来提高系统的性能,必须要探索其他 完全不同的方法 5 1 。 在报道关系检测任务中,系统对给定的两篇新闻报道做出判断,即它们是否讨论同 一个话题。这项技术是其他几项任务的一个重要的核心技术。一个好的关系检测系统也 可用于解决话题跟踪、检测以及对新发生事件的检测等问题。与其他任务相比,尽管这 一任务没有直接的应用目标,但由于绝大多数) t 方法依赖某种相似性判定函数,对报 4 大连理工大学硕士学位论文 道关系检测任务的评价至少可以使对这些不同相似性判定函数的评价成为可能。目前, 对这一任务的研究并没有受到应有的重视,这可能主要因为它的应用目标尚不明确。 目前,最成功的报道关系检测系统使用一个余弦相似性计算函数,并用到以下一些资源 或技术:停用词,词二f 分析,二元术语向量,增量修订t f * i d f 的取值,以及基于时间 的罚分策略( 即如果两篇报道出现的时i 创间隔越大,那么它们描述同一话题的可能性就 越小) 。 话题检测意在将输入的新闻报道归入不同的话题簇,并在需要的时候建立新的话题 簇。从本质上看,这项研究等同于无指导的( 系统无法预先知道该有多少话题簇、什么 时候建立这些话题簇) 聚类研究,但只允许有限的向前看。通常的聚类可看作是基于全 局信息的聚类,即在整个数掘集合上进行聚类,但话题检测中用到的聚类是以增量方式 进行的。这意味着,在做出最终的决策前,不能或只能向前面看有限数量的文本或报 道。话题检测作为一种增量聚类,可以划分为两个阶段:检测出新事件的出现;将描写 先前遇到的话题的报道归入相应的话题簇。显然,第一个阶段就是对新发生事件的检 测一话题检测任务是对新事件检测任务的一个自然的扩展。但是。这两项任务的区别也 是很明显的:前者关心将谈论某个话题的所有新闻报道归入一个话题簇,如果仅仅不能 t e 确检测出对某个话题的首次报道,问题并不严重;后者则正好相反,它只关心系统能 否将引出某个话题的第一篇报道检测出来。 话题检测可以看作是一种按事件的聚类,研究者常采用的算法有:增量k - m e a n s 聚 类、a g g l o m e r a t i v e 聚类、单遍聚类等【6 】。i b m 公司开发的一个相对比较成功的话题检 测系统采用了- - 0 0 两层聚类策略,使用对称的o k a p i 公式来比较两篇报道的相似性。该 系统首先将报道暂时归入不同的小话题簇,然后在有限的延迟时间后再将其归入最终的 话题簇。 话题跟踪就是要检测出关于某个已知话题的新闻报道,通常要事先给出一个或几个 已知的、关于该话题的新闻报道。这项研究类似于信息检索领域基于例子的查询以及信 息过滤研究。在话题跟踪中已知的训练正例非常非常少,并且与某个话题相关的报道常 常集中出现在特定的时间段内。话题跟踪系统的性能受到以下一些因素的影响:训练用 新闻报道的数量,训练及测试语料使用的语言,文字记录的质量,即是由人工转录的还 是由自动语音检测系统得到的。有多种不同方法在这项研究中被尝试使用,如r o e e h i o 分类方法、决策树方法、基于h m m 的语言模型等等,其中比较成功的是k 最近邻居 方法或多种方法的组合 7 。 5 一 基丁知网的i 毳匦口r 踪车| 倾向性跟踪研冤 1 _ 3 话题检测与跟踪的发展前景 t d t 是一项综合的技术,需要比较多的自然语言处理理论和技术作为支撑,涉及 到计算语言学、机器学习、信息科学和人工智能学等很多领域的相关技术,其核心是自 然语言理解技术。 作为一个直接面向应用的研究方向,话题检测与跟踪旨在研究自然语言信息流中基 于事件的信息组织问题。当前话题检测与跟踪的研究主要还是基于传统的统计方法,这 些方法在文本分类、信息检索、信息过滤等领域得到广泛的应用。将来的发展应主要关 注话题本身的特性,如面向话题、基于时间等,这也决定了仅仅利用现有信息检索方法 对进一步提升t d t 系统的性能是有限的,要想突破必须要借助更多的自然语言理解技 术。同时应考虑多种方法的综合运用,综合使用多种相对成熟的方法,从长期看来在实 际应用中可能效果最佳,这也是将来的一个研究发展方向。 t d t 的发展和实际应用息息相关,在国家信息安全、企业市场调查、个人信息定 制等方面都存在着实际需求。随着现有系统性能的不断提高,t d t 在各个领域必将得到 越来越广泛地应用。 同时,大规模内容计算除了针对传统的向量空间模型和链接结构外,也可以选择话 题一线索结构作为一种计算对象,即话题发现与跟踪。话题发现与跟踪在商业上可以发 展成一种嵌在搜索引擎中的崭新的信息服务模式,就是说以话题一线索结构为依托向用 户进行有针对性的推送。要做到精确的推送,必须有精确的话题发现与跟踪能力。目前 的技术做到全自动的发现跟踪还是有相当难度的 8 】。 1 4 课题涉及的主要研究内容 本课题的目的是对话题检测与跟踪中的话题跟踪这个子任务的研究进行深入的了 解,掌握国际和国内话题跟踪研究的新动态,在总结前人工作的基础上,设计和实现一 个面向战争领域的话题跟踪和报道立场倾向性跟踪系统模型。 本文主要讨论了与话题跟踪技术相关的内容。介绍了实现话题跟踪需要解决的闯 题,进一步引入了信息检索技术。然后针对跟踪任务中话题本身的特点,本文讨论了结 台权重调整、事件框架和报道扩充等多种策略来提高话题跟踪系统的性能。通过分析发 现,事件文档的标题、首段一般都言简意赅、直接揭示事件的核心内容。因此标题、首 段的特征显得更重要。同时考虑到话题的描述更强调事件发生的地点、事件发生的时 间、事件发生的对象,所以人名、地点名词以及机构名词等这些特征词可以表示具体的 事件。基于以上认识,系统对于特征项的权重进行了调整。同时本文利用框架这种知识 - 6 - 大连理t 1 火学硕+ 学位论文 表示的方法对事件的不同侧面进行表达,通过对事件的不同描述侧面抽取敏感词,构成 一种分类体系,尝试在建立完整的事件框架体系的基础上,对事件的相关文档进行预 测。此外,针对跟踪任务中己知的训练正例非常少的这个难点,本文提出了报道扩充的 方法。更进一步的研究在于,本文对报道立场倾向性进行了信息组织,基于知网中的情 感体系和动态角色框架,提出了如何填充框架并结合建立的立场概念库对话题进行了报 道立场跟踪。由于引入了知网这个语义资源,从语义这个层面对信息进行了组织。 1 5 论文的组织 全文分五章阐述了面向战争领域的话题跟踪和倾向性分类系统模型的设计与实现: 第一章介绍了课题研究背景和话题检测与跟踪的发展史,并阐述了话题检测与跟踪 研究常用的技术手段及发展前景。之后说明了本课题的主要研究内容。 第二章介绍了话题跟踪研究需要解决的问题,包括话题与报道的模型化、话题与报 道相似度的计算、聚类分类策略等。进一步引入了信息检索技术,并对其进行了详细的 阐述和说明。 第三章对倾向性跟踪研究中使用的语义资源知网进行了详细的介绍,包括知识词 典中的概念定义、事件类、情感类、中文信息结构库以及基于知网的应用等等。 第四章是系统的设计和实现,包括系统的设计目标、设计思想和体系结构,并详细 地介绍了系统的三个功能模块:构造话题模型和跟踪文档表征模块、相关文档检索模 块、报道立场倾向性跟踪模块。 第五章为结束语,总结了课题的一些工作,并对系统的不足和下一步应该进行的改 进工作做了阐述。 7 基于知网的话题跟踪和倾向性跟踪研究 2 实现话题跟踪需要思考的问题 2 1 基本概念及解决问题思路 常用的话题跟踪系统流程如图2 1 所示。 图2 1 话题跟踪的系统流程图 f i g 2 1g e n e r i c a r c h i t e c t u r ef o r t o p i et r a c k i n gs y s t e m 话题( t o p i c ) 是话题检测与跟踪研究中的一个最基本的概念,它的含义与语言学 上使用的概念不同。在最初的研究阶段( 1 9 9 9 年前) ,话题与事件含义相同。一个话 题指由某些原因、条件引起,发生在特定时间、地点,并可能伴随某些必然结果的个 事件 1 。在目前使用的话题概念要相对宽泛一些,它包括一个核心事件或活动以及所有 与之直接相关的事件和活动( at o p i ci sd e f i n e dt ob eas e m i n a le v e n to ra c t i v i t y a l o n gw i t h a l ld i r e c t l yr e l a t e de v e n t sa n da c t i v i t i e s ) 3 ,而一个事件通常由某些原因、条件引起,发 生在特定时间、地点,涉及某些对象,并可能伴随某些必然结果,可以简单地认为话题 就是若干对某事件相关报道的集合。如果一篇报道讨论了与某个话题的核心事件直接相 关的事件或活动,那么就认为该报道与此话题相关。比如,搜寻飞机失事的幸存者、安 葬死难者等都被看作与某次飞机失事事件直接相关。 在上面的叙述中使用了报道( s t o r y ) 这一概念,在话题检测与跟踪领域,它是指一 个与话题紧密相关的、包含两个或多个独立陈述某个事件的子句的新闻片断( at o p i c a l l y c o h e s i v es e g m e n to fn e w st h a ti n c l u d e st w oo rm o r ed e c l a r a t i v ei n d e p e n d e n tc l a u s e sa b o u ta 8 。 大连理:i :大学硕士学位论文 s i n g l ee v e n t ) 3 】。与话题相应的一个概念是主题( s u b j e c t ) ,它的含义更广些。话题与 某个具体事件相关,而主题可以涵盖多个类似的具体事件或者根本不涉及任何具体事 件。如,“飞机失事”是一个主题,而“2 0 0 2 年5 月7 日北方航空公司一架客机在大 连失事”则是一个话题。 话题跟踪任务是给出某话题的一则或多则报道,通常我们把这个种子报道的数目称 为,把后输入进来的相关报道和该话题联系起来。由话题跟踪的定义可以知道它实 际上包括两步,首先给出一组种子报道,训练得到话题模型,然后在后续报道中找出所 有讨论目标话题的报道。使用信息检索的方法来实现话题跟踪,则可以描述为以下几 步: ( 1 ) 从v ,个种子报道中构造钊埘当6 u 话题的跟踪查询项; ( 2 ) 将报道文档流中的新文档与跟踪查询项进行比较: ( 3 ) 如果相似则在跟踪该事件过程中做出相关性标识; ( 4 ) 按照话题一线索模式组织并输出与话题相关的报道。 据r 踪查询项可以由定义事件的j 个报道中选取的一组事件描述特征词组成,即在事 件跟踪的上下文中,被跟踪的事件描述特征词可以被认为是检索特征项。这样,问题就 变为计算一个给定报道和被跟踪的事件描述符的相似度问题。在实际情况下,我们使用 t h r b s h o l d i n gc o n s t a n t ( t c ) 来决定是否跟踪一个事件,相应的公式调整为 s = s i m ( e v e n t d e s c ,s t o r y ,) a n d 矿s t c + t h r e s h o m t h e n s t o r y j t r a c k se v e n t t 2 2 信息检索技术 我们在这一节里介绍一下信息检索的相关知识。我们知道,计算机并不具有人类的 智能,所以将一篇文章提交给它之后,它不能像人类那样在阅读文章之后,能根据自身 的理解对文章有所认识。确切地既,计算机只能检测出二进制代码0 和1 ,要想让计 算机检测文章,必须将文章转换成计算机所能检测的形式。信息检索( i n f o r m a t i o n r e t r i e v a l ) 是- - f - 研究从一定规模的文档库( d o c u m e n tc o n e z t i o n ) 中找出满足用户提出 的需求( u s e ri n f o r m a t i o nn e e d ) 的信息的学问。和数据库检索不同的是,一方面,i r 处理 的主要数据往往是无结构( u n s t r u c t u r e d ) 或者半结构i 拘( s e m i s t r u c t u r e d ) ,最典型的例子如 没有任何结构的文章或者有t a g 标记的h t m l 文档;另一方面,r 的检索结果也往往是 不精确的,而不像数据库查询那样正确率一定是1 0 0 。比如,查关于“伊拉克战争” 的文章,可能会漏掉有关“巴格达”或者其它城市的战斗。因此,服系统有可以相比 9 基于知网的话题跟踪和倾向性跟踪研究 较的性能评价指标。 信息检索起源于图书情报的查询,一开始处理的文档数目和规模极其有限,随着硬 件处理能力的提高、大规模数据以及w w w 的出现,取技术也日益发展。从处理对象 的格式来说,现代i r 不仅处理单纯的文本格式数据( t e x t ) ,而且处理包括图像、图形、 音频、视频在内的各种载体格式,甚至w e b 这种复杂的载体。从处理的技术来说,包 括自然语言处理( n ”) 、人工智能、模式检测、机器学习、神经网络、数理统计、运筹 学等等学科和科目在内的技术纷纷被应用于现代m 。从应用来说,i r 技术不仅可以用 于搜索引擎、信息代理等一些传统的信息应用,还可以用于话题跟踪、内容安全、生物 信息学等多种应用。从概念或者名词来说,最近些年来出现了w e b 挖掘( w e b m i n i n g ) 、知识挖掘( k n o w l e d g em i n i n g ) 、知识发现( k n o w l e d g ed i s c o v e r y ) 、内容管理 ( c o n t e n tm a n a g e m e n t ) 、内容计算( c o n t e n tc o m p u t i n g ) 等等新名词、新学科,有些其实就 是珉,有些可能学科渊源或者处理内容有所不同,但是i r 技术是这些名词的主要内 容,或者说这些都是传统瓜的拓展,是现代瓜的内容。 传统的文本检索根据权重函数的不同表示方法,有三种数学模型:布尔模型、概率 模型和向量空间模型。 ( 1 ) 布尔模型 即权重函数w e i g h t 为布尔函数: = 耽泓( 剐= f : i fk ,o c c u r r i n gi nd , e l s e ( 2 1 ) 查询由特征项和逻辑运算符“a n d ”、“o r ”和“n o t ”组成,文本与查询的匹 配规则遵循布尔运算的法则: 删相) = 恐删,2 ( 2 2 ) 布尔模型的主要优点是简单、速度快,易于表达定程度的结构化信息。 其缺点是;没有反映词频夕叼( f ,) = k 在d ,中出现次数,把布尔模型作为文本 的表示很不精确,不能反映特征项对于文本的重要性,缺乏定量的分析;而且表示过于 严格,缺乏灵活性,不支持部分匹配,更谈不上模糊匹配,使查全率大大下降。 ( 2 ) 向量空间模型 1 0 人连理一j :大学硕士学位论文 向量空间模型的出现弥补了布尔向量的不足。目前很多文本检索系统中,文本的表 示主要采用g s a n o n 的向量空间模型( v s m ) 。向量空间模型的基本思想是用向量来表 示文本:,其中彬为第i 个特征项的权重,那么怎样提取特征项昵? , 一般可以选择字、词或词组,实验结果表明,提取词作为特征项要优于字和词组,因 此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量: 的维数来表示文本。有关特征项的提取在后面的章节中还会有详细的介绍。这里就不再 赘述。 提取特征项之后,构成特征项的集合:t e r m s = k ,i 1 n ; 文本向量表示为:d ,= 磁,; 其中,= w e i g h t ( k j ) = f r e q ( i , ,) i 1 竹表示第f 个词在文本,中的权 重。 向量空间模型把文本表示成维欧氏空间的向量,如前所示:力= ,; 查询也表示成向量的形式:q = 彤,阮。;用它们之间的夹角余弦作为相似性的 度量。 s i m ( q ,d ,) = ( 2 3 ) 自从g 。s a l t o n 等人成功地把其应用到s m a r t 系统之后,陔模型及其相关技术在文 本检索领域得到了广泛的应用。向量空f 刚模型的优点是将具有复杂语义的非结构化文本 通过选择文本的特征项转化为便于数学处理的向量形式,从而把检索操作变成了向量空 间上的向量运算,通过简单的频数统计计算权重,再进行定量的分析,匹配文本和查 询,使文本检索简单而快捷。在这个基础上,运用严谨成熟的数学工具和各种成熟的统 计方法,更有效她分析文本中词汇、语法、语义等信息。 向量空间模型的缺点在于特征项之间线性无关的假设,但是由于自然语言的特点, 词汇和短语具有十分密切的联系,即存在“斜交”现象,很难满足假定条件,同时,也 对计算结果的可靠性造成一定的影响。此外,将复杂的语义关系归结为简单的向量结 构,也会丢失许多有价值的信息。另外,这种基于特征项匹配的查询也会导致同义和多 义现象。所谓词的同义现象是指对于同一个事物,不同的人会根据个人的需要、所处的 环境、知识水平以及语言习惯有着不同的表达方式,因此所采用的词汇也有很大的不 ,矿一怡 嘭一阿 ,ll十、 基于知网的话题跟踪和倾向性跟踪研究 同。而词的多义现象是指虽然用户查询中的词汇与文本索引项相同,但两者却不相关, 原因在于词的歧义。同义和多义现象的存在导致和文本检索查全率和查准率的下降。 ( 3 ) 概率模型 向量空间模型只能表达用户感兴趣的主题词,不能很好地区别用户兴趣之间的差 异,概率模型能更好地表达用户的趣和变化。 概率模型能很好地解决文本检索中信息的相关判断的不确定性和查询信息表示的模 糊性问题。文本检索的概率模型基于概率排序原则:对于给定的用户查询q ,对所有文 本计算概率从大n 4 , 进行排序,概率公式为:e ( rid ,q ) 。其中,r 表示文本d 与用户 查询q 相关。另外,用r7 表示文本d 与用户查询不相关,有 p ( rld ,q ) + p ( r 7 id ,q ) = 1 ,也就是用二值形式判断相关性。 把文本用特征向量表示:d ,= x x 2 ,f ,其中n 为特征项的个数,x f 为0 或1 ,分别表示特征项i 在文本,中出现或不出现。上面介绍的概率相关模型对所处理 的文本集依赖过强,而且处理问题也过于简单。 2 3 话题报道模型 对于话题跟踪任务,要判断某个报道是否和话题相关,首先需要解决用什么模型表 示它们的问题。不论是话题还是报道的文本,都要表示成计算机所能检测的形式,目前 常用的模型有语言模型( l f l n g u a g em o d e l ,l m ) 和向量空间模型( v e c t o rs p a c em o d e l , v s m ) 。本文采用了向量空间模型来表示话题 证道。 ( 1 ) 语言模型 语言模型是一种概率模型。假设报道中出现的词万各不相关,则某则报道d 和话题 7 1 相关的概率: 即l a ) = 警叫d 耳等 、 p ( d )1p f 叮1 ( 2 4 ) 其中p ( r ) 是任何一则新报道和话题r 相关的先验概率,p 洄ir ) 表示词万在某话题 丁中的生成概率,p ( 甜) 是词口在整个语料库中的分布。因为话题语言模型很稀疏,需 要解决未见词的。概率问题,通常采用线性插值五尸向l r ) + ( 1 一 ) ,洄) 把背景语言模 型加入进去,为了减少跟踪代价,一些跟踪系统中把系数丑取值为0 2 5 1 9 。 ( 2 ) 空闻向量模型 一1 2 大连理工大学硕士学位论文 空间向量模型是目前最简便高效的文本表示模型之一。为了把文本表示成向量形 式,首先要做的就是进行特征项提取,把文本表示成项的集合,然后根据项的权重把文 本表示成向量。在向量空间模型中,文档集合d 中的每一个文档d 都被表示为一个范化 的矢i v , ( d ) = ( f ,w ,( d ) ;f ,w ,( d ) ;以,( d ) ) ,其中t ,是从文档d 中选出的特征项, ( d ) 为t 在文档d 中的权重,为特征项f ,在文档d 中出现频率t f , 的函数,计算公式如 下: i 识1 0 9 i 二 w ( d ) :亍一一= := 竺量: ( 2 5 ) j 喜( 舯0 9 2i 等i 其中,斫表示关键词在文档d 中出现的频率;n 表示用于特征提取的全部训练文 本的文档总数;n t , 表示出现关键词t 的文档频率。因此( w 1 ( d ) ,w 2 ( d ) ,( d ) ) 被看成是 维空间中的一个向量 1 0 】。 ( 3 ) 中心向量模型 中心向量模型实际是向量空间模型的一种变形。每个话题用一个中心向量表示,所 谓中心向量就是在此类中所有报道的向量表示的平均值。输入的报道和每个话题的中心 向量相比较,选择最相似的那个话题。 2 4 相似度计算 ( 1 ) 对于语言模型而言,报道d 和话题7 1 的相似度值可以用下面的公式来计算 1 1 : 删妒) = 击荟舾棚l o g 坐号筹堕型 u dw do , ( 2 6 ) 其中的p ( w lr ) 是通过最大似然估计算法计算得到的词甜在给定话题r 中的概率, 尸( 玎) 是词珂在整个语料库中的分布,矿( 万,d ) 是报道d 中的特征词刃的词频数,厶是 报道的长度。 通常用语言模型算出的话题与话题之间的相似度不可比较,因为单个语言模型都由 各自不同的概率特征,这样测试文档和不同话题之间算出的分数差异很大,不能用单一 的阈值进行比较,必须进行归一化。考虑到用上面的s i m 佩刁算出的值基本上视一组独 立的随机离散变量值,如果值足够多的话,由中心极限理论,其分布近似为高斯分布, 1 3 基于知网的瑗题跟踪雨h 顷向性跟踪研究 假设 为原来的概率,为所有报道对某话题概率的平均值,d 是这些概率的标准方差, 则新的分值可以归一化为r - - - - ( r w ) 矗。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论