(计算机应用技术专业论文)面向话题追踪的特征选取与文本表示技术的研究.pdf_第1页
(计算机应用技术专业论文)面向话题追踪的特征选取与文本表示技术的研究.pdf_第2页
(计算机应用技术专业论文)面向话题追踪的特征选取与文本表示技术的研究.pdf_第3页
(计算机应用技术专业论文)面向话题追踪的特征选取与文本表示技术的研究.pdf_第4页
(计算机应用技术专业论文)面向话题追踪的特征选取与文本表示技术的研究.pdf_第5页
已阅读5页,还剩91页未读 继续免费阅读

(计算机应用技术专业论文)面向话题追踪的特征选取与文本表示技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学硕士学位论文摘要 面向话题追踪的特征选取与文本表示技术的研究 摘要 随着互联网的出现和普及,为人们提供的信息急剧膨胀。在这种情况下, 人 们很难快捷准确地获取自己 感兴趣的信息。而且与一个话题相关的信息往往孤立 地分散在不同的时间段和不同的地方。仅仅使用现有的技术,人们对某些事件难 以 做到全面的 把握。 话题检测与追踪 ( t o p i c d e t e c t i o n a n d t r a c k i n g , t d t ) 技 术正是为了满足这种需要,它研究如何检测新发生的事件并追踪事件后继发展动 态的信息智能获取技术。它能帮助人们把分散的信息有效地汇集并组织起来,从 整体上了解一个事件的全部细节以 及该事件与其它事件之间的相关性。话题追踪 是 t d t的一个子任务,它的目 的是监控新闻故事流识别出与预先给定几个新闻故 事表述的话题相关的后继故事。 本文根据话题追踪任务的特点,研究了面向话题追踪的特征选取和文本表示 技术。本文研究了不同 层次上的特征选取方法。提出了词对和词簇两种特征表示 方法。话题追踪的很多研究工作都是使用 “ b a g o f w o r d s ” 来表示文本。 本文考 虑了词性信息,提出了词对作为特征的表示方法 ( b o p ),并采用了一元语法模型 和向量空间模型进行话题追踪。 本文选用t d t 3语料作为测试语料, 实验结果表明, 使用本文选用的追踪系统,用词对作为文本特征不能够提高话题追踪的性能。本 文还引入了k - m e a n s 聚类技术,将词簇做为表示文本的特征 ( b o o 。实验结果表 明,使用词簇做为文本特征,能够大大降低特征维数,很大程度上提高了追踪系 统的效率。 通过对故事的观察, 本文提出了 双向 量模型。使用命名实体识别技术,将文 本表示成两个向量。在对故事进行追踪时,将对应的两个向 量分别计算相似度, 再将两相似度加权求和得到最终的打分, 追踪系统根据该打分做出判断。为了更 好 的 去 除 噪 着 数 据犷 本 文 不 但 采 用了 禁 用 词 表, 还 构 造了 禁 用 词 性 集 合, 用 来 去 除噪音数据。本文选用t d t 4 语料作为测试语料,实验结果显示双向量模型能够提 高话题追踪的性能; 使用禁用词性集合对话题追踪系统的性能也有较大提高。 本文采用向量空间模型和一元语法模型来构造追踪系统。 通过实验分析了影 响 中 文 话 题 追 踪性能 的2 个因 素; 平 滑 参 数 和 特 征 数目 。 本 文 选 用t d t 3 和t d t 4 语料作为测试语料,实验结果显示选取适当的特征数目、使用好的分词技术、使 东北大学硕士学位论文 用命名实体识别技术都能改进中文话题追踪系统的性能。 关键词话题追踪 词对 词簇 双向量模型 禁用词性集合 一 i 仆 东北大学硕士学位论文 ab s t r a c t s t u d y o n f e a t u r e e x t r a c t i o n a n d t e c h n o l o g y i n t o p i c t e x t r e p r e s e n t a t i o n t r a c k i n g ab s t r a c t wi t h t h e a p p e a r a n c e a n d p o p u l a r iz a t i o n o f t h e i n t e rn e t , t h e a m o u n t o f i n f o r m a t i o n a v a i l a b l e g r o w s e x p l o s iv e l y . u n d e r t h i s c i r c u m s t a n c e , p e o p l e c a n h a r d l y g e t i n f o r m a t i o n t h a t t h e y a r e i n t e r e s t e d i n q u i c k l y a n d c o r r e c t l y . mo r e o v e r , i n f o r m a t i o n t h a t i s r e l e v a n t t o a t o p i c a l w a y s s p r e a d s s e p a r a t e l y i n d i ff e r e n t t i m e a n d d i ff e r e n t p l a c e . w e c a n t u n d e r s t a n d s o m e e v e n t s r o u n d l y w h i l e u s i n g r e s e n t t e c h n o l o g y . t h e t o p i c d e t e c t io n a n d t r a c k in g t e c h n o l o g y i s j u s t t o m e e t t h i s n e e d . t h e i n i t i a l m o t i v a t i o n f o r r e s e a r c h i n t d t i s t o p r o v i d e a c o r e t e c h n o l o g y f o r a n e n v i s i o n e d s y s t e m t h a t w o u l d m o n i t o r b r o a d c a s t n e w s a n d a le rt a n a n a l y s t t o n e w a n d t r a c k i n g i s a s u b t a s k o f t d t . i t a i m s i n t e r e s t i n g e v e n t s h a p p e n i n g in t h e w o r l d . t o p i c a t m o n i t o r i n g t h e s t r e a m o f n e w s s t o r i e s t o f i n d a d d i t i o n a l s t o r i e s o n a t o p i c t h a t i s i d e n t i f i e d u s i n g s e v e r a l s a m p l e s t o r ie s . a c c o r d i n g t o t h e c h a r a c t e r i s t i c o f t o p i c t r a c k i n g t a s k , w e e x t r a c t i o n a n d t e x t r e p r e s e n t a t i o n t e c h n o l o g y i n i t . w e s t u d y f e a t u r e s t u d y t h e n me t h o d s fr o m d i ff e r e n t l e v e l s . we p r e s e n t t w o f e a t u r e e x t r a c t i o n m e t h o d s : w o r d p a i r s a n d w o r d c l u s t e r s . i n wo r d s . i n m o s t o f t h e r e s e a r c h o n t o p i c t r a c k i n g , t e x t s a r e r e p r e s e n t e d i n t h i s p a p e r , b a g o f w e t o o k p a r t o f s p e e c h i n c o n s i d e r a t i o n , a n d p r o p o s e d a r e p r e s e n t a t i o n m e t h o d o f u s i n g w o r d p a ir s a s f e a t u r e s 毋o p ) . w e u s e d a n d v e c t o r s p a c e m o d e l t o p e r f o r m t o p i c t r a c k i n g . i n t h i s p a p e r w e u n i g r a m m o d e l t e s t i n g c o r p u s . e x p e r i m e n t a l r e s u l t s s h o w t h a t i n t h e t r a c k i u s e t d t 3 c o r p u s a s w o r d p a i r s a s t e x t f e a t u r e s c a n n o t k - m e a n s c l u s t e r in g t e c h n i q u e i n t h i s n g s y s t e m w e s e l e c t e d , u s i n g i m p r o v e t h e p e r f o r m a n c e . we a l s o i n t r o d u c e d p a p e r , a n d u s e d w o r d c l u s t e r s a s t e x t f e a t u r e s ( b o c ) . e x p e r i m e n t a l r e s u l t s s h o w t h a t u s i n g w o r d c l u s t e r s a s t e x t f e a t u r e s c a n 1 r e d u c e f e a t u r e d i me n s i o n , t h u s t h r o u g h o b s e r v a t i o n o n g r e a t l y i m p r o v e d t h e e ffic i e n c y o f t r a c k i n g s y s t e m . a r g e l y r e p r e s e n t e d w i t h t w o v e c t o r s s t o r i e s , w e c o m p u t e s i m i l a r s t o r i e s , w e p r o p o s e d d o u b l e - v e c t o r m o d e l . t e x t i s u s i n g n a m e d e n t i t y r e c o g n i t i o n t e c h n o l o g y . t i e s o f e a c h v e c t o r , a n d a c q u i r e t h e f i n a l wh i l e t r a c k i n g i v 东北大学硕士学位论文 ab s t r a c t i n t h i s p a p e r w e u s e v e c t o r s p a c e m o d e l a n d u n i g r a m m o d e l t o c o n s t r u c t t r a c k i n g s y s t e m . w e a n a l y z e d t h e t w o f a c t o r s t h a t a ff e c t c h in e s e t o p ic t r a c k i n g p e r f o r m a n c e : s m o o t h i n g p a r a m e t e r a n d f e a t u r e n u m b e r . w e c h o o s e t d t 3 a n d t d t 4 c o r p u s a s t e s t i n g c o r p u s . e x p e r i m e n t a l r e s u l t s s h o w t h a t p r o p e r f e a t u r e n u m b e r , g o o d w o r d s e g m e n t a t i o n t e c h n i q u e a n d n a m e d e n t ity r e c o g n i t i o n t e c h n o l o g y a l l h e l p t o i m p r o v e t h e p e r f o r m a n c e o f c h i n e s e t o p i c t r a c k i n g s y s t e m. k e y w o r d s t o p i cw o r d p a i r , w o r d c l u s t e r , d o u b l e - v e c t o r m o d e l , s t o p p a r t o f s p e e c h s e t v 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取 得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或 撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确 的说明并表示谢意。 学位论文作者签名: 日期 : 多 户夕 , 必/ 之 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学 位论文的规定 复印件和磁盘 即学校有权保留并向国家有关部门或机构送交论文的 允许论文被查阅和借阅。本人授权东北大学可以将学 位论文的全部或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流, 请在下方签名; 否则视为不同意。 ) 学位论文作者签名瘫 秘昨 签字日期: ) - v v zi i-. 1 ,2 - 导 师 签 “ : * 4 - 签 字 日 期 : 脚 护 . / 又 东北大学硕士学位论文第一章 前言 第一章 前言 1 . 1 课题的背景 随着信息传播手段的进步,尤其是互联网的出 现,信息急剧膨胀。在这种情 况下,如何快捷准确地获取感兴趣的信息成为人们关注的焦点。目 前的各种信息 检索、过滤、提取技术都是围绕这个目 的展开的。由于网络信息量太大,与一个 事件话题相关的信息往往孤立地分散在不同的时间段和不同的地方。仅仅通过这 些孤立的 信息,人们对某些事件难以做到全面的把握。目 前传统基于关键词的检 索工具 ( 例如搜索引擎)返回的信息冗余度过高, 很多不相关的信息仅仅因为含 有指定的关键词就被作为结果返回了, 并且其中 相关信息并没有进行有效的组织, 只是简单罗列。因此人们迫切地希望拥有一种工具,能够自 动把与特定事件话题 相关的信息汇总组织供人查阅。在这种背景下,研究人员开始关注一种新的技术 一话题检测与追踪 ( t o p i c d e t e c t i o n a n d t r a c k i n g , t d t ) ,即研究如何检测新 发生的事件并追踪事件后继发展动态的信息智能获取技术。该技术能帮助人们把 分散的信息有效地汇集并组织起来,从整体上了 解一个事件的全部细节以及该事 件与其它 事件之间的 相关性it 。 t d t是一个研究主体和从事用事件组织广播新闻的评侧范例。 t d t 研究的初 期动机是提供一个核心技术,它能够支持预想的系统,该系统能够监控广播新闻 并对发生的新的和感兴趣的事件进行分析。 十二个理论和产业的研究机构对 t d t 已经进行了七年的研究工作。但当前还没有高效率的方法能够处理时时刻刻出 现 的大规模的信息。而且,没有一个系统能够监控报道事件的新闻胜于监控报道特 定的大话题的新闻。 话题追踪任务是 t d t技术的一个子任务,它可以 追踪话题的来龙去脉, 进行 历史性质的研究。 这在信息安全、 金融证券、行业调研等领域都有广阔的 应用前 景。 1 . 2 t d t 的发展历程 t d t 技术研究的最初想法起于 1 9 9 6 年, 当时美国国防高级研究计划署( d a r p a ) 根据自己的要求,提出要开发一种新技术,能在没有人工干预的情况下自 动判断 查! ! 查堂翌主堂堡丝查 整二兰j 堑三 1 1 课题的背景 第一章前言 随着信息传播手段的进步,尤其是互联网的出现,信息急剧膨胀。在这种情 况下,如何快捷准确地获取感兴趣的信息成为人们关注的焦点。目前的各种信息 检索、过滤、提取技术都是围绕这个目的展开的。由于网络信息量太大,与一个 事件话题相关的信息往往孤立地分散在不同的时间段和不同的地方。仅仅通过这 些孤立的信息,人们对某些事件难以做到全面的把握。目前传统基于关键词的检 索工具( 例如搜索引擎) 返回的信息冗余度过高,很多不相关的信息仅仅因为含 有指定的关键词就被作为结果返回了,并且其中相关信息并没有进行有效的组织, 只是简单罗列。因此人们迫切地希望拥有一种工具,能够自动把与特定事件话题 相关的信息汇总组织供人查阅。在这种背景下,研究人员开始关注一种新的技术 一话题检测与追踪( t o p i cd e t e c t i o na n dt r a c k i n g ,t d t ) ,即研究如何检测新 发生的事件并追踪事件后继发展动态的信息智能获取技术。该技术能帮助人们把 分散的信息有效地汇集并组织起来,从整体上了解一个事件的全部细节以及该事 件与其它事件之间的相关性“1 。 t d t 是一个研究主体和从事用事件组织广播新闻的评测范例。t d t 研究的初 期动机是提供一个核心技术,它能够支持预想的系统,该系统能够监控广播新闻 并对发生的新的和感兴趣的事件进行分析。十二个理论和产业的研究机构对t d t 已经进行了七年的研究工作。但当前还没有高效率的方法能够处理时时刻刻出现 的大规模的信息。而且,没有一个系统能够监控报道事件的新闻胜于监控报道特 定的大话题的新闻。 话题追踪任务是t d t 技术的一个子任务,它可以追踪话题的来龙去脉,进行 历史性质的研究。这在信息安全、金融证券、行业调研等领域都有广阔的应用前 景。 1 。2t d t 的发展历程 t d t 技术研究的最初想法起于1 9 9 6 年,当时美国国防高级研究计划署( 姒r p a ) 根据自己的要求,提出要开发一种新技术,能在没有人工干预的情况下自动判断 东北大学硕士学位论文 第一章前言 和识别新闻数据流的事件话题。t d t 的研究工作不同于传统的信息检索、信息抽取、 文档分类、信息管理和数据挖掘等文档管理技术,主要原因在于t d t 技术比较关 注识别新的事件话题和获取特定事件相关的数据。t d t 研究中对t o p i c 的定义描述 不同于传统的t o p i c 或s u b j e c t 定义描述。t d t 的t o p i c ( 本文称为事件话题或者 话题) 描述倾向于某一特定事件及其相关活动等描述。 t d t 项目开始于1 9 9 7 年,开始阶段主要发表了包括卡耐基一梅隆大学、马萨 诸塞大学、宾州大学等系统的研究报告,对这项技术进行初步研究,并做了一些 基础工作。t d t 的研究人员力求设计一种功能强大、通用、自动学习算法,能够识 别和获取人类语言数据的话题结构。这些算法独立于数据的来源、媒介、语种、 领域和具体应用。总体来说,t d t 的研究内容可以分为五个技术任务:i ) 将新闻 故事数据流分割成为多个故事( s t o r ys e g m e n t a t i o n ) ;2 ) 寻找属于特定事件话 题的所有故事( t r a c k i n g ) ;3 ) 发现新事件话题,并将同属于一个话题的所有故 事进行聚类( c l u s t e rd e t e c t i o n ) ;4 ) 发现与新事件话题相关的第一个出现的故 事( f i r s ts t o r yd e t e c t i o n ) :5 ) 确定两个故事涉及的内容是否属于同一个事件 话题( s t o r yl i n kd e t e c t i o n ) 。其中第四个技术f i r s ts t o r yd e t e c t i o n 是第三 个技术c l u s t e rd e t e c t i o n 的基础关键技术,第五个技术s t o r yl i n kd e t e c t i o n 相当于为第二、三和四个技术任务提供了一个基础关键技术。并且上述几个技术 可咀进行组合,完成一些功能更加强大的应用任务“。 从1 9 9 8 年开始,在d a r p a 发起支持下,美国国家标准技术研究所( n i s t ) 每 年举办t d t 评测。每次先在评测计划中公布当年的评测标准,经过一段时期的研 究,进行评测,最后工作组讨论评测结果和研究进展。到目前为止,总共进行了 六次t d t 评测,t d t 评测采用的语料是由语言数据联盟( l d c ) 提供的t d t 系列语 料,目前已公开的训练和测试语料包括t d tp i l o tc o r d u s 、t d t 2 , t d t 3 和t d t 4 , 这些语料都入工标注了若干事件话题作为标准答案。1 9 9 8 年,t d t 技术第一次公 开评测,有九个研究机构参加,主要有三项评测任务:故事分割、话题追踪和话 题检测。评测的目的是评定由自动语音识别产生的错误和训练样本数目对t d t 的 性能的影响。1 9 9 9 年秋季进行第二次t d t 评测,这次评测将1 9 9 8 年的三个任务扩 展到汉语语料中,另外增加两项新任务:新事件话题的首故事检测和相关检测, 这两个新任务只针对英语语料。评测的主要任务是提高包括新闻故事的分割、检 测和追踪所需要的信息的描述技术,该次评测加入了中文的语料。2 0 0 0 年进行第 三次评测,重点是多语言的话题检测与追踪。第四次评测在2 0 0 1 年举办,主要任 务是提高在多语言新闻数据流中同时进行的t d t 技术。在2 0 0 2 年举办第五次t d t 2 东北大学硕士学位论文 第一章前言 评测,阿拉伯语的语料填入到测试集,并提倡鼓励对文本过滤、机器翻译、语音 识别、文本分割等技术的研究。2 0 0 3 年进行第六次t 明评测。主要有下面几个任 务:首故事检测,相关检测,话题检测,话题追踪。2 0 0 4 年的t d t 评测与以往评 测有较大变化:故事分割任务不再进行评测;保留话题追踪任务、话题检测和相 关检测任务;增加了有监督的自适应话题追踪任务和层次话题检测任务。t d t 评测 越来越受到人们的重视。国内国外的很多著名的大学、公司和研究机构都参加了 该评测。国外的机构主要有:i b mw a t s o n 研究中心、b b n 公司、卡耐基一梅隆大 学、马萨诸塞大学、宾州大学、爱荷华州大学、马里兰大学等等。国内这方面的 研究开展的明显晚些,1 9 9 9 年国立台湾大学参加了t d t 话题检测任务的评测,2 0 0 0 年香港中文大学参加了t d t 某些子任务的评测。还有北京大学计算语言学研究所、 中科院计算所。“、哈工大、东北大学、复旦大学、微软亚洲研究院、清华大学等 一些国内有名的研究机构的n l p 研究人员也开始进行t d t 相关关键技术的研究, 是一个新兴的研究热点,但主要侧重于追踪国外最新理论和跟踪性研究,相关研 究成果报道不多。 1 3t d t 的基本任务 t d t 主要有5 项任务,故事分割( s t o r y _ s e g m e n t a t i o n ) 、话题追踪( t o p i c t r a c k i n g ) 、首故事检测( f i r s ts t o r yd e t e c t i o n ) 、话题检测( t o p i cd e t e c t i o n ) 、 相关检测( 1 i n kd e t e c t i o n ) 。t d t 2 0 0 4 评测中新增加了两个任务:有监督自适应 追踪( s u p e r v i s e da d a p t i r et r a c k i n g ) 和层次话题检测( h i r e a r c h i c a lt o p i c d e t e c t i o n ) 。 文本分割:将无边界的故事数据流分割成各个独立的故事。分割的性能主要依 赖于数据源的形式以及允许分割系统做出决策的最大时间。故事分割任务的目的 是表示新闻并自动的找到故事间的边界,这项工作可以直接在语音源的数据上进 行【s t o l c k ee ta 1 , 9 9 9 ,但是,几乎所有的研究都集中在如何使用节目的文 本进行分割或者语音识别器的输出。故事分割是t d t 其他4 个任务的先期准 备工作。也就是说其他任务的任何一个都是基于故事层的。 文本: 3 东北大学硕士学位论文 第一章前言 话题追踪任务:追踪系统的目的是追踪用户指定的感兴趣的事件的后继发展, 判断出与之相关的事件。用户指定几个关于该事件的故事,他们想知道这个事件 的后继发展,系统就用这些故事来学习出这个故事讲的是什么,然后当一个新故 事到来,当它是与这个事件相关的就向用户发出警告。话题追踪任务与信息检索 中过滤任务有些相似,首先提供给系统几个故事( 通常是l 至4 个) ,这些故事都 是关于同一话题的,期望在到来的新闻流中找到所有关于该话题的故事。它的模 式为:系统无监督的提交结果,因此它不知道对于到来故事的追踪结果是否正确。 所有的话题都是独立的进行追踪的,因此故事与某话题相关的决策不能被用于影 响对其它话题的判定。 首故事检测:在数据流中检测或发现首次讨论某个话题的故事,当一个新事 件发生时能够告知用户。一个好的f s d 系统应该能检测出某一个事件的第一个新 闻故事如报道炸弹爆炸、火山爆发或者政治丑闻等。一些信息、安全或股票分析 家对这类技术特别感兴趣,他们的工作就是寻找发生在相关领域中有意义的新闻 事件。 话题检测任务;聚类检测任务相当于f s d 任务的显著扩展,该任务不仅仅识 别新闻数据流中新话题的开端,而且还要把同一话题的故事放在一个类中。当一 个首故事到来时,需要建一个新的类。对于新出现的话题,由于系统没有相关背 景知识,导致类的创建是无监督任务,系统不知道所需类的数目、什么时候需要 建类,或者它们包含的具体内容。聚类检测最难的问题是找到合适的评价标准。 评价标准要求系统将新闻故事分类,每个故事只能分到一个类中,虽然一个故事 东北大学硕士学位论文 第一章前言 可能讨论多个话题。聚类检测的结果与己知话题的进行比较,对于每个故事找到 与事实匹配最好的话题进行聚类。如果故事是关于一个未知的话题,而且评价系 统对它的判断往往会出错。因为评测软件系统会将该故事与已知的话题联系起来, 对于未知的话题没有其它相关信息,不可能期望该故事与未知的话题相连。类似 的,如果系统将一个话题分成两个大类,就会被认为这个系统对于该话题的聚类 检测性能是不好的。这些问题被提出了好多次,未来可能会导致聚类检测技术的 变化。国内外许多研究者使用与f s d 相似的方法进行聚类检测,将故事表示成特 征的集合,当新故事到来时,将它与所有已知的故事比较,将该故事指定到与它 最相似的故事所属的类别上。也有些变化,包括基于多话题的判定,合并所有相 关故事,看作是关于一个特定话题等等。 相关检测:判断两个故事是否讨论同一个事件。如果两个故事讨论同一个事 件就认为它们是相关的。相关检测是t d t 中的一个核心技术。在这个任务中系统 输入是两个故事,需要判定它们是否属于同一个事件主题( 话题) 。对于人们来说, 单独使用的有用性不太清楚,但它是其它所有任务的最重要的核心技术。很显然, 一个好的s l d 系统可以解决追踪、聚类、检测和f s d 任务。许多s l d 方法都依赖 于相似函数,它衡量两个故事是否讨论同一话题。s l d 任务可以比较哪个相似函数 对于区分话题相关对或话题无关对的能力较好。 有监督自适应话题追踪:与前面描述的话题追踪很相近,首先提供给系统几 个故事( 通常是l 至4 个) ,这些故事都是关于同一话题的,期望在到来的新闻流 中找到所有关于该话题的故事。不同的是,系统可以使用一个预先给定的故事和 话题的映射表。当系统对一个故事做出判断后,将该判断与映射表对比,再将该 故事加入到训练集中,调整模型和参数。再判断下一个故事。 - 5 东北大学硕士学位论文第一章前言 层次话题检测任务是将故事集按照话题进行自动聚类。聚类的结果集合主要 有以下几个特点:每个故事可以属于一个或多个类;个类可以是其他类的子集 也可能覆盖其他类;类别之间的关系用只有一个根节点的无循环图表示。该任务 与以往的话题检测任务不同。话题检测的聚类结果中,每个类代表个话题,每 个放事只能属于一个类,而且类之间没有关系的表述。 1 4 话题追踪的研究现状 本文着重研究的是中文话题追踪。话题追踪任务是t d t 评测中最普通的任务, 参加该项评测的单位比参加其它任务单位要多一些。 在过去几年的评测中,参加单位使用的方法基本上都是在原有信息检索方法 的基础上进行改进的。这些方法通常是从训练故事中抽取特征集作为话题特征, 当新故事到来时,与话题特征比较如果匹配得好,则判定为话题相关,否则被判 定为不相关。 进行话题追踪大致有两类方法:一类是基于信息检索的方法,包括向量检索 和概率检索【2 】【3 9 】;另一类是基于文本分类的方法,例如最近邻分类、神经网、 b o o s t i n g b a y e s 分类器、决策树【3 1 、动态聚类和支持向量机等 4 1 。 参加评测的话题追踪系统有使用逻辑回归来合并主题点样技术【t s ) 的概率 和信息检索技术的,还有的系统使用c o s i n e 向量相似度方法,r o c c h i o 分类器“1 , k 最近邻居聚类法。1 ,基于隐马尔可夫模型的语言模型“1 等。在建立模型时使用了 实体名词识别、词特征向量,t f * i d f 权重计算,打分规范化,文本扩展,无监督 自适应,多种方法组合等方法。 1 4 1 导航研究 参加导航研究的有三个单位:c m 【j ,u m a s s ,d r a g o n 。他们都是采用了传统的 信息检索的方法”1 。 c m u 使用k 最近邻居法( k n n ) 和决策树( d t r e e ) 方法进彳亍话题追踪”。k n n 将文本表示为特征向量,计算与训练语料的相似度,选出k 个最近的邻居,根据 与k 个最近邻居的的相似度之和得到打分,如果打分大于0 ,则与指定话题相关, 否则判定为无关。在低误报率时对描述话题的训练故事数( n t ) 敏感,当错误率 低于1 0 时,训练实例变得越来越重要。当邻居增多时,误匹配就会增大了。对 东北大学硕士学位论又第一章 前言 层次话题检测任务是将故事集按照话题进行自 动聚类。聚类的结果集合主要 有以下几个特点:每个故事可以属于一个或多个类;一个类可以是其他类的子集 也可能覆盖其他类;类别之间的关系用只有一个根节点的无循环图表示。该任务 与以 往的话题检测任务不同。 话题检测的聚类结果中,每个类代表一个话题, 每 个故事只能属于一个类,而且类之间没有关系的表述。 1 . 4 话题追踪的研究现状 本文着重研究的是中文话题追踪。 话题追踪任务是t d t 评测中最普通的任务, 参加该项评测的单位比 参加其它任务单位要多一些。 在过去几年的评测中,参加单位使用的方法基本上都是在原有信息检索方法 的基础上进行改进的。这些方法通常是从训练故事中抽取特征集作为话题特征, 当新故事到来时,与话题特征比较如果匹配得好,则判定为话题相关否则被判 定为不相关。 进行话题追踪大致有两类方法: 一类是基于信息检索的方法,包括向量检索 和概率检索2 3 9 ;另一类是基于文本分类的方法, 例如最近邻分类、 神经网、 b o o s t i n g b a y e s 分 类器、决 策 树3 、 动态 聚 类和 支持向 量 机等 叭 参加评测的话题追踪系统有使用逻辑回归来合并主题点样技术 ( t s )的概率 和信息检索技术的, 还有的系 统使用c o s i n e 向 量相似度方法, r o c c h i o 分 类器cn k 最 近 邻居 聚类法阁 , 基于隐 马尔 可 夫 模型的 语言模型iq 等。 在建 立模型时 使用了 实体名词识别、词特征向量,t f * i d f权重计算,打分规范化,文本扩展,无监督 自 适应,多种方法组合等方法。 1 . 4 . 1 导航研究 参加导航研究的有三个单位:c m u , u m a s s , d r a g o n 。他们都是采用了 传统的 信 息 检 索 的 方 法 a o c m u 使用k 最近邻居法 ( on ) 和决策树 ( d t r e e )方法进行话题追踪【 . k n n 将文本表示为特征向量,计算与训练语料的相似度,选出 k个最近的邻居,根据 与k 个最近邻居的的相似度之和得到打分,如果打分大于0 ,则与指定话题相关, 否则判定为无关。在低误报率时对描述话题的训练故事数 ( n t )敏感,当错误率 低于 1 0 % 时,训练实例变得越来越重要。当邻居增多时,误匹配就会增大了。 对 东北大学硕士学位论又第一章 前言 层次话题检测任务是将故事集按照话题进行自 动聚类。聚类的结果集合主要 有以下几个特点:每个故事可以属于一个或多个类;一个类可以是其他类的子集 也可能覆盖其他类;类别之间的关系用只有一个根节点的无循环图表示。该任务 与以 往的话题检测任务不同。 话题检测的聚类结果中,每个类代表一个话题, 每 个故事只能属于一个类,而且类之间没有关系的表述。 1 . 4 话题追踪的研究现状 本文着重研究的是中文话题追踪。 话题追踪任务是t d t 评测中最普通的任务, 参加该项评测的单位比 参加其它任务单位要多一些。 在过去几年的评测中,参加单位使用的方法基本上都是在原有信息检索方法 的基础上进行改进的。这些方法通常是从训练故事中抽取特征集作为话题特征, 当新故事到来时,与话题特征比较如果匹配得好,则判定为话题相关否则被判 定为不相关。 进行话题追踪大致有两类方法: 一类是基于信息检索的方法,包括向量检索 和概率检索2 3 9 ;另一类是基于文本分类的方法, 例如最近邻分类、 神经网、 b o o s t i n g b a y e s 分 类器、决 策 树3 、 动态 聚 类和 支持向 量 机等 叭 参加评测的话题追踪系统有使用逻辑回归来合并主题点样技术 ( t s )的概率 和信息检索技术的, 还有的系 统使用c o s i n e 向 量相似度方法, r o c c h i o 分 类器cn k 最 近 邻居 聚类法阁 , 基于隐 马尔 可 夫 模型的 语言模型iq 等。 在建 立模型时 使用了 实体名词识别、词特征向量,t f * i d f权重计算,打分规范化,文本扩展,无监督 自 适应,多种方法组合等方法。 1 . 4 . 1 导航研究 参加导航研究的有三个单位:c m u , u m a s s , d r a g o n 。他们都是采用了 传统的 信 息 检 索 的 方 法 a o c m u 使用k 最近邻居法 ( on ) 和决策树 ( d t r e e )方法进行话题追踪【 . k n n 将文本表示为特征向量,计算与训练语料的相似度,选出 k个最近的邻居,根据 与k 个最近邻居的的相似度之和得到打分,如果打分大于0 ,则与指定话题相关, 否则判定为无关。在低误报率时对描述话题的训练故事数 ( n t )敏感,当错误率 低于 1 0 % 时,训练实例变得越来越重要。当邻居增多时,误匹配就会增大了。 对 东北大学硕士学位论文第一章 前言 于不同的n t 值, on 较稳定。决策树方法是用信息 增益选取特征进行决策, 取信 息增益最大的特征为根结点,根据该特征的值划分训练数据,每个分枝再选择信 息增益最大的 特征,如此循环下去。如果类的训练实例够大的话,效果较好。决 策树方法的缺点是不能给出置信度,无法生成d e t曲线。它的决策结果有很小的 可信度。可能有大量的故事有相同的置信值。 u ma s s 采用了 信息检索中的关联反馈方法,将话题表示成 1 0 -1 0 0个 词的查 询向量,进行训练,并找出最好的参数。他们还结合了浅层分析抽取名词和 名词短语。 特征权重使用以下两种方法:一种是如果特征至少在一个故事中出现 频繁,则给该特征高一些的权重;另一种方法是根据它出现的故事数赋给特征权 重。关联反馈方法效果不好,因为它使用很少的特征。他们的实验结果表明查询 信息处理的微小变化能够引起效率上的变化。 d r a g o n 采用了 语言模型, 用n t 个训练集中的词来建立模型, 将对表达信息无 用的词 ( 即禁用词)去掉,由于数据非常稀疏,在建立模型时采用了b a c k o ff平滑 技术来解决这个问 题。 平滑技术中的参数通过训练进行确定。 1 . 4 . 2 历年参加话题追踪评测使用的方法 从1 9 9 8 年到2 0 0 4 年,t d t 评测已 经举行了8 届。话题追踪作为基本的任务, 每年的评测都有很多单位参加。在历年的 t d t评测中,参加话题追踪任务的单位 有c m u , u m a s s , d r a g o n , b b n , g e , u p e n n a , u i o w a e , u m d , i b m , t e x a s a 另一种方法是根据它出现的故事数赋给特征权 重。关联反馈方法效果不好,因为它使用很少的特征。他们的实验结果表明查询 信息处理的微小变化能够引起效率上的变化。 d r a g o n 采用了 语言模型, 用n t 个训练集中的词来建立模型, 将对表达信息无 用的词 ( 即禁用词)去掉,由于数据非常稀疏,在建立模型时采用了b a c k o ff平滑 技术来解决这个问 题。 平滑技术中的参数通过训练进行确定。 1 . 4 . 2 历年参加话题追踪评测使用的方法 从1 9 9 8 年到2 0 0 4 年,t d t 评测已 经举行了8 届。话题追踪作为基本的任务, 每年的评测都有很多单位参加。在历年的 t d t评测中,参加话题追踪任务的单位 有c m u , u m a s s , d r a g o n , b b n , g e , u p e n n a , u i o w a e , u m d , i b m , t e x a s a , 采用了向 量空间模型和核心向 量法进行追踪, 但是系统性能较差。 1 9 9 9 年侧 重跨语言的话题追踪,对于中文,使用了翻译系统。在描述话题时,使用了文本 扩展技术, 并使用c h 工 特征选取方法进行特征选取。 系统性能较上一 年有所提高。 2 0 0 0 年时,在前一年的基础上,在翻译系统中, 增加了 对短语的翻译功能,系统 性能 有较大的 提高12 1 1 , 2 0 0 2 年它增加了 对阿拉 伯语的追踪, 将阿拉伯语翻译成英 语。采用一元语法模型进行话题追踪,并使用了打分归一化策略川 。 i b m 只参加了一年的话题追踪任务的评测, 取得第一名的好成绩。 它的系统的 特点就是使用了实体名词的识别【2 5 l 工 m s i 从2 0 0 1 年才开始参加评测, 2 0 0 1 年系统基于一元语法模型。 为了 解决 训练文本数过少的问 题, 采用文本扩展方法和在线无监督自 适应技术n 1 . 2 0 0 2年 也使用一元语法模型,采用去禁用词,词形还原,文本扩展和无监督自 适应等技 术 ( 同2 0 0 1 年) 。 不同 的 是, 增加了 对故 事边界的 识别【:7 。 r m i t , 2 0 0 1 年采用核心向 量法 ( r o c c h i o ) , , 并 用p o r t e r 算法进 行词 形还 原 ( s t e m ) , 禁用词表约有4 7 7 个词; 权重计算采用 t f * i d f , 对每个话题生成一个 向 量,用 c o s i n e 方法计算故事与给定话题的相似度,若大于闽值 h ,则判定为话 题相关, 否则判定为无关。 核心向 量法的参数d , y 都为1 1 0 . 阐值h 的计算是将 训练文本的每个文本和核心向 量进行计算c o s i n e 值,得到最大话题无关值、 最小 话题相关值。2 0 0 2年使用语言模型、 特征选取、文本扩展、自 适应等方法进行追 踪34 。 使用训 练语料训练话题模型, 一 元语法 模型由 于训练语料少, 使 用线 性 插 值的平滑技术。并使用t d t 2 语料训练背景模型。 综上所述,话题追踪任务中主要还是使用传统的信息检索模型。表示话a r -f a 东北大学硕士学位论文第一章 前言 故事的特征一般都是词。 然而,尽管话题追踪和信息检索中的任务有些相似,但 仍有其自身的特点。如果仅仅局限在现有的方法上,很难提高话题追踪系统的性 育 gg a 1 . 5 本文研究工作内 容 目 前国内外对 t d t关键技术的研究非常活跃,同时取得了一些很好的研究成 果和进展。相对来说, 信息检索领域的技术在 t d t任务中取得了 很好效果。 但由 于 t d t中对事件的描述与特定时间、地点和人物是相关的,这些特点造成 t d t的 任务不同于传统信息检索, 不能简单应用传统的信息检索技术于t d t 领

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论