已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 信息抽取对语言信息的自动化处理有着重要的意义,而命名实体之间关系是信 息抽取中的一个重要研究课题。它与信息检索、问答系统、信息过滤有直接的关联, 同时,作为一项基础性研究,它对于自动文摘、机器翻译、内容理解、语境生成、 文本分类以及数字图书馆建设都有重要的研究意义。 对于命名实体之间关系的抽取,主要有知识工程和自动训练两种主要的方法。 知识工程的方法有相对较好的效果。但是它也有明显的不足,知识工程的方法的开 发非常昂贵,且适应性不强。越来越多的学者都开始致力于自动训练方法的研究。 本文在目前命名实体之间关系抽取的研究现状下,对命名实体之间关系抽取进 行了比较深入的探讨。本文的主要工作是利用统计学的方法,利用自动训练的方法 自动获取知识进行命名实体之间关系的抽取。研究工作主要包括以下两个方面: ( 1 ) 提出了一种基于种子自扩展的命名实体之间关系抽取的方法,运用这种 方法可以对大规模文本集合中的命名实体之间关系进行抽取; ( 2 ) 基于向量空间模型,并采用潜在语义分析和特征提取等技术,完成了对关 系抽取时信息的获取。 通过以上两种方法,使命名实体之圈关系抽取结果的性能大大提高。 本文提出的方法在开放语料的测试中,取得了平均7 2 9 的召回率和平均6 9 3 的准确率,从而验证了方法的有效性。 关键词:信息抽取;命名实体之问关系抽取;自动训练方法,种子自扩展,自然语 言理解 a b s t r a c t i n f o m a t i o ne x t r a c t i o n i sa ni m p o n a n tf i e l di nl 孤g l l a g ei n f o 肿a t i o na u t o m a t i c p r o c e s s i n g ,a n dn 锄e de n t i t y ( n e ) r e l a t i o ne x t r a c t i o np l a y sa l li i i l p o n 锄tf 0 1 ei n i n f 0 册a t i o ne 】【t r a c t i o n i ti sr e l a t e dt o1 1 1 f o n n a t i o nr e 砸c v a l ( m ) ,q u c s t i o na 衄w e r ( q a ) s y s t c m 锄di n f o m a t i o nf i l 仃a t i o n ,a sab 勰i cr c s e a r c hi ti so f 舯ts i 弘m c 蛐c cf b r a u t o m a t i cs u m m a r i z a t i o n ,m a c h i n et f 柚s l a t i 咖,c o n t e n tu n d e r s t 卸d i n 岛i j n g u i s t i c e n v i r o n m e n tp r o d u c t i o n ,t e x tc a t e g o r i z a t i o na l l dt h e 伽s t 兀l c t i o no fd i 酉t a ll i b r a f y m a i n l y ,t h e r ea r e 铆。印p r o a c h e sf o rc x t r a c t i n gt h er e l a t i o n sb e t w e e nt i l en 锄e d e n t i t i c s 1 1 l e ya r eb o w l e d g ee i l 百n c c r i n g a p p r o a c h 卸d a u t o m a t i c 删i l i n g a p p r o a c h t h el m o w l e d g ee n 酉e r i n ga p 俨o a c hh 弱t l l er c l a t i v eg c 0 de 伍e c l ,b u ti ta l s oh 勰o b v i o u s d i s a d v a n t a g e s t h ed e v e l o p i n go f 】( n o w l e d g ec n g i l l 硎n g 印p r o a c hi s 懿t r e m e l y c x p 皿s i v e ,a l s oi ti sn o tn e x i b l e m o r e 姐dm o m s c h d l a r ss t a nt od e v o t et o 也e 叫t o m a i i c 仃a i n j n ga p p r o a c hr e s e a r c h t h i st h e s i s ,a i m i n ga tt i l ep r e s e n ts i t u a t i o n ,d i s c u s s e st l l en a m e de n t i t yr e l a t i o n e x t r a c t i o nd e 印l y t h em a i nw o r ko ft h i st l l e s i si st oe x m l c tt h er e l a t i o n sb e t w e e nn a m e d c n t m c sa u t o m a t i c a l l yb a s e do na u t o m a l i c t r a i l l i i l ga p p r o a c hu s i n gs t a t i s t i c a lm e t h o d s , n l e m a j l l i 豁u 髂o f t l l e p a p e ra r ca s 伽o w s : ( 1 ) p r o p o s e dan 锄e de n t i t yr e l a t i o ne x t r a c t i o nm e t h o db a s e do nb o o t s t r a p p j n ga n d i tc a i lb eu s e dt oe x t r a c tt l l er e l a t i o n sb e 铆e c nn 锄e dc n t i t j e s 舶ml a 玛ec 0 i p o m , ( 2 ) u s e dt h el a t e n ts e m a l l t i ca n a l y s i sb a s e do nv c c t o rs p a c em o d e la n df c a t u r e e x t r a c t i o nm e t h o dt 0o b t a i nt h ei n f b m a t i o nf o rt e l a t i o ne x t f a c t i o n b yd o i l l gt h e s e ,t h ep e d 0 m 卸c eo fn a m e de n t i t yr e l a t i o ne x t r a c t i o nw a se n h a n c c d g r e a ny - t 1 1 em e t h o dw ep m p o s e dh a sr e a c h e da v e r a g er e c a l lo f7 2 9 a n da v e r a g e p r e c i s i o no f6 9 3 i no p e nc o r p o r a ,w h i c hv a l i d a t e st h ee 埘c i e n c yo ft h em e t h o d k e yw o r d s :h f o 姗a t i o ne x t r a c t i o n ,n a m e de n t i t yr e l a t j o ne x t m c t i o n ,a u t o m a t i c t r a i n i n ga p p r o a c h ,b o o t s t r a p p i n n a i u r a ll a n g u a g eu n d e r s t a n d i n g 硕士学位论丈 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名 铭、匙 日期:力。占年月9 日 学位捻文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 作者签名:锯,趟 日期:伽。年f 月日 导师签名: q 瓤:如。年a 日 本人已经认真阅读“c a 乙i s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库”中全文发布,并可按“章程”中的 规定享受相关权益。园重逢塞握銮厦进蜃! 旦圭生i 旦= 生i 旦三笙筮查! 作者签名:缘起 日期:如6 9 年月9 日 f 导师签名:钌新竹 日期:赫年6 月9 日 | 1 1 引言 第一章绪论 信息在当代是极其重要的资源,不能充分掌握它、利用它,无论是对个人还是 对整个社会,都是巨大的灾难。因此,获取、处理和运用信息的手段至关重要。而 语言作为信息的重要载体【l l 对语言信息的自动化处理对于国家的信息化、文化教 育、经济建设、国家安全都有着重要的意义。自然语言处理是研究计算机如何理解 人类语言的学问。自然语言处理的研究在我国信息技术和计算机产业中处于关键的 位置。 随着互联网的迅猛发展,越来越多的信息以电子文本的形式出现在人们面前。 如何从这些海量的信息中提取感兴趣的内容的方法变得越来越重要。传统的手工方 式已经远远不能满足实际的需求,而与此同时计算机各方面的性能,容量和速度都 有了几个数量级的提高,利用计算机来帮助人们解决这一问题就成为了人们的一个 梦想。信息抽取( h f o 啪a t i o n e x t r a c t i o n ) 就是为了解决这个问题。所谓信息抽取, 就是从自然文本中提取出预先指定好的信息,并给出该信息的结构化描述。 文本中的词汇成分大致可以分为名词性词汇成分、动词性词汇成分和修饰性词 汇成分,而文本的所要表达的内容主要由名词性词汇成分来体现,名词性词汇成分 所含信息量远远超过其他两类词汇成分所含的信息量。在一篇连贯的文章中里,所 有的名词性成分可以构成一个完整的语义信息框架。可以说,名词性词汇是文章中 最重要的词汇成分。命名实体( n a m e de n t i t y ) 包含人名、地名、机构名等名词性 词语,命名实体之间的语义关系是信息抽取中的一个重要研究课题。信息抽取技术 在研究与应用都有着重要的意义【2 】。在研究方面,可以利用机器学习技术增强系统 的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理能力、w e b 信息抽取以及对时间信息的处理等等。在应用方面,信息抽取应用的领域更加广泛, 除自成系统以外,还往往与其他文档处理技术结合建立功能强大的信息服务系统。 它与信息检索、问答系统、信息过滤有直接的关联,同时,作为一项基础性研究, 它对于自动文摘、机器翻译、内容理解、语境生成、文本分类、信息过滤以及数字 图书馆建设都有重要的研究意义。 1 2 信息抽取相关概念p 信息抽取的目标是把文本里包含的信息进行结构化处理,变成表格一样的组织 形式【肌。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息被从 各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的 主要任务。 信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘 和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和 解释数据模型。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关 信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围 而定。 信息抽取的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特 别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文 本,又能处理自由式文本( 如新闻报道) 。i e 系统中的关键组成部分是一系列的抽 取规则或模式,其作用是确定需要抽取的信息。 如,要从表1 1 中的文本中抽取出国家与国家领导人这样的信息, 意大利总理普罗迪4 日说,欧洲国家将采取行动,共同对付库尔德难民涌 入问题。 表1 1 文本实例1 通过信息抽取以后,可以得到( 意大利总理,普罗迪) 这样的一组结构化的数据。 一个与信息抽取容易混淆的概念就是i r 。i r ( i n f o r m a t i o nr e t r i e v a l ,信息 检索) 的目的是根用户的查询请求从文档库中找出相关的文档【4 l a 用户必须从找到 的文档中翻阅自己所要的信息。就其目的而言,i r 和i e 的不同可表达如下:i r 从文 档库中检索相关的文档,而i e 是从文档中取出相关信息点。这两种技术因此是互补 的。若结合起来可以为文本处理提供强大的工具。 i r 和i e 不单在目的上不同,而且使用的技术路线也不同。部分原因是因为其 目的差异,另外还因为它们的发展历史不同。多数i e 的研究是从以规则为基础的 计算语言学和自然语言处理技术发源的。而i r 则更多地受到信息理论、概率理论 和统计学的影响。 2 1 3 国内外研究现况【5 】 信息提取的提出和兴起有着特定的时代背景。二十世纪8 0 年代后期,美国政 府为了提高政府部门的信息处理速度和质量,提出了一个包括了信息提取、文档检 索、文献摘要等专门的文本处理研究计划。其中一个重要的目标是研究和实现文本 信息的自动查找、收集汇总和存储,以期把人们从大量、低效的文本阅读劳动中解 放出来。这是对信息提取概念的首次真正意义上的实践。与此同时,自然语言处理 理论和应用开始发生着“范式变化”( p a r a d i 9 1 s h i f t ) ,即从以c h o m s k y 等为代表 的“纯理性范式”转变为日益强调以对真实文本数据的统计分析和经验知识归纳为 主要方法的范式。这种趋势还同计算机处理能力不断提高和文本数据积累不断增大 密切相关。尊重真实文本语言事实已成为当前各种信息处理技术( 包括信息提取) 的一个基本立场和出发点。 正是在这种信息化浪潮的推动下,各个发达国家都十分重视信息提取技术的研 究和应用。信息提取技术成为与信息检索、文档归类和摘要、语音识别等并重的语 言工程项目。美国多所大学和公司研究机构都对此展开了有计划的、长期系统的研 究与应用工作,并且有专门的机构组织各种评测活动,对当前的研究进展进行评估, 例如著名的m u c ( m e s s a g eu n d e r s t a l l d i n gc o n f c r e c e ) 、m e t ( m l l l t i l i n g u a le n t i t y 协k ) 、n m c ( t c x tr e l r i e v a lc o n f c r e n c e s ) 等。日本、西欧各国也报道了大量的有 关信息提取的研究工作,并在大规模电子词典的研制、基础资源收集等方面为深入 的研究开发准备了基础。由于信息提取是一门综合的技术,它需要比较深入的语言 处理基本理论和技术作为支撑,并可进一步促进相关语言处理领域的发展,因而各 国都在对其进行研究和投资。 对信息抽取技术影响最大的m u c 。它是美国政府支持的一个专门致力于真实 新闻文本理解的例会,至今已举行7 届。除像一般的学术会议一样交流论文外,它 还负责组织对来自世界各地不同单位的消息理解系统进行系列化的评测活动。其主 要的评测项目是从新闻报道中提取特定的信息,填入某种数据库中。评测语料大都 出自各大通讯社发布的新闻。对每一条消息,由专业人员人工给出标准答案,然后 将参测系统的输出结果与标准答案比较,按一定的评价指标给出所有系统的评测结 果,其中最主要的指标是准确率、查全率等。当前,由m u c 定义的概念、模型和 技术规范在国际上对整个信息提取领域起着主导的作用。在第6 次和第7 次m u c 上,还增加了中文系统的评测项目。 目前大部分的研究都是围绕书面文本,而且只有英语和其他几种主要的语言。 中文信息抽取方面的研究起步较晚,主要的研究工作集中在对中文命名实体的识别 方面【6 1 【7 1 ,在设计实现完整的中文信息抽取系统方面还处在探索阶段。 目前,国内外有许多学者都在参与信息抽取方面的工作1 8 】【9 】f 1 0 1 ,并且已经取得 了一定的成果,综合起来,主要有以下知识工程的方法和自动训练的方法。 1 3 。1 知识工程的方法 知识工程方法主要靠手工编制规则使系统能处理特定知识领域的信息抽取问 题,这种方法通过对知识领域有深入的了解的知识工程师编制规则,知识工程师通 过文法的方式来描述人类的语言,并认为所有人类语言的构造都是有层次的。语言 的层次结构为:词一词组一句子一段落,即由词组合成词组,由词组组合成句子, 由句子组合成段落。每一层次的组合都存在某种限制,这就是词法和句法。对于一 个输入的文字串,计算机借助于文法规则,可以推导出该文字串的语法结构,从而 可以判断出该文字串是否符合文法。系统通过知识工程师编制的规则来进行信息抽 取。 1 9 9 8 年r o m a ny a n g a r b e r 等为删c 一7 设计的系统p r o t e u s p e t l l l 】就用到了这种思 想。该系统就有一个功能强大的界面。具有专业领域知识的工程师可以很快地将与 任务相关的规则添加到系统中去,该系统也可以通过将例句或句子片段添加进去, 通过与知识工程师的交互来完成添加规则。 另一个利用知识工程进行抽取的系统就是2 0 0 2 年h 硼i s hc u n n i n g h 鲫等设计 的g a t e 【1 2 l 。该系统通过提供通用组件的方法来让知识工程师设计和评估菜一特定任 务的规则。在信息抽取的每一个步骤中,用户都可以方便的插入新的组件或对组件 进行扩充。它更强调的是系统的适应性和通用性。 2 0 0 3 年d m i t r yz e l e n k o 等人利用k e r n e l 方法【1 3 】进行信息抽取。该方法首先对 句子进行浅层句法分析,结合支持向量机( s u p p o r tv e c t o r c h i n e ) 等算法,直 接使用字符串作为处理对象计算两个对象之间的相似度对信息进行抽取。z e l e n k o 对人一从属机构,组织所在地等关系进行了抽取,取得了较好的效果。 1 3 2 自动训练的方法1 1 4 】【1 5 】1 1 6 】 随着语料库语言学i l7 】的崛起,基于分布理论的语言模型的构造技术成为新的研 究热点。这种语言模型通常是概率模型1 1 8 】,计算机借助于统计语言模型的概率参数, 可以估计出自然语言中每个句子出现的可能性,而不是简单地判断该句子是否符合 文法。这种语言模型采用语料库语言学的方法,强调语料库是语言知识的源泉,通 4 硕士学位论文 m a s t e r st h e s i s 过对语料库进行深层加工、统计和学习,获取自然语言文本中的语言知识,从而可 以客观地描述大规模真实文本中细微的语言。 自动训练的方法不需要知识工程师手工编制规则,它仅仅需要特定任务提供特 定的语料库,对语料库进行适当的标注。在此基础上,系统自动对语料进行训练, 系统通过机器学习的方法【1 9 l 产生出信息抽取模式,然后利用信息抽取模式进行信 息抽取【“j 。根据训练过程中是否有人工的指导,自动训练的方法又可以分为有指导 的方法,弱指导的方法和无指导的方法。 1 ,有指导的方法【趋】【l 有指导的信息抽取系统通过对大量人工标注好的语料库进行训练,利用机器学 习的方法对标注语料进行训练,自动产生抽取模式,利用抽取模式直接对信息进行 抽取。 1 9 9 5 年,d a v i df i s h e r 等人开发了有指导的信息抽取系统c r y s t a l f 2 4 】,该系统 通过对标注好的语料库进行训练,它通过一种结晶的方法来获取规则集。它首先从 每个实例中提取出一个原始规则,然后从中循环选取两个最相似的规则合并,最后 形成最小的规则集。 为了减少产生抽取模式过程中的计算量,人们利用各种方法来对f i s h e r 的方法 进行改进。1 9 9 6 年,e 1 1 e nr i l o f f 等开发的信息抽取系统a u t o s l u g 也是利用了有 指导的方法。a u t o s l u g 系统根据所要抽取的主题,把标注好的语料库分成相关与不 相关的两部分,这样减轻了标注语料库的工作量。在此基础上进行训练,通过机器 学习的方法产生出抽取模式。 1 9 9 9 年,m a r kc r a v e n 等人给出了种新的机器学习的方法,该方法可以从 w 朗中自动产生知识。他们的方法是建立在大量人工对w e b 中的相关文档进行标注的 基础上的,在此基础上对标注过的文档进行训练。利用训练得到的知识进行所要进 行的信息抽取工作。 2 ,弱指导的方法 由于有指导的方法需要大量的标注语料库,相对来说标注语料库的获得也需要 一定人力和物力,如何仅提供少量的资源来进行信息抽取就变得越来越重要了。 步步为营( b o o t s t a p p i n g ) ,也叫做自扩展技术,是一种被广泛使用的,用于知识 获取的机器学习技术。步步为营一种循序渐进的学习方法。只需要很小数量的有用 数据,或者说种子,以此为基础,通过一次又一次的不断的学习,把小数量的基础 进行有效的扩大扩充,最终达到需要的数据信息规模。 硕士学位论文 m a s t e r st l e s i s 步步为营在自然语言处理的各个方面m 得到了广泛的应用,并有很多成功的例 子。 1 9 9 8 年,s e r g e yb r i n l 2 8 l 利用步步为营的方法进行命名实体之间的关系抽取。 b r i n 通过人工的方式事先找到少量某种关系的命名实体对实例作为种子,通过发现 那些与种子上下文中具有相同模式的命名实体对,关系种子进行扩展。b r i n 对书名 和作者这样的关系进行了抽取,取得了较好的效果。 2 0 0 0 年,y e v g e n ya g i c h t e i n 等【2 9 1 【弼l 对b r i n 的方法进行了改进。a g i c h t e i n 在关 系抽取时对命名实体的类型进行了标注,通过限定两个命名实体类型的方法来改进 b r i n 的方法,并且a g i c h t e i n 对模式的定义更加灵活。通过这样的改进,关系抽取 的召回率和准确率都得到了提高。 3 无指导方法 无指导方法在语言信息处理的其他领域1 3 1 】都有成功的应用,该方法在信息处理 的过程中不需要任何的人工指导或干预,可以全自动的对信息进行抽取。但在信息 抽取这一领域,利用无指导的方法进行抽取却刚刚起步。 2 0 0 4 年,t 撇ih a s e g a w a 等人f 3 2 】在a c l 会议上提出了一种无指导的命名实 体之间关系抽取方法。h a s e g a w a 通过将大量文本中同一命名实体对的所有上下文收 集起来,将这一些上下文作为关系的特征,通过全连通聚类的方法将具有相同关系 的命名实体对聚集在一起,然后通过比较它们之间的上下文来发现它们之间的关 系。 t a k a a k ih a s e g a w a 的方法将命名实体对的上下文都累加起来湮灭了命名实体之 问出现次数教少的关系。2 0 0 5 年,姬东鸿等人【3 3 l 对h a s e g a w a 的方法进行了改进。 他将每一个命名实体对的上下文,而不是所有相同的命名实体对,作为它们之间关 系的特征。在聚类时,姬东鸿通过对k - m e a n s 方法聚类对h a s e g a w a 的方法进行了 改进。在确定命名实体对之间关系的数量时,利用多次取样方法( r e sa 】t i p l e ) 通过 反复的实验找到最自然的关系的个数,也就是最符合数据的命名实体之间关系的个 数。 1 4 本课题的研究内容 对于命名实体之间关系的抽取,主要有知识工程和自动训练两种主要的方法。 知识工程的方法有相对较好的效果。但是它也有明显的不足,知识工程的方法 的开发非常昂贵。在语言现象中提取规则,知识工程师必须是具备深厚计算语言学 背景而且精通计算机的人,这就决定了从人力上就比较昂贵。另外,知识工程的方 顽士学位论文 m a s t e r st h e s i s 法的性能依赖规则设计者,由于个人对语言的理解不同,知识工程师编写的规则可 能不一致,系统的性能因此也会受影响。知识工程的方法开发的系统通常针对特定 的任务的,其适应性不强,如果想把系统应用于其他任务,就必须做出很大的修改。 与知识工程的方法相比,自动训练的方法不是通过人工的方法编写出的规则来 进行信息抽取,而是通过对标注语料库的训练,模型从语言现象中的学习,自动获 取知识进行信息抽取。与编写规则相比较,语料库的构建和标注相对代价较小。自 动训练通过机器学习的方法自动学习,较好的克服了知识工程方法的不足。其中有 指导的方法也需要较大的人力物力,对为特定任务准备的语料库进行大量的标注, 否则会由于数据稀疏的问题雨影响系统效果。无指导的方法目前处于最近研究的课 题,其中信息抽取出来的内容的数量以及选择最适合的模型来描述数据的空间分布 是它的难点。弱指导的方法仅仅需要少量的人工干预,可以很方便的适应特定的任 务,其中的关键技术是如果利用自动训练的方法对知识进行扩充。 本文的主要工作是对命名实体之间关系抽取进行深入的研究。充分利用自然语 言处理和信息抽取中常用的各个模型的优点,对各个模型进行对比实验。分析各个 模型对命名实体之间关系抽取的作用。将已经有的语言学知识加入到自动训练方法 的框架中,提高命名实体之间关系抽取方法的性能也是本论文的研究重点。把已有 的知识加入到自动训练方法的框架中,既可以充分利用自动训练方法的优点,也可 以避免很多自动训练方法的瓶颈,减少自动训练方法的复杂度和盲目性。 1 5 本文的组织结构 本文各章节安排如下: 第一章是绪论,概述了信息抽取的意义和应用背景,介绍了信息抽取的国内外 研究背景和发展状况; 第二章对自然语言处理和信息抽取的相关模型和方法进行了介绍,并对这些模 型和方法的特点进行了分析; 第三章对信息抽取的结构和步骤进行了分析和设计,并提出了一种基于种子自 扩展的命名实体关系抽取的方法,并对其中的关键问题进行了研究: 第四章就实验环境和实验细节进行介绍,并给出了实验相关数据以及对数据进 行了分析; 7 第二章相关方法介绍 自然语言处理和信息抽取中,有一些的相关模型和方法经常被使用。其中信息抽 取中最常用的有向量空间模型、潜在语义分析模型和特征抽取等方法。 2 1 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l ) 【3 4 1 是2 0 世纪6 0 年代由g e r a r ds a l t o n 等人提出的。该模型在信息检索、自动索引、分类、聚类、篇章分析等都有成功的 应用。其思想是把文本表示成向量空间中的点( 称为向量) ,用向量之间的夹角余 弦作为文本间的相似度度量。当将向量空间模型用于文本信息处理时,首先要将文 本用向量表示,然后根据需要进行文本向量间的相似度计算。 2 1 1 文本向量空间表示 在计算机的内部表示中,中文文本就是由汉字和标点符号等最基本的语言符号 组成的字符串,由字构成词,由词构成短语,进而形成句、段、节、章、篇等语言 结构。用尽量简单并且准确的方法表示文档,是进行文本信息处理的前提。向量空 间模型( v s m :v e c t o rs p a c em o d e l ) 表示方法是在文本中提取其特征项组成特征向 量,并以某种方式对特征项赋予一定的权重,如:文档d 可表示成d ( t 。,t “,咐, 其中t 。是第k 个特征项,1 k n 。根据特征项的重要程度不同,可用附加权重w 。来 进行量化,这样文档d 可表示为d ( t ,w 。:t 。,w 矿一,t n ,w n ) ,简记为d ( w 。,w 一,w n ) 这时 说项t k 的权重为w 。,1 k n 。如果把t 。t 2 ,”,n 看成是一个n 维坐标系,而w 。,也,帆 是相应的坐标值,则d ( w 。,乳,吣被看成是n 维空间中的一个向量。称d ( w 。,w 2 j ,w n ) 为文本d 的向量表示。 对于向量空间模型来说,有两个基本问题:即特征项的选择和特征项的权重计 算。 2 1 2 特征项选择 特征项的选择必须由处理速度、精度、存储空间等方面的具体要求来决定。特 征项选取有几个原则:一是应当选取包含语义信息较多,对文本的表示能力较强的 语言单位作为特征项;二是文本在这些特征项上的分布应当有较为明显的统计规律 性,这样将适用于信息检索、文档分类等应用系统;三是在特征选取过程应该容易 8 硕士学住论文 m a s t e r st h e s l s 实现,其时间和空间复杂度都不太大。 用来表示文档内容的特征项可以是各种类别,对汉语来说,可以是字、词、短 语,甚至是句子或句群等更高层次的单位。特征项也可以是语义概念类等抽象单位。 实际应用中常常采用字、词或短语作为特征项。同时考虑到常用词和低频词的 区分度较低,而中等频率的词则往往跟文档的主题相关,区分度比较大,所以一般 都在对文档向量化时,不考虑常用词和低频词,仅仅考虑中等频率的词语。同时, 对于那些没有实在意义的词语,也就是停用词,一般都通过建立停用词表将这些词 语集中过滤。 2 1 3 特征项权重计算 对于如何计算向量空间中各个特征项的权重,有多种方法。最简单的计算方法 有两种。一种被扩展成为布尔模型,即根据特征项是否在文档中出现,对权重分别 赋予l 或者o 。另一种方法就是将特征项在文档中出现的频率作为它的权重。 在实际的应用中,往往采用其他更有效的计算方法。经典的t f i d f 方法考虑 到两个信息,其中,1 ) 词语频率t f i _ j ( t e 珊f r e q u e n c y ) :词语w 。在文档d j 中出现 的次数;2 ) 文档频度d f ,( d o c u m e n tf r e q u e n c y ) :出现词语w ;的文档数;其中词 语频率描述了在给定文档中的重要程度,这个值越大,表示该词语对文档的描述程 度越高,更准确地反映了文章的内容。文档频度表明词语的信息度;也就是说,如 果该词语只局限于某一篇文档中,那么它在该文档中的出现次数可能很多,反之, 如果该词语在文档集合的所有文档中的分布是相对均匀的;也就是说,如果该词语 在每个文档中都可能出现,很明显这个词语和文档内容的相关度不大。t f i d f 方法 同时把词语频度t f 。和文档频度d f i 的信息结合在个公式中公式的提出是基干这 样一个考虑:对区别文档最有意义的特征词应该是那些在文档中出现频率足够高而 在文档集合中的其它文档中出现频率足够少的词语。 在这个基本精神指导下,在实际应用中有许多不同的加权公式。如: n m ,2 矿u l o g 万 吖f m ,。( 1 + l o g 时) ) l o g 嘉一 叫 其中n 为文档集合中的总文档数。 9 2 1 4 文本问的相似度的计算【3 6 】 向量空间模型中的另一个概念是相似度( s i m i l a r i t y ) :相似度s i m ( d t ,d j ) 用于 度量两个文档d 。和d ,间的内容相关程度。当文档被表示为文档空间的向量,就可以 利用向量之间的距离计算公式来表示文档间的相似度。 相似度度量的方法一般有以下四种。 1 、绝对值距离,踟”( q ,d ,) = l 形j 一 i 一 2 、欧氏距离,曲挖( ( d 。,d f ) 一罗( 狮,七一研,七) 2 3 、切比雪夫距离,跏l ( d l ,d ,) = 朋缸i 形谢一卅i t 潲触一卜丽苦麓丽 从数学上,可以将公式1 ,2 ,3 统一起来,统一后公式的表达式为, 跏l ( ( d ,d ,) 2 刈i 晰,七一研,七 p ,其中公式1 为p - 1 的情况,公式2 为p :2 的情况,公式3 为p 趋近于无穷大的情况。 将v s l 应用于不同的领域,其相似度的计算有所不同。为了计算的方便,使所 有相似度的值最后能与真实情况相符,一般将这些相似度归一化到 o ,1 区间上, 并且分布尽可能的均匀,使阈值的选择容易一些。 通过向量空间模型,文档集表示为d = d 1 ,d :,d 。) ,通过索引项一文档矩 阵来表示,矩阵中的元素值为索引项( 行) 在对应文档( 列) 的权值。文档f ;被表 示成 w ,w 。,w ;) ,文档集合被表示成一个矩阵,如图2 1 所示。 d 】d 2矗m ,1 ,2 加 图2 1 2 2 潜在语义分析模型 形1 1 形1 2 1 m 2 1 矽2 2 矽2 m 胁1 胁2 胁m 向量空间模型得到的矩阵 潜在语义索引( l s a :l a t e n ts e m a l l t i ca n a i y s i s ) 1 3 7 】是一种用于知识获取和展示的 硕士学住论文 m a s t e r st i i e s i s 计算理论和方法。它使用统计计算的方法对大量的文本集进行分析,从而提取和表 示出词的语义,这种潜在语义,是词语所有的上下文语境信息的总和。这是因为,上 下文环境对其中的事物提供了一组相互联系和制约,在很大程度上决定了词语之间 语义上的相关性。 传统的基于文本关键字的向量空间模型( v s m ) ,用l i 价关键字维构成的文档向量 d = ( w ,w 2 ”,w n ) 表示文档集中的一个文档。它将非结构化的文本表示为向量形式, 使得各种数学处理成为可能。它的优点在于处理逻辑简单、快捷。但是,向量空间 模型关于各个特征项之间相互独立的基本假设( 正交假设) 在实际环境中很难满足, 文本中出现的特征项往往存在一定的相关性在某种程度上会影响计算的结果自然 语言中存在着大量的同义词和多义词现象,语义的准确表达不仅取决于特征项本身 的恰当使用,也取决于上下文对特征项的限定。如果忽视上下文语境的限制,仅以 孤立的关键字来表示文本的内容,势必影响查询结果的准确性和完整性。解决这些 问题的一种思路是在原来基于关键字向量空间模型基础上进行改进。潜在语义分析 ( l s a ) 是一种通过分析大量的文本集,自动生成关键字一概念( 语义) 之间映射规则的 方法。 潜在语义分析出发点就是文本中的词与词之间存在某种联系,即存在某种潜在 的语义结构。这种潜在的语义结构隐含在文本中词语的上下文使用模式中仅依赖于 上下文中事物的联系,并用语义结构来表示词和文本,达到消除词之间的相关性。 潜在语义空间示例如图2 2 所示 一 图2 2 潜在语义空间图 向量e 语义维3 硕士学位论文 m a s t e r st h e s i s 2 2 1 潜在语义分析的特点删 i s a 假设隐藏在词语中的隐含意思( 也就是潜在语义空间的这些语义维) 可以更 好地刻画文本真实含义。l s a 力图通过适当的数据处理,达到恢复原始的正交语义 结构空间,以及其中的原始的语义维的目的。在i s a 空间结构中,文本和词语依据 语义上的相关程度被组织存放:分散在不同文本中的同义词空间位置相邻。l s a 方 法对语义空间的维度进行约简,消除语义表达中的“噪音”( 词语罕见或者不重要 用法含义) ,词语含义是词语多种含义的带权平均。包含不同词语组但主题语义相 近的文本位置相邻。文本的含义取决于整体单词的使用模式,而不是文本中具体包 含的单词,文本向量是由各个语义维带权的线性组合表示的。 l s a 利用潜在的语义结构表示词条和文本,将词条和文本映射到同一个k 维的语 义空问内,均表示为k 个因子的形式,向量的含义发生了很大的变化。它反映的不 再是简单的词条出现频率和分布关系,而是强化的语义关系。在保持了原始的大部 分信息的同时,克服了传统向量空间表示方法时产生的多义词、同义词和单词依赖 的现象。同时,在新的语义空间中进行相似度分析,比使用原始的特征向量具有良 好的效果,因为它是基于语义层而不仅是词汇层。 由于词条和文本被映射到同一k 维的语义空间。所以在l s a 模型中不仅能够进行 传统的词条与词条、文本与文本之间的相似关系分析,而且能够分析词条与文本之 间的相似关系,与传统的向量空间模型相比,具有更好的灵活性。 对于原始的词条文本矩阵,通过i s a 分析提取出k 维语义空间。在保留大部分 信息的同时使得k 0 ,说明词条和类别正相关,即词条出现说明某 个类别也可能出现。反之,如果”,。”:一n ,:x ,l :, 0 的词条作为特征项。 3 ,词条的期望交叉熵( c m s se n t m p y ) 词条的期望交叉熵的定义为c e 仃) :p f l r ) l o g 兰篙要,其中p ( c m 表示文 本中出现词条t 时,文本属于类别c 的概率,p ( c ) 是类别出现的概率。如果词条和类 别强相关,也就是p ( c i t ) 大,且相应的类别出现概率又小的话,则说明词条对分类 的影响大,相应的函数值就大,就很可能被选中作为特征项。交叉熵反映了文本类 别的概率分布和在出现了某个特定词的条件下文本类别的概率分布之间的距离,词 条的t 的交叉熵越大,对文本类别分布的影响也越大。 4 ,文本证据权ew e i g h to fe v i d 姐c ef o rn x o 文本证据权的定义为,艇口,。罩户 4 b s ;踹,其中p 。c f 。和p 文本证据权的定义为, 7 l ,卜舭一r 啦p 川,其中p ( c f l ) 和p ( c ) 的意义同上。文本证据权比较了类出现的概率和在给定特征下类出现的条件概率之 间的差别。如果词条和类别强相关( p ( c 1 1 ) 大) ,并且相应类别出现的概率小,说明 这时词条对分类的影响大计算出的函数值就大,可选取作为特征项。或者如果类 别出现的概率大,而词条又和类别弱相关( p ( c it ) 小) ,说明这时词条对分类的影响 小,计算出的函数值就小,不会被选取作为特征项。 2 4 本章小缩 本章对自然语言处理和信息抽取中常用的几个模型和方法进行了介绍。其中向 量空间模型是一个将文本进行形式化描述的模型。为了解决真实文本不满足特征项 互相独立的正交关系的这个向量空间模型的基本假设,在很多实际应用中,引入了 潜在语义分析。,为了突出特征项,减少噪声,在信息抽取和自然语言处理的其他 方面采用了特征抽取的方法。 1 6 第三章基于种子自扩展的命名实体关系抽取的关键技术研究 3 1 信息抽取的结构 不同方法、不同任务的信息提取系统之间会有很多的特殊之处。信息提取系统 的应用目标不同,其结构和构建方式也会有所不同,但是它们一般有着同样的主体 结构【4 卦。信息提取系统一般由如图3 一l 中四个部分组成: 词形分析 r 形态和词法分析 r 句法分析 1r 领域知识分析 图3 1 信息提取系统过程 ( 1 ) 词形分析( t o k e n i z a t i o n ) :词形分析即识别文本中的每一个词。这对英 文、德文、法文等印欧语种一般比较容易,因为这些语言中词与词之间一般会有空 格或标点分隔,所需处理的只是一些缩写形式。而对于中文、日文等,词与词之间 连续书写,一般缺乏天然的分隔符,因此需要进行专门的分词处理。 ( 2 ) 形态和词法分析( m o r p h o l o g i c a la n dl e x i c a lp r o c e s s i n g ) :印欧语 一般有形态标记,如词类的标记等,这里需要词形还原工作( s t e 姗i n g ) 。对于不 同的语言该任务有所不同,汉语几乎没有形态变化,可以不做形态分析;而像英语 硕士学位论文 m a s t e r st h e s i s 等简单的屈折语,形态变化不多,可以不设专门的形态分析模块;而法语、德语等, 由于形态变化复杂,复合名词甚至黏着为一个词,则需要较多的形态分析工作。另 外,词法分析还有词性标注、甚至词义标注和短语标注等,包括命名实体的识别工 作,这是信息提取的基础工作,也是信息提取技术中比较成熟的部分。 ( 3 ) 句法分析( s y n t a c t i ca n a l y s i s ) :进行文本中旬子的分析工作。完全的 句法分析技术目前还不成熟,分析速度慢,对长句子的分析经常失败,得不到任何 信息。一般来说,针对特定任务的信息提取系统使用浅层分析技术( 有限状态自动 机、分层的有限状态自动机等) 就可部分达到特定任务信息提取的分析要求,得到 句子的主要结构以及模板中相应槽的信息,系统开发周期短,分析过程简单、快速, 鲁棒性强。例如,s r i 的f a s t u s 系统,采用分层的优先状态自动机分析技术,在 多次的m u c 评测中都取得了领先的成绩。当然,目前信息提取系统的处理能力还有 待提高,仍需要探讨更有效的句法分析技术。 ( 4 ) 领域知识分析( d o m a i nk n o w l e d g ea n a l y s i s ) :信息提取系统是面向目 标领域的,要想取得好的结果,单靠语言学的知识是不够的,一般还需要有领
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西南医科大学附属医院2026年度第一轮人才招聘备考题库有完整答案详解
- 初中生物细胞膜通道蛋白3D打印结构分析课题报告教学研究课题报告
- 2026年北海市中医医院医疗备考题库科工作人员招聘备考题库及完整答案详解
- 山东高速集团有限公司2025年下半年校园招聘(管培生和战略产业人才招聘)备考题库完整答案详解
- 安徽港航能源储运有限公司2025年第二批次劳务派遣员工社会招聘备考题库有答案详解
- 2026年福建省农业科学院植物保护研究所公开招聘科研助理的备考题库及一套参考答案详解
- 2025年区块链跨境电商供应链溯源存证挑战报告
- 2025年法律咨询平台五年国际化发展报告
- 小学科学教育中智能设备互联互通对教学效果的影响分析教学研究课题报告
- 2023-2024学年高二上学期地理期末模拟卷
- TSG特种设备安全技术规范TSGD-202工业管道安全技术规程
- 利用EXCEL画风机特性曲线-模版
- 人体工效评估程序
- EPC工程总承包项目设计及施工的配合制度
- 西南大学PPT 04 实用版答辩模板
- 国家开放大学电大《政治学原理》形考任务1及4网考题库答案
- 管理百年智慧树知到答案章节测试2023年
- 国家开放大学《刑法学(1)》形成性考核作业1-4参考答案
- 工艺美术专业课程配套练习二
- 2022“博学杯”全国幼儿识字与阅读大赛选拔试卷
- 临床试验监查计划
评论
0/150
提交评论