




已阅读5页,还剩48页未读, 继续免费阅读
(计算机应用技术专业论文)基于条件随机场的实体提及识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 计算机应用的普及和互联网的飞速发展带来了信息爆炸,大量信息以电子文档的 形式出现在人们面前,人们迫切希望计算机能对出现的文本信息实现自动化处理。因 此,需要有效地利用信息处理的工具。信息抽取是解决这一问题的有效途径。信息抽 取的主要任务之一就是实体识别。 a c e 评测首次提出了实体提及识别任务,目的在于识别指定类型实体的所有提 及,包括命名性提及、名词性提及和代词性提及,并考虑它们在结构上的嵌套特性。 实体提及识别任务同传统的命名实体识别有着密切的联系,但不仅仅局限于命名实体 识别。因此,a c e 评测的实体提及识别任务对实体识别提出了更高的要求,同时也 在更大的程度上推动了实体识别和信息抽取技术的发展。 本文从理论和实际出发,针对中文实体提及的特点,利用条件随机场模型的特征 融合的能力,提出了一种基于条件随机场模型针对中文文本中实体提及进行识别的方 法。综合运用字词特征、前后缀特征、同义词特征、词典特征和语义特征提高系统的 识别性能。与此同时,本文还提出了一种基于条件随机场模型针对英文设施名进行识 别的方法。综合运用字词特征、词类特征等提高系统的识别性能。实验结果表明对于 本文所提出方法对于中文实体提及识别和英文设施实体提及识别都具有一定的效果。 关键词:实体提及识别;条件随机场:自然语言处理 a b s t r a ( 了r a b s t r a c t t h ep o p u l a r i z a t i o no fc o m p u t e r sa p p l i c a t i o na n dt h ef a s td e v e l o p m e n to fi n t e m e t h a v eb r o u g h tt h ei n f o r m a t i o ne x p l o s i o n p e o p l ec a nf i n dm a s s i v ee l e c t r o n i cd o c u m e n t sa s t h ef o r m a to fi n f o r m a t i o n t h e r ei su r g e n tn e e do fa u t o m a t i cp r o c e s s i n go fi n f o r m a t i o ni n d o c u m e n t s t h e r e f o r e , i ti s a ne f f e c t i v ew a yt ou s ei n f o r m a t i o np r o c e s s i n gt o o l s i n f o r m a t i o ne x t r a c t i o ni so n eo ft h ee f f e c t i v ew a y st os o l v et h i sp r o b l e mm e n t i o n e db e f o r e o n et a s ko fi n f o r m a t i o ne x t r a c t i o ni se n t i t yr e c o g n i t i o n a c ee v a l u a t i o nf i r s tp r o p o s e dt h et a s ko fe n t i t ym e n t i o nd e t e c t i o n , t h ep u r p o s eo ft h i s t a s ki st or e c o g n i z ea l lm e n t i o n so ft h ee n t i t ya p p o i n t e d t h et y p e so fe n t i t ym e n t i o n i n c l u d en a m e dm e n t i o n ,n o m i n a lm e n t i o n ,a n dp r o n o u nm e n t i o n ;e s p e c i a l l yc o n s i d e rt h e n e s t i n gc h a r a c t e r sa b o u tt h e i rs t r u c t u r e s e n t i t ym e n t i o nd e t e c t i o nh a sc l o s ec o n n e c t i o n w i t ht r a d i t i o n a ln a m e de n t i t yr e c o g n i t i o n , b u ti ti sn o tl i m i t e dt on a m e de n t i t yr e c o g n i t i o n t h e r e f o r ee n t i t ym e n t i o nd e t e c t i o no fa c ee v a l u a t i o ns e t sh i g h e rr e q u i r e m e n tt oe n t i t y r e c o g n i t i o n ,a n dp r o m o t e st h et e c h n o l o g yo fe n t i t yr e c o g n i t i o na n di n f o r m a t i o ne x t r a c t i o n i nag r e a td e g r e e t h ep a p e rp r e s e n t sa na p p r o a c hw h i c ha d o p t sc o n d i t i o n a lr a n d o mf i e l d sw h i c hh a s t h ea b i l i t yo fi n t e g r a t i n gf e a t u r e st od e t e c te n t i t ym e n t i o ni nc h i n e s et e x t sb a s e do nt h e o r y a n dp r a c t i c e t h ef e a t u r e si n c l u d ew o r d sa n dc h a r a c t e r , p r e f i xa n dp o s t f i x ,t h e s a u r u s , d i c t i o n a r i e sa n ds e m a n t i cf e a t u r e st oi m p r o v et h ed e t e c t i v ep e r f o r m a n c eo ft h es y s t e m a l s ot h ep a p e ra d o p t sc o n d i t i o n a lr a n d o mf i e l d st od e t e c tf a c i l i t ye n t i t yi ne n g l i s ht e x t s t h ef e a t u r e su s e di n c l u d i n gw o r d sa n dc h a r a c t e r s ,w o r d sc l a s s i f i c a t i o nf e a t u r e st oi m p r o v e t h ed e t e c t i v ep e r f o r m a n c eo ft h es y s t e m t h ee x p e r i m e n t a lr e s u l t sd e m o n s t r a t et h a tt h e p r o p o s e dm e t h o di sf e a s i b l ef o rt h ec h i n e s ee n t i t ym e n t i o nd e t e c t i o na n de n g l i s hf a c i l i t y e n t i t ym e n t i o nd e t e c t i o n k e yw o r d s : e n t i t ym e n t i o nd e t e c t i o n ,c o n d i t i o n a lr a n d o mf i e l d s ,n a t u r el a n g u a g e p r o c e s s i n g i l 学位论文版权使用授权书 本人完全了解北京信息科技大学关于收集、保存、使用学位论文的 规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子 版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本 学位论文全文或者部分的阅览服务;学校有权按有关规定向中国科学技 术信息研究所等国家有关部门或者机构送交论文的复印件和电子版;在 不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用 于学术活动。 学位论文作者签名: 房中呜 2 沙刀年,月,弓日 经指导教师同意,本学位论文属于保密,在年解密后适用本授 权书。( 注:论文属公开论文的,作者及导师本处不签字) 指导教师签名:学位论文作者签名: 年月日年 月日 硕士学位论文原创性声明 本人郑重声明:所呈交的论文题目为基于条件随机场的实体提及 识别研究学位论文,是本人在导师指导下,进行研究工作所取得的成 果。尽我所知,除文中已经注明引用的内容外,本学位论文的研究成果 不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。 对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以 明确方式标明。本学位论文原创性声明的法律责任由本人承担。 作者签字: 第一章引言 1 1 研究背景及意义 1 1 1研究背景 第一章引言 中文信息处理技术是一项重要的计算机应用技术。目前,在国际计算机产业中, 中文信息处理技术是我国的专长,在中文信息处理方面具有一定的优势。国务院制定 的国家中长期科技发展纲领中也明确指出:“中文信息处理技术是高新技术发展的重 点。另据统计,在信息领域8 0 以上的信息是以语言文字为载体。这表明中文信息 处理技术,包括语言信息的自动输入和输出、信息的提取和检索、文本的校勘和分类、 以及语言的自动翻译等语言工程已成为国民经济和国防信息化建设的重要组成部分。 随着计算机的普及与互联网的高速发展,信息也呈爆炸式地增长。各种电子出版 物、数字图书馆的迅速普及,大量的信息以电子文档的形式出现在人们面前,推动着 中国朝着信息化社会大步迈进。信息的过量增长带来一定负面影响,面对巨量的信息, 难以发现真正需要的信息。如何将大量无序的信息及时、准确地进行提取、整理、组 织和便于查询检索的形式,已成为研究开发的焦点。信息抽取正是在这种背景下产生、 发展起来的。信息抽取( i n f o r m a t i o ne x t r a c t i o n ,i e ) 直接从自然语言文本中抽取事实 信息,并以结构化的形式描述信息,供信息查询、文本深层挖掘、自动回答问题等应 用,为人们提供有力的信息获取工具。 在语言文本中,实体是信息的主要载体,用来表达文本的主要内容。实体作为一 篇文章中基本的信息元素,往往包含了其主要内容,在不详细阅读全文的情况下,进 行实体识别是了解一篇文章最简单快捷的一种方法。例如,在文摘生成中,很多时候 是对固定模式的填充,填充内容包括“谁 、“什么时间”、“在哪里”、“干什么 ,这 些信息正式实体识别的对象。在自然语言处理研究方面,实体识别的效果对词法分析、 句法分析、语义分析等自然语言处理技术都具有极其重要的影响;在应用方面,实体 识别是信息抽取、信息过滤、问答系统和机器翻译等研究分支的关键技术。 因此,实体识别技术是语言信息处理技术中的关键基础技术,是文本信息处理和 理解的基础。进行信息抽取和文本分析时,实体识别是信息处理的首要任务。进行实 体识别技术的研究,对于自然语言处理技术的发展具有极其重要的意义。 第一章引言 1 1 2 实体识别相关评测会议 近年来,国内外对于实体识别的研究逐步升温。首先是国际国内陆续出现过许多 命名实体识别的评测活动。这些评测活动的举行对实体识别技术的发展起到了很大的 推动作用。 上世纪八十年代末期,美国国防高级研究计划委员会( t h ed e f e n s ea d v a n c e d r e s e a r c hp r o j e c t sa g e n c y , d a r p a ) 资助发起的消息理解会议( m e s s a g eu n d e r s t a n d i n g c o n f e r e n c e ,m u c ) ,从1 9 8 7 年至1 9 9 8 年共举行了七届,这项会议的举行,极大推 动了信息抽取技术的发展。m u c 会议展开了消息理解综合评测,从大规模、真实新 闻文本理解中抽取特定的信息。在m u c 6 上提出了命名实体识别( n a m e de n t i t y r e c o g n i t i o n ,n e r ) 仫3 1 的子任务。m u c 评测包含以下几个子任务:命名实体( n a m e d e n t i t y ,n e ) 、多语言实体( m u l t i l i n g u a le n t i t yt a s k ,m e t ) 、模板元素( t e m p l a t ee l e m e n t , t e ) 、模板关系( t e m p l a t er e l a t i o n ,t r ) 、场景模板任务( s c e n a r i ot e m p l a t et a s k ,s t t ) 、 共指任务( c o r e f e r e n c et a s k ,c r t ) 。在所有以上的评测项目中,命名实体是其它几个 子任务的前提,其它信息抽取任务都是在命名实体识别技术基础上开展的。 在m u c 6 的评测中,英语、汉语、日语和西班牙语命名实体识别的f 值分别不 高于9 7 、8 5 、9 3 和9 4 h 1 。 国际计算语言学协会( a s s o c i a t i o no fc o m p u t a t i o nl i n g u i s t i c ,a c l ) 睛1 下属的自然 语言学习专业委员会( s p e c i a li n t e r e s tg r o u po nn a t u r a ll a n g u a g el e a r n i n g ,s i g n l l ) 旧,是一个专注于从语言信息自动学习语言知识用于自然语言处理过程的兴趣小组。 s i g n l l 成立于1 9 9 7 年,每年举行一次年会,即c o n f e r e n c eo nn a t u r a ll a n g u a g e l e a r n i n g ( c o n l l ) 口1 。从1 9 9 9 年起,s i g n l l 每年在c o n l l 会议提出一个开放任务, 给定训练语料,对参加评测的程序性能进行评估,并召开专门会议进行研讨。在2 0 0 2 年和2 0 0 3 年,c o n l l 评测连续两年进行了语言无关( 1 a n g u a g ei n d e p e n d e n t ) 的命名实 体识别评测。该评测以西班牙文和荷兰文为目标语言,将各种机器学习方法引入到命 名实体识别问题中来,极大地推动了实体识别技术的研究和发展。 国际计算语言学协会a c l 下属的中文处理专业委员会( s p e c i a li n t e r e s tg r o u po n c h i n e s el a n g u a g ep r o c e s s i n g ,s i g h a n ) 陋1 先后多次举办了国际中文处理评测活动 ( b a k e o f f ) 四10 1 。在实体识别评测活动中,公布了三种语料库测试,这三种语料分 别来自香港城市大学( h o n g k o n gc i t yu n i v e r s i t y , c i t y u ) ,美国语言学数据协会 ( l i n g u i s t i cd a t ac o n s o r t i u m l d c ) 和微软亚洲研究院( m i c r o s o f tr e s e a r c ha s i a , m s r a ) 。每种语料包括一个训练集和一个测试集,在每种语料上分别进行封闭和开 放两种评测。在封闭测试中,参赛系统只能从制定语料库的训练集中学习实体知识, 不能补充其他任何来源的知识;在开放测试中,参赛系统可以使用任何其他来源的知 识( 包括各种词表、词法、句法、语义知识,或从其他大规模语料库中获取的统计语 2 第一章引言 言知识等) 。 m u c 会议结束之后,目前正在推动信息抽取研究进一步发展的动力主要来自美 国国家标准技术研究所( n a t i o n a li n s t i t u t eo f s t a n d a r dt e c h n o l o g y , n i s t ) 举办的自动内 容抽取( a u t o m a t i cc o n t e n te x t r a c t i o n ,a c e ) n 嬲评测。这项评测活动从1 9 9 9 年7 月开始 酝酿,2 0 0 0 年1 2 月正式开始启动。a c e 评测旨在开发自动内容抽取技术以支持对三 种不同来源( 普通文本、由自动语音识别a s r 得到的文本、由光学字符识别o c r 得 到的文本) 的语言文本的自动处理。a c e 评测提供信息抽取任务的一种标准,从而 推动整个信息抽取技术的发展。a c e 评测的主要语言是英文、中文( a c e 2 0 0 8 取消 了中文) 、阿拉伯文三种语言( a c e 2 0 0 7 增加了西班牙文) 。研究的主要内容是自动 抽取新闻语料中出现的实体、关系、数值、时间和事件等内容,即对新闻语料中实体、 关系、事件的识别与描述。但在a c e 中的实体识别与通常意义下的命名实体有一定 的区别,他的识别类型更多,范围更广,难度更大。 与m u c 相比,a c e 旨在定义一种通用的信息抽取标准,不再限定领域和场景, 而是从语义( s e m a n t i c s ) 的角度制订一套更为系统的信息抽取框架,这个框架将信息抽 取归结为建立在一定本体论( o n t o l o g y ) 基础上的实体、关系、事件的抽取,从而适用 于更广泛的领域和不同类型的文本。 下面从任务和评测两个方面简单分析a c e 和m u c 的区别。 1 ) 任务定义( t a s kd e f i n i t i o n ) 在m u c 中定义了五种任务:命名实体、共指关系、模板元素、模板关系和事件 模板。而a c e 任务将命名实体和共指放在一个任务里面,称为“实体检测和识别 ( e n t i t yd e t e c t i o na n dr e c o g n i t i o n ,e d r ) ,将模板元素和模板关系合并为“实体关系 检测和识别( r e l a t i o nd e t e c t i o na n dr e c o g n i t i o n ,r d r ) ”,事件模板任务改名为“事件 检测和识别( e v e n td e t e c t i o na n dr e c o g n i t i o n , v d r ) 。另外增加了时间短语表达和数 量值的识别任务。a c e 的抽取任务定义不再基于领域相关的各类模板,而是基于一 种通用意义上的知识本体,在实现开放领域信息抽取的道路上迈出了根本性的一步。 在实体检测和识别( e d r ) 任务中,a c e 定义了更加细化的实体分类体系,而且 信息抽取系统在该任务中需要识别实体提及( m e n t i o n s ) 的转喻( m e t o n y m i c ) 现象,需 要一定程度的语义分析。比如下面这个例子中的“上海”就是一种转喻现象,这罩实 体类型应该为“机构名 。 例1 1 这次活动的主办方 上海 今天公布了具体同程。 另外,a c e 处理的文本不再是领域限定的,文本类型也支持对三种不同来源( 普 通文本、由自动语音识别a s r 得到的文本、由光学字符识别o c r 得到的文本) 的语 言文本。 2 ) 评测( e v a l u a t i o n ) 3 第一苹引言 与m u c 相比,目前的a c e 评测不针对某个具体的领域或场景,采用基于漏报 ( 标准答案中有而系统输出中没有) 和误报( 标准答案中没有而系统输出中有) 为基 础的一套评价体系,还对系统跨文档处理( c r o s s - d o c u m e n tp r o c e s s i n g ) 能力进行评测。 a c e 的评测结果不像m u c 那样是完全公开的,只有参与单位才能获得。a c e 对未参加的研究单位来说影响不及m u c 。总之,a c e 评测为信息抽取技术提供了一 个新的标准,这一新的评测会议将把信息抽取技术研究引向新的高度。 国内比较有影响的评测会议是8 6 3 计划中文信息处理与智能人机交互技术评测 会议n3 1 。2 0 0 3 年首次将中文命名实体识别作为分词标注的子任务引入,主要识别人 名、地名、机构名和其他专名。各评测系统最好的结果j 下确率为7 6 4 5 ,召回率为 7 0 1 5 ,f 值为7 3 1 6 n 钔。2 0 0 4 年命名实体识别已作为一个独立的评测项目,识别 任务也有所扩大,包括: 1 、命名实体( e n a m e x ) ,包括人名、地名、机构名: 2 、时间表达式( t i m e x ) ,包括r 期、时间; 3 、数值表达式( n u m e x ) 语言方面,除了简体命名实体识别外,还包括繁体命名实体的识别。 简体命名实体识别任务最好的识别系统其召回率、准确率和f 值分别为8 1 1 0 、 8 3 6 9 、8 2 3 8 。繁体最好的识别系统其召回率、准确率和f 值分别为6 6 6 3 、7 4 1 2 、 7 0 1 8 1 引。 总之,从m u c 评测、c o n l l 开放任务评测、s i g h a n 评测到a c e 评测和国内 的8 6 3 评测,实体识别技术来源于评测,并通过评测而使研究得以深入。 1 1 3 国内外实体识别研究现状 同其他自然语言处理中使用的方法一样,目前,实体识别研究方法主要有三种: 基于规则的方法、基于统计的方法以及规则和统计相结合的方法。 一般来说,基于规则的方法识别结果要优于基于统计的方法,精确度较高。但 是这些规则往往依赖于具体语言和领域,规则的设计过程耗时而且容易产生错误,难 以涵盖所有的语言现象,并且需要富有经验的专家才能完成。相比较而言,基于统计 的方法利用人工标注的语料或者生语料进行训练和学习,标注语料时不需要广播的语 言学知识,知识的获取大部分是通过机器完成,客观性比较强。因此,这类系统在用 到新的领域时可以不做或者少做改动,只要利用新语料进行训练即可,具有较好的可 移植性。此外,基于统计的系统要移植到其他自然语言也相对容易一些。但是基于统 计的方法需要大规模的语料供其训练,并且对其依赖性较强。分析综合上述两种方法 的优缺点,把基于规则的方法和基于统计的方法结合起来,取其长处,互相弥补不足 4 第一章引言 之处,即规则与统计相结合的方法。该方法在使用大量的语料进行训练的同时,也收 集提及尽可能多的语言知识和规则知识,为有效地进行实体识别提供支持。但是该方 法既需要大规模语料的训练,又需要规则的设计有较强的语言学基础,因此方法实现 难度也较大。 ( 1 ) 基于规则的方法 在实体识别研究的开始阶段,研究以基于规则的方法为主。基于规则的实体识别 主要依靠专名词典和规则来识别实体。一般总是把一些常用的人名、地名、组织机构 名等专有名词收入词典作为基础,对于词典中没有的专名,则通过规则办法来识别。 从已经发表的论文可以看到,基于规则的方法也取得了一些成就,比如:王宁n 叼等利 用规则的方法进行金融领域的公司名识别。首先对金融新闻文本进行分析和研究,然 后根据公司名的结构特征以及其上下文信息总结出包括公司名后缀库、公司类型名 库、公司名禁止词性库、公司名禁止词库等六个公司名知识库,并采取两次扫描的方 法进行识别。实验结果表明在封闭测试的环境下准确率、召回率和f 值要明显高于开 放测试环境下的指标。从实验数据分析可知该系统对知识库的依赖性大,同时也显示 了规则方法的局限性。 基于规则的系统,主要是通过分析实体的内部特征和外部特征,如上文所述的分 析公司名本身特征和公司名前缀词、后缀词特征等,然后人工构造规则模板实现实体 的识别。基于规则的实体识别方法在小规模测试和封闭型测试的效果较好。但是,认 为编写规则需要语言学家对语言规则进行深入的理解,在此基础上编写规则,构造规 则对语言知识要求较高,需要很大的人力物力。另外,规则较多时还会引起规则之间 的冲突。基于规则的方法语言受到限制,不同的语言环境下所编写的规则有很大的不 同;同时当移植到另一个领域时,必然也会存在规则适应性降低、需要重新总结规则 的问题。因此,这种方法的通用性不强。这也正是规则方法的缺陷所在。 ( 2 ) 基于统计的方法 近几年,把基于统计的方法用于实体识别渐渐成为了研究的热点。与基于规则的 方法相比,基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的 语言学知识,并且可以在较短时间内完成,此外,基于统计的系统要移植到其他自然 语言文本也相对容易一些。因此,统计方法的优点在于对语言的依赖性小,可移植性 好。 纯统计的方法将专名识别看作一般模式识别中分类问题的一个特例,利用字标注 ( c h a r a c t e rt a g g i n g ) 的方法来进行实体识别。其基本步骤包括: l 特征选取 与一般的模式识别问题一样,专名识别中,特征的选取也是非常重要的。例如, 对于英语,克选取的特征一般包括:词缀信息、单词包( b a go f w o r d s ) 、大小写、词 第一章引言 性等。 2 机器学习策略 在语言独立的基于纯统计的专名识别系统中,学习方法的选择同样重要。模式识 别中的各种学习策略均可以被应用于实体识别过程,如:隐马尔科夫模型( h i d d e n m a r k o vm o d a l ,h m m ) n7 埔1 、最大熵模型( m a x i m u me n t r o p ym o d e l ,m e m ) 1 9 , 2 0 、支持 向量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 位、条件随机场模型( c o n d i t i o n a lr a n d o m f i e l d s ,c r f s ) 口2 矧等。另外将多种及其学习策略结合使用也是一种较好的方法。 3 标注 利用机器学习到的统计模型对输入序列进行标注,得到输入序列想对应的标注序 列。 4 后处理 由上面得到的标注序列经过后处理,即可得到实体识别的结果。 下面简单介绍几种采用统计方法进行实体识别的实例。 z h o u 心4 1 利用一个基于h m m 的组块标注器进行实体识别,识别类型包括名字、时 间、数字短语。作者对h m m 的传统公式做了改进之后使之便于融合更多的信息,包 括四种内部和外部的信息:( 1 ) 词本身的简单特征;( 2 ) 重要的触发词的内部语义特征; ( 3 ) 内部词典特征;( 4 ) 外部宏观上下文特征。z h a o 乜5 1 将h m m 应用到生物医学领域的 实体识别中,同时采用基于词的相似度( w o r ds i m i l a r i t y - b a s e d ) 的平滑方法,当使用大 规模未标注的语料时可以改善性能,降低数据稀疏问题的影响。基于h m m 的实体识 别方法效率较高,但是它融合多种信息的能力不强,同时它不能利用下文的信息,对 于复杂实体的识别将遇到困难。 c h i c u 乜印实现一个基于最大熵的英文实体识别系统,但和其他的系统不同的是, 它使用了整个文档的信息,将通常算法中最大化p ( n l s ) 修正为最大化p ( n s ,d o c ) ,是 对最大熵模型的一种扩展。最大熵方法可以结合更丰富的特征,同时体现出每个特征 的重要性。但是它的计算比较复杂并且系统开销比较大。 支持向量机是一种基于统计学习理论的模式识别方法,现在已经在许多领域( 生 物信息学、文本和手写识别等) 得到了成功的应用。在实体识别任务中,支持向量机 将实体识别看作是一个分类问题,但是由于支持向量机主要处理二元分类问题,所以 在实体识别中需要特别注意。h i d e k i 心门采用将一个类别和其他所有类别看作两类的思 想解决了多分类问题。同时,为了克服支持向量机效率偏低的问题,作者还优化了支 持向量机的二次方程k e r n e l ,提高了系统效率。尽管如此,但总体而言支持向量机的 效率还是比较低。 决策树是一种基于实例的归纳学习算法。它通过把实例从根结点排列到某个叶结 点来分类实例,叶结点即为实例所属的分类。b e c h e t 采用决策树的方法识别专有名 6 第一苹引言 词,系统克自动从名词短语包括专有名词的集合中选择最容易区分的特征,然后利用 决策树方法学习,最终可用来分类未知的专有名词。决策树方法的问题在于如何选择 最好的特征,否则不好的特征将影响最终的结果。另外,决策树的每个叶子上的事件 太少,不能有效地估计每个实体的概率,同时不能融合太多的重要信息。 基于记忆的学习方法啪1 是一种有指导的启发式分类算法。它将训练实例集看作是 多维特征空间中的点,并将它们作为基本实例存放在内存中。测试时,将输入实例与 内存中的所有实例匹配,计算它们之间的距离,并用k - n n 算法解码以判断该实例与 哪一个最接近,从而确定新实例的类别。这种方法也可以称为一种基于实例的方法。 它对实例的依赖性较强,且当实例较多的时候,与每一个实例计算相似度将会降低效 率。 g u o 使用r r m ( r o b u s tr i s km i n i m i z a t i o n ) 作为实体识别分类器,并有效结合了 基于字和基于词的模型的优点。作者以字为基本单元,将分词信息、语义特征、词性、 实体触发词等融入其中。为了体现某些特征的重要性,作者还引入了一种特征权重机 制,即在构造输入向量时将这些特征重复两次或者多次。使用i b m 标注语料测试, 总的准确率、召回率和f 值分别为8 6 7 9 、8 2 4 9 和8 4 5 9 ( 3 ) 统计和规则相结合的实体识别方法 1 角色标注方法( r o l et a g g i n g ) 张华平等口首先应用隐马尔可夫模型并使用角色标注的方法来进行中国任命的 识别。该方法的基本思想是:首先对人名的内部构成角色进行有选择的分类;然后从 标注好的语料中学习隐马尔可夫模型的参数;接着用v i t e r b i 算法对句子的粗分结果 进行构成角色的标注;最后在角色序列上进行模式串识别,并最终识别出中国人名。 这种算法的自动学习、自动识别和无需人工直接干预的特点,可以适应新的情况;一 次扫描、无需回溯,同时选取所有可能字段作为候选人名,识别处理作用在整个切分 序列上,无需激活。在大规模真实语料库上的不同测试表明,该方法能够取得较好的 正确率和召回率。 2 基于类的语言模型方法 基于类的语言模型进行专名自动识别,与角色标注的方法有相似之处,都是先利 用内部信息产生候选专名,再计算产生概率,并利用v i t e r b i 算法搜索概率最大的标 注序列来识别专名。这种方法与角色标注方法的差别在于,它所标注的是类的序列而 不是角色的序列;并且,它将分词过程和命名实体识别过程合一进行,能够更有效地 避免由于分词错误而导致的专名识别错误问题。 s u n 们用基于类的语言模型将分词和实体识别结合在一个系统中进行处理。系统 包含上下文模块和实体模块两个子模块,前者用于估计在给定的上下文环境下产生实 体的概率,后者用于估计输入的汉字序列称为某种实体的概率。利用m e t - 2 集测试f 7 第一章引言 值为8 1 7 9 ,利用l e e r 测试集测试f 值为7 8 7 5 。但该系统过于依赖统计信息, 必须用大规模的标注语料进行训练,且不可避免遇到数据稀疏问题。同时,系统不能 很好的利用其他的语言学资源。 1 1 4 研究的内容和意义 目前的实体识别研究主要集中在命名实体识别,包括前文所述公司名识别、生物 名识别、常规命名实体识别( 人名,地名,机构名,时间,数量表达式) 、商标名识 别等方面。显然,仅仅识别文本中的命名实体而不考虑他们之间存在的嵌套结构和复 杂关系,对于设计一个具有高效健壮性的信息抽取系统来说是远远不够的。 针对命名实体识别研究的局限性和信息抽取技术的向前发展,自动内容抽取 ( a u t o m a t i cc o n t e n te x t r a c t i o n , a c e ) u 幻评测提出实体提及识别( e n t i t ym e n t i o n d e t e c t i o n ,e m d ) 的概念。a c e 评测定义的实体提及概念是指文本中用来表述某个实体 的引用表达式( r e f e r r i n ge x p r e s s i o n s ) 。对于每一个实体提及,根据不同的分类体系 ( t a x o n o m y ) 识别其属性信息,也就是类别信息的标注。在a c e 评测语料中所定义的 实体检测和识别( e n t i t yd e t e c t i o na n dr e c o g n i t i o n ,e d r ) 任务中的实体都是以实体提 及的形式出现。这样实体提及识别相对于命名实体识别来说向前迈进了一步,同时也 对实体识别研究提出了更高的挑战。 实体提及识别任务同传统的命名实体识别有着密切的联系,但从难度和复杂性 上,相对命名实体识别更进一步。可以说这项任务相对于命名实体识别来说更加复杂。 这项任务的目的在于识别指定类型实体的所有提及,包括命名性提及、名词性提及还 有代词性提及,并考虑实体提及之间的嵌套结构。对于每一个实体提及,根据不同的 分类体系对识别出的实体提及进行分类,也就是多层信息的标注,这些信息主要包括 7 种实体类型、4 5 种实体子类型、3 种提及类型等。实体类型在传统常规命名实体识 别任务的基础上进行了扩充,同时进行了更细的划分。因此,a c e 评测中实体提及 检测与识别任务就包含了m u c 会议中提出的命名实体识别,而且不仅仅局限于命名 实体识别,从而扩展出识别名词性提及和代词性提及识别等更多的实体识别。因此, a c e 评测的实体提及识别( e m d ) 任务对实体识别提出了更高的要求,同时也在更大 的程度上推动了实体识别和信息抽取技术的发展。 从自然语言处理角度考虑,实体提及识别属于词法分析的范畴。众所周知,在中 文信息处理中,由于汉语文本没有明显的切分标记,因而,对中文进行词法分析就成 为中文语言深入分析的所要面对的首要问题。中文实体提及识别结果的好坏,将决定 语法分析、语义分析等语言理解全过程的性能。对于英文实体提及识别来说,这同样 重要。作为自然语言处理领域的基础性研究内容,英文实体提及识别对于英文命名实 8 第一章引言 体识别也提出了更高的要求。英文实体提及识别同样也对语法分析、语义分析,特别 是中英文机器翻译技术的提高起到很重要的作用。 从信息抽取角度考虑,在信息抽取中,实体提及识别是信息处理的前提和基础, 其性能将直接影响信息处理系统的整体性能。实体识别技术是信息处理的关键支撑技 术之一,其性能将决定信息处理发展水平,解决不好将成为信息抽取、信息处理技术 的瓶颈。 从应用角度考虑,实体是信息表达和信息传递的基础。因此,实体提及识别技术 就成为信息处理应用的基础技术。在自然语言处理和信息抽取的应用中,实体提及识 别扮演着重要的作用。实际应用的需要,是推动实体提及识别技术前进发展的直接动 力。特别是随着中文信息处理技术逐渐走出国门,积极参与到国际自然语言处理的各 项活动,主要包括各项国际会议和各项国际评测。其中美国国家标准技术局主办的自 动内容抽取评测是国内外从事自然语言处理研究工作的学者积极参与的一项重要的 评测活动。参与诸如此类的国际评测对于提高国内从事自然语言处理特别是信息抽取 的研究工作,也是有非常大的促进作用。虽然实体提及识别是由自动内容抽取( a c e ) 评测首先提出,但是实体提及识别不仅是作为a c e 评测的一项基本评测内容,而且 具有非常现实的意义,这项技术的提高对于指代消解、文本摘要、机器翻译、自动问 答等系统的设计与实现具有重大意义。进行实体提及检测与识别技术研究,对自然语 言处理和信息抽取技术都具有极其重要的意义。 1 2 本文的组织结构 本文共分为五章。 第一章是引言部分。重点介绍实体提及检测与识别研究的目的和意义。介绍了相 关课题的研究背景,推动实体识别研究向前发展的主要相关评测和会议情况和目前国 内外研究实体识别的主要方法和技术,本文所要论述的实体提及识别研究的主要内容 和研究的意义。最后给出本文的组织结构。 第二章论述本文所采用的统计机器学习方法和机器学习工具条件随机场模型的 基本原理,在介绍条件随机场模型之前先简单介绍隐马尔可夫模型和最大熵马尔科夫 模型。 第三章和第四章是本文的重点部分。第三章介绍基于条件随机场的中文实体提及 识别研究的相关问题,介绍了中文实体提及识别的基本概念和解决中文实体提及识别 的技术,并给出实验结果和分析;第四章介绍基于条件随机场的英文设施名实体识别 研究的相关问题,介绍用统计的方法解决英文实体提及识别,特别是英文设施名实体 识别的相关技术,同样最后给出实验结果和试验分析。 9 第一章引言 第五章是全文的总结部分,对本文的研究进行总结,并对后续工作和研究的深入 做进一步展望。 1 0 第二章条件随机场 第二章条件随机场 条件随机场( c o n d i t i o n a lr a n d o mf i e l d s ,c r f s ) d 2 1 最早由l a f f e r t y 等人于2 0 0 1 年提出,其模型思想主要来源于最大熵模型。我们可以把条件随机场看成是一个无向 图模型或马尔可夫随机场,它是一种用来标记和切分序列化数据的统计框架模型。目 前,条件随机场在解决英语浅层分析、英文命名实体识别口3 埘1 等自然语言处理任务时, 已经取得了良好的效果。m c c a l l u m 等人进一步将条件随机场运用到了中文分词与新 词识别油1 任务中。条件随机场的特性以及研究成果表明,它能够适用于中英文实体 识别的研究。同样,对于实体识别研究扩展的中文实体提及识别和英文实体提及识别 也能够适用。 本章将首先介绍有向图模型及其缺点,然后引入无向图模型的概念,接着介绍条 件随机场的相关知识,包括条件随机场的定义、其无向图结构、最大熵原理、势函数 的定义、参数估计和训练方法及优化技术,最后介绍条件随机场概率的矩阵实现。 2 1 有向图模型 在介绍条件随机场模型之前先来看一下统计机器学习中的两类模型:有向图模型 和无向图模型。 在统计自然语言处理领域,经常要面对的是序列标注问题根据观察值序列来确定 其状态序列。例如在词性标注任务中,需要对每个词标注其词性,在这里,词就是观 察值,而词性就是观察值的状态。一个观察值可能有多个状态,这个状态是隐藏在观 察值下面的不可见的。如何对整个观察值序列进行建模,来求出最佳的观察值序列, 是统计自然语言处理经常要面对的一个决策问题。 假设有观察值序列0 ,状态序列s 。上述问题实际上就是求出状态序列s 使得条 件概率p ( s i d ) 最大化: s = a r gm a x 刑d ) ( 2 1 ) 生成模型( g e n e r a t i v em o d e l s ) 不直接对p ( so ) 进行建模,而是先对上式进行变 换: 脚) = 等= 笔铲 ( 2 2 ) 对于给定的观察值序列,其出现的概率是一定的,所以: s :羽翟m a ) 【p ( s i d ) :锄售麟p ( o l s ) p ( s ) ( 2 3 ) 第二章条件随机场 生成模型认为观察值是由状态生成的。隐马尔科夫模型( h i d d e nm a r k o vm o d e l , h m m ) 是一种典型的生成模型。 2 1 1 隐马尔可夫模型 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 是现代语言识别系统中构建统计 模型的重要手段。现在隐马尔可夫模型已经广泛地应用到自然语言处理领域。隐马尔 可夫模型可以看作是一种特定的b a y e s n e t ,它等价于概率正规语法或概率有限状态 自动机。隐马尔可夫模型的优点在于研究得已经非常透彻、算法成熟、效率高、效果 好,并且易于训练。 对于一个随机事件,由一个观察序列:d l d f ,该事件隐含着一个无法直接观察 到的状态序列:墨墨,隐马尔可夫模型具有如下性质: 假设1 :马尔可夫假设( 状态构成一阶马尔可夫链) l s , - l ,) = p ( s b 一。) ( 2 4 ) 假设2 :时间不变性( 状态与具体时间无关) p ( 墨+ 。i s ) = p ( s j + 1 s ,) ,对任意f ,_ ,成立 ( 2 5 ) 假设3 :独立性假设( 当前观察值仅与当前状态有关) p ( d i ,o , i s ,s ,) :r i p ( d 恒) ( 2 6 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年学历类自考专业(建筑工程)结构力学(二)-土力学及地基基础参考题库含答案解析(5套)
- 2025年学历类自考专业(工商企业管理)金融理论与实务-国际贸易理论与实务参考题库含答案解析(5套)
- 山东省济南市回民中学2026届高二化学第一学期期末联考模拟试题含答案
- 2025年学历类自考专业(工商企业管理)国际贸易理论与实务-企业管理咨询参考题库含答案解析(5套)
- 2025年学历类自考专业(小学教育)中外文学作品导读-发展与教育心理学参考题库含答案解析(5套)
- 简易呼吸气囊护理比赛
- 2025年学历类自考专业(学前教育)幼儿园课程-学前教育政策与法规参考题库含答案解析(5套)
- 简报说课稿-2025-2026学年中职专业课-应用文写作基础-社会工作事务-公共管理与服务大类
- 工业企业设备维护保养方案
- 2025年新水塘荒地承包协议书
- 《材料力学》说课-课件
- 物资采购付款报销单
- 飞灰螯合物运输服务方案
- (完整版)沪教牛津版小学一至六年级英语单词汇总(最新)
- JJF 1587-2016 数字多用表校准规范-(高清现行)
- 完整课件-西方经济学下册(第二版)
- 机械制图教学通用课件(全套)
- 钢化玻璃标准
- 天星择日的基本原理
- 球阀自动泄压计算
- 期权从业考试题含答案84分
评论
0/150
提交评论