已阅读5页,还剩76页未读, 继续免费阅读
(管理科学与工程专业论文)命名实体与基本名词短语识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
广 苏州大学学位论文使用授权声明 f 脚删俐舢m 删删删j j 舢 ! y 17 3 2 i i i i i i 0 i l l l l | 6 t r f j i l 7 l i i i i 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属 在年一月解密后适用本规定。 非涉密论文口 论文作者签名: 导师签名: 日期:汐 ! ! i ,6 a _ 日期夕纠口歹_ 涉 命名实体与基本名词短语识别研究中文摘要 命名实体与基本名词短语识别研究 中文摘要 命名实体识别任务是确定文档中的人名、地名和机构名等文本片段及其类型的 过程,而基本名词短语识别的目的是找出篇章中非递归、无后修饰成分的名词短语。 二者是文本理解的基础步骤,在很大程度上影响着指代消解等自然语言处理系统的 性能。指代消解是自然语言处理的重点和难点之一,涉及机器翻译、信息提取等诸 多应用,它的解决依赖于命名实体识别、词性标注等相关技术。 本文在深入分析命名实体识别和基本名词短语识别现有技术的基础上,以命名 实体识别和基本名词短语识别为研究对象,进行了以下几个方面的工作: 首先,本文针对部分地名、机构名嵌套其他命名实体结构的特点,采用层叠条 件随机域模型来进行命名实体识别。该方法利用底层模型对简单的命名实体进行初 步识别,挑选其中若干个最好识别结果传递到高层条件随机域模型中,进一步对复 杂地名和组织机构名进行识别,提高命名实体识别的性能。 一 其次,本文对中文基本名词短语识别采用基于错误驱动的层次模型方法,初步 提取包含上下文环境信息的原子特征并进行组合,通过实验选定有效特征,再经过 训练生成两层结构的组合分类器,与单纯使用一种分类器的结果相比,层次组合策 略能有效提高系统性能。 最后,本文将命名实体识别和基本名词短语识别的研究结果应用于中文指代消 解平台,通过对预处理环节中命名实体识别和基本名词短语识别模块的改进,在 a c e 2 0 0 5 中文语料上的实验结果表明,能有效提高中文指代消解系统的性能。 关键词:指代消解;命名实体;基本名词短语;层叠条件随机域模型 作者:谭魏璇 指导教师:周国栋孔芳 a b s t r a c t命名实体与基本名词短语识别研究 r e s e a r c ho nt h en a m e de n t i t yr e c o g n i t i o na n dba s e n o u np h r a s ei d e n t i f i c a t i o n a b s t r a c t n a m e de n t i t yr e c o g n i t i o ni st h et a s ko fc l a s s i f y i n gp h r a s e st h a td e n o t ec e r t a i nt y p e s o fn a m e de n t i t i e si nad o c u m e n ti n t os o m ep r e d e f i n e dc a t e g o r i e s ,w h i l eb a s en o u n p h r a s ei d e n t i f i c a t i o ni st of i n dt h en o u np h r a s e sw i t h o u tr e c u r s i v es t r u c t u r eo rp o s t - m o d i f i e r si nt h ed i s c o u r s e b o t ht a s k sa r er e g a r d e da sf o u n d a t i o n a ls t e p st o w a r dt e x t p r o c e s s i n g ,a n da r es u b s t a n t i a l l ys i g n i f i c a n t t o d e e pn a t u r a ll a n g u a g ep r o c e s s i n g a p p l i c a t i o n s a sa n o t h e rc r u c i a l i s s u ei n d e e pl a n g u a g ep r o c e s s i n g ,c o r e f e r e n c e r e s o l u t i o nh a sb e e nd r a w i n gm o r ea n dm o r ea t t e n t i o nd u et oi t si m p o r t a n c ei nn l pt a s k s , s u c ha sm a c h i n et r a n s l a t i o na n di n f o r m a t i o ne x t r a c t i o n h o w e v e r , t h ep e r f o r m a n c eo f c o r e f e r e n c er e s o l u t i o nh i g h l yd e p e n d so nt h ep e r f o r m a n c eo fn a m e de n t i t yr e c o g n i t i o n , p a r t - o f - s p e e c ha n de t c o nt h ea n a l y s i so ft h er e l a t e dw o r ki nt h i sl i t e r a t u r e ,t h ep a p e rf o c u s e so nn a m e d e n t i t yr e c o g n i t i o na n db a s en o u np h r a s ei d e n t i f i c a t i o n 1 1 1 ec o n t r i b u t i o no ft h i sw o r k i n c l u d e s : f i r s t l y , t h i sp a p e rt a k e st h ec h a r a c t e r i s t i c so ft h en e s t i n gn a m e de n t i t ys t r u c t u r ei n t o c o n s i d e r a t i o n ,a n da d o p t sac a s c a d e dc r fm o d e lf o rn a m e de n t i t yr e c o g n i t i o nt a s k t h e p e r s o nn a m e sa sw e l la st h es i m p l el o c a t i o na n do r g a n i z a t i o nn a m e sa r ef i r s tr e c o g n i z e d b yt h el o w e rm o d e l t h eb e s tr e s u l t sa r et h e np a s s e dt ot h eh i g hm o d e l ,a n ds u p p o r tt h e d e c i s i o no fh i 曲m o d e lf o rr e c o g n i t i o no ft h ec o m p l i c a t e dl o c a t i o na n do r g a n i z a t i o n n a m e s 1 1 1 er e c o g n i t i o ni si m p r o v e di nc o n s e q u e n c eo ft h ec a s c a d e dm o d e l s e c o n d l y , t h i sp a p e rh a sa d d r e s s e dt h e i s s u eo fb a s en pi d e n t i f i c a t i o nv i aa l l e r r o r - b a s e dc a s c a d e dm o d e la p p r o a c h t h ea t o m i cf e a t u r e sa r ec o m b i n e dt oc o m p r i s e c o n t e x ti n f o r m a t i o na sm u c ha sp o s s i b l e ,a n da l et h e ne x p e r i m e n t a l l ye v a l u a t e d t h e r e s u l t ss h o wt h a tt h ec o m b i n e dc l a s s i 6 e r sw i t ht w ol e v e l sa r em o r ee f f i e c t i v et h a nt h e u 命名实体与基本名词短语识别研究a b s t r a c t a p p r o a c h e so fo n e - c l a s s i f i e r - o n l y f i n a l l y , t h i sp a p e rh a sm a d eap r e l i m i n a r yi n v e s t i g a t i o no ft a k i n gt h eo p t i m a l r e c o g n i t i o no ft h ea b o v et w ot a s k si n t ot h es v m b a s e dc h i n e s ec o r e f e r e n c er e s o l u t i o n p l a t f o r m ,i n s t e a do ft h er u l e b a s e dp r e p r o c e s s i n g t h ee v a l u a t i o nr e s u l t so na c e2 0 0 5 c h i n e s ec o r p u ss h o wt h a to u rw o r kc a ni m p r o v et h es y s t e ms i g n i f i c a n t l y k e yw o r d s :c o r e f e r e n c er e s o l u t i o n ;n a m e de n t i t y ;b a s en o u np h r a s e ;c a s c a d e d c o n d i t i o n a lr a n d o mf i e l d sm o d e l w r i t t e nb yt a nw e i x u a n s u p e r v i s e db yz h o ug u o d o n g ,k o n gf a n g i i i 目录 第一章绪论j 1 1 1 课题背景l 1 2 研究意义3 1 3 研究现状及趋势4 1 3 1 命名实体识别的研究现状5 1 3 2 基本名词短语识别的研究现状一7 1 4 本文研究内容9 1 5 论文结构1o 第二章命名实体识别研究1 1 2 1 命名实体识别任务描述1 l 2 1 1 序列标注问题1 l 2 1 2 标注方法简介1 2 2 1 3 标记偏置问题1 3 2 2 相关研究。1 4 2 2 1 条件随机域相关研究1 4 2 2 2 层叠条件随机域相关研究l5 2 3 条件随机域模型简介。16 2 4 特征模板的选择17 2 4 1 人名特征模板l7 2 4 2 地名特征模板一2 0 2 4 3 组织机构名特征模板21 2 4 4 其他特征模板2 3 2 5 基于层叠条件随机域模型的命名实体识别2 3 2 5 1 层叠条件随机域模型框架2 4 2 5 2 训练和标注2 5 2 6 实验结果与分析2 6 2 6 1 实验语料2 7 2 6 2 评测指标2 7 2 6 3 结果分析2 7 2 7 本章小结3 0 第三章基本名词短语识别研究3 l 3 1 基本名词短语识别任务描述3l 3 1 1 问题描述3l 3 1 2 特征函数及约束3 2 3 2 相关研究3 3 3 3 基本名词短语识别的系统框架。3 4 3 4 分类器的选取。3 4 3 4 1s v m 模型3 5 3 4 2t b l 模型。3 6 3 4 3 组合分类器模型3 7 3 5 特征的选取3 8 3 5 1 特征描述。3 8 3 5 2 原子特征和复合特征3 9 3 6 实验结果与分析4 0 3 6 1 评测标准4 0 3 6 2 特征选择实验。4 l 3 6 3 组合分类器策略4 2 3 7 本章小结4 4 第四章命名实体和基本名词短语识别在指代消解中的应用4 5 4 1 指代消解的基本概念及研究意义一4 5 4 2 中文指代消解平台概述4 6 4 3 指代消解的预处理4 7 4 3 1 分旬和分词4 7 4 3 2 词性标注和命名实体识别4 8 4 3 3 名词短语和语义信息的获得4 9 4 4 特征向量的选择5 1 4 5 训练实例和测试实例的生成5 3 4 5 1 基于规则的过滤5 3 4 5 2 构建训练实例5 4 4 5 3 构建测试实例5 4 4 6 中文指代消解原型系统实验。5 5 4 6 1 实验语料5 5 4 6 2 评测方法5 6 4 6 3 中文原型系统性能5 7 4 7 识别结果在中文指代消解上的应用5 7 4 7 1 改进的中文指代消解平台5 7 4 7 2 实验结果与分析5 8 4 8 本章小结5 9 第五章总结和展望6 0 5 1 总结6 0 5 2 展望6 1 参考文献6 3 攻读学位期间公开发表的论文6 8 攻读硕士学位期间参与的项目6 8 致谢6 9 命名实体与基本名词短语识别研究第一章绪论 第一章绪论 2 l 世纪,人类步入信息时代,信息产业开始主导全球经济发展,以计算机为代 表的新技术在科技产业中占据重要的地位,成为信息社会发展的推手。信息时代的迅 猛发展也带来了技术的革命,对自然语言处理等核心技术提出了更高的要求。同时, 用户对及时获取有效信息的需求日益紧迫,促使信息检索、信息抽取、文本分类、自 动文摘、机器翻译等技术快速发展,以满足人们对信息精确定位的各种需求。 本文主要探讨信息抽取中的关键技术命名实体识别和基本名词短语识别, 并将其应用到中文指代消解中,以提高中文指代消解平台的性能。本章详细叙述了课 题背景,分析了命名实体识别和基本名词短语识别等问题的研究意义和有关研究状 况,并介绍了本文的主要工作和整体内容安排。 1 1 课题背景 自然语言是指我们日常使用的语言,是人类交流和表达思想情感最基本的工具。 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,n l p ) 起源于应用语言学,是人工智能 ( a r t i f i c i a li n t e l l i g e n c e a i ) 领域的重要研究内容之一,其任务是以文字表示的词汇、语 句、篇章和对话等为主要处理对象,利用语言学、认知学、逻辑学和信息学等领域知 识,研制表示语言能力( l i n g u i s t i cc o m p e t e n c e ) 和语言应用( l i n g u i s t i cp e r f o r m a n c e ) 的模 型,从而设计出各种实用系统【l 】。语言信息处理水平和每年处理的信息总量已经成为 衡量一个国家现代化水平的重要标志。如何实现自然语言的有效理解,打破不同语言 之间的固有壁垒,为人际和人机之间的信息交流提供更便捷、有效的帮助与服务,已 经成为备受关注的国际前沿研究课题。随着信息社会的发展,语言表现形式更具有灵 活性、多样性和广泛性,使得通过计算机来处理这类问题充满了极大的挑战。 在信息大爆炸时代,人们在享受着获取海量信息的轻松便利,同时也面临着如何 从浩如烟海的信息中找到有效信息的困境,信息抽取( i n f o r m a t i o ne x t r a c t i o n ,i e ) 应运 而生。作为自然语言处理的重要应用之一,它通过对原文档内容合理的分析和组织, 抽取出有意义的事实,从而帮助用户方便地找到所需信息。信息抽取研究的蓬勃开展 第一章绪论 命名实体与基本名词短语识别研究 也得益于“消息理解会议”( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ,m u c ) 眵儿副的召开。m u c 定义的信息抽取任务的各种规范和评价体系也成为信息抽取研究事实上的标准。美国 国家标准技术局( n i s t ) 在“9 1 l 事件后,出于对国土安全的考虑,又资助了系列“自 动内容抽取 ( a u t o m a t i cc o n t e n te x t r a c t i o n , a c e ) 平i 贝j j 会议1 ,主要研究自动抽取新闻 语料中出现的实体、关系、事件等内容,包括英语、汉语和阿拉伯语等语种。a c e 评测目前不针对某个具体的领域或场景,而是采用基于漏报( 标准答案中有而系统输 出中没有) 和误报( 标准答案中没有而系统输出中有) 的一套评价体系,并对系统跨 文档处理能力进行评测。a c e 和m u c 的具体评测任务如表1 1 、表1 2 所示。 表1 - 1a c e 评测任务 任务描述 实体识别和跟踪( e d t ) 负责识别各种命名实体和相关实体参照,并且解决 它们之间的指代问题 关系识别和描述( r d c )负责抽取两个实体间的语义关系 事件识别和描述( e d c ) 负责事件的抽取 实体链接( l n k ) 负责将文章中出现的各种表述指向不同的实体,从 而给出一个实体全面的描述 表l - 2m u c 评测任务 任务描述 命名实体( n e ) 识别文本中的固有名称、缩写及其他唯一标识 多语言实体( m e ) 对应于汉语和日语的命名实体任务 共指( c o r e f e r e n c e ) 将不同的指代连接到同一实体上 模板元素( t e ) 从一个文本中找到所有关于规定的实体的基本信息,从而形 成完整的描述 模板关系( t r )规定了三种关系:人物和任职关系、产品的制造厂商关系、 机构所在地点关系 场景任务( s t )信息抽取系统输出的原型,将实体及其关系有机组织在一起 1 h t t p :w w w i d c u p e n n e d u p r o j e c t s a c e 2 命名实体与基本名词短语识别研究第一章绪论 其中a c e 评测识别的实体共7 类,包括人物( p e r s o n ) 、地理政治实体( g e o - p o l i t i c a l e n t i t y ) 、地名( l o c a t i o n ) 、组织( o r g a n i z a t i o n ) 、武器( w e a p o n ) 、交通工具( v e h i c l e ) 、 设施( f a c i l i t y ) 等,另外还包括了对时间( t u n e ) 和数值( v a l u e ) 的识别。因此, 命名实体可以看作是a c e 识别实体的子集。 从表中不难发现,命名实体识别是a c e 和m u c 评测任务中的核心任务之一。 而基本名词短语作为篇章的基本结构,也是文本理解的重要基础。在这些评测会议推 动信息抽取技术迅速发展的同时,信息抽取的研究重点也从命名实体识别、句法分析 走向了更深层次的篇章分析、语义特征标注、共指消解、机器翻译( m a c h i n et r a n s l a t i o n ) 等领域,各项技术也逐步趋向融合。因此,作为基本任务的命名实体和基本名词短语 的识别与分析也对指代消解、机器翻译、文本分类以及句法分析等应用有重要影响。 1 2 研究意义 命名实体和基本名词短语识别属于文本处理的基础研究领域,是包括指代消解在 内的自然语言处理众多应用的共同而基础的问题,在研究中已分别发展为独立分支, 其研究成果将直接影响到文本信息自动化处理的深层次研究,具有较高的实用意义。 命名实体( n a m e de n t i t y ) 是文本中的基本信息元素,指那些能够明确指称外部世 界某一对象的名词或名词短语。狭义的命名实体指现实世界中具体的或抽象的实体, 通常用唯一的标识符( 专有名称) 表示,如人名、地名、组织机构名等。广义的命名 实体还包含时间表达式( 日期、时间) ,数量表达式( 货币值、百分数) 等。命名实 体识别( n a m e de n t i t yr e c o g n i t i o n ,n e r ) 就是确定文档中的人名、地名和机构名等文 本片段并识别其类型的过程。 作为自然语言处理研究的关键技术之一,命名实体识别是对文本进行理解的前提 工作,其识别质量会直接影响到后续的一系列工作。例如,如果在指代消解的预处理 环节中没有准确识别出实体,就无法得到实体关系,更不能进一步解决指代消解问题。 名词短语是以名词为主体的短语,它的性质和作用与名词相同。基本名词短语 ( b a s en p ) 这一概念由c h u r c h t 4 】在英语中首次提出,是指简单的非嵌套的名词短语,即 内部不能再包含更小的名词短语。在汉语中,名词短语的定语可以分为限定性定语、 区别性定语和描述性定语这三种类型,黄昌宁等【5 】从限定性定语出发,给出汉语基本 3 第一章绪论命名实体与基本名词短语识别研究 名词短语的形式化描述: b a s e n p b a s e n p4 - b a s 订岬 b a s e n p b a s e n p4 - 名词1 名动词 b a s 讣m 一限定性定语4 - b a s e n p b a s e n p 一限定性定语+ 名词j 名动词 限定性定语一形容词i 区别词l 动词1 名词l 处所词i 西文字串i 数量词 结合汉语的特点和英文中对基本名词短语的解释,本文将基本名词短语定义为具 有单一的语义核心、非嵌套的名词短语。它包括单个名词,没有任何修饰成分的名词 短语,难以确定修饰关系的一串名词,并列名词性成分,专有名词,时间,地点等 6 1 。 表1 3b a s e n p 和非b a s e n p 示例 b a s 卧汴 b a s e n p 足球比赛,营销方式,自然语言处理,复杂的情况,这个日子,高速发展的经 产品结构,第二次世界大战济,对于形势的估计,1 3 亿人民 在自然语言处理领域,短语对机器翻译、信息检索、信息抽取和文本分类等应用 领域起重要作用。首先,短语作为居于句子和单词之间的语言单位,可以由一两个词 组成,也可以是整个句子。它具有更丰富的语义,且不能简单地由短语的成分词来表 示。其次,许多专有词汇本身就以短语的形式存在,如“自然语言处理 和“第二次 世界大战”等,而专有词汇在真实文本中是大量存在的。另外,对于中文而言,词汇 本身更具有歧义,相对于词汇而言,短语的歧义性要小得多。因此,在大规模文本处 理中,用短语代替词汇来表示文本,更能反映出文本的语义。 在自然语言处理过程中,能否准确识别出其中的名词短语是至关重要的。基本短 语的识别和分析是自然语言浅层句法分析的重要任务之一,它的分析结果可以简化句 子结构,降低句法分析的复杂度;同时作为一种确定性很高的部分分析结果,它能解 决绝大部分的局部歧义结构问题,从而为进行深层次的分析处理打下基础。 1 3 研究现状及趋势 由于命名实体识别和基本名词短语识别在信息抽取应用中占有重要的地位和作 用,随着信息抽取技术的不断发展,它们也成为研究的热点,国内外许多专家和学者 4 命名实体与基本名词短语识别研究第一章绪论 对其进行了深入的研究,并已逐渐发展成为独立的研究分支。下面对这两个问题的研 究历史和研究现状分别进行介绍。 1 3 1 命名实体识别的研究现状 在m u c 和a c e 评测会议的推动下,命名实体识别已经成为热点研究课题。国 内对命名实体识别的研究也在不断升温,2 0 0 3 年的8 6 3 计划中文信息处理与智能人 机交互技术评测中,首次将中文命名实体识别作为分词标注评测的子任务,在2 0 0 4 年更将其作为一个独立的评测项目。 由于命名实体有开放性和发展性的特点,构成规律又有较大的随意性,使得识别 它们具有一定的难度,主要表现为: ( 1 )实体名称表现形式和变化形式多元,构词方式随意,没有严格的规律可以遵循; 甚至在不同领域、场景下,命名实体的外延都有差异。 ( 2 )命名实体数目众多,无法枚举并全部收录在词典中,并仍然处于不断发展中。 ( 3 )有的命名实体在篇章中首次出现以后一般采用缩写形式。 ( 4 )中文命名实体的生成规律及结构更加复杂,不确定性更大。尤其是缩略语和别 名的表示形式具有多样性,很难提取构成规则。 ( 5 )中文没有诸如英文命名实体多以大写字母开头等显式特征,缺少在命名实体识 别中起重要作用的词形变换特征。 ( 6 )中文命名实体中可以包含普通字词。事实上,几乎所有的汉字本身都可以作为 词使用,包括那些常用的人名用字和地名用字,给命名实体带来了很大的困难。 目前命名实体识别的方法通常有:基于规则的方法( r u l e b a s e d ) 、基于统计的方法 ( s t a t i s t i c b a s e d ) 以及规则和统计相结合的方法等。 ( 1 ) 基于规则的方法 早期的命名实体识别大多采用人工总结各种判定规则,然后通过规则匹配的方式 来识别各种类型的命名实体。规则主要使用两类信息:命名实体用字分类和限制性成 分,通常包括词法、语法甚至语义规则,实体本身和上下文的关系以及用词情况等。 这些规则往往依赖于具体语言、领域或文本格式,编制过程耗时费力,而且词典中命 名实体数量庞大,难以完全列举,如果一旦增加新的命名实体或进行修改,就需要对 第一章绪论命名实体与基本名词短语识别研究 以前的相关规则重新修订,难以扩展。 基于规则方法的命名实体识别系统有谢菲尔德大学的l a s i e i i 系统【7 1 ,f a c i l e 系统【8 】,n y u 的p r o t e u s l 9 系统等。d i m i t r a 等1 0 1 以一个人工获取的词典资源作为基础, 将命名实体识别分为预处理、n e 边界识别和n e 分类三个部分。在一个1 4 万词的希 腊金融语料上测试,机构名、人名和地名的f 值分别达到8 6 9 、8 1 6 和8 2 4 。 在中文方面,谭红叶等【l l 】采用基于转换的错误驱动的方法来获取识别地名的上下 文有关规则,然后应用这些规则对当前标注结果进行转换来实现中文地名的识别,在 小规模测试集上的准确率达到9 0 9 。 王宁等利用规则的方法进行金融领域的公司名识别。首先分析金融新闻文本, 根据公司名的机构特征及上下文信息总结出六个公司名知识库,然后采取两次扫描的 方法进行识别。在封闭测试中识别的精确率、召回率分别为9 7 3 和8 9 3 ,在开放 测试中分别达到6 2 8 和6 2 1 。在封闭测试和开放测试上结果的差异表明,该系统 对知识库的依赖程度很大。 基于规则的方法普遍存在的问题是,当采用了和系统相关的多种信息规则时,系 统的识别效果较好,但移植到另一个领域时,则存在规则适应性降低、需要重新总结 规则等局限性。因此,规则知识的获取成为制约基于规则方法发展的瓶颈。 ( 2 ) 基于统计的方法 随着因特网的迅速发展和标注语料库的出现,获得实验语料越来越方便,人们开 始趋向于用统计的方法进行命名实体识别。常用的统计模型有隐马尔科夫模型 ( h i d d e nm a r k o vm o d e l ,h m m ) t 1 3 1 、最大熵( m a x i m u me n t r o p y , m e ) 【1 4 1 、支持向量机 ( s u p p o r tv e c t o rm a c h i n e ,s v m ) t 1 5 1 决策树( d e c i s i o nt r e e ) t 1 6 1 、条件随机域( c o n d i t i o n a l r a n d o m f i e l d s ,c r f ) t 1 7 1 18 】【1 9 】【2 0 】、基于转换的学习方法( t r a n s f o r m a t i o n b a s e d l e a r n i n g ) t 2 1 】以及基于b o o t s t r a p p i n g 的方法【2 2 1 等。 目前英文命名实体识别技术已经比较成熟,而中文方面研究起步较晚,由于中文 本身的特点,研究难度也较大。 张华平等【2 3 1 提出了一种基于角色标注的命名实体识别方法,首先采用v i t e r b i 算 法对切词结果进行角色标注,然后在此基础上进行模式最大匹配,最终实现中国人名 的识别,f 值达到了9 5 4 。 秦文等【冽采用决策树的方法,首先把命名实体识别看成一种分类问题,再用决策 6 命名实体与基本名词短语识别研究第一章绪论 树的方法来解决这个分类问题。通过对语料库及现代汉语语素数据库的统计,得到六 类知识,然后用这些知识作为属性构建训练集,从而生成决策树。在开放测试集上的 召回率和正确率分别为6 9 4 2 和4 0 4 1 。 此外,g o hc l 等【2 5 】采用s v m 的方法进行中国人名和组织机构名的自动识别, l i l s h 等【2 6 】提出s v m 与概率统计结合的混合模型进行命名实体识别,黄德根等【2 7 】 提出并实现了一种基于c r f 的中国人名识别方法,都分别取得了较好的识别精度。 ( 3 ) 规则和统计相结合的方法 目前一些系统将统计与规则结合起来,采用统计方法对命名实体进行识别,再利 用规则机制对其进行校正过滤。 y e 等【2 8 】提出一种基于多重主体结构推理模型的中文命名实体识别方法。它将识 别过程分为两步:首先使用贪心算法和n e 推理模型来评价和检测出文本中所有候选 的命名实体。然后,将选出最大可能性是n e 的过程作为一个多重主体协商问题来处 理。这种方法可以识别复杂的命名实体,但是系统的总体运行效率不高。 微软亚洲研究院的g a o 等设计实现的m s r s e g 系统【冽是一个以统计方法为主的 分词系统,集成了中文分词、命名实体识别、未登录词识别等多项功能,系统针对中 国人名、外国译名、地名、组织名等各种命名实体词的结构特点,采用了不同的识别 方案和概率计算方法来进行识别,对于时间和数字则采用了有限状态自动机来进行识 别。该系统采用微软自定义的测试集( m s r ) 进行测试,人名的精确率和召回率分别为 8 7 和9 0 6 ,地名为8 9 2 和8 5 5 ,组织名为81 6 和6 5 4 。 张晓艳等【3 0 】针对三种重要的命名实体,即入名、地名和组织名,提出了一种隐马 尔科夫模型和最大熵模型相结合的汉语命名实体识别的方法。通过将命名实体识别和 词性标注两个任务一体化,融合两种统计模型进行命名实体识别,其中h m m 从句子 范围上对命名实体识别进行约束,而m e 则在当前词的上下文范围内估计一个词串被 标记为某种命名实体的概率,三种命名实体的f 值分别为8 1 5 4 ,8 2 8 和7 2 6 3 。 1 3 2 基本名词短语识别的研究现状 基本名词短语的识别方法总体上可分为基于规则的方法、基于语料库的方法以及 多种策略相融合的方法,下面分别详细介绍。 7 第一章绪论命名实体与基本名词短语识别研究 ( 1 ) 基于规则的方法 基本名词短语识别的基于规则的方法,是根据人工书写的、自动或半自动获取的 语法规则标注出短语的边界和短语的类型。当输入句子中的短语满足规则时,就插入 短语边界。如果规则发生冲突,则按最长匹配原则,选择较长的作为最后结果。例如, a b n e y 的语块分析系统c a s s 3 l 】就采用人工总结规则的方法。 由于人工书写规则耗时费力,又无法覆盖所有语言现象,因此,从语料库自动或 半自动获取名词短语语法规则成为又一选择。这种方法的难点是规则的获取和排序, 而各种算法的区别也正在于此,代表性的如e r i cb r i l l l 3 2 1 基于转换的错误驱动的学习方 法和c a r d i e & p i e r c e 的t r e e b a n ka p p r o a c h l 3 3 】等。t a 方法是将标注好短语信息的语料 库分为用于训练和用于剪枝两个部分,将从训练语料中得到的组成规则应用到剪枝语 料中,并对这些规则进行打分,选出那些得分高的规则用来识别名词短语。 ( 2 ) 基于语料库的方法 近年来随着大规模语料库的建立和发展( 如英语的p e n nt r e eb a n k ) ,使得从语 料库中获得知识成为可能,随之也产生了一些基于语料库的统计方法,如边界统计方 法,基于实例的方法和互信息方法等。 c h u r c h 等1 3 4 】使用了一种边界统计方法来识别名词短语。首先从标注好的语料中 统计名词短语开始和结束位置以及各自前一位置的词性符号,从而得到名词短语开始 位置和结束位置的两个概率矩阵。该方法从输入语句中得到相邻两个词性标注,然后 选择概率矩阵中最大概率值并插入开始和结束标志。 基于实例的方法也叫基于记忆的方法。作为一个基于分类的有指导的机器学习方 法,它根据特定任务存储大量例子集,每一个例子和一个特征矢量( 问题描述) 相关 联,同时也对应某一个类( 解决方案) 。特征矢量和它的对应类构成一个相似矩阵( 距 离矩阵) 。当给定一个特征矢量,就从实例中寻找和这一特征矢量最相似的特征,并 从相似矩阵中找到它的分类,即解决方案。这种方法的关键是相似度的衡量和计算 3 5 1 。 此外,z h o u 的错误驱动的隐马尔科夫方法p 6 】、苟恩东的统一统计模型1 3 7 1 和 s v m t 3 3 】等方法都是基本名词短语识别的典型方法。 ( 3 ) 多种策略相融合的方法 规则方法与统计方法各有优缺点,因此在实际使用中,这两种方法往往结合使用, 相互补充。经过多年尝试,研究者们也越来越倾向于综合多种方法以及应用不同的语 8 命名实体与基本名词短语识别研究第一章绪论 言模型来识别名词短语,以更有针对性地解决不同的问题。 梁颖红等【3 明提出了一种边界统计和词性串校正相结合的方法,把基本名词短语识 别分成主次分明的两部分:边界统计和词性串规则校正。词性串规则的迅速获取是通 过统计训练语料中组成名词短语的词性串组成规律得到,再进行基本名词短语的识别 程序,在英语和中文语料上f 值分别达到了9 6 9 0 和9 5 0 4 。 此外,组块分析领域中也包含对基本名词短语识别研究,如周强1 4 0 1 介绍了汉语句 子的组块分析体系,引入了词界块和成分组的概念,将成分识别问题从句法分析任务 中分离出来;张昱琪f 4 1 1 和李珩【4 2 】分别把基于记忆和s v m 的方法运用到中文语块识别 中,前者正确率、召回率分别为9 5 2 和9 3 7 ,后者f 值达到8 8 6 7 。 由于汉语本身的特点,中文名词短语识别还具有以下难点: ( 1 )分词仍然是中文信息处理的一个难题。汉语的词语间没有明确的界限,分词错 误会持续到命名实体识别中。 ( 2 )汉语是通过语义来驱动意义的表达,在汉语中存在很多的兼类词,这也给名词 短语的识别和组块分析带来了难点。 ( 3 )汉语和英语之间存在明显差异,如英语中的单复数信息、人名的性别信息等在 汉语中都不明显,使得直接借鉴英文的处理方法存在一定的困难。 至此,本文详细叙述了命名实体识别和基本名词短语识别的技术路线、方法及其 优缺点,以及目前的研究状况。 1 4 本文研究内容 通过对命名实体识别和基本名词短语识别的研究方法的分析,本文针对命名实体 和基本名词短语识别的特点,分别选择与之相适应的方法进行研究,并将其作为对预 处理环节的改进应用于中文指代消解平台上,以提高中文指代消解的性能。本文围绕 命名实体和基本名词短语识别这两大问题,主要进行了以下几个方面的探索和研究: ( 1 ) 采用条件随机域模型对中文命名实体进行识别,并进一步采用基于层叠条件随 机域模型,探讨其对系统性能的影响。 ( 2 ) 采用多种分类器对中文基本名词短语识别进行研究,并在此基础上进行混合策 略的层次分类器模型对中文基本名词短语识别的研究与实验。 9 第一章绪论 命名实体与基本名词短语识别研究 ( 3 ) 将命名实体识别和基本名词短语识别系统作为优化的预处理环节,应用到中文 指代消解平台中,探讨其对中文指代消解系统性能的改进与贡献。 1 5 论文结构 第一章为绪论。 首先叙述了课题的研究背景,介绍了命名实体识别和基本名词短语的概念及研究 意义,然后详细描述了近来的研究方法和研究现状,最后介绍了本文的主要工作。 第二章,命名实体识别研究。 在深入分析命名实体现有技术的基础上,针对部分地名、机构名嵌套其他命名实 体结构的特点,采用层叠条件随机域模型来进行命名实体识别,提高了命名实体识别 任务的准确性。 第三章,基本名词短语识别研究 采用基于混合统计模型的中文基本名词短语识别算法,经过统计分析,提取包含 上下文环境信息的原子特征,通过组合和实验进一步选定有效特征,再通过训练生成 组合分类器,进一步提高系统性能。 第四章,优化的预处理环节对中文指代消解系统性能的贡献。 首先详细介绍了基于机器学习的中文指代消解平台,并分析了本文基准平台的性 能。然后将命名实体识别和基本名词短语识别结果应用到中文指代消解平台中,实验 表明两项识别的改进有效提高了本文中文指代消解系统的性能。 第五章,总结全文并展望下一步的研究工作。 l o 命名实体与基本名词短
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浅谈国企的人力资源管理
- 招聘分析报告
- 水泥生产技术规范与行业标准
- 文化产业的发展瓶颈与突破路径
- 从新经济时代谈企业人力资源管理的创新与发展
- 2025公共关系学毕业论文选题题目
- 毕业论文选题的原则与方法
- 企业人力资源管理数字化转型研究报告
- 浅析HSE绩效管理
- 单位管理制度汇编合集员工管理十-20250129-233756
- 园林花卉病虫害防治技术
- C++可视化编程技术研究与应用
- 医疗机构依法执业自查管理办法
- 2024年甘肃省普通高中信息技术会考试题(含24套)
- 真空干燥箱校准规范
- 也是冬天也是春天:升级彩插版
- 茂名市恒兴养殖有限公司江湖镇龙梅生产基地建设项目环评报告
- 滑触线施工方案
- 小学二年级上册书法教案
- 垃圾池施工方案
- 儿内科神经肌肉系统疾病诊疗规范2023版
评论
0/150
提交评论