




已阅读5页,还剩61页未读, 继续免费阅读
(信号与信息处理专业论文)面向信息抽取的中文命名实体识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 文本信息抽取是海量文本信息处理的重要环节,旨在为人们提供从海量联机 文本中快速、准确地获取有用信息的工具,是个具有高度理论和实用价值的研 究课题。命名实体识别实现了从众多信息中标识并分离出相关的命名实体,它是 信息抽取中最为基本的任务,是语言信息处理技术中的关键基础技术,是正确理 解和处理文本信息的基础。进行文本分析时,命名实体识别就成为信息处理的首 要任务。另外,命名实体识别的研究还有利于信息检索、机器翻译、文本分类等 应用系统的实现。因此,研究命名实体的自动识别具有重要的理论意义和实践价 值。 本文以现代汉语文本中的人名、地名和组织名识别为研究对象开展工作,主 要内容如下: 1 将条件随机场应用到了中文命名实体识别的研究中。条件随机场作为一 种比较新型的机器学习方法,能够克服一些模型中存在的标记偏置问题并避免了 严格的独立性假设,在序列标记任务中表现出了良好的性能。 2 根据各类命名实体的特点,本文提出了适合于人名、地名以及组织名的 特征函数模板,包括各种原子特征模板与组合特征模板,并通过实验验证了各类 特征的作用,分析了使用不同的特征模板对识别结果的影响,确定了有效特征。 通过将各种反映语言本身规则的特征以及反映训练语料的特征加入到模型中,这 些特征有机融合,提高了命名实体识别的性能。 3 使用了基于字一级的条件随机场模型进行了命名实体识别实验,并在实 验中加入了一定的规则进行结果修正,提高了命名实体识别率。 关键词:信息抽取;命名实体识别;条件随机场 哈尔滨工程大学硕士学位论文 a b s t r a c t t e x ti n f o r m a t i o ne x t r a c t i o ni sa ni m p o r t a n tp a r to fm a s st e x ti n f o r m a t i o n p r o c e s s i n g ,a i m e da tp r o v i d i n gp e o p l ew i t ht h et o o lt oo b t a i nu s e f u li n f o r m a t i o n f r o mt h em a s so n l i n et e x tq u i d d ya n da c c u r a t e l y ,i ti sah i g h l yt h e o r e t i c a la n d p r a c t i c a lv a l u eo ft h er e s e a r c ht o p i c n a m e de n t i t yr e c o g n i t i o nr e a l i z e si d e n t i f i e d a n di s o l a t e dt h er e l e v a n tn a m e de n t i t i e s 鼢l o t so fi n f o r m a t i o n , i ti st h em o s t b a s i ct a s ko fi n f o r m a t i o ne x t r a c t i o n , a n di ti sa l s ot h ek e yf o u n d a t i o nt e c h n o l o g y o fl a n g u a g ei n f o r m a t i o np r o c e s s i n gt e c h n o l o g ya n dt h ef o u n d a t i o no ft e x t i n f o r m a t i o nc o r r e c tu n d e r s t a n d i n ga n dp r o c e s s i n g f o rt e x ta n a l y s i s ,n a m e de n t i t y r e c o g n i t i o nh a sb e c o m et h ep r i m a r yt a s ko fi n f o r m a t i o nt r e a t m e n t i na d d i t i o n , t h e s t u d yo fn a m e de n t i t yr e c o g n i t i o ni sa l s ob e n e f i c i a lt or e a l i z em a n ya p p l i c a t i o n s y s t e m ss u c ha si n f o r m a t i o nr e t r i e v a l , m a c h i n et r a n s l a t i o n , t e x tc l a s s i f i c a t i o na n d s oo n t h e r e f o r e , t h es t u d yo fa u t o m a t i cn a m e de n t i t yr e c o g n i t i o nh a sa n i m p o r t a n tt h e o r e t i c a la n dp r a c t i c a lv a l u e i nt h i sp a p e r , t h em a i nr e s e a r c hw o r ki st h er e c o g n i t i o no ft h ep e r s o nn 御l l e s , l o c a t i o ni i r l n e sa n d o r g a n i z a t i o n 1 矗t 1 2 1 e si nt h em o d e mc h i n e s e l a n g u a g e v e r s i o n , t h em a i nc o n t e n t sa l ea sf o l l o w s : f i r s t , c o n d i t i o n a lr a n d o mf i e l d sm o d e li sa p p l i e dt ot h es t u d yo fc h i n e s en a m e d e n t i t yr e c o g n i t i o n c o n d i t i o n a lr a n d o mf i e l d sm o d e l ,a sam o r en e wt y p eo f m a c h i n e l e a r n i n gm e t h o d s ,c a no v e r c o m et h ei s s u eo fm a r k i n gb i a se x i s t i n gi ns o m em o d e l s , a v o i dt h es t r i c ti n d e p e n d e n c ea s s u m p t i o na n ds h o wg o o dp e r f o r m a n c ei nt h e s e q u e n c et a g sm i s s i o n s e c o n d , a c c o r d i n gt ot h ec h a r a c t e r i s t i c so f v a t i o u st y p e so f f r a m e de n t i t i e s ,t h i s p a p e rp r o p o s e st h ec h a r a c t e r i s t i cf i m c t i o nt e m p l a t e sw h i c h 锄s u i t a b l ef o rp e r s o n l l a m e s ,p l a c en a m e sa n do r g a n i z a t i o nn a m e s ,i n c l u d i n gv a r i o u sa t o m i cc h a r a c t e r i s t i c f e a t u r e t e m p l a t e s a n dc o m b i n a t i o nc h a r a c t e r i s t i cf e a t u r e t e m p l a t e s t h r o u g h 哈尔滨工程大学硕士学位论文 e x p e r i m e n tt h i sp a p e rv e r i f i e st h er o l eo fv a r i o u sc h a r a c t e r i s t i c s ,a n a l y z e st h e c h a r a c t e r i s t i c so ft h eu s co fd i f f e r e n tt e m p l a t e st oi d e n t i f yt h ei m p a c to ft h er e s u l t s a n dt h e ni d e n t i f i e st h ee f f e c t i v ec h a r a c t e r i s t i c s t h r o u g ha v a r i e t yo fr u l e st or e f l e c t t h ec h a r a c t e r i s t i c so fl a n g u a g ei t s e l fa sw e l la st h et r a i n i n gc o r p u st or e f l e c tt h e c h a r a c t e r i s t i c sa d dt ot h em o d e l ,t h eo r g a n i ci n t e g r a t i o no ft h e s ec h a r a c t e r i s t i c s i m p r o v et h en a m e de n t i t yr e c o g n i t i o np e r f o r m a n c e a tl a s t ,w eu s ec o n d i t i o n a lr a n d o mf i e l d sm o d e lb a s e do nc h a r a c t e rl e v e lt od o t h en a m e d e n t i t yr e c o g n i t i o ne x p e r i m e n ta n di ne x p e r i m e n t s ,w ea d dac e r t a i nr u l e s t ot h ee x p e r i m e n tf o rt h er e s u l ta m e n d e da n di m p r o v et h en a m e d e n t i t yr e c o g n i t i o n r a t e k e yw o r d s :i n f o r m a t i o ne x t r a c t i o n ;n a m e de n t i t yr e c o g n i t i o n ;c o n d i t i o n a lr a n d o m f i e l d s 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承 作者( 签字) : 日期: 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( r - j 在授予学位后即可口在授予学位1 2 个月后口 作者( 签字) :试n 乞m 导师( 签字) : 日期:妒弋年弓1 月i 吲1 年弘弋日 犯月 扎一申够 哈尔滨丁程大学硕七学位论文 i _ 声蕾i 盲葺置誓- - - 1 i i 一 i i 昌i i 皇i 葺i 薯 第1 章绪论 1 1 课题的研究背景及意义 1 1 1 课题研究的背景 近年来,信息产业得到了长足的发展,随着计算机和互联网的广泛应用, 计算机可处理的自然语言文本数量空前增长,面向海量信息的文本挖掘、信 息抽取、跨语言信息处理、人机交互等应用需求急速增长,自然语言理解的 研究必将对我们的生活产生深远的影响。 近年来,信息抽取( i n f o r m a t i o ne x t r a c t i o n ,) n3 技术逐渐受到了人们 的关注,它的提出和兴起有着特定的时代背景。2 0 世纪8 0 年代后期,美国 政府提出了一个专门的文本处理研究计划t i p s t e r 计划,其内容包括信息抽 取、文档检索和文献摘要等,以期提高政府部门的信息处理速度和质量。该 计划的一个重要的目标就是研究和实现文本信息的自动查找、收集汇总和存 储,以便将人们从大量的、低效的文本阅读劳动中解放出来。 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,m ) 是指从一段文本中抽取指定的事 件、事实等信息,形成结构化的数据并填入一个数据库中供用户查询使用的 过程。即它从文本中抽取用户感兴趣的事件、实体和关系,被抽取出来的信 息以结构化的形式描述,然后存储在数据库中,为情报分析和检测,比价购 物,自动文摘,文本分类等各种应用提供服务。比如,从新闻报道中抽取出 恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武 器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布 时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、 处方等等。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数 据库中,供用户查询以及进一步分析利用。 中文信息抽取系统能利用已有的自然语言研究成果为用户直接返回所需 的答案,而不是相关的网页。所以,中文信息抽取系统能更好的满足用户的 哈尔滨丁程大学硕七学位论文 检索需求,能更快地找出用户所需的信息。可以说,中文信息抽取系统就是 新一代的信息获取工具。对于中文信息抽取系统,用户不需要把自己的问题 分解成关键字,而是用户把兴趣话题直接提交给中文信息抽取系统。中文信 息抽取系统结合自然语言处理技术,通过对问题理解,能够最终直接提交给 用户想要的信息。中文信息抽取系统就像一个知识渊博的专家,可以快速准 确地得到用户所需要的任何信息。可以看出,中文信息抽取系统要比传统的 搜索引擎方便、快捷、高效。中文信息抽取系统从本质上区别于专家系统、 信息检索系统、问答系统,它不是传统技术的简单变形,而是一个具有高度 理论和实用价值的研究课题。 1 1 2 课题的意义 对于从大量文档中抽取所需要的特定事实来说,信息抽取技术非常有用。 m u c 根据信息抽取内容以及所抽取出的信息的集聚水平的不一样,将信息抽 取的任务分为以下的几种主要类型; 1 n e :命名实体识别( n a m e de n t i t yr e c o g n i t i o n ) 2 m e t 多语种实体识别任务( m u l t i - l i n g u a le n t i t yt a s k ) 信息抽取 3 t e :模板元素( t e m p l a t ee l e m e n t ) 信息抽取 4 c o :参照( c o r e f e r e n c e ) 信息抽取 5 t r :模板关系( t e m p l a t er e l a t i o n ) 信息抽取 6 s t :情节模板( s c e n a r i ot e m p l a t e ) 信息抽取 在信息抽取研究中,人们需要从文本中自动抽取出特定的事实信息,形 成结构化数据。例如,从一篇新闻报道中抽取出事件的详细情况,包括事件 发生的时间、地点、参与人物等。其中命名实体识别是实现信息抽取的第一 步,也是信息抽取中最有实用价值的一项关键技术,因此对命名实体的识别 的研究是目前的重点。命名实体识别( n e r ) 作为信息抽取中的子任务,其 主要目的是从文本中检测出专有名词并进行分类,如人名、地名、公司名、 日期等。命名实体识别是信息抽取中最为基本的任务,实现从众多信息中标 2 哈尔滨工程大学硕十学位论文 识并分离出相关的命名实体,这是正确理解文本的基础。 命名实体识别实现了从众多信息中标识并分离出相关的命名实体,它是 信息抽取中最为基本的任务,是语言信息处理技术中的关键基础技术,是正 确理解和处理文本信息的基础,进行文本分析时,命名实体识别就成为信息 处理的首要任务。因此进行命名实体识别技术的研究,对自然语言处理和中 文信息处理具有极其重要的意义。 1 1 3中文信息抽取的特殊性 根据汉语的特点,中文信息的抽取具有一定的特殊性,需要以下几个方 面的自然语言处理技术的支撑: 1 词典、词语切分和词性标注 和信息检索一样,由于汉语的句子在词和词之间没有分隔符,所以中文 信息抽取需要制作一个规模适当、分级合理并可灵活配置的词典,并建立一 个专用于信息提取的词语切分算法,以及特殊的词性标注方法。 2 句法及语义分析 句法及语义分析包括句法成分的识别和标引,关键词抽取,检索特征集 的抽取、索引等。信息抽取的分析过程通常可称作“浅层的 或“部分的一 句法及语义分析( 只分析所需要的部分) ,即找出代表指定信息的词汇、短 语等块状语言结构,而不是去弄清楚每一语句的句法结构树。在语法分析阶 段一个主要问题是解决信息所包含的事件、消息或事实的有关名词性短语和 动词性短语的识别问题。对文本的语义理解在于发现指定信息所涉及的各项 内容,解决句间成分传递、指代与引用情况等问题 3 句群分析与篇章表示 句群分析与篇章表示包括表达句间成分的传递、指代、引用信息表的建 立和使用,“t h i s 指针一( 当前语义焦点f o c u s 的维护,以及概念关系的推 理等。由上述可知浅层句法分析技术在信息抽取中具有重要的作用。其目标 在于通过牺牲分析的完整性和深度为代价,换来分析信息的健壮性和效率, 3 哈尔滨t 程大学硕十学位论文 克服传统句法分析所遇到的困难,以便在大规模真实文本处理的任务中得到 有效的应用。 1 1 4 信息抽取和信息检索 与信息抽取密切相关的一项研究是信息检索,但信息抽取和信息检索存 在差异,主要表现在三个方面: 1 功能不同 信息检索系统主要是从大量的文档集合中找到与需求相关的文档列表; 而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。 2 处理技术不同 信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合 ( b a g so fw o r d s ) ,不需要对文本进行深入分析理解;而信息抽取往往要借 助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完 成。 3 适用领域不同 由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系 统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。此外, 信息检索与信息抽取又是互补的。为了处理海量数据,信息抽取系统通常以 信息检索系统( a p 文本过滤) 的输出作为输入;而信息抽取技术又可以用来提 高信息检索系统的性能。二者的结合能够更好的服务于用户的信息处理需求。 1 2 国内外研究现状 1 2 1国外情况 信息抽取技术的研究始于2 0 世纪6 0 年代中期,2 0 世纪8 0 年代出现了 三个用于商业目的的信息抽取系统,从1 9 8 7 1 9 9 8 年m u c 会议共举行了七 届。近几年,信息抽取技术的研究与应用更为活跃。在研究方面,主要侧重 于以下几方面:利用机器学习技术增强系统的可移植能力、探索深层理解技 4 哈尔滨工程大学硕士学位论文 术、篇章分析技术、多语言文本处理能力、w e b 信息抽取( w r a p p e r ) 以及 对时间信息的处理等。 m 的发展与以下研究活动密切相关:m u c ( m e s s a g eu n d e r s t a n d i n gf o r c o i l l p r e h e 璐i o n ) ,m e t ( m u l t i l i n g u a le n t i t yt a s ke v a l u a t i o n ) ,a c e ( a u t o m a t i c c o n t e n te x t r a c t i o n ) ,d u c ( d o c u m e n tu n d e r s t a n d i n gc o n f e r e n c e s ) 。 m u c 是2 0 世纪8 0 年代未由美国国防部的d a r p a ( d e f e n s ea d v a n c e d r e s e a r c hp r o j e c t sa g e n c y ) 发起。m u c 唯一任务就是“信息抽取 :对自由 文本进行分析,标识出某一特定类型的事件,并将有关这一事件的信息填写 到相应的数据模板中。会议总共进行7 次:最初的m u c1 - 2 关注的是对电子 邮件信息的抽取;2 0 世纪9 0 年代之后的m u c 3 7 主要关注对新闻文章的抽 取,主题涉及恐怖活动、国际风险投资、企业成功管理经验;m u c 系列会议 对信息抽取这一研究方向的确立和发展起到了巨大的推动作用,m u c 定义的 信息抽取任务的各种规范以及确立的评价体系已经成为信息抽研究事实上的 标准,因此m u c 对于信息抽取的研究内容、信息抽取方式的分类、信息抽 取系统的评价等都起到重要的促进作用。 虽然命名实体识别作为信息抽取的一项单独任务在国际上研究的时间并 不是很长,但由于它在自然语言处理中所占的重要地位,越来越多的科研人 员开始对命名实体识别做深入细致的研究。同自然语言处理中任何其他技术 一样,命名实体识别方法也可以分为两个主要类别:基于规则( r u l e - b a s e d ) 的方法和基于统计( s t a t i s t i c - b a s e d ) 的方法。 较早的命名实体识别方法多采用手工构造有限状态机的方法,以模式和 字符串相匹配。典型的系统有用于英语命名实体识别的谢菲尔德大学的 l a s i e i i 系统,爱丁堡大学的l t g 系统。参加第六届消息理解会议的系统大 多数采用了基于规则的方法,譬如n y u 的p r o t e u s 命名实体识别系统。这些 基于规则的实体识别算法主要是在实体识别的过程中加入词法规则、语法规 则甚至语义规则来提高实体识别的质量。在基于规则的方法中,命名实体识 别使用的不仅有各种命名实体的构成规则,还有实体本身和上下文的关系以 哈尔滨工程大学硕士学位论文 及用词情况。它一般都是由人工添加规则,或者在人工添加的基础上再从有 限的训练语料库中得到规则。规则知识的获取是基于规则的方法的瓶颈。因 此,人们越来越关注基于统计的方法。相比较而言,基于统计的方法利用经 过人工标注或者就是用原始的语料进行训练,语料的加工( 标注) 也需要非 常广博的语言学知识,较小规模的语料可以在可接受的时间和人力代价内完 成。更有利的是,用统计方法实现的系统在移植到新的领域时可以不作或作 较少的改动,只要利用新领域的语料进行训练即可。此外,由于统计方法对 具体语言特性的依赖相对较少,因此基于统计的系统要移植到不同的自然语 言也相对容易一些。 基于统计的命名实体识别方法是近年来研究的主流。这类方法先建立语 言模型,然后在训练数据基础上估算模型参数。b b n 公司的i d c n t i f i n d e r 系 统是一个有代表性的基于h m的命名实体识别和分类系统,在m u c 7 测 试中取得了很大成功。 1 2 2 国内情况 国内中文信息抽取方面的研究起步较晚,主要的研究工作集中在对中文 命名实体的识别方面,在设计实现完整的中文信息抽取系统方面还处在探索 阶段。其中,国立台湾大学和新加坡肯特岗数字实验室参加m u c 7 中文命 名实体识别任务的评测。i n t d 中国研究中心的z h a n g 蛐和z h o uj o ef 等 人在a c l 2 0 0 0 上演示了他们开发的一个抽取中文命名实体以及这些实体间 相互关系的信息抽取系统,该系统利用基于记忆的学习( m b l ) 算法获取规则 用以抽取命名实体及它们之间的关系。 国内对中文命名实体识别技术的评测主要是8 6 3 计划组织的中文信息处 智能人机接口技术评测,该评测旨在对相关的研究工作进行客观的评价,了 解国内相关技术的现状,发现相关领域存在的关键技术问题,促进交流、推 关技术的进步和研究成果的应用。该评测于8 0 年代末开始酝酿,1 9 9 0 年对 识别一个类进行了试验性评测,9 1 年对语音识别和汉字识别两个类进行了第 6 哈尔滨工程大学硕士学位论文 一次正式评测,在后来的评测中扩展到十个类别,其中包括了对词性标注和 中文实体识别的评测,通过该评测推动了国内对中文命名实体识别方面的研 究。 目前国内从事自然语言处理研究的主要有哈工大,中科院计算所,北大, 东北大学等机构。其中俞鸿魁等叫提出了一种基于层叠隐马尔可夫模型的中 文命名实体一体化识法,旨在将人名识别、地名识别以及机构名识别等命名 实体识别融合到一个统一的理论模型中。李中国等口3 提出了一种基于篇章信 息的中国人名识别算法,先利用带有频度的边界模板识别出可能的人名,并 把识别结果扩散到整篇文召回数据稀疏导致的遗漏人名,然后应用上下文局 部统计量及几条启发式规识别结果进行边界校正。周俊生等“1 提出了一种新 的基于层叠条件随机场模型的中文机构名自动识别算法。该算法在低层条件 随机场模型中解决对人名、地名等简单命名实体的识别,将识别结果传递到 高层模型,+ 为高层的机构名条件随机场模型实现对复杂机构名的识别提供决 策支持。李丽双等障1 提出并实现了一种基于支持向量机( s v m ) 的中文文本中地 名的自动识别方法。结合地名的特点,抽取单字本身、基于字的词性、是否 在地名特征词表中及其上下文的信息作为向量的特性,并将其转化为二进制 表示,在此基础上建立了训练集,并通过对多项式k e r n e l 函数的测试,得到 了用支持向量机进行地名识别的机器学习模型。于江德等阳3 提出了一种基于 条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模 型参数估计和特征选择,且加入不同的特征集实现抽取性能的提升。刘豹口3 等提出了一种使用条件随机场模型进行标注识别,并结合规则对错误识别结 果进行后处理的科技术语识别方法,并取得了较好的识别效果。冯元勇等咖 提出了一种改进的快速c r f 算法实现命名实体识别。该算法通过引入小规模 单字特征降低特征的规模,提高了训练的速度。 1 3 本文的工作 本文以现代汉语文本中的人名、地名和组织名识别为研究对象开展工作, 7 哈尔滨工程大学硕士学位论文 将条件随机场应用到了中文命名实体识别的研究中,并根据各类命名实体的 特点,本文提出了适合于人名、地名以及组织名的特征函数模板,通过实验 验证了各类特征的作用,确定了有效特征,让这些特征有机融合,提高了命 名实体识别的性能。使用了基于字一级的的条件随机场模型进行了命名实体 识别实验,并在实验中加入了一定的规则进行结果修正提高了实体的识别率。 本文共分为5 章,各章的主要内容为: 第1 章介绍了信息抽取的研究背景、意义及国内外研究现状,最后介绍 本文的主要研究工作及章节安排。 第2 章介绍了与n e 识别相关的理论知识,分别从命名实体识别存在的 难点,各类命名实体的特点,主要的命名实体识别方法等几个方面做了整体 的介绍,并简单介绍了三种常用的概率统计模型:h m m 模型、最大熵模型 和c r f 模型。 第3 章介绍了利用规则的方法进行n e 识别。针对不同n e 各自不同的 特征,分别选用了不同的规则。对复杂的实体名的识别,采用了内部规则和 外部规则相结合的方法。 第4 章从实践的角度来介绍如何将c r f 模型应用于我们的命名实体识别 任务。介绍了此次命名实体识别任务的粒度选择以及标注体系的确立;介绍 了特征函数的表示、分类和选择,原子特征和复合特征如何生成,特征函数 模板的设计思想,以及外部特征函数的定义及生成,最后结合l - b f g s 算法 和v i t e r b i 算法介绍了c r f 模型的训练和标注过程。 第5 章使用了基于条件随机场模型进行了命名实体识别的实验,为了满 足实验设计的要求我们将从北大富士通人民日报9 8 年1 月份的语料库中选取 不同的规模语料作为训练用语料,在这部分的实验中我们主要考查了:特征 模板的不同对实验结果的影响,训练规模的大小对于实验效果的影响,在后 处理中规则修正的加入在实验中起到的作用以及训练规模的变化对这种作用 产生的影响是否显著,并得出结论。 最后,是全文的总结,对今后进一步的工作做出展望。 8 哈尔滨工程大学硕十学位论文 第2 章中文命名实体识别综述 命名实体识别是信息抽取、问答系统、句法分析、机器翻译、面向s e m a n t i c w e b 的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实 用化的过程中占有重要地位。 本章将分别从命名实体识别存在的难点,各类命名实体的特点,主要的 命名实体识别方法以及几种概率统计模型等几个方面做一个整体的介绍。 2 1 命名实体识别概述 命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体 识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别。拿中 文信息抽取来说,主要的研究工作集中在对中文命名实体的识别方面。就目 前信息抽取研究来说,命名实体识别是很有使用价值的一项技术。 2 1 1 命名实体识别的难点 在文本中常会出现大量命名实体,如:地名、人名、机构名、公司名、 产品名等。对这些命名实体的识别是信息抽取系统要完成的一个主要工作, 因为如果想从文本中提取事件或关系信息,里面必然涉及作为事件角色的对 象,这些对象通常都是命名实体。命名实体识别的过程通常包括两部分:实 体边界识别;确定实体类别( 人名、地名、机构名或其他) 。英语中的命名实 体具有比较明显的形式标志( 即实体中的每个词的第一个字母要大写) ,所 以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉 语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界 的识别更加困难。 1 命名实体是一个开放的类,数量巨大,并且不断有新的命名实体,如 人名、地名等涌现出来,不可能枚举,难以全部收录在词典中。实际上,命 名实体识别与未登录词识别任务是相互交叉的。 2 命名实体词的长度没有一定的限制,并且某些类型的命名实体构成结 9 哈尔滨丁程大学硕士学位论文 构比较复杂,比如组织名,没有严格的规律可以遵循,对这类命名实体识别 的召回率普遍偏低。 3 同一命名实体的表达形式可以有多种,例如,某个命名实体首次出现 后在下文中常常会采用缩写的形式( 简称) 出现。特别对于中文,命名实体 简称常常易与普通词混淆。 4 命名实体存在不少的兼类和歧义现象,即部分命名实体词在不同的上 下文环境中可以指称不同的实体。例如:“河北省刘庄中的“刘庄 存在 人名与地名之间的两种歧义理解;“今天的比赛中国5 :0 大胜美国”中的“中 国 、“美国 要进行地名到组织名的转义处理。要正确标注上例中的命名 实体类型,常常要涉及语义层次的分析,这是比较困难的。 5 在不同的文化、领域、背景下,命名实体的外延有差异。对命名实体 的定界和类型确定,目前还没有形成可被共同遵循的严格的命名规范。 6 对于中文来说,中文文本中没有空格标志词语边界,没有首字大写等 明显特征来表征一个命名实体,命名实体识别过程常常要与中文分词过程相 结合,因此使得中文命名实体识别更加困难。 2 1 2 各类命名实体的特点 本节将针对人名、地名、组织名三类命名实体,简单介绍一下各类命名 实体的结构特点和相关的语言学知识。 1 人名 中国人名一般由姓氏和名字两部分组成。从历史上看,中文姓氏用字是 比较复杂的,如台湾出版的中国姓氏集收集了5 5 4 4 个姓氏,其中单姓 3 4 1 0 个,复姓1 9 9 0 个,三字姓1 4 4 个,但这些姓氏到现代大部分已经不再 使用。现代中国人名的姓氏趋于简单,用字相对集中,如现代中华大词典 中共收录了1 9 4 2 个姓氏用字,而我们从1 7 万的人名库中共抽取出了9 1 4 个 姓氏用字。现代中国人名姓氏可分为三类:( 1 ) 单姓。如:张、刘、李、陈。 ( 2 ) 复姓。如:欧阳、令狐。( 3 ) 双姓复合形式。如:陈方安生、第五丽 l o 哈尔滨t 程大学硕士学位论文 群。在这三类姓氏中,单姓占了绝对多数,其它两类都很少。中国人名名字 用字相对姓氏用字更为广泛,具有很大的随意性。我们从1 7 万的人名库中共 抽取了2 5 0 6 个双名首字,2 7 4 4 个双名尾字和2 6 0 3 个单名用字。 对中国人名进行识别的难点在于: ( 1 ) 中国人名构成形式多样。主要可分成两大类。 完整形式:即“姓氏+ 名字 结构,这又分为单名和双名两类。 非完整形式:这又可以分成五类:前缀+ 姓氏。如:小王、老刘;姓氏+ 后缀。如:王总、张氏;姓氏+ 称谓词。如:王老师、陈部长:有姓无名。如: 李从王处得到了资料;有名无姓。如:小平同志。另外,中文入名还包括表 示特定人物的呢称或者称号、谥号、绰号等,如:范文正公。 ( 2 ) 人名内部可能成词。即姓氏与名字,或名字与名字之间构成一个词 典中的已登录词,如:王国维,汪洋。 ( 3 ) 人名首部可能与其上文,人名尾部可能与其下文组合成词,如:王 亚平等同志。 2 地名 与人名相比,地名的相对数量要少且比较稳定,当然随着经济和社会的 发展,也不断有新的地名不断出现。地名主要有以下特点: ( 1 ) 地名用字比较自由、分散,同时地名用字又有相对集中的覆盖能力。 ( 2 ) 地名结尾经常有地名特征词出现j 如“省、市、。路黔,这对识别地 名起到一定的提示作用,特别是有助于确定地名的右边界。但地名特征词出 现的情况比较复杂,既可以作为普通词出现,又可以出现在地名其它位置。 ( 3 ) 地名长度没有严格限制,短的如“京 ,长的如“双江拉沽族佤族 布朗族傣族自治县 。 ( 4 ) 地名中可含有多字词或命名实体词,如:“和平路一、“中山路 。 ( 5 ) 与人名周围经常出现称谓词、动词等指示信息相比,地名周围缺乏 丰富、有效的启发信息。 一部分重要的地名已经成为基本词汇加入到词典或收集到常用的地名列 哈尔滨工程大学硕十学位论文 表中。这些地名在日常生活中、新闻报道中出现的频率很高,渐渐的已经成 为了常识的一部分。这些地名包括一些大国的国名,如中国、美国、英国; 世界上一些著名城市的名字,如巴黎、伦敦;中国省级行政区名和重要城市 名,如广东、上海;一些著名的名山大川和旅游风景区名,如黄山、长江。 这些地名一般在分词过程中就能从文本中被识别出来。 3 组织名 组织名泛指机关、团体或其他企事业单位,包括学校、公司、医院、研 究所和政府机关等。组织名的数目十分庞大且很不稳定,随着社会的发展, 新的组织名不断涌现,旧的组织名不断被淘汰、改组或更名。因此,组织名 的识别是命名实体识别任务中最困难的一部分。在很多命名实体识别评测任 务中,组织名的识别效果和人名、地名等相比是得分最低的。组织名的特点 如下: ( 1 ) 大部分组织名的结构是“w + g ,其中w 代表词,w + 代表w 出 现一次或多次,g 是指后缀特征词,即组织名是由一个或一个以上的词加上 特征词如大学,公司,医院等组成的。因此,组织名可以看成是一种偏正式 复合名词。 ( 2 ) 组织名的用字和用词具有很大的随意性,通过对1 9 9 8 年1 月份人 民日报中的1 0 8 1 7 个组织名所包含的词语进行统计分析,共包括了2 7 种词 性,其中名词最多为9 9 4 1 个,地名其次为5 0 2 3 个,以下依次为简称、1 专有 名词、动词等。例如,“软件研究所的“软件为名词,“北京大学刀中 的“北京 为地名,“山东鲁能泰山足球俱乐部”中的“山东一、“泰山打 为地名,“鲁能 为专有名词,“足球 为名词。 ( 3 ) 由于很多组织名内部含有人名、地名等其它专有名词,所以这类组 织名的识别在人名、地名等其他命名实体词识别之后进行会更加合适,其他 类型命名实体识别的正确率对组织名的识别效果也有较大影响。 ( 4 ) 组织名的长度具有不确定性,从三四个字到十几个字甚至几十个字 不等。 1 2 哈尔滨工程大学硕士学位论文 ( 5 ) 组织名的后缀特征词可以用来对其进行分类,指明其种属,同时对 识别组织名的右边界起到重要的作用。后缀特征词大多数是普通名词,如: 厂、公司、银行、医院、大学等,数量不多,可完全收入词典。而相对右边 界而言,组织名的左边界识别比较困难。 2 2 命名实体识别的方法 国内外关于命名实体的研究方法,大都利用从命名实体及其上下文中总 结出来的规则或统计信息来识别各种命名实体。因此,命名实体识别的研究 方法主要有三种:基于规则的方法、基于统计的方法以及规则和统计相结合 的方法。 2 2 1 基于规则的命名实体识别方法 命名实体研究的早期阶段,大多采用人工建立各种规则,然后通过规则 匹配来识别不同类型的命名实体。在缺少大规模标注语料库的前提下,利用 这种方法识别命名实体能够取得较好的识别效果。一般来说,基于规则的方 法识别性能要优于基于统计的方法约2 左右,这是由于手写规则捕获命名 实体重要特征的能力比当前的机器学习方法强。但是,基于规则的系统存在 着难以克服的缺点:基于规则的系统开发非常昂贵,并且系统性能的好坏完全 依赖于设计者的语言知识;虽然系统的准确率很高,但是规则的覆盖度却很差; 基于规则的系统缺乏适应性,不便于移植。 在m u c 命名实体评测时,参加评测的系统几乎都是基于规则的系统, 包括a b o r t h w i c k 等的p r o t e u s 系统旧1 、k r u p l m g r 等的n e t o w l 系统n 伽、b l a c k w j 等的f a c i l e 系统n 以及其他的基于规则的命名实体识别系统。 基于规则的命名实体识别主要依靠专名词典和规则来识别名称,一般总 是把一些常用的人名、地名、组织机构名等专有名词收入词典作为基础,对 于词典中没有的专名,则通过规则办法来识别。规则可能使用各种命名实体 的构成规则,比较简单的中文命名实体构成规则可以举例如下: 组织名一 【人名】【组织名】【地名】【核心名】 【组织类型】 i = l 哈尔溟工程大学硕士学何论文 人名一 地名一 还可以利用实体本身和上下文关系以及用词情况等等,例如英语中“m r 后面可能会接一个人名。一般而言,规则并不能一次写好,往往需要通过一 个调试的过程,典型的做法是利用一个语料去测试规则,找出规则不能正确 识别的名字,分析原因,对规则进行修改。如此反复,直到达到一个可以接 受的准确率为止。 基于规则的系统,通过分析命名实体的内部和外部特征,人工构造规则 模板实现命名实体的识别。基于规则的命名实体识别方法在小规则测试效果 较好,速度快。但是,人为编写规则需要语言专家对语言规则进行深入的理 解,在此基础上编写规则,构造规则对语言知识要求较高,需要很大的人力 物力。另外,规则较多时还会引起规则之间的冲突。基于规则的方法语言受 限,在某一种语言上编写的规则在其他语言上移植困难,通用性不强。 2 2 2 基于统计的命名实体识别方法 近几年,把基于统计的方法用于命名实体识别渐渐成为了研究的热点。 统计方法主要是利用标注语料库来训练某个字作为命名实体组成部分的概 率,并用它们来计算某个候选字段作为命名实体的概率值,若大于某一阂值, 则识别为命名实体。与规则方法相比,基于统计方法的系统具有更好的健壮 性和灵活性,且实现的代价较小,便于移植。 在c o n l l 2 0 0 3 的独立语言的命名实体识别任务中,参加评测的系统必 须完成英语与德语两种语言的命名实体识别任务,于是各种机器学习方法都 被使用到了命名实体识别中并取得了不错的效果。常见的基于统计的命名实 体识别方法主要包括隐马尔可夫模型、最大熵模型、条件随机场模型,支持 向量机、决策树等。 2 2 3 规则与统计相结合的方法 这种方法,一方面通过概率计算来减少规则方法的复杂性与盲目性,另 1 4 哈尔滨工程大学硕士学位论文 方面通过规则的复用来降低统计方法对语料库规模的要求。所以在实际应 用中,单纯基于统计的方法并不多,统计中或多或少引入一些规则。 2 3 几种统计模型 2 3 1 隐马尔可夫模型( h m m ) 一个h m m ( h i d d e nm a r k o vm o d e l ) 是一组有限的状态,其中某一个状 态可以以一定的概率转移到另外的状态( 终止状态除外) ,并且,在转移时以 一定的概率产生有限的输出。h m m 的有限状态自动机表示为: 删= 其中s 表示模型的状态,n 是其状态数。在实际应用中,模型的每一个 状态都与对应的物理意义联系,同时这些状态也是相互联系的,可以从一个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度高端酒店集团战略投资者股权引入及风险管理体系合作协议
- 2025年生态环保特色小镇场地开发与运营管理服务合同
- 2025年乡村旅游资源开发与乡村振兴战略实施合作合同
- 2025年企业内部数据安全防护体系建设项目合同
- 2025年现代农业科技创新推广合作协议模板
- 汽车服务礼仪培训课件
- 商业上班试用期合同
- 吉林公务员面试题及答案
- 高中英语状语从句公开课复习
- 会计兼职劳动合同范本
- 税务会计与税收筹划课件
- 城市照明设计案例赏析
- 2025年高考生物辽宁卷真题解读及复习备考指导(黑龙江吉林内蒙古适用)
- 新媒体视听节目制作
- 数字化教学环境下小学语文板书设计优化策略
- JG/T 237-2008混凝土试模
- JG/T 232-2008卫浴型散热器
- 灭火员初级习题库
- T/CAQP 001-2017汽车零部件质量追溯体系规范
- 燃气入户可行性报告
- 技术赋能医疗创新-深入解析数字化口腔诊所建设指南
评论
0/150
提交评论