




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人连理i :人学硕十学侮论文 摘要 中文命名实体识别是指识别出文本中特定的实体。它是机器翻译、文本分类、信息 检索和自动文摘、自动问答等多种自然语言处理技术的基础。作为信息抽取的基本任务, 为了促进其他技术和应用的发展,命名实体识别一直是自然语言处理的研究热点之一。 凶此,研究中文命名实体的识别技术是很有意义,也是非常重要的。 针对现代汉语文本的特点,本文主要研究以人名、地名和机构名的识别为核心内容 的中文命名实体识别问题。我们以s i g h a n 竞赛的命名实体定义和评测标准为依据,利 用基于s t a c k i n g 框架的组合分类器来进行命名实体识别,结合局部特征和全局特征,对 中文命名实体识别进行了实验。另外,在结合多种特征的同时,本文又加入了词列表信 息末进一步提高实验系统的性能。 在本文中,我们详细介绍了s t a c k i n g 框架的定义、模型结构、训练方法以及模型算 法的选择等,提出了适合于各类中文命名实体的特征模板。在特征选择过程中为了不影 响命名实体识别的精度并使其保证一定的独立性,我们并不选用分词和词性标注作为特 征加入,而以字为单位进行特征选择。在应用了实体所在句子内部的局部特征摹础上, 利用了相同实体在同一语料中的其他共现术抽取有用的全局特征。本文将以上方法结合 起来,进行中文命名实体识别,通过实验进行验证,取得了较好的效果,证明了其有效 性。 关键词:信息抽取;中文命名实体;s t a c k i n g 框架;组合分类器 人迕理i :人学硕f :学伊论文 c h i n e s en a m e d e n t i t yr e c o g n i t i o nb a s e do ns t a c k i n gf r a m e w o r k a b s t r a c t t h ea i mo fn a m e de n t i t yr e c o g n i t i o n ( n e r ) i nc h i n e s el a n g u a g ei st or e c o g n i z ep h r a s e s t h a ti n d i c a t et h en a m e so fe n t i t i e s n e ri st h eb a s i ct a s ko fm a n ya p p l i c a t i o n ss u c ha s m a c h i n et r a n s l a t i o n ,t e x tc l a s s i f i c a t i o n ,i n f o r m a t i o nr e t r i e v a l ,a u t o m a t i ca b s t r a c t i n ga n d a u t o m a t i cq u e s t i o n a n s w e r i n g a saf u n d a m e n t a lp r o b l e mi n i n f o r m a t i o ne x t r a c t i o n0 e ) , n a m e de n t i t yr e c o g n i t i o nh a sa l w a y sb e e nah o ts p o ti nn a t u r a ll a n g u a g ep r o c e s s i n g ( n l p ) t h er e s e a r c ho nn e ri nc h i n e s ei sas i g n i f i c a n tt a s k n e ri nc h i n e s el a n g u a g em a i n l yf o c u s e so nt h er e c o g n i t i o no fp e r s o nn a m e s ,l o c a t i o n s a n do r g a n i z a t i o nn a m e s i nt h i st h e s i s ,c o m b i n e dm u l t i p l ec l a s s i f i e r sb a s e do nas t a c k i n g f r a m e w o r ka r eu s e dt or e c o g n i z en a m e d e n t i t i e s ,t h ed e f i n i t i o n sa n de v a l u a t i o nm e a s u r e sa r e i n v o k e df r o ms i g h a n w ec o m b i n e dg l o b a la n dl o c a lf e a t u r e st ot r a i nt h el e a r n i n gm o d e l e x p e r i m e n tr e s u l t ss h o wt h a ta d d i n gw o r dl i s ti n f o r m a t i o ni n t ot h es y s t e mc a ni m p r o v e r e c o g n i t i o np e r f o r m a n c e i n t h i st h e s i s ,w ed e s c r i b e dt h es t a c k i n gf r a m e w o r ka n di t sd e f i n i t i o n ,m o d e ls t r u c t u r e , t r a i n i n gm e t h o da n ds e l e c t i o no fm o d e la l g o r i t h m d i f f e r e n tf e a t u r et e m p l a t e sa r ep r o p o s e d f o rp e r s o nn a m e s ,l o c a t i o n sa n do r g a n i z a t i o nn a m e sr e s p e c t i v e l y w eu s e dc h a r t e r si n s t e a do f p h r a s e si nf e a t u r es e l e c t i o n ,e l i m i n a t i n gt h ep o s t a g g i n g ,t oa c h i e v eab e t t e rp r e c i s i o na n dt o k e e po u rs y s t e mi n d e p e n d e n t l o c a lf e a t u r e so fa ne n t i t ya r es e l e c t e dw i t h i nt h es e n t e n c ei t a p p e a r s ,a n da l li n s t a n c e so fa ne n t i t yi nt h ec o r p o r aa r eu s e dt oe x t r a c tt h eg l o b a lf e a t u r e s i n v e s t i g a t i n gt h e s em e t h o d s ,o u rs y s t e mp e r f o r m e di n c h i n e s en e ra n dp r o v e di t s e f f e c t i v e n e s s k e yw o r d s :i n t e r a c t i o ne x t r a c t i o n ;n a m e de n t i t yr e c o g n i t i o n ;s t a c k i n gf r a m e w o r k ; c o m b i n e dm u l t i p l ec l a s s i f i e r s i i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文 作者签名 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题 作者签名: 导师签名: 人连理i :人学硕卜学伊论文 1 绪论 1 1研究的目的与意义 近些年,信息产业在中国得到了长足的发展。在门益信息化和网络化的当代社会中, 大量的信息以电子文档的形式出现。如何在海量信息源中迅速找到真f 需要的信息并把 有用的信息归类、过滤或抽取出来一直是一个比较紧迫的实际问题。我们迫切需要一些 自动化的工具来帮助人们完成有用信息的处理工作。相应的,各种查找、分类和存储信 息的理论、技术、应用工具和系统始终在不断地更新和发展。如:信息抽取、信息检索、 机器翻译、文本分类、自动文摘、信息过滤等研究都是在这种背景下产生的。但是信息 抽取与其它相关信息处理技术存在着实质性的差异。信息抽取不仪查找信息,而且替用 户理解信息,并按用户指定的方式输出信息,将非结构化数据转变为结构化数据并存入 到数据库中,可以说信息抽取是其他自然语言处理技术的基础。而我们要研究的命名实 体识别( n a m e de n t i t yr e c o g n i t i o n ,n e r ) 则是信息抽取中重要且必不可少的一步。所以蜕 命名实体识别的研究具有十分重要的意义。 近些年在中文n e r 方面,相关人员做了大量的研究工作,也取得了很大的进展。 但是,命名实体识别仍然是目自西文本信息化处理过程中有待于更好去解决的一个问题。 本文基于s t a c k i n g 框架模型结构,通过构造一个两层的叠加式结构,将条件随机域 模型、最大熵马尔科夫模型以及支持向量机模型三种机器学习算法模型进行了组合,并 融合丰富的上下文特征,有针对性地作为各层分类器的输入特征向量。以此对中文命名 实体识别做研究,进行了大量的实验,并对识别结果进行分析,对其它方面的研究工作 起到了基础性的作用。 1 2 命名实体研究综述 1 2 1 命名实体定义 命名实体是指现实世界中具体的或抽象的实体,它是文本中基本的信息元素,是正 确理解文本的基础i 。狭义地讲,如人名、地名、组织名、公司名等,都属于命名实体,广 义地讲,命名实体还可以包含时问、数量表达式等。在中文处理过程巾,命名实体通常 分为七类:人名、地名、机构名、同期、时l 、日j 、货币和卣分比。其他方面的命名实体, 一般根据具体应用来确定。比如,军事名词、会议名称等,都是在具体应 f j 过程中,可 以根据需要迸 j 二具体定义的命名实体。 基ts t a c k i n g 框架的命名实体识别 1 2 2 命名实体识别 命名实体识别就是从文本中识别提取表达实体意义的相应字串,并且要确定它所属 的实体类别,即发现命名实体和标注命名实体。在自然语言处理技术中,命名实体识别 属于文本信息处理的基础研究领域,是一项很有实用价值的信息处理技术。在自然语言 处理领域,实体识别对机器翻译、文本检索、信息抽取盒文本分类等应用领域有重要作 用,它是从文本中自动获取知识的一个基础性处理工作,为其他后续的工作起到了d i f 导 的作用。 同自然语言处理中的其它技术一样,目前对于命名实体的识别方法可以归纳为三 种:基于规则( r u l e b a s e d ) 的方法、基于统计( s t a t i s t i c b a s e d ) 的方法和混合方法( h y b r i d ) 。 ( 1 ) 基于规则的命名实体识别方法 在命名实体识别研究的初始阶段,基于规则的方法占主导地位。在m u c 6 和m u c 7 中基于规则的方法得到了很好的体现,大多数参加m u c 6 会议评测的系统,都是手工 构建的。 基于人工组织规则方法的典型代表就是纽约大学( n e wy o r ku n i v e r s i t y ) 的命名史体 识别系统p r o t e u s l 2 1 。他们参加m u c 6 的系统由大量的上下文敏感推导规则构成。这些 规则大多是很主观的。例如: t i t l ec a p i t a l i z e d _ w o r dt i t l e p e r s o n n a m e m o n t h n a m en u m b e r l e s s t h a n 一3 2 一d a t e f r o md a t et odate+date 利用这些规则进行命名实体识别的方法是在句子中的每一位置用所有的规则进行 自左到右的扫描,从而找到最长( 或最大概率等其它标准) 匹配的规则,用这条规则来埘 该句子进行归结处理,然后从下一个没有匹配的位置丌始实施相同的操作,以此类推直 到此句子结束。规则的制定者决定一个系统从哪些条件出发,能够有效地识别出命名实 体。这样的系统带有很大程度的主观倾向性。 在m u c 7 会议上,参加命名实体识别任务的系统也大多采用基于规! 1 0 的方法,除 了p r o t e u s 系统,i s o q u e s ti n c 的n e t o w l 系统1 3j 的f 1 值也达到9 1 6 ,曼彻斯特科技大 学( u n i v e r s i t yo fm a n c h e s t e ri n s t i t u t eo fs c i e n c ea n dt e c h n o l o g y ) 的f a c i l e 系统i4 j 的f 1 值达到8 1 9 7 。i s o q u e s t 和f a c i l e 使用的策略很相似,都依赖十手工规则的系统,都 使用了常用命名实体词典,对不同规则还可以赋r 不l 一的杖霞,以便当对柏f 川内容采用 不州的规则识别出不同的命名实体时,这种歧义可以通过选择最大权重的规则术解决。 人连理i :人学硕十 伊论文 基于规则的系统,通过分析命名实体的内部和外部特征,人工构造觇则模板实现命 名实体的 ; 3 别。基于规则的命名实体识别方法在小舰则测试效果较好,速度快:但是, 跟其他基于规则的方法一样,命名实体的规则系统也有一些难于克服的缺点。 规则系统的丌发是非常昂贵的。从语言现象中提取规则,需要语言专家对语言 规则进行深入的理解,在此基础上编写规则,构造规则对语言知识要求较高,需要很大 的人力物力。 随着语占自身的发展,规则也随之增加,当舰则较多时,由于规则之i 日j 的交叉, 还会引起规则之问的冲突,会造成判断错误。 由于受不同语言的限制,在某种语言上编写的一套规则系统如果应用以其他语 言,规则和词库都需要重新构造,移植网难,通用性不强。 就同一种语言来说,虽然规则系统的准确率很高,但是规则的覆盖度却很差。 出现新的语言现象,如果不重新尘成新的规则处理,规则系统将无法覆盖。 ( 2 ) 基于统计的命名实体识别方法 f 因为规则方法存在的局限性,而且,随着网络的发展,语料库的规模也不断增大, 因此,研究者逐渐丌始转向利用统计的方法进行命名实体的识别。与规则的方法相比, 统计的方法不是由人工结构一些规则来判别命名实体,而是通过对标注语料的训练,模 型从语言现象中的学习,自动判别命名实体。与提取规则相比较,带标语料的构建代价 是很小的,他对构建者的要求也很低,不需要构建者具备计算语言学的知识。 在m u c 7 会议上,基于机器学习方法的命名实休识别系统取得了与基于规则的系 统相媲美的效果。因为带标语料的人量出现和规则系统的缺点,统计方法用于命名实体 识别己经成为主流。独立语言的命名实体识别成为c o n l l 2 0 0 3 的一个共享任务l 引。它 要求参加评测的命名实体以别系统必须完成两种语种的命名实体识别任务,因此必须选 用不依赖于语言的特性。各种机器学习方法的都被使用到命名实体识别中,并且取得很 好的效果1 6 ,。 b b n l 8 】是基于隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 的英文命名实体识别 系统。在b b n 系统中,它对每一种命名实体都建立一个二元模型( b i g r a m ) 。它还通过 自萏一个词语和前个命名实体的类型,来判断下一个命名实体的类型。 整个系统i 叮以用公式表示为: p rinc,j-c(nc,nc_f,w_1)ncn cw( 1 1 )p fi ,j = l i i , 。 c ( n c w 一, p f l ,n c ,= 等等芳象产 ( 1 2 ) 墓丁s t a c k i n g 框架的命名实体识别 其中,n c 表示当i ,j 命名实体的类别,c 工表示当自玎词的i 寸面第x 个词的实体类别, c f 表示在训练语料中,事件w 出现的次数,w 表示一个单词,厂表示一个特征。 m e n e ( m a x i m u me n t r o p yn a m e de n t i t y ) 1 9 l 使用最大熵( m a x i m u me n t r o p y ) 方法构建 的命名实体识别系统。最大熵方法的一个很大的优点是可以大量来源不同的特征很好地 融合到一个模型中,后文还有详细介绍。m e n e 充分利用了这个特性,构造出性能优越 的命名实体识别系统。m e n e 的设计者还尝试用将规则系统和机器学习方法结合的策略 构建命名实体识别系统,把机器学习方法作为一个规则体统的后处理工具,降低了机器 学习方法的复杂度,大幅度增加了命名实体识别系统的性能。 ( 3 ) 混合方法 实际应用的命名实体识别系统往往综合应用规则与统计方法,取长补短。 基于类的隐马尔可夫模型 孙剑【1 0 l 提出了基于类的隐马尔可夫( c l a s s b a s e dh i d d e nm a r k o vm o d e l ) 模型进行中 文命名实体识别,将中文命名实体分为4 类:中国人名,外国人名,地名,机构名。 对于给定的中文输入序列s s 求最优的类型序列使得条件概率p 幻i s ) 最大, 用贝叶斯公式可以转换为求p 佗夕p 心i s ) 的最大值。 p ( c ) 一p ( c i c i n ) = 兀p ( c c j 2 c j _ 1 ) ( 1 3 ) j 。l 语境模型p 佑) 表示给定语境下某一类命名实体出现概率的大小命名实体模型 尸圆i 表示在给定某一命名实体类别c 的条件下,字符串s 的生成概率大小。 p ( s l c ) = p c s l j 。l c l c ,。) 毫p ( t s r j 。删】【k s ,】i c r ) ( 1 4 ) 篡h e 地名d 木机构名天键训 机构名一 人名d 水机构名关键词 机构名一 机构名机构名关键训 其巾d 术表示零个或多个词; 基丁s t a c k i n g 框架的命名实体识圳 机构名类型表,这个表被用来抽取机构名本体。所有在当日玎段落出现过的机构 名和它们对应的主体都被保存下来,如果当i 订词与某一机构名主体相同,则识别为机构 名候选。 融合人类知识的命名实体识别方法取得了相当好的效果,在i e e r 9 9 上的评测成绩 如表1 1 所示。 表1 1l e e r 一9 9 测评结果 t a b 1 1t h er e s u l to f l e e r 一9 9 1 2 4 中文命名实体识别难点 由于命名实体没有可以共同遵循的严格命名规范,因此,本身具有发展性和构词方 式的随意性;在不同的语言,不同文化中,命名方法更是多种多样;同时,词与词之f h j 具有共享性和制约性。这些语言方面的特性都对命名实体识别带来了一定的困难。由于 自身语言的特点,相对来说,中文命名实体识别的研究要比英文更加困难。归纳起来, 主要体现在以下几个方面: ( 1 ) 对于中文来说,文本中没有空格标志词语边界,因此命名实体识别过程常常要 与中文分词过程相结合,从而加强边界的确定,而词在中文中本身就是个模糊的概念, 没有明确的定义。即使人理解汉语也会出现边界歧义的情况,机器处理更加不可避免。 因此对于分词中的错误,相应地也会造成命名实体识别中的错误。另外,命名实体识别 的结果也作为纠正分词错误的重要信息。这样命名实体识别和分词相瓦交叉,使得中文 命名实体识别面临错误蔓延的问题。 ( 2 ) 相比而言,中文命名实体的生成规律以及结构更加复杂,同一命名实体的表达 形式可以有多种,尤其是缩略语的表示形式具有多样性,很难提取构成规则,因此不可 能用一种谚3 别模型应用于所有的命名实体。 ( 3 ) 与西方语吉比较,中文缺少在命名实体识别中起重要作用的词形变换特征。英 语中的这类信息能很好地指出实体的位置和边界,比如英语中的命名实体大都是以大写 人连理i :人学硕十学伊论文 字母丌头,而汉语并不具备这类显式的特征。我们要致力于在汉语中搜寻类似的各种有 意义的潜在特征。 ( 4 ) 中文中除了一些比较特殊的字词外,命名实体也可以包含普通字词。事实上, 几乎所有的中文字本身都叮以作为一个词束使用,包括那些常用的人名用字和地名用 字,这给命名实体带来了很大的困难。 ( 5 ) 到目自订为止,能用于中文命名实体识别的丌放型语料还很少,因此一方面需要 丌发大型命名实体标注语料库,另一方面研究不依赖大型命名实体标注文本库的算法也 具有重要的意义。 1 3 论文的主要工作 本文以s i g h a n 竞赛的命名实体定义和评测标准为依据,在s i g h a n 提供的语料 上进行中文命名实体识别的研究实验。在命名实体识别中,由于数字、货币、f l 期,在 文本中出现的特征比较明显,格式相对固定,识别相对容易。因此,在这罩我们主要将 重点放在对现代汉语文本中的人名、地名和机构名这三类命名实体识别的研究上。相对 于英文命名实体识别的大量研究而言,中文命名实体识别的研究尚不够成熟,尤其是机 构名的识别,仍有待于深入的研究和提高。现代汉语作为当日订国内进行中文命名实体识 别研究的主要文本对象,其研究成果对于实现中文信息的自动化处理具有较大的实用意 义。 在研究过程中,本文采用了规则知识与统计相结合的方法进行中文命名实体识别, 我们采用的模型是并不是单一的某一训练模型,而是引入组合分类器的框架结构,将几 个模型按照s t a c k i n g 框架结合起来进行命名实体的识别。在实验过程中,充分离用机器 学习各个模型的优点,对各个模型进行对比实验,分析各个模型对命名实体识别的效果。 同时,将已有的规则知识加入到机器学习中去,提高命名实体的实验性能。实验的结果 表明,在一定的前提条件下,分类器融合比单一的训练模型获得识别准确率要高。 在本文中,基于s t a c k i n g 框架的中文命名实体识别主要完成以下几个方面的工作: ( 1 ) 实验框架建立:根据s t a c k i n g 原理,建立中文命名实体识别的实验框架,选择 合适的模型算法进行多分类器的组合。低层的识别结果将作为高层的特征向量加入到高 层训练过程中。 ( 2 ) 知识库的建立:充分利用训练语料,从中总结命名实体与其上下文之问的规则 信息,建立命名实体识别所需的各种知谚 库。存这坦,一i 仪要统计命名实体的本地信息, 同时也要统计全局信息。 基丁s t a c k i n g 框架的命乞实体识别 ( 3 ) 特征选取:提出了适合于人名、地名以及组织名这i 类中文命名实体的特征模 板,并通过实验验证了各类特征的性能,确定了有效特征。 1 4 本文的结构组织 论文共分为六章,详细阐述了基于s t a c k i n g 框架的中文命名实体识别的理论方法、 实现和性能评估,具体章节安排如下。 第一章绪论,综述了本研究课题的目的和意义,同时介绍了命名实体的定义、当前 命名实体识别的主要方法以及中文命名实体识别的难点。最后对本文研究的主要工作和 论文的结构安排做了说明。 第二章,详细介绍了多分类器的组合以及s t a c k i n g 框架原理,层次结构设计,分类 器的选择以及各分类器融合规则。 第三章,对实验过程中所使用的特征集进行了详细的描述,并介绍了相关的基本资 源库以及训练语料中知识资源的获取。 第四章,详细介绍了基于最大熵马尔可夫的命名实体识别实验系统框架以及实现流 程,并给出实验结果。 第五章,详细介绍了基于条件随机域的命名实体识别实验系统框架以及实现流程, 并对实验进行了分析。 第六章,详细介绍了支持向量机融合各成员分类器的输出结果进行命名实体识别的 实验系统框架以及实现流程,同时对实验结果同前两组结果进行了对比分析,得出了具 有借鉴意义的实验结论。 论文的最后,总结了本文的研究内容和主要工作,并阐述了实验结论及下一步的工 作。 人连理i :人学硕十学f ? i 论文 2s t a c kin g 框架理论 传统的模式识别系统通常针对任务的具体需求和样本的特征描述特点选择特定的 一个分类器来进行分类。这种系统对于类别数较大、输入样本带噪音的问题很难获得好 的分类结果。在实际研究中发现不同的特征描述、不同的分类其在分类性能上存在着彼 此互补的现象,因此同时使用多种特征和多个分类其可能提高分类精确度。由此,本文 采用多分类器组合的思路,来解决命名实体识别。 2 1多分类器组合 在机器学习领域,多分类学习模型融合集成问题已经成为适应分布式计算以及提高 分类准确率而需要解决的课题【1 2 l 。在一组分类模型生成以后,就随之产生如何进行组合 的问题分类模型组合的最终目的是使组合后的模型具有比单一模型更高的精度。组合 分类器首先在训练集上进行有指导的学习,这包括成员分类器的学习和组合算法的学 习,后者对各成员分类其的输出结果进行有效的集成。由于训练过程中所使用的数据集 合不牛h 同,以及学习方法不一样,因此归纳得到的各个分类模型的分类效果有差别,有 时具有一定的互补性。为了达到对分类器进行有效组合的目的,需要使用些数据特征 信息加以调整。 多分类器融合从组合方式上有两大类:一类是串联式,代表算法是b o o s t i n g ;另一 类是并联组合方法,最简单也最为常用的组合方法是多数表决( m a j o r i t yv o t i n g ) 1 3j ,它 让每一个底层模型对样本x 的分类进行表决,样本x 的最终类就是表决结果票数最多 的类。并联式的另一种组合框架就是w o l p e r t 于1 9 9 2 年提出的叠加法( s t a c k i n g ) 1 1 4 j ,也 称为s t a c k e dg e n e r a l i z a t i o n 。它是利用前一层模型的输出结果作为下一层的学习输入信 息,使得的一次的学习能够充分用于后面的归纳过程,从而发现并且纠正所使用的学习 算法中的系统偏差,提高学习的精度。s t a c k i n g 具有较强的可扩展性,组合的层次可以 从一层向多层向上伸延。s t a c k i n g 方法的缺点之一是分类器个数增大时会导致元训练数 据规模增加。由于多种方法的存在和利弊,因此在多分类器组合的方法应用过程中,我 们通常要【雨对分类器的选择和分类器的融合两个问题,下而我们着重介绍并联的分类器 融合方式。 2 2投票方法 投票方法是最摹本的并联分类器组合方式。无论是同等投票方法还足加权投票方法 都遵循绝人多数原则,即获得最多投票数的类别为最终分类结果。当预测的各个类别得 基丁s t a c k i n g 框架的命乞实体识别 票相等时,往往需要通过随机抽取的方法来决定最终的结果,因此,尽管要做到完全避 免是不可能的,仍然有必要采取更为精确的方法来避免这种情况经常发生。其中,为每 个分类器加权是一个不错的方法,而如何计算权值则成为该方法性能表现好坏的关键。 目日i ,权值计算的方法主要有以下儿种1 1 5 】,如图2 1 所示。 ts t a n d 心rt ki 化d a j f i f e rl n ;l i ee l i s e i n b l eo fc l a j 钮蠡e l ,s ,ft o o s t a n df o rt h ep 1 e c h c t l o nc l a s a i f i c a t i o nf o l t h es y m b o lt o kb x t h ec l a s i f i - r t ,t h ep e f f o r i m n c ei i 搪f l s l u eo ft ic b f i n e da sf o l b w : t l l ep r e c l f i o nr a t e t 7w i t ht h ec l a s l c a t i o no ft a 窑:p r e cf t ,t a g j i c 妇r e c m lr a t eo fl 、i t ht h ec l a s l c a t l o no ft o g ? r e c ,r a g j o v e r a l lp r e c i s i o nr a t eo ft i :p , - e c ( t i t h e n y 厂r a g ,t o k ls t a n df o l 。t h en u m b e ro ft h ev o t e sf o rt h es 、? 1 1 1 1 = 1 3 t o kw i t ht h ec l a s s i f i c a t i o no ff a g : ( i ) m a j o m y : 一x - ! f s i ,o i c i = t a gt h e n tf i l s e0 f 2 jt o t p r e c i 钮o n : d fs i f 油= t a gt h e n p r e c f - l je l s e0 r3 ) t a 。空p r e c i _ , , t o n : 旦fs j fr o k j = t a gt h e na e crt ,r a g ) e l s e0 14 j p r e c i s i o i rr e c a l l ? 旦fs ir ,d 幻= g a gt h e n - a 钟,疋。t a g e l s e1 r e ct 死t a g ) 图2 1 各种权值计算方法 f i g 2 1 v a r i o u sm e t h o d so i lw e i g h tc a l c u l a t i o n 2 3 s t a c k i n g 框架原理 叠加式分类器组合即s t a c k i n g ,通常采用的是两层式框架结构。具体组合方式足通 过对多个成员分类其的输出结果进行融合,利用前一层分类器的输出结果以及其他的特 征向量信息作为下一层的学爿输入信息,使后层的学习对自卜一层的结果进行充分的归 纳,同时,发现并纠币结果的误差,从而获得比各成员分类器更高的准确率。通常我们 1 0 人迮理i :人学硕十学伊论文 将s t a c k i n g 的两层分别称为o 层和1 层,前者代表各成员分类器后者代表史高一级的 融合归纳分类器。 2 3 1 分类器组合过程 首先需要在训练数据上对第0 层的各分类器进行训练,训练过程通常采用交叉验证 的方法来进行。例如,对设数据集d = 似肋) ,儿= j ,n 构成的尺空间为“0 - 层空间”, 其中表示类别,翰表示第尼个训练实例。随机将数据划分成k 个大小基本相等的子 集d ,d 力,仇。分别定义仇和d 卜幻= d d k 为尽折交叉验证中的第k 折测试集和训练集。 给定s 个分类学习算法作为第o 层归纳算法,对训练集d f 呔j 用第s 个算法归纳得到模型 m ! “,s = l ,s 。 对于尽折交叉验证中的第k 个测试集仇中的每一个样本勘,模型m y 对它的预测 表示为乙。在整个交叉验证过程结束后,将s 个模型输出组成一个新的数据集,即 d c ,= ( y 露,z l ,z s n ) ,n = 1 ,) ( 2 1 ) 这个新的数据集就是第1 层融合数据,在这一步的基础上第0 层的数据将作为特征 向量的一部分j j 口a , 第1 层的学习中,数据集中的每一个样本就是“空i i 】j 中的一个输入 分量。用一个分类算法对这些数据进行归纳得到的模型厨就是第1 层模型( 元模型) , 它描述的是o 层模型的预测与真实结果之间的关系,即在已知o 层模型预测的冉玎提下, 推测在什么情况下可以得出f 确结果。整个过程如图2 2 ,d 表示数据集,c 表示分类 器。 l e v e l 1 l e v e l 0 ld 。甲 叫一丘叫 q - 丘 幽2 2s t a c k i n g 的泛化示意图 f i g 2 2 s t a c k i n ga m a l g a m a t i o n 基ts t a c k i n g 框架的命名实体识别 2 3 2 未知数据分类过程 同过上述的过程,我们生成o 层和1 层分类器,然后就可对测试集进行分类。输入 一个待分类样本x ,对它的分类过程分成2 步1 1 6 l : ( 1 ) 由o 层分类器对它进行分类,得到预测结果: ( 2 ) 将o 层分类器的预测结果看作是一个新的预测样本,送入1 层分类器,由1 层分类器来预测它的类别如图2 3 所示。 例子x 1 0 一层分类器的预测 图2 3s t a c k i n g 的分类过群 f i g 2 3s t a c k i n gc l a s s i f yp r o c e s s 2 4 s t a c k i n g 框架在本文中的应用 在本文的中文命名实体识别实验中,我们引入了s t a c k i n g 框架结构来提升命名实体 识别的性能。在s t a c k i n g 组合分类器的构建过程中,需要涉及各层次成员分类器的选择, 成员分类器所需要的训练数据,成员分类器的数量,以及成员分类器使用的特征子集和 输入结果的处理。 在分类器的融合层次方面,我们采用的是两层s t a c k i n g 框架结构。成员分类器数量 的选择也是比较重要的一个方面,底层分类器的数目并非越多越好,过多的底层分类器 会造成上层分类器向量空间过大,训练困难,因此为了使上层融合对于底层的特征输入 信息有很好的控制,我们并没有选择过多的分类器加入,而是针对每个阶段任务的侧重 点不同选择相对较合适的分类算法作为成员分类器。 第一阶段的识别j i :作丰要足命名实体的序列标注,第。:阶段偏重于命名实体的类别 判断。根据具体的识别仟务,我们应用了条件随机域、最大熵,5 尔可夫作为第0 层成员 分类器,支持向量机作为第1 层分类器。 在第一阶段保证底层分类器独立的同时,第二阶段的融合规则为了增强第1 层分类 器的分类性能。在处理过程中,除了第o 一层的结果作为学习输入向量以外,我们还选取 人连理l :人学硕 :学伊论文 的其他一些上下文特征一并加入进来,有效地提高了s t a c k i n g 命名实体识别系统的性能。 整个实验过程如图2 4 所示。 s i g h a n 中文 j n e r 语料l l 构造训练集 。:乞 特征组 m e m m 模型 c r f 模型 文 特t i 本 。l ,i 征 l i 特征哈希表 lfs v m 分类器、 预 提_ r i ; l。 处 取 : 理 “”“”“”。公”。 ui 构造测试集 特征组 孓。7 i,l 口口,1 i j 结果文本 图2 4s t a c ki n g n e r 实验系统框架 f i g 2 4s y s t e mf r a m e w o r ko fs t a c k i n g - n e r 基丁| s t a c k i n g 框架的命名实体识别 3 特征集描述 在各个机器学习模型中,最重要的就是特征的选择,加入不同的特征将会对命名实 体识别的结果有很大的影响。为了提高命名实体谚 别的性能,我们对每一种特征进行了 考察,包括各种命名实体的内部特征、上下文特征、整个语料级的命名实体统计特征以 及所有其他对命名实体识别有影响的特征,分析他们在模型中的使用情况,从而确定每 一种特征对命名实体识别的作用和影响,在此基础上,将这些特征进行有机的融合,以 提高命名实体识别的性能,为以后的识别工作提供有效的数据和分析。 3 1 局部基本特征 3 1 1 基于字特征 中文命名实体识别通常来说都会利用中文分词作为一个基础性的处理工作,并且把 分词和词性标注信息作为特征加入到训练中,但是分词和词性标注在带来讵面特征的同 时,由于其本身萨确率的限制,也会导致命名实体识别上的错误。比如未登录词是分词 过程的一个难点,这个时候,在命名实体识别过程中加入分词和词性信息,并不能起到 好的作用,反而会使错误情况更加严重,因此在本文的实验过程中,我们并不直接在分 词的文本基础上进行命名实体识别。这样的好处就是让命名实体识别可以作为一个单独 得任务来处理,而不依赖于其他任务的争取与否。 基于字的特征就是字本身以及上下文信息都是以字为单位来进行处理的,通过字本 身、围绕这个字的上下文字信息以及这些字信息的组合柬判断当前样本是否是某个命名 实体的一部分。需要说明的是,这单所说的上下文是通过以当自仃样本为中心的一个“观 察窗口”柬实现心胁c 坼咖,c a g b g ) 。理论上说,窗口越大,可利用的上下文信息 越多,越有利于实体的识别,但是窗口丌的过大,不仅会影响系统的运行效率,而且还 会使机器学习产生过拟合现象;而窗口过小,加入的特征不充分,包含的信息有限,会 丢失一些重要的信息。根据以前的实验数据分析,在中文命名实体识别的过程中,通常 观察窗口定义为2 ,即心刍c z ,c 伤c ,c 2 ) 。基于字特征所构成的模板如表3 1 所示。 3 1 2 首字与尾字 在上面的基本字特征巾,我们利用了当自,j 字及其上下文的信息。而在一个具体的命 名实体中首字和尾字是进行实体边界检测最好的标志。通常在中文命名实体的机构名识 别巾,往i 实体的第一个字,错误牢相对较高,因此首字的加入将有助于机构名很长的 实体识别。而尾字更是判断实体类别的一个重要特征,尤其足地名和机构名的结尾字。 人迮理l :人学硕十学伊论文 如,“大连市”的“市”字 “信息产业局”的“局”,“中山区”的“区”字等,都 是很明显的尾字特征。因此在局部特征的时候,我们将首字和尾字加入特征模板。 表3 1 字特征模极 t a b 3 1 t h et e m p l a t eo fc h a r a c t e rf e a t u r e s 模极i d特祉模板 c h a r c h a r 一1 c h a r 一2 c h a r 一2 c h a r 一1 c h a r 1 c h a r c h a r 一2 c h a r 1 c h a r c h a r + 1 c h a r + 2 c h a r 。c h a r + l c h a r + 1 c h a r + 2 3 。1 3 前接词与后接词 前接词( p r e v i o u sw o r d ,p w ) 与后接词( n e x tw o r d ,n w ) 。其目的在于考察各类实体i j 订 后邻接词信息,可分别考虑前后邻接词构建特征,也可组合两者形成词对共现特征。如 给定字串“胡锦涛主席”,“总理温家宝”。设目标候选词为两位国家领导人的名字, 若分别考虑其前后邻接词则生成特征“( 1 ,p w - - “总理”或n w + = “主席”,e c l a s s ) ” ( n ec l a s s 为具体实体类别) ,这种情况,将有助于实体类别的判断。 3 1 4 基于位置特征 命名实体所在的位置对于n e r 任务也是一个很有用的信息。这里考察命名实体在 一个句子中所处的位置,分为旬首和句术两种,作为实体识别的位置特征加入到训练过 程巾去。 3 1 5 数字、字母与特殊符号 判断当日订字是否是数字、字母或者足特殊符号。从构词信息上判断,有的n e 会含 有一些非汉字类的字符,例如,某些音译人名含特有符号“”( 如“安娜一苦列林娜”) , 1 2 3 4 5 6 7 8 9 托 n 基丁s t a c k i n g 框架的命名实体识刖 则其相应特征取值为1 ;有些公司名字含有字母,如“i b m ”。有些词汇中包含数字和 货币符号,这时的特殊符号,可以判断当前候选词不是我们要识别的范围,可以作为一 个排除候选的特征。因此我们将非汉字信息也作为特征加入实验中。 3 2全局特征 在文本中的某些部分的命名实体具有明显的特征,很容易被识别出来并区分类别, 而同样的命名实体在文本的其他地方可能就不具备明显的特征,因此给识别过程带来的 麻烦。另一方面,由于数据稀疏问题可能在全部数据中出现的次数较少,如何能够有效 地统计并总结这种少量的情况,作为特征,去有助于模型训练,也是值得探索的一个问 题。因此,对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年及未来5年中国饮料工业行业竞争格局分析及发展趋势预测报告
- 高压试验工岗位操作熟练度考核试卷及答案
- 2025年合肥师范学院高层次人才招聘63人考前自测高频考点模拟试题及答案详解(名师系列)
- 2025辽宁本溪高新区国有企业招聘6人模拟试卷及完整答案详解1套
- 船舶修理工职业健康、安全、环保技术规程
- 铸管退火工设备安全技术规程
- 热力网值班员事故应急处理模拟考核试卷及答案
- 2025年福建省莆田市仙游县森林防灭火指挥部招聘10人模拟试卷及1套参考答案详解
- 白银熔池熔炼工岗位设备安全技术规程
- 电池配料工工艺作业技术规程
- 二年级趣味数学校本教材
- JJF新1422024电动汽车充电检测用程控电阻负载校准规范
- 当代主要疾病和预防课件2025-2026学年北师大版生物八年级上册
- 葡萄种植培训课件
- 车辆入股协议书范本合同
- 好利来工作协议合同模板
- 人防检测培训课件
- 2025年睡眠监护仪项目申请报告范文
- 征地拆迁业务知识培训课件
- 3.1 世界是普遍联系的 课件 高中政治统编版必修4 哲学与文化
- 01综合管沟汇报
评论
0/150
提交评论