




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 专有名词的识别是中文信息处理领域的重要研究课题之一,目前尚 未得到很好的解决。在大规模真实文本为基础的语料库研究的重要性日 益突显的情况下,如何提高大规模语料库的质量成为关键,而专有名词 的识别质量是影响语料库加工质量的一个重要因素,专有名词识别的自 动化也能提高大规模语料库加工效率。此外,在信息抽取、问答系统、 术语学研究等各个研究领域应用领域,专有名词的识别也是其基础性步 骤。 本文针对真实中文文本中较为频繁出现的人名、地理政治地名还有 组织机构名三类专有名词,提出了一种基于动态贝叶斯网模型的专有名 词自动识别方法,该方法把文本中的局部特征、全局特征及语言学经验 知识融入一个极具表达和推导能力的随机概率模型中,可以很好地识别 专有名词。研究内容主要包括以下几个方面: 1 对专有名词的分类做了较好的研究,分析它们在单句中的局部特征, 在此基础上,建立了专有名词的局部特征变量之间的相互依赖关系。 2 研究了专有名词在真实中文文本的互指等语篇信息,利用有效的互 指消解规则,解决了专有名词名义性互指等问题,把全局信息融入系统, 保证了有效地识别专有名词。 3 采用了基准模型与动态贝叶斯网模型相结合的方法,取长补短,充 分利用了两种模型的各自优点,既保证了识别系统的效率,也保证了识 别结果的准确率。 4 为了提高专有名词识别效果,我们考虑了自然语言文本中的局 部信息,此外更主要的是考察其语篇信息,并且针对中文文本中人名、 组织机构名及地理政治名的识别,构建专有名词识别动态贝叶斯模型 ( d b n s ) 。我们把“是否某类专有名词”作为分词后中文文本的每个词的 属性之一,从而把专有名词识别问题转换成一个分类问题。特别是考虑 了正在识别的词与已经识别为某类专有名词的前一个词之间的一种联 系等语篇信息,综合利用了随机模型和基于特征推理方法的优点。 我们选用山西大学中文评测语料中共2 3 0 篇作为实验材料,随机抽 取其中1 8 0 篇用于训练动态贝叶斯模型参数,剩余的5 0 篇用于测试, 然后同n y m b l e 模型单独识别的结果比较,我们把动态贝叶斯模型作为 n y m b l e 的补充,在略微降低了专有名词识别召回率情况下,较大地提高 了准确率和f 值,特别地我们应用动态贝叶斯模型消除了n y m b l e 方法 识别结果中的模糊专有名词6 0 的错误结果。由此可见,因为动态贝叶 斯识别模型考虑r 待识别词的在文本中的诸多语篇信息,弥补了只考虑 局部信息的隐马尔科夫模型一- - n y m b l e 方法的局限,所以改善了专有名 词的识别效果。 关键词:动态贝叶斯模型;专有名词:语篇信息 c h i n e s ep r o p e rn a m e sr e c o g n i t i o n b a s e do nd y n a m i cb a y e s i a nn e t w o r k l i u j i e ( c o m p u t e rs o f t w a r ea n dt h e o r y ) d i r e c t e db yp r o f y a n ge r h o n g a b s t r a c t t h er e c o g n i t i o no f p r o p e rn a m e si so n eo ft h eb a s i ct a s k so nc h i n e s en a t u r a l l a n g u a g ep r o c e s s i n gr e s e a r c h ,b e i n gn o tp e r f e c t l yg i v e nt h ee n da n s w e r t h e a u t o m a t i cr e c o g n i t i o no f p r o p e rn a m e si nt h et e x tc a ni m p r o v et h ee f f i c i e n c y o fs e t t i n gu po f t h el a r g e s c a l ec o r p u s i na d d i t i o n ,p r o p e rn a m e sr e c o g n i t i o n g i v ep r o pt ot h en a t u r a ll a n g u a g ep r o c e s s i n gi nt h ef i e l do fi n f o r m a t i o n e x t r a c t i o n ,q u e s t i o na n s w e r i n gs y s t e ma n ds oo n w ea p p l yt h ed y n a m i cb a y e s i a nn e t w o r k s ( d b n s ) t ot h er e c o g n i z i n go f p e r s o nn a m e ,o r g a n i z a t i o n n a m ea n d g e o p o l i t i c a l l o c a t i o n a p p e a r i n g f r e q u e n t l yi nt h er e a lt e x tf i l e s i to f f e r sa ne l e g a n tw a yt oi n t e g r a t el o c a la n d g l o b a li n f o r m a t i o n o fc o n t e x ti n t oo n em o d e l t h ee f f o r t i n t h i s p a p e r i n c l u d e s d oh a r dr e s e a r c hi nt h ec l a s s i l y i n gi np r o p e rn a m e s ,l o c a t i o nf e a t u r e s i nas i n g l es e n t e n c e ,t h e nc o n s t i t u t et h el o c a lf e a t u r ev a r i e t i e sa n d d e p e n d e n c ya m o n gt h e m 2 d oa n a l y s i st ot h ec o r e f e l e n c ei n f o r m a t i o ni nt h ew h o l et e x t ,t h e p r o b l e mo fn o m i n a lm e n t i o n s o fp r o p e rn a m e si sr e s o l v e db yt h e r e f e r e n c er u l e s ;t h ed i s c o u r s ei n f o r m a t i o ni n v o l v e di n t ot h es y s t e m i m p r o v e st h er e c o g n i t i o na c c u r a c y 3 i n t e g r a t i n gt h eb a s e l i n es y s t e ma n dt h ed b n s ,m a k eu s eo ft h e i r m e r i t s ,a s s u r i n gt h es y s t e me f f i c i e n c y 4 w ec o n s t r u c tam o d e lf o rl o c a t i o nr e c o g n i t i o nr e f l e c t i n gt h er e l a t i o n b e t w e e np r o p e rn a n l e sa n dc o n t e x t e x p e r i m e n t ss h o wt h a to u rm o d e l g i v e s o u ts o m em e r i t so v e ro t h e rm o d e l so rm e t h o d s ,b e c a u s ei t e m p l o y st h eg l o b a lc l u e si nt e x t w et r i e do nt h e2 30p i e c e so ft e x tf i l e sf r o ms h a n x iu n i v e r s i t yc o r p u sf o r p r o p e rn a m e st e s t ;e x t r a c t18 0p i e c e sr a n d o m l yf o rt r a i n i n g ,o t h e r sf o rt e s t w et a k ed b n st or e i n f o r c en y m b l e ,i m p r o v ea c c u r a c ya n dfv a l u ew i t ha b i td e c r e a s ei nr e c a l l i n g k e y w o r d s :d y n a m i cb a y e s i a nn e t w o r k s ;p r o p e rn a m e s ;d i s c o u r s e i n f o r m a t i o n j 音 第1 章引言 客观世界中单个对象或对象集称为实体,真实文本中提及( m e n t i o n s ) 同一实 体有三种方式:名称、名义及指代。其中实体的名称提及又称专有名词( p r o p e r n o u n ) , 依据实体所属领域不同专有名词可进行分类,文本中的固有名称、缩写及其他唯 一标识的子类包括组织名( o r g a n i z a t i o n ) ,人名( p e r s o n ) ,地名( l o c a t i o n ) 等。例如:“世卫组织”、“张三丰”、“淮海路甲一号”。专有名词识别是指 在源文本中分隔出代表专有名词的词串同时确定其所属类型。本论文提出了专有名 词识别的一种辅助实现。 1 1 专有名词识别的意义 自然语言处理的传统方法中很少涉及专有名词,旧的语言分析系统典型的初始 步骤是查阅字典确定语言单位的词性。事实上大多数文本中包含很多专有名词,因 此把专有名词作为语言单位来考察是对文本进行有效分析的必要步骤。从而专有名 词的识别在文本的语言分析中极具关键作用,具体作用详述如下。 1 1 1 术语学方面 术语学( t e r m i n o l o g y ) 研究领域与专有名词识别之间有着紧密联系。术语( t e r m ) 一词的定义尚无定论,公认度较高的描述之一是“术语是某一专业领域主要使用的 词法单位”( l e x i c a lu n i t s m o s t l y u s e d i nas p e c i a ld o m a i n ) 。当然领域不同对应的术语 往往相异。比如当把新闻报道文本作为诸如政治、经济、体育及娱乐等领域的综合 体时,其中的专有名词多数成为对应领域的术语。在生物信息学领域,基因或蛋白 质的名字一定是术语同时也是专有名词。目前抽取术语相关信息的技术多袭用专有 名词识别方法。因此专有名两识别技术在术语学中具有重要地位。 1 1 2 词义消歧及检索辞典方面 随着专有名词分类的细化,专有名词的识别愈来愈类似于词义消歧问题,实施 上也接近于在辞典中检索合适节点。事实上一种利用w o r d n e t 作为检索辞典的 问答系统就专门用来查询实体的类型。只是当前的w o r d n e t 仅仪包括常用名词, 而没有包含专有名词。因为在检索辞典中引入专有名词有技术实现上的难度。不过, r 本近期公布的一种检索辞典 一n i n o n g o g o i t a i k e i “在引入专有名词方面作了有 效的尝试,这从一个侧丽验证了专有名词识别在检索辞典研究中的地位。 基十功态儿n 斯m 的中文与仃名识别 1 1 3 未登录词问题 专订名词往往是未录入辞典的未知词,在没有分界点的中文、只文等爵占中, 未登录词增加了分析研究的难度。研究者们在遇到未登录同时信念往往进行不l 刀实 情的切分。正确识别专有名词的司时也就f 确识别了部分未登录词,从而在一定程 度卜缓解了末登录词这个难题。 1 1 4 信息抽取研究领域 信息抽取指对真实文本中的实体、关系、事件进行识别,它具有很广的任务范 围,比如识别文本中所有公司的名称、找出所有谋杀犯的名字、谋杀的对象地点时 问等等。由于因特网的迅猛发展,在海量w e b 文本中有效过滤出有用数据极具实 用价值,而所有这些问题解决的基础之一即对专有名词的f 确识别。 1 2 识别专有名词的复杂性 专有名词自身的复杂性导致了对其识别的难度。比如专有名词数量多类型杂以 至难以枚举:专有名词是一个随时问领域不同而不断衍生变化的群体,具有基数大 及不稳定的特点。另外,对专有名词的分类很难做到清晰,仅仅足类别本身的数目 就难以穷尽。 专有名词有诸多容易出错方面,详述如下。 结构性出错 识别结果过短或过长。例如嵌套的组织机构名( o r g ) 就很难准确识别,举 例如下: 丢失词尾一一“中国艺术( 团) 中国学生( 会) 俄罗斯核动力( 所) ”中 的团、会、所容易丢失。 修饰语丢失一一“( 爱丁堡) 大学鹏程( 有限公司) 9 1 。 长的专有名词难以识别一一“中华人民共和国外交部办公大楼”。 类型标识错误 某类专有名词常常误识为其它类型。比如音译的人名与音译的组织机构名、 地名难以区分:“克里姆林”是地名还是人名? “斯罩兰卡”是固名还是人名? 缩略语误判 训练语料的不足及专有名词缩略语极大的数量导致了以别的较大难度。通常的 做法是,把缩略语分门别类组织成不同的列表,并设计对应的舰i a i j ,此种方法仍然 可能产生不少的错误结果。比如,代表中国、美国的“中美”,就很难i f 确识别 【言 出。 此外,随着专有名词种类的增加,识别难度也不断加大。首先,准确定义区分 所有种类就是研究者面临的难题之一。即使专有名词种类较少,明确定义其巾的每 一类都颇具争议,一般会加入强制的主观因素。种类增加总体上加大了识别的难度。 因为只有在某些特殊情形下,种类增加能在一定程度上减轻识别的负担,例如在一 个未包含“政府机构”类的专有名词集中,很难确定“最高法院”是地名类还是组 织机构类,但旦细分至包含“政府机构”类,则“最高法院”归属问题就很容易 解决。但是更多的情况下,种类的增加只会扩大i : 别的难度,比如,“国内争端” 是“战争”类还是“事端”类? “很小的台风”属于“自然现象”还是“自然灾害”? 此类问题的解决没有最完美方法,但是寻找最适合经验的方法是可能的。另外,种 类数目的扩大也增加了语料建设的难度。针对数目少的专有名词集,完全凭借人工 标注语料得到规则是可行的。对于一个数目较大的种类集,相同的机制就变得不合 理了。有研究者2 0 0 4 年做实验,在3 0 天的新闻报道文本中人工标注2 0 0 类专有名 词集,发现一方面很难保证同一个词串标注的一致性,另一方面更难保证所有种类 有足够的语料实例。 1 3 专有名词识别的现状及趋势 专有名词概念广泛应用于信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 、问答系统( q u e s t i o n a n s w e r i n g ) 等自然语言处理系统中,它起源于m u c ( 消息理解会议,m e s s a g e u n d e r s t a n d i n gc o n f e r e n c e ) 。具体而言在一九九五年的m u c 6 中由美国研究工作者 g r i s h m a n 和s u n d h e i m 提出。当时的m u c 致力于新闻类非结构化文本中结构化信 息的抽取,在相关系统的研发过程中,人们认识到信息单元识别的重要性,这些单 元包括人名、地名、组织机构名以及时问、同期、货币值、百分比值等,此类实体 的识别也逐渐成为信息抽取工作重要的任务子类。并且由于任务的相对独立性,专 有名词的识别研究在许多不同语种中展丌,比如m e t ( m u ic i l i n g u a le n t i t yt r a c k i n g ) q 3 的同语、汉语及西班牙语。多个专有名词的识别项目工程在不同地区展丌:日本的 i r e x ( i n f o r m a t i o nr e t r i e v a la n de x e r c i s e ) 项目中的专有名词识别子系统,2 0 0 2 年 c o n i l 中包括了英、德、荷兰、西班牙语的四种语言共享的专有名词项目。其中 i r e x 引入了一种新的专有名词类一“a r t i f a c t ”例如“o d y s s e y ”是一个书名,而 “w i n d o w s ”是一个产品名。m u c 停止举行后,a c e ( a u t o m a t i cc o n t e n te x t r a c t i o n ) 即自动内容抽耿会议承袭了专有名词识别任务,同时进一步扩充了专有名词的种 皋十动态叶斯1 q 的中殳号名涮识目 类,增加了g p e ( g e o g r a p h i c a la n dp o l i t i c a le n t i t i e s ) ,例如“法国”“纽约”,还有f a c i l i t y , 例如“帝国大厦”。仞始阶段专有名词的种类仅有7 1 0 种,它们的手工标注及自动 标注系统主要基于辞典建立及规则对应,采用人工统计或监督学习技术。后期的主 导技术是监督学习方法,包括决策树、隐马尔科大模型、最大熵、支持向量机等。 专有名词的识别已经成为众多监督学习方法的研究目标。 1 4 可用于专有名词的三类识别方法 如前所述,专有名词识别很复杂,但是由于很多研究者的努力,已经出现多种 有效方法。所有的方法主旨在减轻人工标注的负担,由于完全人工参与的办法难以 实施,研究者转而关注人工参与较少的办法。现实情况是,海量文本是很容易获得 的,比如多达1 0 g b 的w e b 文本,或者十几年的新闻报道材料。因此,海量文本 的信息抽取成为主流。具体方法叙述如下: 1 4 1 半监督法 “半监督”( s e m i s u p e r v i s e d 或w e a k l ys u p e r v i s e d ) 这个术语出现的时间并不很 长。它的主要技术称为“自举”( b o o t s t r a p p i n g ) 。这种方法只包括了很少的人工参 与,初始化阶段加入一个小的“种子集合”。例如为了抽取“疾病名”,起始阶段只 有5 个已知疾病名被输入,然后系统搜索包括这些疾病名的句子,进而发现句子中 疾病名的上下文标征信息,接着系统在同样的上下文环境中试探新的疾病名实例, 重复这些步骤,将得到一个足够大的疾病名集。同样该方法也适用于专有名词及专 有名词问关系的抽取,如“莎士比亚”与“哈姆雷特”。 1 4 2 目的性法 在监督学习机制中,总体而言,训练语料规模越大,系统越有可能获得准确信 息,但是标注一个大规模的语料代价很大,可行的替代办法是有选择地标注语料, 也就是标注那些现存系统不能明确识别的语料。在这个领域已经出现了不少有效的 实用系统。 143 无监督法 典型的无监督学习方法是聚类。比如可以通过上下文的相似度进行聚类来收集 专有名词。 也有不利用聚类的无监督学习方法,值得推荐的实例就是利用语言学知以从海 曼文本进行信息抽取。h e n s t 于1 9 9 2 年提出利用诸如“as u c ha sb ”来提取信息。 当然类似技术也同样适用于专有名词的识别。 j f 爿 所有这些研究方法关注的焦点在于利用语料的先验知识来抽取信息,而不仅仅 把浯料看作字符的序列。当然,尽管当前技术手段只能处理i g b 左右的源数据, 但随着技术的进步,大文本的处理效率也会有极大的提高。 1 5 论文的主要工作及成果 本文针对真实文本中频繁出现的人名、地理政治地名及组织机构名三类专有名 词提出了一种基于动态贝叶斯网( d y n a m i c b a y e s i a n n e t w o r k ) 的自动识别方法, 该方法利用文本中的上下文信息来指导专有名词类型判定。主要研究内容包括: 1 对于中文专有名词的定义进行了系统的分析,建立了人名、地理政治地名 及组织机构名对应的动态贝w i - 斯网( d b n ) 结构。 2 研究分析了中文真实文本中专有名词的语篇信息,建立了动态贝叶斯网的 概率分布表( c p t ) 。 3 采用有选择的训练学习方法,与基准模型n y m b l e 相结合,以n y m b l e 的部 分输出作为d b n 的输入。 4 设计了合理的实验系统,分为单独采用n y m b l e 、n y m n e 与动态贝叶斯网 串联识别的方法,验证了有选择训练学习方法的有效性。 本文选用山西大学中文命名实体评测语料2 3 0 篇进行测试,三种专有名词的平 均召回率和准确率都比较理想,从而证明了动态贝叶斯网能够提高专有名词的识别 效果。 1 6 论文结构 第】章引言 综合介绍了论文主要内容。 第2 章动态贝叶斯网理论 介绍了动态贝叶斯网相关的模型、理论,包括空问一状态模型、贝叶斯网模型 及动态贝叶斯刚模型,最后还介绍了动态贝叶斯网的表示、推导2 i ) 1 1 练生成方法。 第3 章基准模型n y m b l e 简介 第4 章动态贝叶斯网识别专有名词 介绍了动态贝叶斯网识别专有名词的流程。 此外还有实验结果与分析: 设计了两种实验:n y m b l e 单独识别、n y m b l e + z j ) 碴i ) - ! 叶斯网串联t 别,考察 了系统的适j 岖性比较了专有名词识别的效果,并对实验结果作出了评价。 动态i j ! nj 斯脚理论简介 第二章动态贝叶斯网理论简介 动态贝1 1r 斯网利用贝叶斯网( b a y e sn e t s ) 来模拟个状态一空间模型 ( s t a t e s p a c em o d e l ) 中随机变量序列之问的依赖关系和概率分布。 下面首先给出状态空间模型及贝叶斯网的概念,进而对动态贝叶斯网作一个 综述。 2 1 状态一空间模型 科学实验与工程实践中有很多序列性数据,比如动态系统产生的时间序列数 据、一维空剧处理过程产生的类似于d n a 序列的空问排列。序列性数据处理方式有 两类:联机序列数据分析( o n l i n ea n a l y s i s ) 和脱机序列数据分析( o f f l i n e a n a y s i s ) ,前者只处理观测点以前部分数据,后者则分析所有数据。 联机分析主要任务之一即以t 时刻序列数据( 见下面公式) 为依据预测未来观 测值。 y 。= ( y ,y 。) 在此,若只考虑离散系统,则t 总取整数值。当然对未来的预测不可能是百分之百 的准确,只能取得一个概率值,此概率值称为可信度,当前时刻t 之后h 个时间单 位的未来值预测可信度记作: p ( y 。fy 。) 在一h 式中h o 代表预测深度。 在系统存在多方面的控制因素时,未来预测可信度将受制约于多个条件,这些 条件既存在当前时刻之前也存在于当前时刻之后,设当前时刻为t ,预测深度为h , u 表示控制因素,则所有时刻控制因素表示为u 。其中u 。表示当前时刻前的控制 因素,l h m + n 表示当前时刻后的控制因素。前述情况一ft + h 时刻预测值可信度表示为 公式: p ( y 。、l 叭- n y 。) 序列性数据预测问题的经典解决办法是使用线性模型、神经网络学中的非线性 模型及决策树,针对离散型数据,变长马尔科夫模型使用较。 经典方法存在诸多不足。首先,对未来预测的依据是一个有限的小范闱值,印 y t t ( 1 o 即范罔宽度,一般取很小值) ,如果要解决的实际问题的秩小于l ,则模 璀卜动态叭n 1 新m 的中正擎有名涮识别 型的预测结果不会有结构性损耗,但是具体情况律往相反,即| u j 题的秩远远人于l , 改进型的神经网络方法通过增加内部节点束减少这种损耗,难以解决长距离依赖的 难题,没有达到期望的效果。其次,传统方法不能对先验知u 加以利用,毕竟多数 先验知识难以直观地表示成数量值,而且神经网络这样的黑盒模型难以显式地加以 解释。第三,传统方法不能处理多维输入、输出,作为一个典型的多维输入、输出 的实例,视频压缩系统对未来帧的预测,比如m p e g 利用当前帧来推测后继帧的内 容,就很难用传统方法解决。多维输入、输出问题正是状态一空间模型的主要解决 目标。 状态一空刚模型假设存在隐形变量决定可观测变量的变化,这些隐形变量随着 某种状态( 比如时间) 的变化而变化,同时又可能受其它一些控制因素约束。联机 分析的目标在于依据可观测变量及已知的控制因素的值,逆推隐形变量之值,以x t 代表时刻t 隐形变量,则上述目标定义为: p ( x 。iy 。,u 。) 上式中的概率值也称为可信度。 有研究标明隐形变量的可信度作为统计量足以达到给定t = 1 标,不需要再保存多 种可观测变量及控制因素,从而极大地减少工作量及存贮代价。如果再引入贝叶斯 准则,可信度就能够进行递归更新。另外,为了合理反映预测结果与真实状态的附 合程度,预测的结果中维持一个关于x t 相对于观测值的概率分布表,而不是一个 单独的数值。一个表有利于序列性数据相关的信息处理,如果我们已经确定预测结 果是错误的,则可以从分布表中查找到较小的错误来源范围。 状态一空i 瑚模型克服了传统方法的缺陷,扩大了所依据可观测变量的范围,易 于处理多维输入、输出问题,方便地融合多方面先验知t 5 。所以说该模型优于传统 方法。在一个实际问题中,有很多变量是不可能直接测量它们的数值的,而利用状 念一空间模型把这些变量作为隐式变量加入系统结构中,就会更接近于实际结构的 性能。 即使实际问题只包括可观测变量,人为地引入“虚拟”的隐形变量也能达到简 化问题的目的。例如,可以把一个待处理的复杂的波形信号假想为一个二值变量 ( ( :r u e f a ls e ) 的作用结果,陔信号的解释将变得很简单,证常的波形用二值变 量的“ f u e ”状态来解释,可以进行精确的演算,避免了直接研究示波器记录的波 形图的复杂性。信弓的异常统解释为【_ “f a ls e ”状态导致,而不必记录“现实” 的奇形怪状的波形。这是因为引入的隐形变量大大降低了信号的维数,这点已经 r 动态叭i i l + 斯删理论简介 在视频压缩工具的实践中得到了证实。 状态一空间模型的具体内容包括模型的表示、推导及建立”3 。 2 2 贝叶斯网模型 贝叶斯网模型( b a y e sn e t s ) 是一种用有向图表示的概率推导网,节点a 到节 点b 的弧表示“a ”导致“b ”,因而不允许出现有向环,也就是说贝叶斯网是一个 有向无环图( d a g ) ,下图即一个贝叶斯网的实例: c = c l o u d y ( 多云) 、s = s p r i n k l e r ( 喷灌) 、r = r m n ( 下雨) 、w = w e tg r a s s ( 草坪湿润) 。 草皮湿润的原因可能是喷灌或下雨或二者同时作用,多云时下雨可能性增加而 草坪管理者进行喷灌的可能性减少,如果已进行了喷灌则下雨可能性减少。 贝叶斯网重要的一点形式语义为:节点条件独立于其马尔科夫覆盖范围外的节 点( 马尔科夫覆盖范围包括节点的父节点、子节点及子节点的父结点参见图2 2 ) 图2 2 马尔科夫覆盖范围 节点x 条件独立于其马尔科夫覆盖范围u ,u 。y 。y 。z u , , oz 外的其它节点。 摧于动忐u ! n 斯州的中芷专何名词识别 考虑草坪的例子可以理解把子节点的父结点引入乌尔科夫覆盖范围的原冈。假 发图中不包括c 节点,则剩余节点构成v 型结构s w r 。再假设所有节j i 都是二 值的,也就是指它们的值域为( 0 ,1 ) 。考虑节点r ,假设确定下雨了( r = 1 ) ,而且 注意到草坪是湿润的( w - - - - 1 ) ,则喷灌的可能i f f d , 7 二末明确下雨时的可能性,即有: p ( s - 1w = l ,r - 1 ) 1 ) 组成。 睁 秽拶秒 艰十动态i ! n i 斯m 的中文专何名涮识别 当然一个节点的父节点,既可与子节点在同一片,也可在前驱片中,即动态叭 叶斯网是一阶马尔科夫链,如此假设是为了标记的简单,是实际情形的种近似。 片问的弧从左至右,反映了因果关系与状态轴( 比如:时间) 变化方向的一致性。 只要满足整个动态贝叶斯网是一个有向无环图,则片中内节点问的弧可以是任意 的。直观地讲,片内的弧表示“即时”原冈,片内也可以存在无向弧,用柬表征节 点间的相关性或约束等双向关系而不是因果关系等单向关联。本文中所讨论的动态 贝叶斯网不包括无向弧。 概率分布表( c p d ) 中的参数是一个状态( 时间) 不变量,即各片是状态( 时 问) 同质的。如有个别参数有变化,可咀通过增加随机变量的方式来解决。 整个动态贝叶斯网沿状态( 时间) 轴展丌双片动态贝叶斯网而得到。它的联合 分布可由下式计算得到。 n p ( z :,) = l i p ( z 。1p a ( z 1 ) ) l - 1 尽管序列性数据贝叶斯网的表示模型有很多种,但是实验证明整体而苦动态贝 叶斯网的表达力最强。由于良好的操作性能与表达性能,动态贝叶斯网已经成为解 决许多实际问题的首选。确实也有很多成功的实例证明了它的有效性。 2 3 2 动态贝叶斯网推导 动态贝叶斯网推导的主要目标是计算边缘概率p ( x 。ly 。,) 。t = t 时称为过滤, t t 时称为平滑,t 7 ) 之削有一 种关系如表4 2 所示。 卯 町 叭 盯 豁 准确率 动态叭叶斯刚识别专柯名制 表4 2 “模糊”专有名词的识别准确率 提及数 l2345 6 7 7 专f 】名词美、 p e r4 3 9 48 7 0 79 1 2 38 7 9 59 1 5 79 1 9 29 4 7 49 6 3 6 6 p e l o c5 5 8 18 8 8 09 6 0 7l o o1 0 01 0 0l o o9 6 4 6 o r g6 4 7 l 8 0 5 98 9 4 79 4 2 91 0 0 1 0 0l o o1 0 0 上表显示专有名词识别准确率随着文本中名称本身提及的数目的增加而提高。 也就是说如果一个专有名词在文本中有越多次数的名称提及,则该专有名词越容易 被正确识别。这一点正好印证了一个语言学上的直觉:作者在文本中提及一个人们 不太熟悉的模糊的新“名称”时倾向于在下文中重复地强调这个名称,或利用名义 性互指对其加以解释。 观察上表还可以看到只有一次提及名称本身的专有名词的识别准确率极低。这 种专有名词所占比例在1 0 左右,因此增加它们的识别准确率能够极大地提高系统 的识别效率。语篇信息在此过程中具有关键作用,以1 5 7 个单次出现的人名作统计, 5 6 是错误的识别,在错误识别结果中又有7 3 误判为组织机构名或地理政治地名, 而利用互指语篇信息可以很容易地修正这些错误,正确的识别结果中有7 1 也能够 在上下文中找到确认依据,比如一个头衔或一个姓氏。总之不借助语篇特征信息, 作为名称本身只出现一次的专有名词极易被错误识别。 4 3 动态贝叶斯网专有名词识别 专有名词识别是信息处理的基础工作之一,目前针对此问题的研究方法或模型 很多,包括隐马尔科夫模型、最大熵方法、决策树等等。训练语料及语言特征的不 足,限制了前述方法或模型的识别效果,而且这些方法或模型大多只考察专有名词 实t ,, l f i l j 后。一两个词的信息,导致了对其中局部信息匮乏者不理想的识别结果。 为了提高专有名词以别效果,我们考虑了自然语者文本中的局部信息,此外更 主要的是考察其语篇信息,并且针对中文文本中人名、组织机构名及地理政治地名 的识别,构建专有名词识别动态贝叶斯模型( d b n s ) 。我们采用a c e 专有名词识别规 范中的定义及分类。 43 1 专有名词识别动态贝叶斯模型 苹十动态呲叶斯削的中文号千j 名词识别 我们把“是否某类专有名词”作为分词后中文文本的每个i l _ j 的属性之一,从而 把专有名酬i = 问题转换成一个分类问题。特别是考虑了正在识别的词与已经识别为 某类专有名词的前一个词之间的一种联系及其它语篇信息,综介利用随机模型和基 于特征推理方法的优点。 动态贝叶斯模型不仅可以描述属性之间的因果联系及其概二季分布,而且能表达 出处理对象问的序列性关系。通过对语料的统计学习,可以提取模型构建需要的相 应数据。 4 3 1 1 模型的结构 我们的模型处理分词后的中文文本( 即词串流) 。如图一所示,模型的结构包括 两类结点:隐蔽属性结点和显式属性结点,隐蔽属性结点包括图中的“t a g ”和 “l a s t t a r g e t ”。最有意义的是“t a g ”结点,它是一非显式变量,该结点的值表 示出正在处理的词是否为某类专有名词。另外个非显式变量“l a s t t a r g e t ”则反 映正在识别的词与已经识别为某类专有名词的前一个词之间的关系信息,它的值由 两个词在文本中的位置关系等所决定( 例如:太原位于山西省中部,正在处理的词 是“山西省”,前一个已经识别为地理政治地名的词是“太原”,因为二:者在同一句 子中,且二者之问有“位于”,此处的l a s t t a r g e t 值为2 ) 。显式属性结点代表可从 文本中直接观测到的变量,它们表示正在处理词的上下文语言特征,“t a g ”与显式 属性结点间构成因果关系,如图一中的有向线段所示。 显式属性 图4 3 专有名词识别动态贝叶斯模型 动态叭n l 斯| 叫识别专有名侧 4 3 1 2 模型的实现 动态贝叶斯模型与隐马尔科夫模型的推导算法极其相似。动态贝i i | j 斯模型中部 分变量可从文本中观测直接得到,其余则为隐蔽变量。大型的动态贝叶斯模型进行 精确推导很不现实,因此出现很多近似方法。本文采用的动态贝i i f j 斯模型则可以 实施精确推导,因为其结点均为小值域离散变量,从而计算量适中。我们的任务是 已知观测变量序列推导隐式变量序列的概率分布,可行的算法是前向一后向算法 ( t h ef o r w a r d b a c k w a r da l g o r i t h m ) 。接着,使用韦特比算法( t h ev i t e r b i a l g o r i t h m ) 推出隐式变量可能度最大的排列序列 表4 3 节点定义 t a gl a s t t a r g e tn o u n o r n o tm e n t i o n ss u f f i x c o r e f e r e n e o 不前一同类专该词不是提及次数该词后简称类互指 是有名词与该 名词1 次部1 到2 某词不在同一个字不 类 句在认定 专集合中 名 1是 前一同类专该词是名提及次数该词后别名类互指 该名与该词同词2 到3 次部l 到2 类旬且二者间个字在 专无联接词或认定集 名 标点合中 2 无 前一同类专无定义提及次数无定义其它类 定名与该词同超过3 次 义 旬二者问有 联接词或标 随后进行条件概率分布表( c p t ) 的计算,我们通过对已标注实体训练语料的 学习,获得节点定义表( 表4 3 ) 中相关项目的统计值,进而利用离散变量的概率 堆t 二动志砒叶斯刚的中史专柯名词让1 1 川 论如1 哄计算出结点相互依赖的条件概率分布表。 4 4 实验设计与分析 我们选用山西大学中文评测语料中共2 3 0 篇作为实验材料,随机抽取其中1 8 0 篇用于训练动态贝叶斯模型参数,剩余的5 0 篇用于测试,测试结果衡量标准采用 常规的准确率p 、召回率r 及二者几何平均值f = 2 p r ( p + r ) 。实验结果如表4 4 : 表4 4 实验数据结果及比较 模型准确率p 召回率r f n y m b l e 8 8 89 0 58 9 1 n y m b l e + d b n s 9 2 28 9 69 0 9 第二行减第 + 3 4一o 9+ 1 8 一仃 与单独采用n y m b l e 模型比较,我们把动态贝叶斯模型作为n y m b l e 的补充,在 略微降低了专有名词识别召回率情况下,较大地提高了准确率和f 值,特别地我们 应用动态贝叶斯模型消除了n y m b e 方法识别结果中的模糊专有名词6 0 的错误结 果。由此可见,因为动态贝叶斯专有名词识别模型考虑了待识别词的在文本中的诸 多语篇信息,弥补了只考虑局部信息的隐马尔科夫模型一- - n y m b l e 方法的局限,所 以改善了专有名词的识别效果。 结论j 挂掣 结论与展望 本文给出了利用语篇信息提高号有名词识别效果的新的观点,探讨了在一个随 机概率模型中融合文木巾多种多样的语言学经验知识及上下文语境特征,从而逐步 建立了一个基于动态贝叶斯阋的专有名词识别系统。仞步针对a c e 提出的人名、组 织机构名及地理政治名的文本中互指信息及其它显式语言特征,在给出经验性贝叶 斯网结构的前提下,利用语料训i 练生成其节点问概率分伟表,与基准系统相结合, 取得了很好的效果。 我们的方法以中文专有名词为研究对缘,但其中的技术也适用于其它语言。从 更一般的意义上晚,对于文本全局信息在提高信息抽取局部决策t f 确能力方面给出 了一个有力的实例。此类方法的成功将有助于打通多个信息抽取研究领域中存在的 “瓶颈”一一局部特征缺乏而全局特征很难融入系统。 有两方面可以进行拓展,一方面是贝叶斯网结构的扩充及自动训练生成,首先 是相关特征的自动选择,其后是更加有效的近似算法的应用,因为更加复杂更加稠 密的网结构可以运用于更广泛的领域,但同时更大的网结构也需要更加有效的近似 推导算法。另一方面是更多的语言学经验知识的获取及其在模型中的体现。 埏十功恋叭i i f 斯h 的中文譬仃名u j 识刖 参考文献 1 k m u r p h y 2 0 0 2 d y n a m i cb a y e s i a nn e t w o r k sr e p r e s e n t a t i o i l ,jn f e r e n c e a n dl e a r n i n g p h dt h e s i s u cb e r k e l e y 2 d a n je m b 1 k e l ,s c o t t m i l l e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 抑郁症合并自主神经功能失调护理查房
- 阿克苏市2024-2025学年八年级下学期语文期末测试试卷
- 安徽省淮南市谢家集区2023-2024学年高二上学期期中考试物理试题含参考答案
- 安徽省蚌埠市龙子湖区2024-2025学年高三下学期高考二模物理题目及答案
- 2025 年小升初廊坊市初一新生分班考试数学试卷(带答案解析)-(冀教版)
- 工艺组2025年上半年工作总结和下半年工作计划-3-(4000字)
- 脑桥中央髓鞘溶解症患者护理
- 社区消防知识培训课件通知
- 统编版2025-2026学年三年级语文上册第五单元检测卷(有答案)
- 广东省广州市花都区华万学校2025-2026学年八年级上学期开学考试语文试题(含解析)
- 湖北省圆创高中名校联盟2026届高三第一次联合测评 语文试卷(含答案)
- 2025秋苏教版(2024)小学科学二年级上册(全册)课时练习及答案(附目录)
- 巡察整改工作课件模板
- 2025年事业单位工勤技能-河南-河南农机驾驶维修工一级(高级技师)历年参考题库含答案解析(5套)
- 医务人员职业道德准则理论试题
- 2025年幼儿园教师岗位聘任协议(含资格认证及薪酬激励)
- 成都东部集团有限公司招聘考试真题2024
- 银行收息管理办法
- 海外房产投资项目方案(3篇)
- 消防员心理健康课件
- 初中地理学科课程规划方案
评论
0/150
提交评论