(计算机应用技术专业论文)有关汉语词类分析的若干问题研究.pdf_第1页
(计算机应用技术专业论文)有关汉语词类分析的若干问题研究.pdf_第2页
(计算机应用技术专业论文)有关汉语词类分析的若干问题研究.pdf_第3页
(计算机应用技术专业论文)有关汉语词类分析的若干问题研究.pdf_第4页
(计算机应用技术专业论文)有关汉语词类分析的若干问题研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)有关汉语词类分析的若干问题研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复旦大学硕士学位论文 摘贾 摘要 在自 然语言文本语料库的较高水平分析中,自 动的词类分析是非常重要的组 成部分。其中一个重要问题是,当词用于具体的上下文中时,获得正确的词类分 析。提高词类分析的精确率,将导致更好的机器翻译系统,信息系统,等等。 本文提出一种基于约束规则与无监督学习的词类分析策略。该方法开始于独 立于语料库的手工制作的约束规则集合,通过无监督学习,学习约束规则所使用 的一些约束条件。同时,使用未进行词类加标的语料库,其中所有词汇项已被标 注具有所有可能的词法分析,评价由存在歧义的上下文所获取的约束,来消除其 它的词法分析歧义。在整个实现过程中,未以牺牲查全率为代价来减少词类歧义, 而查准率相应提高。该方法可有效地完成汉语文本的自 动词类分析,基于分析过 程所提供的正确知识信息,可顺利进行其它相关处理过程。同时,建立了汉语词 类分析中知识体系的架构。其中,包括汉语电子词典的建立、语料库构建以及词 类分类表的制定。汉语电子词典在整个知识库体系当中处于基础性的位置,是实 现词类分析的最为重要的知识源,也是必不可少的资源。在汉语自 动词类分析中, 这三类知识通过合理地组织与有机地结合,形成一个完整良 好的知识体系。基于 知识体系的成功构建,可进行有效且准确的汉语词类分析,实现高质量的汉语分 析与处理。最后,基于所完成的各项研究工作,建立了汉语词类分析模型,通过 对其性能的实验测试,可以看出该模型的有效性、可行性及其实用性。 【 关键词】自 然语言理解、词类分析、知识源、电子词典、自 动分词、约束规则、 无监督学习、消歧。 第i i i 页 复旦大学硕 i _ 学位论文ab s t r a c t ab s t r a c t i n t h e h i g h - l e v e l a n a l y s i s o f n a t u r a l l a n g u a g e t e x t c o r p u s , t h e a u t o m a t i c p a r t - o f - s p e e c h a n a l y s i s i s a v e ry i m p o r t a n t c o n s t i t u e n t p a rt . b u t t h e r e i s a n i m p o r t a n t p r o b l e m t h a t , w h e n a w o r d i s u s e d i n a s p e c i f i c c o n t e x t , t h e c o r r e c t a n a l y s i s r e s u l t a b o u t i t s p a r t - o f - s p e e c h is a c q u i r e d . t h e i m p r o v e d p r e c i s io n o f t h e p a rt - o f - s p e e c h a n a l y s is w i l l l e a d t o t h e b e tt e r m a c h i n e t r a n s l a t i o n s y s t e m , i n f o r m a t i o n s y s t e m , a n d s o o n . i n t h i s t h e s i s , a k i n d o f p a rt - o f - s p e e c h a n a l y s i s s t r a t e g y b as e d o n c o n s t r a i n t r u l e s a n d u n s u p e r v i s e d le a r n i n g i s p r o p o s e d . t h i s m e t h o d b e g i n s a t t h e m a n u a l c o n s t r a i n t r u l e s s e t i n d e p e n d e n t o f t h e c o r p u s . t h r o u g h t h e u n s u p e r v i s e d l e a rn i n g , s o m e c o n s t r a i n t c o n d i t i o n s u s e d b y t h e c o n s t r a i n t r u l e s a r e l e a rne d . a t t h e s a m e t i m e , t h e u n t a g g e d c o r p u s i s u s e d , w h e r e a l l t h e l e x ic a l i t e m s a r e t a g g e d w i t h a l l t h e p o s s ib l e p a r t- o f - s p e e c h t a g s . i n o r d e r t o r e s o l v e t h e m o r p h o l o g i c a l a m b ig u i t y , t h e c o n s t r a i n t c o n d i t i o n s o b t a i n e d b y t h e a m b i g u o u s c o n t e x t s a r e e v a l u a t e d . i n t h e w h o l e p r o c e s s , t h e p r e c i s i o n i s i m p r o v e d w i t h o u t a t t h e p r i c e o f d e c r e as i n g t h e r e c a l l . t h i s m e t h o d c a n i m p l e m e n t t h e a u t o m a t i c p a rt - o f - s p e e c h a n a l y s i s f o r t h e c h i n e s e t e x t . b as e d o n t h e c o r r e c t i n f o r m a t i o n p r o v id e d b y t h e p a r t - o f - s p e e c h a n a l y s i s p r o c e s s , t h e o t h e r r e l a t e d p r o c e s s i n g c a n b e c o n t i n u e d s u c c e s s f u l ly . a k i n d o f k n o w l e d g e a r c h i t e c t u r e f o r t h e c h i n e s e p a rt - o f - s p e e c h a n a l y s is i s a ls o b u i l t , in c l u d i n g t h e c o n s t r u c t i o n o f t h e c h i n e s e e l e c t r o n i c d ic t i o n a ry , c o r p u s , a n d t h e p a rt - o f - s p e e c h c a t e g o r i z a t i o n l i s t . t h e c h i n e s e e l e c t r o n ic d i c t i o n a ry i s i n t h e b a s i c p o s it i o n o f t h e w h o l e k n o w l e d g e b a s e a r c h i t e c t u r e , a n d i s t h e m o s t i m p o r ta n t k n o w le d g e s o u r c e f o r t h e i m p l e m e n t a t i o n o f t h e c h i n e s e p a r t - o f - s p e e c h a n a l y s i s . a l l t h e k n o w le d g e s o u r c e s a r e o r g a n i z e d r e as o n a b l y a n d c o m b i n e d o r g a n i c l y , a n d a k in d o f c o m p l e t e k n o w le d g e a r c h i t e c t u r e i s f o r m e d . f in a l l y , b a s e d o n t h e c o m p le t e d r e s e a r c h w o r k , t h e c h i n e s e p a r t- o f - s p e e c h a n a l y s i s m o d e l i s e s t a b l i s h e d . t h r o u g h t h e e x p e r im e n t a l t e s t o n t h e m o d e l p e r f o r m a n c e , i t c a n b e s e e n t h a t t h e m o d e l i s e ffi c i e n t , p r a c t i c a l a n d a p p l i c a b l e . 第i v 页 复旦大学硕士学位论文 ab s t r a c t k e y w o r d s n a t u r a l la n g u a g e u n d e r s t a n d i n g , c h i n e s e p a r t - o f - s p e e c h a n a l y s i s , k n o w l e d g e s o u r c e , e l e c t r o n i c d i c t i o n a ry , a u t o m a t i c s e g m e n t a t i o n , c o n s t r a i n t r u l e , u n s u p e r v i s e d le a m i n g , d i s a m b i g u a t i o n . 第v 页 复旦大学硕士学位论文第一章概论 第一章概论 语言是人类交流的主要工具,是知识和信息的重要载体。在当今信息社会中, 科学技术迅猛发展,信息交流量与日俱增,愈来愈显示出对人类自然语言理解和 处理的需求。为了更好地实现计算机通讯,使计算机能够应用于更广泛的用户, 利用计算机高效率地进行各种语言信息处理已成为一个迫切需要研究的课题。因 此,自 然语言理解应运而生,成为一门新兴学科,其相关理论和方法研究在计算 机科学领域与人工智能领域也显得尤其重要。自然语言理解是用计算机来处理各 种自然语言,包括处理世界各民族的语言。对自然语言进行逐步深入的研究,不 仅对中国,而且对人类的语言、文字、教育和科学文化的发展,具有重大意义。 1 . 1 引言 语料库语言学已成为语言 研究的主流,它实际上包括两个方面:一是对自 然 语料库进行词类分析,并加以标注,二是对己经标注的语料库进行研究和利用。 其中第一个方面是实现语料库机读化, 提高语料利用价值的关键所在。 语料词类 分析是对语言 进行多维多层分析的基础,而且这种分析并不仅限于原标注者,因 而语料的有效利用在很大程度上依赖于语料词类分析的层次和质量。 语料库语言学的主要研究内容之一是对于所建立语料库中的语料,进行不同 层次的语法分析。语法分析一般由两个层次组成,即词类分析( p a r t - o f - s p e e c h a n a l y z i n g ) 与句法分析( p a r s i n g ) 。词类分析通常包括两个过程:( i ) 引入歧义 ( 即, 词法分析过程) ; ( i i ) 消除歧义 ( 即, 排除非法选择的过程) 。 经过词类分析后,按 语料库中每一个单 词在句子中的句法功能, 利用己 建立的词类标记, 将单词加标。 词类分析是进一步对语料库进行句法分析的重要基础,其精确率对此后的句法分 析的正 确 率 影 响巨 大。 词 类 分 析 工 作多由 词 类分 析 器 ( p a rt - o f - s p e e c h a n a ly z e r ) 自 动 完成。 在使用各种技术的语料自 动词类分析中己存在大量研究,主要包括以下两种 第1 页 复 f 大学硕士学位论文 第一章概论 方法: 令 基于语言学的方法人工将分布概括编码为语法,即一种约束规则的系统, 用于抛弃上下文中不合法的分析。 其中在所给定的上下文中, 使用大量手工制 作的语言学约束, 为所给出的单词消除不可能的词类标记 或词法分析。 基于语 言 学的方法是劳动紧张的,需要技能与努力来书写详尽的语法; 令 基于数据驱动的方法使用大量语料库来训练概率模型, 然后将其用于分析 新文本, 在所给出的上下文中为每一个单词分配最可能的词类标记。 学习语料 库可由 简单文本组成, 但利用己 注释的语料库可获得最佳结果( m e r i a l d o , 1 9 9 4 ; e l w o rt h y , 1 9 9 4 ) 。 该基于语料库的信息包含1 - 3 个标记或单词的序列 ( 也有一 些著名的例外, 如c u t t i n g e t a l ., 1 9 9 2 ) 。在这种方法中, 不 需要人工努力来书 写约束规则, 然而需要相当程度的努力来决定所使用的标记集合, 并注释训练 语料库。 在词类分析中,基于语言学的方法看起来是显然的选择,确实可通过书写可 靠的语言学约束规则来消除一些词类歧义。但存在的主要问题是:难于大规模解 决词类歧义,而且在相当程度上没有引入错误限制。至少,目 前还没有记录表明, 基于规则的系统具有说服力的精确率。而基于数据驱动的系统依赖于关于词或标 记的短序列的统计概括,尽管这些系统通常不利用关于长距离现象或语言 学家抽 取能力的信息 ( 例如,关于上下文什么是相关的知识) 。根据已知系统的精确率, 该方 一 法提供词类分析的最佳模型,其在词类分析中的成功,已经针对基于语言 学 方法的可行性形成一种反对。 本章将就利用基于数据驱动技术的词类分析方法做较为详细的介绍。希望通 过这些介绍,使我国进行汉语及其它外国语语料库词类分析的研究者有所借鉴。 1 . 2 基于数据驱动技术的词类分析方法的分类 基于数据驱动的词类分析方法很多,就是否需要预先经过已人工标注的语料 库进行训练( t r a i n ) 的 词类分析器而言, 可分为无监督学习型 ( u n s u p e r v i s e d l e a r n i n g ) 与有监督学习型( s u p e r v i s e d l e a r n i n g ) 。就语料库信息的表示形 式而言,可分为三 第2 页 复旦大学硕士学位论文 第一章概论 大类: 局部规则 ( h i n d le , 1 9 8 9 ; b r i l l , 1 9 9 2 ) 、 神经元网 络( e i n e b o r g a n d g a m b a c k , 1 9 9 4 ; s c h m id 1 9 9 4 ) 及隐马尔可夫模型 ( c u t t i n g e t a l ., 1 9 9 2 ) . 1 . 2 . 1 无监督学习型与有监督学习型 无监督学习型词类分析方法不依赖于预先已分析的语料库作为参照物, 而是通 过一些复杂的计算自 动归纳出标记集合,并以此为基础计算出概率分析方法所需 的概率数据。有监督学习型词类分析方法需要依靠预先经过人工分析的语料库作 为参照物,生成用于词类分析操作全过程的工具,如标记集合、己分析具有各种 可能的 词汇表( l e x i c o n ) 、 词频表、 标记 序列概率表, 等等。 这两种词类分析方法各具有特点。一般情况下,经过训练的有监督学习型词 类分析器,在对其受训语域类型相同的语料分析时正确率很高。但是,如果需要 标注语料的 语域不同,则正确率就会降 低( w e i s c h e d e l e t a l ., 1 9 9 3 ) 。因 此, 如果找 不到与需要进行词类分析的语料语域相同且预先已分析的语料库训练词类分析 器,其效果会很不理想。 无监督学习型标注器没有这些限制,它不需要实现对作为参照物的语料库做 费时费力的人工标注操作,便可以对语料进行词类分析。但是其缺点是,与有监 督学习 型的分析结果相比, 其自 动归纳的词类分析分类较为粗糙( g u i l d e r , 1 9 9 5 ) . 1 . 2 . 2 三种类型的词类分析方法 基于局部规则的方法是一种可训练的基于规则的词类分析器,具有类似于随 机词类分析器的性能。这种分析器的训练是完全自 动的,但又与可训练的随机标 注器不同, 在简单的非随机规则中 可直接编码语言学信息。 基于神经元网络的方法是一种相当新的方法,它利用人工智能的神经元网络 进行词类分析。其中根据前面及后面单词的词类标记,作为输入预测所分析单词 的词类标记,利用一种类推驱动的学习过程训练分析器。 基于隐马尔可夫模型的方法使用统计的概率模型, 也可以将其称为随机模型。 在词类分析过程中,将上下文模型化为统计数据,根据反映单词具有一种标记的 第3 页 复旦大学硕士学位 论文 第一章概论 可能性的词频或概率等大量统计数字,进行概率计算,从而最终决定该单词的所 属词类。其训练过程是在大的手工分析的语料库中进行。 1 .3 词类分析的任务描述 无论是哪一类词类分析方法,一般都需要经过四个步骤 ( 见图1 . 1 ) : 图1 . 1词类分析的处理过程 1 . 3 . 1 预处理 作为词类分析器输入的源文本,最初都需要进行一些必要的预处理。首先, 将文本中对于词类分析无用的标记去除,根据段落起始标志及标点符号,将其分 害 j 为句子。然后.按照特定的规范,对每一个句子按相应语种分词单位进行划分, 即分词。 1 . 3 . 2 词类加标 将经过预处理的文本作为下一步词类加标的输入,由词法分析器对该文本中 每一个单词进行词类加标操作。在这期间,至少需要使用一种知识源:基本词典。 基本词典记录基本语言词汇、词组及习语,与具体领域无关,是基本知识源。在 该词典中,每一个单词后面都标有该单词所对应的可能词类标记,可为一个或多 个。例如,英语单词“ b e l o w ,通常可以 作为名词、介词及副词,则在词典中,它 所对应的标记集合为: b e lo w n o u n ( 名词 ) , a d v ( 副词 ) , p r e p ( 介词 ) ) 在基于数据驱动技术的词类分析中,对于标记数目大于 1的单词,基本词典 所记录的标记 顺序是按照概率大小 排列 ( g a r s id e , 1 9 8 力 。单词所具有的各 种词类标 记的概率,是通过在人工标注的语料库中统计该标记使用情况获得。 第a 页 复旦大学硕士学位论文 第一章概论 1 .3 . 3 未登录词处理 未登录词是指不能由词典识别的词汇,目前一般是采用 “ 猜测”策略来处理 未登录词,将这种单词词类猜测器作为自然语言应用系统的一个基本组成。猜测 器利用对于单词特征的分析,例如,单词的领头及跟随字符,以指出其最可能的 词类类别。最流行的猜测策略是所谓的 “ 结尾猜测” ,即,仅仅基于一个单词的跟 随字符,猜测其可能的词类标记集合。未登录词处理策略主要分为两种: 令 基于猜测规则的方法利用简单的非随机猜测规则直接编码语言学信息, 基 于未登录词词法特征将其激发,猜测其最可能的词类标记; 冷 基于概率统计的方字去一一 如果一个未登录词具有一个具体的词类标记, 预先给 定其大写字母书写及结尾等重要特征的概率, 通过已建立的随机数学模型, 计 算每一个未登录词的传播概率,来猜测其词 类标记。 1 . 3 . 4 词类消歧 经过以上三个步骤处理之后的语料,其中每一个单词都具有一个或多个词类 标记,第四个步骤就是对具有多个词类标记的单词进行词类消歧,并纠正带有错 误的唯一标记的单词。这是进行词类分析的核心过程,也是前面所提及的三种词 类分析方法的区别之处,下面将详细介绍三种词类分析方法的处理策略。 1 . 4 词类消歧的实现 1 . 4 . 1 基于局部规则的方法 这种方法最典型的 代表是 ( b r i l l , 1 9 9 5 ) 中 所介绍的基于 变换的词类分析方法。 在实现过程中,应用一种基于变换的错误驱动学习算法。图 1 . 2阐述该学习过程。 第5 页 复旦大学硕士学位论文第一章概论 图1 .2基于变换的错误驱动学习 首先,将未标注的文本通过初始状态标注器。初始状态标注器的复杂性可从 分配随机结构,变化至分配复杂的人工创建标注器的输出。一旦文本经过初始状 态标注器,则将其与真值比较,并且学习可应用于初始状态标注器输出的变换, 以使其更为相似于真值。 1 . 4 . 1 . 1 一种早期的基于变换的词类分析器 最初的基于变换的词类分析器( b r i l l , 1 9 9 2 ) 工作如 下: 初始状态转换器将训练 语料库中所说明的每一个单词最可能的标记分配给单词。所允许的变换模板为: 当: ( 1 )前面 ( 后面) 的单词标注为2 ; ( 2 ) 之前 ( 之后) 第二个单词 标 注为2 ; ( 3 ) 两个前面单词之一标注为2: ( 4 ) 三个前面 ( 后面) 单词之一标注为z ; ( 5 )前面单词标注为乙 后面单词标注为w ; ( 6 )前面 ( 后面) 单词标注为z , 之前 ( 之后) 单词 标注为w e 时, 将标记a 变为b 。 其中a , b , z 及w是词类集合中的 变量。 为 学习 变换, 实质上 学习器应用每一种可能的变换,计数在应用变换之后分析错误的数目,并选择导 致错误最大限度降低的变换。当超出预先规定的阀值,没有发现其应用可减少错 误的变换时,学习终止。所学习变换的一个样本是;如果分析前面单词作为情态 第 6 页 复旦大学硕_ 学位论文第一章概论 动词,则将当前单词词类标记从名词改变为动词。每当训练系统时,就通过应用 初始状态转换器,依次应用每一种变换至新句子,进行词类分析。 1 . 4 . 1 . 2 词汇化词类分析器 为有效地利用有用的关系, 如单词与前面单词之间, 或一个标记与后面单词之 间的关系,通过加入可参考单词及词类标记的上下文信息,将早期实现的基于变 换的标注器扩展为一种新型的词汇化标注器。所加入的变换模板为: 当: ( 1 )前面 ( 后面) 单词为w ; ( 2 )之前 ( 之后) 第二个单词为w ; ( 3 )两个前面 ( 后面)单词之一为w ; ( 4 )当 前单词是w ,且前面 ( 后面) 单词是x . ( 5 )当 前单词是w , 且标注前面 ( 后面) 单词为z . 时,将标记a 变为标记b 。其中w与x 是训练语料库中所有单词中的变量, z 是所 有词类中的一个变量。 以下是所学习的两种词汇化变换: ( 1 ) 如果单词右侧第二个位置中是 a s ,将标记从介词( p r e p o s i t i o n ) 变为副词 ( a d v e r b ) ; ( 2 ) 如果前面两个单词之一是 n t ,将标记 从第三人称单数现在时动词( n o n - 3 r d p e r s o n s i n g u l a r p r e s e n t v e r b ) 变为原形动词 ( b as e f o r m v e r b ) . p e n n t r e e b a n k 标注风格人工规定, 在排列a s * * a s 中, 标注第一个a s 作为副词, 标注第二个a s 作为介词。 因为在训练语料库中经常将a s 标注作为介词, 则初始状 态标注器将错误地标注a s t a l l a s 如下: a s / p r e p o s i t i o n / t a l l / a d j e c t i v e a s / p r e p o s i t i o n . 第一种词汇化变换纠正这种错误标注。第二种变换是从以下事实中产生,当 一个动词出 现于上下文如w e d o n t - - 或w e d i d n t u s u a l l y - 二 中时, 动词应该是原形。 第7 页 复旦大学硕士 学位 龙文第一章概论 1 . 4 . 1 . 3 实验测试与结果 对于p e n n t r e e b a n k已 进行词类分析的w a l l s t r e e t j o u rna l 语料库中进行训练与 测试, 当在6 0 0 , 0 0 0 个单词中 通过早期变换模板集合训练分析器时, 获得%.9 % 的 精确率,其中这些模板不包含涉及单词的变换。在后期改进的分析器中进行相同 测试时,获得9 7 .2 % 的精确率。可见,词汇信息对于词类分析精确率有很大影响。 1 . 4 . 2 利用神经元网络的方法 本节将以 ( s c h m id , 1 9 9 4 ) 研究的利用神经元网 络的词类分析方法为例,介绍这 类词类分析器的实现。s c h m i d词类分析器是以人工智能的多层感知器网络 ( m u l t i l a y e r p e r c e p t r o n n e t w o r k s . m l p 一 网 络) 为基础建立,由m l p 一 网 络与词典 组成。 1 . 4 . 2 . 1 ml p - 网络 m l p 一 网络是最流行的网络类型,处理单元垂直排列在几层中。网络结构如图 1 .3 所示。连接只存在于邻接层中的单元之间,底层作为输入层,其中单元激活表 示网络输入。顶层作为输出层。输入层与输出层之间的任何层为隐层。它们的激 活在外部不可见。 输出单元 隐层单元 输入单元 图1 .3三层感知器网络 在词类分析器中 所采用的m l p 一 网 络结构, 其中 不具 有隐 层, 如图1 . 4 。 在m l p - 网络的输出层中,每一个单元与词类标记集合中的标记之一相对应。在训练激活 表示正确标记的输出单元,且未激活所有其它输出单元期间,网络进行学习。因 此,在己训练的网络中,具有最高激活的输出单元指示,应该将哪一标记附加在 第8 页 复旦大学硕士学位论文 第一章概论 当前所处理的单词上。 1eel尸 迎 互 ,巡少 ( 卫 n) c i e d .一 ( .). 卫 3 . ( :) 吵 之 亘 ( i 9 吵 ( )一 (), 吩、心心心 图1 .4 n e t 一 标注器的结构 ( 箭头表示层之间连接) 网络的输入由 系统关于当 前单词词类的 所有 信息组成,这些信息包括 p个前 面单词与f 个 后面单词。 更为 精确 地, 对于 上 下 文中p + 1 十 f 个单 词与 每一 个词 类标 记p o s , 存 在 一 个 输入 单 元, 其 激 活响表 示 单 词w o r d ; 具 有词 类p o si 的 概 率。 对于当 前分 析 及后面 的 单词, 词 汇词 类概 率p ( p o s lw o r d i) 是已 知 关于 词 类的 所 有信息。因此,对于这些单词,获得如下输入表示: in ; - p ( p o s ; jw o r d ;) , 如 果凶( 1 ) 对于前面的单词,因为己将其分析,所以 存在较多的可用信息。处理过程中 使用输出单元的激活值替代词汇词类概率: in ii ( t ) = o u ti( t + i) , 如 果i 训 练循环次 数为4 百 万。 分 析 器在s p a r c 1 0 工 作站上 花费 一 天时间 进行训 练, 最 终获得 %.2 2 %的精确率。 第1 0 页 复旦大学硕士学位论文第一章概论 1 . 4 . 3 基于隐马尔可夫模型的方法 隐马尔可夫模型 ( h i d d e n m a r k o v m o d e l , h m m ) 是由马尔可夫过程扩充而来的 一种随机模型。 它的基本 理论是由数学家b a u m及其同事在6 0 年代末到7 0 年代初 建立起来的, 7 0 年代中后期应用于语音处理, 广泛应用则在8 0 年代, 应用到文本 处理则是在8 0 年代后期。 本节将利用( k e m p e , 1 9 9 4 ) 中所描述的一种基于h m m模 型的 概率词类分析器, 说明 该类词类分析方法的实现过程。 k e m p e采用词类、 性 别及数目 等特征结构作为 标记, 通过连接标记的 唯一特征值( f v , f e a t u r e v a l u e ) 对的 上下文概率,估计所使用的各种概率,由这些概率统计与标记完成相应词类分析 过程。 1 . 4 .3 . 1 数学背景 为将词类标记分配给单词序列,可于词类分析器在所有可能的标记序列中选 择最可能序列的 地方使用h m m ( g a r s i d e , l e e c h a n d s a m p s o n , 1 9 8 7 ; c h u r c h , 1 9 8 8 ; b r o w n e t a l . , 1 9 8 9 ; r a b i n e r , 1 9 9 0 ) 。 给定 一个单词序列n ,= w o . - w n - 1 , 一 个标记 序列 1 = t o - 二 , 的连接概率是: p ( i , tv ) = 7l ., - p ( w o t o ) - p ( w l i t i) - h( p ( w i i t i) - p ( t , i “ 一 2 t o 一 ,) )( , ) 项二 . 代表初始状态概率, 例如, 序列由前两个标记开始的概率。 n是序列中 单 词 的 数目 , 例 如, 语 料 库 大 小。 项p ( w ilt i提在己 分 配 标记t i 的 上 下 文 中 单 词w ; 的概率。将其称为观察符概率 ( 词汇概率) ,可由以下公式估计: p ( w i i t ; ) = f ( w ; t ;) at ) ( 2 ) 公 式 ( 1 ) 中的 上下 文 概率p ( t ilt i- 2 t i- 1 ) 表示标记t i 出 现于其前 面两个标记t 、一: 与t i- 1 的上下文中的可能 性。 通常将其估计作为所给定训练语料库中三元组 频 率,与相同语料库中二元组 频率的比率: 第1 1 页 复n 大学硕士学位论文第一章概论 风川t , 一 2 1 i 一 1) =f ( l - 2 t, - 些 ( 3 ) 1( t , 一 2 1 i 一) 利用大的标记 集合及一个相对小的手工制作的训练语料库, 公式( 3 ) 具有一个显 著缺点:不能确切地估计多数转换概率,因为多数可能的三元组 ( 三个连续标记 的序列) 根本不会出现或仅出 现少数几次。 利用 3 8 6个不同的标记集合标注 1 0 ,0 0 0个单词的法语训练语料库,可形成 3 8 6 3 = 5 7 , 5 1 2 ,4 5 6 个三元组, 但因为 语料库尺寸仅为1 0 , 0 0 0 - 2 个三元组。因为其中 一些出 现多次,实际上数目 仅 4 ,8 1 5 ,占 所有可能的 0 .0 0 8 % 。当 根据公式( 3 ) 由 二 元 组频 率2 分 割三元 组 频 率1 时, 获得 概率p = 0 . 5 , 但由 于作为 基础的 频 率 特别小, 则它并不精确。 可利用3 8 6 个标记由词类、 性别、 数量等等5 7 个不同的f v 对构造 的事实。如果考虑唯一f v 一 对之间的概率关系,则获得更高的频率,并且结果概率 是更为确切。 从 ” ” : (ti) = (eio n eii k et,一长 付 ( 4 ) 其中t 表示一个标记, e ;k 表示其fv 一 对,及: p ( c i ) 一 lk 一 )n c i) 、!产 g 活 己 i0 卜丁1卜 /il、 p : (g ), (一 !g ), (,】一) 一 cni( 5 ) 、翩判 其中c . 表示t ; 的上下文,并且包含遵循以下公式的t i- : 与t i- 1 : at g ) = p ( e io g ) ,f1 p i e ,kic n i( 6 ) 、les.卫,es月j 盯j 尸 描述一个标记的上下文概率与其f v 一 对的上下文概率之间的关系。 在所给定f v 一 对的上下文中, 正 确的f v 一 对包含概率p = 1 , 因此将不会影响它所 属标记的概率。 一个错误的f v 一 对将包含p = 0 , 使整个标记变为不可能。 第任页 复旦大学硕 卜 学位论文第一章概论 1 . 4 .3 .2 训练算法 在训练过程中, 未着力于分析并存储整个标记的上下文概率( 状态转换概率) , 而着力于唯一f v 一 对的上下文概率。 根据概率特征关系( p r o b a b i l i s t i c f e a t u r e r e l a t i o n , p f r ) 注意到这些概率: p f r : ( e ijc , ; p (e ,ic .) (7 ) 在标注过程中,将其组合,以获得上下文标记概率。 公式( 7 ) 中的项e ; 是f v 一 对,c,/ii“ 是减少的上下文,它仅包含确实出现的上下文 c的fv 一 对的一个子集合。c . u e 是通过消除所有不影响 e ; 相关频率的 f iv 一 对,从 c 中获得,根据条件: a e iic ;00v a e ic ) e l- e ,1+ e (8 ) 所考虑的f v 一 对在完整及在减少的上下文中几乎具有相同的概率,例如,c ; 不提供 比c f v a 更多的关于e : 的信息。 p f r生成在训练过程中,首先从训练语料库中抽取一系列三元组,其中将标 记分割为它们的f v 一 对。 由 这些三元组, 分别为每一个fv 一 对e ; 生成一系列p f r 。 对 于每一个三元组,我们生成其f v 一 对的所有可能子集合。如果三元组仅不同于一个 f v 一 对, 一般具有多数其f v 一 对的子集合。完整的三元组与子集合,一起组成上下文 与子上下文的集合 ( c ; 与cu e ) ,其中一个 f v 一 对可能出现。为一个所给定的f v 一 对 生成p f r , 预先选择并标记那些假设对于f v 一 对上下文概率有影响的 ( 子) 上下文。 如果一个 ( 子)上下文频率小于一个已定义的阀值,将不预先选择。接下来从每 一个预先选择的上下文中消除其中未影响当前所考虑的 f v 一 对相对频率的所有 f v - 对。由从训练语料库中所抽取的三元组集合中,分别为每一个 f v 一 对生成一棵二进 制分支的决策树,它能够描述该f v 一 对的各种上下文概率。 1 . 4 . 3 .3 标注算法 特征结构词类分析器的实现基于v i t e r b i 算法,第二排序的h m m词类分析器 ( 三元组) 是一种修正 版本 ( v i t e r b i , 1 9 6 7 ; c h u r c h , 1 9 8 8 ) , 早期采用c语言实现该 算法( k e m p e , 1 9 9 4 ) 。 其中 将通过由 二 元组频率分割三元组概率估计一个标记上下 文概率的函数 ( 状态转换概率) , 替换为使用上面所描述的方法, 或者通过查询决 第1 3 页 复q 大学硕士学位论文 第一章概论 策树实现该计算函数。 为估计标记的上下文概率, 必须知道其f v 一 对的上下文概率, 以求它们之间的乘积。 1 . 4 . 3 . 4 测试结果 在训练与测试过程中, 利用不同的值实验, 针对参数如: 对于预先选择最小公 认的频率,考虑作为相等概率之间的百分比距离。 。当在6 , 0 0 0 个单词语料库中进 行测试时, 其中平均歧义为每个单词2 .6 3 个词类标记( 在词典查找之后) , 最佳情 形是8 8 . 8 9 %的精确率。 1 . 5本章小结 目前,比较好的词类分析系统, 其精确率一般都能够达到9 7 %左右。 但是由于 自 然语言非常复杂, 不需人工参与而完全依靠词类分析器获得 1 0 0 % 的精确率是不 可能实现的。对于大型语料库来说,很小的错误率就会造成大量单词的词类分析 错误。这对以其为基础的各项处理具有很大副作用,需要耗费大量时间与人力来 解决这些错误。因此,最大限度地降低词类分析错误率是词类分析研究中的重要 课题之一。 由上面介绍可以看到,基于数据驱动技术的三种方法各有所长。 令 基于局部规则方法的一个优点是其变换规则很直观地反映语言的结构特点, 可 能处理相距较远的单词或标记之间的关系。 但对于自 然语言中所存在的大量不 规则现象,有些不能利用规则清晰概括,即使可以通过加入新规则加以概括, 但又有可能与原有概括相矛盾,发生冲突,产生不良 影响。 令 基于神经元网络方法所具有的优点为,容易探测到标记之间存在问题的决策, 可在输出中给出附加的标记,也可将最终决策延迟至后来的处理阶段,例如, 句法分析器。 在小的训练语料库中利用这种方法实现, 效果比较显著, 其精确 率同其它方法相比, 相同 或稍高一些。 但存在一个明 显劣势,处理速度较低。 4 基于h m m的方法, 其优势为通过大规模分析语料库获得各种概率统计, 为进 行正确词类分析提供充足可靠的数据, 而且在这种方法中不存在规范化的特别 第 1 4 页 复a大学硕 l : 学位论文 第一带概论 要求。 但也存在一个缺点, 即不能从大量概率统计中直接获取对语言学现象的 总结,不能够处理相距较远的标记之间的关系。 今后的词类分析方法可能会朝着各种方法互相综合的方向发展,从而取长补 短,优势互补。例如,基于局部规则的方法与基于 h mm 的方法相结合,基于局 部规则的方法与基于神经元网络的方法相结合,等等。 第1 5 页 复旦大学硕上 学位论文第二章知识休系架构 第二章知识体系架构 2 . 1 引言 知识( k n o w l e d g e 是整个人工智能领域的基础,由 此提出和产生许多与知识相 关的学科以及研究领域。例如,知识工程学科的产生就是一个典型事例,该学科 主要研究和讨论人工智能领域当中,知识的表示 ( 描述) 、知识的获取、基于知识 的推理机制以及相关的推理方法等。作为人工智能重要分支的自然语言处理当然 也都离不开大量相关知识的支持,否则自 然语言处理简直是不可能的。国际以及 国内的学者经过多年来对自 然语言处理系统的研究与实践,己经越发认识到在自 然语言 处理系统中知识的重要性。常言道: “ 巧妇难为无米之炊” ,知识对于人工 智能来说,就是所谓的 “ 米” ,所以人工智能不能不重视知识。 自 然语言 处理需要有力的知识库的支持,否则这样的系统在一定意义上是很 不健全的。自 然语言处理本质上就是人工智能技术在自 然语言领域的具体应用, 如果没有语言知识的支持,那么这样的自 然语言处理系统简直就是天方夜谭。人 们在对自 然语言处理系统进行研究的过程中,正是基于对知识认识的不断深入, 利 用知 识来解决 所 存在的问 题. w i n o g r a d 曾 经 这样 说 过: “ 当 一个人看到 或听到 一 个句子的时候, 他是 运用自 己 的全部知识和智能来完成理解过程的” 。同 样,为使 计算机具有理解和处理自然语言的能力,就必须使计算机拥有大量丰富的知识。 因此, 对于任何自 然语言处理系统来说,是否具有一个优良 的知识库将是该系统 成功与否的最基本尺度。 知识包括认知科学、语言学、语境学以及上下文等有关的知识。作为自然语 言 理解所需要用到的知识主要包括 ( 这里,主要指语言学知识) :词汇知识、 句法 知识、语义知识、语用知识、以及语境知识等等。当然,还有一些非语言学知识: 情境、常识等等。在有关汉语词类分析的研究中,所涉及到的知识主要包括词典 知识、语料库以 及词性分类表。实际上, 词典知识是一个知识表达和存储的载体, 它包含词汇的几乎所有信息,这部分信息又称为静态信息。在基于约束规则与无 第1 6 页 复旦大学硕士学位论文 第二章知识体系架构 监督学习的汉语词类分析算法中,上述三类知识通过合理的组织与有机的结合 形成一个完整良 好的词类分析知识体系。 2 .2 电子词典 电子词典是自 然语言 处理所需的重要知识源, 它是以 机器可读形式存储的。 语言分析过程中的静态信息绝大部分来自电子词典。一部好的电子词典既要包含 自然语言处理所需的丰富知识 ( 如:词形、词性、句法、语义以及搭配信息等) , 又要有灵活的组织结构,并且在很大程度上影响着语言处理的效果。因此,电子 词典的构造问题己成为自 然语言 处理的一个专门研究课题,也是自 然语言处理系 统工程化的一个重要方面。 2 . 2 . 1 基本概念 现代语言学的构词词典与传统的c h o m s k y 的生存学派不同。 c h o m s k y 强调生 成机制,附加针对语义的研究,并把语法和语义截然分开处理。而前者的出发点 是语义,研究对象是语义和语言 表达之间的翻译机制。该机制模拟自然语一言的两 种活动: 今 说者通过不同的方式表达同一种思想,这是一种中间结果: b 听者识别表达同一种含义的事物,可利用不同的表达方式。 为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论