(计算机系统结构专业论文)基于cotraining方法的中文组块识别的研究.pdf_第1页
(计算机系统结构专业论文)基于cotraining方法的中文组块识别的研究.pdf_第2页
(计算机系统结构专业论文)基于cotraining方法的中文组块识别的研究.pdf_第3页
(计算机系统结构专业论文)基于cotraining方法的中文组块识别的研究.pdf_第4页
(计算机系统结构专业论文)基于cotraining方法的中文组块识别的研究.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(计算机系统结构专业论文)基于cotraining方法的中文组块识别的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东 北大学硕士学位论文 摘要 基于c o - tr a i n i n g 方法的中文组块识别的研究 摘要 句法分析一直是自 然语言处理的一个基础性的研究课题, 近年来部分分析, 也叫浅层分析、组块分析,成为自 然语言处理的热点。现在组块分析广泛用于自 然语言处理的众多方面,尤其是在基于实例的机器翻译e b m t 研究中,组块分析是 重要技术之一。 随着机器学习理论的发展,越来越多的机器学习方法应用在自 然语言处理的 中各个领域,尤其是无指导和半指导的机器学习方法。主要原因有:一方面,在 很多自 然语言处理的方法中,特别是基于统计模型的方法,加标的训练语料是处 理的基础。 ,而训练语料人工加标是需要在极强的专家知识下耗费大量的人力物 力;另一方面,网络的高速发展对于自 然语言处理来说带来既是机遇又是挑战, 网络内容指数级增长,为自 然语言处理提供源源不断的免费真实” 生“ 数据。 本文采用半指导的机器学习方法 c o - t r a i n i n g进行中文组块识别的 研究,在 论文中, 我们定义了中文组块的定义, 在可能近似正确模型( p a c ) 的框架下讨论了 c o - t r a i n i n g方法的形式化定义。我们通过选取算法理论不同的分类器来定义 c o - t r a i n i n g 方法中的两个, 角度“ , 在选择策略上, 我们提出了 基于甲 一致性 的实 例添加策略,实验中我们选用基于统计的增益的隐马尔可夫模型( t r a n s d u c t i v e h m m ) 和基于转换规则的分类器 ( f n t b i ) 组合成一个分类体系,并与自 我训练方法 进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识 别, 实验结果要比单纯使用小规模的树库语料有所提高,另外,我们还选用最大 嫡模型m a x e n t 和f n t b l 组合重复了 实验, 结果显示两个分类器的性能在不同 程度 上都有提高。 实验证明了在我们独特的两个, 角度 的定义和基于 一致性, 的选择策略下, c o - t r a i n i n g 算法在中文组块识别的任务中 有显著的 效果。 关键字部分分析 基于实例的机器翻译 机器学习 组块识别 自我训练 c o - t r a i n i n g一 致 性选 择策 略 东 北大学 硕士学位论丈 r e s e a r c h o n c h i n e s e t e x t c h u n k i n g b a s e d o n c o - t r a i n i n g ab s t r a c t s y n t a x a n a l y s i s a n a l y s i s , a l s o c a l l e d i s a l w a y s a b a s i c t a s k i n th e n a t u r a l l a n g u a g e p r o c e s s i n g , s h a l l o w p a r s e o r c h u n k i d e n t i f i c a t io n , b e c o m e s a h o t s p o t i n p a rt t h e n a t u r a l l a n g u a g e p r o c e s s i n g . n o w , c h u n k i d e n t i f i c a t i o n i s w i d e l y u s e d i n m a n y f i e l d s o f n a t u r a l l a n g u a g e p r o c e s s i n g , e s p e c i a l l y i n t h e e x a m p l e b a s e d m a c h i n e t r a n s l a t i o n ( e b mt ) , i n w h ic h c h u n k i d e n t i fi c a t i o n i s o n e o f m a j o r t e c h n i q u e s wi t h t h e d e v e l o p m e n t o f t h e t h e o ry o f m a c h i n e l e a r n i n g, ma c h i n e l e a rni n g m e th o d e s b e c o m e s m o r e a n d m o r e a t t r a c t i v e i n t h e n a t u r e l a n g u a g e p r o c e s s i n g , e s p e c i a l l y u n s u p e r v i s e d a n d s e m i - s u p e r v i s e d m a c h i n e l e a r n i n g m e t h o d s . i t l ie s o n tw o p o i n t s , o n e i s t h a t l a b e l e d t r a in in g s e t i s t h e b a s e o f m o s t m e t h o d e s o f n l p , h o w e v e r , t h e w o r k o f l a b e l i n g t h e t r a i n i n g s e t b y h a n d i s c o s t l y , i t n e e d s m a n y p e o p l e w i t h s t r o n g e x p e rt k n o w l e d g e w o r k i n g h a r d l y . t h e o t h e r i s , w i t h t h e a d v e n t o f t h e i n f o r m a t i o n e r a a n d t h e d e v e l o p m e n t o f t h e i n t e rne t , t h e c o n t e n t o f i n t e rne t i n c r e a s e s w i t h e x p o n e n t i a l s p e e d , w e c a n g e t t h e s e r a w d a t a fr e e l y a n d u s e t h e m i n t h e n l p r e s e a r c h . i n t h i s p a p e r w e b u i l d a r e s e a r c h w o r k o n t h e r e c o g n i t i o n o f c h in e s e c h u n k w i t h t h e c o - t r a i n i n g m e t h o d . we g i v e t h e d e fi n i t i o n o f c h i n e s e c h u n k , t h e n d i s c u s s f o r m a l i z e d d e fi n i t i o n o f c o - t r a i n i n g a l g o r i t h m u n d e r t h e p a c fr a m e w o r k . f i r s t l y , w e d e fi n e th e t w o v i e w s o f e x a m p l e s b y c h o o s i n g t w o c l a s s i f i e r s b a s e d o n d i f f e r e n t a l g o r i th m t h e o ry. a n d t h e n w e p r o p o s e d a e x a m p l e s e l e c t i o n m e t h o d b a s e d o n t h e c o n s i s t e n c e , u s i n g t w o c l a s s i fi e r s : t r a n s d u c t i v e h mm a n d f h t b l t o c o m b i n e a c l a s s i f i c a t io n s y s t e m t o p e r f o r m t h e c h i n e s e t e x t c h u n k i n g t a s k w i t h t h e s m a l l - s c a l e l a b l e d c h i n e s e t r e e b a n k a n d l a r g e - s c a l e u n l a b l e d c h i n e s e c o r p u s . t h e r e s u l t w e r e c o m p a r e d w i t h t h e s e l f - t r a i n in g r e s u l t - - - t h e r e s u l t o f t h e n o n c o - t r a i n i n g e x p e r i m e n t i n w h i c h w e o n l y u s e d t h e s m a ll - s c a l e c h i n e s e t r e e b a n k a s t r a in i n g d a t a a n d u s e o n e c l a s s i f i e r ( t r a n s d u c t i v e h mm o r f h t b l ) t o r e c o g n i z e t h e c h i n e s e c h u n k . t h e im p r o v e m e n t i s s i g n i f i c a n t , t h e f l v a lu e o f t h e t w o c l a s s i f i e r s re a c h e d 8 3 .4 1 % , 8 5 .3 4 % , g e t a i m p r o v e m e n t o f 2 . 1 3 p o i n t s a n d 7 . 1 2 p o i n t s r e s p e c t i v e l y . 东北大学硕士学位论文 a t l a s t , w e d o t h e s a m e e x p e r im e n t w i t h ma x e n t a n d f a t b l , t h e p e r f o r m a n c e o f t h e t w o c l a s s i f i e r s a l s o i mp r o v e s w i t h d i f f e re n t e x t e n t . e x p e ri m e n t p r o v e d t h a t u s e t h e c o n s i s t e n t e x a m p l e s e l e c t i o n m e t h o d a n d t h e s p e c i a l l y d e f in e d t w o v i e w s c h u n k i n g t a s k . c o - t r a i n i n g m e t h o d w o r k s w e l l i n t h e c h i n e s e t e x t k e y w o r d sp a r t a n a l y s i s , e x a m p l e b a s e d m a c h i n e t r a n s l a t i o n , t e x t c h u n k i n g , s e l f - t r a i n i n g , c o - t r a i n i n g , c o n s i s t e n c e , ma c h i n e l e a rni n g , e x a m p l e s e l e c t i o n 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取 得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或 撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确 的说明并表示谢意。 学 位 论 文 作 者 签 名 : 烈 碱 日期:, “ 。 宁 , , 、 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、 使用学位 论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复 印件和磁盘,允许论文被查阅和借阅。本人授权东北大学可以将学位 论文的全部或部分内 容编入有关数据库进行检索、交流。 ( 如作者和导师同 意网 上交 流, 请在下方签名; 否则视为不同 意。 ) 学位论文作者签名:叫 t * a 签字日期:s i m斗 、 导师签名: 签字 日期: fi 一 y , 1 二 东北大学 硕士学 位论文第一章 前言 第一章 前言 1 . 1组块识别概述 句法分析一直是自 然语言处理的一个基础性的研究课题。句法分析问题的解 决对于机器翻译,文本理解,信息的检索和过滤,语音识别与合成等自 然语言处 理问题都有着极其重要的意义。早期的句法分析方法一般都是基于规则和形式化 文法的理性主义方法,规则的获取完全依赖于语言学家和知识工程师的语言知识 和经验。 8 4年代末,随着语料库语言学的兴起和不断发展, 特别是大规模句法标 注树库的建立,研究人员开始借助于各种机器学习方法进行规则和句法分析信息 的自动获取技术的研究。 句法分析是自 然语言处理研究中的重点和难点.真实文本中的 各种噪音使句 法分析技术在一些n l p领域( 如消息理解,文本检索与信息过询 中 遭遇了 严重挑 战。 针对完整的句法分析方法在分析大规模真实文本中遇到的困难,许多研究人 员开始尝试着把一个完整的句法分析问题分解为几个易于处理的子问题,以逐步 降低完整句法分析的 难度, 提高分析效率。 这其中一个很成功的例子是将词性标 注 ( p a r t - o f - s p e e c h t a g g i n g ) 从 句法分析中 分离出 来。 通过 利用局部语境信息进行基于 规则或基于统计的词类消歧,目前的大部分词性标注工具对真实文本的标注正确 率都达到了%以上,为在此基础上进一步进行句法分析打下了很好的基础。 依据同 样的研究思路, 部分分析( p a r t i a l p a r s i n g ) , 也叫浅层分析( s h a l l o w p a r s i n g ) 或 组 块 分析 ( c h u n k p a r s in g ) , 是 近 年 来自 然 语言 处 理 领 域出 现的 一 个 新的 语言 处 理 策略。 部分分析的目 标就在于以一定的准确率实现噪音文本中大部分常见结构单 元的 解析和意义挖掘。 如果承认句法结构的合成性原则, 那么部分分析的思想是 相当自 然的:即使无法获取目 标句子的全局结构描述,局部信息的累积仍然可以 作为一种近似解而具有存在的意义。此外,部分分析系统高效和健壮的优点对于 一些需要浅层分析的 应用也具有很大的吸引 力。 部分分析是与完全句法分析相对的, 完全句法分析要求通过一系列分析过程, 最终得到句子的完整的句法树。 而浅层句法分析则不要求得到完全的句法分析树, 它只要求识别其中的某些结构相对简单的成分。浅层句法分析的结果并不是一棵 完 整的 句 法 树, 但 各 个语 块 是 完整 句 法 树的 一 个 子图 ( s u b g r a p h ) , 只 要 加上 语 块 之 间的依附关系( a tt a c h m e n t ) , 就可以 构成完整的 句法树。 所以浅层句法分析将句法 东北大学 硕士学 位论文第一章 前言 第一章 前言 1 . 1组块识别概述 句法分析一直是自 然语言处理的一个基础性的研究课题。句法分析问题的解 决对于机器翻译,文本理解,信息的检索和过滤,语音识别与合成等自 然语言处 理问题都有着极其重要的意义。早期的句法分析方法一般都是基于规则和形式化 文法的理性主义方法,规则的获取完全依赖于语言学家和知识工程师的语言知识 和经验。 8 4年代末,随着语料库语言学的兴起和不断发展, 特别是大规模句法标 注树库的建立,研究人员开始借助于各种机器学习方法进行规则和句法分析信息 的自动获取技术的研究。 句法分析是自 然语言处理研究中的重点和难点.真实文本中的 各种噪音使句 法分析技术在一些n l p领域( 如消息理解,文本检索与信息过询 中 遭遇了 严重挑 战。 针对完整的句法分析方法在分析大规模真实文本中遇到的困难,许多研究人 员开始尝试着把一个完整的句法分析问题分解为几个易于处理的子问题,以逐步 降低完整句法分析的 难度, 提高分析效率。 这其中一个很成功的例子是将词性标 注 ( p a r t - o f - s p e e c h t a g g i n g ) 从 句法分析中 分离出 来。 通过 利用局部语境信息进行基于 规则或基于统计的词类消歧,目前的大部分词性标注工具对真实文本的标注正确 率都达到了%以上,为在此基础上进一步进行句法分析打下了很好的基础。 依据同 样的研究思路, 部分分析( p a r t i a l p a r s i n g ) , 也叫浅层分析( s h a l l o w p a r s i n g ) 或 组 块 分析 ( c h u n k p a r s in g ) , 是 近 年 来自 然 语言 处 理 领 域出 现的 一 个 新的 语言 处 理 策略。 部分分析的目 标就在于以一定的准确率实现噪音文本中大部分常见结构单 元的 解析和意义挖掘。 如果承认句法结构的合成性原则, 那么部分分析的思想是 相当自 然的:即使无法获取目 标句子的全局结构描述,局部信息的累积仍然可以 作为一种近似解而具有存在的意义。此外,部分分析系统高效和健壮的优点对于 一些需要浅层分析的 应用也具有很大的吸引 力。 部分分析是与完全句法分析相对的, 完全句法分析要求通过一系列分析过程, 最终得到句子的完整的句法树。 而浅层句法分析则不要求得到完全的句法分析树, 它只要求识别其中的某些结构相对简单的成分。浅层句法分析的结果并不是一棵 完 整的 句 法 树, 但 各 个语 块 是 完整 句 法 树的 一 个 子图 ( s u b g r a p h ) , 只 要 加上 语 块 之 间的依附关系( a tt a c h m e n t ) , 就可以 构成完整的 句法树。 所以浅层句法分析将句法 东 t 大学 硕士学位论文第一章 讨言 分析分解为两个子任务: ( 1 ) 语块的识别和分析; ( 2 ) 语块之间的依附关系分析。浅 层句法分析的主要任务是语块的识别和分析。这样就使句法分析的任务在某种程 度上得到简化,同时也利于句法分析技术在大规模真实文本处理系统中迅速得到 利用。 部分分析的意义正在为当前的一些真实文本处理工程所证实。在 1 9 9 5年的 w c ( m u c - 6 , 1 9 9 5 ) 会议上, 五个性能 最好的 系统全都没有 采用基于完 全分析的 处 理 策略。 其中, ( a p p l e t e t a l . 1 9 9 3 ) 和 ( g ri s h m a n 1 9 9 5 ) 还 专门 讨 论了 他 们 如 何 从 全分析系统转向到基于有限状态方法的部分分析系统。 在部分分析领域,基于确定性有限状态的方法得到了充分的重视和应用 ( a b n e y 1 9 9 1 , g r e f e n s t e tt e 1 9 9 6 , m o k h t a r 而在基于组块方法的分析器中, 短语捆绑是一个自 下而上的取决于自 身优先条件的确定性过程。 组块分析过程中的一个关键问题是模式的可靠性。 模式的精确与否直接影响 东北大学 硕士学位论文第一章 前言 系统的正确率。 对于这个问题, a b n e y 提出 两点解决方案。 其一是易者优先的原则, 就是首先提取那些具有高可靠性的短语结构,而将具有疑义的成份延迟处理,分 析过程就是这种确定性的成份由小到大的组合过程。二是歧义包容原则。这个原 则要求分析结果中将语言中知名的歧义结构按照一个整体成份加以 组合, 如p p 或 其类似成份的 依存问 题,名词一名词修饰问 题, 都以 未消解的状态保存在分析结 果中,留待其它消歧工具作进一步的处理。 基于组块的分析方法是一种模仿人类语言能力的启发式方法,很多关于组块 的 一 些 基础 性 工作 都是a b n e y 完成的 。 虽 然a b n e y 在 组 块的 新 瓶中 装了 有限 状态 技术的老酒,但其新颖的思路和实验中的有效性还是令人惊异的,引起了世界范 围内研究者的重视。目 前,随着互联网和信息技术的飞速发展,对电子可读问题 分析处理的需求随之大量涌现。现在人们普遍承认,对于处理这种带有大量噪音 的真实文本,唯一的出路是在设计具有强抗干扰力的处理系统, 从完美走向现实, 从完全 理解 走向 部 分理解, 从完全分析 走向 部分分析 ( p a r t i a l p a r s i n g ) 。 通过 融合组 块的 知识表示机制, 构建以 部分分析技术、健壮性分析技术为特征的实用句法处 理技术是当前句法分析研究中的一个重要趋势。 9 0 年代以 来, 国外学者在英语的浅层句法方面做了不少工作。 1 9 9 1 年, s t e v e n a b n e y ( a b n e y 1 9 9 1 ) .提出 的目的。1 9 9 5 年 ,l a n c e c h u n k 分析体系, 通过对c h u n k 分析体系来实现部分分析 r a m s h a w a n d mi t c h ma r c u s ( r a m s h a w a n d mi t c h e l l 1 9 9 5 ) 应用改进的基于转换的学习的机器学习方法, 将文本组块识别的问题转化成标注 问 题,对基本名词短语和其他组块类型进行了 标注实验,取得不错的效果。他们 的工作吸引了不少研究人员利用机器学习方法对基本名词短语做识别实验。其他 类型的 组 块 还没 有 太多 的 人感 兴 趣, 直到1 9 9 9 年, 最 完 整的 工作由 ( b u c h h o lz e t a l. 1 9 9 9 ) 完 成了, 他们的实验提供了n p , v p , p p , a d j p和 a d v p 5 种组块 类型的结 果, ( j o rn v e e n s tr a 1 9 9 9 )在n p , v p和p p组 块 上做了 实 验 . 事实 上 ( r a m s h a w a n d m i t c h e l l 1 9 9 5 ) 已 经识别出来了 任意的组块类型, 只是他们把非名词短语都标记 成v p组 块 类型. 而( a d w a i t r a t n a p a r k h i 1 9 9 8 ) 则识别出了 任意的 组块 类型作为分 析的以部分, 但是没有公开过组块识别的性能。 2 0 0 0 年,自 然 语言学习国 际会 议 ( c o n l l - 2 0 0 0 ) 提出 的 组块识别共享任务采用 了 ( a b n e y 1 9 9 1 ) 中的 组块描述框架, 定义了 英语中的1 1 种组块,即常见的基本短 语, 包括n p , v p , a d v p , a d j p , p p , s b a r , c o n j p , p r t , int j , l s t , u c p . 该共享任务的目的是推动机器学习方法在组块识别中的应用。参与该共享任务的 东北大学 硕士学 位论文第一章 前言 系统由1 1 个, 采 用的 方法多 种多 样, 有 基于上 下文 敏感的 最大可能 的 方法( c h r i s t e r j o h a n s s o n e t a l . 2 0 0 0 .) 、 有 基于x m l 技 术的 扭e r v 6 d 6 j e a n e t a l . 2 0 0 0 .) , 有 基 于 最 大 嫡 模型的 ( r o b k o e lin g 2 0 0 0 .) , 有 基 于 支 撑向 量 机的 ( t a k u k u d o h e t a l . 2 0 0 0 ) , 有 基于 p o s标注 技术的 ( m i l e s o s b o rn e 2 0 0 0 .) , 有基 于词汇 上下 文信息语言 模型的 作 e r r a n p l a e t a l . 2 0 0 0 ) , 有基于组 合分 类 器模型的 ( e r i k f . 万 o n g k i m s a n g 2 0 0 0 .) , 有基于w p d v模型的 ( h a n s v a n h a l t e r e n 2 0 0 0 .) , 有 基于记 忆的 ( j o rn v e e n s t r a e t a l . 2 0 0 0 .) , 有基 于” 规则 序列处理器11 方法的 ( m a r c v i l a i n e t a l .2 0 0 0 .) , 还有基于混 合系 统的 ( g u o d o n g z h o u e t a l . 2 0 0 0 .) , 在所有的系统中,性能 最佳的能够达到9 4 0 1 3 %的f值。 近年来,中国 学者也开始借鉴国外的 方法进行汉语浅层句法分析的探索。 ( 李 文捷等 1 9 9 5 ) 用短语边界与词性标记对共现概率的 方法研究汉语中最长名词短语 的识别。 首先在训练集中 统计n p 起始和n p 终止两个概率矩阵, 然后根据这些概 率信息在输入句的词性标记对之间插入n p 起始标记和n p 终止标记, 然后对标记 进行匹 配处理。 ( 张国 煊等 1 9 9 5 ) 用简单的 互信息 方法划分短语边界, ( 郭志立等 1 9 9 6 ) 用互信息方法确定汉语” 的” 字短语的 边界。 这些研究都是基于统计方法的。 ( 孙宏林 1 9 9 7 ) 用 规则方 法识别汉语的v o ( 动宾 ) 结构, ( 刘长征 1 9 9 8 ) 采用规则 方法识别由 名词序列构成的n p 。 这两项研究中的语法规则是根据语料库中的统计 通过人工归纳得到. ( 赵军 1 9 9 8 ) 系统 地研究了 汉语基本名词短 语的 识别和分析。 在识别方面, 从 预 先定 义的 句 法 模 板 ( 组 成b a s e n p 的 词 类 序列 ) 出 发, 探讨了 两种b a s e n p 识 别 方 法:一种是统计的n元模型,该模型利用了b a s e n p 组成成分的词性信息、音节 信息及上下文信息,研究表明这种模型比单纯的基于词类序列的模型要好。 另一 种是规则方法,其规则通过基于转换的学习算法从训练语料中自 动获取( 赵军 等, 1 9 9 9 ) 0 满志方 1 9 9 8 ) 的目 标也 是完全分析, 这 种方法的 基本思 想是: 首先确定谓语 中心词,然后围绕谓语中心词进行自 底向 上的组块分析,以 确定谓语中心词的支 配成分。其中的组块分析如果独立出来, 就是一个部分句法分析器。在这个组块 分析过程中主要利用了 词语之间的依存关系。 ( 周强 1 9 9 9 ) 提出了 汉语组块分析体系,并且详细讨论了词界块和成分组的基 本内容和它们的识别算法。 ( 奚晨海等 2 0 0 1 ) 采用人工神经元对汉语短语边界 进行识别研究。 东北大学 硕士学位论文第一章 前言 ( 李素建等 2 0 0 2 ) 提出了 规则和统计相结合的处理 方法进 行组 块分 析策略。 ( 李晰等 2 0 0 4 ) 采用基于支 撑向 量机模型, 将中 文组 块识别问 题作为分类问 题 做了组块识别的研究。 1 . 2课题的提出 近年来,随着计算机科学和相关科学的发展,人工智能的研究已经成为当前 十分重要的研究学科之一,作为人工智能的一个重要分支的自 然语言处理自然就 成为人们研究的热点。机器翻译作为自 然语言研究领域的一个传统研究课题,同 样为大家所关注。 纵观机器翻译的研究历史, 从上个世纪4 0年代英国工程师b o o t h 和美国工程师、 夜a v e r 提出 利用计算机进行翻译的想法, 到印 年代欧美国家的 政 府和公司投入大量的人力、物力致力于机器翻译的研究, 再到1 9 6 6 年美国科学院 语言自 动处理咨询委员会发表的a l p a c报告给机器翻译拨了一飘冷水之后, 机器 翻译走向停滞或沉寂。 缓近的二十年,随着语言学理论的发展、计算机的软硬件的飞速发展以及统 计学和机器学习方法在自 然语言处理领域中的广泛应用,人们对机器翻译本身的 应用背景、目 标等也有了 更加准确的认识,机器翻译在这样的背景下取得了 长足 的发展,基于统计、基于实例等新的机器翻译方法也都是在这一时期出现。在国 内, 机器翻译的研究开始于5 0年代, 多家大学和研究机构先后在俄汉、 英汉、汉 英、日 汉、汉日 等机器翻译系统上进行了研究,同时在汉语的自 然语言理解方面 做了大量的研究工作。 在看到机器翻译研究取得的进展的同时,我们也知道,由于对人类语言的复 杂和我们对语言规律本身认识仍然不足,以及计算机对语言理解的局限性,再加 上不同语言之间特别是不同语系之间存在着语法结构、构造方式、语言习惯、社 会背景等等的不同,机器翻译的效果与大家所期待的仍然相距甚远,国外有些人 挖苦地说m t ,不是 m a c h i n e t r a n s l a t i o n的缩写,而是m a d t r a n s l a t i o n( 疯子 的翻译) 的缩写, 国内也有 “ 满篇英文难不住, 满篇中文看不懂” 一说. 这些固然 是比 较极端的评价, 但机译译文质量确实一直是个老大难问题.著名的机译评论 家h u t c h i n s 在 1 9 9 9 年机器翻译峰会上的发言中说, 机器翻译译文质量至今并没 有取得实质性的进展, 很多5 0 年前未解决的问 题如今依然存在( 鳌振东, 2 0 0 0 ) 。 自然语言的歧义性一直是机器翻译难以攻克的难关。 机器翻译的研究为什么会这么艰难,主要有三个问题( 姚天顺, 2 0 0 2 ) : ( 1 ) 东北大学 硕士学位论文第一章 前言 ( 李素建等 2 0 0 2 ) 提出了 规则和统计相结合的处理 方法进 行组 块分 析策略。 ( 李晰等 2 0 0 4 ) 采用基于支 撑向 量机模型, 将中 文组 块识别问 题作为分类问 题 做了组块识别的研究。 1 . 2课题的提出 近年来,随着计算机科学和相关科学的发展,人工智能的研究已经成为当前 十分重要的研究学科之一,作为人工智能的一个重要分支的自 然语言处理自然就 成为人们研究的热点。机器翻译作为自 然语言研究领域的一个传统研究课题,同 样为大家所关注。 纵观机器翻译的研究历史, 从上个世纪4 0年代英国工程师b o o t h 和美国工程师、 夜a v e r 提出 利用计算机进行翻译的想法, 到印 年代欧美国家的 政 府和公司投入大量的人力、物力致力于机器翻译的研究, 再到1 9 6 6 年美国科学院 语言自 动处理咨询委员会发表的a l p a c报告给机器翻译拨了一飘冷水之后, 机器 翻译走向停滞或沉寂。 缓近的二十年,随着语言学理论的发展、计算机的软硬件的飞速发展以及统 计学和机器学习方法在自 然语言处理领域中的广泛应用,人们对机器翻译本身的 应用背景、目 标等也有了 更加准确的认识,机器翻译在这样的背景下取得了 长足 的发展,基于统计、基于实例等新的机器翻译方法也都是在这一时期出现。在国 内, 机器翻译的研究开始于5 0年代, 多家大学和研究机构先后在俄汉、 英汉、汉 英、日 汉、汉日 等机器翻译系统上进行了研究,同时在汉语的自 然语言理解方面 做了大量的研究工作。 在看到机器翻译研究取得的进展的同时,我们也知道,由于对人类语言的复 杂和我们对语言规律本身认识仍然不足,以及计算机对语言理解的局限性,再加 上不同语言之间特别是不同语系之间存在着语法结构、构造方式、语言习惯、社 会背景等等的不同,机器翻译的效果与大家所期待的仍然相距甚远,国外有些人 挖苦地说m t ,不是 m a c h i n e t r a n s l a t i o n的缩写,而是m a d t r a n s l a t i o n( 疯子 的翻译) 的缩写, 国内也有 “ 满篇英文难不住, 满篇中文看不懂” 一说. 这些固然 是比 较极端的评价, 但机译译文质量确实一直是个老大难问题.著名的机译评论 家h u t c h i n s 在 1 9 9 9 年机器翻译峰会上的发言中说, 机器翻译译文质量至今并没 有取得实质性的进展, 很多5 0 年前未解决的问 题如今依然存在( 鳌振东, 2 0 0 0 ) 。 自然语言的歧义性一直是机器翻译难以攻克的难关。 机器翻译的研究为什么会这么艰难,主要有三个问题( 姚天顺, 2 0 0 2 ) : ( 1 ) 东 北大学硕士学 位论文第一章 前言 歧义性( a m b i g u i t y ) 问题;( 2 ) 语言之间的词汇和结构不匹配( l e x i c a l a n d s t r u c t u r a l m i s m a t c h e s ) f47 题;( 3 ) 多词单元( m u l t i - w o r d u n i t ) ,成语和词搭配 问 题。 简单地说,也就是歧义和结构的问 题, 解决好了这些问 题, 就有了解决机 器翻译难题的可能性。针对这些难题,人们提出了相应的解决办法,其中一种思 路就是加大信息处理处理的粒度。这种方法的主要思想就是把原来作为基本处理 单元的多义性单词,扩大到单义性的语段,并给以中心词和结构标注。这就是所 谓的 基 于 语 段的 处 理 方 法( c h u n k - b a s e d m e t h o d ) 。 基于实例的机器翻译e b m t 的c h u n k 模板层翻译就是基于这种思想的应用, 首 先在资源建设阶段,从 句子中识别出c h u n k , 然后 根据c h u n k 生成c h u n k 层模板, 其次,在翻译系统翻译的时候,当输入翻译源语句子在 e b m t 系统的t m 层和词表 层上翻译失败的话,则转入 。 h u n k模板层翻译,此时系统必须把源句子中 c h u n k 识别出来,然后抽象成模板, 再从资源库中寻找最相似的翻译实例作为翻译的基 础, 经过后处理最后输出。 因此.c h u n k 识别作为基于实例的机器翻译系统e nt中是关键技术之一,对 于机器翻译来说有着重要的意义。 在i n t e rn e t 迅猛发展的今天, 网络内容以指数级增长, 巨大规模的文本、 声音、 图 象等信息不断产生和更新, 它为研究人员提供源源不断的免费真实实验数据, 对于自 然语言处理来说,这些资源是 “ 生”的,没有经过加工是不能直接加以利 用的,在大多数的自 然语言处理方法中, 都需要训练数据,而训练数据的来源几 乎都是在很强的知识背景下,耗费大量的人力、物力和财力人工标注的,如何利 用这些网络上产生的巨大规模的 “ 生”语料,既是网络发展带给自 然语言处理工 作者的机会也是挑战之一 随着语料库语言学和机器学习的发展,通过机器学习从语料库中自 动或半自 动获取语言学知识成为知识获取的新途径,也是打破知识获取瓶颈的希望所在。 基于语料库的统计机器学习成为当前计算语言学界研究的 最大热点. 在计算语言 学 领 域, 有 指导 学习 s u p e r v is e d l e a rn i n g , b ri ll 1 9 9 5 ;k r y m o l o w s k i 2 0 0 2 ; n o m o t o 2 0 0 2 ) 、 无指导 学习 ( u n s u p e r v i s e d l e a rn in g , c h a n g 9 7 ; c o l l i n s 1 9 9 9 ;c h a r n i a k 2 0 0 1 ; m a r c u 2 0 0 2 ) 、 半 指导自 举 式学 习 ( b o o ts tr a p p i n g , b a s i li . 1 9 9 7 ; a b n e y 2 0 0 2 ; l i 2 0 0 2 ; b a r z i la y 2 0 0 2 ) 都 得到 广 泛的 研 究。 最 近 几 年, 使 用 两 个 分 类 器的c o - tr a in in g 学 习 方 法 (n ig a m 2 0 0 0 ; d a s g u p t a 2 0 0 1 ; m u e l l e r 2 0 0 2 ; p h i ll ip s 2 0 0 2 ) 受 到 很 大 关 注。 本文研究工作结合上文的分析,结合东北大学自 然语言处理实验室的在研课 东北大学硕士学往论文第一幸 前言 题一基于实例的机器翻译,尝试了 用半指导机器学习方法c o - t r a i n i n g在小 规模训 练语料的基础上进行中文组块识别的研究,为构建基于实例的机器翻译语料库中 的组块识别做了有意义的研究。 1 .3 论文的组织结构 论文共分七章。 第一章 前言 1 . 1节介绍了组块分析的由 来和现在国内外的研究现状。1 .2节首先通过介绍 机器翻译的发展简史,阐述了组块识别对于基于实例的机器翻译的重要性,结合 网络发展带来的机遇和半指导机器学习的发展,提出课题。1 .3 节介绍了本文的组 织结构。 第二章 组块识别 2 . 1 节分英文的组块分析体系和汉语的组块分析体系, 分别介绍了中英文组块 的定义和标注体系。2 .2 节介绍了组块分析的各种方法。 第三章 c o - t r a in i n g 方法 3 . 1 简单介绍了c o - t r a i n i n g 方法的发展历程。 3 .2 节详细介绍了c o - t r a i n i n g 方 法在可能近似正确模型( p a c ) 下的形式化定义。 3 . 3 节介绍了c o - t r a i n i n g 方法的两 个角度。 3 .4 节介绍了c o - t r a i n i n g 方法的 算法流程。 3 . 5 节介绍了c o - t r a i n i n g 方法 的技术难点。 第四章 实验的设计与实现 4 . 1 节 讨论了c o - t r a i n i n g 方法的 分 类器选择问 题, 并 且简要 介绍了 三个分 类模 型。 4 .2节设计了自 我训练的实验。 4 .3节讨论了实验中采用的带标实例的选择策 略。 4 .4 节 设计了 缓 冲器的 大 小 对c o - t r a i n i n g 算 法的 性能 影响 实 验。 4 .5 节 设 计了 种子集合的 大小 对于c o - t r a i n i n g 方 法的 影响实 验。 4 .6 节设计了 不同 分类器 组合下 的c o - tr a in i n g 方法的实验。 第五章 东北大学硕士学往论文第一幸 前言 题一基于实例的机器翻译,尝试了 用半指导机器学习方法c o - t r a i n i n g在小 规模训 练语料的基础上进行中文组块识别的研究,为构建基于实例的机器翻译语料库中 的组块识别做了有意义的研究。 1 .3 论文的组织结构 论文共分七章。 第一章 前言 1 . 1节介绍了组块分析的由 来和现在国内外的研究现状。1 .2节首先通过介绍 机器翻译的发展简史,阐述了组块识别对于基于实例的机器翻译的重要性,结合 网络发展带来的机遇和半指导机器学习的发展,提出课题。1 .3 节介绍了本文的组 织结构。 第二章 组块识别 2 . 1 节分英文的组块分析体系和汉语的组块分析体系, 分别介绍了中英文组块 的定义和标注体系。2 .2 节介绍了组块分析的各种方法。 第三章 c o - t r a in i n g 方法 3 . 1 简单介绍了c o - t r a i n i n g 方法的发展历程。 3 .2 节详细介绍了c o - t r a i n i n g 方 法在可能近似正确模型( p a c ) 下的形式化定义。 3 . 3 节介绍了c o - t r a i n i n g 方法的两 个角度。 3 .4 节介绍了c o - t r a i n i n g 方法的 算法流程。 3 . 5 节介绍了c o - t r a i n i n g 方法 的技术难点。 第四章 实验的设计与实现 4 . 1 节 讨论了c o - t r a i n i n g 方法的 分 类器选择问 题, 并 且简要 介绍了 三个分 类模 型。 4 .2节设计了自 我训练的实验。 4 .3节讨论了实验中采用的带标实例的选择策 略。 4 .4 节 设计了 缓 冲器的 大 小 对c o - t r a i n i n g 算 法的 性能 影响 实 验。 4 .5 节 设 计了 种子集合的 大小 对于c o - t r a i n i n g 方 法的 影响实 验。 4 .6 节设计了 不同 分类器 组合下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论