(计算机系统结构专业论文)基于条件随机场的自动分词技术的研究.pdf_第1页
(计算机系统结构专业论文)基于条件随机场的自动分词技术的研究.pdf_第2页
(计算机系统结构专业论文)基于条件随机场的自动分词技术的研究.pdf_第3页
(计算机系统结构专业论文)基于条件随机场的自动分词技术的研究.pdf_第4页
(计算机系统结构专业论文)基于条件随机场的自动分词技术的研究.pdf_第5页
已阅读5页,还剩86页未读 继续免费阅读

(计算机系统结构专业论文)基于条件随机场的自动分词技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学硕士学位论文 摘要 基于条件随机场的自动分词技术的研究 摘要 随着科技的发展和海量信息的涌现,信息处理技术已 经成为当今世界发展不 可或缺的一部分,要在海量的信息中提取有用的知识,就必须要让机器 “ 读懂” 这些由人类语言所描述的信息, 而词是最小的能够独立活动的有意义的语言成分。 将词确定下来是理解自 然语言的第一步,只有跨越了这一步,我们才有可能对信 息进行更深入的处理,以至于让机器理解人类语言。本实验室对机器翻译和自 然 语言处理的研究,在很大的程度上都要依赖于如分词等序列标记和分割的技术, 以便减少错误的蔓延,并进行深入的研究。 条件随机场是近年来提出的,用于标记和分割序列数据的条件概率模型,也 是在给定输入节点条件下计算输出节点的条件概率的无向图模型。它不需要以隐 马尔可夫模型为代表的“ 生成”模型那样的严格独立假设,并克服了最大嫡马尔 可夫模型和其他 “ 非生成”模型所存在的标记偏置的问题。该模型可以非常容易 的将输入序列中的任意特征或是语言本身所固有的特征加入到模型中,我们不仅 可以将传统的h n n 序列模型的转移特征和发射特征加入进来,而且也可以将一 些其他的信息加入进来,比如构词规则,领域特征,词典信息等等。 本文系统的介绍了条件随机场的定义、模型结构、特征函数、参数估计及其 训练方法等。并将条件随机场应用于汉语自动分词,得到了比以往用于序列标记 和分割的模型更好的效果, 从实验上验证了条件随机场在序列标记和分割方面的 优势; 并在不断添加特征的条件下应用条件随机场进行了大量的实验, 在实验中, 条件随机场表现出了非常优异的性能。 关键词 条件随机场自 动分词自 然语言理解有向图无向图隐马尔可夫 模型最大嫡马尔可夫模型参数估计 - v- 东 北大学硕士学位论文 ab s t r a c t s t u d y o f a u t o m a t i c s e g m e n t a t i o n t e c h n i q u e ba s e d o n c o n d i t i o n a l ra n d o m f i e l d s ab s t r a c t i n c o m p a n y w i t h t h e d e v e l o p m e n t o f t e c h n o l o g y a n d t h e e x p a n s i o n o f m a s s i n f o r m a t i o n , i n f o r m a t i o n p r o c e s s i n g t e c h n i q u e s h a v e b e e n o n e o f t h e m o s t i m p o r t a n t p a r t s i n t e c h n o l o g y d e v e l o p i n g i n t o d a y s w o r l d . t o e x t r a c t u s e f u l k n o w l e d g e f r o m t h e m a s s i n f o r m a t i o n , i t m u s t b e p o s s i b l e t o m a k e ma c h i n e s u n d e r s t a n d t h e i n f o r m a t i o n f o r m e d b y h u m a n l a n g u a g e s . h o w e v e r , w o r d s a r e th e l e a s t l a n g u a g e e l e m e n t s w h i c h c a n b e i n d e p e n d e n t l y u s e d a n d h a v e r e a l m e a n i n g . i t i s t h e f i r s t s t e p t o u n d e r s t a n d t h e n a t u r a l l a n g u a g e t h a t t o i d e n t i f y th e w o r d s , o n l y b y a c h i e v e d t h e fi r s t s t e p , c o u l d i t b e p o s s i b l e t o d e a l w i t h t h e i n f o r m a t i o n in d e p t h , e v e n m a k e th e m a c h i n e s u n d e r s t a n d h u m a n l a n g u a g e s . t h e r e s e a r c h e s o f m a c h in e t r a n s l a t i o n a n d n a t u r a l l a n g u a g e p r o c e s s i n g i n o u r l a b m o s t ly d e p e n d o n t h e t e c h n i q u e o f s e q u e n c e l a b e l i n g a n d s e g m e n t i n g , s u c h a s s e g m e n t a t i o n , s o a s t o r e d u c e t h e e x t e n s io n c a u s e d 勿e r r o r s , a n d t o d o m o r e d e e p r e s e a r c h . c o n d i t i o n a l r a n d o m f i e l d s ( c r f s ) , a r e c e n t l y i n tr o d u c e d c o n d it i o n e d p r o b a b i l i s t i c m o d e l f o r l a b e l i n g a n d s e g m e n t i n g s e q u e n t i a l d a t a , i s a u n d i r e c t e d g r a p h m o d e l t h a t c a l c u l a t e t h e c o n d i t i o n a l p r o b a b i l i t y o v e r o u t p u t n o d e s g i v e n t h e i n p u t n o d e s . i t r e l a x e s t h e s tr o n g i n d e p e n d e n c e a s s u m p t i o n s w h i c h g e n e r a t iv e m o d e l m u s t h a v e , s u c h a s h i d d e n ma r k o v mo d e l , a n d o v e r c o m e s t h e l a b e l - b i a s p r o b l e m e x h i b i t e d b y m a x i m u m e n tr o p y m a r k o v mo d e l a n d o t h e r n o n - g e n e r a t iv e m o d e l s . t h i s m o d e l c a n e a s i l y in c o r p o r a t e a r b i t r a ry f e a t u r e s o f t h e i n p u t s e q u e n c e a n d t h e i m p l i c i t o n e s o f t h e l a n g u a g e i n i t s e l f , a n d s o w e c a n n o t o n l y i n tr o d u c e t h e tr a n s it i o n a n d e m i s s i o n f e a t u r e s i n tr a d it i o n a l h mm m o d e l i n g , a l s o i n tr o d u c e s o m e o t h e r i n f o r m a t i o n , s u c h a s t h e r u l e s o f w o r d s f o r ma t i o n , d o m a i n f e a t u res , l e x i c o n e t c . t h i s t e x t s y s t e m a t i c a l ly i n tr o d u c e s t h e d e fi n i t io n o f c r f s , s t r u c t u re o f t h e c r f s m o d e l , f e a t u r e f u n c t i o n s , p a r a m e t e r e s t i m a t e a n d t r a i n i n g m e t h o d s . a p p l y i n g c r f s t o c h i n e s e a u t o m a t i c s e g m e n t a t i o n , w e o b t a i n e d a b e tt e r p e r f o r m a n c e i n c o m p a r i s o n w it h t h e m o d e l a lr e a d y u s e d i n s e q u e n c e l a b e l i n g a n d s e g m e n t i n g , a n d v e r i f i e d t h e a d v a n t a g e s o f t h e c r f s m o d e l in s e q u e n c e l a b e l i n g a n d s e g m e n t i n g b y e x p e r i m e n t s ;, -i ii- 东北大学硕士学位论文 人b s t r a c t w e a l s o c a r r i e d o u t a l a r g e a m o u n t o f e x p e r i m e n t s a i m s t o t h e c r f s m o d e l s b y g iv e n m o r e a n d m o r e f e a t u r e s , i n w h i 比t h e c r f s m o d e l s s h o w e d v e ry g o o d p e r f o r m a n c e . k e y w o r d s c o n d it i o n a l r a n d o m f i e l d s a u t o m a t i c s e g m e n t a t i o n n a t u r a l l a n g u a g e u n d e r s t a n d d i r e c t e d g r a p h u n d i r e c t e d g r a p h h i d d e n ma r k o v mo d e l m a x i m u m e n t r o p y m a r k o v mo d e l p a r a me t e r e s t i ma t e -t v- 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取 得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或 撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确 的说明并表示谢意。 卜策协叹 铆杯 学 位 论 文 作 者 签 名: 州 日期: 少 冲 f 一子 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学 位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅。本人授权东北大学可以将学 位论文的全部或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名;否则视为不同意。 ) 学位论文作者签名 签字日 期:飞 扔 厄 几 导师签名: 签字日期: , 心 , 了. 飞,71 口 东北大学硕士学位论文 第 1 章前言 第1 章 前言 1 . ,自 然语言理解概述 语言学是一门古老的学科,是一个民族内部相互交际的最重要工具。对语言 学的研究, 长期以来都是以手工方式进行的。 然而进入本世纪2 0 年代以后, 语言 学在现代科学体系中的地位发生了急剧的变化。人门认为语言是哲学和人文科学 发展的突破口,是社会科学、自 然科学与思维科学的接合点。自 此语言学开始成 为了一门领头学科。之所以 会发生这种变化,固然可归因于人们对语言所具有的 文化本原性,也可认为是和当前科学技术发展的影响密切相关的。 到了5 0 年代, 一门 新兴的以计算机为手段研究自 然语言的学科自 然语言 理解( n a t u r a l l a n g u a g e u n d e r s ta n d i n g , n l u ) ,也称之为计算语言学( c o m p u t a t i o n a l l in g u i s t i c s ) 问 世了, 它是一门 研究 如何利用计 算机来理 解以 及生 成自 然语言的 理论 和方法的学科, 并通过形式化的定义和计算模型来分析、 理解以及处理自 然语言。 它是计算机科学、数学、语言学、逻辑学、心理学、哲学、人工智能等多个学科 的研究成果的一个综合产物, 不但极大地推动了语言学本身的发展,而且形成了 一门 深入到人类活动的各个领域的学科。随着社会信息化程度的 提高和海量信息 的出现,人们越来越重视 n l u技术的研究和发展,并且该研究成果已在机器翻 译、 信息检索、自 然语言人机接口 等重要领域得到应用, 展现了非常美好的 前景。 自 然语言理解真正成为一种实用的学科,是在 6 0 年代以后。1 9 6 2年国际上 成立了计算语言学协会,相关的研究开始走上了有组织阶段,并形成一门以计算 语言学理论为基础的语言工程学科。它广泛地应用于智能计算机人机接口;机器 人语音对话; 电话翻译系统; 大型数据库自 然语言查询; 专家系统自 然语言接口; c a d , c a i , 和 c a的人机交互系统; 计算机自 动书写, 摘要提取, 文档自 动分 类和文书管理系统;大型工业操作过程的自 动化语言;机器翻译和机助翻译;自 然语言语音通讯;文学与社会科学的文档和语料计算机自 动处理等各个方面。 自 然语言理解的任务是建立一种计算机模型,这种模型能够给出像人那样通 过理解、分析和回答而得到自 然语言 ( 即人们日常使用的各种通俗语言)结果。 然而现在的计算机的智能还远远没有达到能够像人一样理解自然语言的水平,而 且在可预见的将来也很难达到这样的水平。因此,关于计算机对自 然语言的理解 一般是从实用的角度进行评判的。 如果计算机能够基本实现了人机会话,或机器 翻译,抑或自 动文摘等自动处理语言信息的功能,则我们可以认为计算机开始具 备自然语言理解的能力。 一i一 东北大学硕士学位论文 第 1 章前言 第1 章 前言 1 . ,自 然语言理解概述 语言学是一门古老的学科,是一个民族内部相互交际的最重要工具。对语言 学的研究, 长期以来都是以手工方式进行的。 然而进入本世纪2 0 年代以后, 语言 学在现代科学体系中的地位发生了急剧的变化。人门认为语言是哲学和人文科学 发展的突破口,是社会科学、自 然科学与思维科学的接合点。自 此语言学开始成 为了一门领头学科。之所以 会发生这种变化,固然可归因于人们对语言所具有的 文化本原性,也可认为是和当前科学技术发展的影响密切相关的。 到了5 0 年代, 一门 新兴的以计算机为手段研究自 然语言的学科自 然语言 理解( n a t u r a l l a n g u a g e u n d e r s ta n d i n g , n l u ) ,也称之为计算语言学( c o m p u t a t i o n a l l in g u i s t i c s ) 问 世了, 它是一门 研究 如何利用计 算机来理 解以 及生 成自 然语言的 理论 和方法的学科, 并通过形式化的定义和计算模型来分析、 理解以及处理自 然语言。 它是计算机科学、数学、语言学、逻辑学、心理学、哲学、人工智能等多个学科 的研究成果的一个综合产物, 不但极大地推动了语言学本身的发展,而且形成了 一门 深入到人类活动的各个领域的学科。随着社会信息化程度的 提高和海量信息 的出现,人们越来越重视 n l u技术的研究和发展,并且该研究成果已在机器翻 译、 信息检索、自 然语言人机接口 等重要领域得到应用, 展现了非常美好的 前景。 自 然语言理解真正成为一种实用的学科,是在 6 0 年代以后。1 9 6 2年国际上 成立了计算语言学协会,相关的研究开始走上了有组织阶段,并形成一门以计算 语言学理论为基础的语言工程学科。它广泛地应用于智能计算机人机接口;机器 人语音对话; 电话翻译系统; 大型数据库自 然语言查询; 专家系统自 然语言接口; c a d , c a i , 和 c a的人机交互系统; 计算机自 动书写, 摘要提取, 文档自 动分 类和文书管理系统;大型工业操作过程的自 动化语言;机器翻译和机助翻译;自 然语言语音通讯;文学与社会科学的文档和语料计算机自 动处理等各个方面。 自 然语言理解的任务是建立一种计算机模型,这种模型能够给出像人那样通 过理解、分析和回答而得到自 然语言 ( 即人们日常使用的各种通俗语言)结果。 然而现在的计算机的智能还远远没有达到能够像人一样理解自然语言的水平,而 且在可预见的将来也很难达到这样的水平。因此,关于计算机对自 然语言的理解 一般是从实用的角度进行评判的。 如果计算机能够基本实现了人机会话,或机器 翻译,抑或自 动文摘等自动处理语言信息的功能,则我们可以认为计算机开始具 备自然语言理解的能力。 一i一 东北大学硕士学位论文第 1 章前言 自 然语言处理则正是研究如何让计算机 “ 理解”并 “ 生成”人们的日常 ( 如 汉语、英语)语言,使得计算机 “ 懂 得”自 然语言,并对所提出的问题,通过计 算机模拟人类思维进行处理,并给出回答。其目 的在于建立起一种人机间密切而 友好的 关系, 使之能进行高度的信息传递与认知活动。 对自 然语言处理的 研究始 于电子计算机问世之初。到现在,全世界依然在关注以机器翻译系统为代表的自 然语言处理的研究和开发工作。 到6 0 年代, 乔姆斯基的转换生成语法得到广泛认可, 其核心是短语结构规则, 从而分析句子结构的过程就定义为利用规则自 顶向下或自 底向 上的生成句法树的 过程。 由于认识到生成语法缺少表示语义知识的手段, 在7 0 年代随着认知科学的兴 盛,研究者又相继提出了语义网络、c d理论、格框架等语义表示理论。这些语 法和语义理论经过各自的发展,逐渐开始趋于相互结合。 到 8 0年代,一批新的语法理论脱颖而出,具有代表性的有词汇功能语法 ( l f g ) 、 功能 合一语法( f u g ) 和 广义短语结 构语法 ( g p s g ) 等。 这些 基于规则的 分析 方法可以称之为自 然语言处理中的 “ 理性主义”方法。这些理性的方法虽然基本 上掌握了对单个句子的分析技术,但还是不能覆盖所有的语言现象, 特别是对于 整个段落或篇章的理解更遥不可及。在那个时期,机器翻译系统也受到了 “ 理性 主义”方法的影响,出现了一些相应的基于规则的 机器翻译( r u l e b a s e d m a c h i n e t r a n s l a t i o n , r b m t ) o 相对于 “ 理性主义” , “ 经验主义”的研究思路,主要是针对大规模语料库的 研究。 “ 经验主义” 方法认为人的知识是通过感官输入, 并对大量的语言数据的进 行一些简单的联想与通用化的操作,从而获取相关的语言知识,是不断学习和总 结的结果。该思想方法在二十世纪2 0 年代到5 0 年代取代了理性主义方法,并在 8 0 年代中期后重新得到了重视。 在这段时期中, 机器翻译也开始转变思想,1 9 8 4 年日 本东京大学的长尾真教授提出的基于类比的机器翻译方法 ( tr a n s l a t i o n b y a n a l o g y ) ,以 及该方 法的 一些扩 展。 计算机的出现,使得语料可以方便地存贮起来,也使查找变得容易;同时电 子出 版物的出现,使语料的采集也不再成为难题。 最早于 6 0年代编制的b r o w n 和l o b两个计算机语料库,分别具有1 0 0 万词的规模。进入9 0 年代,我们能够 轻易列举出的语料库就有几十个之多, 像d c i , e c i , i c a m e , b n c , l d c , c l r 等, 其 规模最大已 达到1 0 9 数 量级。 说到 “ 经验主义” ,自 然就要牵涉到对语料库的研究,其主要分成3 个方面: 工具软件的开发、语料库的标注以及基于语料库的语言分析方法。我们采集到的 未经处理的生语料并不能直接提供相关的语言知识,而只有通过词法、句法、语 义等多层次的加工才能使知识获取成为可能。对语料库的加工就是给语料标注各 一 2一 东北大学硕士学位论文 第 1 章前言 种统一的记号,其标注内容包括每个词的词性、语义项、短语结构、句型和句与 句之间的上下文关系等等。 随着标注程度的加深, 语料库将逐渐成为一个分布的、 统计意义上的知识源。 利用这个知识源我们可以进行许多语言学相关的分析工作, 如根据从标注语料中训练得到统计模型可用于新文本的分词、词性标注以及划分 句子成分等。 语料库提供的知识是不确定的,因此需要不断扩大其规模,以尽量覆盖所有 的语言现象。但是对于语言中基本的确定性的规则仍使用统计的方法进行判断, 这与人们的常识是相违背。这种 “ 经验主义”方法研究中的不足,也就需要依靠 “ 理性主义” 方法来补全。 而这种融合也正是当前 自然语言处理发展的必然趋势。 , . , . ,自 然语言理解系统的发展阶段 自 然语言理解系统的发展可以 分为第一代系统和第二代系统两个阶段。第一 代系统则开始引进语义甚至语用和语境的因素,几乎完全抛开了统计技术;第二 代系统建立在对词类和词序分析的基础之上;分析中经常使用统计方法。 第一代自 然语言理解系统又可分为四种类型: . 特殊格式系统: 早期的自 然语言理解系统大多数是特殊格式系统, 根据人机对话内容的特点, 采用特殊的格式来进行人机对话。 . 以文本为基础的系统 某些研究者不满意特殊格式系统中的种种格式限制,从而出 现了以文本为基 础的系统。 . 有限逻辑系统 有限逻辑系统进一步改进了以文本为基础的系统。在这种系统中,自 然语言 的句子以 某种更加形式化的记号来替代,这些记号自 成一个有限逻辑系统,可以 进行某些推理。 . 一般演绎系统 一般演绎系统使用某些标准数学符号( 如谓词演算符号) 来表达信息。 1 9 7 0 年以 来, 出现了一定数量的 第二代自 然语言理解系统, 这些系统绝大多 数是程序演绎系统,大量地进行语义、语境以至语用的分析。其中比较有名的系 统是l u n a r 系统、s h r d l u系统、ma r g i e系统、s a m系统、p a m系统。 1 . 1 . 2国内的发展状况 我国自 然语言理解的研究起步较晚,较之国外晚了1 7 年。国外早在1 9 6 3 年 就建成了早期的自 然语言理解系统, 而我国直到 1 9 8 0 年才建成了两个汉语自 然语 一 3 一 东北大学硕士学位论文 第 1 章前言 种统一的记号,其标注内容包括每个词的词性、语义项、短语结构、句型和句与 句之间的上下文关系等等。 随着标注程度的加深, 语料库将逐渐成为一个分布的、 统计意义上的知识源。 利用这个知识源我们可以进行许多语言学相关的分析工作, 如根据从标注语料中训练得到统计模型可用于新文本的分词、词性标注以及划分 句子成分等。 语料库提供的知识是不确定的,因此需要不断扩大其规模,以尽量覆盖所有 的语言现象。但是对于语言中基本的确定性的规则仍使用统计的方法进行判断, 这与人们的常识是相违背。这种 “ 经验主义”方法研究中的不足,也就需要依靠 “ 理性主义” 方法来补全。 而这种融合也正是当前 自然语言处理发展的必然趋势。 , . , . ,自 然语言理解系统的发展阶段 自 然语言理解系统的发展可以 分为第一代系统和第二代系统两个阶段。第一 代系统则开始引进语义甚至语用和语境的因素,几乎完全抛开了统计技术;第二 代系统建立在对词类和词序分析的基础之上;分析中经常使用统计方法。 第一代自 然语言理解系统又可分为四种类型: . 特殊格式系统: 早期的自 然语言理解系统大多数是特殊格式系统, 根据人机对话内容的特点, 采用特殊的格式来进行人机对话。 . 以文本为基础的系统 某些研究者不满意特殊格式系统中的种种格式限制,从而出 现了以文本为基 础的系统。 . 有限逻辑系统 有限逻辑系统进一步改进了以文本为基础的系统。在这种系统中,自 然语言 的句子以 某种更加形式化的记号来替代,这些记号自 成一个有限逻辑系统,可以 进行某些推理。 . 一般演绎系统 一般演绎系统使用某些标准数学符号( 如谓词演算符号) 来表达信息。 1 9 7 0 年以 来, 出现了一定数量的 第二代自 然语言理解系统, 这些系统绝大多 数是程序演绎系统,大量地进行语义、语境以至语用的分析。其中比较有名的系 统是l u n a r 系统、s h r d l u系统、ma r g i e系统、s a m系统、p a m系统。 1 . 1 . 2国内的发展状况 我国自 然语言理解的研究起步较晚,较之国外晚了1 7 年。国外早在1 9 6 3 年 就建成了早期的自 然语言理解系统, 而我国直到 1 9 8 0 年才建成了两个汉语自 然语 一 3 一 东北大学硕士学位论文 第 1 章前言 种统一的记号,其标注内容包括每个词的词性、语义项、短语结构、句型和句与 句之间的上下文关系等等。 随着标注程度的加深, 语料库将逐渐成为一个分布的、 统计意义上的知识源。 利用这个知识源我们可以进行许多语言学相关的分析工作, 如根据从标注语料中训练得到统计模型可用于新文本的分词、词性标注以及划分 句子成分等。 语料库提供的知识是不确定的,因此需要不断扩大其规模,以尽量覆盖所有 的语言现象。但是对于语言中基本的确定性的规则仍使用统计的方法进行判断, 这与人们的常识是相违背。这种 “ 经验主义”方法研究中的不足,也就需要依靠 “ 理性主义” 方法来补全。 而这种融合也正是当前 自然语言处理发展的必然趋势。 , . , . ,自 然语言理解系统的发展阶段 自 然语言理解系统的发展可以 分为第一代系统和第二代系统两个阶段。第一 代系统则开始引进语义甚至语用和语境的因素,几乎完全抛开了统计技术;第二 代系统建立在对词类和词序分析的基础之上;分析中经常使用统计方法。 第一代自 然语言理解系统又可分为四种类型: . 特殊格式系统: 早期的自 然语言理解系统大多数是特殊格式系统, 根据人机对话内容的特点, 采用特殊的格式来进行人机对话。 . 以文本为基础的系统 某些研究者不满意特殊格式系统中的种种格式限制,从而出 现了以文本为基 础的系统。 . 有限逻辑系统 有限逻辑系统进一步改进了以文本为基础的系统。在这种系统中,自 然语言 的句子以 某种更加形式化的记号来替代,这些记号自 成一个有限逻辑系统,可以 进行某些推理。 . 一般演绎系统 一般演绎系统使用某些标准数学符号( 如谓词演算符号) 来表达信息。 1 9 7 0 年以 来, 出现了一定数量的 第二代自 然语言理解系统, 这些系统绝大多 数是程序演绎系统,大量地进行语义、语境以至语用的分析。其中比较有名的系 统是l u n a r 系统、s h r d l u系统、ma r g i e系统、s a m系统、p a m系统。 1 . 1 . 2国内的发展状况 我国自 然语言理解的研究起步较晚,较之国外晚了1 7 年。国外早在1 9 6 3 年 就建成了早期的自 然语言理解系统, 而我国直到 1 9 8 0 年才建成了两个汉语自 然语 一 3 一 东北大学硕士学位论文第 i 章前言 言理解模型。 八十年代中期,在国际新一代计算机激烈竟争的影响下,自 然语言理解的研 究在国内开始得到更多的重视, “ 自 然语言理解和人机接口” 列入了新一代计算机 的研制规划,研究单位和队伍也在逐渐的增多和壮大。 初期的研究工作主要以引入国外计算语言学领域的理论方法为主。在介绍国 外较之国内先行许多的理论和方法的同时,有不少人结合汉语自 身的特点,对这 些理论和方法做了更深入的探索。 从抽取语言知识的角度看,众多的语法理论大致可以分为两类:一类侧重从 语言事实中发现范畴, 建立规则。 像美国的描写语言学理论 ( 结构主义语法) 、 法 国特尼埃尔的依存语法 ( 配价语法) 、 菲尔摩的格语法、 韩礼德代表的系统功能语 法、 l a n g a c k e r 倡导的 认知语法等: 另一 类侧重如何 将已 发现的 语言知识 用一定的 形式化方式加以描述。自 乔姆斯基5 0 年代末提出转换生成语法以来,到8 0 年代 蓬勃发展、 蔚为大观的一系列与形式语法密切相关的语法理论,诸如扩充转移网 络( a t n ) 、支配约束理论( g b ) 、 功能合一语法 u g ) 、词汇功能 语法( l f g ) 、定子 句语法( d c g ) 、中心词驱动的短语结构语法( h p s g ) 、 广义短语结构语法( g p s g ) , 范畴语法( c g ) ,链接语法( l g ) 等等, 都属于这一类。 国内5 0 年代末就已开始的机器翻译的星星之火, 到了8 0 年代初期再度燃起, 成为当时自 然语言处理研究领域的主要风景。代表性的 研究工作基本收录在陆续 出版的3 卷 语言和计算机论文集中。 而对国 外相关领域的介绍,理论内 容相 对较少,主要偏重在各种机器方法实现的系统方面。 将国外的语法理论方法全面系统的汉化是自8 0 年代中后期开始的。 随着 中 文信息学报在8 6 年底的创刊,国内该领域的研究者有了一块稳固的研讨阵地。 介绍国外各种语法理论的文章成为国内研究汉语信息处理的重要参考。而语言学 界 国外语言学和 语言文字应用两份杂志也一直给予支持。 9 0 年代初国内有三本引论性质的介绍计算语言学的专著问 世。 钱锋、 陆致极、 刘开瑛等学者将有关自 然语言处理这一领域研究的基本理论方法加以总结形成系 统,基本上反映了国外一个时期内的基础研究面貌。 此后到9 0 年代中后期, 国内又陆续有这类系统地研究介绍计算语言学的专著 出版,其中冯志伟、姚天顺等学者的著作堪称代表。跟之前的著述相比,此时的 著作一方面补充了有关国外更新的研究状况的内容,另一方面也涉及了一些国内 学者所做的系统研究和理论探索。相对于具体语法理论的介绍而言, 对自 然语言 理解做深层次的思考,在国内就显得非常冷清。 值得一提的是,国外在对多种形式语法理论进行广泛实验之后,效果似乎并 没有理论提出之初那般的轰动。自 然语言处理的困境仍未得到实质上的改善。这 些理论多数属于我们上文所说的第二类,是侧重对语言知识加以形式化描述的。 一 a 一 东北大学硕士学位论文第 i 章前言 而对自 然语言知识本身的发掘则很有限。尽管表达方法先进了, 所表达的内容却 并不一定就会跟着有实质上的提高。这也就是这些语法理论难以从根本上解决自 然语言处理问题的症结所在。 在实践研究方面,由于汉语书面语分句按词连写的习惯,词与词之间没有间 隔。这样,计算机面对的汉语整句输入,要像人一样对句子进行处理,就必需把 这一串字符切成合乎语感词串。 这几乎是我们进行其它所有跟自 然语言处理相关 的应用开发,诸如机器翻译、人机对话等的前提。在分词问题上,尽管我们的许 多计算机自 动分词应用系统都宣称达到9 0 %以上的正确率, 但由于一方面在理论 上没有最终解决汉语词这个语言单位的性质问题,另一方面也是更重要的方面是 汉语词本身的特点造成困难, 国家虽然已经出台了分词规范(t信息处理用现代汉 语分词规范” , 中国国家标准g b 1 3 7 1 5 ) , 但在实践中仍有相当多的分词歧义问题、 未定义词问题等困扰着研究人员。 不管怎样说,汉语分词软件目 前也算基本上达到实用要求。分词结果基本能 够满足作为后续处理的输入要求。 相比之下,比分词更进一步的,同时也是自 然 语言处理核心部分的句法分析,情况则更不尽人意。就汉语的特点而言,句法分 析的很大一部分工作实际上可以看作就是短语结构分析。当汉语信息处理迈入句 处理,即短语结构分析阶段时,碰到的是比字处理和词处理阶段更多而且更大的 困难。以语言信息处理中最引人注目 的机器翻译领域为例,吴蔚天等在设计汉外 机器翻译系统s i n o t r a n s 时提出的汉语完全语法树模型,即是在尝试建立适合计 算机使用的汉语句法分析模型方面所做的努力。 虽在一定程度上推动了 计算机分 析汉语句法结构水平的发展, 但在直接发掘汉语语言知识方面,即揭示汉语的语 言成分组合规律方面并没有太多进展。 1 . 2 本文研究背景与意义 自 然语言理解技术大致可分为机器翻译、 语义理解及人机会话技术几个方面。 其中在语义理解的整个过程中,智能分词技术是最初的、最基本的环节,它将组 成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当 地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析 的质量和速度的重要前提。 分词,即汉语分词一直是智能信息处理和自 然语言理解中的难点,词是一个 动态的概念,每天都可能有新词出现,或者是原有的词被赋予新的用法,并且在 信息高度发展的情况下,外来词的涌入以及网络名词、商标等基于汉语自身的灵 活性和自由性所出现的新词,使得词在不断的变化和扩展。面对这样的日新月异 的词,分词技术面临了巨大的挑战。分词技术是当前智能信息处理和自 然语言理 一 5 - 东北大学硕士学位论文第 i 章前言 而对自 然语言知识本身的发掘则很有限。尽管表达方法先进了, 所表达的内容却 并不一定就会跟着有实质上的提高。这也就是这些语法理论难以从根本上解决自 然语言处理问题的症结所在。 在实践研究方面,由于汉语书面语分句按词连写的习惯,词与词之间没有间 隔。这样,计算机面对的汉语整句输入,要像人一样对句子进行处理,就必需把 这一串字符切成合乎语感词串。 这几乎是我们进行其它所有跟自 然语言处理相关 的应用开发,诸如机器翻译、人机对话等的前提。在分词问题上,尽管我们的许 多计算机自 动分词应用系统都宣称达到9 0 %以上的正确率, 但由于一方面在理论 上没有最终解决汉语词这个语言单位的性质问题,另一方面也是更重要的方面是 汉语词本身的特点造成困难, 国家虽然已经出台了分词规范(t信息处理用现代汉 语分词规范” , 中国国家标准g b 1 3 7 1 5 ) , 但在实践中仍有相当多的分词歧义问题、 未定义词问题等困扰着研究人员。 不管怎样说,汉语分词软件目 前也算基本上达到实用要求。分词结果基本能 够满足作为后续处理的输入要求。 相比之下,比分词更进一步的,同时也是自 然 语言处理核心部分的句法分析,情况则更不尽人意。就汉语的特点而言,句法分 析的很大一部分工作实际上可以看作就是短语结构分析。当汉语信息处理迈入句 处理,即短语结构分析阶段时,碰到的是比字处理和词处理阶段更多而且更大的 困难。以语言信息处理中最引人注目 的机器翻译领域为例,吴蔚天等在设计汉外 机器翻译系统s i n o t r a n s 时提出的汉语完全语法树模型,即是在尝试建立适合计 算机使用的汉语句法分析模型方面所做的努力。 虽在一定程度上推动了 计算机分 析汉语句法结构水平的发展, 但在直接发掘汉语语言知识方面,即揭示汉语的语 言成分组合规律方面并没有太多进展。 1 . 2 本文研究背景与意义 自 然语言理解技术大致可分为机器翻译、 语义理解及人机会话技术几个方面。 其中在语义理解的整个过程中,智能分词技术是最初的、最基本的环节,它将组 成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当 地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析 的质量和速度的重要前提。 分词,即汉语分词一直是智能信息处理和自 然语言理解中的难点,词是一个 动态的概念,每天都可能有新词出现,或者是原有的词被赋予新的用法,并且在 信息高度发展的情况下,外来词的涌入以及网络名词、商标等基于汉语自身的灵 活性和自由性所出现的新词,使得词在不断的变化和扩展。面对这样的日新月异 的词,分词技术面临了巨大的挑战。分词技术是当前智能信息处理和自 然语言理 一 5 - 东北大学硕士学位论文第 1 章前言 解必经的重要阶段,也为后续工作的开展和深入做好扎实的准备。近年来,国内 相关领域的人士一直都在这些方面努力的 研究和探索, 目 的就是为了 找到更准确, 更可靠,也更有实用价值的方法,更好的完成序列标记的任务,其中包括自 动分 词,词性标注,组块识别,专名识别等等。 本文就是要通过对条件随机场的研究和应用来说明该方法在序列标记任务上 所体现出来的特点及其良 好的性能,并为后续的工作指出一个可靠的方向。 , 二 3 本文研究工作概述 以往的基于统计的方法,在某些方面存在着一定的局限性,以及标记序列任 务本身的一些难点,使得序列标记的精度总是没有显著的提高。本文使用近年来 提出的,已被应用到一些序列标记的任务中,并表现出良 好的性能的这样一个方 法, 该方法克服了以 往一些统计方法的缺点和限制 条件随机场, 将在本文第 三章中详细的描述和探讨。然后通过标记序列任务中的自 动分词任务作为验证实 验,并将其与h mm的方法进行比较和分析。 1 . 4 论文的组织结构 本论文总共分为5 章: 第一章 前言, 1 . 1 节介绍了自 然语言理解的概况; 1 .2 节介绍了课题的背景及 意义;1 .3 节介绍了本文主要研究工作。1 .4 节介绍了本文的组织结构。 第二章 主要介绍了分词技术的概况; 2 . 1 节主要介绍了自 动分词的意义; 2 .2 节介绍了自动分词算法的分类; 2 .5 节介绍了分词技术的难点: 最后一节作了小结。 第三章 主要介绍了c r f s , 3 . 1 节介绍了有向图模型,以及h mm和me mm 模型及其特点;3 . 2 节介绍了无向图模型:3 . 3 节介绍了c r f s 的定义和图结构, 3 .4 节介绍了最大嫡规则,3 .5 节介绍了c r f s 的潜在函数,3 . 6 节介绍了c r f s 的 参数估计方法一迭代缩放;3 .7 节介绍了c r f s 的训练;最后一节作了小结。 第四章 主要介绍了基于c r f s 的自 动分词技术, 4 . 1 介绍了实验所使 用的 工 具包; 4 .2 介绍了语料的选取; 4 . 3 介绍了c r f s 的特征选取; 4 .4 节给出了实验的 评测标准;4 . 5 节介绍了整个实验的设计。4 . 6 节主要给出的实验结果,并对其进 行分析。最后一节作了小结。 第五章 结束语,对全文总结,并提出未来的工作。 一 6 一 东北大学硕士学位论文第 1 章前言 解必经的重要阶段,也为后续工作的开展和深入做好扎实的准备。近年来,国内 相关领域的人士一直都在这些方面努力的 研究和探索, 目 的就是为了 找到更准确, 更可靠,也更有实用价值的方法,更好的完成序列标记的任务,其中包括自 动分 词,词性标注,组块识别,专名识别等等。 本文就是要通过对条件随机场的研究和应用来说明该方法在序列标记任务上 所体现出来的特点及其良 好的性能,并为后续的工作指出一个可靠的方向。 , 二 3 本文研究工作概述 以往的基于统计的方法,在某些方面存在着一定的局限性,以及标记序列任 务本身的一些难点,使得序列标记的精度总是没有显著的提高。本文使用近年来 提出的,已被应用到一些序列标记的任务中,并表现出良 好的性能的这样一个方 法, 该方法克服了以 往一些统计方法的缺点和限制 条件随机场, 将在本文第 三章中详细的描述和探讨。然后通过标记序列任务中的自 动分词任务作为验证实 验,并将其与h mm的方法进行比较和分析。 1 . 4 论文的组织结构 本论文总共分为5 章: 第一章 前言, 1 . 1 节介绍了自 然语言理解的概况; 1 .2 节介绍了课题的背景及 意义;1 .3 节介绍了本文主要研究工作。1 .4 节介绍了本文的组织结构。 第二章 主要介绍了分词技术的概况; 2 . 1 节主要介绍了自 动分词的意义; 2 .2 节介绍了自动分词算法的分类; 2 .5 节介绍了分词技术的难点: 最后一节作了小结。 第三章 主要介绍了c r f s , 3 . 1 节介绍了有向图模型,以及h mm和me mm 模型及其特点;3 . 2 节介绍了无向图模型:3 . 3 节介绍了c r f s 的定义和图结构, 3 .4 节介绍了最大嫡规则,3 .5 节介绍了c r f s 的潜在函数,3 . 6 节介绍了c r f s 的 参数估计方法一迭代缩放;3 .7 节介绍了c r f

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论