(计算机应用技术专业论文)基于统计的开放式汉语自动分词.pdf_第1页
(计算机应用技术专业论文)基于统计的开放式汉语自动分词.pdf_第2页
(计算机应用技术专业论文)基于统计的开放式汉语自动分词.pdf_第3页
(计算机应用技术专业论文)基于统计的开放式汉语自动分词.pdf_第4页
(计算机应用技术专业论文)基于统计的开放式汉语自动分词.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 汉语自动分词是中文信息处理中的重要环节。基于统计的汉语自动 分词方法存在训练数据稀疏的问题,而人工标注工作量过大又制约着 语料库规模的进一步扩大。 本文在基于统计的汉语自动分词的基础上,引入开放学习机制,通 过有监督和无监督相结合的学习方法,建立包含可信度修正和部分三 元语法信息的多元分词模型。然后讨论了切分算法和人机交互等几个 实现中的具体问题。通过实验确定模型参数和阈值。实验结果表明, 引入开放学习机制的分词模型,闭式分词正确率达到9 9 0 7 和开式分 词正确率达到9 8 0 8 ,同时增强了分词系统的适应性和消歧能力。 关键词自然语言处理:汉语分词;语料库;语法模型;开放学习 a b s t r a c t t h ec h i f l e s ea u t o m a t i ow o r ds e g m e n t a t i o ni sa ni m p o r t a n tp a r t i nt h ec h i n e s ei n f o r m a t i o l l p r o c e s s i n g t h em e t h o d b a s e do n s t a t i s t i c sh a st h ep r o b l e mo ft r a i n i n gd a t a sr a r e f a e t i o n a n d w h a tr e s t r i c t st h em o r ep r o g r e s so fc o r p u si st h et o o l a r g e w o r k l p a d0 2m a n u a lt a g g l n g r e f e rt oc h i n e s ea u t o m a t i cw o r ds e g m e n t a t i o nb a s e do n s t a t i s t i c s ,t h i sp a p e ri m p o r t st h em e c h a n i s mo fo p e nl e a r n i n g , a n du s e st h em e t h o do fs u p e r v i s e da n du i l s u p e r v i s e dl e a r n i n g t h e w o r d s e g m e n t a t i o n m o d e li n c l u d e s c r e d i b i i t yr e v i s i n g a n d p a r t i a lt r i g r a mi n f o r m a t i o n t h e ni td i s c u s s e ss e v e r a lp r o b l e m s s u c ha s s e g m e n t a t i o na l g o r i t h ma n dh u m a n c o m p u t e r i n t e r f a c e d u r i n gs y s t e mi m p l e m e n t i n g t h ea r g u m e n t sa n dt h r e s h o l d so ft h e m o d e la r ed e t e r m i n e dt h r o u g ht h ee x p e r i m e n t s t h et e s tr e s u l t s h o w st h a t ,w i t ht h eo p e nl e a r n i n gm o d e l ,t h ec l o s es e g m e n t a t i o n a c c u r a c yc a nr e a c h9 9 0 7 w h il et h eo p e no n e9 8 0 8 ,a n dt h e r e i sag o o da d a p t a b i l i t ya n dd i s a m b i g u a t i o na b i l i t yo ft h es y s t e m k e yw o r d s n a t u r al l a n g u a g e o o r p u s :g r a m m a rm o d ei :o p e n p r o c e s s i n g :e h i n e s es e g m e n t a l i o n l e a r n in g 基于统计的开放式汉语自动分词 0 引言 0 1 问题的提出 自然语言处理是当前计算机领域的一个研究热点。语言作为交 流工具,在人类活动中有着举足轻重的作用,因此,人们在大量应 用计算机来替代自己的工作的同时,也期待计算机在自然语言的处 理上能接近甚至达到人的水平。自然语言处理( n l p ) 的目标是使 计算机在各种各样的自然语言交流中成为流利的对象。显然,如果 没有足够深刻的领域知识。计算机不可能满足人类的要求。自然语 言处理作为人工智能的一个分支,在自然语言人机接口、机器翻译、 文摘生成等等方面有很多的工作都正在进行。1 1 1 汉语自动分词是中文信息处理中的重要环节。汉语是以字而不 是词作为语言的基本构造单位,尤其是在书面汉语中,词与词之间 完全缺乏形态上的晃限。汉语自动分词在中文信息处理的以下方面 都有很重要的意义:1 同音字的据音辨字;2 多音字的据字辨音:3 汉字的简一繁体转换;4 信息检索和信息摘录;5 文本分类和自动文 摘:6 汉字的侦错与纠错:7 词语的计詹分析:8 自然语言理解。【2 1 自然语言理解是语言处理的最终目标,而汉语分词处于词法、句法、 语义等语言层次的最低层,是中文信息处理中是基本也是很重要的 基础环节。汉语口语中的音节变化,对词的界定有一定的帮助,但 由于涉及语音处理等问题,我们暂不做研究。本文讨论的汉语自动 分词问题仅指书面汉语领域的研究。 0 2 汉语自动分词的发展 自8 0 年代初提出汉语自动分词以来,在语言学家和计算机学家 的共同努力下,在书面汉语的自动分词方面已经取得了缀大进展, 并且已经有些很有实用价值的自动分词系统出现。汉语自动分词 方面的工作主要有词的判定、分词算法、知识获取和系统实现等诸 多内容。 词的判定方面,主要研究分词规范的制定、词典的构造以及构 词规则等方面的内容。分词标准也就是是汉语中词与语素以及词与 词组之间的界定问题,这其实是汉语研究的一个基本问题。因此需 要语言学家和计算机学家共同完成。 分词算法的研究比较多,到目前为止,有最大匹配法、最小匹 基于统计的开放式汉语自动分词 配法、反向最大匹配法、双向最大匹配法、设立切分标志法、最佳 匹配法、机械分词加歧义校正法、神经元网络方法、最长次长匹配 法等等。其中,占主流地位的是最大匹配法,很多方法都是其变形 或改进。根据分词系统的策略,以上的分词方法大概分为三类:基 于词典和规则的方法,基于统计的方法以及基于统计和规则相结合 的方法。无论采用哪种方法,其目标都要包括关键问题切分歧 义的发现和校正。 切分歧义的校正机制是我们在分词系统中十分关心的问题。最 常用的最大匹配法是没有发现和校正切分歧义的能力的,单纯的扫 描方向的改变也不会有实质性的改进,而将不同扫描方式的最大匹 配法结合起来,可以发现部分歧义。另外,清华大学孙茂松等人利 用高频最大交集型歧义切分字段来解决汉语歧义切分问题【3 j ,清华大 学黄昌宁等人利用汉字二元语法关系解决汉语自动分词中的交集型 歧义【4 j ,山西大学郑家恒等对包孕型歧义字段的切分进行了研究 5 1 , 上述方法对汉语分词中的歧义切分作了很好的研究,取得了一定的 效果。 另外,也有很多研究将多种方法结合起来使用。比如哈尔滨工 业大学付国宏等人的汉语分词和词性标注一体化的方法1 6 j ,中国科学 院黄河燕等人的人机互动的多策略机器翻译系统【7 】,哈尔滨工业大学 赵铁军等人的提高汉语自动分词精度的多步处理策略【8 】等等。 上述研究都对汉语自动分词的发展做出了贡献,但是自动分词 系统要达到实用的程度,仍有很多问题需要解决。 0 3 目前存在的问题 自动分词研究这么多年,虽然在研究工作方面取得了很大的成 绩,但在实用性方面还是有着很大的局限性。这是因为语言是一个 开放集,它的词条始终是处于不断的增长中,所以很难有一个完善 的词典来描述它,可能这个词在今天不是词,在将来就被认定为一 个词了。这就告诉我们,词典的完备性始终是我们必须考虑的一个 问题。同时,如果想解决好汉语自动分词这个问题,我们又不能局 限于此,不能因为这个问题而导致我们后续的工作无法进行。由于 汉语言的特殊性( 即词语都是连写表达的,这一点与英语有着明显 的区别) ,汉语分词的歧义切分问题是严重影响了汉语分词的精度。 比如说有这样的句子,“他马上来上海”,“他从马上下来”这两句 话,同样一个词语“马上”在第一句中是作为一个词出现的,而在 第二句中是作为两个词出现,所以这就给我们的机器翻译,语言理 解造成了困难,即我们需要通过判断上下文才能断定汉语句子的确 切分词。 基于统计的开放式汉语自动分词 目前的汉语自动分词系统存在以下主要问题 ( 1 ) 词典的不一致性和不完备性。在汉语中,词对下同语素之间、对 上同短语( 即词组) 之间往往没有清晰的界限。比如,应用汉语 词典中,“养”得第四个义项为“ 动 培养”,那么“养”到 底是不是词,专家们也没有定论。汉语分词领域迄今还拿不出 一个公认的、具有权威性的词表来。 2 1 ( 2 ) 分词的层次位置不够明确。一般认为,分词是汉语语言的第一 步,其后才是词义、句义、语义等分析层次。但是考虑一下人 处理语言的情况,人在阅读时候并没有严格的层次划分,很多 时候都是理解和分词同步进行。比如,“发展中国家在进步”, 人在大概明白句子的意思后,才能得出分词结果“发展中国家 在进步”,依此进行断句。因此,分词和分析孰先孰后,是一 个矛盾的问题。 ( 3 ) 歧义切分的校正机制不能令人满意。1 最初的歧义切分大都是 规则的形式。由于歧义切分出现的难以预期,要将歧义规则构 造完全和准确是十分困难的。因此,近年来,基于统计或二者 结合的方法已逐渐发展起来。 ( 4 ) 未登录词识别的问题。由于汉语同其他自然语言一样,词汇是 一个开放集合。对于人名、地名、简称、外来语等未登录词条 无法完全地表示出来。事实上,未登录词造成的分词错误远远 超过歧义字段带来的切分错误。因此,这类问题也己成为自动 分词研究的热点之一。 在以上问题中,第一个是标准问题,需要语言专家和计算机专 家来共同努力完成。第二个问题说明,希望计算机像人一样理解自 然语言是不可能的,自动分词只能在现有条件下去寻求比较好的结 果。第三、第四个问题是目前众多研究的焦点,专家们努力通过歧 义切分校正机制的研究和未登录词识别的研究,来提高汉语自动分 词的精度。 0 4 本文主要工作 汉语自动分词在面向真实文本时,遇到语言现象过于庞杂、汉 语开放性等问题。针对歧义切分校正机制中适应能力相对较弱的问 题,本文在以下方面做了初步探讨: 分析了目前基于规则和基于统计两大类汉语自动分词方法。 总结了影响分词系统性能的几个主要因素,这些因素也是建 基于统计的开放式汉语自动分词 立分词系统必须解决的几个主要问题。 区别于传统的封闭语料库,致力于开放性语料库的建设,并 建立了具有开放特性的多元分词模型。主要包括可信度修 正、部分三元语法模型以及一些开放式分词的辅助方法等等 内容。 在分词系统的学习手段上,采用了监督和非监督学习相结合 的学习方法,通过实验中比较句子可信度与切分正确率的关 系,确定了监督学习和非监督学习之间的闽值。 本文实现了以上述几个问题为主要内容的汉语自动分词实验系 统,验证了分词模型和学习方法的可行性。然后,从人民日报电子 版中随机选取了近2 0 万词的汉语语料,进行模型参数的确定和性能 测试。实验结果表明,开放式分词模型的建立增强了分词系统的适 应能力,有效地提高了汉语自动分词的切分精度。 基于统计的开放式汉语自动分词 1 汉语自动分词的基本模型 1 1 分词的形式模型 首先,我们给出几个汉语分词中用到的定义: ( 1 ) 一个汉字是一个符号。设全体汉字组成的集合为; ( 2 ) 对于确定正整数n ,且a a 2 , ,将按顺序构成的符号串 w = a j a “a n ,称矽为上的一个汉字串; ( 3 ) d 是一个已知的确定的矿的有限集,对于任意元素w e d ,w 都是汉语中的一个词,称d 为词典; ( 4 ) 对于任意m _ r ,w z ,e d ,将按顺序构成的符号串 成为d 上的一个词串。 根据以上定义,汉语自动分词就是在词典d 指导下,由一个普 通的汉字串回印嘞到词串赐纾名的归约问题。 对于句子s = 口j 啦锄若存在两个或两个以上不同的归约式,即 s = 词串是不唯一的,则称s 存在关于词典d 的歧义归约。 下面以一个例子来说明分词的归约过程。 假设有z = a i ,a 2 , a j 口# ) ,伊 ,p 2 , 阮既既觋) ,其中: = a l a 2 a s w 2 = a 2 a j a 4 w s = a l a 2 w 4 = a 3 a l w :a l w 6 = a 2 可以用一个状态图来表示词典d : 图1 词典的状态图 f i g u r e 1s t a t ed i a g r a mo ft h ed i c t i o n a r y 5 兰王竺盐塑茎整苎望堕鱼垫坌塑 设s = d j 口2 a 3 a 4 ,以最大匹配法为例演示一次归约的过程。从 岛开始沿n ? 一a 7 a 3 匹配得到,s = a 4 :由于不存在路径a 4 , 只有从回溯到,s = w 3a ja 4 ;此时,a 3 一a 4 路径不存在,继 续由回溯到,s = 嘶;现在,可以沿路径c 1 2 一田一a 4 匹配得到,故最后的归约式为s = w e ,归约结束。整个过程 如图2 所示 图2 最大匹配法归约过程 f i g u r e2 r e d u c t i o np r o c e s so f m a xm a t c hm e t h o d 带回溯的最大匹配法,每次遇到归约死结时只进行一步回溯。 可以看出,这种方法的归约结果是唯一的。实际上,由于汉语本身 的特点,汉语切分是存在歧义的。 1 2 分词中歧义问题的描述 分词中歧义问题的形式化描述9 1 如下: 若对汉字串s 存在归约式& 和& ,其中8 1 = ,s 2 ,我们称归约式毋覆盖s e ,汉字串s 存在包孕型歧义; 若对汉字串s 存在归约式研和& ,其中函2 : = 睨,睨,彬,对于任意的1 i m ,1 j 月,等式 i :卜1 :i 当且仅当净m ,产行时成立。此时我们 称研与存在交叉现象,汉字串s 存在交集型歧义。 对于s 的两个归约式岛与& ,若s ,则或者存在包孕型歧 义,或者存在交集型歧义,或者两种歧义同时存在。从形式上看, 不存在其他类型的歧义现象。歧义现象举例如下: “他马上就回来”中,“马上”覆盖“马,上”,属包孕型歧义; “他将来北京”中,“将来”覆盖“将来”,属包孕型歧义; 6 茎王竺生塑茎垫苎坚堡旦垫坌塑 “出现在我国”中,“出现在”交叉“出,现在”,属交集型歧义: “在世界范围”中,“在世界”交叉“在世界”,属交集型歧义。 可见,所谓包孕型歧义就是指“错误”切分包含了“正确”切 分;所谓交集型歧义就是指“错误”切分与“正确”切分有交叉字 段存在。存在歧义的汉字串,即我们常说的歧义字段,是我4 1 的主 要研究对象。 由于汉语本身的特点,对汉语的切分时存在歧义的。当切分算 法得到多种结果后,必须进行判定,判定的依据就是评价。所谓切 分的评价,就是从语言的各个侧面对切分出来的字串或句子给出其 合理性程度的评价值。 1 3 基于规则的分词方法 汉语自动分词方法大致可以分为三类:基于词典和规则的方法, 基于统计的方法以及基于统计和规则相结合的方法。基于词典和规 则的方法以词条匹配为基础,以经验建立的规则库为标准,完成歧 义消除和切分结果的确定。 最长次长匹配法【io j 采用的就是基于规则的分词方法,将可能出 现的歧义字段收集起来,形成一个交集型歧义字段库,根据所建立 的歧义字段库信息来处理切分歧义。在消除交集型歧义字段时,遵 循如下优先顺序: ( 1 ) 个性规则处理。与句法分析阶段复杂的规则系统相比,分 词阶段的个性规则比较简单。对于用语法搭配规则( 也称共性规 则) 无法解决的歧义字段词,根据其左右特定的单词分布情况, 建立相应的歧义消除规则。进行歧义处理时,先扫描个性规则库, 如果歧义字段的相邻单词满足其个性规则中的条件,则按规则所 标记的路径进行切分。如果个性规则库中没有满足条件的规则, 则转下述语法搭配规则。 ( 2 ) 词法搭配规则。主要有:动词+ 名词( v + n 型) 、形容词+ 名 词( a + n 型) 、动词+ 代词( v + t 型) 、动词+ 量词( v + q 型) 、介词+ 名词 ( 口+ n 型) 。如“一只白天鹅”中的“白天鹅”,有2 种切分:“白 天鹅”和“白天鹅”,其中,“白天鹅”为“a + n ”类型,而“白 天鹅”不属于上述搭配规则,因此选择路径“白天鹅”。 ( 3 ) 选择最长匹配。若上述2 条规则均无法消除切分歧义,则 选择最长词。 组合型歧义字段的处理需要利用语义知识和上下文信息,两个 简单的语法语义知识如下: ( 1 ) 数词+ 量词组合优先,解决了类似“一个人”的组合歧义。 苎王竺生塑茎整茎堡至旦垫坌塑 ( 2 ) 介词+ 名词组合优先,解决了类似“把手举起来”的组合歧义。 基于规则的方法遇到了很多困难,主要原因是语言现象过于庞 杂,存在许多特殊的语言现象,现有的方法理论和语言规则无法有 效地表达所有语言现象,从而严重影响了这些系统对开放语料的适 应性。1 7 j 而且,我们最终的目的是面向大规模真实文本的自然语言处 理,规则方法适应性方面的缺陷更加凸现出来。 1 4 基于统计的分词方法 基于统计的方法的核心是通过某种途径得到能够反映语言特征 的统计数据,并以此作为切分的评价。一般的基于统计的分词模型 的评价函数,都是根据贝叶斯公式,同时结合系统本身的资源限制, 经过一定的简化近似得来的。 设岛,昆是s 的所有可能切分,我们分词的目的就是在 研,昆,中找到一个 ,使得s 满足: p 慨l s ) = m a x p 慨p l p 姆:p l ,p 岱。 s ) 即寻找估计概率值最大的词串。根据贝叶斯公式,有: 尸( s1:塑2竺竖2iis 。 尸博j 对于s 的多种切分方案,e ( s j 是一常数,而p ( sfs ) 是在给定 词串的条件下出现字串的概率,故p ( s j 西) = 1 。所以,我们用p ( s ) 来代替尸( s f s ) 。 最直接的估计p ( s ) 的方法是利用词的n - g r a m p 。在处理一个词 串时计算第,个词的边界,往往要考虑前,1 个词的出现情况。如 果认为第,个词的出现只与紧接着的第,个词的前面的很少的n - 1 个( n = 1 ) 个词有关,则问题就大大简化了。这样的模型称为n 元语 法( n - g r a m ) 模型,实际上时一个马尔可夫过程。常用的有一元语法 ( u n i - g r a m ) ( n = 1 ) 模型、二元语法( b i - g r a m ) ( n = 2 ) 模型和三 元语法( t r i - g r a m ) ( n = 3 ) 模型。 这样,每一个词出现的概率不再与前面的全部历史有关,而只 与前面n 一1 个最近的词有关,句子的概率改为: 尸 ) = n 尸眈陟。,。一。) - 1 由于n - g r a m 的统计数据量是指数增长的,考虑到汉语的特点以 及现有的硬件资源,目前,普遍采用基于2 元语法模型,最高有基于 三元语法模型 1 】的分词。 8 基于统计的开放式汉语自动分词 基于统计的分词方法存在的一个问题是缺乏对语言内部的深入 理解,导致正确率受到极大的限制。另一个问题是模型要求大规模 语料库和人工标注工作量过大的矛盾。解决第一个问题的方法是引 入部分规则机制来弥补对语言理解的不足,也就是规则和统计相结 合的汉语自动分词;解决第二个问题可通过引入开放学习机制,不 断修正统计数据,弥补语料统计数据的局限性,这种方法就是本文 的主要内容。 1 5 影晌分词系统的几个主要因素 对于汉语自动分词系统,影响系统分词效果的因素有很多。目 前来看,主要的因素包括词典的完备性、切分盲点的避免、分词知 识的组织、学习机制等等。 词典的完备性是针对语料面言,完备性词典保证对切分范围内 所有的语料都可切分;完全性词典是针对词而言,完全性词典包含 所有可能出现的词。显然,构建完备性词典比完全性词典更实际一 些,汉语构词的难预期性决定了完全性词典构造的难度较大。但如 果在专有名词、离合词、外来语等方面做出更多的努力,可以得到 接近于完全性的完备性词典,从而大大减少词典造成的错误切分。 切分算法是汉语分词领域中研究的一个核心也是热点问题。最 大匹配法、最小匹配法等只能产生唯一的切分结果,是存在大量切 分盲点的切分算法;而全切分算法给出一个汉语句子的所有可能的 切分方式,即任何匹配词典中词的字串都被加入到全切分结果集合 当中。在词典确定的情况下,全切分是避免出现切分盲点最好的切 分算法。例如,对于“中国人民”,全切分算法得到的结果为: 中国人民, ,中国人民 中国人民 中国人民 ,中国i 人民, 冲f 圄 人f 民i 而最长匹配法得到的切分结果为确定的“中国人,民”。 汉语自动分词系统至少应包括以下几个方面的知识,即词典知 识、规则知识和管理知识。其中: 词典知识主要指存放在词典中的内容,它包括汉语中的 词、词性及其它特征如单复数和及物性等。词典本身结构方 面的知识。 规则知识它包括两类规则,一类是单纯的字符串匹配规 则,另一类是指利用汉语中词法、句法、语义和语用等方面 基于统计的开放式汉语自动分词 知识进行分词的规则。在基于统计的分词中,各种统计数据 可以归为此类知识。 管理知识主要指系统维护方面的知识,诸如对规则和词 典中内容添加、修改及删除等操作所包括的知识。 汉语自动分词知识的组织对汉语自动分词方法的切分速度、精 度都有一定的影响,并且分词知识的组织形式与系统的维护难易密 切相关。【1 2 自然语言理解本身就与人工智能有密切的关系,因此学习机制 也对分词系统有很重要的影响。由于汉语言的特点,我们还很难做 到完全的机器自主学习,还必须在人工的干预下,进行有导师的学 习。我们应该认识到,即使是从一个较小规模的人工分词语料库中 学习得到的数据也一般会比从大规模语料库中通过非监督学习而获 得的数据要准确。但是,非监督的学习因为其自动化的性质同样具 有很重要的价值。 1 0 基于统计的开放式汉语自动分词 2 语料加工和开放式语料库 2 1 语料库和语料库的建设 自从1 9 5 7 年c h o m s k y 提出了形式语法的理论以后,形式语法 理论为开发计算机语言提供了理论依据和方法,也给计算机的自然 语言处理工作带来了深刻的影响。许多理论研究人员把精力主要放 在寻找描写自然语言的形式化体系,但形式化理论体系的狭隘性和 微弱的处理能力给n l p 造成了严重的困境。 语言处理的目标是让计算机处理大规模真实文本,要想达到这 样的目标,就必须从大量的语言材料中获取知识,也就是要达到取 之于斯,用之于斯的目的。我们称大量有代表性的文本组成的语言 材料为“语料( c o r p u s ) ”。1 9 1 一般来说,为了从语料库中获取语言知识,我们首先要对语料 进行加工,再对加工过的语料进行分析,从中获取所需的知识。然 后可以利用所获得的知识去分析、处理新的语料,如此继续循环往 复,直到系统具有能够有效地处理大规模真实文本的能力。我们把 未曾加工过的语料叫生语料,把加工过的语料叫熟语料。对语料加 工深度不同,所产生的结果级别也不同,所以生语料和数语料是相 对的。例如,对汉语来说,对原始语料分词产生带分词标记的语料; 对分过诃的语料进行词性标注产生带词类标记的语料( t a g g e d c o r p u s ) ;依次,经过句法分析产生树库( t r e eb a n k ) ,经过语义分 析产生框架库或网络库。语料加工的基本流程如图3 所示: 图3 语料库加工流程国 f i g u r e3 f l o w c h a r to f c o r p u s p r o c e s s i n g 对语料进行分析可包括各个层次上的分析,如词的切分、词性 标注、句法分析、语义表达等。而在同一层次上的分析中,每一次 分析的结果都可以反馈回去,经过训练为分析系统提供新的更加准 确的知识来加强系统的分析、处理能力。这样,随着语料的不断增 加,分析系统的处理能力也不断加强,进而逐步达到能够处理大规 1 1 基于统计的开放式汉语自动分词 模真实文本的能力。 9 0 年代,汉语语料库的建设和研究得到了蓬勃的发展。语料库 的规模从百万级发展到千万级和上亿级,语料的加工深度从字一级 发展到词法级、句法级、语义级和篇章级,不同级别的加工技术的 成熟程度各不相同。据了解,到目前为止,国内已经开发的不同加 工深度的现代汉语熟语料库有2 0 余个。仅就北京语言文化大学而言, 近十余年开发的各种语料库就有“现代汉语词频统计语料库”( 1 9 8 5 年) ,“当代北京口语语料库”( 1 9 9 2 年) ,“现代汉语语法研究语料 库”( 1 9 9 5 年) ,“汉语中介语语料库”( 1 9 9 5 年) ,“现代汉语句型语 料库”( 1 9 9 5 年) ,与香港理工大学中文及双语学系联合建设的“现 代汉语语料库”( 1 9 9 8 年) ,与清华大学联合承担国家自然科学基金 重点项目“语料库语言学研究的理论、方法和工具”也建设了“现 代汉语语料库”( 1 9 9 8 年) 。由于计算机硬软件环境的发展和中文文 本的电子版( 包括光盘版和网络版) 越来越普及,语料库的建设和 开发相对而言越来越容易。 与此同时,语料库加工工具也得到了研究,如北京航天航空大 学、清华大学、山西大学、杭州电子工业学院和北京师范大学分别 研制的汉语自动分词系统己于1 9 9 0 年先后通过专家鉴定,分词正确 率均达到9 9 左右,已进一步接近实用化的要求。在汉语词性自动 标注方面,清华大学开发的基于统计方法的汉语词性自动标注系统 在1 9 9 2 年3 月通过专家的鉴定,标注正确率达到了9 6 。 然雨,随着处理级别的提高,利用较大规模的语料来训练处理 系统,其难度和费用也在急剧增长,原因是用人力来加工大量的语 料是一件艰苦细致的工作。因此,利用较4 , jr l 练集支持的处理系统, 加上其他一些策略,来达到处理大规模语料的目的,也成为人们普 遍关心的问题。北京邮电大学王伟等人用小训练集和e m 非监督训 练的自组织分词歧义解决方案【13 j 就是一个很好的例子。对不同的处 理系统来说究竟需要多少训练语料,是值得我们探讨的问题。 计算机网络的出现和迅速发展,以及随之出现的集群计算、分 布式处理等等新技术,为我们提供了另外一条建设大规模语料库的 途径。如何利用庞大的网络资源,分散不稳定的语料如何被语言处 理系统加以应用,都是当前需要解决的问题。 2 _ 2 基于语料库的分词方法 由于基于词典和规则的系统明显存在的缺陷,很多研究开始尝 试用加工大规模的语料库来加工来解决汉语分词中的歧义问题。基 于单词与双词可信度的汉语自动分词【1 4 1 就是典型的基于语料库的汉 语分词方法。分词中主要涉及到词语的单词构词可信度以及双词接 蔓三竺生塑堑整苎鲨堕旦垫竺塑 续可信度,作为统计分词的统计数据。 单词可信度( 单词构词可信度) :对于给定的输入字串,此汉字 串的构词能力可用语料中词频来近似体现,这实际上是一个基于词 频的分词模型。词频来自于大规模真实语料库,统计语料库中每个 单词出现的次数,换算成单词可信度,建成构词库( u n i - g r a m ) 。对于 v w u n i - g r a m ,定义矽的构词可信度为 p 咿) :娶呸4 一 艺l o g ( y 。+ 2 j y e u m g r a m 其中,。为词在语料库中出现的频度。儿。为词y 在语料库 中出现的频度。只考虑单词可信度,句子s 的某一个切分结果& 的 切分( 含有m 词) 的正确可信度为 ( 墨 d :f 疗,帆) = j = 1 双词可信度( 接续可信度) :把一个二元接续关系中的两个词语 叫做一个词语接续对。利用词语二元接续关系的应用系统则需建立 一个词语接续库,实际运行时用接续库检查被处理对象中的词语是 否接续,接续强度如何,从而决定如何确定词语的边界的问题,即 分词问题。这里接续可信度是指接续强度的问题。建立接续库的常 规方法是对大规模真实语料库进行分词,然后收集其中的全部接续 对,并统计同一接续对出现的次数,换算成接续强度,建成接续库 ( b i - g r a m ) 。对于v b i - g r a m ,定义有序对 的双词可 信度为 栩黔) 2 黧端 一i e b i g

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论