(计算机应用技术专业论文)开放式汉语自动分词的学习机制.pdf_第1页
(计算机应用技术专业论文)开放式汉语自动分词的学习机制.pdf_第2页
(计算机应用技术专业论文)开放式汉语自动分词的学习机制.pdf_第3页
(计算机应用技术专业论文)开放式汉语自动分词的学习机制.pdf_第4页
(计算机应用技术专业论文)开放式汉语自动分词的学习机制.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 汉语自动分词是中文信息处理的首要步骤,是自然语言理解、机器翻译、信息抽 取和信息检索的基础。 在基于统计的汉语自动分词基础上建立的开放学习机制,采用阈值确定有监督学习 的范围,并在有监督学习中应用错误驱动方法。包含可信度修正和部分三元语法信息的 多元分词模型,有效解决了统计模型适应性不高及大规模语料库建设中人工代价昂贵 的问题。同时针对基于词的三元模型和最长次长切分算法的特点,采用了相应的策略进 行了改进。通过实验确定模型系数和阂值。 实验结果表明,对于未包括人名、地名、机构名、外来语等未登录词的语料经该分 词模型三次学习后,闭式分词中的切分错误有7 8 4 4 得到纠正,切分正确率达到9 9 4 3 开式分词中的切分错误有6 3 5 6 得到纠正,切分正确率达到9 8 4 6 。在分词正确率提高 的同时降低了人机交互的频度,系统有较好的应用前景。 关键词自动分词;开放式;学习机制:错误驱动 a b s t r a c t t h ea u t o m a t i cc h i n e s ew o r ds e g m e n t a t i o ni st h ef i r s ts i g n i f i c a n ts t e pi n n a t u r a ll a n g u a g ep r o c e s s i n g i te s t a b l i s h st h ef o u n d a t i o nf o rn a t u r a ll a n g u a g e c o m p r e h e n s i o n 、m a c h i n et r a n s l a t i o n 、i n f o r m a t i o ne x t r a c t i o i la n di n f o r m a t i o n r e t r i e v a l f o ri m p r o v i n gt h ea d a p t a b i l i t ya n dc u t t i n gm a n u a lc o s t ,t h i sp a p e rp r e s e n t s t h em e c h a n i s mo fo p e nl e a r n i n gr e f e rt oc h i n e s ea u t o m a t i cw o r ds e g m e n t a t i o n b a s e do ns t a t i s t i c s ,a n du s e st h em e t h o do fs u p e r v i s e dl e a r n i n gb a s e do n e r r o r d r l y i n g t h ew o r ds e g m e n t a t i o nm o d e li n c l u d e sr e l i a b i l i t yr e v i s i n ga n d p a r t i a lt r i - g r a mi n f o r m a t i o n a c c o r d i n gt ot h es p e c i a l i t yo fm a x i m u mm a t c h in g a n ds e c o n d m a x i m u mm a t c h i n ga n dc o m b i n e dm o d l e , u s e sc o r r e s p o n d i n gr u i e st o i m p r o v et b ep e r f o r m a n c e t h ep a r a m e t e r sa n d t h r e s h 0 1 d s0 ft h em o d e la r e d e t e r m i n e dt h r o u g ht h ee x p e r i m e n t s t h et e s tr e s u l ts h o w st h a t w i t h o u tc o n s i d e r i n gu n k n o w nn a m e s 、o r g a n i z a t i o n n a m e s 、p l a c en a m e sa n d1 0 a n w o r d s ,a f t e rl e a r n i n gw i t ht h eo p e nl e a r n i n gm o d e l , t h ee l o s et e s ta c c u r a c yr e a c h s9 9 4 3 w h i1 et h eo p e no n er e a e h s9 8 4 6 ,7 8 4 4 e r r o r si sc o r r e c t e di ne l o s et e s ta n d6 3 5 6 i no p e nt e s t t h es y s t e m s p e r f o r m a n c ei si m p r o v e da n da tt h es a m et i m e t h ef r e q u e n c eo fi n t e r a c t i o n d e s c e n d s t h es y s t e mh a sg o o da p p l i c a t i o np r o s p e c t k e yw o r d sa u t o m a t i cw o r ds e g m e n t a t i o n :o p e n ;1e a r n i n gm e e h a n i s i n ;e r r o r d r i v i n g 大连理工大学学位论文版权使用授权书 本学萤论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版 权使用规定”。同意大连理工大学保留并向国家有关部门或机构送交学直论文的 复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等 复制手段保存和汇编学位论文。 本学泣论文属于 保密h 在j 4 解密后适用本授权书。 不保密口。 ( 请在以上方框内打“”) 作者签名:盐】 1 11 指导导师签名:攘:监掘 z 出垒月笠日 开放式汉语自动分词的学习机制 0 引言 0 1 自然语言分词问题概述 自然语言处理( n l p ) 的主要目的在于让计算机理解并生成人们在曰常生活中使用 的语言,使得计算机懂得自然语言的汉语,人机之间能够进行高质量的信息传递。中文 信息处理涵盖了字、词、短语、句子、篇章等多层面的信息加工处理任务。当前汉语信 息处理的主战场己从“字处理”转移到“词处理”。为了实现这一目标,就需要对语言 进行词法、句法、语义等不同层次上的分析处理【1 ,由于同西方语言不同,词与词之间 没有天然形态的切分标志。因此,汉语自动分词就成为了汉语信息处理的一项基础性工 作。据统计在汉语句句法分析结果中,有高达6 0 的分析错误来源于分词和词性标注 的错误。因此,汉语分词在整个中文语言信息处理中的地位极为重要。 汉语分词是中文信息处理系统的基础,有着极其广泛的实际应用。从基本的输入系 统,如智能语句输入法、语音输入、手写输入;到文字处理,如文本校对、简体一繁体 转换、拼音标注:以及语音合成,文本检索,文本分类,自然语言接口,自动文摘等等, 无处不渗透着分词系统的应用。书面汉语的自动分词,就是将以字为单位的没有词的边 界标志的书面汉语,自动切分成符合语言实际含义的以词为单位的形式,即建立词的边 界。自动分词问题研究的主要课题是: 1 确定什么是词、哪些是词,即分词规范的问题。 2 如何自动进行词的切分,以建立符合实际含义的词边界,即切分算法问题。 3 如何获取构词规则,如人名、地名的构造规则,和如何得到消除歧义的方法 即所谓的切分知识问题。 一般认为,分词是汉语语言的第一步,其后才是词义、句义、语义等分析层次。但 是考虑一下人处理语言的情况,人在阅读时候并没有严格的层次划分,很多时候都是理 解和分词同步进行。比如,“发展中国家在进步”,人在大概明白句子的意思后,才能得 出分词结果“发展中国家在进步”,依此进行断旬。因此,分词和分析孰先孰后,是一 个矛盾的问题。 但存在一些语言实际含义不明确的情况,如句子“鱼在长江中游”,切分存在两种 情况“鱼在长江中游”、“鱼在长江中游”。在前种切分中,“在为介词,“中, 指方位,“游”为动词:而后一种切分中“中游”的含义为河流的中段”。这样的例子 中人不但要考虑句子本身的信息,还要根据上下文来判断哪一种才是正确的切分结果。 称之为有歧义切分。因此,在语言实际含义不明确的情况下的分词问题,不是自动分词 开放式汉语自动分词的学习机制 所关心的内容。 自8 0 年代初提出汉语自动分词以来,书面汉语的自动分词已经取得了很大进展, 并且已经有一些很有实用价值的自动分词系统出现。根据分词系统的策略,这些分词方 法大概分为三类:基于规则的方法、基于统计的方法以及统计和规则相结合的方法。 由于语言现象过于庞杂,存在许多特殊的语言现象,现有的方法理论和语言规则无 法有效地表达所有语言现象,从而严重影响了系统对开放语料的适应性【2 j 。换言之,以 往的系统由于单纯采用统计数据切分,没有自适应能力,对于切分错误的字段无法改正。 第一次出现的切分错误,无论此语段在待切分语料中出现多少次,还是会切错。同时, 对未出现的新词也是如此,只要不更新词典,添加新的词条。对于新词的识别永远不能 实现。而分词系统的适应性对于它是否能够实际应用尤为重要,为了解决分词系统的适 应性问题,我们在分词系统中引入自适应学习机制。实验结果表明,本文中引入的基于 错误驱动的有监督学习的学习机制,能够有效地提高分词系统的自适应能力,自动纠正 部分出现过的切分错误,识别部分从未出现的新词。 o ,2 机器学习概述 为了增强系统的自适应能力,我们在系统中引入学习功能。人工智能的目标是要使 计算机能够模拟人类的智能,有效、灵活地完成人所能完成的工作。不管人工智能专家 采用什么方法达到这一目标,他们都不可忽略一个事实,即作为人的特殊能力的基础就 是学习能力。所以人工智能专家要模拟人的智能,最基本的一点就是要模拟人的学习能 力。 对于学习的研究是从5 0 年代开始的,由于学习机理目前尚未清楚,因而对于学习 有不同的定义。不仅各种不同的学科的认识不相同,即使是在同一学科,也有不同看法。 如生理心理学对人类的学习本质也有两派:认识主义和行为主义。由于对学习的定义不 同,相应对机器学习的定义也不同 3 】。目前的主要观点有: 1 “学习是使系统做一些适应性变化,使系统在下一次完成同样的或类似的任务时 比前一次更有效。”( h a s i m o n ) 这种定义认为学习就是行为的改变,它只强调效果, 而忽视动机。相应该定义的关于机器学习的观点是“系统性能”改善论。由于系统的性 能衡量没有标准,特别是复杂的系统,同时由于系统的目标不同,其性能标准也不同, 所以这种观点需要在更细的层次上加以扩充。 2 “学习是知识的获取。”这是属于“认知主义”的学习观点,这种定义强调知识 获取而忽略行为效果。一般来说学习后可以增长知识,然而所获取知识的是否有用则需 要由行为效果来衡量。和这种学习定义相对应的机器学习被认为就是“知识获取”,即 学习是知识的增长。 3 “学习是构造或修改经历事物的表示。”( r ,s m i c h a l s k i ) 这种观点的特点是学得 的任何知识都必须以某种形式来表示和存储,而且系统性能的改善可视为这种表示的目 2 开放式汉语自动分词的学习机制 的和结果。同一内容的知识可以有不同的表达,不同的表达形式对系统的性能就有不同 的影响,高效的知识表达形式使系统有良好的性能和行为。这种定义是从学习的内栅过 程定义的。根据这种学习定义,人工智能研究者认为机器学习旨在建立学习的计算理论 和方法,构造各种学习系统来获取新知识、新技能,及用新的方法来组织已有的知。i , 然后把这些系统应用到各个领域之中。 上述的三个学习定义都是从不同的侧面来阐述学习。一个完整的学习定义应是从内 部到外部,从动机到效果的统一。 在5 0 年代,机器学习采用了两种不同的研究方法:在控制理论中,使用多项式等 为基函数,利用优化的方法建立模型,以刻画被控对象的行为,这个过程在控稿理扣 称为辨识或参数估计;而以r o s e n b l a t t 的感知机为代表的研究,则是从神经元模型f 简写 为m p 模型) 出发,具体地说,就是将扩展为多个神经元的m p 模型作为优化算泓、的数学 基函数。这两种以优化为基础的方法至今还影响着机器学习的发展。 在6 0 年代末,m i n s k y 运用数学方法对当时的人工神经网络模型进行了精辟的分析, 指出了人工神经网络求解问题的能力和局限问题,这个思想对8 0 年代兴起的人丁神经 网络的研究是有意义的。从5 0 年代末到8 0 年代的2 0 余年间,在人工智能中,机器学 习的研究完全脱离了这种以基于统计的传统优化理论为基础的研究方法,而提出一谛以 符号运算为基础的机器学习。人工智能的研究者根据认知心理学的原理研究各种j i ;器学 习的方法,以符号运算为基础的机器学习代替了以统计为基础的机器学习,成为人工智 能研究的主流。在8 0 年代中期,基于解释的学习与类比学习也引起人们极大的兴趣。 1 9 8 4 年v a l i a n t 提出了可学习理论,并将可学习性与计算复杂性联系在一起:9 j5 年v a p n i k 在统计学习理论研究的基础上,提出结构风险最小化。在这一理论框架指。 下,产生了支持向量机学习方法,这是一种构造性的学习方法。 在8 0 年代,基于试错方法、动态规划和瞬时误差方法形成了强化学习。1 9 8 4 年s u t t o n 提出了一种基于m a r k o v 过程的强化学习。1 9 9 6 年k a e l b l i n g 在总结强化学习的研究刊 指出,实现这种学习的手段就是自适应机制。1 9 9 8 年,m i t 出版社出版了s u t t o n 和b a r t o 的著作“r e i n f o r c e m e n tl e a r n i n g :a ni n t r o d u c t i o n ”,将这些研究统称为适应性诟算。根 据s i m o n 的说明,这也是一种学习,但是,在机制上,这类机器学习理论不同于人 二智 能意义下的机器学习,其主要区别是:这类机器学习强调对变化环境的适应,这意味着, 它们需要建立一种基于反馈机制的学习理论【4 1 。 目前较为常用的机器学习方法有:规则归纳、决策树、范例推理、贝叶斯信念网络、 科学发现及遗传算法等。 显然,机器学习与人类的学习存在着显著的不同: 1 机器学习是短暂而快速的,而人类的学习是一个长期的、缓慢的积累过程。 2 机器学习结果能够永久保存,人类学习则存在一个学习、遗忘、在学习的反复 过程。 开放式汉语自动分词的学习机制 3 机器学习所得可以在机器系统中直接传递拷贝,而人类学习的知识转移只能间 接传递。 4 机器学习有机械的特点,机器无法根据学到的东西得出优化的结论,人类学习 则能以最优方式产生概念。 以上几点中,最后一点是机器学习目前无法克服的缺陷,也是学习系统经常被人非 难的焦点,即机器学习方式单一,无法根据学习到的知识产生“灵感”,本身无法创造 方法。 本文采用人工反馈的学习方法,根据统计模型的特点设定一个闽值范围,用训练集 确定了封闭语料库后,对于测试集建立开放式语料库。开放式语料库建立的过程也就是 学习的过程,阈值范围外的待切分句子直接统计入开放式语料库,系统提出在闽值范围 内的待切分句子来要求人工干预,人工选定正确的切分结果从而更新开放语料库中的统 计数据。这样的学习有助于统计数据的统计结果向着开放语料的内部统计规律逼近。 0 3 目前存在的问题 目前的分词研究已经取得很大进展,但是在实用上还有很大的局限性,这是因为, 语言的现象纷繁复杂,是一个开放集,任何一部词典都无法包括所有的词条。新词的不 断涌现给自动分词带来了很大的困难,导致现有的分词系统对新词无法识别,词典的完 备性始终是我们必须考虑的一个问题。 同时,切分歧义的发现以及纠正是一个难题。关于分词消岐的研究很多【5 j 【6 ( 7 】f 引。也 有关于词典自适应能力的研究 9 1 ,但是目前的一些算法,即使在完全性词典的基础上, 仍存在无法找到正确切分的可能性。由于切分盲点的存在,在预先无法发现切分歧义字 段的基础上,检测到都很难谈到,更不用说利用校正机制进行校正了。 切分歧义的校正严重影响着分词系统的正确率,歧义切分字段从构成形式上可分为 组合型歧义字段和交集型歧义字段,对两种歧义切分字段分别定义如下: 定义o 1 :在字段a b 中,a b w ,a w ,b w ,其中a 、b 为字串,w 为词表 则称a b 为组合型歧义字段。 经常出现的组合型歧义有“家人”、“一个人”、“马上回来”等等。 定义o 2 :在字段a j b 中,a j w 并且j b w ,w 为词表,则称a j b 为交集型歧 义字段。 最常见的交集型歧义字段例子为: “港人治港”、“发现金矿”、“在世界东方”等等。 目前针对歧义消除的研究也取得了一定成效,但是距离实用还有一定的差距。 4 开放式汉语自动分词的学习机制 总的来说,目前分词存在的问题主要集中在以下几个方面 1 通用词表和切分规范,尽管语言学家与计算机学家对此进行了大量的研究,但 目前还缺乏一个一致的标准,对于“什么是词”和“哪些是词”还是争论不休,举例来 说,“牛肉”、“猪肉”都作为常用的词存在,那么“鲨鱼肉”是否也作为一个词还是分 开来呢? “加深”、“打倒”由于使用频率高,通常也作为单词使用,而“打坏”、“加宽” 在分词中通常分开作为动补结构的两个词。同时,常用词经常随心所欲地衍生出相应的 变形结构,如“逗乐”、“打牌”经常变形为“逗逗乐”、“打打牌”等。要想建立一个较 完备的词典,首要问题是制定一系列词条规则,这也是建立一个基于词典的分词系统的 首要步骤【10 1 。 2 分词的歧义校正机制还难以令人满意,早期的歧义校正机制都是基于规则的, 汉语语言的多变造成了规则之间的冲突,使得基于规则的歧义校正机制不能使人满意。 近年来针对统计的研究增多。目前针对交集型歧义和组合型歧义的研究都有一定的成 效,但达到实用的目标还有一定距离。 3 未登录词的识别问题,但未登录词也极大地影响着分词系统的精度,目前有:侮 部分未登录词作为整体识别目标的文章 【1 2 】【1 3 ,识别效果较好。由于未登录词具有,。 泛的开放性,节略缩写方式多变,给切分造成了不少干扰。象“大连理工大学”经常被 简略为“大工”、“理工大学”、“理工”,“大连海事大学”经常简称为“海事”。而一些 象“赵传说”这样的未登录词切分错误将造成翻译系统无法预料的错误。同时,制约 着分词系统的适应性。 4 切分盲点的存在,大部分切分算法,即使在具有一个包括所有汉字词的完备词 典存在的条件下,仍存在无法找到正确切分的可能性。对于长词覆盖短词的现象,大多 数系统都还没有适当的手段去检测。从而找不到歧义切分的所在,因而无法对其进行纠 正。 本文的学习机制,对不包括人名、地名、外来语等未登录词的语料加以学习,有效 地解决了这一部分语料在切分中的自适应问题,系统能够在对这一部分语料学习后,对 学习前的切分错误加以修正。闭式分词中的切分错误有7 8 4 4 得到纠正,开式分词中的 切分错误有6 3 5 6 得到纠正。 0 4 本文主要工作 针对单纯基于统计的分词模型的固有特点:对人工标注语料依赖过大,造成人工费 用高昂;分词正确率随语料库规模的加大提高到一定程度,由于汉语的语言稀疏现象难 以继续提高。在分词系统中引入了开放式语料库,采用了基于错误驱动的有监督学习机 制。同时,根据最长次长切分算法特点,在应用三元组合分词模型进行切分的基础上, 采取一些规则处理三元模型和最长次长匹配算法引起的部分词语被切碎的问题。本文所 作的工作主要如下: 开放式汉语自动分词的学习机制 深入研究了基于统计和语料库的分词方法,通过观察影响分词系统的各种 因素,对开放式语料库的学习机制进行了深入探讨。 修改了三元组合分词模型和学习过程,对影响开放式系统性能的各种参数 作了调整。 3 深入分析了开放式分词组合模型的优缺点,在匹配中使用相应的处理对策。 有针对性地提高了开放式分词系统在解决部分词语被切碎的问题上的能 力。 本文实现了以上述几个问题为主要内容的汉语自动分词系统,验证了分词模型和学 习方法的可行性。然后,从人民日报电子版中随机选取了二百万字以上的汉语语料,进 行模型参数的确定和性能测试。实验结果表明,修改后的开放式分词模型能够有效地识 别以往应用二元语法模型经常出错的句子片断,同时能够识别部分新词,提高了阔值的 收敛程度,增强了分词系统的适应能力,提高了汉语自动分词的切分精度。 开放式汉语自动分词的学习机制 1 分词系统的基本模型 1 1 分词算法 首先,我们给出几个汉语分词中用到的定义: 1 一个汉字是一个符号。设全体汉字组成的集合为。 2 对于确定正整数1 l ,且a l , a 2 , a n ,将按顺序构成的符号串w = a l 印a n 称为上的一个汉字串。 3 d 是一个已知的确定的的有限集,对于任意元素d ,w 都是汉语中的 一个词,称d 为词典。 4 对于任意m e n ,阡,卅d ,将按顺序构成的符号串啊阡_ 成为d 上的一个词串。 根据以上定义,汉语自动分词就是在词典d 指导下,由一个普通的汉字串0 1 a 2 到词串的归约问题。 分词算法中应用最广泛的最长匹配法m m ( m a x i m u mm a t c h i n gm e t 1 0 d ) ,有的参考 资料也称之为最大匹配法) ,大部分实用系统采用的都是其变形或其变形的综合。比如 带回溯的从左至右的最大匹配法m m b ( m a x i m u mm a t c h i n gw i 也b a c k t r a c k i n g ) 来实现 的从右至左的最大匹配法r m m b ( r e v e r s em a x i m u mm a t c h i n gw i t hb a c k t r a c k i n g ) , m m b 、r m m b 联合使用的带回溯的双向最大匹配法b m m b ( b i d i r e c t i o n a lm a x i m u m m a t c h i n gw i t hb a c k t r a c k i n g ) 等等。骆正清等人采用正向扫描结合增字最大匹配、跳跃 匹配、词尾歧义检查、归右原则等方法对m m 进行了改进,取得了很好的效果【j 。 m m b 方法实质上是一种长词优先策略,同时,m m b 、r m m b 这两种方法切分结 果唯一,不能发现切分歧义。r m m b 能发现部分交集型歧义,无法发现组合型歧义。 而全切分算法,才是不存在切分盲点( 某些字符串永远不会被某种算法切分出来) 的算 法。这种方法的优点是可以发现所有的切分歧义,但是解决歧义的方法很大程度上取决 于统计语言模型的精度和决策算法。需要大量的标注语料,并且分词速度也因搜索空间 的增大而有所缓慢。 1 2 基于规则的分词模型 汉语自动分词的方法一般有三种:基于规则的分词;基于统计的分词;统计与规则 开放式汉语自动分词的学习机制 相结合的分词。基于规则的分词采用语言学家总结出来的大量规则,和统计模型相比, 基于规则的统计模型是在语言学家对大量的语言现象进行了深刻的总结之后提出的,对 语言现象内部机制有较深的理解。 最长次长匹配法l ”1 采用的就是基于规则的分词方法,将可能出现的歧义字段收集起 来,形成个交集型歧义字段库,根据所建立的歧义字段库信息来处理切分歧义。在消 除交集型歧义字段时,遵循如下优先顺序: 1 个性规则处理。与句法分析阶段复杂的规则系统相比,分词阶段的个性规则比 较简单。对于用语法搭配规则( 也称共性规则) 无法解决的歧义字段词,根据其左右特 定的单词分布情况,建立相应的歧义消除规则。进行歧义处理时,先扫描个性规则库, 如果歧义字段词的相邻单词满足其个性规则中的条件,则按规则所标记的路径进行切 分。如果个性规则库中没有满足条件的规则,则转下述语法搭配规则。 2 词法搭配规则,主要有:动词+ 名词( v + n 型) 、形容词+ 名词( a + n 型) 、动词+ 代词 ( v + r 型) 、动词+ 量词( v i + q 型) 、介词+ 名词( p n 型) 。如“一只白天鹅”中的“白天鹅”, 有2 种切分:“白天鹅”和“白天鹅”,其中,“白天鹅”为“a + n ”类型,而“白天 鹅”不属于上述搭配规则,因此选择路径“白天鹅”。 3 选择最长匹配。若上述2 条规则均无法消除切分歧义,则选择最长词。 组合型歧义字段的处理需要利用语义知识和上下文信息,现阶段作者只利用了若干 较简单的语法语义知识来处理组合歧义。主要是: 1 数词+ 量词组合优先,解决了类似“一个人”的组合歧义。 2 介词+ 名词组合优先,解决了类似“把手举起来”的组合歧义。 排除歧义也常常用词频、词长、词间关系等信息,比如:“真正在”中,“真”作 为单字词的频率大大低于“在”作为单字词的频率,即“在”常常单独使用而“真” 作为单字词使用的可能性较小,所以应切成“真正在”。 近年来,针对统计和句法语义分析两种方法孰优孰劣的讨论引起了人们的关注。 谈到中文信息处理所面临的重大应用课题,如企业和广大计算机用户所期盼的汉字输 入、语音识别等,大家似乎没有什么分歧。但是当讨论深入到实现这些课题的方法或技 术路线的时候,分歧就泾渭分明了。第一种意见认为,中文信息处理的本质是汉语理解, 也就是要对汉语真实文本实施句法语义分析。持这种意见的学者主张,以往在中文信 息处理中使用的概率统计方法已经走到了尽头,为了在理解或语言层面上解决中文信息 处理问题,就必须另辟蹊径,这条蹊径便是语义学。 与上述意见对立的观点是:前面提到的绝大多数应用系统其实都是在没有句法一语 义分析的情况下实现的,因此谈不上“理解”。 基于规则的分词在应用中遇到了很多困难,这是由于:语言现象过于庞杂,存在许 多特殊的语言现象,现有的方法理论和语言规则无法有效地表达所有语言现象,从而严 8 开放式汉语自动分词的学习机制 重影响了这些系统对开放语料的适应性。而且,我们最终的目的是面向大规模真实文本 的自然语言处理,规则方法适应性方面的缺陷更加凸现出来:而且规则间相互“竞争”, 对于不同的语言现象,规则的优先度不同,可能会造成不同的结果;规则的维护不易, 新规则的发现和老规则的取舍需要自然语言工作者的辛苦努力。 1 3 基于统计的分词模型 黄昌宁教授在自然语言处理技术的三个里程碑一文中提到:复杂特征集和合一 语法、语言学研究中的词汇主义、语料库方法和统计语言模型是自然语言处理领域中三 个堪称里程碑的贡献。 世界文本检索大会( t r e e ) 的最大特点是通过提供大规模训练语料和统一评测方法 来支持信息检索( i r ) 技术的研发。研究团队必须通过大会的统一评测并名列前茅,才 能获准到会上来做报告,1 9 9 2 年起t r e c 每年举办一届大会,并得到美国国防部( d a r p a ) 和国家标准技术局( n i s t ) 的资助。会议对包括中文、日文在内的多文种文档库开展了 i r 评测。结果表明,中文i r 并没有因为存在分词问题就比其他文种做的差,而且迄今 没有证据表明各语种的n l p ,包括基于概念的或基于句法一语义分析的技术,能明显提高 i r 系统的性能。语料库和统计方法不但没有过时,而且在可比的统一评测中被证明是当 前各国语言信息处理的一种主流技术。 9 0 年代初,在赫尔辛基举行的“第十三届国际计算语言学大会”正式列入了n l p 从小规模受限语言处理走向大规模真实文本处理的研究目标。建设大规模语料库成为必 然,语料库和统计方法在可比的统一评测中被证明是当前各国语言信息处理的一种主流 技术。 迄今没有证据表明各语种的自然语言处理,包括基于概念的或基于句法一语义分析 的技术,能明显提高i r 系统的性能。这表明,语料库方法和统计语言模型不但没有过 时,而且在可比的统一评测中被证实是当前各国信息处理的一种主流技术。由于基于规 则的语言处理系统规则的获取和维护极为困难,9 0 年代以来,统计方法近年来不断被采 用,在自然语言处理的各个领域都获得了成功。 设w ,是文本中的任意一个词,如果已知它在该文本中的前两个词w 。w ,便可以用 条件概率p ( w ,1w ,2 w ,) 来预测w ,出现的概率。这就是统计语言模型的概念。般来说, 如果用变量代表文本中一个任意的词序列,它由顺序排列的门个词组成,即 = w t ,w 2 ,m ,则统计语言模型就是该词序列w 在文本中出现的概率p ( 叼。 比较简单和常用的统计语言模型是j v 元语法c - g r 硎) 模型。根据条件概率的定义, 有: 尸( w ) = p ( w lw 2 k ) = n p ( i w 1 一,) l = l 开放武汉语自动分词的学习机制 其中p ( w , , 1 w l - ,) 表示在给定历史信息w w a ,下,选取词的概率。这就 是n - g r a m 模型,并且所有信息组成了条m a r k o v 链。最基本的是u n i - g r a m 模型。 不难看出,为了预测词w 。的出现概率,必须知道它前面所有词的出现概率。从计 算上来看,这种方法太复杂了。如果任意一个词w 。的出现概率只同它前面的一两个词有 关,问题就可以得到极大的简化。在实际应用中,为简化计算,最多只考虑一个或两个 历史信息,形成了b i g r a m 模型和t r i - g r a m 模型。 由于n - g r a m 的统计数据量是指数增长的,考虑到汉语的特点以及现有的硬件资源, 目前,普遍采用基于2 元语法模型,最高有基于三元语法模型i 【6 j 的分词。 目前,基于统计和规则相结合的系统也有成熟的模型。这种方法首先运用最大匹配 作为一种初步切分,再对切分的边界处进行歧义探测,发现歧义。再运用统计和规则结 合的方法来判别正确的切分,运用不同的规则解决人名、地名、机构名识别,运用词法 结构规则来生成复合词和衍生词。o f f i c e 2 0 0 0 中文版中的一个基本模块w b 2 0 0 0 就是这 样的一个分词系统,可以解决汉语中最常见的歧义类型:单字交集型歧义。并对人名、 地名、机构名、后缀、动词形容词重叠、衍生词等词法结构进行识别的处理,基本解决 了分词所面临的最关键的问题。其正确率为9 7 9 4 8 。但是,目前这个分词系统刘于组合 歧义的处理还没有涉及。 基于统计的分词方法存在两个问题:一是由于统计模型缺乏对语言内部的深入理 解,单纯依靠频度统计,在精确率提高到一定值后,难以继续提高;二是统计模型要求 大规模语料库,导致人工标注工作量过大。第一个问题通常可以引入部分规则机制来弥 补统计模型的不足,也就是规则和统计相结合的汉语自动分词;解决第二个问题可通过 引入开放学习机制,在刨分中不断修正统计数据,弥补语料统计数据的局限性,是本文 主要研究的内容。 开放式汉语自动分词的学习机制 2 语料库方法和开放式语料库模型 2 1 基于统计和语料库的分词方法 应用统计方法的基于单词可信度和双词可信度旧的汉语分词就是典型的基于语料 库的汉语分词。系统使用词的u n i - g r a m 和b i g r a m 的结合模型作为分词的依据。语料库 存储单词和双词接续对的出现次数。 设句子s 具有多种切分可能,为一种切分路径词串,则句子的一 种切分路径定义如下: s ,= 瞄彬 u n i - g r a m 模型如下所示 p 咿) = 可l o g ( w + 2 ) ( 2 1 ) ( 2 2 ) 为语料库中语料的规模,m 代表单词出现的总次数。为单词在语料库中出现的 次数。单纯考虑u n i - g r a m 知识,对于句子的一种切分路径s 得到的单词分词可信度为: 魍p ) :fn 尸眈) f ( 2 3 ) y = l 双词接续对是指句子中两个相邻的词的接续关系,双词可信度统计了一个双词接续 对在双词接续关系库中的频度, 尸畛) = 监等掣 ( 2 4 ) 甩代表语料库中双词的总次数, 为双词接续对在语料库中出现的次数。单 纯考虑b i - g r a m 知识,对于句子的一种切分路径s 得到的双词分词可信度为: 吲s 阱f 卉尸( ,畛) r兄,( s l s ) = i 丌尸( ) l 产2 ( 2 5 ) 开放式汉语自动分词的学习机制 可以看到,单词可信度主要体现了一个词在特定的语料范围内的成词强度,而双词 可信度则体现了两个词接续出现的接续关系强度。基于单词可信度和双词可信度的分词 方法对大量人工标注语料读入数据库,以单词库和双词库两种形式存储,将两者的统计 信息有机结合起来,能够真实地反映语料的语言特征,特别是接续特征,对提高分词正 确率有很大帮助。 语言处理的目标是止计算机处理大规模真实文本,要想达到这样的目标,就必须从 大量的语言材料中获取知识,也就是要达到取之于斯,用之于斯的目的。我们称大量有 代表性的文本组成的语言材料为“语料( c o r p u s ) ”。 一般来说,为了从语料库中获取语言知识,我们首先要对语料进行加工,再对加工 过的语料进行分析,从中获取所需的知识。然后可以利用所获得的知识去分析、处理新 的语料,如此继续循环往复,直到系统具有能够有效地处理大规模真实文本的能力。我 们把未曾加工过的语料叫生语料,把加工过的语料叫熟语料。对语料加工深度不同,所 产生的结果级别也不同,所以生语料和数语料是相对的。例如,对汉语来说,对原始语 料分词产生带分词标记的语料:对分过词的语料进行词性标注产生带词类标记的语料 ( t a g g e dc o r p u s ) ;依次,经过句法分析产生树库( t r e e1 3 a n k ) ,经过语义分析产生框 架库或网络库。 9 0 年代,汉语语料库的建设和研究得到了蓬勃的发展。语料库的规模从百万级发展 到千万级和上亿级,语料的加工深度从字一级发展到词法级、句法级、语义级和篇章级, 不同级别的加工技术的成熟程度各不相同。据了解,到目前为止,国内已经开发的不同 加工深度的现代汉语熟语料库有2 0 余个。仅就北京语言文化大学而言,近十余年开发 的各种语料库就有“现代汉语词频统计语料库”( 1 9 8 5 年) ,“当代北京口语语料库” ( 1 9 9 2 年) ,“现代汉语语法研究语料库”( 1 9 9 5 年) ,“汉语中介语语料库”( 1 9 9 5 年) , “现代汉语句型语料库”( 1 9 9 5 年) ,与香港理工大学中文及双语学系联合建设的“现代 汉语语料库”( 1 9 9 8 年) ,与清华大学联合承担国家自然科学基金重点项目“语料库语言 学研究的理论、方法和工具”也建设了“现代汉语语料库”( 1 9 9 8 年) 。由于计算机硬软 件环境的发展和中文文本的电子版( 包括光盘版和网络版) 越来越普及,语料库的建设 和开发相对而言越来越容易。 基于统计的语料库方法具有统计信息全面,一致性较好的优点,在可比的统一评测 中被证明是当前各国语言信息处理的一种主流技术。特别是在系统建立初期,随着人工 标注语料使用的增多,系统分词正确率上升很快。但统计模型在解决深层次、高概括性 的问题上,有一定难度。同时,由于语言的稀疏性随着处理语料的规模而增大,分词系 统性能将有所下降。 2 2 本文系统初始化及分词算法 本文系统的初始语料库为1 2 m b 人工标注语料建立的封闭语料库,统计初始化所用 人工标注语料单词、双词的统计信息。为了实现开放式学习机制,引入了开放式语料库。 1 2 开放式汉语自动分词的学习机制 开放式语料库统计系统运行时处理语料单词、双词和三词的统计信息。 系统初始化及应用系统分词步骤如下:首先是系统初始化步骤,使用大规模人工标 注语料建立封闭式语料库,封闭语料库存储人工标注语料的单词及双词出现次数;其次 为系统学习步骤,使用词的三元组合模型( 见3 4 ) 对待切分语料进行切分,切分的同 时建立起开放式语料库,开放式语料库的建立过程也就是系统的学习过程,其学习机制 见3 2 ,对于闽值在规定范围外的,采用三元组合分词模型切分并对切分结果进行学习, 学习到的知识存储到开放语料库,闽值在规定范围内的,进行人机交互,开放式语料库 学习得到正确结果并存储;第三为应用系统分词步骤,使用词的三元组合分词模型对待 切分语料进行切分。 应用词的三元组合分词模型分词算法如图所示 图2 1 分词模型 f i g u r e2 1t h ec h i n e s ew o r ds e g m e n t a t i o nm o d e 应用词的三元组合模型分词算法如下 1 对待切分的语料,读取一句。 2 对当前句子匹配最长次长有向图”1 。每个词的匹配除了在字典中查找外,同 时在开放式语料库中学习得到的新词中查找。 开放式汉语自动分词的学习机制 3 4 对于每条路径中的每个单词,在封闭式语料库中匹配,根据封闭式语料库中单 词出现次数计算单词可信度。 对于旬子中每个双词接续对,首先在封闭式语料库中匹配,如果找不到且双词 合起来成词,用双词惩罚系数进行惩罚,否则得到双词封闭式语料库中同现次 数。其次在开放式语料库中匹配其评价次数,根据封闭次数及评价次数计算双 词可信度。同时应用3 7 中规则进行相应的处理。 5 对于句子中每个三词接续关系,在开放式语料库中匹配,如果找不到且三词合 起来成词,用三词惩罚系数进行惩罚,否则计算三词可信度。 6 根据三元组合模型计算句子可信度,得到切分路径。如切分任务未完成,转1 否则结束。 2 3 开放式语料库的结构及其加工 我t f tj m 道,对语料的每一步新的分析和处理,需要有支持这样的分析和处理的知识, 这些知识对分析系统来说是至关重要的。因此,获取这样的支持计算机自动处理语料知 识也是一个非常关键的环节。每一步从低一级别到高一级别的分析就存在一个如何起步 问题。例如,在对语料进行词性标注时要用人工给一定数量的生语料标注词性,然后计 算机对标注了词性的语料进行统计分析来获取计算机自动标注词性所需的知识;在对语 料进行句法分析的时候也需要用人工给一定数量的语料进行句法分析和标注,然后计算 机对句法分析过的语料进行统计分析来获取计算机自动句法分析所需的知识。我们可以 认为从加工过的语料中获取支持处理语料所需的知识的过程是对自然语言处理系统的 训练。一般来说,这也是建立处理大规模真实文本系统的简单的起步方法。 大多数分词系统使用了基于统计和语料库的方法,由于语料库采用大规模人工标注 好的语料进行训练,但是由于新词的增长和系统分词算法的固有缺陷,造成系统无法识 别新词及相同切分错误一再出现的问题。同时,近年来人们也注意到,随着处理级别的 提高,利用大规模的语料来训练处理系统,其难度和费用也在急剧增长,原因是用人力 来加工大量的语料是一件艰苦细致的工作。不但易于出错,也难于协调一致。因此,利 用较小训练集支持的处理系统,加上一些其他策略,来达到处理大规模语料的目的,也 成为人们普遍关心的例子:或者采取较使用完全人工标注语料更加省力的策略来建设大 规模语料库。为了解决如上的问题,我们在分词系统中引入开放式语料库。 开放式语料库是封闭式语料库的有益补充,与封闭式语料库在结构上没有本质的区 别,封闭式语料库统计了人工标注语料的知识形式,是在系统初始化阶段建立起来的, 存储人工标注语料中单词、双词接续对及其切分的正确次数。建立后不再更改。对于用 户来讲是封闭的。开放式语料库是在系统实际分词中建立的,存储实际切分语料中单词、 双词接续对及其切分的正误次数、部分三词词条及其出现次数、新词的词条及其出现次 数。随语料切分规模增大而增加。用户可通过与其交互来修改知识的统计信息,对于用 开放式汉语自动分词的学习帆制 户来说是开放的。其中,单词、双词接续对切分错误次数、三词词条的统计及新词的学 习主要依赖于系统基于错误驱动的学习机制。 开放式语料库加工实例 源语料: 20 0 0 年到来的钟声,就要呜响在我们这个星球的寥廓上空。人类文明的发展,即将进入一个新 世纪,开启一个新千年今夜,在世界的东方与西方南方与北方,各国人民无分民族、无分信仰, 都在为这一历史时刻的来临而欢欣鼓舞。 首先,我向全国各族人民和海外侨胞,向世界各国的朋友们,祝贺新年快乐! 并致以新世纪、 新千年的最良好祝愿! 此时此刻,最能引起人们回顾既往,瞻望前程。只有正确地总结历史,才能更好地走向来来。 一千年来,人类历史发生了沧桑巨变。人类文明从古代文明发展到了现代文明。人类社会经过 封建社会进入了资本主义社会,并且在一些国家诞生了崭新的社会主义制度。人类的经济活动进到 了工业经济时代,并正在转入高新技术产业迅猛发展的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论