




已阅读5页,还剩99页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类号 密级 UDC 编号 中国科学院研究生院硕士学位论文 汉语词与句子切分技术及机器翻译评估方法研究 刘丁 指导教师 宗成庆 研究员 博士 中国科学院自动化研究所 申请学位级别 工学硕士 学科专业名称 模式识别与智能系统 论文提交日期 2004年6月 论文答辩日期 2004年6月 培养单位 中国科学院自动化研究所 学位授予单位 中国科学院研究生院 答辩委员会主席 Approaches to Chinese Word Analysis, Utterance Segmentation and Automatic Evaluation of Machine TranslationDissertation Submitted toInstitute of Automation, Chinese Academy of Sciencesin partial fulfillment of the requirementsfor the degree ofMaster of EngineeringbyDing Liu(Pattern Recognition and Intelligence System)Dissertation Supervisor: Professor Chengqing Zong独创性声明本人声明所成交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确地说明并表示了谢意。签名:_导师签名:_ 日 期:_关于论文使用授权的说明本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定,即:中国科学院自动化研究所有权保留送交论文的复印件,允许论文被查阅和借阅;可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:_导师签名:_ 日 期:_摘要本论文以统计模型为基础,在参考了大量前人工作的基础上,对汉语词法分析、口语句子切分和机器翻译评估进行了较为深入的探讨和研究。汉语词法分析是大部分中文处理的第一步,其重要性不言而喻;句子切分是语音翻译中连接语音识别和文本翻译的桥梁,无论语音识别和文本翻译单独的效果有多么好,这座桥没搭好,综合的性能依然无法提高;机器翻译的自动评估是构建机器翻译系统中很重要的辅助工作,其可以加速翻译系统的开发速度,缩短其开发周期。简言之,这三方面同属于自然语言处理的基础的研究领域,其效果直接影响到高层应用的水平。在词法分析上,我们利用隐马尔可夫模型(HMM)提出了一种融和了分词、词性标注和命名实体识别的一体化词法分析方法。最初我们用基于类别的HMM,其优点是对词的覆盖面广,系统开销小;缺点是不能精确地预测词的出现概率。为了提升模型的准确率,我们引入基于词汇的HMM,并将两者有机地结合,并用一个“词到字”的概率平滑方法对基于词的HMM进行平滑。实验结果显示,我们的混合模型由于综合考虑到了字、词、词性以及命名实体的知识,在切分的准确率和召回率上都明显优于单纯基于类别或者基于词的HMM。此外在分词系统的实现上,我们借助对通用分词系统APCWS的整体框架和各功能模块的介绍,讨论了如何有效地存储和加载数据等一些技术细节问题。在口语句子切分上,我们提出了基于双向N元模型和最大熵模型的句子切分算法,这种算法由于通过最大熵有机地将正、逆向N元切分结合起来,综合考虑到了切分点左、右的上下文,从而得到了很好的切分效果。我们在中、英文语料上训练我们的模型并作测试,结果显示其在性能上明显优于基本的正向N元切分。在此基础上,我们分析并对比了各模型的切分结果,从而验证了我们当初对于模型的预计:其一方面保存了正向N元算法的正确切分,一方面用逆向N元算法有效地避免了正向算法的错误切分。在机器翻译的自动评估上,我们首先介绍了两种常用的基于参考译文的评估算法BLEU和NIST,然后给出了一种基于N元模型的句子流畅度评估方法E3。这种方法不需要借助任何参考译文,它通过区别地对待句子中不同的词的转移概率,达到了很好的评估效果。综上所述,本文针对汉语词法分析、口语句子切分和机器翻译评估提出了以统计模型为基础的创新方法,它们不仅仅在科学方法上有重要的参考价值,对于实际应用中也有重要意义。ABSTRACTThis thesis proposed our novel statistical approaches on Chinese word analysis, utterance segmentation and automatic evaluation of machine translation (MT). Word analysis is the first step for most application based on Chinese language technologies; utterance segmentation is the bridge which connects speech recognition and text translation in a speech translation system; automatic evaluation of machine translation (MT) system can speed the research and development of a MT system, reduce its developing cost. In short, the three aspects all belong to the basic research area of Natural Language Processing (NLP) and have significant meaning to many important applications such as text translation, speech translation and so on.In Chinese word analysis, we proposed a novel unified approach based on HMM, which efficiently combine word segmentation, Part of Speech (POS) tagging and Named Entity (NE) recognition. Our first model is a class-based HMM. So as to increase its accuracy, we introduce into the word-based HMM and combine it with the class-based HMM. At last we used a “word-to-character” smoothing method for predicting the probability of those words which dont occur in the training set. The experimental results show that our combined model, by comprehensively considering the information of Chinese characters, words, POS and NE, achieved much better performance in the precision and recall of the Chinese word segmentation. Based on the knowledge of our combined model, we described the details in implementing the general word segmentation system APCWS. We discussed some technical problems in the data saving and loading, and described our modules of knowledge management and word lattice construction.In utterance segmentation, this paper proposed a novel approach which was based on a bi-directional N-gram model and Maximized Entropy model. This novel method, which effectively combines the normal and reverse N-gram algorithm, is able to make use of both the left and right context of the candidate site and achieved very good performance in utterance segmentation. We conducted experiments both in Chinese and in English. The results showed the effect of our novel method was much better than the normal N-gram algorithm. Then by analyzing the experimental results, we found the reason why our novel method achieved better results: it on one hand retained the correct segmentation of the normal N-gram algorithm, on the other hand avoided the incorrect segmentation by making use of reverse N-gram algorithm.In automatic evaluation of MT systems, we first introduced two classic methods on automatic evaluation which relied on reference translations. Then we proposed our novel sentence fluency evaluation method based on N-gram model. This method, called as E3, doesnt need any reference translations and achieved very well evaluation performance by discriminately use the different transmission probabilities of words in the evaluating sentence. In summarization, this thesis proposed novel approaches for the three basic researches in NLP: Chinese word analysis, utterance segmentation and automatic evaluation of MT systems. We believe the original ideas in them not only have important reference value for other researches, but also can be used to improve the performance of NLP applications.目录第一章 绪言1第二章 统计语言模型32.1 N元模型32.1.1 N元模型定义32.1.2参数估计42.2 隐马尔可夫模型82.2.1 定义82.2.2 和HMM相关联的三个问题92.3 最大熵模型132.3.1 介绍132.3.2 定义152.3.3 参数训练172.4 小结20第三章 基于隐马尔可夫模型的一体化中文分词方法213.1 相关工作213.2 基于类别的隐马尔可夫分词框架233.2.1 词的定义243.2.2 基于类别的隐马尔可夫模型243.2.3词的生成模型263.2.4 基于类别的隐马尔可夫模型的小结293.3 对于基于类别的隐马尔可夫模型的改进293.3.1 基于类别和基于词的隐马尔可夫模型的合并303.3.2 “词到字”的平滑方法313.4 实验323.4.1 训练和测试语料323.4.2 各模型的测试结果323.4.3 错误分析343.5 通用分词系统APCWS实现介绍353.5.1 APCWS系统框架353.5.2 APCWS的数据装载以及知识管理363.5.3 APCWS的切分模块403.6 小结45第四章 基于双向N元模型和最大熵模型的句子切分464.1 相关工作474.2 最大熵平衡的双向N元切分算法504.2.1 正向N元切分算法504.2.2 逆向N元切分算法514.2.3 双向N元切分算法524.2.4 基于最大熵模型的切分算法534.2.5 最大熵平衡的双向N元切分算法544.3 实验564.3.1 训练和测试语料564.3.2 实验结果564.3.3 结果分析584.4 小结59第五章 机器翻译自动评估方法研究605.1 相关工作605.2 基于参考译文的评估方法625.2.1 BLEU (Bilingual Evaluation Understudy)算法625.2.2 NIST算法635.2.3 改进的NIST算法645.3 基于统计的句子流畅度评估方法655.3.1 基于N元模型的句子流畅度评估655.3.2 实验685.4 小结72第六章 结论73参考文献75附录1:本论文的研究工作得到如下项目资助81附录2:攻读硕士学位期间发表的论文81致谢82第一章 绪言近十几年来,随着计算机硬件设备的飞速发展,其单位存储和计算成本大幅度降低,使一些基于大规模搜索和迭代的复杂算法能够在PC上广泛地实现和应用;而随着行业信息化的普及和网络资源的迅猛膨胀,可用语料资源也大为丰富,这一切给基于大规模语料库的统计自然语言处理提供了所需的硬件和软件环境。统计自然语言处理以数学模型和大规模语料库为基础,其核心思想是建立数学模型以表述某一种语言现象,然后在大规模语料库中对那种模型进行训练,使其满足已经获知的经验知识,然后用训练好的模型对于未知的现象进行预测。几乎所有基于统计的方法都可以归结到上述的框架中去。相比传统的基于规则的自然语言处理,统计方法有如下好处。第一, 它不依赖于人主观的先验知识,这也是本文认为统计方法最重要的优点。大规模语料库实际上和规则一样,都是一种知识的表征形式。不同的是语料库相比规则而言,有更强的独立性和客观性。大家知道,规则往往是针对某一特定的应用,由某方面的专家按照一定的形式所书写的指导原则,它是专家在自己的经验基础上对语言现象的一种总结,具有很强的主观性。往往不同的专家所书写的规则会有不同,甚至同一位专家在不同时候所写规则也会有出入,而随着规则的不断增加,新旧规则之间会产生矛盾,当规则的数目达到一定程度以后往往就不可能再增加新的规则了。而语料库很简单,任何一篇电子文档都可以成为一个小的语料库,即使对于那些经过人工处理后的熟语料,由于大家是在一定规范地约束下进行的,那些规范相对而言都是比较简单和机械的规范,所以人的主观影响会小得多,即使在某些个别的词或句上出现矛盾,也不会对整体造成很大影响。第二, 统计方法相比基于规则的方法有更强的鲁棒性。规则的方法是离散的,一条规则只能总结有限数目的语言现象;而统计模型是连续的,它可以对全部的现象进行描述。规则是人对于经验知识的一种抽象,这种抽象是零散的,它并不保证所有的规则的总和可以描述全部的语言现象,所以每遇到一个不能处理的实例,我们必须增加新的规则以满足需求。而统计模型所依赖的语料库虽然也是离散的,语料库中包含的现象也只是全部现象的一个真子集,但由于我们是用严密的数学模型来对现象进行的抽象和归纳,它就可以保证训练出的模型适用于所有的实例,从而保证了强的鲁棒性。当然,不同的统计模型对现象描述的准确程度是不一样的。第三, 统计方法将知识和算法分离。前文已提过,规则往往是由某方面的专家针对某一特定的应用所书写的指导原则,而同一个语料库可以为多种算法、多种应用服务,它是很独立的知识库。这样语料库的建立和完善可以和算法的设计并行,不仅节省了人力物力,也给一些标准化测试提供了基础。另外这项优点给基于统计方法的系统的维护和更新带来了很大的方便。随着应用的扩展,我们往往要考虑到新的语言现象,这时基于统计方法的系统只需要用更大的语料库重新训练一下模型就可以了,而基于规则的方法则需要增加大量的规则,而如上文以前提过的,这并非一件容易的事情。正是由于这些优点,统计方法在近十年来得到了飞速发展,它逐步取代传统基于规则的方法,成为自然语言处理领域的主流技术。在中文处理方面,统计方法已经有很多成功的应用,如词性标注、音字转化及拼音输入等,但由于汉语本身的复杂性和灵活性,有很多问题依然尚待解决。本文试图以统计模型为基础,研究汉语自动分词、分句及机器翻译自动评估的解决方法。分词是大部分中文处理系统的第一步,其重要性不言而喻;句子切分是语音翻译中连接语音识别和文本翻译的桥梁;而机器翻译的自动评估可以提高一个机器翻译系统的开发速度和节约其成本。简言之,这三类问题同属于中文信息处理领域的基础研究课题,它们的效果直接关系到其他高层应用,所以我们的研究不仅仅在科学方法上有重要的参考价值,对于实际应用也有重要意义。后面的章节是这样安排的:第二章介绍三种常用的统计模型,这是本文所提出的方法的理论基础;第三章介绍基于隐马尔可夫模型的一体化汉语分词方法;第四章介绍基于N元模型和最大熵模型的句子切分方法;第五章介绍基于N元模型的句子流畅度评估方法;第六章对全文进行总结。第二章统计语言模型本论文的所有工作均是基于统计方法,因此在本章里,我们将介绍一些常用的统计模型。其构成了我们的方法的理论支撑。统计模型是一种抽象的数学模型,用来对事物进行一种近似的描述,它首先假设某类现象满足一种模型,然后用已知的现象实例对模型进行训练,以得到模型的相关参数,然后用这个训练过的模型来预测未知的现象。对于自然语言处理而言,最常用的有N元模型、隐马尔可夫模型、最大熵模型等。2.1 N元模型2.1.1 N元模型定义N元模型是自然语言处理中最常用的一种数学模型。它的定义如下。图1:N元模型的定义假设序列w1w2wm是一个N阶马尔可夫链,那么某一元素wi出现的概率只和其前面N-1个元素相关,即:(1)如果我们假设语言也满足马尔可夫性,那么某一个词在某个句子中的出现概率就可以用公式(1)进行计算,进而一个句子的概率可以计算为:(2)一般N越大,模型越精确,但所用参数和所需要的训练集也越大(如果训练集不够大将导致严重的数据稀疏问题)。假设词汇量为100K(实用中文系统的词汇量),下表给出了不同的N元模型的参数形式以及所用的参数数目。表1:N元模型实例及参数个数模型参数参数个数0-gramp(w)=1/|V|11-gram(unigram)p(w)1e52-gram(bigram)p(wi|wi-1)1e103-gram(trigram)p(wi|wi-2 wi-1)1e154-gram(tetragram)p(wi| wi-3 wi-2 wi-1)1e20在实际运用中,考虑到训练所需的语料规模,N一般取3,也就是所谓的Trigram。2.1.2参数估计2.1.2.1最大似然估计虽然我们已经介绍了N元模型的基本概念,但要真正使用它,还需要进行参数估计这一步,也就是将表1中的那些参数计算出来。以Trigram为例,用最大似然估计计算参数的公式为:(3)其中count(wi,wj)表示wi,wj在训练语料中同现的次数。最大似然估计可以计算出训练语料中出现过的N元组对应的Trigram参数,但如果我们碰到没有出现过的N元组怎么办呢?最简单的办法是认为那些参数为0,但这样做会导致系统的适应能力很低,一旦碰到未出现过的N元组,系统就基本上处理不了。为了解决这一问题,Laplace提出了一种简单机制,就是给每个N元组,无论其有无在训练语料中出现,都加上1。如下图所示。图2:Laplace法则PLap(w1,wn)=count(w1 ,wn)+1/(C+B)C: 训练集中N元组出现的总次数B: N元参数的总个数Laplace法则可以粗略解决“0次数”问题,但它将所有未出现的N元组都赋予出现次数1是不符合语言模型的实际情况的,因为很多词的组合(N元组)其实根本就不存在。Lidstone在Laplace的基础上又做了一点改进,他给所有N元组加上的不是整数1,而是一个待确定的小数。如下图所示。图3:Lidstone法则PLid(w1,wn)=count(w1 ,wn)+B/(C+B)C: 训练集中N元组出现的总次数B: N元参数的总个数:待确定的小数是一个小于1的小数,可以在通过如下方式训练得到:将训练语料分为2部分A和B,首先用A对N元模型进行训练,然后对B进行预测,调节直到1,使得对B的预测达到最佳;然后用B作训练,A作测试,调节直到2, 使得对A的预测达到最佳;最终的值为1和2的算术平均值。2.1.2.2参数平滑Laplace和Lidstone法则仅仅是对“0次数”问题的一个粗糙的解决方式,它们都无法针对不同的N元组做出不同的预测,我们需要更为细致的参数平滑算法来帮助我们进行参数估计。从机理上划分,目前的参数平滑算法可以分为折扣法(Discounting)、回退法(Back-off)和插值法(Interpolation)。在这里我们只介绍其中的回退法。回退法是最常用的一种平滑算法,它的基本思想是当高阶参数不存在时,回退到低阶参数,当然,为了保证每一阶参数的总和要为1,对于那些存在的参数要进行一些减弱。我们以Modified Kneser-Ney Smoothing为例来介绍回退法,这种平滑方法被认为是对于N元模型最有效的平滑算法之一,也是本文所实现的系统中所实用的方法。Modified Kneser-Ney Smoothing算法见图4。从图4中我们可以看出,对于已经存在的N元组,Modified Kneser-Ney Smoothing根据他们出现的次数给出不同的消减,对于不存在的N元组,它根据一定的比例回退到低阶参数,而低阶参数的计算和高阶类似,可以回退到更低阶。值得注意的是Modified Kneser-Ney Smoothing对于一元参数的计算方法,它没有使用语料中的绝对统计数目,而是用和它相邻的不同的一元组的数目,这样可以避免如下的错误回退发生:假设词组AB在语料中出现的频度很高,但是对于B而言,它只出现在A的后面,也就是p(B|A)=1,这样如果统计B的出现频度,是很高的,而当我们计算某个p(B|C)时,显然语料中找不到CB这个词组,因而回退到p(B),而p(B)的值是很大的,这样就形成了一种误导。而如果我们用B左边出现的不同词的个数作为一元概率的统计基础,那么B左边只有A这一个词,个数为1,当我们再回退到B时,就不会出现很高的概率,从而避免了这种误导。图4:Modified Kneser-Ney Smoothing其中: nx为次数为x的n元组的个数2.2 隐马尔可夫模型2.2.1 定义隐马尔可夫模型(Hidden Markov Model)是自然语言处理和语音识别中又一非常常用的数学模型,它于20世纪60年代末被Baum提出,在70年代处被CMU的Baker第一次用于语音识别,其后慢慢流行开来并被用于自然语言处理的一些领域中。它假设在观测现象的背后有一系列隐藏的状态,观测序列是由这些隐藏状态序列所生成,其定义如下图所示。图5:隐马尔可夫模型隐马尔可夫模型可表示为一个五元组: (x , o, A, B, )其中: x = q1,., qn:隐状态的有限集合 o = o1,.,om:观测现象的有限集合 A = aij,aij = p(Xt+1 = qj |Xt = qi):转移概率 B = bik,bik = p(Ot = ok | Xt = qi):输出概率 = i, i = p(X1 = qi):初始状态分布和隐马尔可夫模型相伴随的一般有三项假设:马尔可夫假设、不动性假设和输出独立性假设。马尔可夫假设是假设状态序列满足一阶马尔可夫性,即某一状态序列出现的概率只和它前面一个状态相关,这点和二元模型是一致的;不动性是状态的转移和时间无关;独立性是某一观测现象只和当前状态相关。如果我们用O1 ,O2,OT表示观测序列,X1 ,X2,XT表示状态序列,这三项假设可以用下图表示。图6:隐马尔可夫假设马尔可夫假设: p(Xi|Xi-1X1) = p(Xi|Xi-1)不动性假设: p(Xi+1|Xi) = p(Xj+1|Xj),对任意i,j成立输出独立性假设: p(O1,.,OT | X1,.,XT) = p(Ot | Xt) 2.2.2 和HMM相关联的三个问题和N元模型一样,在给出了定义之后,我们自然想到如何去训练和使用它。一般而言,和隐马尔可夫模型相关的有三个经典问题:评估问题,解码问题和学习问题。以下我们将分别介绍。2.2.2.1评估问题(前向算法)评估问题是给定模型,求某一观测序列O1,.,OT的概率。为了简化这个问题,我们首先假设观测序列是由状态Q=q1,qT生成的,在这个假设下,观测序列的概率为:(4)而给定,状态序列Q=q1,qT的概率为:(5)由于我们并不知道观测序列是由哪一种状态序列所生成,我们必须考虑所有的情况,也就是:(6)公式6给出了计算观测序列的方法,但从公式中我们可以看出,其时间复杂度很高,假设状态空间长度为N,q1,qT有NT种可能组合,而总的时间复杂度将为:指数级复杂度的算法在实际应用中一般是无法实现的。为此我们引入动态规划来缩减计算量,由于HMM中的状态的转移概率只和其前一状态相关,这给我们的计算带来了很大好处。我们定义前向变量it为:给定模型,在t时刻状态为Si的部分观测序O1Ot的概率。用公式表述如下:(7)基于it,kt+1可以计算为:(8)这是一个迭代公式,其初始值为:(9)而我们最终所要得到的结果为:(10)而对于公式10的迭代计算,在每一个观测值我们要考虑所有N个状态,对于每个状态我们需要考虑其前面N个状态,那么总的时间复杂度为N*N*T=N2*T,大大小于先前的NT*2T,这个复杂度是可以实现的。2.2.2.2解码问题(韦特比算法)解码问题就是给定,模型和观测序列,找到最可能的状态序列。这个问题也是HMM在大多数实际应用中的运作方式。比如对于词性标注,我们把词看作观测序列,词性看作状态序列,标注的过程就是找到最可能的状态序列的过程。对于解码问题的精确数学描述如下:(11)事实上解码问题和评估问题很相似,评估是计算所有可能的状态序列产生的观测序列的概率的总和,而解码则是从这些状态序列中挑出最有可能的,也就是概率最大的。和评估问题类似,如果我们遍历所有可能的状态序列,计算的时间复杂度会很高,我们同样采用动态规划来解决解码问题。我们定义it为t时刻到达状态i的最优路径(状态序列):(12)这样在t+1时刻到达状态k的最优路径为:(13)对于每个状态,我们通过公式13选择其最优的前一状态并记录下来,一直到最末的状态T,然后遍历T的各个状态,选择最优的一个,最后通过各状态的前驱得到完整的最优路径,也就是状态序列。这个过程可以用下图表示。图7:韦特比搜索初始化:1= i = N迭代向前:1= k = N ; 2= t = T结束:2.2.2.3学习问题(前向后向算法)学习问题也就是训练问题,即给定观测序列,找到最优的,使观测序列的概率也就是P(O|)最大。这个问题是三个问题中最难的一个,一般我们用前向后向算法(EM算法在HMM参数估计上的应用)来预测。包含三方面,初始概率分布、状态间转移概率、和状态到观测值的生成概率。我们首先来考虑如何计算这三种参数的期望值。首先我们引入后向变量jt:给定t时刻的状态Sj和模型,部分观测序列Ot+1 Ot+2 OT的概率。(15)我们定义t(i,j)为:给定观测序列和模型,在时间t为状态Si,在时间t+1为状态Sj的概率:(14)带入前向和后向变量,t(i,j)可表示为:(15)那么在时刻t状态为Si的概率rit为:(16)从而状态Si的期望次数为:(17)从状态Si转移到Si的期望次数为:(18)从公式17、18,我们可以给出HMM各参数的期望值,然后修正后的模型参数又可以用来计算状态的期望次数以及状态转移的期望次数,如此循环,直到收敛,也就是我们所要求的最优参数。算法如图8所示。图8:前向后向算法初始化:给设置初始值,1=i,j=N; 1=k=T迭代:循环进行下面的迭代直到收敛。1 用公式15和16计算t(i,j)和rit的值,1=i,j=N; 1=t=1-A (for all A 0)带入35式,我们得到:(36)由上式可以看出,只要我们能找到使A(|)0,那么新的模型相对于旧的就是一个改进,为了让模型尽快收敛,我们寻找使A(|)最大的。注意到如果将目前的A(|)以i为变量微分并令之为0,我们得到的等式中包含12,n,这样我们仍无法简单地计算出i。如果我们能把exp中的其他换出来,就可以比较方便的对A(|)进行微分。为此我们将36式改写为:(37)其中f#(x,y)为:(38)也就是 (x,y)所满足的特征函数的个数,由于:我们可以把看作一个随机变量的分布,而exp为一个凸函数,那么应用Jensen不等式:E(exp(x)=exp(E(x),我们得到:(39)现在我们将B(|)微分,就得到最终我们要求的等式:(40)上面方程的解即为我们所求的i。如果对于所有的(x,y) f#(x,y)为定值,我们可以方便的求得i,否则,我们需要借助一些求根方法如牛顿法来解方程40。基于上面的解释,我们给出训练最大熵参数的迭代算法(Improved Iterative Scaling): IIS Algorithm1. 给出12n的初值2. 循环下列两项操作直到收敛解方程i +=i2.4 小结本章详细介绍了自然语言处理中常用的三种统计模型:N元模型、隐马尔可夫模型和最大熵模型。这些模型是基于大规模语料库的统计自然语言处理的理论基础。N元模型是对语言本质的一种描述,是目前为止语音识别中最有效的语言模型;隐马尔可夫模型是自然语言处理和语音识别中应用最为广泛的模型,在很多领域得到了成功的应用;最大熵模型是功能很强大、很有前景的一种统计模型,它可以有效地综合多种特征,但其使用也最为灵活和复杂。如何有效地运用和融和这些模型是统计自然语言处理要解决的问题之一,也是本文试图在中文分词、分句和机器翻译评估这三项的实际应用中探索的问题。第三章 基于隐马尔可夫模型的一体化中文分词方法本章将详细介绍我们所实现的通用分词系统APCWS的理论基础和实现细节。如第一章的概述部分已经介绍的,作为分词中紧密关联的两方面,词语边界消歧和未登陆词识别常常在一个一体化的模型中加以实现,但是词性标注却很少被包含在那些一体化系统里。一般而言未登陆词识别包含两步:确定新词边界和判断新词的词性,后者实际上就是对新词的词性标注,所以我们没有理由只对新词进行标注而不标注那些词典中已有的词。事实上,词性标注对于分词也是有促进的高山等,2001。基于上面这些考虑,我们以隐马尔可夫模型为基础实现了一个包含了分词、词性标注和新词识别这三者的一体化分词系统,我们期望它能带来更好的效果。我们的一体化分词中所使用的隐马尔可夫模型最初是基于类别的,也就是以词性间的转移概率为状态的转移概率,这样做可以有较高的召回率,但是在准确率方面不如基于词的隐马尔可夫模型。于是我们将基于类别的和基于词的模型合并起来,形成一个混合的模型。在此基础上,我们又提出 “词到字”的概率平滑方法并将其使用在混合模型中。这一系列改进都起到了很好的效果,最终将我们系统的性能提升到了很可观的高度。本章将详细介绍整个系统的理论框架以及实现细节,具体安排如下:第一小节介绍国内外相关工作;第二小节介绍系统所使用的基于类别的隐马尔可夫模型;第三小节介绍两种模型的合并以及“词到字”的平滑方法;第四小节介绍实验结果;第五小节介绍系统的构架和实现;第六小节是本章的小结。3.1 相关工作自动分词作为中文处理的重要初始化步骤,一直受到国内外学者的关注,也是大家颇为头疼的问题之一。不像英语等字母文字,汉语书面语的词和词之间没有间隔,这样在进行汉语的机器翻译、语音合成等及检索等应用时,就必须先分词。而对于分词来说,主要有两个问题需要解决:词语边界的歧义问题和未登陆词
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 布病防治知识课件
- 2025年金属非金属矿山-露天矿山模拟考试题库(附答案)
- 双十二创意活动策划方案
- 秋季学期开学教师大会校长讲话:状态归位、课堂归真、情绪归稳
- 2025-2026学年秋季第一学期学校德育工作安排表
- 兴趣班活动方案
- 市场营销课件
- 客服个人年度工作方案
- 幼儿园安全教育方案
- IV室内的多学科护理查房
- 变电站一次设备培训
- 桥下渣土处置方案(3篇)
- 2025年 杭州市余杭区卫生健康系统招聘医学类专业毕业生笔试考试试卷附答案
- 利用乳酸菌半固态发酵提升糙米食用感官与营养品质的研究
- 船体抢修方案(3篇)
- 智人迁徙路径重构-洞察及研究
- 关于医院“十五五”发展规划(2026-2030)
- 生物多样性保护与利用专项债项目可行性研究报告
- 吊桥浮桥安全管理制度
- T/CCSAS 023-2022危险化学品企业紧急切断阀设置和使用规范
- 员工签署自愿离职协议书
评论
0/150
提交评论