




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、改进的信源信道模型在中文分词中的应用Jianfeng Gao, Mu Li and Chang-Ning Huang微软亚洲研究院 概要这篇论文介绍一种新的信道模型在中文分词中的应用,以帮助理解中文句子的大意。中文词语被定义为四种类型(就分词系统而言):在词库中的语言,形态起源的词,要素词,名称词。我们的系统提供统一的方法处理这四种基本的类型中文分词,(1)词库词语处理(2)语形态分析(3)要素词语处理(4)名称实体词语处理。这套系统的效果,我们用一个有手动测试集,还对比其他的测试系统,(考虑到各种词语定义不同的中文分词系统)。1, 介绍中文分词是进行好多中文处理操作的第一步,有好多
2、的中文处理任务都是从这开始,所以,其吸引了好多的关注。这一任务之所以这么有挑战性,皆因中文中没有标准的分词词语类型定义。在些论文中,我们定义中文的词语类型有四种,在词库中词语,语义形态词,要素词,名称词(NER)。下面,我们将介绍一种解决方案以处理这四种类型的词语。 中文的书写是没有边界的。因此,不像英语,可能不值得分开中文分词解决方案和其他三种的解决方案。我们更喜欢可以理想地设计一种统一的方法来处理四个问题。这一统一的方法用在我们的系统中就是基于改进的信源信道模型来处理中文分词,其中有两个部件:一个信源模型和一个通信模型。信源模型用于评估一个词序生成的可能性,这里,一个词语属于一个一种词语的
3、类型。而对于每一种的词语类型,信道模型根据其类型评估字符串的生成意思。因此,就会有多个信道模型。我们会在本文中,展于我们的模型,这些模型都基于统计学的结构是标准的统计模型。 我们评价我们的系统的表现,用到了其它的测试集。同样会对比其它不同类型的分词系统,因为各个分词系统的词语类型的定义是不同的。 在本文的其它部分:第2部分讨论分词的准备工作,第3部分讨论定义中文词语的细节,第4到6部分具体地细节描述了改进的信源信道模型,第8节描述的系统的评价结果。第9节结论。 2, 前期工作历史上有好多的中文分词方法被提出,回顾一下有(Wu and Tseng, 1993; Sproat and S
4、hih, 2001),这些方法大概可以分为基于词库和基于统计学两种方向,但大部分的同类的分词系统都是基于这两种方法的混合。在基于词库的方法中,如cheng et al.,1999),给出输入的字符串,只有在库的词语能被鉴别。这种方法的准确性只是基于一个完善和大容量的词库,但这样是不能说是完全成功的,因为词语的发展太快了,变化也太快了。因此,除了词库外,好多 系统包括了特别的部件来处理未知词汇的鉴别工作。实际上,统计学的方法已经被广泛地应用在这些部分,因为统计学的方法是基于似然或基于得分处理来处理词语的分割。但统计学的方法也有三大缺点的,1)一些方法(如lin et al.,1993)定义鉴别不
5、知道的词语但没有鉴别他们的类型。例如:可以定义一个字符是一个单位实体,但没有定义这个实体是不是一个名称,这就不是很有用或很足够了。2)这些方法的似然模型(如Teahan et al.,2000)是由分割的文本集训练的,但不一定是有用的。3)鉴别不知道的词语后,结果不合语言的逻辑(如Dai et al.,1999),而需要额外的分析处理工作。 我们相信,不知道词语的鉴别应该在分词处理中进行,而不应该当成一个分开的问题。这两个问题应该在统一的方法里面得到很好的解决。一个解决的方法就是Sproat et al.(1996),是基于权值的量化数据。我们的方法是由同样的想法推动的。我们看来,改进的信源信
6、道模型,提供了一种灵活的方法来揉合词库和统计信息,各种不同的未在Sporat的系统中讨论的未知词语都在我们的系统中得到处理。 3, 中文词语中文词语没有标准的定义,在语言学中可能定义从多个方面定义了词语(如Packard,2000),但没一种定义和其它的定义是可以相同的。可喜的是,这根本不重要的,因为大众的最广泛的定义就应该是分词的应用和处理时的定义。我们定义中文词语有四种类型,(1)词库中的词(2)来源于语形态学的词(3)要素词(4)名称实体词,因为这四种词语在中文处理中有不同的功能,在我们的系统中会经过再加工和处理。比如,一些似是而非的语句中的词语分割(图一a所示),图一b是我们
7、的系统输出的结果,不同的词由不同的途径进行。图1图1:(a)一个中文的句子,斜线代表词语的分割(b)我们的系统的一种输出,中括号表示了词语边界,暗示一个语形态的边界。l 对于在库词语,词语边界被检测出来l 对于语形态词,他们的形态模式被检测出来了,如朋友们'friend+s'就是通过名词的附加法形成的,把们字加到朋友后。而高高兴兴就是高兴的另一种表示,是MR_AABB的模式。l 对于要素词,他们的形式和标准化的形式就会被检测到,如12:30,是十二点仓三十分的一种标准的形式l 对于名称实体词,同样也被检测到了,如李俊生'Li Junsheng'是一个人名(PN代
8、表人名)在我们的系统中,我们中统一的解决方案来检测和处理以上四种类型的词,这些处理工作是基于下面讨论的改进的信源信道模型。4, 改进的信源信道模型设S是一个中文句子,是一个字符串。各种可能的词语分割为W,我们就应该选择最可能的W*,其概率也最高P(W|S):W*=argmax(w)P(W|S),根据贝叶斯决定规则,去除不变的分母,我们可以这样表示最大的可能性:W*=arg(w)maxP(W)P(S|W).(1)根据第3部分的词语定义,我们这样定义词语集合C:图2(1)每个词库词语被定义在一个集合,(2)每个词形态词被定义在一个集合(3)每个要素词被定义在一个集合,例如:所有的时间表达被定义在T
9、IME集合里,(4)每种名称实体被定义在一个集合,例如:所有的人名被定义在一个PN集合里。因此,我们转变这些词语分割到一个词语集合序列C,可以Eq1写成C*argmax(c) P(C)P(S|C).(2)Eq2是信源信道模式处理中国文字分割的基本形式,模型假设有如下一个中国的句子: 首先,按概率分布P(C),一个人选择了一系列的输出(即C类别);再者,按概率分布P(SC)选出对每一句的字。 信源信道模式可以用另一种方式解释如下:P(C)是随机模型用来估计字类别的概率. 它 表明,在一定的背景下,类别发生的可能性. 例如,人的名字应用放在“教授”这个称号的前面. 如此 P(C)被当作是一种背景因
10、素影响后面的字符串. P(SC)则是计算字符串在一个字词类别中的可能性. 例如,“李俊生”字串更可能是一个人名,而“里生俊”'LiJunsheng'不是一个人的名字,因为在中国的姓氏来说,“李”是一种常见姓氏,但“里”就不是常见的. 所以P(SC)指示的更多是后面的类别。所以在我们的系统中是这样设计的,信源道道模式包含一个背景的模式,和多个不同的字词类别集,每个类别集有好多不相同的词语。如图2所示。 虽然Eq. 2显示的概率模型类别和背景模型可以通过大量简单合并来实现,但是实际上, 加权后会有更大的成效。 这里面有两个原因. 首先,由于训练集太小,能为我们提供最佳假设不实在,一
11、些类别的鉴别起来很吃力. 根据Eq. 2,概率模型结合的背景,估计有不良类别的概率,使背景模式变得没有份量. 第二,如图2级不同的类别由不同的方式形成的。(如姓名实体模型 Corpora培训模式、factoid模型,利用语言学知识). 因此,类别的数量的概率,在不同的动态范围里有好多不同。有一个折衷的方法是,为了增加几个数量的类别模式CW,每一个字词类别,调整 类别模式的概率P(SC)到P(SC)CW. 我们 的实验中,这种模式是如在一个发展中的数据集中,可以大大优化字词分割. 由于信源信道模式的作用,我们的分词系统处理里分两大部分。第一,如输入的字符为S,所有的候选字就会产生(储存在格子里)
12、. 每个候选字在其字词类别的概率和字词类别的概率P(S'C)表示出在S'的任何一个字串的总概率,二、根据Eq. (2),使用字母搜索(格子)找出最有可能的分割(即字词类别C*). 5, 类别模式概率给出一个输入的字串S,模型2 中的各个类别模式,都同时被应用到,而生产候选字词,使其概率是适当被指派到相应的类别模型: l 词库中的词,好多的子串S'S,我们假设P(S'|C)=1,并设这个词如不是词库中词,P(S'|C)=0l 语形态语,与词库中的词很相近,但一个语形态词库是用来代替词库中的词的。(详见5.1节)l 要素词语,对于每一种的要素词,
13、我们都定义为集合G,表现为FSTs。对于所有的S'S,如果其可以用G来表达,我们假设P(S'|FT)=1,并定义S'为一个要素候选对象,就象图一所示,“十二点三十分”是一个要素候选对象,表示为P(十二点三十分TIME)1,并且十二和三十都是要素候选对象,因为P(十二NUM)P(三十NUM)1l 名称实体,对于每一种类型的名字,我们用一个语法和统计的模式来产生候选集,如(5.2节所示) 5.1语形态上的字词在我们的系统的,对付语形态词具体分为5种的语形态模式,(1)附加,如朋友们(friend -;plural)'friends'(2)叠加,高兴
14、'happy'->高高兴兴'happily'(3)合并,上班'on duty'+下班'off duty'->上下班'on-off duty'(4)语气式的词 走'walk'+出去'out'->走出去'walk out'和(5)分隔(一种表达方式,一个词被分割开来,但语义面表示的意思没变。)吃了饭'alread eat',真实的意思是两个词吃饭,'eat'已经被'了'分隔开'already'
15、;。 真是好难把英语的技术上的事表达为中文(语言形态不一样),有两个重要原因:1)中文的语形态规则不是和英文的一样。如,英文中,要是复数形式的话可以加s,但中文中好少有对应的规则,“朋友”的复数还可以加“们”,但南瓜的复数就不能这样加了。2)中文对语形态规则的分析需要操作,这种操作如复制,叠加,分隔等,不是国际上所通常用的。 我们的处理方法是扩展词库。可以简单地做收集的工具,收集各种的语形态词语,分为上述的5种形式,然后综合起来,称之为语形态词典。有三部工作是要做的,(1)候选词的产生,是用一个语形态词的集合和一个大的训练集实现,如规则名词们,复数时一般有候选词是这样的(名称们),(2)统计过
16、滤,对于每一个的候选词,我们先获得一系统的统计数据如出现的频繁度,共有的信息,大训练集中的背景依赖。我们用一个信息的获得方法(在chien.1997;gao et al.,2002中有描述)去得到一个语形态的候选词,去除“不好”的候选集。在这个方法背后是一个稳定的可靠的大的训练集。这就是说,词语中的组成是十分相关的,同外部的训练序列有相当的关系。(3)语言学上的选择。我们会在最后手动地检查这些候选的词语,形成一个语形态词库,语形态的辨识就靠这个语形态词库了。 5.2名称实体我们认为有4种的名称实体词语:人名,地名,组织名称和外国翻译的名称。因为名称实体可以被一种或多种的形式来处理,我
17、们的系统处理时限制一种有效的候选集,给出输入的字串,有两部处理:第一,对于每一种类型,我们用一种约束的规则(是语言学上的规定和FSTs来代表)去产生一个最有可能的候选集。第二,每一个候选集被指派一个可能的类别模式,这些模式的定义都是代表了他们最相近的名称实体,用了最大相似的原则,也同时使用了一些平滑的方法。下面,我们会简要地说明一下这些约束和类别模式中国人的名称有两种的约束规则(1)名称规则,我们假设一个中文名包含姓和名,形态就是姓名,两个词都是一个或两个字符长(2)姓氏表,我们只认为在我们系统中的姓氏表的姓的字才是一个姓。(我们的系统只有373个姓)给出一个姓名的候选词,就是一个字符S
18、9;,类型概率就是P(S'|PN),计算方式如下:(1)姓氏的字的可能性为P(Sf|F);(2)名的字的概率是P(Sg|G)或P(Sg1|G1),(3)名的第二个字是P(Sg2Sg1,G2),例如:字符串“李俊生”是一个人名,如下面的公司来鉴别出来的。P(李俊生PN)P(李F)P(俊G1)P(生俊,G2).地方名和人名是不同的,没什么规则来适应地方名(LNs),我们假设候选词是S'(少于10个字符),如果下面的条件是满足的话(1)S'是一个地名列表中的实体(2)S'以标志性的词语结束,如市'city',P(S'|LN)就是被认为是地名的概
19、率。现在分析一个字符串“乌苏里江”'Wusuli river'.这就是一个名称的候选词,因为有标志性的词语“江”,而这个词是不是地名是通过这样的概率来判断的。P(乌苏里江LN)P(乌</LN>)P(苏|乌)P(里苏)P(江里)P(</LN>|江)组织名组织名(Ons)比个人名称(PNs)和地方名(LNs)要难判断。如组织,中国国际航空公司包含有地方名中国。 像地方名的定义,组织名候选词是一个少于15个字符S',如果它包含有一个在组织列表中的标志性的词,如公司,它就会被认定为一个组织名,我们介绍一下词语类别的分割S',C,组织的类型模式P(
20、S'|ON)覆盖所有的可能C,P(S'|ON)=cP(S',C|ON)=cP(C|ON)P(S'|C,ON).因为P(S'|C,ON)=P(S'|C),我们有P(S'|ON)=cP(C|ON)P(S'|C).我们假设,总数大约是P(C*|ON)P(S'|C*),其中C*是Eq2中最可能的词语类别分割,这就是说,我们用系统找出C*,但信源信道模型是以组织列表来鉴别的。 下面看一下前面的例子,假设C*=LN/国际/航空/公司,其中“中国”被认为是地方名称,其为组织名称的概率P(S'|ON)是这样鉴别的P(中国国际航空公
21、司|ON) P(LN/国际/航空/公司|ON) P(中国|LN) =P(LN|<ON>)P(国际|LN)P(航空|国际)P(公司|航空)P(</ON>|公司)P(中国|LN),其中P(中国|LN)是中国为地方名的类别概率。 外国名的翻译就像Sproat et al.(1996)所描述:FNs的翻译通常是使用发音相近的中国字来处理的。因为FNs通常是有无限制的长度和发音,这些只根据其原来的词。幸运的是,只有一小部分的中文字是常用于翻译之中。 因些,一个FN的候选词记为S',如果它包含一个翻译的词语在字符列表中(这个列表包含618个中文字),概率P(S'|F
22、N)用一种模式来鉴别。注意到,我们的系统中,一个翻译名可以是一个人名,一个地方名,一个组织名,只是取决于词语的背景。所以给定一个FN的候选,三个名称类别都有可能,其类别的概率为P(S'|PN)=P(S'|LN)=P(S|ON)=P(S|FN),换句话说,我们可以等到充分考虑背景因素后才决定词语的类型。6, 背景因素的评估本节描述的方法确定Eq2类别模式概率P(C)(即概率). 理想地说,给出一个有注释的集合,每一句被分割的词语都被鉴别到其词语类别中,其词语类别的概率会被用MLE等方法计算,这些方法会和一些背景方法(Katz,1987)来处理数据稀疏问题. 不幸的是,建设这种数据
23、集的费用是十分昂贵的. 我们的解决的办法是步步演进的加深方法在Gao et al. (2002). 它由三个步骤组成:(1)首先,我们用贪婪文字方法去分割,并取得了初步背景因素,都是基于初步的训练集; (二)用已有的模式重新获得数据集; (3)用重新获得的数据集获得背景模型. 重复步骤2和3直到系统的功能融为一体. 上述做法,背景模式的质量在很大程度上取决于模型的数据训练集的质量,由于两个问题而不能完全满足的. 一、贪婪文字方法不能分割之处理, 其实,这只能解决一部分. 第二,不少要素词语和命名实体不能确定,用贪婪文字方法也基于词库. 在处理第一个问题方面,我们在第一步的初始分割训练数据中,用
24、两个方法来解决词语分割的不明确性。词语分割的不明确性,可以分为两类,失迭的不明确和混合的不明确,如一个字符串ABC,可以根据不同的背景分割为AB/C或A/BC,ABC就只做是一个交迭的不明确(OAS),如果一个字符串AB,可以分为两个字符A/B,或一个词依靠于不同的背景,AB就叫做混全的不明确(CAS),在解决OA方面,我们定义所有的OASs在一个训练数据,将它与一个<OAS>交换,这样做,我们可能去除去除一部分的训练数据而包含OA的错误。 在解决CA方面,我们选时常发生的两字符词语,如才能和才/能,对于每个CAS,我们用CAS手动分割形成一个二进制的分类器,(基于空间矢量),这样
25、,每一个CAS的发生都在初始分割训练数据中,那一个相应的分类器用来决定CAS是不是应有的分割。 对于每二个问题,我们可以简单地用有限机械描述方法(如第5部分,发展一种处理机器问题的有效的约束来处理不明确问题)去决定初始分割训练集中的要素词,我们的NER方法是这样的:1,手动注释在小类里的名称集2,在种子集合中取得背景的模式,通过把新的词语添加到种子模式初始注释训练集,我们因此促进了背景模式。最后,我们用改进的背景模式用在第二和三步,我们的实验说明相关的小的子集(如1千万个字符,用了4个人大约三个星期去注释NE)是足够大的,足以应付数据背景的初始化。 7, 评价进行可靠的评估,人工注明
26、,制定了一套测试集. 这一测试集约50万汉字,已在校对和综合各因素如范围、形式、时间. 在我们的注释训练集前,必须回答几个问题:(1)分割靠特别的词库? (二)要假设一句话的正确的分割? (3)有什么评价标准? (四)如何进行公正比较不同分词系统? 就像前面所述,词语在真实的应用中来定义词是更有意义的。我们的系统中,一个词库(包含98,668个词语和59,285个语形态词)可以组成多个应用,正如亚洲语言的输入和网页搜索。因此,我们注释训练集是基于词库的。我们处理时是这样的,尽量根据词库分割词语。一个句子的分割词语有好多的形式,我们希望分割可以包容最少的词语。注释训练集包含247,039条目(2
27、05,162个词库/语形态词库词语,4,347PNs,5,311LNs, 3,850 ONs, 和 6,630 要素词, 等.) 我们系统的评估是通过precision-recall精确度查全率(P/R)pairs,F-measures等方法要处理每个词语分类。因为注释的训练集是基于一个特别的词库,如果和别的系统用到了不同的词库,那一些评价的手段是无意义的。因此在对比不同的系统时,我们关注NER的P/R和OAS的错误,因为这些手段是独立于词库的,通常有非常清楚的答复。 背景模式的训练集包含大约有八千万的中文字符,它们来自不同的地方如报纸,小说,杂志等。第5部分已经有训练集的描述。 7.1系统结果 我们系统的设计是这样的,各个部分如要素词语发现器和NER都可以分拆的,所以我们可以评估各个部分的作用和对整个系统的贡献。 结果已经在表格1中展示出来。表格一对比可知,用了贪婪文字分割方法的在第一行,用我们系统的BaseLine方法在第二行,这里只用到了词库,有意思的是第一行和第二行用词典方法已经能达到一个很好的查全率,但精确度就差一点了,因为它们都不能鉴别不在词库中的词语,如要素词和名称词。我们又发现,即使使用同样的词库,我们的方法是基于改进的信源信道模型胜过贪婪算法(有一个小小的,但统计上意思重大的数据不同),因为背景模式的应用使贪婪算法更
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025秋统编版三年级语文上册(2024)第七单元《习作 我有一个想法》练习题附答案
- 矿用维修工程车司机三级安全教育(公司级)考核试卷及答案
- 石油钻采设备装配检验工艺考核试卷及答案
- 石材磨边机校准工艺考核试卷及答案
- 柠檬酸发酵工上岗考核试卷及答案
- 2024新版2025秋青岛版六三制三年级数学上册教学课件:第6单元 美丽乡村-轴对称、平移和旋转现象 全单元(3课时)
- 信息技术试题及答案单招
- 服务心理学(第四版)课件 项目三 任务一 熟悉角色理论
- 自动化生产线设计调试常见问题及处理方法试卷
- 2025年XX学校临床医学专业大学生生涯发展展示
- 常见精神科药物的副作用及其处理
- 《公务员法解读》课件
- 《康复科病人营养治》课件
- 2024电力工程质量管理试题与答案
- 助贷电销知识培训课件
- 《风力发电培训》课件
- (完整版)高考英语词汇3500词(精校版)
- 大学生职业规划课件完整版
- 《大学语文》普通高等院校语文课程完整全套教学课件
- 学校护学岗制度
- 燕子矶水厂改建工程(净水厂工程)环评报告表
评论
0/150
提交评论