论述规则和统计相结合的句法分析一致性检验论文_第1页
论述规则和统计相结合的句法分析一致性检验论文_第2页
论述规则和统计相结合的句法分析一致性检验论文_第3页
论述规则和统计相结合的句法分析一致性检验论文_第4页
论述规则和统计相结合的句法分析一致性检验论文_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第第页论述规则和统计相结合的句法分析一致性检验论文国外很多讨论者在建立句法分析模型方面做出了许多探究。斯坦福高校的RogerLevy等人提出了分析汉语语料的困难,他们通过分析汉语语料库发觉,一些类型的标注错误是由于汉语语法内在的歧义引起的。有些错误是标注阅历导致的。通过最大似然估量PCFG特征模型,能够提高句法分析的精确率。针对汉语树库完全句法分析全都性检验的讨论,目前国内不是太多,较多的是关于句法分析自动标注的解决方法。詹卫东等人分析句法格式,总结了许多句法结构歧义类型,分析特征,并通过检查树库统计了典型类型的数量。魏莉等人分析完全句法分析语料库,探究分词标注、词性标注和句法结构标注三个方面的错误现象,发觉并修正。这些讨论方法对于句法分析全都性检验有很好的借鉴作用。

本文采纳的方法是选择完全句法分析树库的部分语料进行讨论,分析标注错误的现象,从单个句法分析标记不全都和句法分析层次结构标注不全都的现象中学习,使用基于规章和统计相结合的方法检查发觉不全都问题,并通过人工或机器自动修正。

一、完全句法分析不全都现象

遍历完全句法树库,通过分析发觉,可以总结为两种类型的不全都现象,一种是单个的句法标记,另一种是句法结构标注。完全句法分析树库中的标注一般有两类,功能标记和结构标记。功能标注主要是分析句法成分的组合关系。结构标记主要是表达句子的语义关系。

引起人工标注的完全句法分析语料库不全都现象的缘由有许多,包括标注者对标记的理解程度,标注阅历,以及标注的专注程度。由于参加构建大规模句法树库的人员众多,理解方式的不全都很简单引起标注不全都。不同标注者可能发生标注不全都,同一标注者可能标注前后不全都。因此很有必要通过机器进行检查,修正这些现象,提高完全句法树库的精确率。

(一)单个句法分析标记标注不全都

对于人工标注的标记符号错误的地方,可以直接设计算法,抽取全部标记一一和标记库进行对比。完全句法分析树库的两种标记功能标记和结构标记都有可能消失标注不全都现象。通过遍历树库发觉不全都,并进行分析。

由于汉语中有许多兼类词,因此会消失同一词汇标注的词性不一样,进而功能标记和结构标记都会发生改变。例如短语“临动身”“陆”是一个兼类词。临这个字在语料中消失了标注不全都现象,一种标注为动词,相应为述宾结构,动词性短语;另一种标注为介词,相应为介宾结构,介词短语。根据汉语语法“陆”放置在动词“动身”前,应当理解为做介词用。因此正确的标注应当是介词,介宾结构,介词短语。可见,兼类词是检查的重点,词性标注错误可能会导致功能标记和结构标记标注错误。

(二)句法分析结构标注不全都

完全句法分析与浅层句法分析不同,分析标注的是整个句子的结构关系。各个词语之间的层次关系可能会消失组合挨次的不全都。特殊是嵌套的句法结构,很简单有歧义。

例如短语“喜爱说话的女孩”。可以有两种理解。一种是描述一个女孩她喜爱说话,理解为“喜爱说话”是用来修饰“女孩”的,此短语整体看是定中结构。另一种可能是某人喜爱的是说话的女孩,而不是没说话的女孩,仅“说话”这个词修饰“女孩”,此短语整体看述宾结构。

可见,不同的理解句法分析标注的结构会消失不全都的现象。这就需要依据上下文语境,推断应当是哪种标注结果。

二、完全句法分析全都性检验策略

完全句法分析全都性检验的目的是发觉不全都现象,并修正错误的句法分析标注。引起不全都的缘由是多元的,但是可以归结为以上两种,通过分析这些错误标注的不全都现象,我们发觉需要选用不同的检查方式来处理。

(一)基于错误驱动的单个标记不全都校验

针对单个句法分析标注不全都的问题,可以使用基于错误驱动的方法来发觉不全都现象并修正。错误驱动的方法是指分析提取错误标注的特征,编写相应的转换规章,使用规章去检查整个语料,自动发觉错误标注现象,并进行修正。单个句法分析标注的问题是结构标记和功能标记标注不同引起的。修改单个句法分析标注并不影响句法结构层次的改变,可以使用句法标记规章统一修改。

详细的操作步骤可以通过一个例子进行观看。例如“陆动身”这个短语,他是介词加动词的结构,检查上述结构类型的句法和功能标记的`标注问题。当遍历句法分析树库时,假如发觉有标错的现象,即介词加动词的结构,但没有被标注成介词短语,介宾结构,就可以针对错误的标记,通过错误转化方法,使用规章检查并修改成正确的标记。用这个规章去检查其他的标注错误现象并自动修正。此方法可以归纳为三个步骤:找到错误,编写规章和修正错误。

(二)句法分析结构标注不全都校验策略

完全句法分析剖析的是整个句子的结构。仅仅基于规章的句法标注检查是不行靠的,基于大规模语料的统计的方法更为有效。张浩等人也是通过分析语境,选用中心词作为切入点,建立PCFG模型句法分析器,使得句法分析器的效果得到提升。此外,周强等人也提出通过分析句法结构中组合的先后次序,使用概论统计模型来推断句法分析标注结果,使得句法分析的精确率得到提高。针对本文探究的问题,如何推断句法分析标注的层次标注问题也是需要分析语境,依据句子的语义,词语之间的关系,分析词语是如何组成短语,短语是如何组成句子的。针对句子层次结构组合的不全都不行能通过规章的方法修正,但是可以通过建立统计概率模型,发觉可能消失句法层次结构标注错误的地方,然后进行人工修正,这样节约了时间和人力。

句法层次结构和句中词语之间的紧密程度有关。句中的某一个词语是先和左边的词语结合,还是先和右边的词语结合,这是一个二选其一的问题,除了句子的首个词语和末尾词语。我们通常认为,在语境相同的状况下应当有相同的结合挨次。对于大规模完全句法树库,我们可以利用分类的方法,支持向量机(SVM)来解决。核函数可以选择高斯核函数。

建立概率统计模型,需要选择特征作为推断的根据。完全句法分析树库的基层标注信息是分词和词性。DanKlein等人提出了非词汇的PCFG模型,取得的句法分析效果也较词汇化模型更简洁。可见,词语即词的外部形态千变万化,不简单把握规律。但是词性的标记却能反映词语内在的功能,影响功能标注和语法标注的结果。针对句法分析中左右组合的问题,可以通过核心词语及待推断词语它的词性及其上下文词性环境来做出统计,建立特征模型。

首先要界定语境的范围,通过试验发觉选用前后四个词语进行统计时,计算的空间和时间代价比较合适。然后遍历完全句法分析树库,通过概论统计的方法,计算这些词语的词性和词语转移概率,这样可以看出词语间优先组合的频率。训练数据得到后,将核函数引入,通过参数的调整,查找一个超平面将高维空间分割成两半。用这个训练得到的结果再去分析测试语料,就可以给出左右结合的推断结果。假如树库语料的组合结果与概率模型的统计结果不全都,就需要人工进行推断,进而修正标注。

三、结论

我们对10000句完全句法分析树库进行测试,试验结果显示,单个句法分析标注不全都的现象占到整个检测结果的31%,句法分析结构标注不全都的现象占到69%。句法分析不全都检查的精确率为87.6%,召回率为94.8%。

关于精确率的问题,通过分析发觉主要是有两方面缘由。针对单个句法分析标注不全都的问题,使用的修正规章中有些是不适用的,有些问题不能一刀切。针对句法分析结构标注不全都的检查,我建立的统计概率模型考虑的特征还不够多,没能真正反映左右组合的规律。需要进行深化反复的讨论试验。

召回率的结果反映出,单个句法分析标注和句法分析结构标注的问题的确是不全都现象的根源,通过错误驱动的方法和概率统计模型的方法能较好地完成检查不全都的任务,对于单个句法标记的问题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论