Python自然语言处理 课件 06-2-句法分析的数据集和评测方法_第1页
Python自然语言处理 课件 06-2-句法分析的数据集和评测方法_第2页
Python自然语言处理 课件 06-2-句法分析的数据集和评测方法_第3页
Python自然语言处理 课件 06-2-句法分析的数据集和评测方法_第4页
Python自然语言处理 课件 06-2-句法分析的数据集和评测方法_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

句法分析Python自然语言处理第六章CONTENT目录

01句法分析概述02句法分析的数据集与评测方法03句法分析的常用方法04使用StandfordParser的PCFG算法进行句法分析课前回顾基本概念基本方法02句法分析的数据集与评测方法句法分析的数据集句法分析的评测方法句法分析的数据集统计句法分析方法自20世纪80年代提出以来,受到了众多学者的关注。由于这种方法既有规则方法的特点,又运用了概率信息,因此,可以认为是规则方法与统计方法的紧密结合。统计句法分析方法一般都离不开语料数据集和相应的评价体系的支撑。句法分析的数据集相较于分词或词性标注,句法分析的数据集要复杂的多,其是一种树形的标注结构,因此也称为树库,如图是一个典型的语料标注。句法分析的数据集根据所描述句子结构的不同,树库大体上可以分为两类:短语结构树库一般采用句子的结构成分描述句子的结构,短语结构树库顾名思义,可以同来提取短语,其目的是分析句子的产生过程。依存结构树库根据句子的依存结构而建立,依存结构描述的是句子中词与词之间直接的句法关系,相应的树结构也称为依存树。句法分析的数据集目前使用最多的英文树库来自美国宾夕法尼亚大学加工的英文宾州树库(PTB)。PTB的前身为ATIS(AirTravelInformationSystem)和WSJ(WallStreetJourna)树库,具有较高的一致性和标注准确率。句法分析的数据集近几年来,中文信息处理技术发展很快,进行中文树库句法自动标注研究的条件已基本成熟了,经过发展相继有了中文宾州树库(CTB)、清华树库(TCT)、台湾中研院树库等。中文信息处理技术发展快的原因如下:经过十几年的研究,汉语自动切分和词性标注的处理技术已达到成熟,为进一步进行句法分析研究打下了基础。近几年来对汉语句法分析方法、依存关系标注、基本句型分析等方面的探索,为进行比较系统全面的短语分析积累了丰富的经验。句法分析的数据集中文宾州树库(CTB)、清华树库(TCT)、台湾中研院树库等是比较著名的中文树库。中文宾州树库:是宾夕法尼亚大学标注的汉语句法树库,也是目前绝大多数的中文句法分析研究的基准语料库。清华树库:经过自动句法分析和人工校对,形成的高质量的有完整句法结构的中文句法语料库。台湾中研院树库:中国台湾中研院词库小组从中研院平衡语料库中抽取句子,经过电脑自动分析成句法树,并加以人工修改、检验后所得的成果。句法分析的数据集汉语树库的构建汉语树库构建的基础性工作是确定合适的句法标记集,不同的树库有着不同的标记体系。句法分析的数据集02句法分析的数据集与评测方法句法分析的数据集句法分析的评测方法句法分析的评测方法句法分析评测的主要任务:评测句法分析器生成的树结构与手工标注的树结构之间的相似程度。其主要考虑两方面的性能:满意度:句法分析器是否适合或胜任某个特定的自然语言处理任务;效率:主要用于对比句法分析器的运行时间。目前主流的句法分析评测方法是PARSEVAL评测体系,它是一种粒度比较适中、较为理想的评价方法,评价主要指标有标记准确率、标记召回率、交叉括号数。句法分析的评测方法--PARSEVAL评测体系标记准确率(labeledprecision,LP)表示分析正确的短语个数在句法分析结果中所占的比例,即分析结果中与标准句法树中相匹配的短语个数占分析结果中所有短语个数的比例。标记召回率标记召回率表示分析得到的正确短语个数占标准分析树全部短语个数的比例。句法分析的评测方法--PARSEVAL评测体系交叉括号交叉括号表示分析得到的某一个短语的覆盖范围与标准句法分析结果的某个短语的覆盖范围存在重叠又不存在包含关系,即构成了一个交叉括号,交叉括号数(CBs)表示一棵短语结构树中所包含的与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论