句法分析-中国计算机学会.ppt_第1页
句法分析-中国计算机学会.ppt_第2页
句法分析-中国计算机学会.ppt_第3页
句法分析-中国计算机学会.ppt_第4页
句法分析-中国计算机学会.ppt_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉语并列关系的识别研究,北京信息科技大学 研三 郑略省 2019/4/27,2,主要内容,研究的意义 并列关系的标注方式 并列关系的构成角色 并列关系的特征选择 实验结果分析 结论,3,研究的意义,自然语言深层处理技术已用于机器翻译、信息抽取和问答系统等方面 句法分析是自然语言深层处理的基础 依存句法比短语句法更容易处理,有,江南,南部,小到中雨,贵州,西部,将,华南,Root,SBV,COO,ATT,ADV,VOB,COO,ATT,4,研究的意义,目前依存句法分析研究的重心放在统一建模上,对汉语特殊结构的研究较少 McDonald的方法整体识别效果LAS 和UAS为78.2%,80.8% 并列关系识别效果偏低,正确率和召回率分别为64.0%, 54.8%,5,研究的意义,汉语并列结构研究主要在于识别并列结构的边界,并不能直接应用到依存句法分析当中 (贵州 南部 、江南 、华南 西部) 将 有 小到中雨,6,主要内容,研究的意义 并列关系的标注方式 并列关系的构成角色 并列关系的特征选择 实验结果分析 结论,7,并列关系的标注方式,依存语法中并列关系(COO)的标注方式由并列词组、核心词和尾词组成 并列词组,指的是在同一并列结构中发生并列关系的所有并列成分 核心词,指的是在并列词组中有一个并列成分充当核心节点的作用,其它并列成分均以核心词为父亲节点 尾词,指的是距离核心词最远的并列成分,8,主要内容,研究的意义 并列关系的标注方式 并列关系的构成角色 并列关系的特征选择 实验结果分析 结论,9,并列关系的构成角色,角色表是识别并列关系的基础。根据角色表,计算机能够理解汉语并列结构,贵州,O H O B O O B ,南部,江南,、,、,华南,西部,COO,COO,10,并列关系的构成角色,并列关系可分为无标记和有标记 无标记:结构复杂,不易识别 “指手画脚,照本宣科”,“深入细致,扎实有效” 有标记:结构上由并列标记连接 连词:和、与、并”,中国和南非 标点符号:主要是逗号为主,贵州,O H R B R I B ,南部,江南,、,、,华南,西部,11,并列关系的构成角色,有标记并列关系比较难识别的是嵌套并列关系,主要困难在于个别并列成分充当多重角色,老虎,H R B R X R B ,、,和,麻雀,竹,、,梅,COO,COO,COO,12,并列关系的构成角色,该文根据并列关系的特点和上下文信息,制定了完整角色表,13,主要内容,研究的意义 并列关系的标注方式 并列关系的构成角色 并列关系的特征选择 实验结果分析 结论,14,并列关系的特征选择,特征的合理选择是识别并列关系的关键。 特征集是判别某个词或字在并列关系中充当何种角色的主要依据。,15,并列关系的识别,特征集通常由未识别的词与其词性,上下文与其词性组成,或相互复合而成。如表,16,并列关系的特征选择,并列结构还有个很重要的特点,就是结构的平行性,也就是修饰词的共享或相似 各种/r 形/n 、 形/n 、 蝶形/n 当地/nl 群众/n 和 外地/nl 游客/n 并列结构还有其它表现形式,较难识别的是修饰词和被修饰词的词性均为“n”的情况 企业/n 及/c 投资/n 机构/n 政治/n 和/c 工资/n 待遇/n,17,并列关系的特征选择,18,并列关系的特征选择,19,并列关系的特征选择,以D表示词性为“n”的类别(A,Q,M,U),U表示词性非“n”。在特征集中引入D标记。,20,主要内容,研究的意义 并列关系的标注方式 并列关系的构成角色 并列关系的特征选择 实验结果分析 结论,21,实验结果分析,本文以HIT-IR-CDT前8000句作为训练语料,后1000句作为测试语料,每个句子的平均长度为21.3个词 MSTparser依存句法分析器是McDonald方法的实现,其作为Baseline对比方法,也在同等条件下进行训练和测试,22,实验结果分析,评测指标如下: 准确率=正确识别的数目/识别出的数目*100% 召回率=正确识别的数目/实际正确数目*100% F值= 准确率*召回率*2/ (准确率+召回率),23,实验结果分析,24,实验结果分析,分析主要的识别错误,主要分为两类: 难以利用语义的信息 全市/n 党政/n 机关/n 、/wp 事业/n 单位/n 公款/n 语料库规模较小 校园网/n 和/c 外面/nd 的/u 世界/n,25,主要内容,研究的意义 并列关系的标注方式 并列关系的构成角色 并列关系的特征选择 实验结果分析 结论,26,结论,本文采用分而治之的策略,利用并列结构的汉语特点,改善了并列结构的识别效果 下一步的工作总结汉语其它语言现象,改

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论