




已阅读5页,还剩21页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
汉英双向时间和数字命名实体 的识别与翻译系统 汉英双向时间和数字命名实体 的识别与翻译系统 翟飞飞翟飞飞翟飞飞翟飞飞 夏睿夏睿夏睿夏睿 周玉周玉周玉周玉 宗成庆宗成庆宗成庆宗成庆 中科院自动化所中科院自动化所中科院自动化所中科院自动化所 模式识别重点实验室模式识别重点实验室模式识别重点实验室模式识别重点实验室 问题的提出问题的提出 无论是新闻或口语 时间数字都比较常 见 占据比重较大 表达形式比较规范 构造形式简单 有较 为明显的规律可循性 对于翻译评测中的测试集而言 时间数字 经常可能归为未登陆词范畴 综上所述 如果对翻译中的时间数字不做 特殊处理 对最终的翻译性能造成的影响 较大 基本思路基本思路 时间数字处理基本方法 时间数字处理基本方法 基于统计的机器学习方法 基于统计的机器学习方法 利用人工标注的语料 进行训练 学习模型从语言现象中学习识别和翻译规 则 缺点在于常常受到训练语料规模和表现形式的约 束 而且不同语料可能采取的表达和翻译方式不完全 一致 比如口语与新闻差别很大 基于规则的方法 基于规则的方法 主要是通过人工总结来编制识别 和翻译规则 不依赖语料规模 也不需要标注和训 练 具有简单高效的优点 基本思路 续 基本思路 续 将时间类和数字类命名实体细化为六类 并分别制定识别规则和翻译规则 将时间类和数字类命名实体细化为六类 并分别制定识别规则和翻译规则 1 数量 数量 Number 2 序数词 序数词 Ordinal 3 数码 数码 Figure 4 时间 时间 Clock 5 日期 日期 Date 6 星期 星期 Week 识别规则设计识别规则设计 包括实体边界识别和确定实体类型两个 任务 包括实体边界识别和确定实体类型两个 任务 数量和数码识别数量和数码识别 获取阿拉伯数字串和汉语 英语词串 以左邻词和右邻词为依据区分数量与数码词 时间 日期 序数词 星期识别时间 日期 序数词 星期识别 获取对应类别的名词词缀 利用习惯和常用形式对获取的名词和已识别得到 的数字表达式进行组合 以左右相邻词或中间连接词作为识别标志 英语识别规则设计英语识别规则设计 实体类别主要识别规则介绍 数量 实体类别主要识别规则介绍 数量 Number 1 英语数量单词组合 如 英语数量单词组合 如 two thousand five hundred and fifty 二千五百五十 二千五百五十 2 带带point英语数量词组合 如 英语数量词组合 如 one point five million 一百五十万 一百五十万 3 混合阿拉伯数字表示数量 如 混合阿拉伯数字表示数量 如 1 53 million 一 百五十三万 一 百五十三万 4 分数 百分数 如 分数 百分数 如 three sevenths 七分之三 七分之三 thirty two percent 百分之三十二 百分之三十二 数码 数码 Figure 连续英文数字组成数码 如 连续英文数字组成数码 如 one two three 一 二 三 一 二 三 序数 序数 Ordinal 1 英文单词组合 如 英文单词组合 如 thirty second 第三十二 第三十二 eighteenth 第十八 第十八 2 阿拉伯数字加后缀 如 阿拉伯数字加后缀 如 36th 第 第36 英语识别规则设计英语识别规则设计 实体类别主要识别规则介绍 时间 实体类别主要识别规则介绍 时间 Clock 1 两个英文单词组合 如 两个英文单词组合 如 eight twenty two 八点 二十二分 八点 二十二分 2 带带past 或或 to的时间表示 如 的时间表示 如 eight past ten 十点 八分 十点 八分 3 带带quarter的时间表示 如 的时间表示 如 a quarter to ten 十点差一刻 日期 十点差一刻 日期 Date 常用日期表示方法 如 常用日期表示方法 如 10 september 2008 2008年年9月月10日 日 october tenth 2008 2008年年10月月10日 日 10th of september 9月月10日 星期 日 星期 Week 表示星期的单词 表示星期的单词 Monday 星期一 星期一 汉语识别规则设计汉语识别规则设计 实体类别主要规则介绍 数量 实体类别主要规则介绍 数量 Number 1 汉字表示数量 如 四十三 汉字表示数量 如 四十三 forty three 三万 三万 thirty thousand 2 混合阿拉伯数字表示数量 如 混合阿拉伯数字表示数量 如 3万 万 three hundred thousand 3 小数 分数 如 五分之二 小数 分数 如 五分之二 two fifths 十 五点二 十 五点二 15 2 4 大约的数量 如 七八百 大约的数量 如 七八百 seven or eight hundred 数码 数码 Figure 连续的中文数字组成数码 如 二六二一零 连续的中文数字组成数码 如 二六二一零 two six two one zero 序数词 序数词 Ordinal 特殊词特殊词 第第 加数量词构成序数词 如 第二十四 加数量词构成序数词 如 第二十四 twenty fourth 汉语识别规则设计 续 汉语识别规则设计 续 实体类别主要规则介绍 时间 实体类别主要规则介绍 时间 Clock 1 确切的时间 如 确切的时间 如 7时时25分 分 seven twenty five 八点零八分 八点零八分 eight past eight 2 表示时间的特定词 如 八点一刻 表示时间的特定词 如 八点一刻 eight fifteen 日期 日期 Date 1 汉字表示日期 公元二零零八年八月八日 汉字表示日期 公元二零零八年八月八日 eighth August 2008 A D 2 阿拉伯数字加表示日期的词缀 阿拉伯数字加表示日期的词缀 1990年年6月月23 日 日 23th June 1990 星期 星期 Week 表示星期的前缀加对应汉字 星期一 表示星期的前缀加对应汉字 星期一 Monday 周日 周日 Sunday 翻译规则制定翻译规则制定 翻译规则翻译规则 找到字串中特殊的名词词缀 确定字串中名词词缀和数字表达式的相对位 置 利用习惯或常用基准对识别的字串进行分解并 翻译 对翻译结果进行重排序 汉英翻译规则制定汉英翻译规则制定 规则规则举例举例 数量 阿拉伯数字 英语 数量 数量 阿拉伯数字 英语 数量 三百二十八 三百二十八 328 three hundred and twenty eight C1 C2 C3 E1 E2 E3 零一零五三 零一零五三 zero one zero five three C1 点点 C2 分 分 E1 E2八点 二十五 分 八点 二十五 分 eight twenty five C1 年年C2月月C3号 号 E3 E2 E1 二零零九 年 十月 一日 二零零九 年 十月 一日 first October 2009 汉汉 语语 星期星期C1 E1星期天 星期天 Sunday 英汉翻译规则制定英汉翻译规则制定 规则规则举例举例 数量 阿拉伯数字 汉语 数量 数量 阿拉伯数字 汉语 数量 one thousand two hundred 1200 一千两百一千两百 E1 E2 E3 C1 C2 C3 five nine six 五 九 六 五 九 六 E1 past E2 a m 上午 上午 C2点点C1分分 eight past ten a m 上午 十 点八分 上午 十 点八分 E1 E2 E3 C3 年年C1月月 C2日日 September 10th 2008 2008 年年9月月10日日 英英 语语 E1 星期 星期C1Sunday 星期日 星期日 系统实现系统实现 系统由 汉到英 和 英到汉 两部分组成 每个部分 结构相同 都包含3个基本模块 识别模块 翻译模 块和输出模块 汉语时间数字识别和翻译实例汉语时间数字识别和翻译实例 源语言句子 识别模块 翻译模块 输出模块 识别为日期实体 识别为星期实体 英语时间数字识别和翻译实例英语时间数字识别和翻译实例 源语言句子 Septembersecondthirtytheiseighthday 识别模块 识别为日期实体 is识别为序数词实体 翻译模块the 输出模块 september eighth 9月8日 is the thirty second 第三十二 day September eighth 9月8日 thirty second 第三十二 系统测试系统测试 使用CWMT09新闻语料对汉英双向时间 数 字命名实体识别及翻译系统进行测试 测试 结果如下表 语言语言句子数句子数系统抽取系统抽取 时间数字词数时间数字词数 错错 词数词数 准确率准确率 汉语汉语327632761698169810310393 93 93 93 英语英语34813481956956424295 40 95 40 测试结果分析测试结果分析 本系统对于汉语 英语时间数字命名实体的识别 和翻译准确率较高 但由于语言使用的灵活性 汉语和英语中存在几类时间数字使用规则方法难 以进行正确识别或翻译 主要体现在 汉语分词结果的准确率对时间数字识别和翻译的影 响较大 汉语使用过程中的一些习惯也造成了时间数字识别 和翻译错误 英语虽然没有分词 但是英语的时间数字使用较为 灵活 从而也造成时间数字的识别和翻译出错 测试结果分析 续 测试结果分析 续 汉语 具有连词意义的词或符号的使用 具有连词意义的词或符号的使用 例 七 八月份 七 seven 八月份 August 汉语中的一词多义 汉语中的一词多义 例 5点 可以作为时间意义 也可用作为 5点 意见 等的 列举使用 表示大约的词的使用 表示大约的词的使用 例 四百 多 万 四百 four hundred 多 万 测试结果分析 续 测试结果分析 续 英语 连字符号的使用 连字符号的使用 例 july 14 15 july 7月 14 15 多义用法的使用 多义用法的使用 例 three fifty five 可以表示时间 3点55分 也可以表 示数量 355 连词的使用 连词的使用 例 from 11 to 13 february from 11 to 13 february 2月13日 对翻译性能的影响对翻译性能的影响 时间数字识别与翻译模块在IWSLT09开发集上的影响时间数字识别与翻译模块在IWSLT09开发集上的影响 评测子任务评测子任务 BTEC DEV CTCE CRR DEV CTEC CRR DEV 测试句子数测试句子数250844471465 识别并翻译的识别并翻译的 时间数字数时间数字数 7518659 不加时间数字模块的不加时间数字模块的 BLEU 4打分打分 大小写不敏感 大小写不敏感 46 7539 1547 30 加入时间数字模块后 的 加入时间数字模块后 的BLEU 4打分打分 大小写不敏感 大小写不敏感 46 9439 4247 33 对翻译性能的影响对翻译性能的影响 续续 时间数字识别与翻译模块在IWSLT09测试集上的影响时间数字识别与翻译模块在IWSLT09测试集上的影响 评测子任务评测子任务 BTEC TST CTCE CRR TST CTEC CRR TST 测试句子数测试句子数469405393 识别并翻译的时间 数字数 识别并翻译的时间 数字数 399083 不加时间数字模块 的 不加时间数字模块 的BLEU 4打分打分 大小写不敏感 大小写不敏感 38 4730 6938 74 加入时间数字模块 后的 加入时间数字模块 后的BLEU 4打分打分 大小写不敏感 大小写不敏感 40 4334 3038 78 结 论结 论 在开发集和测试集上 时间数字模块的引 入对翻译都产生了比较好的影响 提高了 翻译的质量 由于测试集数目小 而所占的时间数字比 重比较大 所以时间数字模块对于测试集 的效果比开发集要明显很多 结 论 续 结 论 续 对于汉英翻译而言 因为汉语的分词倾向于将所 有的时间数字合并成一个词汇 也就是说 一二三 会是一个词汇 粒度较大 这样对于测试集而 言 很可能属于未登录词 所以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民宿旅游土地租赁合同:特色厂房改造及民宿项目合作
- 互联网企业核心团队竞业禁止及数据保密合同
- 住宅小区物业移交及智慧社区建设合作协议
- 精英主播与直播美食平台签订的独家合作协议范本
- 建筑工程施工合同书 ( 镶 贴 工 )3篇
- 乡村振兴战略下的教育公平-洞察及研究
- 城乡生态衔接设计-洞察及研究
- 汽车租赁合同电子版下载打印3篇
- 圆梦杯竞赛试题及答案
- 医学考试真题题库及答案
- 车辆安全培训课件
- 装修电工施工方案(3篇)
- esg考试试卷问题及答案
- 村医依法执业培训课件
- 外科面试题目及答案
- 翻越您的浪浪山新学期开学第一课+课件
- 医院反恐知识培训课件
- 《不懂就问》教学课件
- 重症肺炎的体位管理
- 2025年干粉砂浆添加剂市场需求分析
- 2025年食堂人员培训试题及答案
评论
0/150
提交评论