版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
|机器翻译在跨境电商的应用与研究目录CONTENT01阿里翻译技术平台概览0203翻译在跨境电商中的应用最新技术探索||阿里翻译技术平台概览01阿里翻译技术平台概览|5阿里翻译技术平台概览论文&专利•••发表60+
CCF
A/B类会议/期刊论文100+项专利ACL2022
Outstanding
Paper
Award国际评测•
WMT
21国际顶级机器翻译评测•
Quality
Estimation
Task
9个语向第•
Metrics
Task
5个语向第一•
术语翻译任务
英中第一•
2021年CommonGen文本生成大赛5月登顶LeaderBoard•
WMT
18国际顶级机器翻译评测•
翻译任务
5语向第一奖项•
工信部新一代人工智能重点任务揭榜计划、第一期人工智能产业创新“多语言智能翻译平台”揭榜优胜单位(仅3家)•
“面向全球电子商务的多语言处理技术与平台”获得浙江省科学技术进步二等奖|6|翻译在跨境电商中的应用02翻译在跨境电商中的应用-商品内容展示英语版俄语版阿语版标题单位UI框架|8翻译在跨境电商中的应用-商品内容展示英语版俄语版阿语版尺码详情描述|9翻译在跨境电商中的应用-商品内容展示英语版俄语版阿语版评论|10翻译在跨境电商中的应用-商品内容展示英语版俄语版阿语版问大家|11翻译在跨境电商中的应用-更多的跨语言场景买卖家沟通商品搜索|12翻译在跨境电商中的应用-多模态场景图片翻译|13翻译在跨境电商中的应用-多模态场景直播/视频翻译|14|最新技术探索03最新技术探索模型改进连续语义增强(ICLR21、ACL22)UniTE(ACL22)质量评估领域适应知识融合个性化翻译领域适配器(NeurIPS20、EMNLP20、TASLP
21)KNN-MT(ACL21、EMNLP21、ACL22)多粒度表示迁移(ACL21)个性化机器翻译(ACL21,ACL22,NAACL22)|16模型改进:连续语义增强(ACL
22OutstandingPaper)问题:回译等离散表示数据增强方法,数据多样性差、利用效率低,且易产生语义偏移解决方法:连续语义空间扩充训练样本的数据分布,结合邻域风险最小化策略优化翻译模型|17质量评估:融合不同类型的标注数据的UniTE
(ACL22)问题:三种评估场景(原文,译文)、(译文,参考译文)、(原文,译文,参考答案)采用的技术、语料均不相同,标注资源不能得到充分利用解决方法:基于区块化Attention掩码的模型结构,利用跨语言预训练和多任务联合训练,实现不同类型标注资源的知识迁移单一模型(WMT
2019
所有语向)超越三个评估场景的SOTA模型WMT21
Metrics比赛第一|18领域适应:轻量训练的Adapter(NeurIPS20,EMNLP20,TASLP
21)问题:训练好的翻译模型如何快速迁移至新领域?Finetuning有灾难性遗忘问题,需要调整全部参数,部署代价大解法:引入Adapter,固定训练好模型的参数,仅调整Adapter参数以适配新领域AdaptiveLayerDecoder
OutputAdaptiveLayer特点:TransformerUpProjection••不影响译训练好模型的性能部署代价小,每个领域仅增加Adaper参数ReLUDownProjectionAdaptiveLayerFeed
ForwardSelf-AttentionFeed
ForwardCross-AttentionSelf-Attention中英
BLEUBaseline领域内35.2836.9845.47领域外48.8749.0543.72均值42.0843.0244.60×
M×
NBaseline
+
FinetuneBaseline
+
AdapterEmbeddingEmbeddingXY|19领域适应:无需训练的KNN-MT(ACL
21,
EMNLP21,AAAI22,
ACL
22)问题:finetuning、Adapter都需要训练,应用代价大,能否在不训练情况下,实现领域适配?解决方法:寻找最相似句子,利用译文动态干预解码过程特点:•无需训练,仅需更新新领域的索引领域适应ITKoranLawBase22.9927.4736.2838.7310.1618.4425.9829.0133.3639.2349.0752.14Base
+
KNN-MTAdapter自动学习k与lambda关系Adapter
+
kNN-MT|20领域适应:子词知识迁移(ACL
21)问题:不同分词粒度的模型如何进行知识迁移?解决方法:引入Embedding
Generator••根据字词与父词组合,使用一个Embedding生成器来迁移词表Embedding
Generator的训练:在上游任务中,模型将随机拆分长单词并组合短单词,使用Embedding
Generator生成这些未见过token的embeddin过程中受到上游任务目标和蒸馏目标监督。|21个性化翻译:用户行为引导的机器翻译(ACL21)问题:••语言具有多样性,好的翻译应该拟合说话人的表达习惯,以及知识水平单一翻译结果可能只能满足大多数用户,不能满足每个用户的需求解法:个性化翻译••根据tf-idf分数提取用户历史关键词,使用编码器建模用户表征。提出对比学习策略,拉近相似用户译文,推远不相似用户译文,实现半监督训练,解决数据稀疏,缺少用户标注样本的问题。模型准确性(BLEU)27.52翻译差异性0.00%传统翻译个性化翻译|2232.3531.68%个性化翻译:无监督多样性翻译(NAACL22)问题:语言具有多样性,然而现有单reference训练使得模型趋向于生成相近的表达,个性化翻译也需要翻译能够产生更多样的表达为前提。解法:多样性翻译,模型训练过程中多个生成结果定义DiversityRewards以及QualityRewards,使用最小风险训练进行优化。•特点:简单、易复用、不需要修改模型架构。原文
依
巴拉
告诉
今日
新闻
电视台
说
,「
这是
一
个
恐怖
夜晚
」Ibarratoldtoday'snewstelevisionstation,"Thisisaterroristevening."Ibarratoldtoday'snewstelevisionstation,"Thisisaterribleevening."普通模型Ibarratoldtoday'snewstelevisionstationthat"Thisisaterroristevening.ThisisaterriblenightaccordingtoIbarratoldtoday’snewsTVstation.Ibarratoldtoday’snewstelevisionstation,“Thisisaterriblenight.”SpeakingtonewsTVtoday,Ibarrasaid,"Thisisaterriblenight.”多样性模型|23个性化翻译:用户行为引导的语种识别(ACL22)问题:语种识别是翻译的第一步,面临用户输入不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 康复医学科医疗质量与安全管理制度
- 二级技师营销师考试题及答案
- 医院护理技能竞赛理论考试试题及答案
- 产房手术无影灯故障应急演练方案脚本
- 产房心电监护仪故障应急演练方案脚本
- 电气竖井火灾应急预案演练脚本
- 雨水排水工程施工方案
- 综合管廊预制装配式结构工程施工方案及技术措施
- 2026浙江丽水市云和县机关事业单位集中招聘编外用工12人备考题库含答案详解(A卷)
- 2026融达期货(郑州)股份有限公司社会招聘备考题库附完整答案详解(必刷)
- 2026湖南衡阳市衡东县卫健系统招聘专业技术人员46人模拟试卷完整附答案详解
- 2026-2030中国建筑信息模型(BIM)行业发展状况与前景趋势研究报告
- 水电站运行人员考试题及答案(教学参考)
- 2026年营养师《公共营养》测试卷(含答案)专项训练
- 24J113-1 内隔墙-轻质条板(一)
- 安徽光智科技有限公司红外光学与辐射探测产业化项目环境影响报告书
- 2022-2023年粤教版(2019)新教材高中物理必修2 第1章抛体运动第2节运动的合成与分解课件
- GH/T 1070-2011茶叶包装通则
- GB/T 3003-2017耐火纤维及制品
- GB/T 30008-2013节能型船舶能效设计指数基准线值
- GB/T 20303.1-2016起重机司机室和控制站第1部分:总则
评论
0/150
提交评论