




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
盘古多语言大模型业务落地探索华为2012文本机器翻译实验室/商恒超提纲的实现的实现机器翻译Lab业务与动机传统模型时代:●支撑内部(华为云、终端、资料)翻译诉求大模型时代:泰语&阿语大模型现状泰语&阿语大模型现状●2022年OpenAIChatGPT的出现,率先展现出大模型的无限潜力,掀起了Decode-Only架构大模型的研究浪潮心punishmetstoteachrk泰语&阿语大模型现状●目前的大模型主要以英文、中文为主,对中低资源语种的支持较少●目前支持泰语的大模型●●ChatGPT/GPT-4、LLama3.1· ·支持阿语的大模型:泰语&阿语大模型现状●泰语、阿语(低资源语种)大模型需求与发展的矛盾Percent0.07%0.06%0.04%0.04%0.03%0.03%Percent0.07%0.06%0.04%0.04%0.03%0.03%0.03%0.03%0.03%0.03%0.02%0.02%0.01%0.01%LanguageunknownfrSVes89.70%8.38%0.17%0.16%0.15%0.13%0.13%0.13%0.12%0.11%0.10%0.09%0.09%0.08%PercentLanguagecaaTable10:Languagedistributioninpretrainingdatawithpercentage>=0.005%.MostdataisinEnglish,meaningthatLLAMA2willperformbestforEnglish-languageusecases.Thelargeunknowncategoryispartiallymadeupofprogrammingcodedata.5法语印欧语系-罗曼语族7730万1.993亿32.766亿56阿拉伯语亚非语系-闪米特语族2.74亿7孟加拉语印欧语系-印度-雅利安语支2.285亿53680万2.652亿7埃及阿拉伯语亚非语系-6830万20意大利语罗曼语族6460万310万6770万[21泰语壮侗语系2070万4000万6070万[22古吉拉特语印度-雅利安语支5650万420万6070万231泰语&阿语大模型现状●泰语、阿语(低资源语种)大模型需求与发展的矛盾●单语数据稀缺,训练资源昂贵●对话数据稀缺,尤其是多轮对话●人类偏好数据稀缺,RLHF训练繁琐●如何直接将高资源语言知识迁移至低资源语言?(泰语为例)●机器翻译桥接--最朴素(NoTraining)●机器翻译+高资源语种大模型泰英翻译泰英翻译英泰翻译英泰翻译Typhoon-7BTyphoon-7BSeaLLM-7B-ChatSEA-LION-7BChatGPTOpenThaiGPT-beta-7BWangChanGLM40··0ONETICTGATTPAT-1●只用泰语数据?英文知识会被遗忘,等同重训●英文+泰语的混合注入泰语知识的同时,缓解灾难性遗忘●基于Base模型做适配?泰语对话能力需要重新构建强英文对话能力可以服务于泰语●再次思考“翻译桥接”●把机器翻译做到LLM中,变成一种思维链(CoT)●Step1:LLM将泰语问题翻译为英文问题·Step2:LLM·给出英文回答将英文答案翻译为泰语答案Introducečuliuiuaamnzu⁷čuliuiuaamnzu⁷alwaj√实现泰语英语知识更好的对齐 模型结构与适配策略:●必要时扩展词表●使用LoRA减少对基础模型的扰动●多阶段训练,任务拆解LORAModulesExtendedInputEmbedding●阶段1:扩展泰语词表,泰语数据CPT ·阶段2:英泰双向翻译+英文单语CPTSentSent_TH<EN>Sent_EN,Sent_EN<TH>Sent_TH MTMT-COT:Query_TH<EN>Query_EN<RESPONSE>Response_EN<TH>Response_TH·EN-THMT:Translationprompt(En,TH)(翻译能力激活)·MT-COT的训练配置√BaseLLM:Pangu13B-Instruct、Llama2/3√训练平台:华为云ModelArt+D910B*512将是11利息,即11×11×5泰铢=575泰铢,利息575泰铢x3年=1725泰铢的利率。·SFT:有2个月,共28天:二月。和十一月 ·CoT-MT:闰年没有一个月有28天。常规日历格式一年有365天,常规日历格式闰年有366天。有28天的月份是二月。●实验结果 ●对话能力:单轮+多轮●翻译能力Ntw/Tie(R=33%)Table2:AgreementbetweenGPT-4andhumans."R="denotestheexpectagreementbetweenrandomjudges.tENresultsarefromZhengetal.(2024).vs.ModelWinurn(%)WinTurn(%Llama-2ChatGPTLlama-3ChatGPT ·5个不同数据集上的单轮对话问题ModelHelpful-BaseVicunaAllNLLB-bridge·高质量多轮对话测试集:8大类别2.202.602.903.206.003.103.102.902.90 MathCodingExtractionSTEM|HumanitiesAllChatGPTChatGPTArabicGPT4ALLArabicGPT4ALL8.9/8.38.2/7.392%/88%writing9/8.69.2/7.7roleplay8.8/8.18.7/6.1reasoning8.5/7.57.7/6.7math9.1/7.29.3/8.77.1/7.2extraction8.3/8.47.5/7.89/8.79.5/8.5humanities9.1/98.6/9.0ThaiGPT4ALL7.9/7.38.2/7.4writing8.3/7.48.4/6.7roleplay7.6/7.3reasoning7.2/3.76.5/5.1math8.0/3.59.2/6.38.1/6.28.3/8.7extraction8.5/8.29.1/8humanities9.2/9 ModelMT-BenchFirstTurnMT-BenchSecondTurnw/oThaipre-trainw/omixtrainingw/orecoveryKDw/oLoRA第一轮:评价两款智能手机的提纲,少于200字ChatGPT重复第一轮答案:A?57lun515:2aNallanausJǔoWLnNGuqninlrilLOnn1JiOursOurs成功改写为打油诗:aallaAJNaUaJW?nLU16TNJllaiolauSure!Here'salimerickaboutthetwosmartphonesbeingcompared:Thereonceweretwosmartphonessofine,TheirTheircamerastookpicturessodear,Withfeaturesthatmadethemtrulydivine.Theirdisplayswerebrightandclear,模型语项英-泰英-泰盘古大模型英-泰模型语项泰-英泰-英盘古大模型泰-英ModelBypass(%)ChatGPTOursw/odistillationALLALLwritingroleplayreasoningmathhumanitiesALLALLwritingroleplayreasoningmathhumanities●联合训练提升了显式能力?●语言Code-Switch:对话中Code-Switch的增强●泰国金融客户:通过大模型更好的整理客户Onebox,Sharepoint,Excel,andetc①①ContactContactCenterAgent(Manualcustomer2customer2多路召回多路召回排序&后处理问答安全排序前过滤排序后过滤重排关键词检排序前过滤排序后过滤重排关键词检索语义向量)检索模型排序问题向量化盘古LLM盘古LLM大模型知识图谱向量数据库搜索语义模型向量数据库Database●Query分类(2分类:业务QA+闲聊QA):F10.99(问题解决率):人工评测90%,可基本满足业务需要(多轮能力):人工评测达GPT-4的80分位客户需求>个性化商家推荐商家精确信息查询方案拆解:让大模型做擅长的事情DBSQL用户输入LM(NLU个性化排序后处理输出需求接入层中间层需求接入层中间层基础层36+用户563+对接应用ALA会OMRPCloudDragon浏览器welink应用市场快译视频年翻译字符数2000亿+,稳定增长中年翻译字符3000亿+,快速增长中通用翻译领域翻译低资源翻译算法RNNSearchMTMTAl算力Al数据Al算力Al数据180亿+多语言语料库ICT专业术语库/记忆库180亿+多语言语料库ICT专业术语库/记忆库D910,D910bMindSpore文本机器翻译Lab-研究创新华为翻译中心3篇论文入选自然语言处理领域顶级会议ACL2023HWTSCHWTSC2023-05-0918:29Toronto,CanadaJuly9-14,20232023年5月2日,自然语言处理领域顶级会议ACL2023录用结果公布,华为翻译中心共3篇论文入选,其中论文“TextStyleTransferBack-Translation”被主会议录用,论文“LexicalTranslationInconsistency-AwareDocument-LevelTranslationRepair”被子刊Findings录用,论文“CollectiveHumanOpinionsinSemanticTextualSimilarity”被期刊TACL录用并邀请至主华为翻译中心两篇论文入选语音技术领域顶级会议ICASSP2023华为翻译中心HWTSC2023-05-1916:00ICASSP2023将于2023年6月4号至6月10号在涵盖语音识别、语音合成、语音增强、自然语言处理、机器学习等多个领域。华为翻译中心的两篇论文被大会主会录用。华为翻译中心HWTSC2023年10月17日09:172023年10月6日,自然语言处理领域顶级会议EMNLP2023论文入选结果公布,华为翻译中心共有3篇论文入选,其中1篇被主会录用并受邀参加主会分享,另外2篇被Findings录用。主会录用论文:"ImprovedPseudoDataforMachineTranslationQualityEstimationwithConstrainedBeamSearch"Findings录用论文:"SMARTSPANNER:MakingSPANNERRobustinLowResourceScenarios°和"INarlG:lterativeNon-autoregressiveInstructGenerationModelForWord-LevelAutoCompletion"文本机器翻译Lab-学术竞赛华为翻译中心在ACL2024IWSLT语音翻译竞赛5个大项中斩获冠军HWTSCHWTSC2024年08月14日11:35IWSLT(InternationalConferenceonSpokenLanguageTranslation,国际口语机器翻译比赛)是国际上最具影响力的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老年教育需求增长与老年教育师资培训体系研究报告
- 物质变化与能量转移关系试题及答案
- 环保设备制造业市场多元化竞争与创新策略分析报告
- 教育教学反思的功能与策略试题及答案
- 新能源汽车电池安全与可靠性研究试题及答案
- 文化创意产业园区建筑2025年初步设计可行性评估报告
- 潮安教师面试题及答案
- 深圳进厂面试题及答案
- 社交电商裂变营销在食品行业中的创新技术应用报告
- 西藏职业技术学院《漫画设计》2023-2024学年第二学期期末试卷
- 公司营销管理体制改革方案
- 七年级语文下册专项练习知识(对联)
- 高考志愿填报指导高考志愿填报指南
- 第7课 珍视亲情 学会感恩(教案)-【中职专用】高一思想政治《心理健康与职业生涯》(高教版2023·基础模块)
- 2024年度幼小衔接全套数学课件
- 淄博市2024届高三二模历史试题卷(含答案)
- MOOC 动物学-华中农业大学 中国大学慕课答案
- 净水设备验收方案
- 九年级英语单词默写表(人教版)
- 逻辑门公开课教案教学设计课件
- 现代汉语(黄伯荣、廖序东版)课件–绪论
评论
0/150
提交评论