DataFun海外游戏场景的大模型落地实践_第1页
DataFun海外游戏场景的大模型落地实践_第2页
DataFun海外游戏场景的大模型落地实践_第3页
DataFun海外游戏场景的大模型落地实践_第4页
DataFun海外游戏场景的大模型落地实践_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

演讲嘉宾:黄裕城-腾讯

2022年加入腾讯IEG

Global,

主要从事游戏出海场景NLP

&Speech算法的研究与落地

研究方向:

多模态理解,

大语言模型,

A

I智能体等黄裕城腾讯海外游戏算法研究员基于大模型的NPC角色扮演

1

角色扮演的数据构造流程是什么?

2

角色扮演大模型如何进行训练?

3

角色扮演的评测体系如何构建?基于大模型的本地化翻译

1

游戏场景下机器翻译的挑战有哪些?

2

机器翻译如何有效利用大模型能力?

3

游戏场景下机器翻译怎么持续优化?CONTENTS

1

角色扮演的数据构造流程是什么?

2

角色扮演大模型如何进行训练?

3

角色扮演的评测体系如何构建?维度通用AI角色AI句式表达句式完整;

书面语非统一格式;口语化情绪无有立场中立有偏好道德约束高随人设,

不设限通用大模型的答案具有一种浓浓的「Assistant」

语气,

具体

来说就是很官方

书面,

具有强烈的说教口吻,

不够口语化角色扮演大模型旨在为游戏中的

NPC(非玩家角色)

提供可

定制的、

高度拟人化的有情绪、

有交互数据来源

多来源人设的角色数据,

包括小说

剧本

游戏等

针对游戏特定的情境,

采集相关的类别数据,

如奇

科幻

历史

二次元等题材角色档案

角色设定“5+3”

原则:•基本要素:

姓名

性别

年龄

性格和背景•附加要素:

动作表情

对话风格和角色知识

场景构建三要素:

对话场景+对话者+对话者关系安全问题防越狱认知边界懂拒绝StageI:

SupervisedFT角色扮演对话数据StageIII:PreferenceFT+

偏好拒绝对话数据StageII:Retrieval

AugmentedFT+

知识注入对话数据角色扮演大模型训练:

StagingTrain通用世界知识

角色特定知识角色扮演≠无所不知百晓生角色扮演≠丧失逻辑能力角色扮演≠超拟人会造成一定的角色

扮演能力的损失强化模型的角色知

识和RAG能力和用户一起完成某

个虚拟情节的演绎强化角色的逻辑性

和知识表达能力打分模型评估专家校验DPO安全问题收集通用指令语料剧情对话访谈边界问题构造相似问答检索角色对话改写角色对话改写剧情片段多回答生成对话抽取对话改写小说剧本+情节

旁白

描述性文本纯对话语料1.ConversationalAbility(评价角色的基本语言能力)a)LanguageFluency:语言的流畅程度,

原则让人感觉到流畅,

拟人,

不生硬,

不严格考虑语法。b)LanguageRelevance:角色是否能正确对当前话题做出反应,

不谈无关的信息,

即InstructionFollowing

的能力。2.Character

Consistency

Ability(评价角色的基本特点)a)Role-specificTone:

具有角色特点的用词和口吻,

以及产生恰当的描述性旁白b)RoleKnowledge:主要包含2部分,

对基础知识的掌握,

以及角色知识的掌握3.Character

Attractiveness(评价角色的高级特点)a)EmotionalExpression:

在恰当的情形下,

表现符合角色特点的情绪和性格。b)InteractiveEngagement:

沉浸感强,

让人有继续沟通下去的冲动评估准则0-针对某条评价准则,

对话中存在负向表现1-对话不涉及这条评价准则,

或者勉强涉及但基本不能满足2-对话涉及这条评价准则,

且基本满足3-对话涉及这条评价准则,

且完美满足这条评价标准角色扮演Benchmark评估评分是0

-

3之间的值

以下为每个类别的区分点的整体性定义:

2

机器翻译如何有效利用大模型能力?

3

游戏场景下机器翻译怎么持续优化?1

游戏场景下机器翻译的挑战有哪些?随某省市场的扩展,

本地化已成为游戏开发不可或缺的一部分

游戏本地化的需求主要源于某省市场的广泛覆盖和文化差异的适应,

旨在提供符合当地文化习惯和语言的游戏体验。运营活动翻译离线长文本要求克服文化差异

文本风格差异性大用户社交翻译实时对话文本拼写

语法错误

术语俚语和习语游戏版本内翻译离线短文本系统类用词固定

剧情类偏创意性就是菜Just

foodjust

anoob”菜“是网络用语,

意思是游戏水平不高明明不会勾,

为什么又

要选钟馗了?WhychooseZhongKuiwhenyouobviouslycan't

seducehim?WhydidyoupickKuiagainwhenyoucan'thook?“勾”是指钟馗”钩子“的技能,

而不是勾引。anygirlwan

aplay任何女孩都想玩有女孩想玩吗想表达有没有女生一起玩原文谷歌翻译正确翻译解释还以为有大招了IthoughtIhada

big

movethoughttherewasultimate术语表中,“大招”对应“ultimate”中路看地图不Can'tyoulookatthemap

in

the

middle?didyouseethemap,

middle

lane?"

中路"对应“middlelane”加个微Adda

microAddmyWeChat“微”是“微信”的缩写like

forlike喜欢对喜欢互相点赞网络用语pushla

stup!d推拉斯塔普!

d快推啊笨蛋"la"是东南亚常用语气词,“stup!d”是

"stupid"

的故意拼写错误。传统的翻译解决方案比如

Google

翻译

DeepL但是在游戏领域的文本上却表现得不如人意。翻译使用中小型的AI

模型,

虽然在常规文本上表现出色,需要理解游戏黑话需要理解游戏术语千亿参数,~3000亿token训练

语料,西方语系表现优异万亿参数,采用混合专家模型

(MOE),

中英文表现优定制小语种翻译模型游戏领域

增量预训练检索增强

指令微调商业大模型定制翻译模型评估智能体针对翻译结果提出修改建议专家语料库根据修改建议重新生成翻译改进专家语料库文档chunks游戏领域

embedding翻译任务

检索器基于大模型的多语言理解能力和知识注入能力,

采用检索增强生成(

RAG)

+检索增强指令微调方案,

并通过评估

反馈

修正的自动化流程持续积累专家语料,

迭代优化翻译性能。语种识别西方语种东亚东南亚语种Prompt检索人类反馈

偏好学习中文预训练RetrieverRetrieverFine-tuningRetrieval

AugmentedInstructionTuningmax

PLM(y

c1

o

x)Bro,really?Youhavetostartwith

CrimsonGolemwhenplayingLam.max

PLM(y

c2

o

x)Bro,really?Youhavetostartwith

CrimsonGolemwhenplayingLam.不是哥们儿,

你--澜红开啊在微调期间如何整合上下文中的检索增强,

以增强模型在游戏领域内回答问题的性能?1.使LLM更好地利用相关背景知识进行预测2.通过训练模型忽略不贡献于回答特定问题的检索知识,

从而消除干扰。TranslatethisChinesetext

intoEnglish:Reference:TranslatethisChinesetext

intoEnglish:Reference:红开

Crimson

Golem;Text:不是哥们儿,你澜红开啊蓝开

Azure

Golem;Text:不是哥们儿,你澜红开啊不是哥们儿,

你澜红开啊不是哥们儿,

你澜红开啊红开

Crimson

GolemsamplednegativetermsPR(c2x)~PLSR(c2

x,

y)PR(c1x)~PLSR(c1

x,

y)红开

Crimson

Golem波澜

fluctuations蓝开

Azure

Golem红队

Red

TeamRAITSFTmin

KLmin

KLqueryqueryLLMLLM↓基于翻译

评估

修正

多智能体链路,

支持自动评估翻译质量,

并提供详细的质量评估解释和建议。

此外还能从大量的数据中自动提取潜在的新术语,

持续提升翻译质量。语言对GoogleOurs中文-马来34.8168.53英文-马来39.8771.61马来-中文43.8167.53马来-英文51.8147.85中文-英文27.7871.67英文-中文31.9772.82英文-印尼49.8669.82印尼-英文46.5970.43马来-印尼45.2460.53印尼-马来43.8464.31平均得分41.5666.

51语言对GoogleOurs中文-马来36.41%71.24%英文-马来57.09%81.82%马来-中文18.50%73.50%马来-英文37.

13%79.00%中文-英文51.80%87.63%英文-中文53.38%92.93%英文-印尼68.66%84.08%印尼-英文38.89%57.07%马来-印尼58.42%64.85%印尼-马来48.

14%65.37%平均准确率46.84%75.74%游戏场景下,

尤其是创意性文本,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论