CN112221152B 人工智能ai模型的训练方法、装置、设备及介质（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-05-06 格式：DOCX 页数：58 大小：2.56MB 积分：9.6 举报 版权申诉

CN112221152B 人工智能ai模型的训练方法、装置、设备及介质（腾讯科技（深圳）有限公司）_第2页

CN112221152B 人工智能ai模型的训练方法、装置、设备及介质（腾讯科技（深圳）有限公司）_第3页

CN112221152B 人工智能ai模型的训练方法、装置、设备及介质（腾讯科技（深圳）有限公司）_第4页

CN112221152B 人工智能ai模型的训练方法、装置、设备及介质（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩53页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本申请公开了一种人工智能AI模型的训练参考游戏状态输出的目标游戏动作和价值网络该方法可以提高价值网络预估状态价值的准确2调用所述人工智能AI模型在游戏程序中进行游戏对动作和所述价值网络根据所述参考游戏状态输出的状态价值，所述状态价值包括在k个价述k个价值分类是根据所述游戏信息对所述游戏对局的影响划分的，属于同一个价值分类获取所述训练数据中从t0时刻到tn时刻的游戏状态，所述参考游戏状态是所述t0时刻对于所述k个价值分类中的第j个价值分类，根据从所述t0时刻到所述tn时刻的所述游述目标游戏动作在所述k个价值分类上的k个动作子价值；动作价值包括在所述k个价值分对于所述k个价值分类中的所述第j个价值分类，根据ti时刻和ti+1时刻的所述游戏状根据所述n个时刻在所述第j个价值分类中对应的n个衰减因子，计算述n个时刻价值的加权和，得到所述目标游戏动作在所述第j个价值分类的所述动作子价i时刻的衰减因子用于描述所述ti时刻的所述时刻价值的衰减程度，j为小其中，所述稠密价值分类和所述稀疏价值分类是根据所述所述调用所述人工智能AI模型在游戏程序中进行游戏对局获得训练数3调用所述特征提取网络对所述参考游戏状态进行特征提调用所述决策网络对所述参考游戏状态特征进行调用所述价值网络对所参考游戏状态特征进行价值重复上述步骤调用所述人工智能AI模型在游戏程序中进行5.根据权利要求4所述的方法，其特征在于，所述调用所述价值网络对所述参考游戏状态调用所述价值网络，通过所述k个价值分支输出所述参考从所述游戏程序的对局界面中截取图像区域作为所述参考对所述图像区域进行类图像化处理得到简化图像，将所述简化图像作为通过数据接口从所述游戏程序中获取状态数据，所述状态数据将根据所述状态数据拼接得到的向量作为所述9.根据权利要求1或2所述的方法，其特征在于，所调用强化学习算法根据所述状态价值和所述动作价值之差，训练所述人工智能AI模调用所述人工智能AI模型在所述游戏程序中控制主控虚拟角模型模块，用于调用所述人工智能AI模型在游戏程序中进行游戏对局获得训练数据，4段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述13.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指指令集由处理器加载并执行以实现如权利要求1至10任一所述的人工智能AI模型的训练方5“代理”)在与环境的交互过程中通过学习策略以达成基于强化学习设计的AI(ArtificialIntelligence，人工智能)模型可以进行游戏决策赢得游戏胜利。游戏动作和所述价值网络根据所述参考游戏状态输出的状态价值，所述状态价值包括在k6[0013]计算模块，用于根据所述训练数据以及所述k个价值分类对应的k个价值计算公述动作价值包括在所述k个价值分类上的k个动述代码集或指令集由处理器加载并执行以实现如上方面所述的人工智能AI模型的训练方得该计算机设备执行上述可选实现方式中提供的人工智能AI模型的7[0026]图6是本申请另一个示例性实施例提供的AI模型的训练方法的游戏状态提取的示[0027]图7是本申请另一个示例性实施例提供的AI模型的训练方法的游戏状态提取的示[0028]图8是本申请另一个示例性实施例提供的AI模型的训练方法的价值网络的示意[0029]图9是本申请另一个示例性实施例提供的AI模型的训练方法的衰减因子与时刻的[0036]人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中8由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉[0042]图1给出了本申请一个示例性实施例提供的计算机系统的结构框图。该计算机系[0044]计算机设备110安装和运行有游戏程序的客户端111，该客户端111可以是多人在设备110的屏幕上显示客户端111的用户界面。该游戏程序可以是多人在线战术竞技游戏虚拟现实游戏、增强现实游戏程序、第一人称射击游戏(First_PersonShootingGame，FPS)程序、第三人称射击游戏(Third_PersonShootingGame，TPS)程序、策略游戏9用户的I/O接口125用于通过无线网络或有线网络和计算机设备110建立通信训练方法进行说明，以该方法的执行主体为图1所示出的计算机设备上运行的AI模型来举[0049]图2示出了本申请一个示例性实施例提供的人工智能AI模型的训练方法的流程界面右上角的KDA(KillDeathAssist，击杀死亡助攻)栏304中的信息(主控虚拟角色的[0057]示例性的，一个时刻游戏状态的游戏信息不仅包括对局[0059]价值网络需要根据游戏状态的多个游戏信息来预估当前游戏状态的状态价值Q子价值来训练价值网络，使价值网络也能够按照价值分类对游戏状态的状态价值进行预[0075]图4示出了本申请一个示例性实施例提供的人工智能AI模型的训练方法的流程模型会从游戏程序501中获取游戏对局当前的游戏状态505，将游戏状态505输入特征提取网络502进行特征提取得到游戏状态特征，价值网络503根据游戏状态特征输出状态价值，[0079]示例性的，本实施例以AI模型根据参考游戏状态输出目标游戏动作为例进行说本实施例对特征提取网络的网络构成不加以而将类图像化的游戏状态输入到特征提取网络中进行特征信息)可以之间将这些数值拼接为向量，将向量输入到特征提取网络中进行特征提取。例防御力等)顺序拼接为一个向量式参考游戏状态，则多个unit的状态数据可以拼接得到多将对局界面右上角的KDA栏截取成KDA图像，调用文字识别模型对KDA图像进行文字识别得冷却倒计时的顺序，可以拼接出主控虚拟角色的信息参数的向量特征(1000,2000,100,区域的虚拟环境画面的图像602，可以采用类图像化的形式进行类图像化提取得到类图像戏状态特征)输出每一个候选动作的概率值，概率值最大的候选动作即为需要执行的游戏络结构会侧重共有特征中不同的特征部分，从而计算出在各个价值分类上的状态子价值，分支网络结构对特征部分的侧重是在训练阶段根据不同价值分类的动作价值引导训练的，从而使分支网络结构能够更关注属于该价值分类的特征部获取从参考游戏状态(t0时刻的游戏状态)到游戏对局结束时刻的游戏状态之间的多个游个时刻的价值因子，是根据该游戏信息在前后两个游戏状态该游戏信息的差值计算得到刻价值等于主控虚拟角色的KDA的价值因子加我方防御塔数量的价值因子加敌方防御塔数御塔价值分类中ti时刻的时刻价值等于我方防御塔血量的价值因子加上敌方防御塔血量类中ti时刻的时刻价值等于100；若没有产生游戏胜负(游戏对局继续进行)则在游戏胜负该游戏信息的价值因子的方法，上述实施例中是根据各个游戏信息的权重为1计算的时刻一游戏信息的价值因子*1+第二游戏信息的t0时刻至tn-1时刻的n个时刻价值后，对n个时刻价值进行加权求和就可以得到目标游戏动状态影响的衰减趋势呈现第一曲线型801减小，该部分游戏信息在目标游戏动作发生的最响的衰减趋势呈现直线型802减小，该部分游戏信息在目标游戏动作发生后对游戏状态的势呈现折线型803减小，该部分游戏信息在目标游戏动作发生后的一段时间内位置在同一出的旧策略(决策结果)为例，根据训练数据中从戏状态计算目标游戏动作的动作价值Rt，根据状态价值Q和动作价值Rt的差值得到第一损的价值网络。然后利用新的特征提取网络和原有的决策网络重新根据参考游戏状态s输出调用AI模型在所述游戏程序中控制主控虚[0128]然后，计算每个游戏状态所执行的游戏动作的动作价值，例如，AI模型根据5分述实施例中的计算方法。假设在6分的游戏状态我方虚拟角色摧毁了敌方基地获得了游戏戏状态执行向右移动的游戏动作在胜负价值分类中的动作子价值为200。同理计算得到其的动作子价值与状态子价值之差2_3＝_1、在防御塔价值分类的动作子价值与状态子价值公式，计算所述人工智能AI模型在所述参考游戏状态采用所述目标游戏动作的动作价值，所述动作价值包括在所述k个价值分类上的k个动到从t0时刻至tn_1时刻共n个时刻的n个[0141]所述计算模块1002，还用于根据所述n个时刻在所述第j个价值分类中对应的n个[0149]在一种可选的实施例中，所述价值网络包括所述k个价值分类对应的k个价值分所述游戏程序中控制主控虚拟角色进行所述游动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayer理器1101可以采用DSP(DigitalSignalProcessing，数字信号处理)、FPGA(Field-角摄像头融合实现全景拍摄以及VR(VirtualReality，虚拟现实)拍摄功能或者其它融合[0169]加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度[0171]压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力线1205。服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统[0177]基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息[0178]大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连提供非易失性存储。也就是说，大容量存储设备1207可以包括诸如硬盘或者只读光盘(英上的远程计算机运行。也即服务器1200可以通过连接在系统总线1205上的网络接口单元[0181]本申请提供了一种计算机可读存储介质，所述存储介质所述至少一条指令由所述处理器加载并执行以实现上述各个方法实施例提供的人工智能执行上述可选实现方式中提供的人工智能AI模型[0184]本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN112221152B 人工智能ai模型的训练方法、装置、设备及介质（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN112221152B 人工智能ai模型的训练方法、装置、设备及介质 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN112221152B 人工智能ai模型的训练方法、装置、设备及介质（腾讯科技（深圳）有限公司）