CN113570395B 信息处理方法、装置、计算机可读介质及电子设备（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-05-16 格式：DOCX 页数：57 大小：1.36MB 积分：9.6 举报 版权申诉

CN113570395B 信息处理方法、装置、计算机可读介质及电子设备（腾讯科技（深圳）有限公司）_第2页

CN113570395B 信息处理方法、装置、计算机可读介质及电子设备（腾讯科技（深圳）有限公司）_第3页

CN113570395B 信息处理方法、装置、计算机可读介质及电子设备（腾讯科技（深圳）有限公司）_第4页

CN113570395B 信息处理方法、装置、计算机可读介质及电子设备（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩52页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

选信息包括根据资源付出量竞争展示机会的竞争展示信息以及具有约定展示数量要求的约定据信息排序分数在候选信息集合中选取待展示2根据信息展示请求获取由多个候选信息组成的候选信息集合，所述资源付出量竞争展示机会的竞争展示信息以及具有约定展根据所述资源付出量确定各个所述竞争展示信息的信息排序分通过预先训练好的策略网络模型对所述约定展示信息进行分数预测，得根据所述竞争展示信息的信息排序分数以及所述约定展示信息的信获取分别由多个并行的样本探索进程维护的多个样本集合样本探索进程对与历史信息展示请求相关的样本环境进行策略探索得到基于多个并行的模型训练进程从所述样本集合中读取训练模型对所述训练样本进行分数预测处理得到与所述训练样本相对应的损获取与历史信息展示请求相对应的样本信息集合，并将所分别通过多个并行的样本探索进程对所述样本环境进行策略探索以得到与所述历史相对应的信息展示策略以及根据所述环境状态数据和所述信息展示策略确定的信息展示将所述样本探索进程探索得到的训练样本保存至所述样本探索进程维监测所述样本探索进程探索得到的训练样本的样本数量，以确获取与所述样本探索进程相对应的样本集合共享3获取与所述样本探索进程相对应的样本集合共享根据监测到的数据存储量以及数据写入状态对所述样本集合共享内存的状态标识位当监测到数据写入完成并且所述数据存储量未达到所述样本集合共享内存的最大容当监测到数据写入完成并且所述数据存储量达到所述样本集合共享内存的最大容量基于多个并行的模型训练进程轮询每个样本探索进程维护的样根据多个并行的模型训练进程训练得到的损失误差分别计算各个所述模型训练进程将各个所述模型训练进程计算得到的误差梯度写入模型参数共享内差梯度更新所述模型参数共享内存中存储的所述策根据所述误差梯度更新所述模型参数共享内存中存储的所述当前策略网络模型的网4在满足预设的目标更新条件时，根据所述当前策略网络模型网络模型包括用于生成信息展示策略的当前策略生成网络以及用于对所述信息展示策略训练目标的目标策略生成网络以及作为所述当前策略评价网络的训练目标的目标策略评通过所述当前策略网络模型对所述训练样本进行分数预测处理得到与所述训练样本通过所述目标策略网络模型对所述训练样本进行分数预测处理得到与所述训练样本基于第一损失函数对所述当前策略收益进行映射处理得到用于对所述当前策略网络模型的当前策略生成网络进行参数更新的第一损基于第二损失函数对所述当前策略收益和所述目标策略收益进行映射处理得到用于对所述当前策略网络模型的当前策略评价网络进行参数更新的第二损候选信息获取模块，被配置为根据信息展示请求获取由多个候第一分数获取模块，被配置为根据所述资源付出量确第二分数获取模块，被配置为通过预先训练好的策略网络模权利要求1至12中任意一项所述的信息处其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任意一项行时实现如权利要求1至12中任意一项所述的信5到的强化学习模型；根据所述信息排序分数在所述候选信息集合中选取待展示的目标信信息包括根据资源付出量竞争展示机会的竞争展示信息以及具有约定展示数量要求的约6合包括由所述样本探索进程对与历史信息展示请求相关的样本环境进行策略探索得到的探索进程探索得到的训练样本保存至所述样本探索进程维护的7模型参数共享内存中存储的所述策略网络模型络模型包括用于生成信息展示策略的当前策略生成网络以及用于对所述信息展示策略作练目标的目标策略生成网络以及作为所述当前策略评价网络的训练目标的目标策略评价述当前策略收益进行映射处理得到用于对所述当前策略网络模型的当前策略生成网络进策略收益和所述目标策略收益进行映射处理得到用于对所述当前策略网络模型的当前策8机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指[0029]图4示出了本申请一个实施例中基于强化学习对策略网络模型进行参数更新的步[0032]图7示出了本申请实施例中由模型训练进程Learner维护的强化学习模型的结构[0034]图9示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框9本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，[0037]附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对[0039]本申请实施例涉及在广告投放及广告播放等信息展示场景中通过人工智能技术[0040]人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控是机器学习的范式和方法论之一，用于描述和解决智能体(Agent)在与环境的交互过程中[0048]图1示出了应用本申请实施例技术方案的信息展示系统的示例性系统架构框图。[0049]终端设备110可以是具有网络连接功能且安装有对应于服务器130的信息展示类[0051]服务器130是可以为终端设备110上安装的信息展示类应用程序提供后台数据支[0052]网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类是任何网络，包括但不限于局域网(LocalAreaNetwork，LAN)、城域网(Metropolitan和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(SecureSocketLayer，SSL)、传输层安全(TransportLayerSecurity，TLS)、虚拟专用网络[0055]图2示出了本申请一个实施例中的信息处理方法的步骤流程图，该信息处理方法可以由上述信息展示系统中的终端设备110或者服务器130执行，或者也可以由终端设备息包括根据资源付出量竞争展示机会的竞争展示信息以及具有约定展示数量要求的约定[0068]后续某个终端中出现一个广告展示机会时，该终端向服务器发送获取广告的请排队列。其中，竞价广告可以根据广告主的出价预测广告收益ecpm(expectedcostper信息排序分数最高的一个广告推送给终端设备进行展告和合约广告给出参数，传入特征服务器(FeatureServer)的字典结构，最终在混合器[0073]日志分为两种，一种是请求级别的数据track_log，另一种是曝光级别的数据[0074]通过track_log可以获得每个请求的精排队列，通过一个时间段内的精排队列以时间段的长度(Δt)足够小，可以假设前Δt内的竞价[0075]通过joined_exposure可以获得每个请求真实曝光出来的广告是哪一个，以及对[0076]合约的播放控制受到多种播控参数影响，比如rate(进排序队列的概率)、theta信息的曝光量)，Sj是该合约推送信息目前的库存量。播控参数rate为控制广告播放的参存指的是这个推送信息能够匹配上的所有用户的访问量(不是用户数量，因为用户可能会模型的预测效率和预测准确性决定了最终信息展示的整体收益。图4示出了本申请一个实包括由样本探索进程对与历史信息展示请求相关的样本环境进行策略探索得到的训练样略网络模型对训练样本进行分数预测处理得到与训练样本相略生成网络用于根据当前环境状态生成信息展示策略并预测在当前环境状态下执行信息个并行的模型训练进程控制完整的策略网络模型利用训练样本进行训练以完成模型的参应的信息展示策略以及根据环境状态数据和信息展示策略确定的[0089]环境状态数据反映的是样本探索进程Agent做出具体动作的原因，环境状态数据信息的整体状态(对应上述环境状态数据中的整[0114]其中，n为连续的历史信息展示请求的数量，也称为探索步数；Gamma是每一步ctr和Wecpm为相应的预设权重。略对该样本环境中的样本信息的状态数据进行更略对该样本环境中的样本信息的状态数据进行更base，第二智能体502的策略是混排策略，其也会返回一个reward，其中，reward相对reward_base的提升会作为最终[0124]其中，n为连续的历史信息展示请求的数量，也称为探索步数；Gamma是每一步[0136]并行的多个样本探索进程可以将探索得到的训练样本写入到与之一一对应的样[0139]当监测到数据写入完成并且数据存储量未达到样本集合络模型包括作为当前策略生成网络的训练目标的目标策略生成网络以及作为当前策略评[0145]通过策略网络模型对训练样本进行分数预测处理得到与训练样本相对应的损失数对当前策略收益和目标策略收益进行映射处理得到用于对当前策略网络模型的当前策[0146]图6示出了本申请一个实施例中的分布式强化学习模型的在强化学习的主进程之下分布有多个并行的样本探索进程Agent以及多个并行的模型训练[0147]样本探索进程Agent可以通过策略生成网络不断探索环境产生待评价的策略样本，而模型训练进程Learner可以通过策略评价网络对探索得到的策略样本做出评价并基进程出现进程阻塞或者进程缓慢等问题，也不会影响策略网络模型整体的强化学习过程，[0151]LACNP_Memory(LearnerActorCriticNetParamMemory)为对应于完整网络参数[0152]ANP_Memory(ActorNetParamMemory)为对应于Actor网络参数的共享内存，负责维护最新的Actor网络参数，Learner训练产生最新的Actor参数后可以写入至ANP_Memory[0153]共享内存是一个类型固定且只支持c语言基础类型(int,float,char等)的一维数[0154]模型训练进程Learner维护一个完整的强化学习模型(包括策略生成网络Actor和持续不断地探索策略样本，而且不同的样本探索进程Agent在面对相同的环境数据时也可[0157]与此同时，本申请实施例采用多个并行的模型训练进程Learner对一个完整的策略网络模型进行训练，改变了传统的强化学习技术中基于时间线性的不可逆的训练机制，以达到通过不同训练进度下产生的策略样本对不同训练进度下的策略网络模型进行混合[0158]图7示出了本申请实施例中由模型训练进程Learner维护的强化学习模型的结构Actor负责产生动作，即订单打分，Critic负责评判这个打分，Actor_和Critic_分别是[0159]Critic网络是评价Actor网络给出action的收益，一开始Critic并不知道真正的收益是多少，需要给出一个目标，本申请实施例使用Critic_网络实现这个目的，假定Critic_网络给出的是正确的收益，那么Critic的目标就是要不断的接近这个目标，所以需要一个同样道理的Actor_网络。我们的目的是使得Actor网络给出的action能让收益最[0162]每个进程Leaner并行计算v(loss(x;)),然后更新参数θi，由于上式计算法常快在1ms以内，主要计算量在v(loss(x[0163]经过预设数量的训练步骤后，主进程会把LACNP_Memory中的Actor参数写入ANP_被配置为根据所述信息排序分数在所述候选信息集合中选取待展示本集合包括由所述样本探索进程对与历史信息展示请求相关的样本环境进行策略探索得探索进程探索得到的训练样本保存至所述样本探索进程维护的模型参数共享内存中存储的所述策略网络模型络模型包括用于生成信息展示策略的当前策略生成网络以及用于对所述信息展示策略作练目标的目标策略生成网络以及作为所述当前策略评价网络的训练目标的目标策略评价述当前策略收益进行映射处理得到用于对所述当前策略网络模型的当前策略生成网络进策略收益和所述目标策略收益进行映射处理得到用于对所述当前策略网络模型的当前策[0196]本申请各实施例中提供的信息处理装置的具体细节已经在对应的方法实施例中[0199]如图9所示，计算机系统900包括中央处理器901(CentralProcessingUnit，分908加载到随机访问存储器903(RandomAccessMemory，RAM)中的程序而执行各种适当或者计算机可读存储介

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113570395B 信息处理方法、装置、计算机可读介质及电子设备（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN113570395B 信息处理方法、装置、计算机可读介质及电子设备 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113570395B 信息处理方法、装置、计算机可读介质及电子设备（腾讯科技（深圳）有限公司）