CN110598011A 数据处理方法、装置、计算机设备以及可读存储介质（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-05-05 格式：DOCX 页数：59 大小：2.34MB 积分：9.6 举报 版权申诉

CN110598011A 数据处理方法、装置、计算机设备以及可读存储介质（腾讯科技（深圳）有限公司）_第2页

CN110598011A 数据处理方法、装置、计算机设备以及可读存储介质（腾讯科技（深圳）有限公司）_第3页

CN110598011A 数据处理方法、装置、计算机设备以及可读存储介质（腾讯科技（深圳）有限公司）_第4页

CN110598011A 数据处理方法、装置、计算机设备以及可读存储介质（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩54页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

在文本资源平台中获取文本对象对应的历史发用户对应的音视频推荐对象。采用本申请实施2在文本资源平台中获取与目标用户相关联的文根据所述历史发布文本获取每个初始字符分别对应的词频和逆文档频和所述逆文档频率在所述多个初始字符中选择所述文本对获取所述文本类型标签与多个音视频类型标签之间根据所述文本对象对应的文本名称、所述文本类型标签以及所述相似音视频类型标基于停用词库对所述历史发布文本进行筛选，将筛选后分别统计所述每个初始字符在所述历史发布文本中的单位从语料库中确定所述每个初始字符分别对应的文档根据所述词频与所述逆文档频率，确定所述每个初述权重值从所述多个初始字符中选择所述文本对象将所述文本类型标签和所述多个音视频类型标签分别划基于所述文本类型标签对应的单位字符向量生成第一向确定所述第一向量与每个第二向量之间的标3获取所述文本对象对应的所述文本名称，根据所述文本名将所述第一向量、所述相似音视频类型标签对应的第6.根据权利要求1所述的方法，其特征在于，所述将所述输入特征输入至所述分类模将所述输入特征输入至所述分类模型，在所述分类模型中生成所获取所述属性特征向量与所述分类模型中的多根据所述目标音视频类型标签，确定所述目标用户针对所述音视频资源平台基于所述音视频资源平台中的推荐模型，获取的用户相似度；所述样本用户画像为所述音视频资源平台中的已登记用户对应的用户画将具有最大用户相似度的样本用户画像确定为所述目标用户画像对应的相似用户画在所述音视频资源平台中获取所述相似用户画像对应的已登记用户的历史音视频对获取所述样本音视频对象对应的样本标签信息；对所述样本名称和所述样本类型进行语义分析，基于语4将所述样本输入特征输入至所述分类模型，在所述基于所述样本特征向量与所述样本标签信息对应的特第一获取模块，用于在文本资源平台中获取与标签选择模块，用于根据所述历史发布文本获取每个初第二获取模块，用于获取基于音视频资源平台音视频资源平台中的多个音视频对象对应的相似标签确定模块，用于获取所述文本类型标签与多个生成模块，用于根据所述文本对象对应的文本名称确定模块，用于将所述输入特征输入至所述5相似度，从所述多个音视频类型标签中确定所述文本类型标签对应的相似音视频类型标6于所述权重值从所述多个初始字符中选择所最大匹配度对应的属性类型标签确定为与所述文本对象7[0035]将具有最大用户相似度的样本用户画像确定为所述目标用户画像对应的相似用[0036]在所述音视频资源平台中获取所述相似用户画像对应的已登记用户的历史音视所述音视频资源平台中的多个音视频对象对应的音视频标题和音视频类型标签训练得到8[0064]向量生成单元，用于基于所述文本类型标签对应的单位字符向[0065]标签相似度确定单元，用于确定所述第一向量与每个第二向量之间的标签相似9[0083]训练模块，用于根据所述样本音视频对象与所述样本标签信息用户(即该用户第一次注册并登录音视频资源平台)时，终端设备10a可以将该用户的用户第一次注册并登录视频平台时，该用户需要在该视频平台提供的填写信息界面20a上主动检测到该用户为冷启动用户，并采集该用户的用户信息20b(该用户信息20b可以包括该用不同的软件应用。[0108]终端设备10a在获取到该用户在资源平台20c中的文本对象20d后，即从公众号信计所有剩余单词中每个单词在历史发布文本20q中的出现次数，并基于出现次数确定每个定每个单词分别对应的权重值(权重值越大表明单词在历史发布文本20q中越重要)，按照[0109]终端设备10a可以在视频平台中获取视频对象对应的视频类型标签(该视频类型标签可以是视频对象在上传至视频平台时，上传者为视频对象设置的类型标签，或者视频平台运营人员为视频对象设置的类型标签)，并计算文本类型标签20f与视频平台中每个视频类型标签之间的标签相似度，将标签相似度最大的视频类型标签“食物”作为文本对象来分离语句中的词，因此还需要终端设备10a采用中文分词算法对历史发布文本20q和文本嵌入(WordEmbedding)，将单位字符集合20g中的每个单位字符转换为计算机能够理解的[0112]终端设备10a可以获取分类模型20m，分类模型20m可以识别输入特征针对视频的征对应的属性特征向量，分类模型20m可以识别属性特征向量与多个属性类型之间的匹配源平台(对应于上述图2所对应实施例中的资源平台20c)中获取与目标用户相关联的文本[0117]终端设备在获取到历史发布内容后，可以基于隐马尔科夫模型(HiddenMarkovModel,HMM)对历史发布内容对应的次序列进行标注，根据标注序列对历史发布文本进行切发布文本对应的多个初始字符。当然，终端设备也可以先基于停用词库对历史发布文本进算后面所有的隐藏态转移概率，最终将概率最大的隐藏状态序列确定为隐藏序列，即序列标注结果(可以称为BEMS标注序列)。例如，历史发布文本为“运动是我快乐，运动使我健料库中确定每个初始字符分别对应的文档数量，基于文档数量与语料库中的文档总数量，i表示历史发布文本中第i个初始字符对应的词频，ni表示第i个初始字符在历史IDFi表示历史发布文本中第i个初始字符对应的逆文档频率，P表示语料库中的文档总数频资源平台中的多个音视频对象对应的音视可以是指基于音视频资源平台中所包含的所有视频对象对应的视频标题和视频类型进行应的音频标题和音频类型标签，以及视频对象对应的视频标题和视频类型进行训练得到户(如在最近半年内登录次数不超过3次的用户)，或者在音视频资源平台中长时间未登录方法可以包括欧几里得距离(EucledianDistance)、曼哈顿距离(ManhattanDistance)、包含的音视频类型标签的数据量较大，可以从音视频平台中获取目标数量(即预先设置的[0125]终端设备可以将将文本类型标签和多个音视频类型标签分别划分为多个单位字定为文本类型标签对应的相似音视频类型标签。如文本类型标签与音视频类型标签1之间间的标签相似度为0.33，则可以将音视频类型标签3确定为文本类型标签对应的相台中的用户画像(可以称为目标用户画像，目标用户画像中可以包括目标用户的用户信息目标用户画像与音视频资源平台中其他用户画像(也可以称为样本用户画像，表示音视频资源平台中近期内已经登录过多次的用户所对应的用户画像)之间的用户相似度，并将具源平台中获取该相似用户画像所属用户的历史音视频对象(即相似用户画像所属用户正在观看或者已经观看过的资源对象)，从上述历史音视频对象中确定目标用户的音视频推荐可以得到该公众号在视频平台中的视频类别1(即目标音视频类型标签)，将书籍对应的输[0135]如图4b所示，终端设备10a可以从文本资源平台30a中获取与用(视频信息包括视频标题和视频类型标签)进行训练得到的。将输入特征30e输入至分类模视频平台中其余用户画像之间的相似度，终端设备10a可以将具有最大相似度的用户画像户A对应的相似用户。在音视频平台中获取用户B对应的历史视频信息30h(即历史资源数大熊猫的搞笑表情包等，终端设备10a可以从用户B对应的历史视频信息30h中选择视频作为用户A对应的推荐视频数据，如将历史视频信息30h中最新观看的10个视频最为用户A对[0137]可选的，分类模型可以是基于音视频资源平台中的音乐信息(音乐信息包括音乐有视频划分为多个视频类别，该视频类别可以与视频上传时的视频标签相同(即视频对应征向量的过程可以参见上述图3所对应实施例中对属性特征向量生成过程的描述，这里不[0148]请一并参见图6a和图6b，是本申请实施例提供的一种训练分类模型的流程示意型中获得的实际输出结果(样本特征向量)与期望输出结果(即样本标签信息对应的特征向频资源平台中的多个音视频对象对应的音视于所述音视频资源平台中的多个音视频对象对应的音视频标题和音视频类型标签训练得生成模块15，确定模块16的具体功能实现方式可以参见上述图3所对应实施例中的步骤[0171]训练模块19，用于根据所述样本音视频对象与所述样本标签信息之间的映射关[0174]历史文本获取单元111，用于获取目标时间范围内与所述文本对象相关联的历史[0178]第一统计单元121，用于分别统计所述每个初始字符在所述历史发布文本中的单[0183]转换单元141，用于将所述文本类型标签和所述多个音视频类型标签分别划分为[0184]向量生成单元142，用于基于所述文本类型标签对应的单位字符向量生成第一向[0185]标签相似度确定单元143，用于确定所述第一向量与每个第二向量之间的标签相[0193]匹配度确定单元162，用于获取所述属性特征向量与所述分类模型中的多种属性[0203]模型训练单元193，用于基于所述样本特征向量与所述样本标签信息对应的特征[0211]相似用户确定子单元16322，用于将具有最大相似度的样本用户画像确定为所述[0212]历史对象获取子单元16323，用于在所述音视频资源平台中获取所述相似用户画现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器相似度，从所述多个音视频类型标签中确定所述文本类型标签对应的相似音视频类型标所对应实施例中对所述数据处理方法的描述，也可执行前文图7所对应实施例中对所述数述计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序，且所述碟、光盘、只读存储存储器(Read-OnlyMemory，ROM)或随机存储存储器(RandomAccess

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN110598011A 数据处理方法、装置、计算机设备以及可读存储介质（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN110598011A 数据处理方法、装置、计算机设备以及可读存储介质 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN110598011A 数据处理方法、装置、计算机设备以及可读存储介质（腾讯科技（深圳）有限公司）