CN119398884B 一种推 荐系统的数据处理方法、装置、介质和设备 (中免日上互联科技有限公司)_第1页
CN119398884B 一种推 荐系统的数据处理方法、装置、介质和设备 (中免日上互联科技有限公司)_第2页
CN119398884B 一种推 荐系统的数据处理方法、装置、介质和设备 (中免日上互联科技有限公司)_第3页
CN119398884B 一种推 荐系统的数据处理方法、装置、介质和设备 (中免日上互联科技有限公司)_第4页
CN119398884B 一种推 荐系统的数据处理方法、装置、介质和设备 (中免日上互联科技有限公司)_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利 专利权人中国旅游集团中免股份有限公司所(普通合伙)31423专利代理师方玉审查员王垚本发明实施例提供的一种推荐系统的数据模型;从召回列表商品集中按照预设目标比例,考商品的点击率影响因子;计算相应的参考评推荐集。本发明对曝光商品数据进行降权控制,2获取多条周期统计的样本数据,所述样本数据包括对应于商品和用户的历史曝光次按照历史曝光次数和历史点击次数将样本数据分成多个以所述比值作为回归标签,批量梯度下降求解得到对应于商品和用户的点击率影响因子模型,所述点击率影响因子模型响应于历史曝光次数和历史点击次数得到点击率影响因预设筛选集,所述筛选集包括最近向用户推荐的商品,或者,参考评分最高的参考商根据商品的特征,循环计算每个参考商品相对于筛选集中商,j≠i其中,Yi是当前第i路的召回比例,Ci是当前第i路已召回的商品数量,T是当前召回总数量;ri'是当第i路召回1个商品后的召回比例,是第i路召回1个商品后第j路的召回一路召回1个商品:3其中,Ý是点击影响率因子,a、b、Wo~W2M是批量梯度下降求解得到的模型参其中,Score是参考评分,Ý是点击影响率因子,Ctr是相应商品的预估点击率,4.根据权利要求1所述的推荐系统的数据处理方法,其特征在于,所述根据商品的特Sim₂(D;,D;)=Dist(D;,Dj)×0.2+L3(D;,Dj)×0.17+L2(D;,4Sim₂(D₁,Dj)是第i个参考商品与筛选集中第j个商品的相似度,e-a·dij表征衰减因Dist(Di,Dj)是第i个参考商品与筛选集中第j个商品的标题编辑距离,L3(Di,Dj)是第i个参考商品与筛选集中第j个商品的三级目录匹配值,L2(Di,Dj)是第i个参考商品与筛选集中第j个商品的二级目录匹配值,B(D,Dj)是第i个参考商品与筛选集中第j个商品的品牌匹配值,Spu_id(D,Dj)是第i个参考商品与筛选集中第j个商品的编码匹配值。5.一种推荐系统的数据处理装置,用于实现如权利要求1或3中任一项所述的方法,其获取模块,用于获取多条周期统计的样本数据,所述样本数据包括对应于商品和用户的历史曝光次数、历史点击次数、预估点击率和点击标志的组合;统计模块,用于按照历史曝光次数和历史点击次数将样本数据分成多个数据组,在样本数据量大于或等于阈值的数据组中,通过点击标志统计实际点击率,并计算实际点击率和预估点击率平均值的比值;训练模块,用于以所述比值作为回归标签,批量梯度下降求解得到对应于商品和用户的点击率影响因子模型,所述点击率影响因子模型响应于历史曝光次数和历史点击次数得到点击率影响因子;召回模块,用于从召回列表商品集中按照预设目标比例,选取参考商品;因子计算模块,用于由点击率影响因子模型得每个参考商品的点击率影响因子;评分计算模块,用于通过每个参考商品的价格、预估点击率、预估转换率和点击率影响配置模块,用于预设筛选集,所述筛选集包括最近向用户推荐的商品,或者,参考评分最高的参考商品;筛选模块,用于根据商品的特征,循环计算每个参考商品相对于筛选集中商品的特征评分,并将评分高的参考商品加入筛选集,所述特征评分是参考商品和筛选集商品的参考评分与相似度的加权差值;结果模块,用于优先将特征评分高的商品组成推荐集。6.根据权利要求5所述的推荐系统的数据处理装置,其特征在于,所述训练模块还用于通过以下公式求解得到对应于商品和用户的点击率影响因子模型:5其中,是点击影响率因子,a、b、W₀~W2M是批量梯度下降求解得到的模型参数,N是一个周期记录的历史曝光次数或历史点击次数的总数据量,C是点击影响,E是曝光影响,Ci是一个周期记录的历史曝光次数中的第i个数据,Ei是一个周期记录的历史点击7.根据权利要求5所述的推荐系统的数据处理装置,其特征在于,所述筛选模块通过如下公式计算所述特征评分:Sim₂(D;,Dj)=Dist(D;,Dj)×0.2+L3(D,D;)×0.17+L2(D;,D其中,IDSMR(Di)是第i个参考商品的特征评分,λ是相关性权重,Sim₁(D₁,U)代表第i个参考商品的点击影响率因子,S是当前的筛选集,Sim₂(D;,Dj)是第i个参考商品与筛选集中第j个商品的相似度,e-a·dij表征衰减因Dist(D;,Dj)是第i个参考商品与筛选集中第j个商品的标题编辑距离,L3(Di,Dj)是第i个参考商品与筛选集中第j个商品的三级目录匹配值,L2(Di,D)是第i个参考商品与筛选集中第j个商品的二级目录匹配值,B(Di,Dj)是第i个参考商品与筛选集中第j个商品的品牌匹配值,Spu_id(D;,Dj)是第i个参考商品与筛选集中第j个商品的编码匹配8.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至4中任一项所述的推荐系统的数据处理方法的步骤。69.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的推荐系统的数据处理方法的步骤。7技术领域[0001]本发明涉及电子数据处理技术领域,具体涉及一种推荐系统的数据处理方法、装置、介质和设备。背景技术[0002]推荐系统技术通常采用分层方案,该系统包括召回层、融合层、排序层、重排层等。在召回层,通过一定的规则、算法、或者模型,找到用户可能感兴趣的商品,这一层通常或同时使用多种方法,找到大量候选商品。在融合层,将各中方法召回的商品列表,按照一定的算法规则融合成一个商品列表,然后取前面的数百个进入排序,排序层用统一的模型,对融合层选出的商品进行打分,按照打分从高到低排序。重排层会对排序好的商品列表进行干预,如某些商品置顶,相似商品打散,某些属性的商品进行加权/降权等。最终完成干预后,取列表前几个或者几十个进行输出。然而,在这样一个系统框架下,对应着大量商品和用户数据的处理,而且各层之间层层递进、相互迭代,数据计算精度是决定推荐系统精度的核心要素。[0003]因此,如何提高推荐系统精度是本领域技术人员亟需解决的技术问题。发明内容[0004]为了克服现有推荐系统精度差的不足,本发明提出了一种推荐系统的数据处理方[0005]为了实现上述目的,根据本发明的第一方面,本发明实施例提供一种推荐系统的数据处理方法,该方法包括以下步骤:[0006]获取多条周期统计的样本数据,所述样本数据包括对应于商品和用户的历史曝光次数、历史点击次数、预估点击率和点击标志的组合;[0007]按照历史曝光次数和历史点击次数将样本数据分成多个数据组,在样本数据量大于或等于阈值的数据组中,通过点击标志统计实际点击率,并计算实际点击率和预估点击率平均值的比值;[0008]以所述比值作为回归标签,批量梯度下降求解得到对应于商品和用户的点击率影响因子模型,所述点击率影响因子模型响应于历史曝光次数和历史点击次数得到点击率影响因子;[0009]从召回列表商品集中按照预设目标比例,选取参考商品;[0010]由点击率影响因子模型得每个参考商品的点击率影响因子;[0011]通过每个参考商品的价格、预估点击率、预估转换率和点击率影响因子,计算相应的参考评分;[0012]预设筛选集,所述筛选集包括最近向用户推荐的商品,或者,参考评分最高的参考商品;[0013]根据商品的特征,循环计算每个参考商品相对于筛选集中商品的特征评分,并将8评分高的参考商品加入筛选集,所述特征评分是参考商品和筛选集商品的参考评分与相似度的加权差值;[0014]优先将特征评分高的商品组成推荐集。[0015]可选地,所述以所述比值作为回归标签,批量梯度下降求解得到对应于商品和用户的点击率影响因子模型,包括通过公式计算得到:数,N是一个周期记录的历史曝光次数或历史点击次数的总数据量,C是点击影响,E是曝光影响,Ci是一个周期记录的历史曝光次数中的第i个数据,Ei是一个周期记录的历史点击次[0022]计算召回列表商品集中每路召回的欧几里得距离,公式如下:[0024]预估从第i路召回1个商品后各路的召回比例如下:总数量;r'是当第i路召回1个商品后的召回比例,r是第i路召回1个商品后第j路的召回比第j路的目标比例;[0027]循环从最小欧几里得距离的一路召回1个商品,直至达到预设召回总数,包括:当第j路商品数为0时,按照如下公式更新其他各路的目标比例,循环从其他的最小欧几里得距离的一路召回1个商品:9是相应商品的预估转换率,Price是相应商品的价格。[0033]可选地,所述根据商品的特征,循环计算每个参考商品相对于筛选集中商品的特征评分,并将评分高的参考商品加入筛选集,所述特征评分是参考商品与筛选集商品参考[0035]Sim₂(D;,D)=Dist(D;,D;)×0.2+L3(D,Dj)×0.17+L2(D;,Dj)×0.17+B(D第i个参考商品的点击影响率因子,S是当前的筛选集,Sim₂(D,Dj)是第i个参考商品与筛选集中第j个商品的相似度,e-a-dij表征衰减因子,d;;表示第i个参考商品与筛选集中第j个商品间隔,α是间隔衰减因子;Dist(D;,Dj)是第i个参考商品与筛选集中第j个商品的标题编辑距离,L3(D,Dj)是第i个参考商品与筛选集中第j个商品的三级目录匹配值,L2(Di,Dj)是第i个参考商品与筛选集中第j个商品的二级目录匹配值,B(Di,Dj)是第i个参考商品与筛选集中第j个商品的品牌匹配值,Spu_id(D;,Dj)是第i个参考商品与筛选集中第j个商品的编码匹配值。[0037]根据本发明的第二方面,本发明实施例还提供一种推荐系统的数据处理装置,包[0038]获取模块,用于获取多条周期统计的样本数据,所述样本数据包括对应于商品和用户的历史曝光次数、历史点击次数、预估点击率和点击标志的组合;[0039]统计模块,用于按照历史曝光次数和历史点击次数将样本数据分成多个数据组,在样本数据量大于或等于阈值的数据组中,通过点击标志统计实际点击率,并计算实际点击率和预估点击率平均值的比值;[0040]训练模块,用于以所述比值作为回归标签,批量梯度下降求解得到对应于商品和用户的点击率影响因子模型,所述点击率影响因子模型响应于历史曝光次数和历史点击次数得到点击率影响因子;[0042]因子计算模块,用于由点击率影响因子模型得每个参考商品的点击率影响因子;[0043]评分计算模块,用于通过每个参考商品的价格、预估点击率、预估转换率和点击率[0044]配置模块,用于预设筛选集,所述筛选集包括最近向用户推荐的商品,或者,参考评分最高的参考商品;[0045]筛选模块,用于根据商品的特征,循环计算每个参考商品相对于筛选集中商品的特征评分,并将评分高的参考商品加入筛选集,所述特征评分是参考商品和筛选集商品的N是一个周期记录的历史曝光次数或历史点击次数的总数据量,C是点击影响,E是曝光影筛选集中第j个商品的相似度,e-a-dij表征衰减因子,dij表示第i个参考商品与筛选集中标题编辑距离,L3(Di,Dj)是第i个参考商品与筛选集中第j个商品的三级目录匹配值,L2(D,Dj)是第i个参考商品与筛选集中第j个商品的二级目录匹配值,B(Di,Dj)是第i个参j个商品的编码匹配值。11点击标志统计实际点击率,并计算实际点击率和预估点击率平均值的比值;以所述比值作为回归标签,批量梯度下降求解得到对应于商品和用户的点击率影响因子模型,所述点击率影响因子模型响应于历史曝光次数和历史点击次数得到点击率影响因子;从召回列表商品集中按照预设目标比例,选取参考商品;由点击率影响因子模型得每个参考商品的点击率影响因子;通过每个参考商品的价格、预估点击率、预估转换率和点击率影响因子,计算相应的参考评分;预设筛选集,所述筛选集包括最近向用户推荐的商品,或者,参考评分最高的参考商品;根据商品的特征,循环计算每个参考商品相对于筛选集中商品的特征评分,所述特征评分是参考商品与筛选集商品参考评分与相似度的加权差值;优先将特征评分高的商品组成推荐集。本发明对曝光商品数据进行降权控制,采用了多路召回的融合方法,充分考虑了频率和边际敏感性,对推荐系统中的数据进行处理优化,有效提高了数据精度进而提升了推荐系统的准确性。附图说明[0060]图1是本发明实施例提供的一种推荐系统的数据处理方法的流程示意图;[0061]图2是本发明实施例提供的一种多路召回方法的流程示意图;[0062]图3是本发明实施例提供的一种推荐系统的数据处理装置的结构示意图;[0063]图4是本发明实施例提供的执行推荐系统的数据处理方法的电子设备的硬件结构示意图。具体实施方式[0064]为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。[0065]请参阅图1至图4。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。[0066]参见图1,是本发明实施例提供的一种推荐系统的数据处理方法的流程示意图,如图1所示,本发明实施例示出了推荐系统的数据处理方法的流程。[0067]步骤S101:获取多条周期统计的样本数据,所述样本数据包括对应于商品和用户的历史曝光次数、历史点击次数、预估点击率和点击标志的组合。[0068]本发明采用基于用户反馈自适应的重复曝光商品控制和降权方法,在已推荐过滤,或者已曝光过滤的基础上,基于一定的时间窗口,一段时间内曝光过或者推荐的商品直接过滤掉,另外包括部分优化,比如增加曝光频次约束,曝光超过几次后再过滤掉等,进一步考虑了如下4个因素:1、用户对重复曝光商品的容忍度随着频过商品的容忍度随时间上升,也就是用户是有遗忘的,越久远以前的户近期点击过的商品,对重复曝光的容忍度比较高,但是也会随着点户的行为模式在缓慢变迁的,需要从用户反馈中动态学习调整。[0069]在本申请中记录用户推荐场景曝光和点击商品的行为日志,按照时间间隔(本发明一种实施案例中时间间隔以一天/24小时为例)统计用户对某一商品的历史曝光次数、历史点击次数。[0070]将用户历史最近N个时间间隔(本发明一种实施案例中选择7天,即一个周期)内对该商品历史曝光次数、历史点击次数,连同当时的预估点击率ctr(英文:ClickThroughRate,中文:点击率)一起记录。这里N个时间间隔每个时间间隔内都有用户在该时间区间内对某个商品的历史曝光次数、历史点击次数,如果没有则记录为0。需点击率是利用推荐系统中由历史数据训练的深度神经网络模型,根据用户特征和商品特征计算出商品展示给用户时的点击率,以预估商品在推荐给用户后的点击概率,具体过程在本申请实施例中不再赘述。另外,在样本数据中还进一步记录了预估点击概率后,用户是否[0071]通过以上描述,一个完整的样本数据包含对应着商品和用户的历史曝光次数、历史点击次数、预估点击率和点击标志的组合。一示例性的样本数据格式及其记录过程如下:[0072]记录用户最近7天(含当天)每天曝光商品的曝光次数,点击次数,存入redis(英对该商品的历史曝光次数、历史点击次数,连同预估点击率ctr一起发送到日志系统进行快照记录。从日志中获取用户记录信息,整理成样本数据如下表所示:历史曝光次数历史点击次数预估点击率1000010[0074]以第一条样本数据为例,历史曝光次数[3,0,2,1,1,0,1]表征最近7天每天将商品推荐给用户的次数,例如第1天推荐3次,第2天推荐0次,第3天推荐2次等。历史点击次数[1,0,0,0,1,0,0]表征对应7天的推荐次数情况下,用户点击的次数,例如第1天点击1次,第2天点击0次等。预估点击率是推荐系统中的深度神经网络模型预估的下一次推荐的点击率,这里得到的预估结果是0.3,即有30%概率用户会点击该商品。点击标志是在预估点击率之后,[0075]步骤S102:按照历史曝光次数和历史点击次数将样本数据分成多个数据组,在样本数据量大于或等于阈值的数据组中,通过点击标志统计实际点击率,并计算实际点击率和预估点击率平均值的比值。[0076]按照上述实施例描述的样本数据的结构,从行为日志中,按照N个时间间隔内用户对商品的曝光点击情况统计每种曝光点击分布,即将历史曝光次数实际点击率43[0079]同样以第1个数据组为例,基于上一个步骤记录的样本数据,对应历史曝光次数[3,0,2,1,1,0,1]和历史点击次数[1,0,0,0,1,0,0]的样本数据共有4条,将其组织为一个个数1除以该数据组的样本数据量4,从而得到实际点击率为1/4=0.25。为实际点击率0.25/预估点击率平均值0.32=0.78125,具体结果如下:历史曝光次数历史点击次数比值[0083]步骤S103:以所述比值作为回归标签,批量梯度下降求解得到对应于商品和用户N是一个周期记录的历史曝光次数或历史点击次数的总数据量,C是点击影响,E是曝光影近分别记录为Cii∈(1~N)。每个时间间隔影响衰减比例为a,曝光量分别记录为Eii∈(1~N),每个时间间隔影响衰减比例为b,则点击影响C=i=1CiaN-商品的总数量(即总召回数量)也是预先配置的,例如500个等,在本发明实施例中不做限总数量。[0106]其中,Distance(i)是第i路的欧几里得距离,Pj是[0107]步骤S1042:从最小欧几里得距离的一路召回1个商品。[0108]使用Distance(i)最小的i进行下一次召回,召回后,更新当前各路已召回商品数量和召回总量,继续循环直到召回数量满足。[0109]步骤S1043:当第j路商品数为0时,更新其他各路的目标比例。[0110]当遇到某一路召回被取完,但是整体召回数量未满足时,按如下方法重新分配比例。根据上述实施例的描述共有n路召回,每一路召回的目标比例分别为P1,P₂,…,Pn。[0111]当j路召回商品数为0,按照如下公式更新其他路召回比例:的方法从剩下的n-1路召回中取召回商品,直至召回商品的总数达到预设的参考商品的总数量。[0114]以下是一个示例性实施例,描述具体的召回过程中数据处理的方法:[0116]当前各路召回商品数量分别是C₁=4,C₂=3,c₃=2,总召回数量T=9。[0122]Distance(1)=√(0.5-0.5)²+(0.3-0.3[0123]假设从第2路召回:[0127]Distance(2)=√(0.4-0.5)²+(0.4-0.3)²+(0.2-0[0128]假设从第3路召回:[0133]其次,比较三路Distance,发现第一路召回后,和目标比例差距最小,因此选择第一路召回。[0137]需要说明的是,在实际使用中,本申请可以通过离线模拟和在线试验的方式,评估各路召回最合理的比例。[0138]步骤S105:由点击率影响因子模型得到每个参考商品的点击率影响因子。[0139]由步骤S103得到的点击率影响因子模型,针对步骤S104得到的参考商品,输入最近一个周期(7天)每个商品的历史曝光次数和历史点击次数,计算每个参考商品的点击率影响因子。[0140]步骤S106:通过每个商品的价格、预估点击率、预估转换率和点击率影响因子,计算相应的参考评分。[0141]获取商品的价格;获取用户和所有参考商品的特征,分批请求推荐系统中训练的ctr模型(点击率模型)和cvr模型(转换率模型),每个参考商品对应的预估点击率和预估转化率;最后,结合上述实施例步骤计算得到的点击率影响因子,按照如下公式计算得到相应的参考评分:是相应商品的预估转换率,Price是相应商品的价格[0144]另外,如果商品用户没曝光过,则Y是点击影响率因子默认取1,然后按照参考评分从大到小排序。[0145]S107:预设筛选集,所述筛选集包括最近向用户推荐的商品,或者,参考评分最高的参考商品。[0146]筛选集是最近向用户推荐的商品的集合,例如在电脑或者手机终端网页推荐时,可以通过获取本网页之前已推荐的商品列表,取最后的20个作为筛选集。或者,如果本网页是第1页时,则取上述实施例中排序第一个,即参考评分最高的参考商品加入筛选集。该筛选集作为后续步骤数据处理的初始集合。[0147]步骤S108:根据商品的特征,循环计算每个商品相对于筛选集中商品的特征评分,并将评分高的参考商品加入筛选集,所述特征评分是参考商品和筛选集商品的参考评分与相似度的加权差值。[0148]在推荐商品的数据处理中,进一步对商品进行多样性打散,基于规则的打散考虑了频率控制但是没有考虑用户兴趣,用户越感兴趣的商品,对重复出现相似商品的容忍度越高,反之用户不太感兴趣的,出现两条用户可能就反感了。基于MMR(英文:MaximalMarginalRelevance)的打散,考虑了用户兴趣但是没考虑频率控制,只考虑最大边际相选集中第j个商品的相似度,e-a-dij表征衰减因子,d;;表示第i个第j个商品的编码匹配值。并引入衰减因子。外层的Dj∈S是对所有已选筛选集商品Dj进行求和。衰减因子,编码匹配值Spu_id(D,Dj)是按照两个商品是否匹配计算数值。例如参考商品Di和筛选集品牌,编码匹配值则需判断两个商品是否属于同一商品编码,如判断是则相应数值为1,否则为0,在此不再赘述。[0161]本申请提供的数据处理方法在计算多样性时,考虑了当前参考商品和所有已选的筛选集商品的相似度,并且引入衰减因子,让离当前位置较远的商品有更低的权重。总体上通过参数平衡多样性和用户兴趣,解决了现存主流方法存在的问题,具有更高的数据精[0162]步骤S109:优先将特征评分高的商品组成推荐集。[0163]在本申请中,通过上述步骤的循环计算,从而得到一定数量的筛选集,当满足预设的数量时(例如10个),可以进一步将该特征评分高的商品集合组成推荐集(包含10个特征评分高的筛选集中的商品),供推荐系统调用。[0164]由上述实施例的描述可见,本发明实施例提供的一种推荐系统的数据处理方法,包括获取多条周期统计的样本数据,所述样本数据包括对应于商品和用户的历史曝光次数、历史点击次数、预估点击率和点击标志的组合;按照历史曝光次数和历史点击次数将样本数据分成多个数据组,在样本数据量大于或等于阈值的数据组中,通过点击标志统计实际点击率,并计算实际点击率和预估点击率平均值的比值;以所述比值作为回归标签,批量梯度下降求解得到对应于商品和用户的点击率影响因子模型,所述点击率影响因子模型响应于历史曝光次数和历史点击次数得到点击率影响因子;从召回列表商品集中按照预设目标比例,选取参考商品;由点击率影响因子模型得每个参考商品的点击率影响因子;通过每个参考商品的价格、预估点击率、预估转换率和点击率影响因子,计算相应的参考评分;预设筛选集,所述筛选集包括最近向用户推荐的商品,或者,参考评分最高的参考商品;根据商品的特征,循环计算每个参考商品相对于筛选集中商品的特征评分,并将评分高的参考商品加入筛选集,所述特征评分是参考商品和筛选集商品的参考评分与相似度的加权差值;优先将特征评分高的商品组成推荐集。本发明对曝光商品数据进行降权控制,综合考虑了多种数据动态因素影响,对排序层的数据进行了有效修正;在召回层,采用了多路召回的融合方法,既保障了融合后的有序性,也兼顾了融合的比例;而且,在多样性打散控制过程中,充分考虑了频率和边际敏感性。综上所述,本申请的推荐系统的数据处理方法,对推荐系统的数据进行优化,有效提高了数据精度进而提升了推荐系统的准确性[0165]通过以上的方法实施例的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:只读存储器[0166]本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的推荐系统的数据处理方法。[0167]与本发明提供的推荐系统的数据处理方法实施例相对应,本发明还提供了一种推荐系统的数据处理装置。[0169]获取模块11,用于获取多条周期统计的样本数据,所述样本数据包括对应于商品[0170]统计模块12,用于按照历史曝光次数和历史点击次数将样本数据分成多个数据[0171]训练模块13,用于以所述比值作为回归标签,批量梯度下降求解得到对应于商品[0173]因子计算模块15,用于由点击率影响因子模型得每个参考商品的点击率影响因考评分最高的参考商品;[0176]筛选模块18,用于根据商品的特征,循环计算每个参考商品相对于筛选集中商品[0183]其中,是点击影响率因子,a、b、W₀~W2M是批量梯度下降求解得到的模型参数,N是一个周期记录的历史曝光次数或历史点击次数的总数据量,C是点击影响,E是曝光影总数量;ri是当第i路召回1个商品后的召回比例,'是第i路召回1个商品后第j路的召回比题编辑距离,L3(Di,Dj)是第i个参考商品与筛选集中第j个商品的三级目录匹配值,j个商品的编码匹配值。[0202]图4是本发明实施例提供的执行推荐系统的数据处理方法的电子设备的硬件结构[0206]存储器420作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程对应的程序指令/模块(例如,附图3所示的获取模块11、统计模块12、训通过运行存储在存储器420中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例推荐系统的数据处理方法。[0207]存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据推荐系统的数据处理装置的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至推荐系统的数据处理装置。上述网络的实例包括但不限于互联网、企业内[0208]输入装置430可接收输入的数字或字符信息,以及产生与推荐系统的数据处理装置的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。[0209]所述一个或者多个模块存储在所述存储器420中,当被所述一个或者多个处理器410执行时,执行上述任意方法实施例中的推荐系统的数据处理方法。[0210]上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论