目标人群优选算法模型及实践解析

上传人：d*** IP属地：天津上传时间：2022-10-17 格式：DOCX 页数：8 大小：140.17KB 积分：12 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、目标人群优选算法模型及实践解析全域营销（Uni-Marketing ）战略是依托大阿里生态，以消费者运营为核心，在新零售体系下实现全链路、全媒体、全数据、全渠道的品牌大数据营销。Uni-Marketing产品矩阵包括品牌数据银行、全域策略（策略中心）、全域传播（Uni-Desk）、全域运营（品牌号、智慧门店、天猫营销产品）等。传统品牌营销的痛点在于效果无法量化和追踪，而阿里的产品和数据闭环可以很好的解决这个问题。策略中心年货节投放海豹项目，通过大数据+算法的手段，对A品牌的目标人群进行分析，建立人群优选算法模型，挖掘品牌目标潜客。品牌A的年货节实际投放效果，算法优选人群相比基于业务

2、经验使用规则圈选的人群，在“O-IPL”人群关系加深率指标上好47%，显示了人群优选算法的有效性。名词解释品牌消费者关系：Opportunity （机会）、Awareness （认知）、Interest （兴趣）、Purchase （购买）、 Loyalty （忠诚）。人群关系加深率：衡量品牌营销效果的直接指标。“O-I”人群关系加深率，即机会人群到兴趣人群的转化率。品牌数据银行：从“融合、分析、激活”三个纬度实现品牌消费者数据资产的管理和增值，即品牌消费者数据资产的高效梳理、消费者全链路的透视分析、最后到多元营销场景的应用，包括阿里的电商、娱乐和营销服务矩阵。品牌策略中心：以解决“机

3、会在哪里”和“如何增长”为目标，赋能品牌开发生意策略，实现策略的可应用、可验证、可优化。功能包括市场概览与细分、竞争与得失分析、消费者细分与多维洞察、人群放大与优选等，可用于新品上市、品类拉新、品类成长、品牌升级等场景。项目目标基于策略中心的品牌人群定向，与程序化广告的不同之处在于，要根据品牌方的营销需求（包括目标、渠道、时间和预算）产出特定规模的目标人群，进而再针对性地营销投放。此次实践即以年货节拉新为目标，找到指定规模的潜在机会人群或者认知人群，通过营销投放将其转化为品牌兴趣人群和已购人群，从而提升品牌消费者资产。业界方案业界相关方案主要与程序化广告中人群定向相关，方法基本都是L

4、ook-alike人群扩散，具体有以下几种：1）标签扩散：根据已有目标用户画像，给用户打各种标签，再利用标签找到机会人群。2）基于标签的协同过滤：在标签扩散的基础上，采用基于用户的协同过滤算法，找到与种子人群相似的机会人群。3）基于社交关系的扩散：以具有相似社交关系的人也有相似的兴趣爱好/价值观为前提假设，利用社交网络关系进行人群扩散。4）基于聚类的扩散：根据用户画像或标签，采用层次聚类算法（如BIRCH或CURE算法）对人群进行聚类，再从中找出与种子人群相似的机会人群。5）目标人群分类方法：以种子人群为正样本，候选对象为负样本，训练分类模型，然后用模型对所有候选对象进行筛选。涉及P

5、U Learning的问题。技术方案介绍根据项目目标，我们制定了 “种子人群聚类细分+聚类人群扩散”和“多方向人群扩散+人群分类优选”的两种方案。由于聚类分群属于无监督学习且分群效果不容易评估，因此选择后者优先实施。方案整体流程如下图所示:人髀娜幕用关竞品人彝升失人样品牌年荒珅干人薜IRAET呻羊:.MAP人髀娜幕用关竞品人彝升失人样品牌年荒珅干人薜IRAET呻羊:.MAP5.1多方向人群扩散在人群扩散方向上，我们探索了 6类方向，并在每个方向下挖掘有效特征，通过白盒条件筛选和黑盒模型预测的方式进行人群扩散。5.1.1兴趣偏好方向采用特征值TGI和TA浓度2个指标，挖掘了 4个特征中

6、与品牌相关的特征值，并根据特征值的全网覆盖量设定TGI和TA浓度阈值，进行白盒扩散。TGI指标衡量了特征值在品牌人群中的显著性，TA浓度则衡量了特征值在品牌人群中的覆盖率，因此二者共同考虑才能筛选出有效的人群扩散特征值。5.1.2相关品类方向1）主营类目分析：根据品牌在线商品数和销售额计算筛选主营类目，并得出主营类目权重。2）相关品牌分析：根据brand-user关系矩阵，采用Jaccard相似度计算相关品牌及相关分。相似度计算公式如下：3）相关类目分析：根据线上user-cate购买行为，通过Association Rule Mining挖掘相关类目，使用confidence指标筛

7、选类目并作为相关分，然后经过类目关系的二度扩散得到最终相关类目结果。类目扩散公式如下，其中表示类目k：5.1.3竞品人群方向1）竞品分析：当前品牌主营类目中，市场份额top10的其他品牌。2）人群流转分析：分析发现品牌新增人群中，有较大比例来自竞品，说明选择该方向进行扩散是可靠的。3）竞品人群转化模型：以来自竞品的人群为目标，挖掘用户在竞品的AIPL状态、退款、退货、评分、评价等特征，训练竞品人群转化模型。通过模型对竞品人群进行转换预测，实现人群扩散。5.1.4搜索人群方向1）搜索关键词：从引导到品牌成交的搜索词中，综合考虑搜索词是否充分竞争以及本品牌在搜索词上是否有优势，实现品牌拉

8、相关的搜索词发现。公式如下，其中E表示关键词引导成交的类目信息熵，表示关键词引导成交额，表示关键词引导到品牌的成交额：kws ds = argtopE如少*仇宫占出一虹以/片心）2）搜索人群扩散：近15天内搜索了 kwords并点击了品牌主营类目的用户。5.1.5流失人群方向对于之前属于品牌人群而现已流失了的用户，也进行扩散召回，包括近半年从IPL状态流失的用户和近1个月从A状态流失的用户。5.1.6同好人群方向基于用户的向量表示，可以直接计算用户与用户直接的相似度，从而得到种子用户最相似的 topN个用户。用户表示的方法有多种，例如：a）用户偏好的类目向量、品牌向量组合。b）将user-

9、item表示为二部图，基于graph embedding方法生成用户向量。5.1.7人群扩散汇总最终6个方向的品牌扩散人群汇总去重，作为人群优选模型的输入。5.2 目标人群优选模型没有历史投放数据，是此次项目面临的一个挑战。我们通过训练模型来区分目标人群和非目标人群。5.2.1评估指标训练集的正负样本，分别从品牌已购人群和其他品牌的人群中采样得到。从中训练的分类模型，可以较好的区分品牌目标人群和全网其它人群（大都和目标人群相距较远），但对区分和品牌目标人群相距不远的扩散人群则并非同样有效。因此，直接使用传统的分类指标，只能评估模型在训练集上的效果，不能准确评估其在扩散人群上的分类效果，

10、需要设计新的评估指标。PredictTA TopNPrecision指标由此而来，表示优选的TopN人群中品牌目标人群的占比，该指标越大说明模型预测效果越好。我们通过对比该指标在不同模型上使用不同topN值的值，验证了它的一致性；并设计NewTA topN Recall指标，即优选人群在之后一段时间品牌新增目标人群的占比，验证了它的正确性。上图中，紫色框表示品牌目标人群即种子人群，蓝色框表示模型优选出的TopN人群，它与种子人群有小部分交集，交集占蓝色框的比例即为PredictTATopN Precisiono绿色框表示一周内品牌实际新增人群，与蓝色框的交集为预测准确的人群，交集占绿

11、色框的比例即为 NewTA topN Recall。对于有效的算法模型，PredictTATopN Precision指标随着TopN的减小而增大。两个不同的算法模型，PredictTA TopN Precision指标在不同TopN取值上的表现是一致的，说明该指标的稳定性。以A品牌为例，其一致性验证结果如下图所示：PredictTA TopN Precisian5.2.2模型训练以品牌目标人群为正样本，从全网其它品牌的人群中随机选负样本，经过数据预处理、归一化、序列化编码后，训练并优化人群优选模型。1）样本选择正样本选择：对于线上市场份额大的品牌而言，直接用品牌已购人群即可。但对新品牌

12、或者线上市场份额小的品牌，已购人群可能很小，这时就需要对正样本进行扩充，比如加入兴趣人群、加入与品牌定位相似的其它品牌的人群。负样本选择：默认从全网其它品牌的人群中随机采样，但发现全网人群中特征缺失的情况比较多，负样本集离扩散人群比较远，因此实验了从全网其它品牌的已购人群中采样， PredictTA TopN Precision （N=300 万）指标绝对值有 0.8%的提升。2）特征工程数值型特征离散化。年购物天数、近30天订单数等特征进行等距离散，提高模型稳定性和效果。枚举型特征值筛选。汽车型号、收货省份等特征长尾分布非常明显，筛选出与目标品牌相关的特征值。多值特征处理。偏好品牌

13、、偏好类目这样的特征，一个用户可以同时有多个特征值。以品牌A品牌为例，我们在b步筛选的基础上，对比了只保留偏好值最大的特征、只保留品牌最相关的特征、保留品牌相关的多个特征3种不同的处理方法，效果如下：特征编码。主要采用one-hot编码方式。稀疏特征embedding。对于类目id，品牌id这种高维高稀疏性的特征，直接将其作为分类模型的特征会影响最终的模型效果，为此，我们借鉴word embedding的思路，将用户过去一段时间内对类目（或品牌）的行为序列作为doc，将类目（或品牌）本身作为word，基于全网活跃用户的行为序列（doc集合）训练类目（或品牌）的embedding表示。

14、具体而言，我们将类目（或品牌）编码为100维的低维稠密向量，并将其作为预测特征用于模型训练。特征选择。首先使用全部特征进行模型训练，然后根据特征重要性程度筛除部分尾部特征，重新训练模型，通过比较模型的PredictTA TopN Precision指标确定此次特征选择是否更好。3）训练模型LR模型。使用逻辑回归作为baseline的算法，除了模型简单容易理解外，还有个好处是可以得出特征和特征值的重要性。RF模型。对随机森林模型的实验效果并不理想，在相同的样本和特征上Precision和AUC 指标均比LR低，且特征重要性结果只能到特征粒度不能到特征值粒度，因此不再使用。PS-SMART。

15、基于PS架构的GBDT算法模型，决策树弱分类器加上GBM算法，具有较强的非线性拟合能力，在应用中相比其它两种算法模型效果更好。因此选择PS-SMART作为最终的算法模型，并对损失函数、树的个数深度、正则系数进行调优。模型与特征相关对比结果如下表：品牌模型P特做Prudii t IA Ini Free i sion此牌ASMART甜64,4%甜牌孔SMART5067 .孵此牌APS SMART37研.烈品牌AIM69i&W-ALfi375.2.3模型预测使用训练好的人群优选模型，对5.1节中产出的扩散人群进行预测打分，筛除预测分数小于0.5的人群，再根据拉新的目标过滤品牌现有IPL人群。5.

16、3年货人群模型此次品牌投放需求临近春节，与年货的相关性很大。虽然可以用最新的样本数据训练日常的目标人群优选模型，但人群扩散方向和相关特征并非针对年货场景而挖掘的，因此不能有效捕捉出于屯年货动机的消费需求，需要针对年货场景单独建立一个人群模型进行预测。但由于年货场景与日期时间高度相关，需要用到去年春节期间品牌相关的人群数据，与日常模型差异较大，不方便合并，需要单独建模。5.3.1品牌相关年货类目1）年货类目挖掘：统计春节期间包含“年货”的搜索词所引导点击的类目数据，再由运营同学根据业务经验筛选出部分与年货相关性较强的类目，从而得到二级类目粒度的年货类目数据。2）品牌相关年货类目：根据春

17、节期间融合不同行为的“用户-类目”矩阵，通过I2I算法计算年货类目的相关性，进而得到品牌主营类目相关的年货类目及其相关分。5.3.2年货人群特征1）人群属性特征：同日常人群优选模型一样，包括用户人口基础属性、人口预测属性等。2）人群偏好特征：同日常人群优选模型一样，包括与目标品牌相关的偏好品牌、生活标签、偏好类目、及偏好品牌等特征。3）品牌主营类目行为特征、品牌相关年货类目行为特征。包括有行为的相关年货类目id、类目相关性等特征。5.3.3年货人群模型1）样本选择：根据投放时间的农历日期，选取去年当日前1个月有行为的用户做样本。其中以去年当日到元宵节期间转化到品牌PL状态的用户为正样本

18、，随机采用同等数量的其他用户为负样本，训练年货人群模型。2）模型训练：基于日常人群优选模型的经验，同样采用PS-SMART算法进行模型训练、优化、及特征重要性分析。3）模型预测：圈选投放日期前1个月对品牌主营类目及相关年货类目有行为的用户，使用年货人群模型进行预测，去除预测分数小于0.5的用户，根据拉新目标去除品牌现有IPL人群。5.4目标人群模型融合根据日常人群优选模型和年货人群模型的PredictTA TopN Precision指标，确定目标人群中2 个模型优选结果的占比，最终筛选出指定数量的投放人群，导入数据银行，供服务商同步到 DMP进行品牌广告投放。5.5投放效果追踪品牌A

19、投放案例，算法优选年货人群（A人群包），服务商通过策略中心找出品牌A购买人群同时购买的年货类目，选取买了对应类目的人群（A人群包），分别在钻展投放。其中算法优选人群在“O-IPL”人群关系加深率指标上相比高47%，拉新转化效果显著。算法优选人群内部，年货模型转化率最低，混合模型转化率最高，说明在春节期间品牌A的目标人群与日常目标人群特征比较相近，有年货囤零食需求的日常目标人群在春节期间转化率最好。挑战与应对6.1项目时间周期短因此我们优先保证模型目标与业务目标的一致，时间上做到最新，对投放渠道则没有研究和优化。6.2无历史反馈数据品牌人群优选模型，由于没有品牌投放历史，不能从用户的历史投放反馈中来学习品牌人群特征。尤其是不能获取大量直接的负样本，只能以随机

人人文库> 全部分类> 图纸下载 > 毕业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

目标人群优选算法模型及实践解析

文档简介

温馨提示

最新文档

评论

目标人群优选算法模型及实践解析

文档简介

温馨提示

最新文档

评论

相关文档