CN112927012B 营销数据的处理方法及装置、营销模型的训练方法及装置（第四范式（北京）技术有限公司）

上传人：1*** IP属地：山西上传时间：2026-05-12 格式：DOCX 页数：42 大小：736.02KB 积分：10.8 举报 版权申诉

CN112927012B 营销数据的处理方法及装置、营销模型的训练方法及装置（第四范式（北京）技术有限公司）_第2页

CN112927012B 营销数据的处理方法及装置、营销模型的训练方法及装置（第四范式（北京）技术有限公司）_第3页

CN112927012B 营销数据的处理方法及装置、营销模型的训练方法及装置（第四范式（北京）技术有限公司）_第4页

CN112927012B 营销数据的处理方法及装置、营销模型的训练方法及装置（第四范式（北京）技术有限公司）_第5页

已阅读5页，还剩37页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本公开提供了一种营销数据的处理方法及始营销数据表中的不同营销数据表之间的数据后的数据进行自动特征生成处理以及特征筛选2获取原始营销数据表，确定所述原始营销数据表中的不同营对所述样本表中的样本所对应的数据执行分布基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特其中，所述基于分布校验处理后的数据进行自动特征生成处理以及基于每条样本的分布校验处理后的数据构造组合特征，并基于构造对每条样本的一阶特征，从所述一阶特征开始循环执行分布校验其中，所述在每条样本的高阶特征中筛选出满足预获取所述每条样本的高阶特征的稳定度指标psi，将获取的psi获取所述第一高阶特征集中每个高阶特征的信息值vi，对获取的所述确定所述原始营销数据表中的不同营销数据表之间的数据配置关系，得到样本所述确定营销记录表和营销结果表之间的关联逻辑、时间字段以及营销数据选取范对于所述营销记录表中的任一主键，在营销结果表中查找与所述主键中的在所述初步筛选结果中筛选反馈时间从起始时间起满足预设3对偏度大于1的字段对应的数据执行ln运算，对偏度小于_1的字段对应的数从排序后的离散数据中确定满足预设条件的目标离将所述目标离散数据之后的所有离散数据合并为{p12ijn}且p1≥p2分别对每条样本的分布校验处理后的数据中的连续数分别对每条样本的分布校验处理后的数据中的离散数据获取所述样本表涉及的营销结果表中的营销反对每个营销反馈对象ID对应的组合特征按预设时间段执行特征聚获取采用如权利要求1_7中任一项所述的营销数据的处理方法从训练好的随机森林模型、梯度提升决策树模型和逻辑回归模型中选取输出的auc最4根据所述初始iv顺序阈值以及所述最终样本表中的最终的特征，从将所述筛选出的样本分别输入到所述随机森林模型、所述梯度第一获取单元，用于获取原始营销数据表，确定所述原第二获取单元，用于基于分布校验处理后的数据进行自动其中，所述第二获取单元，还用于基于每条样本的分布获取的psi小于预设稳定度指标阈值的高阶特征合并为第一高阶特征集；获取所述第一高足预设时间范围的数据记录；基于所述主键将筛选出的数据记录拼接至所述营销记录表对偏度大于1的字段对应的数据执行ln运算，对偏度小于一1的字段对应的数据执行exp运5第一获取单元，用于获取采用如权利要求1至7中任一项所征大于等于初始iv顺序阈值的样本；将所述筛选出的样本分别输入到所述随机森林模型、处理方法和如权利要求8至10中的任一权利要求所述的营销模型的任一权利要求所述的营销数据的处理方法和如权利要求8至10中的任一权利要求所述的6间起满足预设时间范围的数据记录；基于主键将筛选出的数据记录拼接至营销记录表中，7离散数据从高到底进行排序；从排序后的离散数据中确定满足预设条件的目标离散数据；用如上述所述的营销数据的处理方法得到的最终样本表；基于最终样本表进行模型训练，8机森林模型、梯度提升决策树模型和逻辑回归模型中选取输出的auc最高的模型作为最终9取的psi小于预设稳定度指标阈值的高阶特征合并为第一高阶特征集；获取第一高阶特征和逻辑回归模型中选取输出的auc最高的模型作为最终的训练[0036]将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部[0044]提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本发明的实施[0059]上述营销结果表记录了营销对象对营销内容的反馈时间(以营销理财产品为例，则营销结果表中记录了客户购买理财产品的时间)。营销结果表中有两列：反馈时间feedback_dt列和营销反馈对象feedback_user_id列，其中feedback_user_id为用于关联10010[0064]在本公开的一个实施例中，对于样本表中的每条样本所对应的数据中的连续数度。而ln为以无理数e(e＝2.71828...)为底的对数称为自然对数(naturallogarithm)。[0065]在本公开的一个实施例中，对于样本表中的每条样本所对应的数据中的离散数[0070]在本公开的一个实施例中，基于每条样本的分布校验处理后的数据构造组合特10010[0075]以构建10天内交易金额的时序特征为例，从如表3所示的样本表中任意取一条数表中的每一条数据的统计时窗内交易金额和总和及平均值，并将其拼接在样本表3后，得10010[0078]基于分布校验处理后的数据构造组合特征和时序特征，即完成了一阶特征的构psi小于预设稳定度指标阈值的高阶特征合并为第一高阶特征集；获取第一高阶特征集中[0080]例如，在得到高阶特征后，可以先计算所有高阶特征的稳定度指标(population值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更征曲线(receiveroperatingcharacteristiccurve)，它是根据一系列不同的二分类方表中的最终的特征，从最终样本表中筛选出最终的特征大于等于初始iv顺序阈值的样本；进行训练。通过本实施例，采用树状结构Parzen估计方法(Tree_structuredParzen[0095]构建时序特征是指按照数据表的关联外键根据时窗(即上面提到10天)做聚合特[0099]步骤S406，自动调参。该步骤选用树状结构Parzen估计方法(Tree_structured树状结构Parzen估计方法具有较快的运算效率且在高维度的搜索空间中有较好的参数寻[0103]模型的本身的超参数，需要优化的随机森林和gbdt[0105]图5示出根据本公开示例性实施例的营销数据的处理装置的结构框图。如图5所[0109]在本公开的一个实施例中，对于样本表中的每条样本所对应的数据中的连续数[0110]在本公开的一个实施例中，对于样本表中的每条样本所对应的数据中的离散数分别对每条样本的分布校验处理后的数据中离散数据执行独热编码交叉，得到组合特征；稳定度指标psi，将获取的psi小于预设稳定度指标阈值的高阶特征合并为第一高阶特征[0117]图6示出根据本公开示例性实施例的营销模型的训练装置的结构框图。如图6所度提升决策树模型和逻辑回归模型中选取输出的auc最高的模型作为最终的训练好的营销本表中的最终的特征，从最终样本表中筛选出最终的特征大于等于初始iv顺序阈值的样[0121]以上已参照图1至图6描述了根据本公开示例性实施例的营销数据的处理方法及使所述至少一个计算装置执行根据本公开的营销数据的处理方法和的营销模型的训练方内容已经在参照图1进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行理器可通过读取并运行相应的程序代码或者代码段来执行执行时，执行根据本公开的示例性实施例的营销数据的处理方法和的营销模型的训练方web应用或其他能够执行上述指令集合的[0131]根据本公开示例性实施例的营销数据的处理方法和的营销模型的训练方法中所[0

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN112927012B 营销数据的处理方法及装置、营销模型的训练方法及装置（第四范式（北京）技术有限公司）

文档简介

温馨提示

最新文档

评论

CN112927012B 营销数据的处理方法及装置、营销模型的训练方法及装置 （第四范式（北京）技术有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN112927012B 营销数据的处理方法及装置、营销模型的训练方法及装置（第四范式（北京）技术有限公司）