版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
WO2024067387A1,2024.04.04一种基于大数据处理和多维度特征的个性本发明公开了一种基于大数据处理和多维度特征的个性化流量用户画像应用构建方法及传统方法,该发明能够更加准确地了解用户需2所述的基于大数据处理和多维度特征的个性化流量用户画像应用构建方法步骤S1中从数据湖中基于Hive进行数据采集的操所述的基于大数据处理和多维度特征的个性化流量用户画像应用构建方法所述的基于大数据处理和多维度特征的个性化流量用户画像应用构建方法所述的基于大数据处理和多维度特征的个性化流量用户画像应用构建方法对数据宽表取本月数据作为静态用户画像建模数据集并用于后续的基于Spark的分布对数据宽表取本月与上月数据的变化作为动态用户画像建模数据集并用于后续的基所述的基于大数据处理和多维度特征的个性化流量用户画像应用构建方法3所述的基于大数据处理和多维度特征的个性化流量用户画像应用构建方法步骤S5中对于动静态重要特征因子的数值型特征,构建所述的基于大数据处理和多维度特征的个性化流量用户画像应用构建方法对打上目标标签的用户进行动静态画像评分的操2.一种如权利要求1基于大数据处理和多维度特征的个性化流量用户画像应用构建方所述的系统包括数据采集与处理模块、多维度特征构建模块、动静态用维度特征构建模块通过动静态用户画像构建模块与画像数据采集与处理模块:完成大数据的采集与初步处理、完成用动静态用户画像构建模块:在数据采集与处理模块的支持画像应用模块:筛选并圈出目标标签的用户,结合动静态4[0008]3.无法综合多种数据来源和多维度特征,无法充分描述用户的个性化需求和偏5[0020]步骤S1中从数据湖中基于Hive进行数据采集的操作,其中数据采集涉及流量统[0027]对数据宽表取本月数据作为静态用户画像建模数据集并用于后续的基于Spark的[0029]对数据宽表取本月与上月数据的变化作为动态用户画像建模数据集并用于后续[0034]步骤S5中对于动静态重要特征因子的字符型特征,构建分别计算目标标签与非目标标签中在每个特征上各类别的占比,利用3倍标准差进行计算[0035]步骤S5中对于动静态重要特征因子的数值型特征,构建6[0042]数据采集与处理模块分别与多维度特征构建模块、动静态用户画像构建模块相[0048]本发明通过提供一种基于大数据处理和多维度特征的个性化流量用户画像应用7[0070]图1为基于大数据处理和多维度特征的个性化流量用户画像应用构建方法的流程8[0073]结合图1来看,本发明基于大数据处理和多维度特征的个性化流量用户画像应用[0077]数据来源多样化:数据湖可以接收来自不同平台的数据,如客户关系管理系统[0086]S14、将经过处理后的数据汇总成一张大宽表;大宽表是一种包含大量字段的表9[0152]S3、基于完成大数据处理与多维度特征融合后的数据宽表,采用Spark中的用户作为标签0;[0160]步骤S3:基于完成大数据处理与多维度特征融合后的数据宽表,采用Spark中的Pyspark训练分布式机器学习Lig[0190]frompyspark.ml.featureimportStringIndexer,OneHotEncoder,[0193]indexer=StringIndexer(inputCol="category",outputCol="[0194]encoder=OneHotEncoder(inputCol="categoryIndex",outputCol="[0195]assembler=VectorAssembler(inputCols=["feature1","feature2","[0196]scaler=StandardScaler(inputCol="features",outputCol="[0199]classifier=LightGBMClassifier(featuresCol="scaledFeatures",labelCol="label",learningRate=0.3,numItera[0200]pipeline=Pipeline(stages=[indexer,encoder,assembler,scaler,[0204]frompyspark.ml.evaluat[0206]evaluator=BinaryClassificationEvaluator(labelCol="label",中的Pyspark训练分布式机器学习LightGBM模型,能够有效地构建静态和动态用户画像模根据用户的近期行为变化输出每个用户属于目标标签[0227]frompyspark.ml.[0235]assembler=VectorAssembler(inputCols=["feature1","feature2","[0241]static_predictions=static_predictions.withColumnRenamed("[0242]static_predictions=static_predictions.withColumnRenamed("[0245]static_filtered=static_predictions.filter(static_pr[0250]dynamic_predictions=dynamic_predictions.withColumnRenamed("[0251]dynamic_predictions=dynamic_predictions.withColumnRenamed("predictions.dynamic_probability[1同样也可以通过在同一分类下特征的特征权重进行加和,获取新分类维度下特征维度占[0282]S61、根据构建的评分计算体系,对打标后筛选的静态标签用户进行静态画像评[0288]S62、根据构建的评分计算体系,对打标后筛选的动态标签用户进行动态画像评[0298]结合图2来看,基于大数据处理和多维度特征的个性化流量用户画像应用构建系[0300]数据采集与处理模块分别与多维度特征构建模块、动静态用户画像构建模块相[0305]基于大数据处理和多维度特征的个性化流量用户画像应用构建系统是一个复杂
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电力变压器保护培训课件
- 注册会计师税法中消费税法应纳税额的计算调整
- 审计师实习心得体会
- 某建筑公司施工质量标准
- 大数据处理方法与数据清洗规范
- 2026广西贵港市桂平市垌心乡卫生院招聘编外人员1人备考题库及答案详解【各地真题】
- 2026济钢集团招聘112人备考题库附参考答案详解(黄金题型)
- 2026江苏苏州市昆山市淀山湖镇镇管企业招聘13人备考题库及答案详解(名师系列)
- 2026福建福州三中晋安校区招聘编外英语教师2人备考题库附参考答案详解(满分必刷)
- 2026贵州安顺三〇三医院招聘9人备考题库附参考答案详解(研优卷)
- 设备缺陷分级管理办法
- 2025年海南省公务员行测(A类)真题及答案
- 南海鸢乌贼:营养剖析、加工适性及高值化利用策略
- 膝关节游离体的护理查房
- 浙江干部培训管理办法
- 2025届山东省泰安市高三二模生物试题(解析版)
- 冰雪知识教学课件
- 城市家具设计
- 华为员工处罚管理办法
- 银行职员个人对照检查材料范文
- 会务服务招投标方案(3篇)
评论
0/150
提交评论