【《电商购物网站用户画像的用户标注和用户群分析案例》6100字】_第1页
【《电商购物网站用户画像的用户标注和用户群分析案例》6100字】_第2页
【《电商购物网站用户画像的用户标注和用户群分析案例》6100字】_第3页
【《电商购物网站用户画像的用户标注和用户群分析案例》6100字】_第4页
【《电商购物网站用户画像的用户标注和用户群分析案例》6100字】_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电商购物网站用户画像的用户标注和用户群分析案例目录TOC\o"1-3"\h\u18123电商购物网站用户画像的用户标注和用户群分析案例 1106721.1系统总体架构 1104231.2搭建用户画像评估系统 2232781.2.1评估系统概述 27891.2.2系统数据库设计 3102791.2.3用户画像模块设计 447511.2.4个性化推荐模块设计 6286591.2.5系统非功能性设计 6178231.3用户标签分析 7286741.3.1用户标签规划设计 7204361.3.2标签数据处理 7122491.4用户群分析 11317531.1.1k-means算法 11211641.1.2用户群划分 12239001.1.3用户群画像 14本章主要介绍了用户画像在电商购物网站中的应用。构建整体用户画像体系架构,在收集网站数据后,对画像标签体系进行分析,对用户群体进行分类,最后分析用户的行为特征。本章主要包括四个方面内容,第一步,介绍公司搭建用户画像的应用平台和总体架构,接着,介绍用户画像系统的系统概述、系统数据库设计、用户画像模块设计和个性化推荐模块的划分等内容;然后,在该平台上展示用户画像,用户标签规划和数据处理;最后,对用户画像进行分群分层分析。1.1系统总体架构用户画像系统主要是为了购物网站内部统计分析使用,可以使运营人员更加清晰深刻地了解网站用户群体和单体客户,此外,还可以针对不同用户群体提供精准个性化营销,提高购物网站收入,提升服务质量,将用户数据价值最大化。大数据分析是以数据为基础,以模型为目标而确定的计算分析系统,它们主要包括数据源,以及运行组件、编程组件、存储组件四部分,如下图所示:图1.1系统大数据架构图数据源层属于架构以外的部分,但数据源的特点和属性会影响数据的收集方式、存储方式、处理方式、分析方式。为了达到采集数据的要求,通常不同的方式需要采用不同的技术或技术组合。数据采集要根据原系统数据源的特点采用不同的技术手段和策略。采集必须能够充分满足数据汇总整合的需要,又能保证不影响源业务系统的运行性能,互相不受影响。数据采集工具有:kettle适用于采集关系数据库数据、kafaka适用于消息类数据、flume适用于文件类数据、网络数据宜采用爬虫技术。数据处理是对采集的数据进行抽取、清洗、合并和加载的过程,是一种综合处理的过程,是构建数据仓库的基础手段和方式,从系统抽取出目标数据,进行加工、清洗、转换,按照数据模型进行加载。数据处理一般以业务分析模型为目标,本文技术架构中数据处理是以Kettle作为开发工具,结合流程处理过程,建立起数据处理规则和流程。1.2搭建用户画像评估系统1.2.1评估系统概述本文所搭建的用户画像应用系统是以购物网站为项目实时场景。由于购物网站已上线,网站用户类型和商品条目比较固定,本文通过对购物网站的业务系统采集全部业务数据,并对网站登录日志数据进行文本挖掘,采集用户行为日志信息,并根据相关业务需求和应用场景构建出用户画像系统。通过对用户画像进行业务分析和指标建模,进行构建相关指标体系和对用户进行标签化,为客户提供个性化服务,更好的满足其应用要求。服务器端主要功能有业务数据存储加工以及支持与后端的交互请求。业务数据存储:数据库是较为常用的mysql或者druid,存储的是业务交互较多的数据,也就是经过大数据处理后的业务展示分析数据。支持与客户端的请求交互:对客户端的请求进行及时响应交互,并提供稳定高效的数据传输通道。大数据服务端主要有三大模块,大数据存储、清洗和标签模块。大数据存储:提供稳定的大数据存储平台。大数据清洗:对底层的数据进行清洗、处理、聚合,生成更加直观的、方便业务人员操作使用的数据。生成人群标签:客户端使用的人群标签是用不同的机器学习算法进行挖掘,从大数据平台研发产生的。1.2.2系统数据库设计用户画像应用系统在分析过程中,使用了用户基础信息表(用户ID,登录时间,姓名,年龄,家庭住址,联系方式,职业等)和用户画像信息表(用户ID,登录时间,登录时长,时间偏好,用户活跃度,用户行为偏好等),本系统采用数据仓库常用的kimball结构进行存储和计算。其中,用户信息表采用了电商购物网站原始表结构,具体信息如表4-1所示。表1.SEQ表4.\*ARABIC1用户基本信息表字段字段类型描述userCodevarchar(50)用户编号userAccountvarchar(50)用户账号timevarchar(20)登录时间typevarchar(50)用户类型organizationNamevarchar(50)用户所在机构名称organizationLevelvarchar(50)机构等级positionvarchar(MAX)用户所在区县onlineTimevarchar(20)在线时间偏好activityLevelvarchar(20)用户活跃度behaviorvarchar(MAX)用户行为偏好pagevarchar(MAX)用户访问网页偏好operatevarchar(MAX)用户操作偏好browserTypevarchar(20)浏览器类型monthlyVisitsint月访问量weeklyVisitsint周访问量dailyVisitsint天访问量operationModevarchar(20)操作方式lastLoginDatevarchar(20)最后一次登录日期userStatusvarchar(100)用户状态loginNumberint登录次数根据系统应用场景和需求内容,本文设计了用户画像信息如表4-2所示。表1.SEQ表4.\*ARABIC2用户画像信息表字段字段类型描述userCodevarchar(50)用户编号userAccountvarchar(50)用户账号timevarchar(20)登录时间typevarchar(50)用户类型organizationNamevarchar(50)用户所在机构名称organizationLevelvarchar(50)机构等级positionvarchar(MAX)用户所在区县onlineTimevarchar(20)在线时间偏好activityLevelvarchar(20)用户活跃度behaviorvarchar(MAX)用户行为偏好pagevarchar(MAX)用户访问网页偏好operatevarchar(MAX)用户操作偏好browserTypevarchar(20)浏览器类型monthlyVisitsint月访问量weeklyVisitsint周访问量dailyVisitsint天访问量operationModevarchar(20)操作方式1.2.3用户画像模块设计下图1.1显示出这种系统的主要结构组成,分析可知在应用过程中这种系统可实现活跃信息画像、用户行为画像、地理分布画像相关的功能。图1.SEQ图4.\*ARABIC1系统功能结构图Fig.4-1Functionalstructurediagramofthesystem(一)基本属性画像模块基础属性模块是统计用户的个人数据信息,每个用户的信息都是不同的,都有各自独特的个人相关数据。该部分的信息主要包括:用户ID、用户名、姓名性别、职业,收件地址、联系方式、第一次登录时间、最后一次登录时间等内容。(二)活跃信息画像模块此模块具体反映出用户在线时长和登录频次,用户缺少活跃度借指用户日常活动不积极响应,通常来说用户活跃路径是新增-不活跃-回流-活跃,根据时间可分为日活跃率、周活跃率等。(三)用户行为画像模块行为偏好模块会根据用户的不同类型行为偏好,统计分析用户行为监测相关数据,并据此确定出用户偏好等信息。这方面分析可以为产品优化提供支持,更详细明确的了解用户的行为习惯,为准确分析网站、app的缺陷提供支持,也有利于优化开发高转化率页面,为提高产品的销售水平提供支持,同时也有利于增加转化率。在此分析过程中需要明确用户的目标、需求和消费习惯,这样可以针对目标用户群进行产品设计。(四)地理分布画像模块用户分布信息模块是为了统计用户在高峰期或者低谷期时段的分布密度和每天固定时段内不同市县用户的在线情况内容。1.2.4个性化推荐模块设计热点个性化推荐的作用在于实现对热点商品的实时推荐,一小时推荐一次。此模块在应用过程中可以选择热点公式、分群热点模型两种方法进行推荐。前者在分析时需要应用到用户画像而进行群体划分,并在使用单位时间之内的商品和统计数据,利用逻辑回归模型的作用,实现对用户分群的商品针对性推荐,具有更高精准度。后者主要是基于商品热点公式分析而确定出各热点得分,在此基础上进行结算。矩阵分解推荐上仅仅是对用户ID和商品ID展开计算,基于对“用户一商品”矩阵进行完善,从而对用户的预测点击率进行初步的计算,然后根据实际的用户数量,对这些用户展开个性化推荐。其中,个性化推荐数量必须是要根据预测点击率来完成排序及为用户提供商品推荐。兴趣点推荐的维度就是全部的兴趣点,即对于每一个兴趣点都提供个性化的推荐,同时通过商品得分来完成商品的排序,从而可以选出不同兴趣点下对应的高得分商品。商品得分功能是基于商品和用户数据采用相应的得分公式计算出来的,并对商品得分进行保存。计算公式主要是基于商品点击率、时间差等内容加权计算得出的。高质量商品推荐需要对商品入库时展开相应的检验,由网站完成对高质量商品的合理标注,因此通过数据库的过滤作用,从而实现高质量商品的推荐。过滤个性化推荐应用的是和类似的计算公式,改变其计算得分方式,目的在于更好地与系统方式相匹配。分类个性化推荐所应用的维度为全部的分类点,此处的分类主要是建立在频道上的二级分类。其中,频道名就是一级分类,如“科技一手机”、“玩具-积木”、“家电-电饭煲”等,文中主要在各种详细分类的基础上,对用户提供精准的分类推荐。1.2.5系统非功能性设计这种系统应该满足一定功能和性能相关的需求,比如系统安全性保证和单点登录等功能,用来更好的服务内部用户。这种系统在应用时需要采集用户的基础信息和行为偏好等隐私数据,应该确保数据不会泄露,因此系统要具有很高的安全性,我们设计了按照等保3.0的要求的设计,用来设计和开发系统,从而确保系统安全。1.3用户标签分析1.3.1用户标签规划设计对用户数据进行标签设计,首先要做用户的标签规划,本系统中标签类型设计有兴趣、爱好、年龄、查询数据、收藏数据、点击数据、留言数据、购买数据、行为兴趣标签等,通过对接入数据进行初步统计分析汇总,共定义了253种标签,包括基础标签,行为标签,衍生标签等,后续会根据业务需求和场景不断扩增。1.3.2标签数据处理标签数据处理环节分析,如表1.1所示。表1.1标签数据处理环节分析表dw_push_uscrscan_incrc_day.sh从基础表里取出用户的基础信息dwa_push_userprofile-incre_day.shdw-push_userscan_incre_daypush基础信息用户表做主表dwaadunicornTable公司数据累计表包括区域和地址Dwa_ad_consumption-_feature应用分类表dwd_unipay_useractionn_day支付用户标签累计dwa_ushYuseiprofile_ex_incre-day.shdwa_push_userprofile_incre_day主表(上面的信息)dwd_unipay_userespredit-label_day标签表dm_ush_label_list_incre.shDwa_ush_userprofile_es-incre_day主表(上面的信息)push_user_app_to_useiprofile-label_all_to-push_totalv2新添加的部分标签表push_ttsilence头条沉默用户表Dwa_ad_umcom_lable.shdwa_ad_credit_abelBSS每月数据打标签(目前暂无数据)Dw_ofield_infoO每月数据(目前暂无数据)dm_hq-fivetield_info_all元组数据(数据只有11月份)dw_bfield_all_month累计数据dwa_ad_consumption-fcaturc.shdim_mcnt_content应用码表dim_mproduct_category应用匪类码表dw_cp_pay_all_detail-new流水表新集群脚本部署在/home/huaxiang/workspace/sql/dm目录下。本系统都是使用Kettle进行数据清洗和处理,各个模块数据有些是用日数据处理,有部分是用周和月数据进行处理。数据处理模块分析表如表1.2所示。表1.2数据处理模块分析表数据处理模块名处理脚本处理流程数据源购物数据dw_push_userscan_day_init.sh:扫描数据初始化脚本;dw_push_userscan_day.sh:扫描数据统计日处理脚本。dw-push_userscan-increweday:T日push扫描数据,该部分数据是增量数据,如新增基于push扫描数据标签扩展该表;dw_push_userscan_day:push扫描数据标签表,增量数据与T1日标签数据生成T日标签数据。Push扫描数据取自dot.dw_push_userstat_logunipay用户行为数据dwd_unipay_useraction_day.sh:用户支付操作行为汇总处理脚本dwd_unipay_user_action_day_temp:SDK支付操作流水日志T日汇总;dwd_unipayuseractionday:用户支付操作行为汇总表,T日操作流水与T1日用户支付操作行为表生成T日用户支付操作行为,表中数据为2019年1月1日一T日用户全量支付操作行为。支付操作行为取自cp.dwcp_pa_log_day操作分类取自dim_mcnt_content和dim_mproduct_category集团数据dwa_ad_unicorn_lable.sh:集团各域汇总数据处理脚本dwa_ad_credit_label:bss域标签数据表,由dna.dwbssinfo生成,phone为用户主键;dna.dwofieldinfo:。域标签数据表,由dna.ofieldorg生成,phone为用户主键;dwa_ad_unicorntable:b域数据通过phone关联五元组(dot.dmhq-fivefieldinfoall)获取imsi和imei,关联dwaadcreditlabel获取bss标签,关联dna.dwofieldinfo获取。域标笨dna.dw-bss-info.dna.ofieldorg,dna.BFieldTagsagg,dot.dm_hq_fivefieldinfo_all,dna.dim_ofield支付交易流水数据dwa-ad-consumption-feature.sh:用户付费兴趣标签处理脚本Dw-unipay-user-action-month:用户T月付费汇总数据;dwa-adconsumptionfeaturetemp:用户T月付费兴趣标签,取月付费总金额前三的游戏分类;Dwa-adconsumptionfeature:用户T月付费兴趣标签与T1月全量用户付费兴趣标签生成T月全量用户付费兴趣标签用户付费数据取自cp.dw一cp_payallesdetailnew、分类数据取自dot.dimmcntcontent和dot.dim-mproductcategory用户应用信息ods-unipayuser-applistday.sh:用户应用信息入库;dwdweuserappwehobbyday.sh:生成用户应用兴趣标签ods-unipayuserapplistday:T日上传的用户应用信息。Dwdseuserapphobby:根据用户的应用信息生成全量用户应用兴趣标签;dwdesuserapphobbyday:全量用户应用兴趣标签,将dwduserapphobby转化成文本格式用干新老焦群间拷贝在新群中挂载老集群中用户应用信息存储目录0:/data0l/pushnosdkapp_log费用标签dwa-pushuserprofileday.sh:计费push用户基础标签处理脚本;ofile计费push用户标签处理脚本dwa}ushuserprofileday:计费push用户基础标签表,dw_push_userscan_day关联dwa_ad_unicornfable,dwa_ad_consumptionfeature.dwd_unipayuseractiondays生成计费push用户基础标签表用户标签生产后需要提供给公司运营部使用,标签生成接口URL定义为:5:8081/huaxiang/tags/import/paramtter。接口采用POST方式提交数据。接口定义如下:1.输入参数tagFileSize:共多少个文件validateFileName:校验文件名称filePath:文件路径2.返回值{"responseCode":"200","response":"success"}200:成功;201:部分标签文件不存在;500:内部错误;501:参数错误;503:文件个数不对;504:校验文件不存在。其中500,501,503,504错误码返回时,服务器不会导入任何数据。输入的包括文件路径和参数路径,在进行文件存储时应用到NFS文件服务方式,NFS系统进行文件传输时应用到RPC协议,NFS文件系统的记录格式为"目录位置-客户机地址。

提供删除和恢复用机制,在应用过程中可以很好的满足存储空间相关要求。用户标签文件存储格式采用json存储,用户标签信息的json字符串如下:{"uId":["123123jlksjadlkfa","123123]Iksj123123"],"imsi":"asdfadfl23123123123","tags":{"telephoneCost":"1","paymentSuccess":"1","sex":"I","paymentIntentions":"1","silenceDownload":"1","ageGroup":"1","ledouBl":"1","boyaBl":"I","vivoBl":"I","huaweiBl":"1","momoBl":"1”,”IedouBlRgn":"I”}}1.4用户群分析用户群分析需要按照以下步骤完成:划分用户群,需要找到特征变量,然后通过若干方法根据特征变量将用户分为若干个具备业务意义的用户群体。选取合适的特征变量是用户分群的关键。变量是人的抽象,是真实世界的用户在系统中的编码。编码的不同,描述了用户的不同。一般来说,变量分为可观测变量和不可观测变量。1.1.1k-means算法对用户进行分类时,本文选择了Elkank-means算法,这种方法是对经典k-means算法进行改进而形成,在处理过程中先选取K个点,其中点的位置为随机特设定的,或者基于应用要求而设定相关点,其后则循环计算确定出各样本点到聚类中心点的距离,且基于所得结果不断的分组处理,一直到满足收敛性要求。算法伪代码如下:1.给定样本集D={x1,x2,……xn},聚类簇数kμ2.从D中随机选择k个样本作为初始均值向量{μ1,μ2,μk}3.Repeat1.令C5.forq=1,2,3,……,ndo6.计算样本xq与各均值向量μd7.选取距离最近的均值向量确定xqλ8.将样本xqC9.endfor10.forp=1,2,……,kdo11.计算新均值向量:μ12.Ifμ13.将当前均值向量μp更新为11.else15.保持当前均值向量不变16.endif17.en

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论