版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电商购物网站用户画像模型与特征分析案例目录TOC\o"1-3"\h\u1026电商购物网站用户画像模型与特征分析案例 1265131.1用户画像建模总体架构 1105301.2用户画像的构建 3234611.2.1用户行为分析 3273081.2.2用户画像的建模方法 5259411.2.3多维度刻画用户画像 6275961.2.4建立用户画像的标签体系 8276511.2.5构建用户画像流程 1029991.3数据采集与预处理 10312341.1.1数据来源 10316481.1.2数据预处理 12131111.4用户行为分析 16126231.4.1用户时变行为分析 16311971.4.2点击行为分析 168631.4.3收藏行为分析 17313051.4.4购买行为分析 18257051.5特征分析 19240301.5.1用户时变行为分析 1973461.5.2用户特征 2098731.6小结 21为了更加全面、准确的完成开发电商购物网站用户画像系统,提升用户画像的准确性,本文首先搭建电商购物网站的用户画像总体架构,在此基础上,从电商购物网站内容和个人基本属性两类数据出发,根据业务需求构建用户画像标签,通过数据采集和处理,并与对用户在网站上的行为分析,构建各用户行为分析的不同特征。1.1用户画像建模总体架构本文设计的用户画像总体框架如下图所示:图1.SEQ图3.\*ARABIC1用户画像构建总体框架Fig1.1Modelingmethodofuserprofile由用户画像整体框架可知,本文使用的用户画像构建方法主要可以分为四个部分:原始数据、事实标签、模型标签和预测标签。通过与电商购物网站合作,获得购物网站中的数据信息,数据信息主要包含两部分:个人用户基本信息表、用户交易信息表和用户操作浏览信息表。其中,个人用户基本信息表描述的是用户基本信息,主要包括以下字段:用户ID、照片、家庭状况、收入、工作、喜好、目标/动机、性别、出生日期、年龄、血型、星座、教育程度等;对用户交易信息表描述的是用户在网站的交易数据,主要包括以下字段:交易日期、用户ID、商品ID、商品名称、交易金额、币种、商家ID、商家名称、收货地址、收货日期等,每条数据由用户ID作为唯一标识用户号进行区分。用户行为情况,主要包括:数据新建和更新日期、点赞信息、评价信息、搜索信息、兴趣信息、收藏信息等。数据准备环节,应当先结合电商购物网站数据源来完成对网络爬虫的设计,同时做好对电商购物网站内容及用户信息的收集,其次清洗好文本中的内容,然后根据实际的预分词步骤进行电商购物网站中关于农户词典的构建,最后利用词性筛选、分词等流程将文中不存在分析作用的内容过滤掉。该环节主要是为了把用户发出的内容转变成可以完成建模的语料库,并对用户兴趣特点进行收集和提取,以降低计算难度,进而提高运行效率,更好地阐明用户的兴趣特征。兴趣提取环节,应当先结合用户基础数据进一步细分不同用户的类别,其次通过DTM模型深入分析文本数据集,并做好对模型参数的持续性测试与调整,然后得出各个时间段之中的词表及用户和主题之间的贡献矩阵,最后对用户比较关注的行为、兴趣等进行提取,从而对用户特征在处于这些时间维度中的出现变化进行分析。画像生成环节,先对用户的基本信息、兴趣矩阵进行计算及开发,并完成特征向量空间的构建,其次把有关的数据都转变成多维空间向量,然后通过聚类算法按照各个用户之间的相似程度进行分类,最后结合聚类中心中提供的用户特征,完成对其特征标签的提取,最后就能获得网站的用户画像。总的来说,文中所提到的用户画像构建法可以很好地解决之前各种研究中提出的对时间因素考虑不全、用户数据片面等两大类问题,既涉及到用户的基本信息及兴趣特征,且可以将类型不一样的用户在不同时间段的兴趣变化反映出来,可以获得更为精准的用户画像,真正做到千人千面,以便后期更好地为用户提供个性化的产品推荐。1.2用户画像的构建本节主要介绍用户画像的构建流程、行为分析和标签体系进行介绍。首先,研究用户行为内容,对用户画像的相关建模方法进行分析;然后,分别从用户的基础信息、行为习惯、上网动态、购物车信息、兴趣属性等方面对开发用户画像进行描述,建立用户画像标签体系。1.2.1用户行为分析随着信息量不断增多,数据积累量也随之增多,在当前大数据时代,数据创造出来的价值越来越重要[29]。不过在这期间也会出现非常多的问题,如数据管理、价值实现等问题,在短时间内都没能找到很好的解决方法。事实上,随着时间推移,业务需求也会随之改变,最后体现出的价值也是完全不同的[30]。将用户需求根据一定的标准进行级别的划分,同时在各个级别用户需求的基础上,根据实际需求完成数据的分配,就能将数据价值给发挥出来[31]用户体验和行为方面,目前由于不同企业和网站之间相互独立,数据存储系统和数据存储结构都存在很大的不同,分析方法和建模经验很难进行共享分析,并且设计建设网站都没有系统规划,从而产生了信息孤岛的现象,数据的价值只展现出很小的一部分[32]。国内学者也在研究分析用户行为学方面的课题[33],分析研究特定场景下的用户行为,分析基于消费总额、消费频率和消费间隔等维度,对客户群进行客户分群和过滤算法分析,对客户进行行为分析和打标签,推荐个性化商品等。刘义等人(2003)分析了三种基于顾客购买行为的顾客细分模型,首先要采集客户数据,清洗好客户相关数据,根据相关模型算法来研究客户行为[34]。吴靖和林政(2005)通过分析客户信用卡消费数据,利用信用卡刷卡记录,分析消费金额和消费频率,构建了客户细分模型[35]。郭崇慧和赵作为(2015)通过采集某集团4S店汽车交易数据,根据交易数据,使用神经网络模型对客户进行客户分群,将客户分为六个群体,并对相关结果进行测试和验证[36]。在使用用户画像的时候,我们常常会将用户设置成为不同的群组,然后给每个群组一个特定的标签。这样,我们在利用该数据建模的时候,就能够让差异性存在。久负盛名的学者Liu等[37]提建立了一种卓越的技术,即用户群识别,它被运用于移动医疗当中。这种方法可以使用序列挖掘,然后通过聚类技术完成用户组的识别。不仅如此,用户群组的行为还可以完善用户角色,这种目的的实现通过构建多用户属性的决策树即可实现。而困扰人们的一大难题则是如何实现定量分析目标用户群中的那些模糊和不确定的行为,而且还要做到能够计算其行为之间的相似性,我国著名学者姚龙飞和何利力[38]构就此问题设计了一种定性相似度算法,他们使用这种源于云模型的理论,不仅解决了问题,并且还能够完成商业营销和策划活动的指导。在国内学者研究用户画像技术分析中,刘海鸥和孙晶晶等人[39]的方法则独具特色,他们针对社交平台进行客户行为分析,构建全方位的用户画像,以加强用户统计和提供种子用户。业界学者Qin等[40]出也在这个领域有着相当的建树,他开发了一种基于智能手机的程序,并以此建构用户画像,然后接着用于预测人口信息。在这种技术之初,他通过构建一个特定矩阵,并使用这个矩阵进行数据维度特征的收集,进而就可以做到关联信息,把日志文件所包含的类别信息类型进行关联分析。当然,因为有不平衡问题的出现,他为此进行了优化,提出了用人口信息和所需的网络资源相关性进行下一步预测,这样的结果就是让产生的数据更加平滑,最后的画像准确率相当之高。著名学者Gu等[41]曾经有一种说法,他设计出了一种心理建构方式,这种建构方式基于计算语言特征值。他在分析了诸多数据之后,如人格特征数据、社会行为关系等等,得到的实验结果能够让服务质量得以提升。知名学者Jiang等[42]用使用的方法则截然不同,他们将移动运营商的用户的数据进行十分详细的记录,从而能够分析出应用程序的偏好,这一分析基于不同手机品牌的用户,进而提出了一个概念,即移动互联网生活角色,同时建构了一个模型,即潜在用户索引,通过这些,完成了用户画像的分析。著名学者黄文彬和徐山川等人[43]曾经就用户移动行为数据的三个维度进行过分析,这三个维度分别是:一、用户位置的变换速度。二、用户行为的移动路径。三、用户的行为频繁度。通过统计分析移动行为发时间时间和频率进行沟通用户画像。1.2.2用户画像的建模方法依据需求与应用情景的差异性,索取的建模数据是不尽相同的。直接获取数据包括用户的基本信息,例如姓名、出生年月、收入、爱好、家庭住址等消息,也可能会包含一些不明确的文本信息,需要进行过滤。用户画像的建模方法,会根据业务需求进行调整,侧重也会不一样。如果原始数据中包括大量用户重复的基础数据,那我们要根据需求对用户进行分类和聚类,并用于预测新的用户群体。如果原始数据含括了很多用户网页记录,那就需要使用漏斗模型或者序列模型进行挖掘计算,并分析用户的操作行为轨迹,利用算法模型,优化网站结构,提高用户体验。根据多维度系统数据和外部数据,多维度进行用户分析,挖掘出于浏览操作行为相关联商品信息并及时推送给用户,以达到精准营销的目的[44]。构建用户画像的核心是指标建模,其过程主要包括:获取原始数据,对数据进行清洗转换,分析和设置用户业务标签,开发用户画像标签,通过模型标签进行预测,完善用户画像。获取原始数据。通过抽取网站的行为日志和用户的基础信息,获得用户的浏览操作行为信息;对数据进行清洗转换,分析和设置用户业务标签。对获取到的用户数据进行抽取、过滤、清洗、转化等操作,处理空数据或者明显离群值数据,进行统一清洗和入库;分析用户行为,构建用户画像标签。对网站浏览和操作行为统计分析,总结其浏览页面和查询页面商品方式,分析获得用户访问和商品品类爱好操作的规律,构建用户行为模型,并根据多维度进行用户标签开发;通过模型标签进行预测,完善用户画像。根据用户行为模型预测用户兴趣爱好,并预测将要发生操作行为,提供个性化服务,提高用户体验。在构建用户画像的过程中,涉及到的主要建模方法如表3-1所示。表1.SEQ表2.\*ARABIC1用户画像建模方法类型相关算法任务文本挖掘TextCNN,TopicModel,LDA,TF-IDF,NBSVM,DPCNN抽取代表其特征的元数据,这些特征可以用结构化的形式保存分类/聚类KNN、贝叶斯网络、神经网络、SVM支持向量机预测新用户分析有相同特征的群体信息,对用户进行划分机器学习逻辑回归、决策树、随机森林构建用户画像标签相似度计算Jaccard相似系数、皮尔逊相似度、余弦相似度、Tanimoto系数计算特性值偏差推荐算法基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法以历史数据为基础,抓取和建模用户的偏好后,推荐出兴趣标签,完善画像预测算法回归预测、监督学习、线性规划用户兴趣程度、忠诚度、流失预测,实现个性化服务1.2.3多维度刻画用户画像若想深入挖掘出用户更多的信息以及更周到地进行用户画像的构建,则要通过多个维度进行用户画像的刻画。当前,在各个行业中都开始落实用户画像,而且领域不同,对用户信息的关注点也是不同的,对用户画像的刻画维度也会存在各异。因此,根据不同领域中的情况做好用户画像维度的合理划分,从而建立起一个多维度的标签体系。文中主要通过对电商平台进行用户画像,结合实际使用场景及用户需求,基于用户的五个维度进行标签体系的构建,维度分别为:个人自然属性包括用户的一般信息数据,如注册时所使用的姓名、出生年月、年龄、联系方式等信息,这些信息可用作用户画像基本特征。登录网站之后,不同的用户所感兴趣的产品或者想要获得的服务都不同;用户登录方式也会因为年龄阶段的区别而存在不同。用户相关个人信息基本变化很少,在建成之后基本上很少会出现变更。兴趣属性包括用户行为偏好方面的信息,涉及到用户喜欢访问的页面、平时喜欢用到的功能、经常使用的功能等,且涵盖了用户隐含的兴趣。用户的偏好信号通常需要从操作日志上才能挖掘处出来。对于用户画像的构建,目的在于给用户行为标注好标签。用户的兴趣标签同样会根据时间推移而发生改变,具有非常强的时效性,且要对系统进行定期更新。因此还需要结合兴趣标签衰减情况。对于标签权重的计算,就是完成兴趣衰减的主要方法,后续还通过TF-IDF、BM25两种算法展开对标签权重的计算。第三、地理信息则包括用户所处的区域位置信息,基于移动轨迹的角度分析,用户的位置不会一直不变的,且其标签同样会持续变动,只有常驻位置会较为固定一些,故无需频繁更新。对于用户分布特征,本研究中共设有5台服务器,当用户进行网站访问过程中,就会根据其所处的位置与相对应的服务器进行连接,在相同时间内进行登录的用户,其分布和地理属性方面是有关的。第四、设备属性包括了在登录过程中选用的浏览器,即电脑主机IP和服务器IP之间进行连接。在系统登录过程中,若用户使用的电脑不一样,则主机IP网段也会随之改变,且通过IP地址就能发现用户所处的位置。用户的浏览器在和网站进行显示时,通常与其组件兼容性之间的处理方法也是不一样的。第五、隐含属性包括了通过对用户的基本、行为等信息深入挖掘得到的用户隐含的偏好或规律。文中主要通过用户平时的登录频率对其活跃等级的准确计算,并通过活跃等级将用户粘性给反映出来。1.2.4建立用户画像的标签体系针对不同的分析场景,用户画像设计方式也不尽相同,标签的设定就需要结合具体的用户需求、产品使用场景来对标签体系的准确性和广泛性进行描述。在用户画像开发过程中,将业务进行标签化,形象的描述和分析用户的各种行为。同时,标签系统的构建需要遵循MECE原则,即标签需要彼此独立且详尽无遗。在设计用户画像标签体系的过程中,第一步要要设计用户画像的分析体系框架,进一步明确用户画像的分析场景,使用户标签更加准确和实用。从不同业务系统抽取原始交易数据,包括客户基础数据,客户浏览记录,应收应付账款,客户历史交易情况,客户风险等级等各种原始数据。用作分析建模,讲原始数据进行标签化,打出各种标签来进行使用。具体要结合电商网站目标、公司考核KPI值、部门考核情况、网站数据质量、应用场景来规划标签系统。梳理用户画像标签可以分别从指标体系和标签类型来进行,可以更清楚的进行管理和分析,有三点好处:一是标签体系化,可以归纳和分类不同种类的用户标签;二是维度关联,可以对相关的数据维度进行关联和管理,做好映射;三可以为用户画像标签提供统计分析和行为标签子集,例如分析用户兴趣爱好,本文会将采用MSCE分类的标签集合。这里要注意的是,梳理标签子类的过程中,要注意不重叠,并彼此独立。比如:用户活跃度的划分为核心用户、活跃用户、普通用户和流失用户等内容,用户的消费频率分为:超快、快、慢、超慢,用户消费能力分为超强、强、中、弱、超弱,可以按照活跃度和消费能力进行分组。图1.2用户画像标签体系Fig.1.2Modelingmethodofuserprofile在建立标签体系时,我们应该注意:在业务上会持续调整用户画像需求以及画像的使用场景,因此标签体系是要进行持续性完善的,并非一次就能成立,属于不断迭代的过程;在领域上,也会随着领域的变化,用户需求、业务场景也会发生变化,进而会导致画像标签体系及其分析维度也会发生改变。在构建标签系统过程中,需要结合实际业务场景来展开相应的分析;按照相应需求对标签体系结构进行相应的划分,通常要使标签体系形成一定的结构框架,以展示出相应的层级关系,有利于做好标签管理,同样能强化标签之间的关联性。标签的体系结构主要涵盖三大类型,即:一是结构化标签系统。该系统具有比较明显的层级,而且上下级关系是比较明确的。二是半结构化标签系统。该系统对标签系统上呈现的成果比较重视,对于组织结构要求比较低,不过也不得过于混乱,不然就会增加实践应用难度。三是非结构化标签系统。该系统的各个标签之间缺乏完整的结构,且无明显的层级关系,其作用为进行关键词的搜索。文中选用关键词法进行该标签系统的建立。关键词法主要是基于具体业务情况对标签体系维度进行明确,然后将各个标签和标签含义的关键词进行对应,在通过计算文本法算出关键词在其标签文本上的具体分布,最后对标签对应关键词重要性进行明确。1.2.5构建用户画像流程企业通常使用的用户画像建模流程是根据数据特性和用户指标体系来设计,构建分析体系和场景深度挖掘,也就是用业务数据和业务场景来构建用户画像,以场景来构建相关标签体系。第一步,采集用户的个人信息包括(性别,姓名,电话,家庭住址等)和用户操作浏览信息(操作行为,兴趣特征,爱好特征等);接着,使用相关的算法(关联分析、行为分析等)将数据转换为指标数据和标签数据;接着,按照标签信息对用户画像建模;最后,对结果进行分析,将用户画像用数据形式进行展示。描绘出用户画像的框架,建立相对应的指标体系,明确其用途和范围。从不同业务系统抽取原始交易数据,包括客户基础数据,客户网页浏览信息,客户历史交易情况,操作浏览数据等各种原始数据。用户画像建模,将原始数据进行清洗和转换,再将清洗后的数据进行标签化,根据业务需求进行使用,同时结合公司应用场景,结合业务需求,将标签按照按照应用场景进行设计和开发。1.3数据采集与预处理1.1.1数据来源文中的数据均选自某购物网站于2019年6月5日—2019年12月30日所产生的实际销售数据,一共统计出4832441条。在这些数据中,主要特征维度涉及到商品价格、购买数量、返点积分、订单状态、订单关闭原因等十多种维度。文中主要通过R语言来展开对数据的研究,单件商品如果多次重复,就计入一次,只要对商量类别计入即可。产品买入状态选用布尔型,其中T对应的是订单成功;F对应的是交易关闭。另外,在商品邮费上有包邮和非包邮两种情况,应付邮费项可以同(零,十)来表示。对于支付积分维度上,可按照买家的交易习惯进行,要是多次购买的用户,对于前一次交易中所出现的积分,可以让用户在下一次的购买中使用,帮助用户减少现金的支出。商品价格等级分为五个等级,购物金额总金额分为四个等级,付款时间间隔分也为四个等级:表1.2数据格式转换支付账户中的剩余积分肯定会被用到,故不再展开关联性分析。还有在收货地址项上,是可以进行转换的,如江苏,浙江、安徽…而商品配送方式,通常都是由商家默认好的快递公司,只有在特定或加急等情况下,买家才会特别制定快递,因此频次不高,故不列示出来。其中,付款间隔表示的是下单到付款之间所间隔的时间。通过对数据库中各项商品每天用户的浏览数据进行统计,共计有商品类型数量达到1840万左右,该网站的用户数有31万人左右,可见其稀疏性是很大的。数据集中一共有4.89万个品牌。要是展开对所有商品的分析,则难免会出现数据稀疏性大、无法获取用户行为规律等问题。所以在进行分析过程中需要去除这部分的数据。在本文中针对用户行为数据,共截取了4个字段,同时进行850万条数据的抽取。所抽取出来的数据,首先是将brand_id的记录进行移除,其次对去除缺失数据之后的完整数据进行利用,然后按照user_id完成对行为数据的匹配,最后将可以完成匹配的行为数据进行保留。以数据集中其中9条为例,转换后的格式为:表1.3数据实例经过对数据的初步清洗和转换,以及对填补空值,处理异常值,经过处理后的数据基本符合标准规范,我们经过初步的数据探索,对数据集的属性值进行分析,选取了六个维度的属性,下表是对初步探索后的数据集统计分析:表1.4格式处理后数据集统计信息1.1.2数据预处理根据对数据库中商品和浏览日志数据的初步分析得知,购物网站商品类型约为18,400,000,用户数量约为923,000,两者差异较大,品牌数量约为48900,分析其用户基本信息和行为特征,并随机抽取了8,500,000条数据,对数据进行初步探索,并根据user_id进行匹配,分析其行为数据。本项目大数据清洗模块主要是对大数据架构中基于HDFS的KUDU的数据进行清洗,故仅介绍HDFS侧的数据清洗流程。流程设计如图1.2所示。图1.3大数据清洗流程图图1.3基本完整的描述了数据清洗入库的流程,主要包括无差别提取数据至一级hive库中,换句话说,就是将原始数据拆分成对应字段存放到数据仓库中,改变数据结构。这一步主要防止数据丢失,也是日后数据回溯对照的标准参考;第二步是对数据进行过滤,确定数据处理规则,例如对缺少某些字段的数据进行分类规则,缺少关键字段的数据直接抛弃,未缺少关键字段的数据按照规则入二级hive库;最后一步则是对数据进行切割、分类,放入三级hive库中,三级库较于二级库的差异并不大,只是对某些字段聚合,形成明确的业务指标,方便后续使用。数据规模庞大、结构各异、类型复杂己经成为大数据服务所面临的日常问题了。构造一个规范、整洁的数据集,将复杂的大数据清洗转换成干净的“小数据”,发挥出数据的力量非常重要。要将数据清洗干净,保证后续数据分析和挖掘,考虑缺失值处理、异常值分析、数据标准化等问题。。(1)缺失值处理在真实生产环境中,拿到完整无缺适合模型训练的数据是极少的,缺失的数据容易给算法模型引入偏差(bias)风险,第一步就是要处理好缺失值。一般情况,解决缺失值的方法有很多种,很难确定说某一种一定是最好的,需要视数据情况以及模型情况而定。在本论文中,采用算数平均值的方式填补缺失数据,会在训练模型前,会对数据进行重新聚类和填补,提高数据的准确性。以处理人口属性数据为例,在处理人口属性的数据时,较容易获得的且真实性较高的数据有:年龄、性别、城市等。较难获取的也有很多属性,例如有些用户并未完善全部信息,没有填写教育程度,因此便会产生部分缺失值。该人群标签的数据集总量近10,000,000条,缺失预计收入、教育程度的用户数据约有70,000条,占总数的0.96%左右,总体来看缺失数据占比较少,因此采用个案剔除法(ListwiseDeletion)将其剔除。(2)异常值处理异常值是指超出样本值的离散值,异常值分为单变量和多变量。单变量的异常值可以通过散点图的方式进行查找。多变量异常值是多维空间中的样本离散值,要通过多维模型进行发现。如果在样本值存在大量异常值,会在结果造成是非严重的影响,会造成实验数据的偏差。最常用的检测异常值方法隔离法就是方式,如Boxplot,Histogram,ScatterPlot等模型。此外还可以人工制定一些业务或数据规则来确定异常范围,如距平均值达到三个或更多标准差则被统计为异常。当检测出异常值后,我们将采用一些手段来处理这些异常值,一般的处理异常值的方法有:对偏差值进行删除;变换合并值;用算数平均值来替代;当然也可以选择不处理。在本项目中,由于样本数据较多,异常值数据较少,所以选取最简单便捷的方式,就是删除异常值数据。(3)正负样本选取在客户的预测标签中,数据的选取为历史有过大于等于一笔订单的全部用户,特征为上一小节选出的53个特征,其中正样本设为用户点击推送短信中的链接后在未来7天消费一笔订单,则为正样本,否则为负样本。筛选的训练数据集中,正样本有190万条,负样本有950万条,正负样本数量有些差异过大,本文作者采取对负样本做降采样,最终全部正负样本数据总大小为1.16G。(4)划分训练集和测试集通常在进行模型训练时,会把数据分为训练模型集和测试模型集,常用的比例为7:3,训练模型数据集用于模型训练,进行各种模型筛选,参数调整等内容,然后将测试数据集用于评估模型的准确性和性能。不过在本项目中,可支持用于模型学习的数据量较多,因此会把数据分为训练集,验证集和测试集,比例为6:2:2。其中,训练集会使用不同的模型和思路来训练数据,得到的结果和参数也是不同的,再通过验证集使用交叉验证的方式来选择最佳模型,并确定模型的参数,通过不断训练和迭代改善模型性能,优化参数,最后再通过测试集来评估模型的准确性。算法1.1:数据预处理算法:PreProcessing(Pos,Para)输入:用户行为数据Pos,用户属性数据Para输出:清洗好的用户行为数据Pos,用户属性数据Para1)初始化用户id集合S2)对Pos中所有brand_id为空的记录进行移除3)对于Para中所有age_rang。为0和空的记录进行移除4)对于Para中所有gender为2或空的记录进行移除5)将Para中的用户id加入S中6)对于Pos中的每条记录,移除其中用户id不在S中的记录7)对Pos中的time_stamp进行处理,形成对应的时间序列time8)对于Pos中的每条记录,若记录的action_type。为1,则改为3接下来,对上个部分已经处理好的数据,继续对时间进行处理,生成新的处理时间标签数据集,这类数据属性值的第一天(6月24号)作为第一天,本文也将“搜索”、“查看商品”和“加入购物车”等数据进行同意处理,即将action_type为1的更改为2。1.4用户行为分析1.4.1用户时变行为分析本届对用户行为进行统计分析,分析发现用户收藏、点击和购买行为的数量和占整体比例会随着时间而变化,其中点击行为随时间变化最为明显,也可以通过时间可以初步分析出潜力客户的行为习惯,如下图所示。图1.4三种行为随时间变化的变动因为网站的数据高峰期为双十一阶段,为可以更好地观察三种行为数据的变化情况,文中根据双十一之前的时间段按照实际的日期对三种行为的实际分布展开统计,见图1.1。x轴为时间戳,y轴表示的是当天行为数在所有行为总数上的占比。通过图1.1看出,随着时间变化,三种行为数量之间的变化是相似的。不过自11月起,商品的点击量、收藏量都明显提升,此时的购买行为数不会出现较大的变化。这主要受到受双十一提前预热引起的。因为用户已经提前将对自己感兴趣的店铺或产品关注起来,从而为双十一的付款购买奠定好基础。1.4.2点击行为分析“点击行为”其实可将用户心理状态反映出来。基于数量的角度分析,在三种行为中,出现最多的就是“点击行为”,占比达到88%以上。用户在点击行为可以分析出其对于品牌的偏好形成。在展开数据分析中看到有7%-15%用户在下单之前都会先点击品牌进行了解,也就意味着用户兴趣在此之前已经产生,但还是因为价格、优惠力度等方面产生犹豫。对于此类犹豫用户的识别,则有助于商家进行相应营销策略的设置。如在一段时间内,某品牌商品会某个用户进行多次点击,但该用户却迟迟没有对该商品进行购买,考虑到是用户对该产品的价格产生犹豫,故可为其推送一定额度的优惠券,以提高成交率。其中,有11%-20%的用户在购买产品7天内还会经常点击该产品,这主要是因为用户还在持续关注该产品是否在短期内出现降价情况,或对该品牌中的相关产品产生兴趣。而对于那些对该品牌其他产品感兴趣的,可继续对用户进行该品牌产品的推荐,更有利于用户对这些感兴趣商品的购买。图1.5购买前的不同行为数1.4.3收藏行为分析基于用户习惯角度分析,用户的收藏行为则可说明其对某产品的偏好。通常情况下,收藏行为主要出现点击品牌之后,用户觉得该品牌对自己有购买价值的就会收藏起来,以便后续快速找到该品牌完成商品的购买。所以说,用户的收藏行为可以反映出其对该品牌产品的购买具有较强的倾向性。一般情况下,用户对一个陌生品牌的了解,需要从刚刚认识这个陌生品牌,然后才会对品牌关联的产品进行点击,并对自己感兴趣的产品进行收藏或加购,最终付款完成购买。并非每一位用户在购买某产品前都会去收藏品牌,基于行为数据分析,在所有完成购买的用户中,有将商品进行收藏仅占61%,也就意味着有39%的用户在进行产品的购买前并没有对该品牌进行收藏,而是直接进行产品的购买。除直接购买的用户之外,在用户购买一款产品的完整轨迹上,从一个行为跳转到下一种行为时,都会出现与其相应的转化率。文中随机选出大约2000个活跃度比较高的品牌,对品牌从“点击到收藏”、“收藏到购买”的转化率展开研究,结果见1.3。x轴是把品牌ID生成新ID;y轴则是两种行为的转化率。通过图中发现,用户从“点击到收藏”的转化率一般都小于0.1;相比之下,“收藏到购买”的转化率会高出许多,一般为0.1—1。通过对这两种转化率进行分析,可获得其皮尔逊系数为0.12,也就意味着在这两种转化中的关联性并不强。所以,当用户对某个品牌产生购买倾向之后,要是对该品牌的“点击到收藏”有着比较高的转化率时,则该用户所点击的产品,就可能是其会购买的该品牌旗下的产品。图1.6不同行为到购买的转化率通过对不同客户购买行为的分析,可以分析得到点击和收藏行为转化成购买行为的概率非常高,同时点击-收藏-购买行为的关联性也特别高。此外,本文也统计了不同品牌商品和不同类目的商品的点击-收藏-购买行为的时间间隔关联和购买时间关联。1.4.4购买行为分析购买行为指的是用户对某种商品或服务特别感兴趣,并下单购买的行为。如果是用户长时间多次重复购买,说明对此商品非常认可,重复购买的用户比例累计分布函数如图1.7中,用户对某品牌重复购买数量和占整体用户的比例和不同购买次数用户所占比例所示。从下图中可以看出,对于40%的品牌商品来说,重复购买过的用户比例在10%以下,80%的品牌商品的重复购买用户在20%以下。本文统计分析出不同购买次数的用户在所有购买过的用户中所占的比例,发现分布呈明显的幂律分布。这两个发现都说明了重复购买用户通常较少,大多数用户对于某个品牌只购买一次。图1.7品牌中重复购买过的用户的比例、不同购买次数用户所占比例1.5特征分析1.5.1用户时变行为分析用户行为特征主要是对用户不同行为进行分析所获得的特征。基于前文对不同时变行为的论述得出,用户行为特征为其行为次数倾向与行为时间演变之间产生的特征,且购买行为有着一定的特殊性,经过分析后可得出两个行为特征。需要对用户在各个时间段中出现的特定行为进行统计,如点击、搜索、浏览等。同时要和特定品牌用户所产生的行为数据展开进一步对比,就可以获得在一定时间段内该用户实际的行为倾向特征,从而可以对其购买倾向进行判断。除行为数量会直接影响到用户的购买意愿,用户的行为发生时间同样会影响到购买购买倾向。如某一位用户在11月9日将A产品进行收藏,那么其在11月11日购买A产品的意愿自然就会比在10月份收藏时的购买意愿高。因此,文中对用户购买倾向和收藏时间点之间关联性展开分析,见下式:collect表示的是最小转
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保险保全员安全操作考核试卷含答案
- 飞机供氧系统调试工岗前班组评比考核试卷含答案
- 炼钢原料加工工复测测试考核试卷含答案
- 伤口造口失禁的护理伦理决策
- 2025年内蒙古自治区公需课学习-国家组织药品集中采购工作方案
- 2026年高校科研经费管理试题及答案
- 2026年大学大四(农业资源与环境)土地资源管理综合测试试题及答案
- 护理健康儿科护理
- 2026年大气环境服务中心招聘试题含答案
- 2026及未来5年中国火锅店连锁行业发展模式分析及未来前景展望报告
- 2025年湖南电气职业技术学院单招综合素质考试题库带答案解析
- 剧本杀知识教学课件
- 2026中央网信办所属部分在京事业单位招聘3人笔试备考题库及答案解析
- 长江证券中观行业分析报告
- 超星尔雅学习通《大学生国家安全教育(中国人民警察大学)》章节测试含答案
- GB/T 36132-2025绿色工厂评价通则
- 活动策划助理笔试面试技巧含答案
- 2026年烟台工程职业技术学院单招职业适应性测试题库带答案详解
- 《民航服务手语》项目3地面服务手语(下)
- 中国人民银行面试真题100题及答案解析
- 2026年张家界航空工业职业技术学院单招职业技能测试模拟测试卷附答案
评论
0/150
提交评论