版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章
社交平台商务活动分析SOUTHWESTERNUNIVERSITYOFFINANCEANDECONOMICS严谨勤俭求实开拓01社交平台商务活动02社交平台用户行为--用户行为数据03用户行为画像04用户未来购买行为预测Part1社交平台商务活动严谨勤俭求实开拓01社交平台商务活动案例引入——可口可乐社媒活动JUNE12th#ShareACoke:可口可乐在社媒上的分享商务活动
个性化定制的可口可乐瓶子促进用户之间的分享与互动,如:可口可乐瓶上印上不同名字或常见的称呼,如“朋友”“宝贝”等。除个性化瓶子之外,可口可乐还鼓励用户在社交媒体平台上使用“#ShareACoke”的标签分享他们与瓶子的合照,或者记录他们分享可乐的时刻#ShareACoke”活动通过个性化定制、社交媒体互动等方式,成功地营造了一种参与性强、情感共鸣深的品牌体验,并为品牌带来了广泛的关注和参与度。01社交平台商务活动发展阶段&特征JUNE12th门户网站的崛起企业开始积极在平台上创建品牌页面、发布内容、与用户互动社交媒体初期阶段主要平台为个人网站、博客、在线论坛视频和图像社交的兴起短视频平台(如抖音、快手)和图像分享平台(如Instagram、小红书)的兴起Web2.0时代企业开始意识到可以通过社交媒体平台直接与用户进行沟通和互动移动互联网时代智能手机的普及和微信、微博等移动社交平台的崛起数据驱动和精准营销通过大数据分析工具收集和分析用户行为数据01社交平台商务活动四大特征JUNE12th01020304用户参与社交平台是互动的场所,企业可以通过举办线上活动和比赛、实时互动等形式引发用户参与,提高用户粘性和忠诚度。广告投放社交平台上广告投放是提升品牌知名度和销售量的重要途径。通过分析平台用户的兴趣、行为习惯和社交关系等数据,可以将广告精准地投放给目标受众,从而提高广告的触达效果和转化率。达人合作跟达人合作是社交平台商务活动的重要策略。扩大品牌曝光和影响力,吸引更多目标受众,也可以借助达人的影响力和粉丝基础来建立更加可信赖的品牌形象。建立品牌形象在社交平台上,企业可以通过发布有趣、有价值的内容来建立品牌形象。其中包括分享行业知识、产品故事、用户案例等,以此来提升品牌认知度和美誉度。Part2社交平台用户行为分析实例严谨勤俭求实开拓02用户行为数据概况JUNE12th本节将展示如何使用Python进行社交平台的数字商务分析,从数据预处理到模型构建,再到结果解释实例使用的数据集为小红书卖货与用户分析数据集,其中各字段解释如表8-2所示02用户行为数据概况JUNE12th1.不同性别的平均购买金额对比下面这段代码通过matplotlib和seaborn库展示了一个包含性别和购买金额数据的PandasDataFrame可视化分析。首先,代码通过matplotlib.font_manager设置中文字体属性。#导入matplotlib的字体管理模块,以便使用自定义中文字体importmatplotlib.font_managerasfm#设置中文字体路径font_path='E:\\OneDrive\\桌面\\simhei.ttf'prop=fm.FontProperties(fname=font_path)#使用FontProperties设置字体属性plt.rcParams['font.family']=prop.get_name()#设置matplotlib的全局配置,以支持中文显示plt.rcParams['axes.unicode_minus']=False02用户行为数据概况JUNE12th接着,使用seaborn的boxplot和barplot函数分别绘制不同性别用户的购买金额箱线图和平均购买金额柱状图,展示了性别对购买行为的影响。1.不同性别的平均购买金额对比#data是格式为pandasDataFrame的实训数据集,包含用户数据和购买金额信息#将性别数据转换为可读格式data['gender']=data['gender'].map({1.0:'男',0.0:'女'})#不同性别的平均购买金额对比plt.figure(figsize=(12,6))plt.subplot(1,2,1)#在图形窗口中创建第一个子图,1行2列的第一个位置sns.boxplot(x='gender',y='revenue',data=data)#使用seaborn的boxplot()函数绘制不同性别用户的购买金额箱线图plt.title('不同性别用户的购买金额箱线图',fontproperties=prop)#设置图表标题,使用之前设置的中文字体属性plt.xlabel('性别',fontproperties=prop)#设置x轴和y轴的标签,同样使用中文字体属性plt.ylabel('购买金额',fontproperties=prop)#对dataDataFrame按照gender字段进行分组,并计算每个性别的平均购买金额gender_avg_revenue=data.groupby('gender')['revenue'].mean().reset_index()plt.subplot(1,2,2)#在图形窗口中创建第二个子图,1行2列的第二个位置sns.barplot(x='gender',y='revenue',data=gender_avg_revenue)plt.xlabel('性别',fontproperties=prop)plt.title('不同性别用户的平均购买金额柱状图',fontproperties=prop)plt.ylabel('平均购买金额',fontproperties=prop)plt.colorbar(label='log_{10}$(population)')plt.tight_layout()plt.show()#显示图表02用户行为数据概况JUNE12th接着,使用seaborn的boxplot和barplot函数分别绘制不同性别用户的购买金额箱线图和平均购买金额柱状图,展示了性别对购买行为的影响。1.不同性别的平均购买金额对比02用户行为数据概况JUNE12th首先,通过matplotlib.font_manager模块设置中文字体属性。接着定义age_group函数将用户年龄分类,并用此函数对DataFrame中的年龄数据进行分组。2.不同年龄段的用户的购买平均金额对比#不同年龄段的用户的购买平均金额对比#加载中文字体importmatplotlib.font_managerasfmfont_path='E:\\OneDrive\\桌面\\simhei.ttf'prop=fm.FontProperties(fname=font_path)plt.rcParams['font.family']=prop.get_name()plt.rcParams['axes.unicode_minus']=False#定义年龄分段函数defage_group(age):ifage<30:return'30以下'elif30<=age<=50:return'30-50'elif50<age<=70:return'51-70'else:return'70以上'#对数据集中的年龄进行分段data['age_group']=data['age'].Apply(age_group)02用户行为数据概况JUNE12th使用groupby方法结合年龄分组对购买金额进行平均计算。设置索引并用年龄顺序列表来排序DataFrame。2.不同年龄段的用户的购买平均金额对比#计算每个年龄段的平均购买金额age_avg_revenue=data.groupby('age_group')['revenue'].mean().reset_index()#对年龄组进行排序以确保条形图按年龄顺序显示age_order=['30以下','30-50','51-70','70以上']age_avg_revenue=age_avg_revenue.set_index('age_group').loc[age_order].reset_index()plt.figure(figsize=(14,6))02用户行为数据概况JUNE12th条形图使用seaborn的barplot函数展示不同年龄段的平均购买金额;饼图使用autopct参数来格式化显示百分比,并通过pctdistance调整标签距离中心的位置,以增强图表的可读性。2.不同年龄段的用户的购买平均金额对比#绘制条形图,使用age_group列的数字排序plt.subplot(1,2,1)sns.barplot(x='age_group',y='revenue',data=age_avg_revenue)plt.title('不同年龄段用户的购买平均金额对比’,fontproperties=prop)plt.xlabel('年龄段',fontproperties=prop)plt.ylabel('平均购买金额',fontproperties=prop)#绘制饼图plt.subplot(1,2,2)#autopct='%1.1f%%'表示标签显示为百分比,保留一位小数#用pctdistance参数来控制这些百分比标签距离饼中心的位置plt.pie(age_group_count,labels=age_group_count.index,autopct='%1.1f%%',pctdistance=1.2,startangle=140,colors=plt.cm.tab20.colors,shadow=True)plt.tight_layout()plt.show()02用户行为数据概况JUNE12th02用户行为数据概况是否参与活动对用户平均购买金额的影响对比利用Pandas的groupby和describe方法对数据集中的revenue字段按用户是否在最近30天内参与App上的重要活动进行分组并开展描述性统计分析使用seaborn的barplot函数绘制两个条形图,分别展示这两组用户的销售额总和与平均值促销效应理论和用户参与度理论认为参与商务活动的用户往往对品牌有更高的认知度和情感连结,这可能会增加其购买意愿和消费频次,从而提升平均购买金额从总销售额来看,未参与活动的用户群体贡献了最大的销售额,这可能是因为这个群体用户数量较多。然而,当查看平均销售额时,参与活动的用户花费更多,这表明虽然他们的数量可能较少,但他们每个人的购买力更强对于品牌来说,鼓励用户参与活动可能会增加用户的参与度和购买意愿。未知组的数据表明这部分用户的行为模式不明确,需要进一步的数据分析来理解这一群体的行为。品牌可能需要更多关注提高参与活动用户的数量,因为这可能带来更高的平均购买额,同时也要研究如何将未参与活动的用户转化为参与活动的用户,以最大化销售额。02用户行为数据概况是否参与活动对用户平均购买金额的影响对比02用户行为数据概况不同生命周期的用户的平均购买金额对比用户生命周期理论和用户行为模式强调,用户在不同的生命周期阶段(如新用户、成长用户、成熟用户、衰退用户)具有不同的消费需求、购买能力和品牌忠诚度。利用Pandas的value_counts方法计算dataDataFrame中lifecycle列的值的频率分布,并通过设置normalize=True来获取每个生命周期阶段用户的比例利用matplotlib和seaborn库创建一个包含两个子图的图形:第一个子图使用sns.barplot方法绘制不同生命周期阶段用户的平均购买金额条形图,第二个子图使用Pandas的plot方法绘制饼图,显示各生命周期用户的人数占比。lifecycle_count=data['lifecycle'].value_counts(normalize=True)plt.figure(figsize=(12,6))plt.subplot(1,2,1)sns.barplot(x='lifecycle',y='revenue',data=data,order=['C','B','A'])plt.title('不同生命周期阶段用户的平均购买金额对比',fontproperties=prop)plt.xlabel('用户的生命周期阶段',fontproperties=prop)plt.ylabel('平均购买金额',fontproperties=prop)plt.subplot(1,2,2)lifecycle_count.plot(kind='pie',autopct='%1.1f%%',pctdistance=1.2,startangle=140,labels=lifecycle_count.index)plt.title('不同生命周期阶段用户的人数占比',fontproperties=prop)plt.ylabel('')plt.tight_layout()plt.show()生命周期C阶段的用户平均购买金额最高。生命周期B阶段的用户平均购买金额略低于C阶段,但仍然较高。生命周期A阶段的用户平均购买金额最低,表明这个群体的消费较为保守。生命周期C阶段的用户尽管占据了用户总数的大多数,他们的平均购买金额也最高,这可能表明随着对品牌的熟悉度增加,用户的购买信心增强,从而愿意进行更多消费。A阶段的新用户平均消费最低,这可能反映了新用户的对品牌的不熟悉进行了试探性购买。02用户行为数据概况不同生命周期的用户的平均购买金额对比Part3用户行为画像严谨勤俭求实开拓使用RFM模型(Recency-Frequency-Monetary,时间间隔-交易频率-交易金额)对用户进行行为画像分析和分层打分。03用户行为画像RFM模型搭建1.数据集处理检查数据集中是否有用户ID或类似的唯一标识符,以便按用户进行分组。缺少用户ID,无法直接按用户分组来计算购买频率。如果每行代表一个独立的交易,可以简化地将每行视为一个“用户”的单次交易。2.创建模型组成部分基于数据集所包含的信息和RFM模型,做出假设和简化。使用days_since_last_order字段计算R(Recency)。使用previous_order_amount字段来计算M(Monetary)。由于数据集无法确定具体的频率,将忽略F(Frequency)维度。03用户行为画像RFM模型搭建根据最近一次购买时间(Recency)和购买金额(Monetary)两个维度对数据进行分级。将用户分为以下几类:①高价值用户:高Recency得分和高Monetary得分;②潜在发展用户:低Recency得分,但高Monetary得分;③消费频繁用户:高Recency得分,但低Monetary得分;④低价值用户:低Recency得分和低Monetary得分。Recency(R_Score)数值越小表示越近期有交易,因此得分越高;Monetary(M_Score)数值越大表示消费金额越高,因此得分越高。3.数据分级03用户行为画像RFM模型搭建绘制最近一次交易(Recency)和交易金额(Monetary)的分布图(如下图所示)。在最近一次交易的分布图中,大部分用户的最近一次交易时间集中在较短的时间区间内,这表明大多数用户在不久前有过交易行为,用户群体整体较为活跃。然而,也存在一些用户在较长时间内没有交易,这可能是潜在流失用户。针对这一点,社交媒体商务活动应该关注于提高用户的活跃度和参与度。例如,通过发布定期的互动内容、促销活动和新产品信息来保持用户的兴趣和参与。03用户行为画像RFM模型搭建交易金额分布图中,大部分用户的交易金额集中在较低的金额区间,说明有很多小额交易。高金额的交易较少,但仍有一定数量的用户交易金额较高,这些可能是高价值用户。对于那些消费水平较高的用户群体,可以通过社交平台提供高价值内容,如独家优惠、会员专享活动,甚至是定制化的产品推荐,以进一步增强这些高价值用户的忠诚度和满意度。对于消费水平较低的用户,可以考虑使用更具吸引力的促销策略来提高他们的消费意愿和能力。03用户行为画像RFM模型搭建03用户行为画像RFM模型搭建依据不同RM得分组合(例如,“51”表示R得分为5,M得分为1)划分用户数量分布。RM得分为“55”的条形高度较高,这表明存在大量用户群体在最近一次购买行为中表现出了较高的消费金额(M得分为5),但购买行为相对低频(R得分为5)。与此相对,RM得分为“15”的条形较短,说明在近期内频繁购买且单次消费金额较低的用户群体较为稀缺。03用户行为画像细分用户标签第一步:定义复合标签根据数据集中gender(性别)、lifecycle(生命周期)和age(年龄)字段以及RFM得分来创建复合标签。第三步:提取和汇总对不同的复合标签进行计数,以了解各标签类别的用户数量。分析这些标签的分布,了解哪些用户群体最大,哪些群体可能需要更多关注。第二步:创建标签使用Python中的.Apply()方法,根据上文定义的规则(性别、生命周期、年龄分组)对数据进行分类。结合这些分类和RFM得分,创建复合标签。第四步:生成可视化图表使用可视化图表展示不同复合标签的用户分布。JUNE12th除了RFM得分之外,也可以考虑数据集中的其他维度,如年龄、性别、生命周期阶段等,来进一步细分用户标签。03用户行为画像细分用户标签:第一步第一步:定义复合标签根据数据集中gender(性别)、lifecycle(生命周期)和age(年龄)字段以及RFM得分来创建复合标签。其中gender字段中的1标记为“Male”,0标记为“Female”,其余标记为“Unknown”;使用lifecycle字段中的值(A,B,C),代表用户在注册后的不同阶段,分别对应注册6个月内,1年内,2年内;将年龄分为“Young”(<30岁)、“Middle-Aged”(30-60岁)、“Senior”(>60岁)。除了RFM得分之外,也可以考虑数据集中的其他维度,如年龄、性别、生命周期阶段等,来进一步细分用户标签。03用户行为画像细分用户标签:第二步第二步:创建标签使用Python中的.Apply()方法,根据上文定义的规则(性别、生命周期、年龄分组)对数据进行分类。结合这些分类和RFM得分,创建复合标签。#对性别标签进行分类defcategorize_gender(gender):ifgender==1:return'男'elifgender==0:return'女'else:return'性别未知'#对年龄标签进行分段defcategorize_age(age):ifage<30:return'青年'elifage<=60:return'中年'else:return'老年'#创建复合标签data['Gender_Group']=data['gender'].Apply(categorize_gender)data['Age_Group']=data['age'].Apply(categorize_age)data['Composite_Label']=data['Age_Group']+“_”+data['Gender_Group']+“_”+data['lifecycle']+“_RM”+data['RM_Score']03用户行为画像细分用户标签:第三步第三步:提取和汇总对不同的复合标签进行计数,以了解各标签类别的用户数量。分析这些标签的分布,了解哪些用户群体最大,哪些群体可能需要更多关注。03用户行为画像细分用户标签:第四步第四步:生成可视化图表使用可视化图表展示不同复合标签的用户分布。03商务活动策略基于上述分析的营销策略一、中年用户群体的兴趣和需求考虑到这些用户是中年群体,商务营销内容应该更加贴近他们的生活方式和兴趣。例如,可以在小红书平台上推广与家庭、健康、职业发展相关的产品和内容。三、不同RM得分的个性化策略例如:对于RM得分为12和13的用户(即最近较高频率的购买行为,但消费金额较低),可以通过推送高性价比的商品或捆绑销售来提高他们的消费金额。二、激活C生命周期阶段的用户由于这些用户处于注册2年内的生命周期阶段,可能需要更多的激励来提高其活跃度和购买频率,并可以通过提供特别优惠、限时折扣或忠诚度奖励来吸引他们再次购买。四、内容营销和社交互动利用小红书的社交媒体特性,通过创造吸引中年用户的内容(如博客、视频教程、用户体验分享)来提高参与度。同时可以鼓励用户之间的互动和社区建设,如创建或参与同产品相关的话题讨论,增加用户的参与感和归属感。JUNE12thPart4用户未来购买行为预测严谨勤俭求实开拓01模型、算法介绍JUNE12th随机森林(RandomForest):核心思想:"团队决策优于个人判断"通过整合多棵决策树的预测结果(如团队投票),提升准确性和稳定性,避免单棵树的过拟合风险。工作原理:1.双重随机性数据抽样:每棵树用随机样本训练(如抽奖券放回抽取),部分数据未被使用(天然验证集)。特征选择:节点分裂时仅用随机子集特征(如10个特征中随机选3个),增强多样性。2.结果聚合:所有树投票决定最终预测(分类任务)或取均值(回归任务)。01模型、算法介绍JUNE12th支持向量机(SVM):核心思想"最大化安全距离”寻找最优超平面分隔两类用户(如买/不买),确保边界到最近数据点的距离最大(类似拓宽护城河),提升泛化能力。关键技术1.支持向量:仅依赖边界上的关键样本(如高价值用户临界点),降低冗余数据干扰。2.核函数:线性核:特征与购买行为呈简单线性关系时(如"客单价>500"直接分类)RBF核:处理复杂模式(如用户突然从低频转高频购买),通过升维找到隐藏规律01模型介绍JUNE12th场景推荐模型原因数据量>10万条,特征冗余随机森林高效处理噪声,自动特征筛选样本<1万,特征精炼SVM边界优化更精准,避免过拟合需解释关键驱动因素随机森林输出特征重要性排名追求最高预测准确率SVM小样本下分类边界更稳定02基于DeepSeek的用户行为预测-指令1JUNE12th02基于DeepSeek的用户行为预测-指令2JUNE12th02基于DeepSeek的用户行为预测-指令3JUNE12th、由DeepSeek的结果可知,随机森林模型的RMSE约为276.032,R2约为-0.066。02结果解读JUNE12thR²:模型解释变量变异的比例(0-1,越高越好)R²小于1的主要原因(1)模型过于简单或不适当:随机森林可能不适合这个特定的数据集,或者需要更多的调优来改进模型:(2)数据特征不足:可能需要更多的特征或更有信息量的特征来提高模型的预测能力:(3)数据质量问题:如果数据中有很多噪声或异常值,这可能会影响模型的性能;(4)过拟合或欠拟合:模型可能没有很好地从训练数据中学习,或者它过度地学习了训练数据中的噪声。RMSE:它衡量的是预测值与真实值之间的差异,即模型预测的误差大小。RMSE均值→预测性能RMSE标准差→稳定性能03模型对比JUNE12th、从表中可以看出不同模型的表现差异较大。(1)线性回归(linearregression)模型的RMSE均值最小(约258.464),这表明在所有模型中,线性回归模型平均预测误差最小,拥有最好的预测性能;RMSE标准差最小(约2.450),这说明线性回归模型的预测稳定性最好,对于不同的数据子集其性能变化不大。(2)决策树回归器(decisiontreeregressor)的RMSE均值最大(约368.326),这意味着模型的平均预测性能最差;RMSE标准差相对较小(约2.614),表明预测稳定性较好,但考虑到较大的RMSE均值,这种稳定的预测结果实际上是偏145146离目标值的。(3)支持向量回归(SVR)的RMSE均值处于中等水平(约279.602),RMSE标准差较大(约2.683),表明预测稳定性一般。随机森林回归器(randomforestregressor)的RMSE均值(约272.386)比线性回归模型略大,但仍然远小于决策树回归器和支持向量回归器,表明它有较好的预测性能,RMSE标准差最大(约3.073),表明其预测稳定性相对最差,可能对数据中的噪声和异常值更敏感。Part5实训严谨勤俭求实开拓01实训1-数据预处理JUNE12th、针对小红书数据集,进行缺失值处理、创建编码分类变量、特征缩放和数据分割处理,主要包括以下步骤。(1)使用fillna(函数处理数据集中数值列的缺失值,可以用均值填充。(2)将用户前30天是否参加重点活动(engaged_last_30)列转换为数值类型,以便后续进行建模。(3)使用LabelEncoderO函数对性别(gender)和用户生命周期阶段(lifecycle)两个分类变量进行编码。(4)使用StandardScalerO函数对特征进行标准化处理,以确保所有特征在相同的规模上。(5)按照80%训练集和20%测试集的比例,使用train_test_splitO函数将数据集分割为训练集和测试集。01实训2-训练预测JUNE12th、(1)基于处理好的数据集,定义模型的特征和目标变量,然后使用LinearRegression类初始化一个线性回归模型。(2)使用linear_regressor.fit()函数在训练集上拟合,得到线性回归模型,学习数据中的模式,并使用linear_regressor.predict()函数在训练好的模型上对测试集进行预测。THANKSFORYOURLISTENING!汇报结束感谢聆听!直播营销数据分析Livestreamingmarketingdataanalysis聚沉淀太平鸟女装围绕用户生命周期,前后台密切协作:短期内,以口播形式为账号增粉,撬动短效杠杆;在长期,不断完善客服响应速度和备货情况,提高用户复购率促转化内容是良好运营的核心,太平鸟女装持续打磨、优化内容:升级布置直播间装修和商品橱窗;通过不同体型的主播搭配讲解同一套衣服,全面展示商品卖点汇流量太平鸟女装凭借每天超过18个小时的持续自播投入,逐步沉淀高购买意向的用户人群;通过分析这一批初期客群画像,太平鸟女装得以准确定位付费流量的投放人群案例引入“太平鸟女装以优质内容为核心,领跑自播赛道,打造稳定日销”从2020年下半年起,太平鸟女装进驻抖音电商,正式设立专门团队运营抖音小店针对用户互动高、决策快的特点,太平鸟女装以每天长时间自播为切入点,沉淀精准粉丝,同时着力提升直播内容太平鸟女装依靠直播营销活动,在数据层面,关注流量、转化、沉淀数据的变化,根据数据表现,不断优化直播间策略,最终获得品牌总销售额的快速成长:日均GMV从10万提升至约300万思考随着用户购物习惯的变化和社交媒体的兴起,直播营销活动已成为电商领域的一大热门趋势,接下来让我们一起深入探讨直播营销活动在电商行业中的价值和意义。思考一下:1.你认为现在的品牌做直播电商,需要关注哪些数据指标?2.直播相较于传统商务方式有哪些独特的优势和重要性?严谨勤俭求实开拓01直播营销活动概述02直播营销活动商品推广案例03直播营销活动商品推广分析及预测04实训Part1直播营销活动概述严谨勤俭求实开拓即时事件常用媒介直达受众由于直播完全与事件的发生、发展进程同步,因此可以第一时间反映现场状态收听或观看直播通常无须专门购买昂贵的设备,使用手机、平板、笔记本电脑等常用设备即可了解事件的最新进展与录播节目相比,直播节目不会做过多的剪辑与后期加工,所有现场情况直接传达给观众直播营销活动要素直播营销活动是指企业通过直播平台,利用视频直播的形式进行产品或服务的推广和销售的一种营销方式01直播行业整体发展历程网络速度和硬件水平是影响互联网直播发展的主要因素:受这两个因素制约,互联网直播行业的发展历史分为四大阶段,包括图文直播、秀场直播、游戏直播、移动直播等01直播行业发展历程网络速度和硬件水平是影响互联网直播发展的主要因素:受这两个因素制约,互联网直播行业的发展历史分为四大阶段,包括图文直播、秀场直播、游戏直播、移动直播等直播类型内容形式带宽要求依赖硬件代表平台/场景图文直播文字+静态图片低(≤100Kbps)基础拍摄设备微博、新闻网站秀场直播才艺视频+实时互动中(2-5Mbps)高清摄像头、PC映客、花椒游戏直播游戏画面+解说高(≥10Mbps)高性能PC/显卡斗鱼、虎牙移动直播手机高清视频+社交极高(5G)智能手机、云服务器抖音、央视新闻移动端01Part2直播营销活动商品推广案例严谨勤俭求实开拓商品数据概况5630名用户基本信息消费信息消费偏好02数据集变量变量名称变量描述CustomerID用户唯一IDChurn用户是否流失(0:否;1:是)Tenure用户使用平台的期限(月)PreferredLoginDevice用户首选登录设备CityTier用户所在城市级别WarehouseToHome仓库与用户收货地址之间的距离AgeGroup用户年龄(1:10-19;2:20-29;3:30-39;4:40-49;5:50-59;6:60-69)MaritalStatus用户的婚姻状况Gender用户性别HourSpendOnApp用户使用App的小时数PreferedOrderCat用户最近一个月的订单偏好类别SatisfactionScore用户对服务的满意度NumberOfStreamerFollowed用户所关注的流媒体数量Complain用户最近一个月是否提出投诉(0:否;1:是)OrderAmountHikeFromlastYear用户订单较去年增加的百分比CouponUsed用户最近一个月使用的优惠券总数OrderCount用户最近一个月已下订单的总数DaySinceLastOrder用户距上次下单天数DiscountAmount用户最近一个月平均每笔订单节省的价钱商品数据指标02数据预处理importpandasaspd#读取数据excel_file=pd.ExcelFile('直播电商数据集.xlsx')#数据预览df=excel_file.parse(sheet_name)print(f'sheet表名为{sheet_name}的基本信息:')()对数据进行清洗,分析数据集中的变量是否存在缺失值,并对缺失值进行处理#变量非空值数量变量类型1CustomerID5630int642Churn5630int643Tenure5366float644PreferredLoginDevice5630object5CityTier5630int646WarehouseToHome5379float647MaritalStatus5630object8AgeGroup5630int649Gender5630object10HourSpendOnApp5375float6411OrderCount5372float6412OrderAmountHikeFromlastYear5365float6413DaySinceLastOrder5323float6414PreferedOrderCat5630object15NumberOfStreamerFollowed5630int6416SatisfactionScore5630int6417Complain5630int6418CouponUsed5374float6419DiscountAmount5630float64Tenure、WarehouseToHome、HourSpendOnApp、OrderCount、OrderAmountHikeFromlastYear、DaySinceLastOrder、CouponUsed这7个变量均存在缺失值数据情况表商品数据指标02数据预处理数据缺失值填充方式常用的缺失值处理方式包括直接删除、均值填充、中位数填充、众数填充等。以Tenure这个字段为例,观察到该变量有明显的离群值,因此使用中位数进行填充。其他字段的缺失值填充方式与此类似#填充Tenure列的缺失值df['Tenure'].fillna(df['Tenure'].median(),inplace=True)#填充WarehouseToHome列的缺失值df['WarehouseToHome'].fillna(df['WarehouseToHome'].median(),inplace=True)#填充HourSpendOnApp列的缺失值df['HourSpendOnApp'].fillna(df['HourSpendOnApp'].mean(),inplace=True)#填充OrderCount列的缺失值df['OrderCount'].fillna(0,inplace=True)#填充OrderAmountHikeFromlastYear列的缺失值df['OrderAmountHikeFromlastYear'].fillna(df['OrderAmountHikeFromlastYear'].median(),inplace=True)#填充CouponUsed列的缺失值df['CouponUsed'].fillna(df['CouponUsed'].median(),inplace=True)#填充DaySinceLastOrder列的缺失值df['DaySinceLastOrder'].fillna(df['DaySinceLastOrder'].median(),inplace=True)商品数据指标02用户属性特征分析——常用登录设备分析首先获取已经流失和未流失的用户,然后按照登陆设备的类别进行分组,计算流失和非流失用户的数量,并绘制饼图#分析用户登录设备(饼图)#分析流失用户的首选登录设备df_churn1=df.loc[df['Churn']==1]#获取流失的用户#按照登录设备分组后计算数据个数df_churn1_PreferredLoginDevice=\df_churn1.groupby(['PreferredLoginDevice'])['CustomerID'].count().reset_index().rename(columns={'CustomerID':'count'})label_churn1_PreferredLoginDevice=df_churn1_PreferredLoginDevice['PreferredLoginDevice']#提取标签plt.rcParams['font.sans-serif']=['SimHei']#用来正常显示标签plt.rcParams['axes.unicode_minus']=False#用来正常显示负号plt.pie(df_churn1_PreferredLoginDevice['count'],#传入标签labels=label_churn1_PreferredLoginDevice.values,#格式化输出百分比autopct='%.2f%%',pctdistance=1.2,labeldistance=1.05)plt.show()#分析未流失用户的首选登录设备(饼图)df_churn0=df.loc[df['Churn']==0]#获取未流失的用户#按照登录设备分组后计算数据个数df_churn0_PreferredLoginDevice=\df_churn0.groupby(['PreferredLoginDevice'])['CustomerID'].count().reset_index().rename(columns={'CustomerID':'count'})label_churn0_PreferredLoginDevice=df_churn0_PreferredLoginDevice['PreferredLoginDevice']#提取标签plt.rcParams['font.sans-serif']=['SimHei']#用来正常显示标签plt.rcParams['axes.unicode_minus']=False#用来正常显示负号plt.pie(df_churn0_PreferredLoginDevice['count'],#传入标签labels=label_churn1_PreferredLoginDevice.values,#格式化输出百分比autopct='%.2f%%',pctdistance=1.24,labeldistance=1.05,)plt.show()商品数据指标02用户属性特征分析——常用登录设备分析使用移动手机的用户比例最高,不论是在流失用户群体中,还是在未流失用户群体中说明移动手机的用户稳定性最好,而Pad
的用户稳定性最差商品数据指标02用户属性特征分析——常用登录设备分析接下来使用堆积柱状图分析用户在选择不同首选登录设备时用户的流失情况,从而判断哪种首选登录设备流失比例最高。首先获取在不同设备登录的用户,然后按照是否发生流失进行分组,计算流失和非流失用户的占比,并绘制堆积柱状图#分析用户在首选登录设备不同情况下的流失情况(堆积柱状图)df_MobilePhone=df.loc[df['PreferredLoginDevice']=='MobilePhone']#获取首选移动手机的用户df_Phone=df.loc[df['PreferredLoginDevice']=='Phone']#获取首选电话的用户df_Pad=df.loc[df['PreferredLoginDevice']=='Pad']#获取首选平板计算机的用户y1=[list(df_MobilePhone['Churn']).count(1),list(df_Phone['Churn']).count(1),list(df_Pad['Churn']).count(1)]#流失y2=[list(df_MobilePhone['Churn']).count(0),list(df_Phone['Churn']).count(0),list(df_Pad['Churn']).count(0)]#未流失data=[y1,y2]#为方便后续引用,将数据放入datalabel_churn0_PreferredLoginDevice=['MobilePhone','Phone','Pad']#提取标签(注意x轴顺序)x=range(len(label_churn0_PreferredLoginDevice))#获取的labels依次给到x轴bottom_y=np.zeros(len(label_churn0_PreferredLoginDevice))#将bottom_y元素都初始化为0data=np.array(data)#将data放入数组中sums=np.sum(data,axis=0)#求数组data的和,为计算百分比做准备j=0colors=['#66c2a5','#8da0cb']figure,ax=plt.subplots()#创建子图,采用默认设置foriindata:#通过函数绘制图像y=i/sums#获取各个y值的百分比plt.bar(x,y,width=0.5,color=np.array(colors)[j],bottom=bottom_y,edgecolor='gray')bottom_y=y+bottom_y#实现百分比柱子的堆积plt.xticks(x,label_churn0_PreferredLoginDevice)#设置x轴的坐标标签legend_labels=['流失用户比例','未流失用户比例']#设置图像图例color=['#66c2a5','#8da0cb',]#设定与柱子相同的颜色
#将颜色和图例标签对应patches=[mpatches.Patch(color=color[h],label=”{:s}”.format(legend_labels[h]))forhinrange(len(legend_labels))]ax=plt.gca()#绘制子图box=ax.get_position()plt.gca().yaxis.set_major_formatter(PercentFormatter(1))#纵轴设置为百分比#生成legend,显示标签;用bbox_to_anchor=(1,1)设置图例的位置ax.legend(handles=patches,ncol=1,bbox_to_anchor=(1,1))figure.subplots_adjust(right=0.7)j+=1#color=np.array(colors)[j],通过数组设定柱子的颜色Y_churn0=[list(df_MobilePhone['Churn']).count(0)/len(df_MobilePhone),list(df_Phone['Churn']).count(0)/len(df_Phone),list(df_Pad['Churn']).count(0)/len(df_Pad)]#不同首选登录设备未流失用户占比Y_churn1=[list(df_MobilePhone['Churn']).count(1)/len(df_MobilePhone),list(df_Phone['Churn']).count(1)/len(df_Phone),list(df_Pad['Churn']).count(1)/len(df_Pad)]#不同首选登录设备流失用户占比fora,binzip(x,Y_churn0):#柱子上的数字显示plt.text(a,b,'%.2f%%'%(b*100),ha='center',va='bottom');fora,binzip(x,Y_churn1):#柱子上的数字显示plt.text(a,b,'%.2f%%'%(b*100),ha='center',va='bottom');labels=ax.get_xticklabels()+ax.get_yticklabels()ax.set_ylabel('流失用户与未流失用户占比',fontsize=13)ax.set_xlabel('用户首选登录设备',fontsize=13)plt.show()商品数据指标02用户属性特征分析——常用登录设备分析使用移动电话的流失用户占比12.5%使用平板电脑的流失用户占比19.8%使用电话的流失用户占比22.4%根据分析结果,建议产品团队测试电话和平板电脑的用户端是否存在使用问题02直播营销活动商品数据指标用户属性特征分析——性别分析通过饼图对用户性别进行分析,分析流失用户和未流失用户的性别占比,对不同性别用户采取不同的商务活动策略从图9-15和图9-16可以看出,总体来说女性用户比例最高,说明直播活动的主要受众群体为女性,在进行商务活动时更应该关注女性群体的偏好,同时制定其他策略吸引更多的男性用户。02直播营销活动商品数据指标用户属性特征分析——性别分析使用堆积柱状图分析不同性别用户的流失情况02直播营销活动商品数据指标用户属性特征分析——性别分析如图所示,女性用户是平台的主要用户,女性的流失用户占比为17.7%,男性的流失用户占比为15.5%,基本持平。建议运营团队根据男性与女性喜欢的直播风格,进行直播内容定向推送,尝试降低其流失率。02直播营销活动商品数据指标用户属性特征分析——年龄分析利用饼图对用户年龄段进行分析,分析流失用户和未流失用户的年龄占比,从而采取相应的改进措施根据图9-10和9-11结果可知,年龄处于40-49岁和30-39岁的用户占比最多,分别占比41.35%和39.30%,所以既要制定合适的策略挽留该组用户,又要维系未流失的用户,其次年龄处于20-29岁和50-59岁的用户群体也十分重要,应该制定适当的商务活动吸用户。02直播营销活动商品数据指标用户属性特征分析——年龄分析使用堆积柱状图分析每个年龄段用户的流失情况02直播营销活动商品数据指标用户属性特征分析——年龄分析如图所示,年龄为60-69岁的分组流失用户占比最高,为34.6%;其次是年龄分组为50-59岁,流失用户占比为22.5%。建议运营团队增加年龄分组为50-59岁和60-69岁这部分群体喜欢的直播内容和商品进驻,提高其留存率。02直播营销活动商品数据指标用户行为特征分析——计算流失率计算结果约为16.84%。数据集中标签为“1”的用户为已经流失的用户,根据流失率计算公式(流失的用户数量除以总用户数量,即标签为“1”的用户数量/总用户数量),计算流失率02直播营销活动商品数据指标用户行为特征分析——最近一个月订单偏好类型分析使用饼图分析用户的订单偏好类别。首先获取流失用户和非流失用户的数据,然后获取每一个类别用户的订单偏好,绘制不同的饼图。02直播营销活动商品数据指标用户行为特征分析——最近一个月订单偏好类型分析从图9-13和图9-14可以看出用户更加喜欢笔记本电脑和移动手机类型的产品,所以在直播营销活动中,可以重点推出这两种类型的产品,并连带销售其他类型产品,提高整体销售额。02直播营销活动商品数据指标使用堆积柱状图分析每一个偏好下流失用户和非流失用户的占比用户行为特征分析——最近一个月订单偏好类型分析02直播营销活动商品数据指标如图所示,上月主要订单为移动手机和食品的流失用户占比较多,均超过了25%,其次是上月订单为时尚单品的用户。可能的原因为移动手机和食品的商品使用周期较长,用户购买该类商品后,很长一段时间不再有相同的购买意愿,从而造成用户流失。用户行为特征分析——最近一个月订单偏好类型分析Part3直播营销活动商品推广分析及预测严谨勤俭求实开拓JUNE12th03直播营销活动商品推广分析及预测——逻辑回归模型目标:预测哪些用户更可能在未来流失方法:逻辑回归模型03直播营销活动商品推广分析及预测——逻辑回归模型机器学习按任务类型分类Classification:分类任务:预测离散变量(决策树、随机森林、SVM、逻辑回归等)Regression:回归任务:预测连续变量(线性回归、随机森林回归、SVR等)Clustering:聚类任务:无监督分组,标签未知(Kmeans、AgglomerativeClustering等)DimensionalityReduction:降维任务:压缩特征维度(PCA、TruncatedSVD、t-SNE等)Preprocessing:预处理ModelSelection:模型选择按学习过程分类逻辑回归?监督学习无监督学习强化学习逻辑回归不是“算一个数”,而是判断一件事是不是会发生,它输出的不是一个具体的数值,而是一个“概率”,逻辑回归时一种做判断的数学工具。缺点:①容易受到异常值影响,对异常值较为敏感;②对特征相关性较强的数据表现不佳,模型性能可能会下降。优点:①易于理解和解释:可以提供特征对分类结果的影响程度;②计算代价低:训练和预测速度相对较快;③小型数据集效果好1.首先模型将“下单间隔”“折扣力度”“用户投诉”等变量作为输入特征。2.接下来为每个变量分配一个权重,表示其对用户是否流失的影响方向与程度。3.这些变量的加权求和形成一个得分,用于衡量用户的“流失倾向”4.该得分通过逻辑函数转换为0到1的概率,表示用户流失的可能性。5.通常以0.5为阈值,若概率大于该值则预测为“即将流失”,反之则不流失。6.通过历史数据训练,模型不断调整权重,从而学习各变量与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省绵阳市绵阳中学2026届高三上学期第二次模拟考试语文试卷(含答案)
- 2025-2026学年上海市宝山区九年级(上)期末数学试卷(一模)(含答案)
- 化工企业新员工培训课件
- 2025年12月大类资产配置月报:回调或是风险资产的买入时机
- 化工仪表培训课件教学
- 2026山东济南市历下区所属事业单位招聘初级综合类岗位人员备考考试试题及答案解析
- 2026年威海乳山鑫蜜客人力资源有限公司招聘工作人员派遣至乳山市属国有企业(3人)备考考试试题及答案解析
- 室内设计公司管理制度
- 2026福建三明清流县人民法院招聘1人考试参考试题及答案解析
- 都匀工会活动策划方案(3篇)
- 2026年安徽皖信人力资源管理有限公司公开招聘宣城市泾县某电力外委工作人员笔试备考试题及答案解析
- 2025至2030中国乳房组织标记行业产业运行态势及投资规划深度研究报告
- 2025年国家能源笔试题及答案
- CJ/T 24-1999城市绿化和园林绿地用植物材料木本苗
- 潮玩行业研究报告:IP起万物生
- 湖南省永州市2025届高一上数学期末学业质量监测模拟试题含解析
- 房屋过户提公积金合同
- CJJT 164-2011 盾构隧道管片质量检测技术标准
- 《数字贸易学》教学大纲、二维码试题及答案
- 严仁词人生创作背景考述
- 大锁孙天宇小品《时间都去哪了》台词剧本完整版-一年一度喜剧大赛
评论
0/150
提交评论