版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章总结与展望电商购物网站用户画像系统设计与实现案例目录TOC\o"1-3"\h\u1023电商购物网站用户画像系统设计与实现案例 1140291.1用户画像模块的详细设计和实现 1296831.1.1用户画像标签体系 1243791.1.2用户画像的结果展示 327921.2个性化推荐模块的详细设计和实现 5323271.2.1推荐模块设计 5174461.2.2个性化推荐的应用 9186961.3评估系统系统验证 101.1用户画像模块的详细设计和实现当前,用户画像应用范围大、领域宽,最显而易见的首当其冲的是将用户画像使用在个性化领域的推荐当中,其包括,电商网站为用户提供精准的产品类型、门户网站为用户筛选出当前的推荐信息等。其次用户画像系统也被大量应用于市场的广告层面,可根据用户画像中的标签体系,通过分析其他们的年龄分布,性格取向、多方面的爱好需求、搜索等行为,并根据分析结果选择适量的广告推送。用户画像应用于网站运营,根据用户画像结果制定相应的运策略营和个性化推荐方案。用户画像还能用于技术架构,优化网站页面和浏览方式等。1.1.1用户画像标签体系用户画像应用系统,主要基于用户基本、行为、隐含、地理、设备共五个属性维度进行用户信息表的刻画。在这些维度中,基本、设备、地理这三项属性都可规划到事实归类上,而行为属性则是模型范畴中的一种属性,还有隐含属性为能够进行预判的属性。值得关注的是,行为属性主要是基于数据分析而构建起来的模型,然后基于实验最终获得这种模型结构,并从该模型中获得已经细分的行为属性标签中涉及到的名称与权重。另外,隐含属性主要是对用户上线频率和用户活跃情况完成重合比较,从中获得结论,最终结合用户实际活跃度进行相应等级的划分,最终通过ECharts.js插件以树图对其进行展示,如图5-1所示。图1.1用户画像标签体系Fig.5-1Labelsystemofuserprofile1.1.2用户画像的结果展示本文将所有用户划分为7个群组画像,分布为:高活跃低贡献客户群组画像、低活跃低贡献客户群组画像、高活跃高贡献群组画像、高忠诚低贡献群组画像、低忠诚低贡献群组画像、低忠诚低活跃群组画像、低忠诚高活跃画像。通过对群组画像结果完成展示研究,见图4-3。图中可见,此类用户在进行页面访问时的序列为:“登陆-信息查看”、“浏览团购信息-搜索商品”、“商品信息-新增购物车”等。用户经常操作有:新增购物车、查看商品信息、获取打折信息等。这个类型的用户一般在每个月的上线频率为11.4%左右,也是中活跃用户。用户近期每周的访问次数为9次左右,说明用户平均每天都会进行1次以上的访问,访问时间为每天的9点-10点,平均访问时长为半小时左右;另外此类用户一般都是通过网站连接服务器进行访问的,访问过程中都是使用谷歌浏览器。图1.2活跃客户类型用户的画像Fig.1.2Userprofileofmiddleschooltypeuser1.2个性化推荐模块的详细设计和实现本节将介绍个性化推荐模块,其可看作为一种信息过滤系统,在应用过程中可以统计学习用户的历史数据,而判断出其兴趣爱好,在此基础上预测用户偏好。这种模块的优势表现为优化了商家与用户交互模式,显著提高了交互的针对性。1.2.1推荐模块设计推荐模块由9个类组成分别是RecaIIContorler类控制整个推荐模块进行推荐源更新工作。ItemCF类的作用是使用基于物品的协同过滤进行商品相似度推荐工作,HotRecaIILR类与HotRecaIIScore类的作用是对热点商品的推荐工作,不同点是HotRecaIILR类使用模型进行推荐,HotRecaIIScore类使用热点得分进行推荐,MatrixDecompose类是使用矩阵分解得到满值的用户一物品评分矩阵,然后以用户分组进行推荐,HighQualityRecall类、CategoryRecaII类、InterestRecall类,分别是高质量推荐,分类推荐,兴趣点推荐他们的作用就是按照不同的推荐需求进行推荐逻辑大致相似,QualityScore类的作用是对未过期商品计算商品得分,并将得分保存到HDFS文件中。RecallContorler类中colRecallTime()方法是控制各个推荐源的推荐时间,每个推荐源是1个小时进行更新一次,colScoreTime()方法是进行质量分计算更新控制即一天计算一次,colHotModel()是控制热点推荐源推荐方式选择,热点使用模型推荐,当模型推荐出现问题时使用热点得分推荐进行代替。ItemCF类是协同过滤推荐使用的是基于物品的协同过滤算法,整体逻辑如下:(1)读取最近nHours的点击日志,(2)从1的输出数据筛选出用户点击数大于1小于150的日志,(3)使用2的输出数据生成所有的用户点击对,(4)使用3的输出数据生成文章对计数,并过滤文章点击数小于2个的,(5)使用杰卡德相似度计算公式计算相似度。getSDKLog()方法在处理过程中采集全部用户的行为日志,适当的转换数据格式为计算机分析提供支持。filerSDKLog()方法则可用于对异常客户数据进行过滤处理。produceDocPair()方法在应用过程中可以基于函数方法集合deviceId相同的数据,且过滤数组大小<2的数据,为其后的分析和推荐提供支持,通过flatmap函数对其中的各数据进行映射处理,而转换为[docidl--docid2,1]格式。calDocCos()方法在实际的应用过程中可以进行计算分数运算,对数据进行合并处理,且过滤掉其中得分低于设定值的数据。在此基础上获得数据格式[docid1,[docid2,score]],通过agg进行一定的聚合。对处理后的数据通过makeRedis()方法保存,设置其key值为docidl。HotRecaIIScore类在处理过程中可基于热点公式进行计算。它的计算公式为:(1.1)表示的是商品新旧程度,也就是,以时间戳计算,此类帖子发出的时间越近,说明值越大。取值范围为,可将用户对于商品感官给反映出来,若好评总数比较多,则值为“1”,说明用户对于该商品是喜欢的;若是差评总数比较多,则值为“-1”,说明用户对该商品并不喜欢;要是好评数和差评数是相等的,则值的计算为:,则说明两者之间存在差值为绝对值,由于两者相等,故等于“0”.以此对商品的评价,评价就会出现一边倒,届时取值就会变得更大。函数主要包括两部分,为好评数和差评数之间的差额,得出的差额越大,则得分就越高。不过在此并未使用该差值,故对值在取对数时导致影响力降低。如,如取值为100,在计算之后可获得2分,但取值为1000时,最后的商品也不过是3分,也就是意味着前面100个用户对于商品的评价权重和后面的900个用户评价权重是相同的,当某商品有着较高热度时,则之后出现的评价对于该商品得分影响就越不明显。部分可以反映出商品于时间上获得的分数,值越高,说明商品得分就会越高,也就意味着商品在刚发布之后的得分是最高的。因此,旧商品得分会随着时间推移而不断降低,导致商品排名不断靠后。其中,分母取值45000,该值也就是12.5个小时,基于公式计算得出,当两个商品在连续的两天中进行发布,商品得分在前一天发布的要比后一天发布的高出2分。要是把两部分进行结合,然后计算前一天所发布的要怎样才能保持对后一天发布的领先地位,则需要在该天之中,前一天发布的值要比原先的先提升100倍,唯有这样才能使第一天发布的得分提升2分。可产生加、减分。在好评数远超出差评数时,值为“1”,在这个部分就可以取值为正,进而使商品得分不断提升,可进行加分作用;如果差评数大幅度多于好评数,这种条件下值为“-1”,则此部分对应的值为负,进而导致商品得分明显下降;而在两者数目为一样时,取值为“0”,也就是这个部分失去了应用作用。基于公式计算之后,就可以获得每一个商品的得分。公式可以确保在商品获得较多好评数时,那么该商品热度就会不断升高;但当出现争议商品时,商品的排名就会下跌分群热点推荐源一般用在对新用户推荐上,因对用户无法获取完全的年龄、学历等信息,且不能明确其有效性,就不能实现粗粒化推荐,加之于热度计算方面,按照用户对商品的浏览时长进行阂值的设定,然后过滤掉各种误点击,以计算出准确的点击率。通过性别、位置等展开对新用户的推荐:全面分析新用户请求信息,对用户的性别、位置等信息进行读取,明确好分组,接着向其推荐热点商品。类是指通过分群热点模型对用户展开的热点推荐,的作用在于根据分组情况,对不同的小组中出现的重复曝光、无曝光有点击数据的进行统计,并对各个组内不一样用户对于相同的文章点击量进行合并,按照用户的点击数和曝光数进行点击率的计算。同时对各个组内不一样用户对于相同的文章的浏览停留时长进行合并,并按照用户的浏览时长和商品进点击数的计算,从而算出用户对于商品内容的平均浏览时长,最后把数据的格式整理为统一式。法可通过LR模型完成对数据的准确预测,其预测结果和点击率比较相似。法主要是利于窗口函数对不同分组总概率高的商品展开排序及截取,从而为存至里面出现的键值对于聚合函数使用的聚合,数据格。法则把数据放置在中键展开分组,值为类矩阵可基于其内容进行分解而分为“用户一特性矩阵”、“特性一物品矩阵”。分解的好处在于:一,能获得用户喜爱,确定出物品的特性;二是使矩阵维度得以下降。基于采集用户行为信息,然后构建“用户一商品矩阵R”,大小为维。当前目标为准确预测那些已经缺失部分的值,再根据预测分数为用户提供推荐。类表示的兴趣点推荐类,法主要对未失效的商品ID进行全面查找,在该函数之下可通过mybatis和Mysql进行连接,然后基于文件对连接时出现的环境配置进行重新设置,如数据库的用户名、密码等。最后在该文件下方进行映射文件的关联。该文件就是要把SQL语句写进该文件中,同时完成ID的创建,以便后期更好地找出SQL语句。同时通过接口对商品ID进行保存,并把这些商品ID转变成1个List对象。法通过把数据公布出来,以加快允许效率,并在各种下对工具进行运行处理,然后得到商品的数据及对应兴趣度。得到上质量分文件,就可以得到数据各位为,此类格式法则是通过窗口函数来完成排序的,对于前面100位通过聚合函数完成对数据聚合的操作,并对其兴趣点进行准确的截取,最后获得新的聚合数据,其格式为的,法可以把数据都存进中,其中键为,值为。1.2.2个性化推荐的应用本文针对电商网站的业务场景和运营部门的需求构建型用户画像,基于海量数据挖掘用户行为偏好的一种智能工具,在应用过程中可以为顾客提供个性化的商品和服务,更好的满足用户的应用要求。在运行过程中可以在满足用户意识到的需求基础上,通过关联分析确定出其没有意识到的需求,从而从总体上全面的满足他们的各方面需求,而超越了个体的视野。优秀的推荐系统可显著提高用户的忠诚度,也显著提高了商家的销售量。本文在系统设计过程中调节了网页布局、显示方式,且进行优化改进。按照上小节图4-7用户画像的结果,在网页设计中可以做出以下改进:(1)视觉效果。将新增商品、热销商品、喜爱商品作为展示内容设计较为显眼;(2)页面布局。将大众商品信息、热点话题信息、关注人数信息、等信息显示在显眼的位置方便用户查阅;(3)链接结构。商品信息-新增商品信息,热点话题信息-新增热点话题等访问链接,提高网页打开速度;(4)浏览器兼容。针对现在市场主流浏览器开发兼容性优化处理。1.3评估系统系统验证本实验采用的数据集是由Link网站提供的搜集并公开的真实数据集,选github100k的数据集,包含用户1946名、商品4245件、评分100000条,每位用户评价的商品数不少于20件,评分值取{{1,2,3,4,5}}默认评分值越大,用户对该部商品越感兴趣。验证用户画像和推荐可以分为两个方面:一是准确率验证,用来检测用户标签是否准确;测试集比例验证集比例近邻用户a值10%80%100.1-0.9表5-1实验一数据设置情况图5-1二值对实验结果影响得出实验结果如上图所示,随着a值的增大,预测误差也在逐渐增大,因此在后续实验中,a取值0.验证近邻用户个数对推荐结果的影响,设计实验数据如下表所示:测试集比例验证集比例近邻用户a值10%80%10-600.1表5-3实验二数据设置情况图5-3近邻用户个数对实验结果的影响根据表_5-2的实验数据得出实验结果如图_5-2所示,随着近邻用户的增多,评分误差在逐渐增大,原因在于近邻用户选取的过程中,是由相似度从大到小排列的,选取的近邻用户越多,被选中不是十分相似的用户也就越多,预测误差越大。因此选取10个近邻用户进行下面的实验。二是覆盖率验证,且据此明确用户标签
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 旅游行业服务礼仪与技能手册(标准版)
- 2026广东惠州惠东县多祝镇卫生院(惠东县第三人民医院)招聘见习6人笔试备考试题及答案解析
- 车间信息化管理方案
- 医院药品管理与服务流程
- 企业内部培训与知识共享指南
- 财务风险控制模板设计方案
- 金融服务客户服务标准流程
- 2026广东深圳市福田区华强职业技术学校附属幼儿园招聘1人笔试模拟试题及答案解析
- 我国实体书店的经营现状及转型策略探讨
- 2026年广东中烟工业有限责任公司公开招聘员工160人笔试参考题库及答案解析
- 班主任班级管理(课堂)课件
- 数学第一章数据描述性分析课件
- 2023年福建军融建设发展有限公司招聘笔试题库及答案解析
- 《美学》课件(第1-8讲)教学提纲
- 森林防火整改报告记录
- 《海洋里的好伙伴》课件
- 中国文化概论(第三版)全套课件
- 冶金生产概论绪论课件
- 计算机应用基础英文版课件:4.OS
- 二年级上册数学教案 -《分一分》 西师大版
- 新苏教版科学六年级下册全册教案(含反思)
评论
0/150
提交评论