版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
嵌入式用户画像模型概述目录TOC\o"1-3"\h\u26648嵌入式用户画像模型概述 1131481.1模型构建问题描述 1275911.2模型标签设计 2140983.2.1人口属性标签 3281601.2.2社会属性标签 4234161.2.3消费属性标签 515941.2.4健康属性标签 6283241.3模型标签嵌入 7298953.3.1句嵌入模型的延申 8306993.3.2新模型下的多模态数据融合 10结合健康养老服务的社会背景,就目前针对老年人的服务推荐系统来讲,大都焦距在服务评分上,即使有些考虑到了服务内容对推荐的影响,但也忽视老年群体的特殊性。服务对象不够明确会造成服务推荐算法的不精确性。老年人的健康状况、消费习惯、经济状况等一系列客观条件会对他们的偏好产生较大的影响,用户画像技术在大数据趋势下,利用数据为服务对象构建标签,可以很好地反映出老年人区别于其他服务群体的一些特征属性。基于此本章节提出了一个基于健康养老环境下的嵌入式用户画像模型(下文中简称PCE-CF),该模型依据健康养老特性,在人口属性、社会属性、消费属性以及健康属性四个维度为老年群体量身打造了一套完整的用户画像标签体系,考虑进了与老年人相关的尽可能完整的特征偏好。考虑到标签体系中的数据可能来源于不同的时间、空间,并具有不同的数据类型,针对不同特征数据类型复杂存在的数据模型转化困难问题,PCE-CF通过模型标签的方式进行用户画像模型的构建。相当于一个黑盒子,通过使用深度学习模型,学习每位老人用户的embedding向量,将数据统一映射为连续的高维向量。模型构建问题描述本节详细介绍如何构建模型,基于嵌入式的用户画像模型主要包含两方面,分别为用户标签设计以及用户标签嵌入,具体模型框架图如下3-1所示。构建本模型需要解决的主要问题在于明确老年人服务对象群体,通过用户画像技术刻画老年用户特征,进而对其进行精准化的服务推荐。为了向老年用户提供符合其期望的个性化服务,有必要确定其个人属性、选择需求以及兴趣偏好。一个个性化的服务推荐系统必须基于用户的个人资料属性等信息,个性化的服务推荐可以通过不同的技术来实现,比如个性化界面的外观、过滤传入的信息或者向用户推荐的内容等。本章节所提模型PCE-CF中,主要聚焦老年群众个体,建立用户画像标签体系。模型通过黑盒子的方式依靠深度学习模型对复杂数据进行处理,因此需要基于维基百科的单词语义,进行标签设计,便于后续传入神经网络空间实现标签的嵌入。图3-1嵌入式用户画像模型图模型标签设计嵌入式用户画像模型的标签体系建立是模型的主要部分。该标签体系主要用于在后续的整体服务推荐系统框架中,将数据输入层收集到的数据对应到模型描述的标签中,将各个特征以模型规定的单词形式呈现,并将每一个特征单词按顺序串联成句,准备输入给神经网络进行标签的嵌入,实现数据的向量化。老年人的个性化服务推荐涉及老人维度和服务维度两个模块,相应的用户画像结构示意图如下。本章节工作重点分析老年人用户画像,在老人维度根据老年群体自身特点选取人口属性、社会属性、健康属性和消费属性作为切入点建立模型;服务维度包含服务所具备的特征。图3-2用户画像结构示意图目前主流的标签体系不是单一的,而都是按照三级标签层次划分的,需要根据各类逐层细分。对于老年人用户画像的标签,上层的标签都是抽象的标签集合,在构建过程中主要是对最下层的三级标签进行构建,上层标签只具备统计意义,没有实用意义,最底层的能够映射到上面两级标签。对于底层标签的要求:1、每个标签只能代表单一内容。如果内容冗余会使得标签之前产生冲突,为程序处理带来困难。2、标签所表示的内容必须具有实际语义,以免造成对标签认识模糊,影响算法效率。下面详细介绍老人画像所选取的四个维度,按照三级标签定义所建立的用户画像标签体系。3.2.1人口属性标签人口属性中主要包含老年人的基本属性,具体的标签分类如表3-1所示。在人口属性标签设计中,二级标签主要涉及到老年用户的性别、年龄、居住地、城市层级、政治面貌、文化程度、性格特征以及从事职业。主要是对老年人基本信息的掌握,以便根据这些特征更好地对其在服务选择的需求和偏好进行预测和评估。在数据存储中的,各标签的数据类型也在下表中显示。表3-1人口属性标签设计一级标签二级标签三级标签数据类型DemographicAttributesgendermale,femalevarchar(n)ageyounger,middle,elderlyintresidenceruralregistration,elsevarchar(n)citylevelfirst-tier,second-tier,third-tiervarchar(n)politicalstatusmasses,leaguemember,partymembervarchar(n)culturelevellower,junior,mid,highervarchar(n)characterintellect,mood,willvarchar(n)professionenterprisesandpublicinstitutions,professional,officestaff,service-worker,soldier,productionstaff,operator,othervarchar(n)社会属性标签在社会属性标签中,PCE-CF模型的一级标签划分为老年用户的家庭结构属性和经济能力属性。考虑到家庭环境和社交网络圈对老年人的情感和心理产生影响,此外经济能力也绝大程度觉得了在服务推荐过程中用户选择哪种类别和档次的服务。因此,在社会属性标签设计中,老年人家庭结构考虑其是否存在配偶、同谁居住还是独居、家庭子女数以及家庭氛围是否和谐等因素。在老年人经济能力标签下主要考虑其现目前收入情况,是否每月有定期的收入,是否受他人资助属于贫困群体,以及该用户的经济能力属于何种层级。社会属性标签详细标签设计情况及三级标签对应的数据类型如下表3-2所示。表3-2社会属性标签设计一级标签二级标签三级标签数据类型FamilyStructurespouseyes,no,othersvarchar(n)livingconditionslivealone,livewithspouse,livewithchildrenvarchar(n)numberofchildren1,2,3,over_threeintfamilyatmosphereharmonious,reasonably,general,less,disharmonyintEconomicAbilityincomelow,middle,highervarchar(n)stableincomeyes,nobooleanassistancefromothersyes,nobooleaneconomicdegreetight,general,comfortable,richvarchar(n)消费属性标签研究表明和青年群体、中年群体相比较,老年人更易受到周围环境、周围人物的影响,在消费过程中出现群体购买效应的特点[58]。结合老年人的消费特征,模型将老年人的消费属性划分为六种消费模式,分别为习惯性消费、享乐性消费、求实性消费、方便性消费、盲目性消费以及补偿性消费[59]。下面分别详细介绍了六种消费属性,其对应标签和所属数据类型如下表3-3所示。习惯性消费(Habitual):老年人在消费过程中不会刻意想要去改变他们的消费方式,这就慢慢养成了一种习惯,让他们在选择商品或服务的过程中,不自觉与之前的购买形成相同模式[58],不会轻易改变。享乐性消费(hedonic):部分老年人家境情况比较富足,经济水平在社会整体水平中非常突出,他们会更加注重自己的生活品质,希望能够运用自己所具备的经济优势来提高生活水平,会选择更加多元化的商品或服务,用于休闲、娱乐、享受、修养身心[58]。③求实性消费(Realistic):部分老年人习惯了节俭朴素的传统观念,在消费过程中更加注重实际功能、是否优惠以及该商品或服务是否刚需。④方便性消费(Convenient):在消费过程中更加注重购买和使用是否方便,不愿意在选择过程中花费大量的时间。⑤盲目性消费(Blind):部分老年群体可能受教育程度、生活环境等影响,在消费的时候不能进行理智的思考,容易被周围所左右,从而影响自己的判断,有时会冲动、盲目,可能会冲动购买自己经济可承受范围内的商品[58]。⑥补偿型消费(Compensatory):老年人可获得收入可能来源于自身养老退休金、或者社会补贴等,此外子女的义务也会为老年人提供一些物质支持。部分老年人在年老后会想要在消费过程中满足自己曾经没有满足的需求,由于年轻时没有足够的条件或经济能力,很多心愿没有达成,在终于具备这样的资本后,会产生补偿心理,以过去的渴求作为参照点,进行消费和选择[58]。由于消费模式无法进行进一步的细分,因此在消费模式模块只涉及一级标签,直接作为消费属性标签输入到模型所搭建的用户画像标签体系。表3-3消费属性标签设计消费属性数据类型Habitual,Hedonic,Realistic,Convenient,Blind,Compensatoryvarchar(n)健康属性标签依据老年人健康分级模型将老年人按照健康等级分为:4级表示健康强健。4级处于老年人健康程度最高级别。这类老人是老年群体中最健康的一类人。虽然可能因为年迈或多或少会在心理承受能力、社会适应能力或是身体健康方面有一些小问题,但都无伤大雅,他们的总体身体状态良好,属于健康情况最好的老年人。3级表示一般健康。这类老年人比4级老年群体患病更加明显,身体相对比较虚弱,但不会产生危及生命的影响。2级代表不健康老年群体。该健康级别下老人生活基本不能自理。1级代表非常不健康,这类老人生活完全不能自理,属于健康程度最差的一个级别。健康属性是老年群体区别于普通服务群体最鲜明的维度,最能够体现老年用户的特征和基本属性。不同的身体状况和健康程度意味着在进行服务选择方面的差异性。在健康属性标签中,本模型将一级标签划分为健康指数、生活习惯和体检项三个方面:其中健康指数细分为老年人慢性病数量、健康层级、是否具有胸闷、耳鸣、咳嗽、眼花等一系列症状,身高、体重、体温、脉搏等身体特征。标签体系中涉及到的老年人生活方式主要包括运动频率、运动方式、运动时间等一些运动情况,饮食情况,是否抽烟喝酒等习惯问题;在体检项方面包含老年用户的口腔情况、视力、听力、皮肤状态、巩膜状态等。具体的标签设计以及三级标签数据对应的数据类型如下表3-4所示。表3-4健康属性标签设计一级标签二级标签三级标签数据类型HealthIndicatorsnumberofchronicdiseases1,2,3,over_threeintmedicationyes,nobooleanHealthlevel1,2,3,4intsymptomdescriptionasymptomatic,headache,chesttightness,chroniccough,tinnitus,dazzling...textgeneralsituationheight,weight,pulse,bodytemperature,respiratoryrateintLifestylephysicalexerciseexercisefrequency,exercisemethod,exercisetimevarchar(n)eatinghabitsbalanced,meat,oilandsaltvarchar(n)smokingneversmoke,smoking,havequitsmokingvarchar(n)drinkingnever,occasionally,regular,dailyvarchar(n)Checkpointsoralcavitylips,dentition,pharynxtextvisionlefteye,righteyeinthearinghear,can'thearclearly,can'thearvarchar(n)skinnormal,flushing,pale,yellowstaining,pigmentationvarchar(n)scleranormal,yellowstain,congestion,othervarchar(n)模型标签嵌入嵌入式用户画像模型的第二部分是标签的嵌入,将设计好的用户画像标签通过深度学习模型嵌入到神经网络空间实现数据的向量化。这部分的主要目标是为每一个老年用户学习一个能够总结其用户画像标签特征的高维向量。在本小节中PCE-CF模型将设计的特征属性标签作为输入,由于标签中的数据具有复杂且多样的数据类型,大体分为单词、短语、数字、长短句这四种模态,因此本模型在预先训练好的Sent2Vec模型[60]基础上对深度学习模型进行进一步的延申,来生成类标签的嵌入。Sent2Vec模型是单词上下文的连续词袋模型(CBOW)模型到规模更大的句子上下文的扩展,使用无监督的目标大量文本数据中训练句子的分布式表示。在本课题研究的嵌入式用户画像模型中,生成基于16GB的英语维基百科文本的bigramembeddings。Wikipedia文本中包含约6900万个英语句子和约17亿个单词,为每一位老人获得用户特征标签的嵌入,统一显示为大小为700维的高维向量。3.3.1句嵌入模型的延申近年来,随着神经网络的快速发展以及在各种应用下的使用,神经网络技术已成为备受重视的技术被广泛应用。神经网络的嵌入的目的主要有以下三点:在嵌入空间查找最近的邻居;作为监督任务的机器学习模型的输入;用于概念的可视化和类别之间关系的可视化。在本课题所研究的科研工作中,是将老年人的特征标签在保留其原本语义描述的基础上,在嵌入空间转化为高维的、连续的嵌入式向量,用于后续的服务推荐算法。这意味着在嵌入式用户画像模型中,需要将用户画像标签体系中三级标签中的语义信息串联成句,作为每一位老年用户的完整数据输入,输入进神经网络空间。基于嵌入式技术的学习中,按照数据语义,上下文中数据更加接近的老年用户群体在嵌入式空间中的距离表示地更加聚拢。神经网络空间嵌入克服了独热编码不可忽视的几项弊端,成为用户画像模型选择的主要技术。·One-hot编码的局限性One-hot编码即独热编码,常用于使用处理类别型特征。使用虽然one-hot编码向量构造起来容易,也较为直观,但该编码技术主要存在以下几点弊端:1)独热编码每一个维度的长度都是字典的长度,针对本模型所搭建的用户画像标签体系,该方式具有高维稀疏的特性,会造成大量空间的浪费;2)独热编码只是一种类似于编号的简单表示,无法表达用户画像体系中个标签的语义信息,也无法体现不同老人数据之间的关联关系,因此在本课题所讨论的模型中也无法判断不同老人用户之间的相似性。3)独热编码在列向量中的位置只能用“0”或“1”来表示,对于我们在用户画像层所描述的特征,绝大多数三级标签都是具有多样的形式和内容,基本都不是只以两个标签来表达的。因此对于本课题所提出的用户画像模型,one-hot编码技术局限性较强,是不适用的。·Sen2vec模型Mikolov在2013年发表了论文并开源了计算词向量的工具Word2vec,它主要利用词语间的语义相似度,证实语义相似的单词在进行向量化后在嵌入空间的距离会比无关单词的距离更近一些。Sen2vec模型就是在Word2vec的基础上实现的,该模型解决了无监督词嵌入在众多应用程序中存在的明显问题,派生出语义表示在来对词嵌入进行改进,通过一个简单且有效的无监督目标来训练句子的分布式表示,克服了独热编码技术的局限性。Sent2Vec是一个简单的无监督模型,从概念上讲,可以将其解释为连续词袋模型(CBOW)的自然延申,通过无监督目标函数,对单词和句子进行特别优化,在句子之上实现相加性结合。在基于嵌入式用户画像模型中,用户画像标签体系为每一位老人设计了36个特征属性标签,由于属性标签模态的多样性以及数据类型的复杂性,将全部特征标签串联成长句映射到高维空间在保留全部数据语义的基础上提供了一种模型转化的新方式。本模型为词汇表W中每一个老年用户标签l学习了一个源嵌入vl和一个目标嵌入ul,延续了连续词袋模型中的两个参数矩阵U∈Nk×h以及V∈Nh×|W|,其中h表示为嵌入的维度,k=|W|,句嵌入被定义为组成该句单词的源词嵌入的平均值,S代表目标单词所组成的固定长度文本的句子,N(S)代表句子S中包括一元语法在内的n-grams列表,在本模型中表示为串联成的一条老年用户完整数据。N(S)(3(3-1)E为预测文本中可能丢失的用户画像标签,句嵌入模型通过负例采样模拟softmax作为输出。结合二元逻辑回归损失函数l:x↦log(1+e−x(3(3-2)min作为样本的负例遵循多项式分布,其中每一个label标签l与概率qnl≔fl/(l为选择合理的目标unigrams,模型采用分段抽样,每一个老年用户画像标签l均被概率1−qp(l)(3(3-3)min与独热编码技术相比,句嵌入模型充分运用了所有的数据信息,没有造成空间中过多资源的浪费;另一方面语料库中的文本语义表述丰富了老年群体的特征属性,而不是单一转化成一个只有1的向量中。与其他更复杂的基于神经网络的模型相比,句嵌入技术的核心优点之一是推理和训练的计算成本都很低。嵌入模型通过分段抽样的方式对目标函数进行训练,调整参数,最大程度减少损失,使得句嵌入模型中嵌入向量能够通过清晰描述出的老年用户所属的服务类别,且相似服务类别的老年用户在神经网络空间中距离更加接近。在嵌入式用户画像模型中,对句嵌入模型进行进一步的扩展和延申,通过无监督学习的方式,利用基于外部语言的知识库,在维基百科文本中映射出每位老年用户输入的用户画像标签所描述的的语义,为每一位老年用户学习包含其全部标签属性的embedding向量,用来对其所属服务类型以及兴趣偏好进行预测,生成类标签嵌入,统一输出为维度700的高维向量。本课题中所提出的用户画像构建方式,在将数据连续向量化的过程中保留了每位老人的36项特征属性标签,利用标签嵌入能够使得特征相似的老年用户在神经网络空间距离更加接近这一特性,准确描述不同老人用户间的相似度。这种方法不仅避免了特征表示上的维度灾难,同时能够体现不同老人之间的相关性,提升了相似度计算的准确性。3.3.2新模型下的多模态数据融合目前,多模态数据融合主要有三种融合方式,分别为前端融合、中间融合以及后端融合,其中前端融合也称为据水平融合,后端融合也被叫做称决策水平融合中间融合顾名思义,是在模型的中间层进行融合。这种方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年昆明市东川区网格员招聘笔试备考试题及答案解析
- 2026安阳市辅警招聘考试题库及答案
- 2026年广东省广州市初中学业水平考试道德与法治模拟卷(四)(含答案)
- 科学三年级下册4 开放的花朵教学设计及反思
- 人教版八年级政治下册教学设计:5.1 基本经济制度
- 客服售前服务教学设计中职专业课-网店运营-电子商务-财经商贸大类
- 第5课 飞机(一)教学设计小学美术苏少版三年级下册-苏少版
- CN111382217B 一种目的地推 荐方法和装置 (北京奇虎科技有限公司)
- 2026河北唐山曹妃甸职业技术学院招聘人才56人考试备考试题及答案解析
- 2026浙江丽水职业技术学院校团委招聘1人考试备考试题及答案解析
- 入党党章考试试题及答案
- GB/T 2999-2025耐火材料颗粒体积密度试验方法
- 殡葬改革政策解读
- 学堂在线遥测原理期末考试答案
- 2025至2030年中国汽车纺织品行业市场行情监测及未来趋势研判报告
- 2025年大数据分析与处理考试题及答案
- 中医适宜技术申请
- 高强螺栓连接副紧固顺序技术解析
- GB 5768.1-2025道路交通标志和标线第1部分:总则
- 多学科协作在危重患者抢救流程中的应用
- 统编版六年级语文下册第二单元情境题自测卷(含答案)
评论
0/150
提交评论