版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
算法新闻AlgorithmicJournalism算法新闻AlgorithmicJournalism用户画像的标签体系本章要点关键词第3章用户是算法分发系统服务的对象,对用户的理解越透彻,内容分发的准确性就越有保障。计算机使用计算模型对用户进行刻画,其中一种就是标签化的“用户画像”。在系统中,可以使用预制结构的数据表来保存用户的标签,称为“结构化”的用户标签;也可使用无固定结构的标签集合来表示用户的个性化特征,这被称为“非结构化”的用户标签。系统合理安排计算资源,对用户标签计算和更新,根据数据量的大小可以选择批量化计算或者流式计算框架完成计算任务。用户画像、(非)结构化用户标签体系、计算框架、用户画像的标签体系本章要点关键词第3章用户是算法分发系统服务第1节用户画像标签体系对于算法推荐系统的每一个用户,系统会为其分配一个系统账户(也称“用户账号”“用户ID”,ID为英文单词identification即身份证明的缩写),此账户用于在系统中唯一标识每个不同的用户。相应地,使用标签对用户进行描述,就是为用户的系统账户添加多个关联至对应用户ID的标签,并且可以给标签设置不同的权重值来体现用户的兴趣分布。一、结构化数据和非结构化数据结构化数据有严格的数据模型,数据的记录、存储、处理和访问按照预先定好的格式规范进行;非结构化数据不具有预定义的数据模型或预定义的格式;半结构化数据则介于以上二者之间,其数据具有一定结构但结构并不严格。【提要】第1节用户画像标签体系对于算法推荐系统的每一个用户,系一、结构化数据和非结构化数据结构化数据结构化数据,是指数据的存储、呈现、运算和管理等按照预先定好的格式规范进行。结构化数据以固定格式存放于数据记录或文件中。结构化数据依赖于数据模型,数据模型对业务数据的类别实现规范化,用于业务数据的记录、存储、处理和访问。建立数据模型包括定义哪些类型的数据以及数据的哪些属性需要进行何种存储和处理。结构化数据的优势在于能够方便地输入、存取、查询和分析。满足严格结构的数据无法进入计算机系统被处理和分析。此外,对结构化数据的使用和处理存在一定的约束,当数据模型对应的真实数据有改变时,需要修改数据模型和相应的数据处理逻辑,才能在计算机系统中处理新版本的数据,而此类修改往往是系统性的,代价比较大。
一、结构化数据和非结构化数据结构化数据结构化数据,是指数一、结构化数据和非结构化数据非结构化数据非结构化数据则是指不具有预定义的数据模型或无预定义格式的数据,例如,照片、图像、视频、流式数据、网页、PDF文件、博客等等。由于此类数据格式的不规则和内容上的模糊性,传统的数据管理软件和程序并不能很好地对其进行分析和处理。半结构化数据介于结构化数据和非结构化数据之间,其数据具有一定的结构,即可以使用标签或者其他类型的标记方式来识别出半结构化数据中的特定元素,但是数据本身并不具备严格的结构,因此缺乏结构严谨的数据模型。以文字处理软件为例,其创建的文档文件本身是非结构化的数据,在文档内容之外可以指定结构化的元数据,如文档的作者、创建日期等;图片、图像等非结构化数据也可以被标记上结构化的关键字段如作者、创建日期、位置、关键字等。
半结构化数据一、结构化数据和非结构化数据非结构化数据非结构化数据则是指不二、结构化标签用户画像算法推荐系统可以使用数据表来存储和表示结构化的用户画像,不同颗粒度的数据表对用户行为和兴趣的刻画力度有所不同。
基本信息表用户基本信息表的结构
结构化数据有严格的数据模型,数据的记录、存储、处理和访问按照预先定好的格式规范进行;非结构化数据不具有预定义的数据模型或预定义的格式;半结构化数据则介于以上二者之间,其数据具有一定结构但结构并不严格。【提要】二、结构化标签用户画像算法推荐系统可以使用数据表来存储和表示二、结构化标签用户画像对基本信息表而言,系统分配的账号、用户姓名、电子邮箱等每一个数据属性都是用户的标签,但是基本信息表并没有展现足够个性化的用户特征。例如,用户的姓名对用户个性的刻画能力就很有限。由于基本信息表的刻画能力具有局限性,因此考虑对已有的用户标签进行扩展,这就需要添加新的补充信息表,更加详细地刻画用户特征。补充信息表补充信息表的结构二、结构化标签用户画像对基本信息表而言,系统分配的账号、二、结构化标签用户画像在扩展信息表的基础上还可以进一步细化不同类别的用户标签,例如对用户的兴趣类别进行细化。假设在补充信息表中已经记录某用户最感兴趣的三类主题为“体育”“经济”“历史”,系统就可以根据这个记录为用户推荐相应的内容。但是系统并不知道用户的兴趣在这三类内容之间的分布,即在用户自身的兴趣中,哪一类主题是用户最感兴趣的,哪些则属于比较感兴趣的。细化信息表细化表兴趣类别K(兴趣类别如“体育”“财经”……)二、结构化标签用户画像在扩展信息表的基础上还可以进一步细化不二、结构化标签用户画像本节给出的细化信息表仅是结构化用户画像数据模型中信息表的一个简单示例,在真实的算法推荐系统中,需要系统设计人员和业务分析人员根据系统需求,设计完善的数据模型和所有数据表,并交由系统实现人员完成相应数据表的存储、分析和处理等工作。进一步完善的用户结构画像二、结构化标签用户画像本节给出的细化信息表仅是结构化用户画像二、结构化标签用户画像结构化用户画像的优势首先,结构化数据的数据模型严谨规范,数据的语义明确。在算法推荐系统的运行过程中,系统会有针对性地从用户的基本信息和行为数据中抓取符合数据模型定义的数据,并存储更新至相关数据表格,形成用户标签。此类信息含义明确,有较强的针对性。其次,业界有多种标准化的数据库应用软件和程序支持结构化数据上的各种运算操作,如增加数据、删除数据、修改数据和查找数据等,并且提供优化性能、提高处理速度、保护数据安全等系统化提升运营效率的手段,帮助算法推荐系统提高服务水平和服务质量。结构化用户画像的优势为:信息有针对性,专用性强,含义明确且有成熟的软件开发和运行、维护环境支持。其劣势为:系统可存储的信息有限,
可扩展性差,不灵活,实时性差。【提要】二、结构化标签用户画像结构化用户画像的优势首先,结构化数据二、结构化标签用户画像结构化用户画像的劣势首先,结构化管理数据的方式能捕获的信息是有限的,只能局限于算法推荐系统已经设计好的数据表包含的数据属性。由于系统最多只能记录已有数据表中能记录的数据,因此存在数据可用性上的局限。一旦遇到数据模型定义中未涉及但是对刻画用户画像有帮助的信息,系统就无法记录。其次,可记录信息的有限性导致了系统的可扩展性较差。假设需要在系统中新增一个数据属性(即在数据表中新添加一列)来记录一种新的用户标签,则需要在系统中修改相应的数据表(可能会涉及多表的修改)的定义,这导致系统维护代价增大,灵活性降低。最后,由于算法推荐系统在初期不可能设计完备的数据模型,修改数据模型是系统级别的修改,往往需要暂时中止系统提供的服务以部署新的数据模型和与之配套的新业务逻辑,这就会导致对用户行为进行记录分析的实时性降低,用户体验也相应变差。因此,在系统更新之前,原有的数据模型无法实时更新。
二、结构化标签用户画像结构化用户画像的劣势首先,结构化管理三、非结构化标签用户画像非结构化用户画像模型对于非结构化用户画像模型,用户画像中并不需要预先设定每个用户有多少个固定数目的爱好标签,随着用户在系统中行为数据的积累,不断提取出更多能表达用户爱好的标签,将它们随时添加到用户画像中。由于不同的用户兴
趣爱好和行为特征分布并不相同,非结构化标签的用户画像可以对每个用户实现不同维度的个性化表示。对算法推荐系统的非结构化标签用户画像进行抽象可以得到一种通用的表达格
式:{用户ID:标签1,标签2,标签3……}。非结构化标签用户画像的模型可以通用地表达为:{用户ID:标签1,标
签2,标签3……}。
【提要】三、非结构化标签用户画像非结构化用户画像模型对于非结构化用户三、非结构化标签用户画像非结构化标签的权重对于非结构化用户画像模型,用户画像中并不需要预先设定每个用户有多少个固定数目的爱好标签,随着用户在系统中行为数据的积累,不断提取出更多能表达用户爱好的标签,将它们随时添加到用户画像中。由于不同的用户兴
趣爱好和行为特征分布并不相同,非结构化标签的用户画像可以对每个用户实现不同维度的个性化表示。对算法推荐系统的非结构化标签用户画像进行抽象可以得到一种通用的表达格
式:{用户ID:标签1,标签2,标签3……}。在非结构化用户画像中,为用户标签引入权重值,可以从用户兴趣的类别分布和时间分布等角度进一步细化地刻画用户特征。【提要】三、非结构化标签用户画像非结构化标签的权重对于非结构化用户画三、非结构化标签用户画像非结构化标签的权重首先,结构化管理数据的方式能捕获的信息是有限的,只能局限于算法推荐系统已经设计好的数据表包含的数据属性。由于系统最多只能记录已有数据表中能记录的数据,因此存在数据可用性上的局限。一旦遇到数据模型定义中未涉及但是对刻画用户画像有帮助的信息,系统就无法记录。其次,可记录信息的有限性导致了系统的可扩展性较差。假设需要在系统中新增一个数据属性(即在数据表中新添加一列)来记录一种新的用户标签,则需要在系统中修改相应的数据表(可能会涉及多表的修改)的定义,这导致系统维护代价增大,灵活性降低。最后,由于算法推荐系统在初期不可能设计完备的数据模型,修改数据模型是系统级别的修改,往往需要暂时中止系统提供的服务以部署新的数据模型和与之配套的新业务逻辑,这就会导致对用户行为进行记录分析的实时性降低,用户体验也相应变差。因此,在系统更新之前,原有的数据模型无法实时更新。
三、非结构化标签用户画像非结构化标签的权重首先,结构化管理第2节用户画像标签体系的计算在进入具体的计算框架学习之前,首先介绍一组在计算用户画像标签体系过程中常用的概念。
活跃用户
日活跃用户
月活跃用户
流失用户
曾经使用过但最终不再使用某个软件、网站、应用程序以及网络游戏等系统的用户。系统中每月的活跃用户。同理,月活跃用户数也是以用户账号为计数单位,而非用户行为。系统中每日的活跃用户,记录每天有多少用户活跃使用系统。对日活跃用户数的计数是以用户账号为单位的。会反复使用某个软件系统、网站、应用程序以及网络
游戏等系统的用户。第2节用户画像标签体系的计算在进入具体的计算框架学习之前一、用户标签的批量计算框架量计算框架的基本原理其主要原理为:定期找出一定时间段内的全部活跃用户,对这部分活跃用户的行为数据进行用户标签的更新计算。由于这批活跃用户是按照一定时间段界定的,其用户数据也是批量取得并计算的,因此称为“批量计算框架”。例如,每日夜间批量取回过去两个月内所有活跃用户的行为数据,进行用户画像更新计算。对于指定计算时间段内的非活跃用户,由于其未在系统中产生新的行为数据,因此可认为其用户画像没有改变,故不对其进行用户标签的更新计算。一、用户标签的批量计算框架量计算框架的基本原理其主要原理为:一、用户标签的批量计算框架批量计算框架的计算过程其主要原理为:定期找出一定时间段内的全部活跃用户,对这部分活跃用户的行为数据进行用户标签的更新计算。由于这批活跃用户是按照一定时间段界定的,其用户数据也是批量取得并计算的,因此称为“批量计算框架”。例如,每日夜间批量取回过去两个月内所有活跃用户的行为数据,进行用户画像更新计算。对于指定计算时间段内的非活跃用户,由于其未在系统中产生新的行为数据,因此可认为其用户画像没有改变,故不对其进行用户标签的更新计算。一、用户标签的批量计算框架批量计算框架的计算过程其主要原理为一、用户标签的批量计算框架批量计算框架的计算过程一般来说,出于效率和集约化操作的考量,具有多个用户的系统并不会单独处理用户在系统中每一次行为产生的数据,而是倾向于集中处理一批用户行为数据。因此,用户行为数据产生后,需要对其进行暂存处理
当到达批量处理的时间点时,负责取回用户原始行为数据的程序被启动。程序按照系统设定采集频率,生成相应的活跃用户账户列表。Hadoop是一种分布式系统基础架构,分布式计算将需要进行大量计算的数据分割成小块,分配至多台计算机分别计算,在汇总运算结果后统一合并得出计算结果。MapReduce是用于并行处理大数据集的计算框架,把一堆杂乱无章的数据按照某种特征归纳起来并处理得到最终结果。首先需要把新一轮计算结果与上次计算结果结合起来,即对于在本轮中被计算标签的活跃用户,需要判别本轮计算出的是用户的新标签还是已有标签,然后在用户画像中做权重调整和更新。通过高性能的分布式存储系统,用户画像得以被高速地读取使用,及时完成系统调用用户画像实现实时个性化推荐的任务。一、用户标签的批量计算框架批量计算框架的计算过程一般来说,批量计算框架面临的挑战及其影响在用户画像的批量计算框架中,导致计算量和计算任务迅速增加的原因包括:用户数量的增长、用户兴趣模型种类的增加以及系统中其他批量处理任务的增加。【提要】概括而言,用户标签的批量计算框架的运行过程为:提取出一定时间段内(一天、一周等)的活跃用户列表,抽取这些用户在过去指定时间段内(一个月、两个月等)的动作数据,加载到分布式系统中计算,求得用户在最近一个计算周期内用户标签的更新情况并更新用户画像,随后把更新后的用户画像放到高性能分布式的存储系统里面,供个性化的推荐系统使用。
一、用户标签的批量计算框架批量计算框架面临的挑战及其影响在用户画像的批量计算框架中,一、用户标签的批量计算框架批量计算框架面临的挑战及其影响从系统实际运行的角度来讲,批量计算框架使用了高性能的分布式集群计算模型,充分体现出了对系统性能的考量。然而,批量计算框架还面临着数据量和计算任务暴增的问题,这主要来自以下几个因素的影响:用户数量的增长
根据用户的兴趣图谱,系统可以搭建不同的用户兴趣模型。如给定500万日活跃用户,200条行为数据/用户/天,以天为单位进行用户画像的批量更新计算,计算周期为两个月,则每一次批量计算时系统至少需要处理600亿条行为数据。随着用户数量和行为数据量的增加,系统计算量也在不断增加,系统可能会出现过载的情况。一、用户标签的批量计算框架批量计算框架面临的挑战及其影响从系一、用户标签的批量计算框架兴趣模型种类的增加对于用户的个性化推荐主要依赖系统对用户兴趣的理解程度,但是,并没有一种普适性的用户兴趣模型可以全方位地把握用户的兴趣特征。另外,用户的兴趣本身也并不是一成不变的,它有着从产生到持续再到消亡的一个过程。因此,需要开发和实现不同的用户兴趣模型,以便从多个角度理解和配合用户兴趣,试图推荐最符合用户兴趣特点的内容。用户的兴趣分为长期兴趣和短期兴趣,在个性化推荐中,常用的用户兴趣表示方法包括:(1)关键词列表表示法(2)基于向量空间模型的表示方法(3)基于神经网络的表示方法(4)基于本体的表示方法一、用户标签的批量计算框架兴趣模型种类的增加对于用户的个性化一、用户标签的批量计算框架兴趣模型种类的增加–关键词列表表示法使用一个或者多个用户感兴趣的关键词构成的关键词序列来表示用户兴趣。例如某用户对攀岩十分感兴趣,则用户的兴趣模型可能表示成如下形式{抱石比赛,自然岩壁攀登,中国人民大学攀岩馆}。用户兴趣关键词的获取方式主要有用户主动提供和系统隐式自动获取两种。关键词列表模型是不加权重用户画像的一种简化实现方式。兴趣模型种类的增加–基于向量空间模型的表示方法向量空间模型(VSM)表示法是使用较多且效果较好的特征表示法,目前已经成为自然语言处理中最常用的模型。基于VSM的表示法把用户的兴趣模型表示成一个n维的特征向量。由于关键词存在语义的歧义性问题,而且随着用户兴趣项的增加,模型中会出现冗余,导致兴趣模型维数增加,增加了系统的计算和存储开销。一、用户标签的批量计算框架兴趣模型种类的增加–关键词列表一、用户标签的批量计算框架兴趣模型种类的增加–基于神经网络的表示方法神经网络(NN)是由大量简单的处理单元通过广泛的互相连接形成的复杂网络结构,具有较强的自适应、自组织、自学习能力。在网络结构稳定后,可以使用网络中相互关联的结构化信息表示用户兴趣模型。不同的神经网络模型其性能和适用范围各不相同,模型的训练和学习过程也较为复杂,此外神经网络模型的可解释性较差,因此其适用的范围较窄。兴趣模型种类的增加–基于本体的表示方法近年来本体(Ontology)从哲学界进入计算机领域,用于表达相关领域的基本术语和术语之间的关系,提供关于某一领域知识的共同理解。基于本体表示用户的兴趣模型是指将用户的兴趣爱好领域用一个本体来表示。基于本体的用户兴趣模型以类人的思维方式理解用户的兴趣特征,在理论上是十分理想的用户模型表示方法,在实现上有助于知识共享。但是由于本体的构建需要专业的领域知识和大量人工劳动,构建成本大,因此并不常用。一、用户标签的批量计算框架兴趣模型种类的增加–基于神经网一、用户标签的批量计算框架其他批量处理任务的增加对于一个产品级的应用系统而言,通常会有多个子系统在同时运行,而用户画像的批量计算只是系统运行中的一个任务。在此之外,系统还需要计算其他批量任务,例如,内容库的质量检查、文本型和图片型内容的索引和标记等等。因此当其他批量处理任务的数目也在增加时,系统负载变得更加繁重。庞大的数据量和计算任务使得批量计算框架面临如下困境:
当天完成批量处理任务越来越勉强。集群计算资源紧张,影响其他工作。集中写入分布式存储系统的开销越来越大。用户兴趣标签更新延迟越来越严重。一、用户标签的批量计算框架其他批量处理任务的增加对于一个产品流式计算框架的基本原理在用户画像的批量计算框架中,导致计算量和计算任务迅速增加的原因包括:用户数量的增长、用户兴趣模型种类的增加以及系统中其他批量处理任务的增加。【提要】概括而言,用户标签的批量计算框架的运行过程为:提取出一定时间段内(一天、一周等)的活跃用户列表,抽取这些用户在过去指定时间段内(一个月、两个月等)的动作数据,加载到分布式系统中计算,求得用户在最近一个计算周期内用户标签的更新情况并更新用户画像,随后把更新后的用户画像放到高性能分布式的存储系统里面,供个性化的推荐系统使用。
二、用户标签的流式计算框架流式计算框架的基本原理在用户画像的批量计算框架中,导致计算流式计算框架的计算过程用户画像的流式计算框架具有如下几个特征:1.使用Strom集群实时处理用户动作数据。2.每收集一定量的用户数据就重新计算一次用户兴趣模型。3.用大规模的高性能存储系统支持用户兴趣模型读写。4.是(准)实时的用户画像计算框架。【提要】概括而言,用户标签的批量计算框架的运行过程为:提取出一定时间段内(一天、一周等)的活跃用户列表,抽取这些用户在过去指定时间段内(一个月、两个月等)的动作数据,加载到分布式系统中计算,求得用户在最近一个计算周期内用户标签的更新情况并更新用户画像,随后把更新后的用户画像放到高性能分布式的存储系统里面,供个性化的推荐系统使用。二、用户标签的流式计算框架流式计算框架的计算过程用户画像的流式计算框架具有如下几个特征二、用户标签的流式计算框架流式计算框架的计算过程用户行为数据产生后,需要对其进行暂存处理,在这一步将用户原始的行为数据存储于行为日志中,等候相应的程序取出处理。
统将小批量活跃用户的行为日志数据存放到Kafka平台的分布式日志文件队列中。小批量的用户行为数据流入Storm平台,以便进行在线计算。这使得支持内存级的数据读取速度以及实时的计算结果反馈成为可能。与Sto
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025海南省粮油产业有限公司第3次招聘9人笔试历年参考题库附带答案详解
- 2025浙江宁波市象山县人力资源开发服务有限公司第二期招聘总及对象笔试历年参考题库附带答案详解
- 2025河南平顶山市郏县开发投资集团有限公司社会化招聘10人笔试历年参考题库附带答案详解
- 孕期孕期呼吸系统保健指导
- 机加工段过程质量预警规范
- 2026年小学历史与文化知识竞赛能力检测试卷审定版附答案详解
- 老人营养膳食搭配记录制度要求
- 2026年汽车零配件包装设计报告
- 成型工序尺寸一致性确认制度
- 外墙幕墙连接节点质量验收标准
- 四川省成都市2023级高三第二次模拟测试 生物及答案
- 2026年学生入团摸底考试题库及参考答案
- 2026年数字技术在环境监测中的应用
- 小学科学新教科版三年级下册2.1.不同种类的动物 练习题(附参考答案和解析)2026春
- 2026届云南高三三校高考备考联考卷(六)化学试卷
- 2026年信阳职业技术学院单招职业技能考试题库附答案详解(满分必刷)
- 2026中国林业集团有限公司校园招聘115人笔试参考题库附带答案详解
- 公共行政学史(第二版)课件全套 何艳玲 第1-14章 导论:走进公共行政学史 - 回归:走向自主创新的中国公共行政学
- 财政评审中心内控制度
- phc管桩施工培训课件
- 2025年威海市荣成市辅警(协警)招聘考试题库附答案解析
评论
0/150
提交评论