【基于数据挖掘的个性化推送系统的概念界定与研究基础4600字】_第1页
【基于数据挖掘的个性化推送系统的概念界定与研究基础4600字】_第2页
【基于数据挖掘的个性化推送系统的概念界定与研究基础4600字】_第3页
【基于数据挖掘的个性化推送系统的概念界定与研究基础4600字】_第4页
【基于数据挖掘的个性化推送系统的概念界定与研究基础4600字】_第5页
已阅读5页,还剩5页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘的个性化推荐系统的概念界定与研究基础目录TOC\o"1-3"\h\u24028基于数据挖掘的个性化推荐系统的概念界定与研究基础 182181.1概念界定 167211.1.1个性化推荐 1289511.1.2数据挖掘 2176321.1.3知识图谱 220681.2理论基础 3277741.1.1用户画像理论 3143721.1.2数据挖掘理论 486291.3关键技术 666301.3.1个性化推荐技术 68541.3.2知识图谱技术 81.1概念界定1.1.1个性化推荐个性化推荐是近年来互联网发展的产物,它是建立在海量数据基础上,为用户提供个性化信息服务及决策支持的技术方法[71],目前在电子商务、音乐、视频、新闻等一系列平台均有广泛应用。对电子商务平台而言,个性化推荐是通过利用已有的信息,用户对于物品的评分、用户对于物品的评价、用户或者物品的属性以及其他属性信息,发现用户的个性化需求并主动地为用户推荐信息和内容,从而提升用户下单转化率的有效方式。电子商务平台的个性化推荐系统本质上是一种信息过滤系统,通过N个推荐引擎共同产生初步的推荐结果,每个环节逐层过滤,最终从海量的商品库中筛选出用户可能感兴趣的商品推荐给用户,如图2-1。它和搜索引擎有着相似的目的,都是对于海量的信息进行过滤和排名,不同之处在于个性化推荐系统并非是户主动搜索相关关键词,而是基于用户的属性信息和历史行为信息发现用户的偏好,基于此构建用户画像,从而主动地为用户发现的可能喜爱的商品,为用户推荐其可能需要的商品及信息。图2-1个性化推荐系统架构1.1.2数据挖掘数据挖掘是从海量数据中发现数据之间的规律与关系,制定统一的数据表示框架进而建立模型的过程。首先需要从海量数据中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势[72],其次为这些知识和规则建立统一的数据表示形式,构建出用于决策支持的模型,从而提供预测性决策支持的方法、工具和过程。数据挖掘的本质就是从数据中“淘金”,通过对数据的深度处理从中获取到新的知识,从而更进一步地利用好数据的价值。电子商务平台的已有信息通常代表的用户对于物品的评分、评论,以及用户和物品自身的属性等,而新知识则代表用户的喜好和用户的真实意图,挖掘出已有信息中隐含的知识——用户的兴趣偏好,将对电子商务平台的运营效率和用户购买体验的提升发挥更大的价值。1.1.3知识图谱知识图谱是一种可具象化知识表征形式,能够将各类概念、实体乃至实体间的各种语义关系都蕴含在其中。知识图谱的概念的提出,起源于2012年的Google,随着大数据时代的到来,它的应用从语义网络逐渐拓宽到各个领域,但究其思想本质上,依然可以理解成一种网络状知识表达形式,一种包含了节点和边的网络结构知识库。其中,现实世界中存在的“概念”和“实体”以网络中的节点代表,实体或概念之间的“关系”用图的边来代表[73]。不同于以往结构化数据的存储和计算,知识图谱技术在对于数据之间关系的计算和表现更胜一筹,得益于此,知识图谱在处理更复杂的关联分析的上更有优势,能够挖掘到更多隐藏的语义和知识,与此同时知识图谱更加擅长对非结构化异构数据的挖掘和处理。通过对知识图谱中“概念”和“实体”的关联信息进行处理和计算,可以挖掘出大量的隐含语义语义信息和知识,这是传统的数据挖掘难以比拟的,并且知识图谱在大量不同模态的结构化或非结构化数据集上的处理优势更为显著。知识图谱相对于传统数据处理方式的诸多优势,以及这种表征形式的通用性,使得面向特定领域的知识图谱构建在行业应用中得到推广,越来越多的企业开始将知识图谱技术融入其已经成型的数据分析业务,有的甚至使用知识图谱作为其数据的基础组织与存储形式,目前产生了医疗、图情、金融、政府、出版、电子商务等不同的垂直行业的知识图谱形态(如图2-2)。图2-2知识图谱应用行业1.2理论基础1.1.1用户画像理论用户画像,即是对用户的特征属性进行收集和分析,并从特征中挖掘出隐含信息,从而抽象描绘出用户的全貌信息,可能包含人口学属性、偏好特征、行为习惯等不同的维度。在数据驱动营销的时代,用户画像的绘制越来越成为企业大数据营销必不可少的根基,它为大数据的“存”、“管”、“用”奠定了基础,是企业针对性投放营销广告从而提高投放效率节省投放成本的前置条件,可以针对不同偏好特征、行为习惯的用户提供个性化、一对一的精准营销或服务,是大数据分析与应用的重要方向。用户画像的描绘和建模的首要工作即是“打标签”,以打标签的方法和形式做区分,可以进一步划分分为统计类标签、机器学习挖掘类标签、规则类标签这三种给。(1)统计类标签统计类标签是最基础的标签类型,包含用户的人口学信息如其性别、年龄、城市等,以及用户的基础行为信息如活跃时长、活跃次数等字段,统计类标签信息可以从用户在平台的注册数据和访问数据、活动数据当中直接提取出。该类标签是用户画像的基础。(2)规则类标签规则标签是在用户行为标签的基础上,通过运营人员制定一定的规则,从而对用户进行筛选、界定即分类。例如,运营人员可以将“消费活跃”用户定义为“近90天交易次数≥2”。在规则类标签的制定过程中,会结合平台的运营状况、用户状况实际情况由运营人员进行制定,同时大数据的管理人员由于对数据存储结构、特征即分布更加熟悉,也会辅助制定。(3)机器学习挖掘类标签机器学习类标签通过机器学习挖掘产生,多用于基于用户的行为习惯或偏好特征数据进行预测,如用于对用户的某些属性或某些行为进行预测判断,需要通过算法挖掘产生。机器学习挖掘类标签多用于预测场景,基于预测结果对用户进行个性化的推荐或营销,如根据行为习惯预测用户性别、根据消费习惯预测用户商品的偏好程度,根据用户近期的活跃程度判断用户流失意向等。机器学习标签由于数据量大、开发周期长,开发成本较高,因此使用的情况较少。1.1.2数据挖掘理论数据挖掘是一门涉及多个领域方向的综合性学科,主要包括数据库、统计学和机器学习等。通常,数据挖掘过程大致分为4个阶段,分别是数据预处理、模式发现、模型构建和效果评价[79],具体如图2-3所示。图2-3数据挖掘的一般过程(1)数据预处理:数据预处理主要分为两个方面:第一个方面是数据去噪,第二个方面是数据规范化。数据去噪不仅仅是通过筛选和过滤去掉海量数据中的噪声数据和无效数据,更重要的是通过数据挖掘的方法过滤掉海量数据中的虚假数据,通过提高数据的质量从而进一步提高个性化推荐的质量。(2)模式发现:模型构建的前提是在样本数据集中发现模式[80],即确定本次建模属于数据挖掘应用中的哪类问题,比如:关联规则、序列模式分析、聚类分析、分类预测及回归等;关联规则,用于分析数据之间的相关性高低,如顾客购买牙刷与购买牙膏之间行为的相关性。序列模式分析,用于分析数据之间的是否存在因果关系,如顾客购买杀毒软件与三个月之前购买了电脑是否强相关。聚类分析,用于数据的在无预设条件下的分类,根据多个信息之间一对一的相似度进行聚类的方法。分类:也是对数据进行筛选和分类的方法,但与聚类分析不同之处是已有预先定义的类,再将数据映射不同的类当中。回归:用属性的历史数据预测未来趋势。(3)模型构建:基于已发现的数据模式,将其相关性、因果关系、分类属性等进行抽象泛化,建立出数据模型,把样本数据中大量的具象信息和隐含信息归纳形成一个整体;(4)模型评估:模型的效果评估主要有两方面:一是模型是否解决了需要解决的问题(是否还有没有考虑到的潜在问题需要解决),二是模型的精确性(误差率或者残差是否符合正态分布)。1.3关键技术1.3.1个性化推荐技术传统的个性化推荐技术通常会采用矩阵分解的方式,利用向量内积来表示用户和物品之间的关系,然后利用协同过滤等方法进行推荐[74]。矩阵分解方法通过假设数据分布进行矩阵填充,协同过滤通过计算相似度进行推荐,在许多数据集合上,这两种方法结合都能获得较为良好的推荐效果。(1)模型基础——矩阵分解矩阵分解模型是一种基于数学理论的方法,首先将用户对于物品的评分建立成单纯的数学矩阵,然后利用矩阵分解方法填充矩阵中的空元素,并将其作为推荐结果。矩阵分解方法可以仅仅通过评分矩阵来描述用户和物品之间的关系[75],将用户和物品映射到一个低维隐向量空间,并且利用低维度空间向量表示用户和物品。矩阵分解方法通过不同用户对不同商品的评分矩阵(如图2-4),计算出用户矩阵和商品矩阵,其中用户矩阵的每一行代表一个用户向量,Item矩阵的每一列代表一个商品的向量,用户对商品的预测评分用它们的向量内积来表示。图2-4矩阵分解方法矩阵分解方法是当下许多推荐系统的方法基础,然而其对于数据的完整度依赖较大,还有很大提升空间。(2)思想基础——协同过滤协同过滤的核心思想是就是“找相似”[76],它基于用户的历史行为(浏览、收藏、评论等),去发现用户对物品的喜好,并对喜好进行度量和打分,最终筛选出推荐集合[77]。其原理是把用户A和用户B进行聚类,建立一种用户的类型。把对单个用户的建模抽象到了某个类型的用户,从而能够获得更多的数据[78]。基于协同过滤的推荐又包括两个分支:①基于用户的协同过滤:核心原理是找到偏好相似的人。如图2-5所示,用户A和用户C都购买了物品a和物品b,基于这些数据得出用户A和用户C的偏好是高度相似的。基于这个结论可将用户A购买过的物品d推荐给用户C(如图2-5)。图2-5基于用户的协同过滤推荐②基于物品的协同过滤:核心是找被共同购买过的商品。如图2-6,物品a和物品b同时被用户A,B,C购买了,那么物品a和物品b被认为是相似的,因为它们的共同出现的次数很高。这样,如果用户D购买了物品a,则可以将和物品a最相似的物品b推荐给用户D(如图2-6)。图2-6基于物品的协同过滤推荐1.3.2知识图谱技术知识图谱的构建过程通常包含知识获取、知识表示与建模、知识融合、知识存储[81],以及构建完成后的知识查询和推理几大要素,如图2-7所示:(1)知识获取:通过对已存在的信息进行收集和分析,从这些数据中抽取知识,是知识图谱构建的前提条件。(2)知识表示与建模:开发统一的知识数据结构,根据统一的数据结构存储获取的知识,形成知识库。知识表示和建模,影响着随后的知识融合、存储以及可以使用的“推理”方法和效果,是正式构建知识图谱前必不可少的一步。(3)知识融合:知识融合为不同知识图谱的整合提供了可能,通过验证、消歧等工作,对异构数据进行加工与整合,对不同来源的知识建立起统一的数据表述框架,这是将知识图谱整合从而产生更大价值的必经之路。(4)知识存储:知识存储即是对有价值的知识进行保存,存储的模式会根据数据量、数据特征、数据应用需求的不同而不同,但目的都是将数据存储起来,为形成知识图谱建立基础。(5)知识查询与推理:知识的查询与推理影响着知识图谱的应用场景和应用范畴,是构建知识图谱的终极目的,基于构建完成的知识图谱进行查询,或者基于构建完成的知识图谱推理挖掘出其中隐藏的知识来对其进行丰富和扩展。图2-7知识图谱构建要素及流程首先,需要确认知识的建模表示方式,才能执行正式的知识获取步骤,表示方式主要有两种:(1)自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论