




免费预览已结束,剩余134页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学校代码: 分类号: 密 级: UDC: 学 号: 播存结构中基于协同过滤的内容推荐技术研究 研究生姓名: 导师姓名: 申请学位类别 工学博士 学位授予单位 东 南 大 学 一级学科名称 计算机科学与技术 论文答辩日期 年 月 日 二级学科名称 计算机应用技术 学位授予日期 年 月 日 答辩委员会主席 评 阅 人 年 月 日博士学位论文播存结构中基于协同过滤的内容推荐技术研究 专 业 名 称:计算机应用技术研究生姓名: 导 师 姓 名: 教授 摘 要摘 要随着互联网流量的日益激增,现有互联网架构和内容传输技术体系越来越难以为高效信息共享提供有效的支持。播存结构将广播分发模式引入现有互联网体系结构,将大量用户所共同感兴趣的资源,通过物理广播直接辐射分发至边缘服务器供用户访问,极大地降低网络冗余流量,缓解“信息过载”问题,实现高效信息共享。统一内容标签UCL是播存结构的基础,用户通过UCL判断是否需要访问信息资源全文。然而由于UCL数量巨大,用户难以有效选择符合自身兴趣的UCL,如何将UCL个性化推荐给用户,高效地实现无限内容与有限用户兴趣之间的匹配,成为播存结构的关键。协同过滤是一种应用广泛的兴趣适配方法,但在播存结构中,已有方法存在着极大不足。首先,在相似邻居挖掘阶段,已有方法往往仅基于用户对项目的数值评分信息,无法充分利用丰富的UCL属性及用户属性信息,造成相似邻居挖掘可靠性较低;其次,在预测用户兴趣阶段,已有方法预测参数固定,预测性能通常因数据集而异,而在播存结构中,由于UCL的不间断分发,其数据集变化频繁,已有研究难以有效应对;最后,在优化推荐列表多样性阶段,传统方法大多需要训练多样性控制参数,同样难以适应播存结构中数据集的频繁变化,此外传统方法无法兼顾用户评分及UCL语义信息,缺乏推荐时效性考虑,方法多样性效果较差,抑制了播存结构的整体性能。本文针对上述问题,从四个方面入手展开对播存结构中基于协同过滤的内容推荐技术的研究工作。首先,研究播存结构中高效的用户聚类算法及UCL分类算法,基于二者分别提出基于用户社会信息及UCL属性信息的相似度度量方法,实现相似用户及UCL的高效挖掘,为后续兴趣预测打下基础;其次,研究数据密集特征与预测算法性能之间的内在联系,提出一种数据密集特征驱动的用户兴趣预测算法,在播存结构中数据集发生改变时,及时对数据集密集特征进行深入分析及评估,选择合适预测参数,保证预测结果的高效及稳定性;然后,研究设计时间敏感的语义覆盖树,并基于此提出一种播存结构中无加权参数的UCL推荐列表多样性优化算法,在优化过程中,兼顾用户评分信息及UCL语义信息,以完成全面多样化的UCL推荐,并重点研究推荐时效性与算法响应速度;最后,在实际部署的播存结构中设计及实现基于协同过滤的个性化内容推荐系统,并对其各个模块进行全面的功能测试,验证本文研究的有效性和可行性。本文对播存结构中的内容推荐技术进行了深入研究,通过一系列实验以及在实际播存结构中的运行结果表明,本文研究成果能够实现精确全面的UCL个性化推荐,为播存结构的高效运行提供有力支持。同时,本文的理论研究对于其它领域的个性化推荐问题提供了重要参考价值。关键字: 播存结构,统一内容标签,协同过滤,兴趣预测,多样性IABSTRACTABSTRACTAs the Internet traffic soars, it is difficult for existing Internet architecture and content transmission technology to assure efficient information sharing. Broadcast storage systems (BSS) bring broadcast distribution into TCP/IP. Information resources of common interest are distributed to edge servers near users via radiation distribution to build an efficient way of information sharing in BSS. BSS have clear advantages in reducing the redundant traffic in the Internet and remitting information overload problem. Uniform content label (UCL) is the basis of BSS. Users read UCL to determine if it is necessary to request the full text. However, due to the huge amount, users can easily get lost among them. How to recommend personalized UCL to users and realize the interest matching become the keys of BSS.Collaborative filtering (CF) is a widely used method for interest matching. However, existing researches show great limitations in BSS. Firstly, in similar neighbors discovering stage, traditional methods perform measurement based on the numerical ratings of users on UCL and overlook the abundant attributes of UCL and users. Secondly, in interest prediction stage, existing methods always have parameters independent on dataset and once the dataset changes, the prediction performance gets unstable. Thirdly, in recommended results generation stage, traditional methods need to train parameter to control the diversity level that is not suitable for dynamic datasets. Besides that, they do not take into consideration both the ratings and the semantic information of UCL and converge slowly thus resulting in low performance of UCL recommendation and restricting the performance of BSS.Aiming at solving the above problems, this dissertation studies the CF based content recommendation technology in BSS from four aspects. Firstly, we study the efficient users clustering and UCL classification algorithms and then propose similar neighbors discovering methods considering user social information and UCL attributes to lay the foundation of follow-up interest prediction. Secondly, we study the interest prediction methods driven by the data density feature to enhance the prediction stability when the dataset changes dramatically. Thirdly, we design a data structure called timing sensitive semantic cover tree and propose a non-weighted-parameter result diversification method based on it to ensure the UCL recommendation accurate and round in dynamic BSS. We also enhance the novelty and response speed of the diversification process. Finally, we design and implement the UCL recommendation system in real BSS environment. We also conduct comprehensive function test of its modules to verify the effectivity and feasibility of the research of this dissertation.The research of UCL recommendation in BSS is studied in this dissertation. Results from lots of simulations and experiments in BSS show that the algorithms in this dissertation can recommend UCL efficiently and improve the performance of BSS. The theoretical researches also give a significant value to the personalized recommendation in other realms.Keywords: Broadcast Storage Systems, Uniform Content Label, Collaborative Filtering, Interest Prediction, DiversityVII目 录目 录摘 要IABSTRACTIII目 录V插图目录IX表格目录XI缩略词表XIII第1章绪 论11.1研究背景11.2研究动机与解决思路41.2.1研究动机41.2.2解决思路61.3研究目标与内容61.3.1研究目标61.3.2研究内容71.4论文贡献与组织结构81.4.1论文贡献81.4.2论文组织结构9第2章播存结构及内容推荐技术综述112.1引言112.2播存结构概述122.2.1播存结构122.2.2UCL格式及抽取122.2.3播存结构中的UCL内容推荐142.3内容推荐技术综述152.3.1相似邻居挖掘152.3.2用户兴趣预测182.3.3推荐列表多样性优化192.4研究现状总结212.5本章小结22第3章基于属性信息的可靠相似邻居挖掘方法233.1引言233.2基于属性信息的相似用户挖掘算法243.2.1问题描述及相关概念243.2.2基于属性信息的用户分组机制283.2.3基于用户分组信息的相似用户挖掘方法283.2.4仿真实验303.3基于语义信息的相似UCL挖掘方法323.3.1预备知识333.3.2相关概念及基本算法过程353.3.3基于语义信息的UCL分类算法373.3.4基于类别信息的UCL相似度度量方法413.3.5理论分析423.3.6仿真实验433.4本章小结47第4章数据密集特征驱动的用户兴趣预测机制494.1引言494.2相关概念及算法基本过程504.3算法设计及数据集密集性评估524.3.1UCF-PT详细算法524.3.2数据密集性评估534.4用户兴趣预测及生成推荐结果554.4.1用户兴趣预测554.4.2推荐列表生成564.5算法分析574.5.1UCL的衰减特性574.5.2应对数据稀疏性584.5.3UCF-PT方法加权策略的合理性584.6仿真实验594.6.1数据集594.6.2评估标准与对比方法604.6.3实验结果对比分析614.7本章小结68第5章基于语义覆盖树的UCL推荐列表多样性优化695.1引言695.2相关概念及算法基本过程705.3UCL语义覆盖树的构造735.4多样化UCL列表查询755.4.1UCL子列表初步查询755.4.2UCL子列表补充755.5UCL聚焦响应785.6算法分析795.7仿真实验805.7.1数据集及实验方案805.7.2评估标准与对比方法805.7.3实验结果对比分析815.8本章小结86第6章基于协同过滤的内容推荐原型系统876.1播存结构的总体架构及实验环境拓扑876.1.1播存结构总体架构876.1.2播存结构实验环境拓扑886.2内容推荐系统设计与实现896.2.1系统总体流程896.2.2模块设计及实现906.3系统验证与分析946.3.1系统验证目标946.3.2系统基础功能有效性验证956.3.3相似邻居挖掘有效性验证966.3.4用户兴趣预测有效性验证986.3.5UCL推荐列表多样性优化有效性验证996.4本章小结104第7章总结与展望1057.1论文总结1057.2下一步的研究方向106参考文献109致谢115攻读博士期间论文发表情况117攻读博士期间参与的科研项目119作者简介121插图目录插图目录图 11 播存结构与传统互联网结构资源获取方式比较2图 12 论文研究内容及其关系7图 21 播存结构12图 22 UCL的基本格式13图 23 UCL抽取过程13图 24 播存结构中的UCL协同过滤推荐时序图14图 31 基于属性信息的相似邻居挖掘24图 32 Occupation属性分类树27图 33 各种方法在不同相似用户邻居条件下的MAE曲线31图 34 SMCUG方法在不同相似用户数条件下的预测结果(k = 50)32图 35 SMCUG在不同用户分组数条件下的预测结果( = 0.5)32图 36 Spark基本运行机理35图 37 基于语义信息的相似UCL挖掘方法过程36图 38 并行化UCL特征提取方法流程39图 39 SHDC与其它方法的分类准确度对比45图 310 不同方法的运行时间对比46图 311 并行化SHDC的可扩展性46图 312 CUS算法与其它方法的对比47图 41 UCF-PT方法基本过程图52图 42 根据用户相似度降序排列所得的用户a的相似邻居53图 43 根据UCL相似度降序排列所得的UCL m的相似邻居54图 44 基于用户和基于项目的预测算法在不同ESR下的比较61图 45 不同衰减函数对时效性的影响62图 46 不同衰减函数对推荐精度的影响62图 47 不同方法的推荐精度比较63图 48 2对精度的影响64图 49 1对精度的影响65图 410 不同数据稀疏情况下推荐项目热度的比较66图 411 5种推荐列表的时效性比较67图 412 不同衰减强度下推荐项目时效性的比较67图 51 覆盖树示例71图 52 UDSCT方法基本过程图72图 53 语义聚集过程74图 54 待筛选语义覆盖树77图 55 贪婪补充策略77图 56 置换补充策略77图 57 聚焦操作所得到的子树79图 58 不同方法LID对比82图 59 不同方法LCD对比83图 510 不同方法运行时间对比85图 511 UCL聚焦响应时间85图 61 播存结构总体架构87图 62 播存结构实验拓扑结构图88图 63 基于协同过滤的内容推荐原型系统总体流程89图 64 用户隐式登录流程图91图 65 相似用户挖掘子模块流程图92图 66 UCL相似度度量子模块流程图92图 67 兴趣预测模块流程图93图 68 多样性优化模块流程图93图 69 系统验证目标94图 610 原型系统前端总体界面95图 611 用户评分采集及存储96图 612 目标用户与其他用户之间的相似度96图 613 目标UCL与其他UCL之间的相似度97图 614 用户兴趣预测98图 615 用户兴趣图谱及标签云99图 616 UCL列表多样性变化对比100图 617 UCL列表精度变化对比101图 618 聚焦功能示例101图 619 聚焦结果展示102图 620 缩放功能示例102图 621 缩放结果展示(列表大小为3)103图 622 缩放结果展示(列表大小为6)103XIII表格目录表格目录表 31 相关概念总结25表 32 典型示例26表 33 基本符号和概念36表 34 SHDC方法类内及类间相似性(ifvalue分别为false或true)43表 35 SHDC_bits的分类精度 (ifvalue为false)44表 36 SHDC_bits的分类精度 (ifvalue为true)44表 41 两种情况下的相似邻居及其对目标UCL的评分54表 42 MovieLens统计特征59表 43 处理后的子数据集统计特征60表 51 不同方法之间的ALP对比83表 52 不同方法之间的LN对比84表 61 UCL表90表 62 文件表91表 63 后台数据处理程序结构94表 64 目标用户的5个相似邻居97表 65 目标UCL的5个相似邻居98表 66 多样性优化前目标用户UCL兴趣列表99表 67 多样性优化后目标用户UCL兴趣列表100缩略词表缩略词表BSSBroadcast Storage StructureUCLUniform Content LabelURLUniform Resource LocatorPCCPearson Correlation CoefficientEDEuclidean DistanceSVMSupport Vector MachineLCLinear ClassificationPCAPrincipal Component AnalysisGHGreedy HeuristicsSHSwap HeuristicsMMRMaximal Marginal RelevanceSMCUGSimilarity Measurement based on the Clustering of User GroupSHDCSimhash based Document ClassificationCUSCategory based UCL SimilarityTFIDFTerm Frequency Inverse Document FrequencyRDDResilient Distributed DatasetsUCF-PTUnifying Collaborative Filtering with Popularity and TimingESREffective Similar RatioMAEMean Absolute ErrorUCFUser-based Collaborative FilteringICFItem-based Collaborative FilteringUUICFUnifying User-based and Item-based Collaborative FilteringPBCFPopularity-Bias-based Collaborative FilteringPIRPopularity Increase RatioTDRTime Decrease RatioUDSCTUCL Diversification based on Semantic Cover Tree第1章 绪 论第1章 绪 论本章首先介绍播存结构的核心思想及现实意义,分析并阐述UCL个性化推荐在播存结构中的重要性;其次,从三阶段协同过滤模型(相似邻居挖掘、用户兴趣预测、推荐列表多样性优化)视角理清了播存结构中UCL个性化推荐所需解决的若干关键问题,分别针对每个问题概述目前国内外的已有研究进展情况,总结现有工作在播存结构中存在的问题和不足,进而提出本文的研究思路;最后阐述本文的研究目标、研究内容和论文组织架构。1.1 研究背景近年来,互联网的爆炸性发展彻底改变了人们的生活与工作方式,促进了整个社会的发展,对全球政治、经济、文化等领域都具有深远的影响。互联网在给人们带来丰富信息资源的同时,其自身流量也与日俱增。思科Visual Networking Index针对2015至2020年的全球预测和互联网服务采用情况报告显示1,随着互联网用户和设备数量持续增长、宽带速度不断提高以及视频浏览量的快速攀升,全球互联网协议(IP)流量将在2020年增长至2015年流量规模的三倍左右(由72.5EB/月增长到194.4EB/月),固定和移动联接的全球IP流量预计2020年将达到2.3 ZB,这一数字将远远超过近年来所产生的IP流量,同时,内容类应用(文件共享、Web、视频)占据互联网绝大部分流量。面对上述互联网中海量内容的共享应用需求,现有互联网架构和内容传输技术体系越来越难以提供有效的支持,主要表现在:传统的内容分发在内容定位时采用单播路由,无法保证利用最低代价的传输路径;传输时不同的流之间相互独立,无法建立关联,导致了大量的重复数据传输;物理传输通道单一,难以适配具有辐射特征的内容访问特征等。究其原因,在于互联网的规模已远远超出设计之初的预期,端到端通信模式正逐步被以内容和服务为主的应用模式所取代,且互联网的内容访问日益呈现出幂律分布的特性,即大量用户对热门资源的重复性访问,耗费了大量的数据传输带宽,传统基于带宽分配的互联网信息共享方式无法有效应对信息共享请求2。为应对此状况,政府及研究领域均采取了相应措施。在2015年12月举行的第二届世界互联网大会上,习近平同志提出了“互联互通、共享共治”的双目标口号,号召研究人员关注互联网内容共享共治,最终促进全民对海量互联网内容的科学高效享用,提高用户网络体验,保障用户安全。在研究领域,以内容为中心的高效分发研究,成为未来网络的重要发展趋势。研究人员已提出了多种解决方案,比较具有代表性的有:DONA3、CCN4、NDN5等,但它们大多采用“重构”(clean-slate)的思想,遭遇到“布署成本远大于变革收益”的艰难困境。为改变这种局面,播存结构(Broadcast Storage Structure, BSS)把网页映射为互联网中可拆可聚的活版基元,将广播分发模式引入现有互联网体系结构,采用以“广播 + 存储”为特征的信息共享方式6, 7,对于大量用户所共同感兴趣的信息资源,通过物理广播直接辐射分发到用户终端附近的边缘服务器供用户访问,从而利用物理广播的天然优势,突破传统的信息共享方式所面临的宽带资源制约,极大地降低网络中共享过程中产生的冗余流量,有效缓解“信息过载”问题,实现“共享不限人数”的新型高效信息共享,播存结构获取信息资源的基本方式如图1-1所示。图 11 播存结构与传统互联网结构资源获取方式比较由于网页种类复杂,在网页到活版基元的映射过程中,需要对网页进行规范化处理。为此,播存结构引入统一内容标签(Uniform Content Label, UCL)8, 9,UCL与网页一一对应,用户通过UCL判断是否需要访问信息资源全文。UCL是播存结构运行的基础,播存结构将UCL发送到接收能力较弱的用户终端,将UCL及其对应资源全文发送到接收、存储能力较强的边缘服务器。用户终端由于接收能力有限,可通过类别定制仅接收感兴趣的UCL,并通过UCL向邻近边缘服务器请求感兴趣的资源。类别定制在缓解用户端接收压力的同时,可以在一定程度上满足用户的偏好需求。然而,基于类别的定制方式过于简单,筛选粒度不够精细,很难全面深刻地捕捉用户的兴趣,无法从根本上高效解决海量UCL中的用户兴趣挖掘难题。为进一步深度保证用户的偏好需求,提高播存结构的性能及用户体验,亟需深入研究播存结构中的内容(UCL)个性化推荐机制,实现“无限”内容(UCL)与“有限”用户偏好之间的高效适配。播存结构中的边缘服务器存放着大量网络热门信息资源、所覆盖的用户信息及用户历史评分信息,这些信息为播存结构中高效的兴趣适配技术提供了坚实的数据基础,可基于边缘服务器上存储的信息预测发现用户所偏好的内容,为其提供准确全面的个性化推荐。在个性化推荐方面,经过多年的研究,研究人员提出了很多不同的技术10-12。协同过滤是其中一种具有高性能、高实用性的技术,利用用户或物品之间的相似性为用户产生推荐列表,本文对已有协同过滤技术进行深入研究分析,提出以三个关键阶段划分协同过滤模型:相似邻居(用户或项目)挖掘13, 14;用户兴趣预测15, 16;推荐列表多样性优化17, 18。现有协同过滤方法在很多领域都取得了很大成功19-21。然而,不同于传统协同过滤应用领域,播存结构具有历史数据丰富、数据变化频繁、时效需求突出等特点,个性化推荐算法在播存结构中面临着巨大的挑战,主要体现在:(1) 历史数据的冗余繁杂带来的关系挖掘可靠性问题。播存结构中存在大量的用户及UCL数据。首先,待推荐的UCL是一种长为1kB的语义短包,由内容代码、内容标题、内容要义、内容指纹和内容出处等字段组成,内容代码及内容要义部分含有大量的内容全文语义信息;其次,播存结构中,由于物理广播的天然优势,边缘服务器覆盖范围极其广阔,所服务的用户众多,在运行过程中可积累大量的用户数据。然而,这些UCL及用户数据在为个性化推荐提供数据基础的同时也对其提出了更苛刻的要求,如何组织、处理这些数据,从中挖掘出有用可靠的用户及UCL关系,是播存结构中个性化推荐算法首要解决的一个难点。(2) 数据特征的频繁变化导致的预测稳定性问题。播存结构中,需要不断计算寻找热门信息资源,并通过物理广播及时地将该资源及其对应的UCL分发到各个边缘服务器。对于各边缘服务器而言,其存储的用户数据及UCL数据会呈现递增趋势,数据的结构及密集程度也会随之不断变化,这些变化将会对数据所驱动的内容推荐结果产生重要影响。若不能有效检测当前数据的特征变化,个性化预测的性能将剧烈抖动。因此,如何设计合理的方法,能够在播存结构中数据频繁变化时,仍然可以提供精确稳定的预测是播存结构个性化推荐过程中有待深入研究的关键问题。(3) 信息资源的巨大数量凸显的推荐单一性问题。互联网无时无刻不在产生着大量的信息资源,对于用户而言,播存结构在本质上为其提供了快速高效的信息资源获取方式。然而,播存结构中,待推荐项目UCL与信息资源一一对应,数量巨大,这种特征更加凸显了传统内容推荐(如:书籍、电影、商品等)中已经存在的推荐单一性问题,推荐给用户的UCL相似度过高,但包含的类别种类很少,难以全面挖掘用户的潜在兴趣。因此,如何优化单一化的UCL推荐列表,在追求高推荐精度的同时兼顾多样性,是播存结构中个性化推荐亟需应对的另一挑战。为应对以上挑战,本文将着力研究播存结构下的信息资源(UCL)个性化推荐问题。选题得到国家高技术发展计划(863计划)课题“基于内容聚类与兴趣适配的高效内容分发技术”(项目编号:2013AA013503)及国家自然科学基金项目“具有互补双结构的新型网络及关键技术研究”(项目编号:61472080)等的支持,具体针对播存结构中协同过滤关键技术进行深入研究,重点解决以下三个问题:(1) 如何在播存结构中可靠地挖掘相似邻居。在挖掘相似邻居过程中,如何充分利用用户数值属性与分类属性准确地划分用户分组,并基于丰富的UCL语义信息,高效地挖掘海量UCL的类别;在用户分组及UCL类别信息基础上,如何设计精确的相似邻居挖掘机制,为用户兴趣预测提供可靠基础。(2) 如何在播存结构中持续精确地预测用户兴趣。在预测用户对UCL的评分过程中,如何基于播存结构特点,深入分析当前数据集密集特征,动态调整用户信息与UCL信息对预测结果的作用,提高兴趣预测算法的精度,同时应对稀疏数据对精度的影响,从而在播存结构中数据集不断变化及稀疏不定时能够持续保证高精度兴趣预测。(3) 如何在播存结构中充分保证UCL推荐列表多样性。在优化UCL推荐列表多样性过程中,如何基于播存结构中数量巨大、动态多变的数据全面覆盖用户兴趣范围,兼顾用户评分模式及UCL语义信息,在保证精度的情况下,提高推荐列表多样性优化效果;如何捕捉用户反馈,进一步快速调整优化UCL推荐列表,提升播存结构的性能。1.2 研究动机与解决思路1.2.1 研究动机针对上述问题,本文从三阶段协同过滤模型视角对相关研究领域进行了调研和总结,主要包括相似邻居挖掘、用户兴趣预测及推荐列表多样性优化等三个领域。相似邻居挖掘的核心为相似度度量方法,目前该方面的研究主要围绕如何优化相似度度量算法展开,代表性工作包括COS22、PCC15、ED23、JacUOD24等。这些方法从本质来看等同于距离计算,将目标用户或项目以向量的形式规范化表示,然后采用不同的思路计算及量化不同向量之间的差异。除了上述独立的几种基础度量算法,研究人员还提出一些结合策略弥补这些算法各自的缺陷。Choi等人14提出一组COS、PCC、ED三种算法互相结合的策略,在一定程度上加强了相似邻居挖掘的精度。Kaleli等人25利用用户评分的不确定度表征用户评分模式,基于此想法提出一种融合熵与传统PCC算法的策略,同样提高了算法的精度。然而,上述方法主要基于用户的历史评分,并不适用于播存结构中含有大量属性、语义信息个性化推荐环境。对于用户兴趣预测,传统方法主要可分为基于模型(Model based)的方法与基于内存(Memory based)的方法。前者主要包括贝叶斯模型26、马尔科夫模型27等,执行过程较为复杂,且需要大量训练数据获得合适参数,实用性不如后者。而基于内存的方法又可以进一步划分为基于用户28, 29和基于项目22, 30两类。两类方法都已得到研究人员的广泛关注与研究,各具优势,往往在不同的数据集下具有不同的性能。Ma等人15通过预先设定权值将二种方法结合,在MovieLens数据集31下求得了最优权值。并通过筛选相似用户与相似项目,降低算法计算量,提高预测效率。但是,为何不同算法面对不同的数据集时性能会有很大差异?现有工作缺乏对该问题的深入思考。在推荐列表多样性优化方面,该问题已被证明是NP难问题32,因此,已有研究工作多为启发式算法,且可大致分为两条线路:置换启发式(Swap Heuristics, SH)33, 34和贪婪启发式(Greedy Heuristics, GH)17, 18, 35, 36。前者首先随机选出含有固定项目的集合,然后遍历整个数据集,逐一替换优化;后者通过每步增加一个项目至集合,直至集合中项目个数达到要求。启发式算法大多需要基于当前已有数据通过预先计算寻找合适控制参数,以提高结果集合的多样性,计算效率较低。除了传统的启发式方法,也有研究人员尝试从其它思路解决该问题37-39,其中较为典型的是,Minack等人38针对海量数据环境下的多样性优化问题给出了形式化的定义,并提出了一种基于传统SH思想的增量多样性优化策略,此策略还适用于大数据环境,可将大数据集转化为流式数据,从而在保证多样化性能的基础上提高数据处理速度。然而,这些工作大多脱离用户评分模式的影响或需要训练参数调整精度与多样性之间的平衡,无法高效地满足播存结构的需求。综上所述,国内外学者已围绕相似邻居挖掘、用户兴趣预测及推荐列表多样性优化等相关课题作出了大量工作和有益贡献。然而在播存结构中,这些研究仍然存在着极大的不足,无法充分结合播存结构所具有的特性,推荐效果亟待提高,如下所述:(1) 缺乏基于用户评分模式及属性信息的相似邻居挖掘算法播存结构包含大量的用户及UCL数据,同时UCL具有属性多且复杂的特点,这些数据及属性在为播存结构中的相似邻居可靠挖掘提供了帮助的同时也带来了挑战。传统方法往往基于用户对项目的数值评分信息,将每个用户的历史评分记录形式化为评分向量,将用户或项目的相似度比较转化为向量之间的相似度计算,在计算过程中,完全依赖数值评分信息,忽略类别等语义信息,无法充分挖掘播存结构中的数据及属性信息,导致了相似邻居挖掘性能较低。具体而言,一方面,传统方法不能恰当利用用户所具有的数值属性与分类属性,更无法基于二者挖掘可靠的用户关系;另一方面,传统方法难以深入分析挖掘UCL包含的语义属性数据,限制了播存结构中相似UCL挖掘的准确度。(2) 缺乏针对频繁变化数据集的用户兴趣预测机制播存结构面向的信息资源时效性较强,UCL分发、更新较快,数据集特征变化非常频繁,且由于UCL数量巨大,用户仅会对少量自己感兴趣的UCL进行评分,数据稀疏问题更为突出。已有方法主要基于用户对项目的历史评分数据,预测性能通常因数据集而异,即在不同数据集下,性能差异较大。此外,当数据集较为稀疏(如用户及项目数量庞大,大量用户仅对少量项目进行评分)时,已有方法往往难以在播存结构中及时评估当前数据集的密集特征,选择合适的兴趣预测参数,为播存结构提供持续精确的用户兴趣预测。(3) 缺乏适于动态富语义环境的UCL推荐列表多样性优化模型播存结构中UCL分发频繁,数量庞大且种类复杂,对列表多样性优化方法要求更为迫切及苛刻。已有方法或是需要预先训练模型的多样性控制参数,无法及时有效应对播存结构中数据的频繁变化,或是在优化过程中很难兼顾用户评分模式及语义信息的影响,无法充分利用播存结构中丰富的UCL语义信息。此外,已有方法在优化过程中通常缺乏对优化对象时效性的考虑,在一定程度上限制了播存结构中的用户体验,进而限制了播存结构的性能。1.2.2 解决思路为解决上述问题,本论文从如下四个方面入手展开对播存结构中基于协同过滤的内容推荐技术的研究工作,具体阐述如下:首先,研究播存结构中用户组别及UCL类别信息挖掘方法,并基于二者设计具有高可靠性的相似邻居挖掘算法。对于用户组别,构建分类属性信息树,基于此树设计同时基于用户的数值属性与分类属性的距离度量方法,以得到用户组别;对于UCL类别,先采用相似散列函数方法完成海量UCL特征提取及数值化,根据其特征数值向量进行快速类别确定,为高可靠相似邻居挖掘提供坚实基础,还提出并行化分类模型,进一步加快处理速度,提高算法的可扩展性。其次,分析传统基于用户与基于项目的兴趣预测算法在播存结构中的优劣,然后采用设定筛选阈值的方法对数据集密集性进行评估,最后基于数据集密集性特征,设计一种动态加权兴趣预测算法,以保证在数据集频繁变化及数据稀疏时,取得播存结构中持续高水准的兴趣预测精度。再次,在优化UCL推荐列表多样性过程中,为更加全面地覆盖用户的兴趣范围,降低预测偏差风险,设计一种面向播存结构基于语义覆盖树的UCL推荐列表多样性优化算法,该算法无需训练多样性控制参数,可充分利用播存结构中的用户评分模式及丰富的UCL语义信息,同时,在优化过程中兼顾UCL推荐列表的时效性,进一步提升播存结构的性能及用户体验。最后,结合以上三个方面的理论研究成果,设计并实现一套播存结构中基于协同过滤技术的推荐系统作为本论文的原型系统,为播存结构提供精确、合理的UCL个性化适配机制,保证整个播存结构高效运行。1.3 研究目标与内容1.3.1 研究目标本论文针对播存结构中的UCL高效适配的迫切需求,研究相关机制与算法,以构建基于协同过滤的高可靠性、高通用性、高多样性个性化推荐机制,弥平播存结构中的海量信息与广大用户之间的沟壑,为二者提供高效可靠的个性化通道。在相似邻居挖掘方面,以可靠地寻找相似用户及相似UCL为目标,设计用户组别划分算法及UCL分类确定算法,基于二者并结合用户历史评分信息,以期解决现有相关工作中所存在的问题,从而为下一步的兴趣预测算法提供坚实基础;在用户兴趣预测方面,研究并量化目标用户对目标UCL的兴趣,以历史评分数据集密集性特征为基础,提出一种加权综合兴趣预测算法,能够在数据集频繁变动及数据稀疏时持续地保证预测精度,满足播存结构要求;在UCL推荐列表多样性优化方面,提出一种面向播存结构基于语义覆盖树的UCL推荐列表多样性优化算法,可充分利用播存结构中的用户评分模式及UCL语义信息,高效地为用户推荐多样化、高时效的UCL列表;在原型系统方面,设计并开发一套基于协同过滤技术的内容推荐系统,在基于播存结构的高效内容分发系统中进行实际部署,实现高效内容分发系统的个性化内容推荐并验证本文的理论研究工作。1.3.2 研究内容为了实现上述研究目标,本论文拟从基于属性信息的相似邻居挖掘方法、数据密集特征驱动的用户兴趣预测机制、基于语义覆盖树的UCL推荐列表多样性优化算法及面向播存结构的个性化内容推荐系统四个方面展开研究,各研究点及其关系如图1-2所示。图 12 论文研究内容及其关系(1) 基于属性信息的可靠相似邻居挖掘方法研究针对现有相似邻居挖掘算法忽略用户社会信息与项目分类信息的局限性,以播存结构中大量的用户及UCL属性为基础,挖掘用户组别及UCL类别,寻求高效可靠的相似邻居挖掘方法。在用户组别方面,设计统一框架同时处理数值属性与分类属性的距离,通过归一化处理使得不同属性的距离区间相同,并引进加权参数控制不同属性对距离贡献的大小,基于该距离,提出一种适用于发现潜在用户组别的方法。在UCL类别方面,采用相似散列函数方法完成海量UCL特征提取及数值化,根据其特征数值向量进行快速类别确定,为高准确度相似度度量算法提供坚实基础,为进一步加快处理速度,还提出并行化分类模型。最后基于用户组别及UCL类别信息提出高可靠性相似邻居挖掘算法,克服传统方法在播存结构中显现的不足。(2) 数据密集特征驱动的用户兴趣预测机制研究针对现有已有用户兴趣预测方法在数据变化、稀疏时预测精度下降的特点,研究播存结构中持续高精度的用户兴趣预测机制。首先,从用户信息及项目信息两个方面评估播存结构中当前数据集的密集特征,并深入分析数据集密集特征对用户兴趣预测精度的影响;其次,在数据集密集特征分析的基础上,考虑传统基于用户与基于项目的兴趣预测方法所具有的缺陷,提出一种综合二者的兴趣预测算法,从而能够在播存结构中数据频繁变化、稀疏的情况下持续高精度地预测用户兴趣。(3) 基于语义覆盖树的UCL推荐列表多样性优化算法研究针对用户对UCL兴趣的量化结果,研究播存结构中UCL推荐列表的多样性优化算法。在用户评分模式及UCL语义的基础上,设计一种面向播存结构的UCL语义覆盖树,借助语义覆盖树,精确地进行多样化的UCL个性化推荐。在构建UCL语义覆盖树的过程中综合考虑UCL的时效性,在优化列表多样性的同时提高其时效性。此外,保证算法与兴趣预测算法松耦合,能够与绝大多数兴趣预测算法结合应用,以提高播存结构中内容推荐系统的性能及用户体验。(4) 面向播存结构的个性化内容推荐系统根据播存结构对个性化服务的需求,针对协同过滤的三个关键步骤,形成一个完善的个性化内容推荐架构,设计具有精度高、通用性强、推荐列表多样化等特点的个性化内容推荐系统,实现、验证并完善相似邻居挖掘、用户兴趣预测和UCL推荐列表多样性优化等个性化推荐系统的功能模块,使得播存结构中的内容分发能够更加高效合理。1.4 论文贡献与组织结构1.4.1 论文贡献本论文着眼于播存结构中信息资源个性化服务的迫切需求,基于播存结构的内在特点,分别研究了基于属性信息的相似邻居挖掘方法、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 张家口市人民医院糖尿病肾病患者透析方案制定考核
- 石家庄市人民医院跨部门医技药后勤协作沟通案例
- 上海市中医院妇产科疑难B超病例考核
- 沧州市中医院呼吸科专科护士晋升高级实践护士案例考核
- 衡水市中医院种植影像评估考核
- 衡水市中医院泌尿系肿瘤的多学科诊疗能力考核
- 张家口市中医院医保结算政策与流程基础知识测试
- 唐山市人民医院脊柱后凸畸形截骨矫形技术考核
- 上海市中医院激光定位系统考核
- 衡水市中医院质量管理体系考核
- GB/T 10819-2025木制底盘
- 女生青春期性教育核心知识框架
- 日常膝关节护理
- 船舶消防救生培训课件
- 初中音标考试题及答案大全人教版
- 贵州贵州磷化有限责任公司招聘笔试真题2024
- 新能源汽车火灾事故成因分析及灭火救援措施
- 2024北京陈经纶中学高二10月月考语文试题及答案
- 中兴信息安全管理制度
- 冷链仓储物业管理费及增值服务合同
- 轮胎店转让协议书
评论
0/150
提交评论