版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向多样性的隐私保护推荐方法概述目录TOC\o"1-3"\h\u4662面向多样性的隐私保护推荐方法概述 152801.1基于隐私保护的协同过滤方法 1231741.1.1获取受益者数据A和贡献方B的数据 279601.1.2融合两方邻域列表,获得增强列表 4218921.1.3LFM模型 443641.2基于增强邻域的差分隐私协同过滤方法 5165091.3推荐列表重排序 6206701.4实验与结果分析 7138701.4.1数据集及评价指标 7116321.4.2数据的预处理 9210951.4.3实验方案 10325111.4.4实验结果与分析 11本章主要涉及一种面向多样性的隐私保护推荐方法。该方法主要思想是通过利用多源数据集,丰富用户其他领域数据信息,以达到提高推荐多样性的目的。针对有可能出现的隐私泄露等问题,通过加入差分隐私对多源数据进行隐私保护,同时引入增强领域提升隐语义模型的性能,解决了其他相关推荐保护方法没有考虑数据的上下文信息的缺点。最后并加入推荐列表重排序,进一步提高推荐的多样性和准确性。本章3.1节首先介绍了基于隐私保护的协同过滤方法及步骤,本章3.2节介绍如何引入增强邻域算法提升隐语义模型步骤。最后本章与传统的推荐算法进行对比,并对实验进行分析。基于隐私保护的协同过滤方法协同过滤推荐作为使用最广泛的推荐方法,其具有可解释性强,推荐速度快等优点。在本文的第二章有详细的介绍,本章提出一种面向多样性的隐私保护推荐方法,并将协同过滤方法作为基础方法。现有的推荐系统可能缺少大量用户,也缺少对项目的已有评价,例如对于新上线的推荐系统,就难以利用协同过滤推荐给出令人满意的推荐结果。同时有一些已经拥有大量用户对项目的评价的系统,例如上线运行已久,有大量活跃用户的系统,当上线已久的系统与新上线的系统的项目和/或目标人群类似时,可以考虑从这些系统的数据,应用到新上线的推荐系统中,但这其中就涉及到数据敏感性的问题,需要引入隐私保护思想对数据脱敏保护。但同样还会带来一个新的问题,隐私保护程度过高,推荐效率不理想,隐私保护程度过低,敏感信息没有去除。那么如何在保证推荐效果的基础上,尽可能的去除敏感信息。目前有很多学者,都试图在引入通过引入多源数据集的方式。ZhuADDINEN.CITE<EndNote><Cite><Author>Zhu</Author><Year>2014</Year><RecNum>251</RecNum><DisplayText><styleface="superscript">[71]</style></DisplayText><record><rec-number>251</rec-number><foreign-keys><keyapp="EN"db-id="50efwwxadstx58e92x4v0z0iwd9etfzx9evz"timestamp="1617198568">251</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Zhu,T.</author><author>Ren,Y.</author><author>Zhou,W.</author><author>Rong,J.</author><author>Ping,X.%JFutureGenerationComputerSystems</author></authors></contributors><titles><title>Aneffectiveprivacypreservingalgorithmforneighborhood-basedcollaborativefiltering</title></titles><pages>142-155</pages><volume>36</volume><number>jul.</number><dates><year>2014</year></dates><urls></urls></record></Cite></EndNote>[71]提出一种私密邻居协同过滤(PNCF)算法来解决基于社区的CF推荐方法中的这些隐私问题,通过添加扰动操作来隐藏基于邻域推荐的隐私问题。IbrahimYakutADDINEN.CITE<EndNote><Cite><Author>Yakut</Author><Year>2012</Year><RecNum>253</RecNum><DisplayText><styleface="superscript">[72]</style></DisplayText><record><rec-number>253</rec-number><foreign-keys><keyapp="EN"db-id="50efwwxadstx58e92x4v0z0iwd9etfzx9evz"timestamp="1617201998">253</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Yakut,I.</author><author>Polat,H.%JKnowledge</author><author>InformationSystems</author></authors></contributors><titles><title>Privacy-preservinghybridcollaborativefilteringoncrossdistributeddata</title></titles><pages>405-433</pages><volume>30</volume><number>2</number><dates><year>2012</year></dates><urls></urls></record></Cite></EndNote>[72]研究了一种如何在两个电子商务网站之间的交叉分布数据(CDD)上提供更好的准确性的基于协同过滤混合推荐算法,同时保持它们的隐私。面对可能面临的隐私泄露问题。GongADDINEN.CITE<EndNote><Cite><Author>Songjie</Author><Year>2011</Year><RecNum>252</RecNum><DisplayText><styleface="superscript">[73]</style></DisplayText><record><rec-number>252</rec-number><foreign-keys><keyapp="EN"db-id="50efwwxadstx58e92x4v0z0iwd9etfzx9evz"timestamp="1617198918">252</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Songjie</author><author>Gong%JInternationalJournalofAdvancementsinComputingTechnology</author></authors></contributors><titles><title>Privacy-preservingCollaborativeFilteringbasedonRandomizedPerturbationTechniquesandSecureMultipartyComputation</title></titles><pages>89-99</pages><volume>3</volume><number>4</number><dates><year>2011</year></dates><urls></urls></record></Cite></EndNote>[73]提出了一种基于随机扰动技术和安全多方计算的协同过滤算法。利用随机扰动技术将不同的用户隐私文件存储在不同地方,在保证一定算法准确性基础上,利用多方计算保护用户的隐私信息。基于以上学者研究的考虑,本研究拟将差分隐私技术融入到建立多样性的推荐方法中,通过利用多源数据集,丰富用户其他领域数据信息,以达到提高推荐多样性的目的。但是上述方法并没有充分考虑推荐列表上下文信息,本文拟利用差分隐私对多源数据进行隐私保护,并将隐私保护后的数据集和收益数据集生成增强邻域,融合到隐语义模型中进行推荐,并在最后加入推荐列表的重排序。进一步提高推荐的多样性和准确性。本小节主要介绍的本文面向基于隐私保护的协同过滤方法和其步骤,其方法的主要流程见图3-1如下:(1)获取受益者数据A和贡献方B的数据;(2)利用隐私框架对贡献数据B进行隐私保护;(3)计算包含A和B的数据项目,融合两方邻域列表,获得增强列表;(4)得到推荐结果。图3-1基于隐私保护的协同过滤方法整体流程图Fig.3-1Theoverallflowchartofthecollaborativefilteringmethodbasedonprivacyprotection获取受益者数据A和贡献方B的数据根据本研究2.2节我们了解到,拥有数据的两方分别称为受益者和贡献者,和各自拥有用户项目矩阵和。项目矩阵每一行代表用户,每一列代表项目。我们和的项目信息是一致的情况。项目集合为。我们将收集到的贡献者的信息进行非私有化处理,并结合自身的数据进行协同过滤推荐。为了避免贡献者的数据被恶意攻击,分享其项目相似度相关信息以及数据密度的同时对的数据加入噪声实现对的隐私保护。在这需要进行补充说明的是,项目矩阵和,项目矩阵中的项目可以是电影、书籍等文艺作品,也可以是各种商品如食物、生活用品、衣物,也可以是各种活动如定期举办的读书会、互助会等,大概而言是人们可以对其形成评价,推荐系统需要向用户推荐的事物。本章采用的是项目矩阵中的项目是电影。为了保证推荐的效果我们假设受益者和贡献者的项目信息是一致的。实际中受益方和贡献方的项目应该至少部分重叠,或类似,从而有受益方从贡献方借鉴已有数据的可能性。考虑到贡献方的数据包含用户的部分信息,这些数据可能泄露用户的隐私,例如恶意攻击者将其他数据库与这些数据做连接,或进行差分攻击,则可能得到用户的隐私数据。为了在使用贡献方数据生成推荐结果的同时。又不泄露用户的隐私信息,需要对贡献方数据进行差分隐私保护,使得贡献方数据能且只能用来生成推荐结果。因此,本发明研究在生成贡献方的每个项目的邻域的集合时加入噪声对贡献方数据进行隐私保护。贡献者的项目信息。需要通过计算项目的相似度。形成每个项目的近邻列表。上下文中的最近邻项记为,并且。将每个项目的-近邻列表作为其共享数据发布,共享领域数据集记为。由于的数据密度影响的项目相似度分析的性能。同时公布其数据密度,数据密度为用户对项目评分不为空的数据在用户-项目矩阵的占比。是用户-项目矩阵中的数据元素,其中表示为用户对项目的相关评价。以为内层循环的索引,为外层循环的索引,双层遍历整个数据集,当时,得:(3-1)遍历,通过计算每个项目对的相似度的灵敏度,得到最大灵敏度。(3-2)其中表示函数在数据集上对应的局部灵敏度。假设:,,通过比较每一对项目的最大灵敏度与的大小:(3-3)得到平滑灵敏度,从而根据上式完成对贡献方数据的差分隐私保护。融合两方邻域列表,获得增强列表在本章研究中,受益方和贡献方的项目集合记为,项目,设共有个元素。为项目与之间的相似度,相似度值越大,表示之间与之间越相似。可以用皮尔逊相关系数(Pearsoncorrelationcoefficient)来表示,即,即(3-4)其中和为用户对项目和分别的评分,表示对项目进行评分的用户的集合,即,为用户对项目的平均评分,同理可得、,表示同时对项目和项目进行评分的用户的集合,即。如在矩阵中,项目的最近邻项记为,其中,,,从而贡献方的每个项目的邻域的集合可以表示为。为了使用增强邻域算法对受益方数据和脱敏贡献方数据进行合并,需要知道受益方和贡献方的数据密度,即用户项目矩阵中非空元素占所有元素的比例,如在矩阵中,所有用户的集合为,共有个元素,贡献方的数据密度为(3-5)同理可得受益方的每个项目的邻域的集合,以及数据密度。在实际操作中,可以包括多个贡献方和多个受益方,例如从多个贡献方获取数据,经过处理得到总的贡献方数据并基于总的贡献方数据并通过本研究所提供的方法得到预测推荐结果。LFM模型隐语义模型是目前最流行的针对推荐列表的推荐方法,该模型的主要原理是通过数据中所存在的隐藏特征,去关联用户的兴趣和匹配的特征。其原理和矩阵分解原理不同,后者是利用线性代数的基础知识,对特征评分矩阵进行分解,通过降低矩阵规模以补全矩阵信息。原定义公式如下。(3-6)当实际用户评分时,可能会因个人习惯对部分评分带有偏差。为改进这个问题,提出带偏置的评分LFM公式如下:(3-7)当前所有用户对项目的平均分由来表示;和分别表示用户和项目偏置项。含义为消除因用户和项目本身性质导致的评分偏差,如项目的受众群体过小导致的评分虚高;表示用户的兴趣和第隐藏因子,表示项目和第隐藏因子。基于增强邻域的差分隐私协同过滤方法在本研究中,受益方和贡献方的用户不同,因此可能呈现不同的用户喜好模式,单只用贡献方的每个项目的邻域的集合,生成的推荐结果会只反映的用户喜好模式,而受益方虽然上线时间短,但其数据也反映出了一定的用户喜好模式,忽略受益方数据会降低推荐的效果,不符合协同共享的初衷。为了较好地使用两方数据,产生较好的推荐效果,我们设计了增强邻域算法以得到增强邻域集合。对于每个项目而言,是基于受益方的数据的子集通过计算项目相似度得到的,是基于贡献方的数据的子集通过计算项目相似度得到,两者由于数据的缺乏、噪声、项目相似度计算本身固有的限制,都会有一定的偏差,然而如果和共享一个交集,交集中存在的邻域信息会比单独两方的信息更有说服力,因此优先使用的信息可以产生较好的推荐结果。设增强邻域集合中邻域的数量为,与和的邻域数量相同。除了,必须从再选取邻域。在本研究中,通过比较受益方的数据密度和贡献方的数据密度进行选取,如果,说明的数据比更稀疏,协同过滤推荐应更依赖于的数据,相反,如果,说明的数据比更稀疏,协同过滤推荐应更依赖于的数据,具体公式如下:(3-8)其中[]为积分算子,用于获取其参数的整数部分,当与均基于相似度评分降序排序时,取的前项邻域项目集合记为,的前项邻域项目集合记为,最终得到增强邻域集合。(3-9)接下来引入隐语义模型(LatentFactorModel,LFM)。下面本研究结合增强邻域集合构建隐语义模型:(3-10)表示与特定用户无关的基于增强邻域集合得到的项目相对于项目的权重,为增强邻域集合中用户对项目的评分,为贡献方的用户对所有项目的平均评分。为了估计模型参数、、、以及,本研究使用最小二乘法进行求解:(3-11)同时由于参数较多,为了防止过拟合,本研究例增加正则化系数。(3-12)其中正则化系数可以使用梯度下降法来确定。在本研究例中,需要说明的是,根据隐语义模型输出的对项目的预测评分,可以为受益方的每位用户生成预测推荐结果,例如将项目根据预测评分从高到低排序,选取前项推荐给用户,其中为正整数。也可以采用其他方法生成预测推荐结果。推荐列表重排序通过上一步我们可以得到增强邻域列表,增强隐语义模型推荐列表的多样性,虽然形成的多样性列表更加全面丰富。但是目前大部分的推荐算法还是以准确率为导向。提高多样性提高的物品大多在列表尾部,对于用户的TopN选择,还是很难提高实际的多样性水平。为了进一步提高推荐列表的多样性。我们将上一步通过隐语义模型得到的推荐列表进行重排序。推荐列表重排序是一种面向多样性一种效果好,适应性强的方法。其思想是在得到以准确率的候选列表的基础上,根据不同重排序策略对推荐列表中的物品进行调整,得到一个全兴的多样性Top-N推荐列表。不少学者已经验证通过对推荐列表进行二次排序,可以有效提高推荐列表的多样性ADDINEN.CITE<EndNote><Cite><Author>张丝雨</Author><RecNum>18</RecNum><DisplayText><styleface="superscript">[74]</style></DisplayText><record><rec-number>18</rec-number><foreign-keys><keyapp="EN"db-id="50efwwxadstx58e92x4v0z0iwd9etfzx9evz"timestamp="1614930318">18</key></foreign-keys><ref-typename="Thesis">32</ref-type><contributors><authors><author>张丝雨</author></authors></contributors><titles><title>面向多样性需求和服务资源匹配的推荐算法研究</title></titles><dates></dates><urls></urls></record></Cite></EndNote>[74]。重排序方法的步骤分为:(1)选定评分阈值,筛选推荐列表的物品(2)设计面向多样性的重排序算法修改推荐列表中物品位置(3)得到面向多样性的推荐列表。本文选择一种由Adomavicius提出了一种平衡多样性和准确率的重排序方法,该模型可以通过参数调节对列表进行重排序。其定义如下。(3-13)(3-14)表示创建列表的阈值主要用于调节两个指标的平衡参数,表示的阈值最大值,表示保证一定准确率的阈值表示评分矩阵的评分。实验与结果分析数据集及评价指标本章主要,为了考核我们方法的多样性我们选择使用MoiveLens数据集和Netflix作为我们研究的数据集。在现实生活中,由于设备故障,信号故障等问题,实际采集到的很多数据存在很多无效数据和缺失的数据,这些数据并不能够满足我们实验要求。所以数据的预处理是我们进行实验前的一个重要操作,其结果质量能够直接关系到模型的效果和实验结论。数据预处理包括:删除重复值,缺失值处理,一致化处理等等。下面我们针对电影数据集的清洗进行分别讨论。数据集方面,我们选择经典的MovieLensandNetflix两个电影数据集。其中将MovieLen作为收益数据集,Netflix作为贡献数据集。为了更好将Netflix数据集应用到收益数据集里,我们需要选取的数据需要有相同的电影列表,来保证两个数据集中的电影数据对其,通过数据连接发现4064个相同电影id。为了简化方法,我们抽出了1000个电影和1万名用户的评分数据作为我们使用数据。所抽取的MovieLensandNetflix两个数据集有1000个相同movie_id,但是其用户id不相同。我们从MovieLens数据集中抽取18万条评分数据作为收益数据集A,并随机划分5组,X1~X5。每组包含1000个电影和10000个用户的3.6万个评分数据。同样的我们Netflix数据集中抽取了相同数量电影和用户的评分数据,平均分成了5组Y1~Y5,每组包含6.1万个评分数据。我们选择5折交叉验证的方式训练模型,及训练集和测试集划分4:1划分方式及组合方式如下:(3-15)(3-16)本章我们目前的是在维持一定准确率的条件下。努力提升推荐系统推荐列表的多样性。这其中主要包括的指标推荐列表的准确率(Precision),召回率(Recall)还有多样性(Diversity)。多样性由分为用户推荐列表多样性和系统多样性。主要用于描述了所产生的推荐列表中两两之间的不相似性。多样性的高低,反映了用户是否能找到更多感兴趣物品的概率。相关计算公式如下所示。(3-16)(3-17)用户列表多样性为,表示给某个用户多样性的不相似性:(3-18)另外一种多样性为推荐整体多样性,可以定义所有用户多样性的均值:(3-19)其中为计算相似度结果,目前常用的计算相似度方法的原理主要为计算两个向量的距离,这其中最具代表性的方法有Jaccard相似度、曼哈顿相似度、欧几里相似度,等都是计算相似度等等。而本研究所使用的多样性为整体推荐列表多样性。数据的预处理为了保证实验的准确性,我们还对实验数据进行了相关电影类型和电影评分情况的统计分析如下。(1)电影类型统计分析针对电影数据集,为了更好了解数据集类型,首先对MoiveLens的数据集进行了统计分析。通过图3-2我们可以看到,电影类型以Dramma、comedy、Thriller、Action、Rommance和Horror居多。为了保证实验效果我们选择,我们选择电影种类超过2000的电影类型,即选择Dramma、comedy等前10种类型。图3-2电影类型情况统计图Fig.3-2TheStatisticsofmovietypes(2)电影评分情况统计分析下一步,我们对电影打分情况进行了统计,见图3-3。可以看到电影打分情况以3到4分为主,其次4~5分,0~3分最少。图3-3电影评分情况统计图Fig.3-3TheStatisticsofmovieratings实验方案这一小节我们主要介绍本实验的实验环境,以及实验方法,为下一小节实验结果与分析提供环境支持。表3-1实验环境配置Tab.3-1TheExperimentalenvironmentconfiguration环境参数详情处理器Intel(R)Corei7-9750HCPU@2.60GHz内存16GB操作系统MicrcosoftWindow1064bit开发语言Python3.7根据推荐应用场景的特点,我们提出的领域增强算法与5种推荐方法和所提出的方法进行实验对比,并证明其有效性。方法及相关介绍如下。(1)ItemCF(A):使用ItemCF方法,其中采用的数据集为收益数据集A(MovieLen);(2)ItemCF(B):使用ItemCF方法,其中采用的数据集为贡献数据集B(Netflix);(3)ItemCF(A+B):使用ItemCF方法,收益数据集A和贡献数据集B分别为MovieLen和Netflix;(4)L(A):使用LFM模型,其中采用的数据集为收益数据集A;(5)ItemCF_L:使用收益数据集A的ItemCF和使用贡献数据集B的LFM的皮尔逊相似度方法;(6)ItemCF_BoostL:使用收益数据集A的ItemCF的增强领域算法LFM模型方法,并采用了推荐列表重排序。实验结果与分析为了证明本章所提出的增强领域算法AA在提升多样性方面的性能,做了以下几个实验验证方法的有效性。(1)选择合适的knn参数k;(2)不同推荐方法的对比;(3)隐私参数的影响;(4)隐语义模型中隐特征factor和学习率对推荐的影响。参数中的选择近邻方法中参数的选择对于完成一个ItemCF推荐方法非常重要。以=1开始,步长为1,我们选组的个数从1~50作为我们实验的对象,研究不同带来的结果分布。为了简化期间,此时我还没有对数据集进行隐私保护。实验结果如图3-4所示,实验表明,当<15时,推荐的准确率和召回率正在升高,平均绝对误差正在减少。当>15时,所有指标效果提升不明显。对于ItemCF方法来说当=15时,性能达到最好。因此我们将为20。当然在实际部署中实际的选择要根据数据集的大小和系统实际操作进行实时调整。图3-4不同k值的性能变化图Fig.3-4ThePerformancechangegraphofdifferentkvalues不同隐私参数下的比较为了实现差分隐私,我们可以通过设置不同的隐私参数来调整隐私保护中噪声的扰动范围。我们将值从0.001-1000变化来调查噪声的增加对推荐性能的影响,。我们实验所使用的评估指标为平均绝对误差,其计算方法是用其中一个方法的绝对误差减掉另外一个方法的绝对无嘻哈。结果表明他们的平均值是0.92%。随着噪声越来越大,他们的推荐性能则越来越低,也就是说,添加噪声会降低精度。随后我们通过对所提出的增强邻域算法ItemCF_BoostL进行评估,通过添加噪声了解噪声对环境的影响因此参数大小从值0.001-1000开始我们进行实验。上图3-5显示了性能变化曲线,纵坐标代表方法的平均差异,横坐标代表隐私参数大小的变化。随着噪声大小越来越大,当时,方法的平均性能接近于0,表明他们之间性能没有任何差别。性能大小和隐私大小呈反比,如果要保证方法的性能,就需要降低隐私参数大小。当时,B生成的共享数据应与个相似项和数据密度的随机猜测相同。所得到的共享数据应该是纯粹的噪声,并且共享CF方法的性能应该低于仅使用A的数据的CF方法。当,增加的噪音提高了性能15%的差异。统计表明,当(通过双尾检验证实),因此,当时,精度增加的噪声所引起的降低并不显著。图3-5不同隐私参数的性能影响图Fig.3-5ThePerformanceimpactdiagramofdifferentprivacyparameters不同推荐方法的多样性比较我们将所提出的增强领域推荐算法和其他5种itemCF方法进行对比分析,见图3-6。选择准确率,召回率,多样性三个指标探究方法的有效性。从图中我们发现itemCF方法不仅是在收益数据集A,还是在收益数据集B上,在准确率方面都表现出不错的优势,准确率方面均达到了0.37。ItemCF(A+B)方法融入了两者的数据集,不仅准确率没有下降,而且多样性指标上升了0.02,但是多样性指标效果提升不明显。相比较ItemCF方法,则隐语义模型则在数据集A上的效果并不乐观,准确率为0.26,而多样性仅为0.03,准确率,召回率均小于ItemCF方法及其变形方法的性能。但是我
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 活动策划预算方案范本(3篇)
- 汤泉排水施工方案(3篇)
- 天美活动策划方案(3篇)
- 基于多任务学习的流程风险评估模型课程设计
- 焊接换热器施工方案(3篇)
- 现代建材施工方案(3篇)
- 电力模块施工方案(3篇)
- 盛世温泉活动策划方案(3篇)
- 磁砖倒角施工方案(3篇)
- 窑洞抽奖活动方案策划(3篇)
- 高温合金和高端金属功能材料生产项目环评
- 旅游概论中职PPT完整全套教学课件
- 大学生人际沟通艺术与技巧PPT全套完整教学课件
- 双溪课程评量表
- 大切诺基用户手册书(可编辑)
- 《农业统计学复习资料》
- 【科目一考试】河南省延津县驾校模拟考试练习300题
- GB/T 18380.33-2022电缆和光缆在火焰条件下的燃烧试验第33部分:垂直安装的成束电线电缆火焰垂直蔓延试验A类
- 中国近现代史纲要(专题一)
- PE工程师培训教材课件
- 土木工程结构试验与检测课件
评论
0/150
提交评论