基于深度强化学习的时空众包任务兴趣匹配方法研究

上传人：1*** IP属地：北京上传时间：2023-03-30 格式：DOCX 页数：11 大小：40.95KB 积分：5.99 举报 版权申诉

已阅读5页，还剩6页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于深度强化学习的时空众包任务兴趣匹配方法研究摘要

时空众包技术已经成为了一种重要的分布式劳动力市场，吸引了越来越多的用户加入进来。人们在时空众包平台上发布任务来寻找符合任务要求的众包工人，因此任务与工人之间的兴趣匹配显得非常重要。本文提出了一种基于深度强化学习的时空众包任务兴趣匹配方法。首先，利用LSTM网络对工人和任务的历史行为进行建模，另外，构造了一个基于感知注意力机制的兴趣特征向量。其次，在建立了工人和任务的状态空间后，使用Q-learning算法优化任务的奖励函数。最后，通过大量实验验证了本文所提出的方法在时空众包任务中具有较好的匹配性能。

关键词：时空众包；深度强化学习；任务匹配；LSTM网络；Q-learning算法；感知注意力机制。

Abstract

Spatial-temporalCrowdsourcinghasbecomeanimportantdistributedlabormarket,attractingmoreandmoreuserstojoinin.Peopleonthespatial-temporalcrowdsourcingplatformreleasetaskstofindcrowdworkerswhomeettherequirementsofthetasks,sothematchingofinterestsbetweentasksandworkersisveryimportant.Thispaperproposesaspatial-temporalcrowdsourcingtaskinterestmatchingmethodbasedondeepreinforcementlearning.Firstly,theLSTMnetworkisusedtomodelthehistoricalbehaviorofworkersandtasks,andaperceptionattentionmechanism-basedinterestfeaturevectorisconstructed.Secondly,afterestablishingthestatespaceofworkersandtasks,theQ-learningalgorithmisusedtooptimizetherewardfunctionofthetask.Finally,throughalargenumberofexperiments,thispaperverifiesthattheproposedmethodhasgoodmatchingperformanceinspatial-temporalcrowdsourcingtasks.

Keywords:Spatial-temporalCrowdsourcing;DeepReinforcementLearning;TaskMatching;LSTMNetwork;Q-learningalgorithm;PerceptionAttentionMechanism.

一、绪论

随着物联网技术的迅速发展，各种传感设备和智能设备已经逐渐普及到各个领域中。这些设备收集的数据需要经过处理和分析之后，并转化为对人类有用的信息。然而，这些数据处理需要大量的电力和计算资源，而且数据处理过程中的正确性和可信度也需要得到保障。为了解决这些问题，众包技术被提出并迅速发展起来。众包技术解决了数据处理中存在的一些问题，它能够通过分布式的方法将任务委托给众包工人完成，从而降低了系统处理数据的成本，提高了数据处理的效率。

时空众包(Spatial-temporalCrowdsourcing)是众包技术的一种变体，它在众包平台中支持时空信息的处理和利用，也就是说，时空众包任务的主要特点是它需要众包工人在一定的时间和空间范围内完成一项任务。时空众包任务的具体例子包括在众包平台上发布地图标注任务、对天气数据采集完成品质以及对电力网络的监控等。时空众包任务需要利用地理信息技术来控制任务的空间范围；同时，由于任务的时间限制性，时空众包任务也需要考虑工人的移动轨迹和工人可用时间等因素。

时空众包平台可以吸引到大量有不同兴趣爱好和技能的工人，不同的工人在完成任务时具有不同的能力和特征。这就需要任务发布者在时空众包平台上寻找符合任务要求的工人，这一过程可以通过基于兴趣匹配的方法实现。兴趣匹配是指根据工人和任务之间的行为特征，找到最适合的工人来完成这个任务。在实际应用中，任务发布者会受到众多因素的干扰，如工人数量、工人技能、任务复杂性、工作时间、工资等等。因此，在兴趣匹配过程中，需要充分考虑各种因素，以便优化任务发布者和工人之间的兴趣匹配效果。

目前兴趣匹配方法可以归为传统机器学习方法和深度学习方法两类。总的来说，传统机器学习方法采用手工设计特征来表示任务和工人状态，并使用分类器进行匹配。这些方法可以处理兴趣向量较小的任务，但不能很好地处理处理兴趣向量较大的任务。此外，传统机器学习方法需要大量的工程上的工作来确定最优的特征提取器。相对于传统机器学习方法，深度学习方法可以自动地学习特征，能够处理具有高维度、非线性特征表示的任务，对于兴趣向量较大的任务也可以很好地处理。因此，深度学习方法具有广泛的应用前景，在兴趣匹配方法的研究中也得到了广泛关注。

针对上述问题，本文提出了一种基于深度强化学习的方法来实现时空众包任务对工人的兴趣匹配。该方法首先使用LSTM网络对工人和任务的历史行为进行建模，另外，构造了一个基于感知注意力机制的兴趣特征向量。其次，在建立了工人和任务的状态空间后，使用Q-learning算法优化任务的奖励函数。最后，拟通过大量实验验证本文所提出的方法在时空众包任务中具有较好的匹配性能。

二、相关工作

在兴趣匹配研究领域，主要的方法可以划分为传统机器学习和深度学习方法两大类。

（一）传统机器学习方法

传统机器学习方法以特征工程为核心，通过提取工人兴趣特征和任务需求特征，然后使用分类器（如支持向量机，随机森林和朴素贝叶斯等）进行兴趣匹配。兴趣特征和需求特征一般包括了以下几个方面：基础信息（如性别、年龄等）、历史行为（如点击次数、星级评价等）、信誉度（如任务完成情况、任务评价等）、技能标签（如技能标签、兴趣标签等）等。Yu等人提出了一种基于主题兴趣模型的方法，通过文本聚类和主题模型的方法，将兴趣模型统一为低维的向量表示，然后利用向量相似度度量兴趣之间的关联度。Li等人使用Gaussian过程回归模型进行任务区间时间预测，并通过预测结果来寻找最适合的工人。Wang等人提出了一种基于时间段余弦相似度的匹配算法，用于寻找分配给匹配任务的最佳工人。Serrano等人在兴趣匹配过程中考虑了任务数量因素，提出了一种新的算法来提高任务的匹配效率。

（二）深度学习方法

由于深度学习可以自动地学习特征表示，因此，在兴趣匹配中也被广泛使用。Zhang等人提出了一种基于卷积神经网络的兴趣匹配方法，将工人历史任务相关信息转化为图片的形式，使用卷积神经网络进行训练和兴趣匹配。Qi等人提出了一种基于多种数据信息的一体化兴趣预测方法，通过建立任务和工人的深度神经网络模型，实现工人和任务之间的兴趣预测。Wang等人提出了一种基于长短期记忆网络的兴趣匹配方法，通过学习工人和任务的历史行为模式，并结合预测模型，实现工人和任务之间的兴趣匹配。Zhang等人提出了一种基于贝叶斯神经网络的兴趣匹配方法，在考虑兴趣概率分布的情况下，探索构建兴趣匹配的最优贝叶斯神经网络模型。

三、基于深度强化学习的时空众包任务兴趣匹配方法

该方法主要包括三个部分：（1）工人和任务的历史行为建模；（2）构造任务和工人的状态空间；（3）使用Q-learning算法优化任务的奖励函数。

3.1工人和任务的历史行为建模

一般来说，在任务和工人之间建立历史行为模型有两个目的。

（1）预测工人在未来时间的工作能力，从而为任务分配做好准备。

（2）预测工人是否能够正常完成待处理任务，从而评估工人的信誉。

为此，本文提出的工人和任务的历史行为建模采用了LSTM网络。LSTM网络是一种具有长短记忆的循环神经网络，其可以在模型中引入门控，以实现对历史行为的有效学习和长期依存关系的捕捉。在训练LSTM模型时，我们将工人和任务的历史行为分别传入LSTM模型中，得到相应的LSTM隐藏状态向量。LSTM的反向传播过程会对LSTM中的所有隐藏状态产生梯度，这样就可以将工人和任务的历史行为特征表示为隐藏状态向量。

3.2构建任务和工人的状态空间

在本文所提出的方法中，工人和任务的状态都是用向量来表示的。针对任务状态空间的建设，我们提出使用作业描述信息、工资、截止时间、地理位置、时空约束等因素来描述任务状态。我们将任务的多维属性组成一个高位向量，即任务状态表示为：

$$s_i^t=(D_i^t,\w_i^t,C_i^t,P_i^t,R_i^t,F_i^t,L_i^t)$$

其中，$D_i^t$是任务的描述信息向量，$w_i^t$是任务工资，$C_i^t$是任务的截止时间，$P_i^t$是任务的地理位置向量，$R_i^t$是任务所需的技能标签向量，$F_i^t$是任务时间约束向量，$L_i^t$是任务空间约束向量。

对于每个而工人状态空间的建设，则需要考虑工人能力、位置、时间可用性、工作经验、信誉度等因素，将这些属性组成为一个高维向量来描述工人状态，即：

$$s_j^t=(S_j^t,\P_j^t,\T_j^t,\E_j^t,\R_j^t,\C_j^t)$$

其中，$S_j^t$是工人技能标签向量，$P_j^t$是工人地理位置向量，$T_j^t$是工人时间可用性向量，$E_j^t$是工人工作经验向量，$R_j^t$是工人信誉度向量，$C_j^t$是工人当前任务执行情况向量。

通过以上定义，我们可以将任务和工人的状态编码为向量表示，方便后续计算和匹配。同时，这种多维属性表示方式能够更全面地表达对象特征，有助于提升推荐效果接下来，我们针对工人状态空间的建设中提到的各个因素做进一步说明：

1.工人技能标签向量：

在任务分配中，关键的一点是要将任务分配给那些有相应技能的工人。因此，将工人的技能标签向量定义为一个向量，其中每个维度代表着一个具体的技能标签。这样一来，我们就可以通过计算任务与工人的技能标签向量的相似度评估工人是否具备完成任务所需的相关技能。

2.工人地理位置向量：

任务分配时，工人的地理位置也是一个很重要的因素。可以将每个工人的地理位置表示为一个向量，其中包括了经度和纬度信息。这样一来，我们就可以将任务分配给距离其最近的工人，从而缩短任务响应时间，提高任务完成效率。

3.工人时间可用性向量：

工人时间可用性向量描述了工人在不同时间段内的可用性情况。例如，在白天工作的工人可能在晚上不可用，而晚上工作的工人则可能在白天不可用。因此，任务分配时应考虑工人的时间可用性，以便将任务分配给那些可用性更高的工人。

4.工人工作经验向量：

工人的工作经验也是一个很重要的因素。可以将工人的工作经验表示为一个向量，其中每个维度代表着一个具体的工作经验。这样一来，我们就可以将任务分配给那些具备相关工作经验的工人，从而提高任务完成效率和质量。

5.工人信誉度向量：

工人的信誉度也是一个很重要的因素，可以将工人的信誉度表示为一个向量，其中每个维度代表着一个具体的信誉度指标，如评价得分、任务完成时效、任务完成质量等。通过计算工人的信誉度向量，我们可以评估工人的工作能力和信誉度，从而更好地分配任务。

6.工人当前任务执行情况向量：

在任务分配时，还需要考虑工人当前的任务执行情况。可以将每个工人的任务执行情况表示为一个向量，其中包含了任务数量、任务类型、任务状态等信息。这样一来，我们就可以认真评估工人的工作负责度，避免将任务分配给那些已经忙不过来的工人7.工人技能熟练度向量：

除了工作经验之外，工人的技能熟练度也是一个很重要的因素。技能熟练度向量可以包含各个方面的技能，比如编程语言、设计软件、沟通能力等。对于需求特定的任务，需要寻找具有相关技能的工人，提高任务完成效率和质量。

8.工人可靠度向量：

工人的可靠度也是一个很重要的因素。可靠度向量可以包含工人的准时性、按时提交任务的能力、对任务的细致性等指标。通过对工人的可靠度向量进行评估，可以更好地选择符合要求的工人，确保任务能够如期完成。

9.工人态度效率向量：

工人的态度与效率也是决定任务完成情况的重要因素。态度效率向量可以包含工人对待工作的态度、沟通处理问题

人人文库> 全部分类> 图纸下载 > 课程设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于深度强化学习的时空众包任务兴趣匹配方法研究

文档简介

温馨提示

最新文档

评论

基于深度强化学习的时空众包任务兴趣匹配方法研究

文档简介

温馨提示

最新文档

评论

相关文档