车连基础安全 7_第1页
车连基础安全 7_第2页
车连基础安全 7_第3页
车连基础安全 7_第4页
车连基础安全 7_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第8章

基于增强学习的车联网上下文

感知信任模型8.1引言8.2预备知识8.3基于增强学习的上下文感知信任模型8.4实验本章小结

8.1引

随着车载通信无线频谱的分配和专用短程通信(DSRC)等标准的采用,IoV使车辆之间的信息共享成为现实。在大量共享信息的基础上做出相应的决策,使得IoV可以为驾驶员和乘客提供一个安全、可靠和娱乐信息丰富的驾驶环境[108,273]。然而,所有这些益处都建立在决策过程中使用的信息是可靠的这一前提下。在本章中称与事实相符的信息为可靠信息。

在IoV中保证信息的可靠性涉及许多富有挑战性的安全需求[274-275]。信任评估是其中一种最常用的解决手段。基于不同的理论和技术,研究者们针对不同的系统提出了许多信任模型和信任评估方法[276-277]。在信任管理系统中,当信任评估者需要评估被评估者的信任度时,可以将获得的与受托人相关的信息作为信任计算函数或信任推理模型的输入。计算或推断的结果将被视为受托人的信任度,并作为之后决策的依据。大多数的信任计算函数都是通过针对具体网络确定的几个信任因子进行加权算术运算来计算受托人的信任值。因此,现有的信任机制适用于具有特定特征的网络类型,如网络结构和通信模式。IoV的独特特性(如频繁变化的拓扑结构和大部分来自陌生实体的信息)使其不适合利用在其他网络的信任方案。

现有的IoV信任方案主要分为面向实体和面向数据两类。对于面向实体的方案,实体的信任度代表它生成的消息的可靠性[104]。在这些方案中,信任关系的演化依赖于评估者者和被评估者的长期交互;然而,作为一种短暂的自组网,IoV中两个节点之间通常不可能进行多轮的交互。在IoV中,消息的信任度并不总是与报告消息的实体的信任度相同。此外,现有工作还提出了几种信任模型将驾驶员的社会关系(通过电子邮件地址)与信任评估过程相结合。在个人计算机时代尚未深入体验的地区,由于电子邮件地址并不总是与一个人紧密联系在一起的[107-108,278],因此,很难通过电子邮件地址在实体之间建立信任。这种情况下,建立对数据的信任比对实体的信任更为可行[109]。

近年来,许多面向数据的信任方案被提出[105,279],这些方案的目的是基于网络中信息的传播来评估给定事件(数据)与真实情况的相等程度。通常,这些方法首先计算网络中实体的信任度;然后,由具有高信任度的实体生成的消息作为信任计算函数的输入,评估给定事件(数据)的信任级别。显然,这些方法并没有脱离实体为建立数据信任所作的声明。同时,在这些方案中很少提及上下文的影响。现有面向数据的方案中存在的另一个问题是这些方案的信任评估策略是静态的。这些方法依然建立在实体信任值代表着其所发送的数据的信任值的假设之上。因此在相同的证据下,无论在何种情况下,评估结果都是相同的。如果评估结果不满意,信任计算函数也不会根据先前结果的反馈进行任何改进。再者,现有的方案只有当恶意节点的比例小于50%时,才能在所考虑的网络环境中获得令人满意的

结果。

考虑到以上问题,需要为IoV设计一种新的面向数据的信任方案,该方案能够在不同的场景下获得准确的评估结果,并且在恶意节点比例超过50%时也能获得良好的性能。为此,本章结合IoV的特点和应用需求,提出了一种基于上下文感知的面向数据的IoV信任评估方案。在缺乏长期互动的情况下很难评估一个实体的信任水平,因此,在本章方案中,当委托人需要评估发生在特定背景下的某个事件的信任级别时,它会利用收到的与事件相关的信息来进行信任评估,而不考虑信任信息生成者和发送者的信任度。评估过程中只能使用与给定上下文相同的信息。在这项工作中,将事件发生的时间和位置作为其上下文信息。在信任计算函数方面,提出了一种基于信息熵的计算方法,同时考虑内部信息和外部信息。此外,为了保证不同场景下信任计算结果的准确性,本章还建立了强化学习模型,不断优化信任评估策略。

本章的主要内容如下:

(1)提出了一种基于上下文感知的面向数据的IoV信任评估方案,包括数据形式化、信任评估和策略调整模块。它可以在各种场景下以较高精度评估事件的可信性,而不管网络中是否存在冲突证据和恶意节点的百分比。

(2)提出了一种由评估策略控制的信任评估方法。此外,在信任度计算函数中引入信息熵理论,使得对被评估事件相关信息的理解更加全面,从而保证评估结果更加准确。

(3)为了在不断变化的驾驶场景中获得良好的性能,本章建立了一个强化学习模型,根据先前评估结果的反馈动态调整评估策略。在评估策略的指导下,信任评估函数可以动态演化,使其在没有假设驾驶场景和环境固定的情况下能够正常工作。

8.2预

识8.2.1网络架构本章所采用的网络架构如图8.1所示,包括信任权威(TA)、固定路侧单元(RSU)和车辆。其中,RSU和车辆可以统称为IoV的实体或节点。假设每个实体都配备了时钟和定位系统(例如GPS),使它们能够在任何传出消息中包含时间和位置方面的信息。可以预先定义几种类型的事件并将其部署到IoV中,每种类型的事件都有一个唯一的序列号作为其标识符。当一个实体对某个事件有了观察或认知时,它将利用特定的格式描述该事件,并被实体的其他模块使用或发送给其他实体。当车辆需要判断某事件的可信性时,会对接收到的与该事件相关的数据进行分析,然后结合自身经验,得到事件的信任值,所得信任值可以用来指导后续的驾驶行为。图8.1本章模型的网络架构

8.2.2敌手模型

假设在IoV中可以使用各种认证协议来保证节点身份的合法性。这些合法节点要么遵守当前的协议(诚实节点),要么故意不遵守协议(恶意节点),要么被动未遵守协议(故障节点)。诚实节点发送的消息与事实相符。由于恶意节点和故障节点都会对网络造成损害,因此称它们为敌手。假设网络中每种节点的百分比没有限制,这意味着在某个时间一个节点的邻居节点中,敌手节点可能超过其邻居数量的50%。

下面给出信任评估的形式化描述。给定一个信任评估请求(e,c),其中e是事件,c是上下文信息,与此请求相关的信息有以下3种:

(1)事件e是发生在c中的事实,表示为(ef,c)。

(2)车辆传感器感知到与(e,c)有关的信息,表示为(ep,c)。

(3)车辆发出信息中包含着与(e,c)有关的信息,表示为(er,c)。

对给定车辆v,如果ef=evp,则表示v

的传感器工作正常;否则,传感器有故障。如果ef

=evp,evp=evr,则表示辆v是诚实节点;否则,它是恶意节点。这里的上标v表示信息的生成者。一个车辆有如表8.1所示的4种行为,可以看到一个诚实节点应该只表现为Cl,对于一个恶意节点,它可能有表8.1中除了Cl之外的所有行为。

假设某车辆节点v评估一个请求(e,c)的信任度,该请求的真实信任度为tr。定义集合e为v

的信任计算函数的输入信息,e

满足(∃s∈E)∩(s∈C2‖C3‖C4)。该框架的目的是使fE

(e,c)=tr,其中f

是信任计算函数,E

是与请求(e,c)相关的信息集。

8.3基于增强学习的上下文感知信任模型

8.3.1信任模型框架基于增强学习的上下文感知信任模型的框架如图8.2所示。该框架由信息形式化、信任评估和策略调整3个模块组成。具体来讲,嵌入式传感器等实体不断地向信息形式化模块提供原始信息;车辆驾驶行为决策模块向本章所提框架发送评估请求和反馈,并使用信任评估的结果。此外,信任评估模块与车辆驾驶行为决策模块之间有一个接口,可以看作是它们之间交换消息的中介。图8.2基于增强学习的上下文感知信任模型的框架

信息形式化模块负责信息的处理。该模块的输入是车辆节点自身感知到的信息和从其他实体接收的信息,输出是格式化的信息,这些信息将存储在数据仓库中,以便其他模块可以使用。信任计算函数在信任评估模块中运行,以便计算给定事件在特定环境中存在的信任级别。策略调整模块的核心是一个学习引擎,它通过学习先前信任评估结果的反馈来不断更新信任评估函数。

下面介绍所提框架的整个工作流程,每个步骤对应于图8.2中具有相同编号的带编号的箭头。

车辆驾驶行为决策模块向接口发送信任评估请求R。请求包括事件e的标识符和环境信息c,表明需要对事件e在上下文c中存在的信任级别进行评估。

请求R

被发送到信任评估模块。

信任评估模块访问数据库,检索请求R

的相关信息。

数据库将检索到的结果返回给信任评估模块。

信任评估模块访问策略调整模块,获得请求R

的信任评估策略。

策略调整模块为信任评估模块提供评估策略。现在可以确定运行在信任评估模块中的信任计算函数。

信任评估模块将从数据库获取的信息作为信任计算函数的输入,计算请求

R

的信任级别,将计算结果发送到外部接口。

请求R

的评价结果发送到车辆驾驶行为决策模块。

车辆驾驶行为决策模块将信任评估结果反馈给接口。

反馈信息作为强化学习模型的回报发送到策略调整模块,学习引擎相应地更新评价策略。它也会作为车辆的自我体验发送到数据仓库。

8.3.2信息形式化

IoV中的实体可以通过多条渠道获取信息,例如车载传感器和其他实体。在本章中,将一个实体的直接感知信息和自我体验称为其内部信息,其他实体报告的信息称为外部信息。这些原始信息的格式通常是不同的。因此,为了集成这些数据并在其他模块中使用它们,需要为它们定义一个规范化的格式。所有获得的内部和外部信息都将转换为统一的格式。这两种信息的标准格式如下。

定义8.1将内部和外部信息表示为一个五元组,M=<ID,T,L,E,V>,其中ID

表示信息源的唯一标识(对于内部信息,ID是车辆节点本身的标识;对于外部信息,ID是发送消息的车辆的标识),T

表示此消息中所报告事件的发生时间,L是所报告事件的发生位置,E

表示所报告事件的标识符,V

表示事件V

的信任级别。当

M

是内部信息时,V

的取值范围是{0,1}。V=0表示不可信(或事件未发生),V=1表示可信(或事件确实发生)。例如,如果事件是流量拥塞,信任值为1意味着流量阻塞确实发生在五元组所包含的环境中。当

M是外部信息时,V

的取值范围为[0,1],因为来自其他实体的外部信息可能是主观的。

M

中的因子T和L

构成事件的环境,可以将环境写成c=<t,l>,其中t和l分别是

时间和位置信息。每个实体都有一个数据库来存储所有获得的信息。根据其存储能力,在存储新信息的同时,应剔除过时的信息。例如,对于同一来源的与同一事件和环境相关的多条信息,只保留最新的一个。此外,如果一条信息的出现时间早于某个特定的时间点,则也应将其删除。

在计算请求R=(e,c)的信任级别之前,信任评估模块首先访问数据仓库以获取与e和c相关的信息,用Mex(e,c)和Min(e,c)分别表示与(e,c)相关的外部和内部信息集。这里,定义信息的因子E等于e,环境变量为c,将这种信息表示为(e,c)。

本章将等价事件定义为具有相同标识符的事件。如果满足以下规则,称环境c等于c':

(1)将环境c的因子“t”的构成设置为[year‖month‖day‖hour‖minute‖second]c。

[hour‖minute‖second]c

和[hour‖minute‖second]c'间的时间差应在ω

秒以内,[year‖

month‖day]c

和[year‖month‖day]c'应同时为工作日或休息日,并且它们之间的时间差应在ε秒以内。ω

和ε是可以预定义的值。

(2)将环境c的因子“l”设置为[road‖lane‖direction]c,这类似于OSM(OpenStreet

Map)中的道路识别规则。[road]c应与[road]c'相同,[direction]c和[direction]c'也应相同。

8.3.3信任评估

一个实体执行的关于驾驶行为或车内信息娱乐的决策,例如路径选择和速度调节,取决于某些事件存在的可信度。因此,信任评估模块负责对给定事件的信任度进行评估。在介绍信任评估的细节之前,对本节中使用的符号作如下规定。下标i用于表示集合中的第i个元素,符号|·|表示集合的基数。其中nex=Mex(e,c),nin=Min(e,c)。

可以把Sex(e,c)和Sin(e,c)视为两个元组的集合,其中二元组的第一个和第二个因子分别是集合

Mex(e,c)和

Min(e,c)中每个元素的因子V

和因子T。根据计算要求,以上4个集合中的元素按因子t排序。对于信任评估请求,将在评估过程中利用与之相关的内部和外部信息。因此,所提的信任计算函数由两部分组成,如式(81)所示。

定义8.2

使用ffinal(e,c)表示信任计算函数,用来评估某个请求R=(e,c)的信任级

别。ffinal(e,c)的取值范围是[0,1],其中0表示环境c中发生的事件e完全不可信。ffinal(e,c)的值越大,在c中出现的e就越可信。计算公式为

其中,finter(e,c)和fintra(e,c)分别表示基于外部信息和内部信息的信任评估结果,β是调

整内部和外部信息权重的参数。信任计算函数中同时使用内部和外部信息的原因是:在实际应用中,不能保证对于任何信任评估请求都有可用的真实内部信息,因为车辆的传感器可能有缺陷,或者车辆没有经历请求R

中包含的事件。

因此,在式(81)中,需要在信任计算过程中用系数β来决定是否以及在多大程度上可以依赖内部信息。基于不断强化学习过程,β的值在不同情况下会有所不同,这将在下面几节讨论。利用最终的信任值,车辆可以通过定义信任阈值对请求R

做出决策。如果最终信任值低于信任阈值,则意味着环境c中发生的事件e是假的,反之亦然。本章将信任阈值设置为0.5。

假设在大多数情况下,实体对于其邻居是陌生的,并且来自于邻居的报告在信任计算过程中具有相同的权重。首先使用Sex(e,c)或者Sin(e,c)中元素v的平均值作为初始估计。显然,仅仅这些是不够的。给出一个特定的值

Tavg∈[0,1],只要

Sex

(e,c)或

者Sin(e,c)中元素数量大于1,则可以找到不止一种方法为其中每一个元素v分配一个值,以使得这些元素v的均值为Tavg。不同的分配方式可以反映完全不同的信息。元素v

的值分布越混乱,对这些值的确定性就越小,因此评估结果接近0.5,以表示不确定性。元素v的值分布越均匀,对这些值更加确定,因此评估结果应该更接近元素v的平均值。所以,本章用Sex(e,c)或者Sin(e,c)中元素v

的熵作为另外一个评估信任等级的依据。

根据以上的考虑,使用

8.3.4基于强化学习的策略调整方法

车联网中的车辆节点总是处在动态变化的行驶环境中,它们在不同路况中行驶时所拥有的内部信息与外部信息数量均不相同。如果在某些环境中进行的信任评估结果不准确,那么可以通过改变式(81)中参数β的取值来更新信任评估策略,以使信任评估函数可以在不同情形下得到最佳的评估结果。本小节设计了基于Q-learning算法的增强学习模型对历史信任评估结果的反馈进行学习,学习结果可用于在不同情形下选择参数β令评估结果最优。Q-learning算法是DeepMind团队提出的[280-281],用于处理连续策略优化问题。它考虑通过一系列观察、动作和激励来完成代理与环境间的交互,代理的目标是以未来累积奖励的方式选择行动。

在所提模型中学习引擎会不断地接收决策模块发送的信任评估结果的准确性反馈。一方面,此反馈可以反映与某个请求(e,c)相应的真实信任级别并将其作为内部信息存储到数据仓库;另一方面,它也可以视为对评估请求(e,c)中使用的策略的奖励。在本章中,假设该激励值为0或1。当激励r=1时,表示信任评估结果与事实真相相符;当r=0时,表示信任评估结果与事实真相相反。下面给出强化学习的细节,包括状态空间、动作空间和强化学习算法。

1.状态空间

状态空间描述了与评估请求相对应的可用信息属性。为避免发生状态空间爆炸,本章只用信任信息的几个重要属性来描述其状态。因为不同的状态可能对应不同的评估策略,一个状态应该反映与该请求相关的路况以及与该请求相关的可用信任信息的质量和数量。在这里,使用信任信息(包括内部信息和外部信息)中的信任值分布来指示与请求相关的路况。如果与请求相关的可用信任值很规则,则意味着请求的事件发生的概率很高。本章使用熵来衡量信任信息的质量,熵的值越高,则信任信息中的信任值越混乱。

通过计算外部信息和内部信息的相对数量来衡量相关信息的数量,可分为以下3种情况:

(1)外部信息多于内部信息;

(2)外部信息少于内部信息;

(3)外部信息和内部信息数量相当(都比较多或都比较少)。

强化学习模型的状态空间的形式如定义8.3所示。

定义8.3(状态空间)强化学习模型的状态空间为四元组S=<hin,hex,N,RG>,其中hin和hex是对于一个请求可获取的内部和外部信息的熵,N

表示外部信息和内部信息的相对数量,RG表示可获取信息中信任值的规律性。状态空间中的所有状态形成基数为24的状态空间集合SS。

下面详细介绍状态空间每个元素的属性。

状态空间的前两个元素内部和外部信息熵对应于一个特定的请求,为了减小状态空间,本章采用两个离散变量hin和hex来描述它们,且hin和hex的取值范围为{0,1},分别表示低值和高值,计算方式如下:

其中符号表示向下取整。

状态空间的第三个元素是与一个特定请求相关的内部信息和外部信息的相对数量,表示为

N。计算方式如下:

本章使用N作为状态空间的一个元素是因为信任信息的来源和数量可能会影响车辆的信任趋势。例如,给定一条道路,有一辆车每天都要在这段路行进很多次,这辆车有大量的、丰富的关于这段路的信息,所以它对于这条路的内部信息足够自信。然而,假设一辆车要在一条它只行进过几次的道路评估事件是否可信,那意味着此车辆几乎没有相关的内部信息。假如它接收到的大量外部信息与内部信息观点不同,则将更多的权重分配给基于外部信息的评估结果可能是一个更好的策略。状态空间的最后一个元素是获得信息的规律性。关于一个事件R=(e,c)的规律性表示为RG(e,c),它描述了分布的信任信息的均匀度。

在一段连续的时期,RG(e,c)的值越大,则关于事件R

的信息的信任值越稳定。例如,集合{1,1,1,1,0,0,0,0}与集合{0,0,0,0,1,1,1,1}的规律性是相同的,比集合{1,0,

1,0,1,0,1,0}的规律性更高。

算法8.1RG(e,c)计算方法

算法8.1展示了RG(e,c)的计算过程。在算法8.1中第3行的符号|S|表示集合S

的基数,第6行的符号|·|表示求数字的绝对值。RG(e,c)的初始化的默认值为1,在第6行获取规律性的原始值RGraw(e,c),显然它的取值范围为[0,1]。从第7行至第10行,需要转换连续的原始值为离散值1或0,分别表示高规律性和低规律性。

2.动作空间

所提模型的动作空间是β的取值范围。从式(81)可知β是一个从0到1的实数,但这里将动作空间定义为离散空间以便促进学习过程。

定义8.4(动作空间)动作空间为一个集合AS={0.2,0.5,0.8},意味着一个实体在任何状态对于β的值有3个选择。集合AS中的每一个元素表示两种信任信息的不同权值分配。

3.强化学习算法

通过定义激励、状态空间和动作空间,算法8.2展示了学习过程的细节。在算法8.2中,Q[s,a]表示在状态s下评估一个请求可信度时执行动作a的近似优化激励值,R[s,a]记录实体在状态s下执行a的反馈激励。此处执行动作a

表示在用式(81)计算最后信任值时,在状态空间AS中选择第a

个元素的值赋值给β。算法8.2中1~8行是行为模型的初始化过程。假设初始时,实体没有直接的经验,即实体只能依靠外部信任信息进行信任计算。因此,设置Q[s,2]=1来进行策略初始化

P(β=0.8|∀s∈SS)=1。算

法8.2中10~15行

循Q-learning算法的学习过程。它使得在Q-table中的元素值能根据反馈变化。算法8.2中第11行,参数α是一个取值范围在[0,1]之间的学习率,学习率α越大,则历史学习结果对于学习过程的影响越小,反之亦然。

值得一提的是算法8.2中第13行Q-table的更新函数,其中Snext是在状态s下执行a后的下一个状态,并且γ是折扣因子。γ的值越大,实体在学习过程中考虑未来的激励越多。然而,在所提模型中,实体的信任信息状态是由实体自身经历的或者外部实体的报告决定的,这与γ无关。此外,对于给定的(s,a),Snext(s,a)是不确定的。因此,在算法8.2中,设置γ=0,即只考虑利用历史学习结果和当前激励来更新Q-table。

当车辆节点需要利用可获取的信任信息来对请求(e,c)进行信任评估时,它会先分析可获得的信任信息,然后获取状态s并且利用式(812)来选择优化策略。

如果有多个动作都满足式(812),实体将会等概率地随机选择一个。

8.4实

验1.仿真设置实验中使用VEINS[282]、OMNet++[283]和SUMO[284]来搭建仿真环境。在SUMO中,车辆状态通过交通控制接口(TrafficControlInterface,TraCI)查询和设置。为创建真实的场景,我们使用从OSM获取的一部分上海黄埔区的真实地图作为测试路段。如图8.3所示,这片区域包括1350个十字路口和33种共2505条道路。在不同的场景使用不同的车辆行为来验证所提的方案。每一次仿真实验使用不同的随机种子运行10遍,并且最终实验结果是10次运行的均值。所有的实验均在CPU型号为IntelCorei54590、CPU频率为3.30GHz、内存为4GB的台式机上运行。

表8.2列出了仿真中使用的参数。测试指标为信任评估结果的准确率(PrecisionRate,PR),计算公式如式(813)所示。图8.3来自OSM的测试区域地图

在式(813)中,一个正确的评估表示事件的信任评估结果与事件真实情况一致。它包括被评估为具有高信任值的真实事件以及被评估为低信任值的错误事件。在仿真过程中,假设在网络中有两种车辆节点,表8.3显示的是每种节点的行为。

实验在表8.4所示的不同测试场景中进行。首先,考虑路况的稳定性,一个稳定的路况表示在不同天的同一时间段内路况基本一致,因此车辆可以根据先前的条件在某个时间段预测路况。一个不稳定的路况表示在不同天的同一时间段路况是随机变化的,即想要根据同一时间段的历史交通去预测交通情况是很困难的。其次,实验考虑在一个请求中车辆对路段的熟悉度,车辆对路段越熟悉,则车辆对此路段交通信息了解越充足。

2.实验结果

下面描述在不同场景和敌手情况下进行的实验。首先,研究本章方案在不同交通情况下的性能;然后对比本章方案性能与已有的贝叶斯推理、D-S理论和投票方案的性能差异,因为这3种方法在面向数据型信任评估方案中已被广泛应用。

1)本章所提方案的准确率

在一个场景中分析网络中恶意车辆节点比例(pm)和学习率(α)对于准确率的影响。在这里,为了展示本章方案的优势,将恶意节点比例设置为大于50%。特别的,将pm值分别设置为50%、60%、70%、80%、90%;对于α,分别分配3个值1、0.5和0来分析它的影响。

图8.4、图8.5和图8.6分别显示了本章所提模型在场景S1中的不同pm值下的准确率PR。在图8.4中,可以看到当学习率为1时,不管pm值多大,信任评估结果的准确率都很快地增加至100%。当学习率为0.5和0时,信任评估结果的准确率随着pm值的不同而不同。当pm值为50%、60%时,准确率随着时间几乎趋向于100%,然而当pm值大于60%时,准确率最终几乎趋向于0。图8.4场景为S1且α=1的性能图8.5场景为S1且α=0.5的性能

产生这种差异的原因是,当α

小于1时,在学习过程中将考虑较低的激励。当pm值为50%或者60%时,依据信任计算函数设置初始化策略值为0.8,最终的信任结果将始终与被评估的事件相同。然而,当pm值大于60%时,最终的结果将从一开始就与事实相反,所以车辆会接收一个负面激励。另外,由于激励的影响被削弱,在随后的评估过程中不会改变策略。这会导致来自外部车辆的信任信息持续控制信任评估结果,即准确率将持续保持在较低水平。

图8.7、图8.8和图8.9分别显示了本章所提模型在场景S2

中的不同pm值下的准确率PR。可以看到无论pm值和学习率如何变化,准确率都会迅速接近100%。这是因为在场景S2中车辆处于稳定、熟悉的交通环境,所以它有足够的关于事件和上下文的真实信息,并且这个学习过程的选择策略在外部虚假信息报告甚至恶意节点比例(pm)达到90%时依旧可以正确决策。图8.6场景为S1且α=0的性能图8.7场景为S2且α=1的性能图8.8场景为S2且α=0.5的性能图8.9场景为S2且α=0的性能

图8.10、图8.11和图8.12分别显示了本章所提模型在场景S3

中的性能。可以看到在这个场景中,随着时间变化,所提模型的准确率趋向于50%,而与pm值无关。这是因为在场景S3

中,同一上下文事件的真相与先前的事件相比是完全随机且独立的。因此,可用信任信息对于当前评估过程是无用的,并且先前评估的结果的激励面临同样的问题。从统计知识上看,最终的信任评估结果将趋向于50%。值得一提的是当学习率为1(见图8.10)时,不同pm值的准确率差异比学习率小于1(见图8.11和图8.12)时的准确率差距大。造成这个现象的主要原因是当学习率为1时,只有激励会影响学习过程,这使得策略在不同评估过程中会发生变化。

但是,当学习率小于1时,历史学习结果会影响学习过程。这使得策略选择决定总是为初始化值0.8。因为Q-table中与初始策略相应项的值始终大于0,而其他项始终为0。在随机交通环境中采取不同的策略会导致更加不稳定的评估精度。但是,最终准确率都将趋向于50%。

图8.10场景为S3且α=1的性能图8.11场景为S3且α=0.5的性能图8.12场景为S3且α=0的性能

图8.13、图8.14和图8.15分别显示了本章所提模型在场景S4

中的不同pm值下的准确率PR。可以发现在不同的pm值和学习率的情况下,准确率的演化是非常一致的,这与场景S2

的情况有点相似。在场景S4

中,准确率很快稳定在50%。这是因为评估车辆在上下文中有足够的关于评估事件的历史信息。学习过程使得先前的内部信息能决定此事件的评估结果。图8.13场景S4且α=1的性能图8.14场景S4且α=0.5的性能图8.15场景S4且α=0的性能

总而言之,只要有合适的学习率,本章方案可以在不同场景pm值大于50%的敌对环境取得较高的准确率。在最混乱的场景中,本章方案仍然可以取得50%的准确率,这是因为不断地学习,这个方案可以调整评估策略以使各种状态下信任评估策略仍能够保持高准确率。

2)本章方案的效率

实验通过记录信任评估过程、学习过程和通信过程的时间消耗来衡量本章方案的性能。结果显示一次信任评估和学习过程的时间消耗小于1×10-12s,可以忽略不计。在整个系统的操作过程中通信(包括内部通信模块接入和车辆间无线通信)几乎消耗了所有时间资源。

对于通信消耗,已知很多现有的车联网通信方案[285288]。此外,随着5G的快速发展,5G毫米波可以提供无所不在的通信支持,所以本章中不关心车辆间的通信限制和通信开销问题。

3)同其他方案比较

这里主要比较分析本章方案和其他3种面向数据信任模型中广泛采用的流行方法(基于D-S理论的方法、基于贝叶斯推理的方法和投票方法)在表8.5所示情景下的性能。此比较是根据准确率PR和资源开销进行的。对于D-S证据理论,已知它对于处理未知信息是有用的。然而,它存在一个固有的问题,即当可用证据中的观点完全冲突时,证据融合结果将是矛盾的。在所提模型中,假如有一个恶意的节点,车辆将会收到与评估请求的信任级别完全相反的观点的报告。这正好是D-S证据理论无法处理的情形。因此,文献[289]扩展了D-S证据数据融合方法来解决冲突证据问题。对于基于贝叶斯推理的方法和投票方法,因为它们对于完全相反的证据不会产生问题,故可以直接进行比较。

首先,在准确率方面进行比较。为了体现本章方案的优越性,假设pm值大于60%,即实验中设置pm值为60%~90%。图8.16显示在场景S1

下的比较结果。可以发现在没有先验知识的条件下,本章模型的准确率能够快速提升至接近100%,而其他3种方法准确率都稳定在0%。

图8.17是在场景S2

下的比较结果。除了基于贝叶斯推理的方法外,该结果和场景S1

的结果相似,基于贝叶斯推理的方法的准确率在开始时几乎可以达到100%,这是因为车辆具有给定背景下有关被评估事件的先验知识。之后准确率就极速降至几乎为0,这是因为恶意节点在不断增加错误信息。因为pm值为90%时错误信息的影响要大于pm值为60%时错误信息的影响,所以当pm值为90%的情况下准确率下降更快。图8.16在场景S1比较本章方案和其他3种方案图8.17在场景S2比较本章方案和其他3种方案

图8.18和图8.19分别显示场景S3

和S4

下的比较结果。可以看到,在随机道路条件下,所有4种方法的性能都与评估请求相关的先验知识无关。基于贝叶斯推理的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论