版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三部分第三部分 知识的表示和推理知识的表示和推理第第2020章章 用贝叶斯网学习和动作用贝叶斯网学习和动作 学习贝叶斯网学习贝叶斯网 学习一个贝叶斯网的问题是寻找一个网络学习一个贝叶斯网的问题是寻找一个网络它能最好地匹配它能最好地匹配(按照某个记分度量按照某个记分度量)一个一个数据数据训练集训练集(training set),是所有是所有(至少有一些至少有一些)变变量值的实例集合量值的实例集合。说。说“寻找一个网寻找一个网”, 我们的我们的意思是既要找到意思是既要找到DAG结构,也要找到与结构,也要找到与DAG中中每个节点相关的每个节点相关的条件概率表条件概率表(CPT)。 学习贝叶斯网学习
2、贝叶斯网 已知网络结构已知网络结构 如果知道网络的结构,那么只需找到如果知道网络的结构,那么只需找到CPT,我们首先描,我们首先描述这种情况。通常,人类专家能对一个问题领域提出适当的述这种情况。通常,人类专家能对一个问题领域提出适当的结构但不能做出结构但不能做出CPT。在我们必须学习网络结构的情况下,。在我们必须学习网络结构的情况下,学习学习CPT仍是必需的。仍是必需的。 学习学习CPT有一个比较容易的和一个比较难的两种情况。有一个比较容易的和一个比较难的两种情况。在容易的情况下,没有缺失的数据,即训练集合己的每个成在容易的情况下,没有缺失的数据,即训练集合己的每个成员对网中表达的每个变量有一
3、个值。然而在更实际的设置中,员对网中表达的每个变量有一个值。然而在更实际的设置中,情况常常是一些训练记录的变量值缺失了;缺失的数据导致情况常常是一些训练记录的变量值缺失了;缺失的数据导致更难以学习更难以学习CPT。 学习贝叶斯网学习贝叶斯网 无缺失数据无缺失数据 已知网络结构已知网络结构 我们用向量变量我们用向量变量Pi指称与指称与Vi的双亲有关的变量,用向的双亲有关的变量,用向量值量值Pi指称这些变量的值。采样统计结果指称这些变量的值。采样统计结果 ,由由中有中有Vi= vi和和Pi= pi的采样数除以有的采样数除以有Pi= pi的采样数得到。的采样数得到。 ) )p pP Pv v( (V
4、 Vp pi ii ii ii i 假如我们观察了图中假如我们观察了图中G、 M、 B和和L的的100组值组值(注意到有些组合没有注意到有些组合没有出现,有些比其他出现得更频繁出现,有些比其他出现得更频繁)。为了计算采样概率为了计算采样概率 ,我们只要计算在所有的采样中我们只要计算在所有的采样中B为为True出现的次数,得到出现的次数,得到 同样,同样, 。对节点。对节点B和和L,这些概率正是它们的这些概率正是它们的CPT所需要的。所需要的。 T Tr ru ue e) )( (B Bp p 0 0. .9 94 4T Tr ru ue e) )( (B Bp p 0 0. .6 68 8T
5、Tr ru ue e) )( (L Lp p 学习贝叶斯网学习贝叶斯网 已知网络结构已知网络结构 无缺失数据无缺失数据 我们用下面解释的典型计算方式计算节点我们用下面解释的典型计算方式计算节点M的的CPT行:行:为了计算为了计算 (简写为简写为 ),计算,计算M为为True、 B为为True, L为为False的次数,并除以的次数,并除以B为为True、L为为False的次数。我们得到的次数。我们得到 。对节点。对节点G我们进行我们进行相似的计算。可以计算整个采样统计结果集。相似的计算。可以计算整个采样统计结果集。)FalseLTrue,BTrue(Mp L)B,|(Mp 0.03L)B,(M
6、p 注意,在例子中,有些采样统计是基于很小的采样的注意,在例子中,有些采样统计是基于很小的采样的导致相应的基础概率的可能不精确评估。一般地讲,一个导致相应的基础概率的可能不精确评估。一般地讲,一个CPT的指数级数量的大量参数可能无法使训练集对这些参数的指数级数量的大量参数可能无法使训练集对这些参数产生良好评估的能力。如果很多参数有相同产生良好评估的能力。如果很多参数有相同(或接近相同或接近相同)的值,的值,可能会减轻这个问题。可能会减轻这个问题。 学习贝叶斯网学习贝叶斯网 缺失数据缺失数据 已知网络结构已知网络结构 在收集被一个学习过程使用的训练数据中,常常发生数据缺失。在收集被一个学习过程使
7、用的训练数据中,常常发生数据缺失。有时,要被捕获的数据不经意地缺失了,有时数据缺失本身是重要的。有时,要被捕获的数据不经意地缺失了,有时数据缺失本身是重要的。这里处理第一种情况。一个简单、收敛的迭代计算采样统计过程已被这里处理第一种情况。一个简单、收敛的迭代计算采样统计过程已被证明是对之有效的。用刚刚描述的例子来介绍该方法的主要思想证明是对之有效的。用刚刚描述的例子来介绍该方法的主要思想。 星号星号* *表示变量值组中表示变量值组中与那个位置相关的变量值与那个位置相关的变量值缺失了。问题是当试图评缺失了。问题是当试图评估这个网络的估这个网络的CPT时,我时,我们如何处理这些缺失值们如何处理这些
8、缺失值? 学习贝叶斯网学习贝叶斯网 已知网络结构已知网络结构 缺失数据缺失数据 先考虑三次采样,其中先考虑三次采样,其中G GFalseFalse, M M TrueTrue, L LTrueTrue, B B的值缺失的情况。这二次采样中的每一次可能有的值缺失的情况。这二次采样中的每一次可能有B BTrueTrue或或B BFalseFalse,我们不知道是哪一个。但对这些采,我们不知道是哪一个。但对这些采样,我们知道样,我们知道G G、 M M和和L L的值。因此,虽然不知道的值。因此,虽然不知道B B的值,的值,但给定了但给定了G G、M M和和L L的值,我们能计算的值,我们能计算B B
9、的概率的概率p(B|p(B|G G,M M,L)L)。 这个概率能用前面讲述的概率推理方法计算这个概率能用前面讲述的概率推理方法计算工作工作在网络结构和网络的在网络结构和网络的CPTCPT上,条件是我们有这些上,条件是我们有这些CPT(CPT(当然,当然,我们还没有它们,但是将简要讨论这个问题我们还没有它们,但是将简要讨论这个问题) )。因此,为。因此,为了计算采样统计以估计该网络的了计算采样统计以估计该网络的CPTCPT,三次采样中的每一,三次采样中的每一次能用两个加权采样代替次能用两个加权采样代替一个是一个是B BTrueTrue,用,用p(B|p(B|G G,M M,L)L)加权,另一个
10、是加权,另一个是B BFalseFalse,权值为,权值为p(p(B|B|G G,M M,L)=1- p(B|L)=1- p(B|G G,M M,L)L)。学习贝叶斯网学习贝叶斯网 已知网络结构已知网络结构 缺失数据缺失数据 我们把相同的过程应用到我们把相同的过程应用到7次采样次采样BTrue, LTrue, G和和M的的值缺失的情形。这些采样中的每一个可由对应组合值缺失的情形。这些采样中的每一个可由对应组合(G, M)、(G,M)、(G, M)和和(G,M)的的4个加权采样代替,权值分别是概率个加权采样代替,权值分别是概率p(G,M|B,L),p(G, M|B,L)、p(G,M|B,L),和
11、,和p(G, M|B,L)。我。我们可以再次用网络结构和们可以再次用网络结构和CPT计算这些概率计算这些概率(当在任何一个采样中的缺当在任何一个采样中的缺失值数量很大时,存在指数爆炸的采样危险失值数量很大时,存在指数爆炸的采样危险)。 学习贝叶斯网学习贝叶斯网 已知网络结构已知网络结构 缺失数据缺失数据 现在,我们能用加权采样现在,我们能用加权采样(其中,缺失值已被填充其中,缺失值已被填充用所有可用所有可能的方法能的方法)和其他采样和其他采样(它们中没有缺失值它们中没有缺失值)一起进行频率统计以计算一起进行频率统计以计算CPT的估计。这个过程与在没有缺失值中描述的过程相同,除了一的估计。这个过
12、程与在没有缺失值中描述的过程相同,除了一些计数现在不是整个数量些计数现在不是整个数量(因为加权因为加权)外。外。 但是正如前面提到的,为了通过概率推理计算权值,我们需要但是正如前面提到的,为了通过概率推理计算权值,我们需要CPT,然而我们没有它。一个叫,然而我们没有它。一个叫期望最大化期望最大化(EM) 的方法可以用来对的方法可以用来对一个一个CPT集合调零。集合调零。 首先,我们为整个网络的首先,我们为整个网络的CPT中的参数选择随机值,用这些随中的参数选择随机值,用这些随机值计算需要的权值机值计算需要的权值(给定观察要数据的值时缺失数据值的条件概率给定观察要数据的值时缺失数据值的条件概率)
13、,然后用这些权值反过来估计新的然后用这些权值反过来估计新的CPT。我们迭代这个过程,直到。我们迭代这个过程,直到CPT收敛,保证收敛能达到。在大部应用中,收敛是快速的。收敛,保证收敛能达到。在大部应用中,收敛是快速的。学习贝叶斯网学习贝叶斯网 学习网络结构学习网络结构 记分制记分制 有几个度量方法可用来对网络打分。一种方法是基有几个度量方法可用来对网络打分。一种方法是基于描述长度的。于描述长度的。 它的思想是:假如我们想发送训练集它的思想是:假如我们想发送训练集给某个人,给某个人,为此,把变量值编码成一个位串,然后发送位。我们需为此,把变量值编码成一个位串,然后发送位。我们需要多少位呢要多少位
14、呢? ?即,消息的长度是多少即,消息的长度是多少? ?有效的编码利用要有效的编码利用要发送数据的统计属性,这些统计属性正是我们企图在贝发送数据的统计属性,这些统计属性正是我们企图在贝叶斯网中建模的。如果找到一个适当的贝叶斯网,我们叶斯网中建模的。如果找到一个适当的贝叶斯网,我们能基于它使用哈夫曼编码对要传输的数据编码。能基于它使用哈夫曼编码对要传输的数据编码。 学习贝叶斯网学习贝叶斯网 根据信息理论,一组数据根据信息理论,一组数据,按照一个给定贝叶斯网,按照一个给定贝叶斯网B的组合概率分的组合概率分布,其最好编码需要布,其最好编码需要L(,B)比特,比特, L( , B)- log其中其中p是
15、被发送的特殊数据的概率是被发送的特殊数据的概率(按照按照B规定的联合概率规定的联合概率)。给定一些。给定一些特殊数据已特殊数据已,我们企图找到网络,我们企图找到网络B,它使,它使L(,B)最小化。在了解这个最小化。在了解这个方法之前,我们先计算方法之前,我们先计算log p。假定数据。假定数据包含包含m个采样值:个采样值:v1,vm,每个,每个vi是是n个变量值的一个个变量值的一个n维向量,维向量, p()是联合概率是联合概率pv1,vm 。假定每个数据按照假定每个数据按照B指定的概率分布被独立提供,我们有指定的概率分布被独立提供,我们有 和和 其中每个其中每个p(vi)(由由vi指称变量值的
16、联合概率指称变量值的联合概率)从贝叶斯网从贝叶斯网B计算。计算。学习网络结构学习网络结构 记分制记分制 ) )p p( (v vp p( () )i im m1 1i i m m1 1i ii i) )l lo og gp p( (v vl lo og gp p( () ) 但是单独的但是单独的L(, B)不是一个非常好的度量,因为它的使用促成了不是一个非常好的度量,因为它的使用促成了有很多弧的大网络。这样一个网络对有很多弧的大网络。这样一个网络对过于特殊化,即它过于适合数据。过于特殊化,即它过于适合数据。对记分度量的适当调整能这样实现;为了用一个基于对记分度量的适当调整能这样实现;为了用一个
17、基于B的有效编码把的有效编码把传传送给某个人,我们也必须传递送给某个人,我们也必须传递B的描述以便接收者能够对消息解码。这样,的描述以便接收者能够对消息解码。这样,我们必须加一项到我们必须加一项到L(,B),这个项是传输,这个项是传输B需要的消息长度。需要的消息长度。 粗略地讲,传送粗略地讲,传送B要求的比特数是要求的比特数是 ,其中,其中|B|是是B中的参数中的参数个数,个数, 一般被认为是适合表示每个数字参数的比特数。因此调整一般被认为是适合表示每个数字参数的比特数。因此调整后的记分制后的记分制L(, B)为,为, 现在,我们搜索一个给出数据和网络编码的最小描述长度的网络。使用现在,我们搜
18、索一个给出数据和网络编码的最小描述长度的网络。使用两个因子允许我们对发送数据和网络做出更好的权衡。两个因子允许我们对发送数据和网络做出更好的权衡。 记分制记分制 学习网络结构学习网络结构 学习贝叶斯网学习贝叶斯网 2logmB2logm miimBvpBL12log)(log),(学习贝叶斯网学习贝叶斯网 学习网络结构学习网络结构 记分制记分制 例例:对下左图中显示的网络和下右图中所示的发送数据,我们计算对下左图中显示的网络和下右图中所示的发送数据,我们计算L(,B)。首先,我们计算首先,我们计算L(,B),即发送下右图中的数据要求的,即发送下右图中的数据要求的比特数比特数假定数据由下左图中的
19、贝叶斯网给定的一个概率分布提供。假定数据由下左图中的贝叶斯网给定的一个概率分布提供。 学习贝叶斯网学习贝叶斯网 学习网络结构学习网络结构 记分制记分制 P(第第1项项)=p(G|B)p(M|B,L)p(B)p(L) 0.950.90.950.7 0.569采用负对数采用负对数(对以对以2为底的为底的),产生,产生 - log p (第第1项项)0.814在数据中有在数据中有54个这种个这种“第第1项项”,因,因此此54个第个第1项对项对L(,B)的作用结果的作用结果是是540.814439 。表中其他项。表中其他项的总结果分别是的总结果分别是6.16、27.9、52.92、16.33、12.3
20、2、24.83和和12.32。把这。把这些结果加起来得到:些结果加起来得到: L(,B)196.68bit 下图中表的第下图中表的第1项的概率是项的概率是 学习贝叶斯网学习贝叶斯网 学习网络结构学习网络结构 记分制记分制 下面,我们计算下面,我们计算 ,发送图的网络需要的位,发送图的网络需要的位数。在这个网中有数。在这个网中有8个参数。因此个参数。因此 46.6426.58 bit因此这个网络的记分度量是因此这个网络的记分度量是 L(,B)19.68 十十 26.58223.26 bit其他的网络可用同样的方式评估其他的网络可用同样的方式评估 。2100logB2logmB学习贝叶斯网学习贝叶
21、斯网 学习网络结构学习网络结构 搜索网络空间搜索网络空间 当然,所有可能的贝叶斯网集合是如此之大,以致我们不可能当然,所有可能的贝叶斯网集合是如此之大,以致我们不可能企求一种详尽的搜索以发现一个位企求一种详尽的搜索以发现一个位L(,B)最小的网络。最小的网络。 一种可能是利用下山搜索或一种可能是利用下山搜索或“贪婪贪婪”搜索。即我们从一个给定搜索。即我们从一个给定的网络开始的网络开始(比如一个没有弧的网络,假定它独立于所有的变量比如一个没有弧的网络,假定它独立于所有的变量),估计该网络的估计该网络的L(,B),然后对它做一些小改变,来看这些改变产,然后对它做一些小改变,来看这些改变产生的网络是
22、否减少了生的网络是否减少了L(,B)。这些小改变可以是加一条弧,或减。这些小改变可以是加一条弧,或减一条弧,或者掉转一条弧的方向。每发生一个改变,我们用从一条弧,或者掉转一条弧的方向。每发生一个改变,我们用从中中导出的采样统计计算改变网络的导出的采样统计计算改变网络的CPT。然后这些。然后这些CPT被用来计算被用来计算L(,B)的部分的部分 。新网络中的参数数量用来计算部分。新网络中的参数数量用来计算部分(|B|log m)/2|B|log m)/2。这些计算可以简化,由于描述长度计算可分解成。这些计算可以简化,由于描述长度计算可分解成网络中每个网络中每个CPT上的计算。当记分度量可分解时,总
23、度量是局部度上的计算。当记分度量可分解时,总度量是局部度量的和。因此,当一个弧被加、被减或被反向时,我们只需计算在量的和。因此,当一个弧被加、被减或被反向时,我们只需计算在采样统计中的变化和改变涉及到的节点采样统计中的变化和改变涉及到的节点V的的p(Vi | p(Vi),其他的,其他的p(Vi | p(Vi)保持不变。保持不变。 )(log1 miiVp学习贝叶斯网学习贝叶斯网 学习网络结构学习网络结构 搜索网络空间搜索网络空间 学习贝叶斯网学习贝叶斯网 学习网络结构学习网络结构 搜索网络空间搜索网络空间 有时,网络结构可以通过有时,网络结构可以通过增加节点增加节点而大大地简化。而大大地简化。
24、这些节点所这些节点所代表的变量值没有在训练集代表的变量值没有在训练集中给定中给定。这些节点叫做。这些节点叫做隐藏节点隐藏节点。 作为一个简单的例子,考虑下图中所示的两个贝叶斯网。左边作为一个简单的例子,考虑下图中所示的两个贝叶斯网。左边的网络比右边有隐藏节点的网络比右边有隐藏节点H的网络有更多的参数;如果右边的网和的网络有更多的参数;如果右边的网和它一样好或更好它一样好或更好(如果它是变量因果关系的更好表示如果它是变量因果关系的更好表示),那么它的描,那么它的描述长度分数将会更糟。由于我们不能度量隐藏变量,必须用搜索过述长度分数将会更糟。由于我们不能度量隐藏变量,必须用搜索过程虚构它的存在。因
25、此,贪婪搜索必须向它的可能改变的列表中添程虚构它的存在。因此,贪婪搜索必须向它的可能改变的列表中添加一个新节点。相应的变量值当然是加一个新节点。相应的变量值当然是“缺失数据缺失数据”,和这个变量相,和这个变量相关的概率必须通过前面描述的关的概率必须通过前面描述的EM方法引证。方法引证。 概率推理与动作概率推理与动作 一般设置一般设置 合理化的说法:即使采用的动作并不总会有它的预期效果,传感合理化的说法:即使采用的动作并不总会有它的预期效果,传感器有时会出错,但传感器器有时会出错,但传感器(平均地平均地)将使将使agent通过状态空间知道它的进通过状态空间知道它的进展,并且重复计划将再次引导展,
26、并且重复计划将再次引导agent朝着需要的目标朝着需要的目标(或奖赏或奖赏)前进。前进。 现在,有工具允许我们更适当地处理不确定性,就能明确地采用现在,有工具允许我们更适当地处理不确定性,就能明确地采用更现实的假设。更现实的假设。 新的新的agent不知道它在哪个状态,它仅仅知道它在各种状态的概率。不知道它在哪个状态,它仅仅知道它在各种状态的概率。 agent的传感器不能给出环境状态的确切知识,它最多只能加深这些状的传感器不能给出环境状态的确切知识,它最多只能加深这些状态的概率。动作结果仅仅被大概地了解:在一个给定状态下采取的动态的概率。动作结果仅仅被大概地了解:在一个给定状态下采取的动作可能
27、导致一组新状态中的任何一个作可能导致一组新状态中的任何一个每一个都有相应的概率。通每一个都有相应的概率。通过计划和感知,我们想让过计划和感知,我们想让agent选择使它的预期应用最大化的那个动作。选择使它的预期应用最大化的那个动作。一个一个agent能在它的完全一般化中处理这个问题需要的计算量非常大,能在它的完全一般化中处理这个问题需要的计算量非常大,并需要再一次近似和进一步的限制假设。并需要再一次近似和进一步的限制假设。 概率推理与动作概率推理与动作 一个扩展的例子一个扩展的例子 考虑处于上图所示的一个机器人,我们用一个状态变量考虑处于上图所示的一个机器人,我们用一个状态变量E表示它,表示它
28、, E有有5个可能值个可能值-2,-1,0,1,2,每个位置对机器人有一个应用,每个位置对机器人有一个应用U。为了开始过程,我们假定机器人为了开始过程,我们假定机器人(精确地精确地)知道当知道当t0时,它在标志为时,它在标志为0的单元中,即的单元中,即E00。 机器人在第机器人在第i个时间步骤采取的动作用符号个时间步骤采取的动作用符号Ai指称。它试图向左移指称。它试图向左移一个单元一个单元(AiL)或向右移一个单元或向右移一个单元(AiR)。无论哪种情况,一个移。无论哪种情况,一个移动有预期结果的概率为动有预期结果的概率为0.5;每个动作没有任何结果的概率是;每个动作没有任何结果的概率是0.2
29、5,一,一个动作使机器人以与预期相反的方向移动到相邻单元的概率为个动作使机器人以与预期相反的方向移动到相邻单元的概率为0.25。因此,因此,在几次移动后,机器人只有它实际位置的概率知识。在几次移动后,机器人只有它实际位置的概率知识。 概率推理与动作概率推理与动作 一个扩展的例子一个扩展的例子 机器人在第机器人在第i个时间步骤通过一个感知信号个时间步骤通过一个感知信号Si感知它的感知它的位置。但是我们假定那个传感器有点不可靠。假如位置。但是我们假定那个传感器有点不可靠。假如Ei 有确有确定值,定值,Si 有同样值的概率是有同样值的概率是0.9。 Si 有每个其他值的概率有每个其他值的概率是是0.
30、025。 面对各种障碍,机器人的问题是做出使它的应用的期面对各种障碍,机器人的问题是做出使它的应用的期望值提前几步最大化的移动。如果我们使预期的应用仅提望值提前几步最大化的移动。如果我们使预期的应用仅提前一步最大化,用来选择机器人的下一步动作的决策技术前一步最大化,用来选择机器人的下一步动作的决策技术最容易解释。假定当最容易解释。假定当t0时机器人企图向右移动,即时机器人企图向右移动,即A0R。所得到的环境状态由。所得到的环境状态由E1给出。为了继续感知计划给出。为了继续感知计划动作循环,机器人通过观察动作循环,机器人通过观察S11感知它的位置。它下一感知它的位置。它下一步采取什么移动呢步采取
31、什么移动呢?确实,在做了那个移动后,它如何基确实,在做了那个移动后,它如何基于感知数据、对当前状态所做推理和动作和效果来于感知数据、对当前状态所做推理和动作和效果来?概率推理与动作概率推理与动作 一个扩展的例子一个扩展的例子 使用一个叫做使用一个叫做动态决策网的特殊信念网动态决策网的特殊信念网的概率推理,来选择最大的概率推理,来选择最大化应用动作。在下图中显示了适合这个问题的网络。这个网络允许机化应用动作。在下图中显示了适合这个问题的网络。这个网络允许机器人在采用动作时和新感知的信息变得可用时迭代地进行推理,给定器人在采用动作时和新感知的信息变得可用时迭代地进行推理,给定E0=0、 A0R和和
32、S0l后,我们能用普通的概率推理计算期望的应用值后,我们能用普通的概率推理计算期望的应用值U2,它先由,它先由A1R产生,再由产生,再由A1L产生。然后机器人选择给出更大值产生。然后机器人选择给出更大值的动作的动作(这种情况下的动作选择基于机器人仅向前看一步。这种情况下的动作选择基于机器人仅向前看一步。 进一步的向前看将涉及到对可进一步的向前看将涉及到对可选动作序列计算更远的应用选动作序列计算更远的应用)。在动。在动态决策网中使用不同形状的节点表态决策网中使用不同形状的节点表示这些节点的不同假设。示这些节点的不同假设。方形节点方形节点表示变量的值仍在表示变量的值仍在agent的完全控制的完全控
33、制之下之下,它们被称为,它们被称为决策点决策点。在一个。在一个动态决策网中,在动态决策网中,在agent已经做了决已经做了决策之后,它们成为策之后,它们成为(有已知值有已知值)普通信普通信念网节点念网节点。棱形节点表示应用值的棱形节点表示应用值的变量。变量。应用变量的期望值是它们双应用变量的期望值是它们双亲的各种值的概率函数亲的各种值的概率函数概率推理与动作概率推理与动作 一个扩展的例子一个扩展的例子 首先,给定时刻首先,给定时刻t0时已知的东西,和假定时已知的东西,和假定A1的两个的两个不同概率,我们需要计算两个预期应用:不同概率,我们需要计算两个预期应用: 和和 为了计算这两个预期值,对为
34、了计算这两个预期值,对A1的两个值中的每一个的的两个值中的每一个的E2的不同值,我们要计算的不同值,我们要计算p(E2|E0=0,A0=R,S1=1,A1) 。这些计算形式在后面的步骤中将被重复,但为了。这些计算形式在后面的步骤中将被重复,但为了具体,在此问题的步骤中都写出它。这个形式对具体,在此问题的步骤中都写出它。这个形式对A1的每个的每个值也是相同的,因此仅写出值也是相同的,因此仅写出A1=R的情形。我们用上一章的情形。我们用上一章解释的解释的polytree 算法计算算法计算p(E2|E0=0,A0=R,S1=1,A1=R) 。, 1, 011002RASRAEUEx , 1, 011
35、002LASRAEUEx 概率推理与动作概率推理与动作 一个扩展的例子一个扩展的例子 首先,我们首先,我们“包含没有给定的双亲包含没有给定的双亲”,得到:,得到:p(E2|E0=0,A0=R,S1=1,A1=R) = p(E2|E0=0,A0=R,S1=1,A1=R,E1)p(E1|E0=0,A0=R,S1=1, A1=R) 考虑条件独立性,这个等式能被简化:考虑条件独立性,这个等式能被简化:p(E2|E0=0,A0=R,S1=1,A1=R) = p(E2|A1=R,E1)p(E1|E0=0,A0=R,S1=1) 在用于机器人动作选择的决策网中,上述求和的第一项叫做在用于机器人动作选择的决策网
36、中,上述求和的第一项叫做马尔可夫过程马尔可夫过程的动作模型的动作模型。对一个给定的前一个状态和动作,它给出各种可能的随后状。对一个给定的前一个状态和动作,它给出各种可能的随后状态的概率。态的概率。 概率推理与动作概率推理与动作 一个扩展的例子一个扩展的例子 根据根据Polytree算法,求和中的第二项用贝叶斯法则重写为:算法,求和中的第二项用贝叶斯法则重写为: p(E2|E0=0,A0=R,S1=1) =k p(S1=1|E0=0,A0=R,E1)p(E1|E0=0,A0=R)其中其中k是一个标准化因子,它被选择是一个标准化因子,它被选择(后面后面)以使概率和为以使概率和为1。再使用条件。再使
37、用条件独立,我们有独立,我们有 p(E2|E0=0,A0=R,S1=1)=k p(S1=1| E1)p(E1|E0=0,A0=R) 上述结果中的第上述结果中的第1项叫项叫感知模型感知模型。对很多环境状态,它给出了传感器将有。对很多环境状态,它给出了传感器将有各种值的概率各种值的概率(对每个环境状态,一个完全可靠和提供最多信息的传感器,对每个环境状态,一个完全可靠和提供最多信息的传感器,将把所有的概率集中到一个传感器值将把所有的概率集中到一个传感器值)。第。第2项又是一个动作模型。项又是一个动作模型。汇集我们的结果,产生:汇集我们的结果,产生:p(E2|E0=0,A0=R,S1=1,A1=R)
38、= k p(E2|A1=R,E1)p(S1=1|E1)p(E1|E0=0,A0=R)概率推理与动作概率推理与动作 一个扩展的例子一个扩展的例子 为了评估这个表达式为了评估这个表达式(为为E2的各种值的各种值),使用我们已经做出的关于动作结,使用我们已经做出的关于动作结果和传感器可信度的概率假设。为了说明,我们仅计算果和传感器可信度的概率假设。为了说明,我们仅计算p(E2=1|E0=0,A0=R,S1=1,A1=R)。计算涉及到下面的概率,它们是图)。计算涉及到下面的概率,它们是图20-5中网络的中网络的CPT条目条目(我们必须对所有的我们必须对所有的E1值求和值求和)。p(E2=1|A1=R
39、,E1=0)=0.5 p(E2=1|A1=R ,E1=1)=0.25 p(E2=1|A1=R ,E1=2)=0.25 p(E2=1|A1=R ,E1=-1)=0.5和和p(E2=1|A1=R ,E1=-2)=0.5都等于都等于0。 p(S1=1|E1=-2)=0.025 p(S1=1|E1=-1)=0.025 p(S1=1|E1=0)=0.025 p(S1=1|E1=1)=0.025 p(S1=1|E1=2)=0.025 p(E1=-1|E0=0,A0=R)=0.25 p(E1=0|E0=0,A0=R)=0.25 p(E1=1|E0=0,A0=R)=0.25p(E1=-2|E0=0,A0=R)
40、和)和p(E1=2|E0=0,A0=R)都等于)都等于0。 概率推理与动作概率推理与动作 一个扩展的例子一个扩展的例子 执行求和产生执行求和产生p(E2=1|E0=0,A0=R,S1=1,A1=R) k (0.5 0.025 0.25)十十(0.25 0.9 0.5) k 0.1437; 我们对我们对E2的其他值执行类似的计算以得到的其他值执行类似的计算以得到p(E2|E0=0,A0=R,S1=1,A1=R)。由于所有这些的和为)。由于所有这些的和为1,我们能求出,我们能求出k。用。用E2的这些的这些概率,概率, 给定给定A1R,我们计算比的预期值。重复这个过程来计算给,我们计算比的预期值。重
41、复这个过程来计算给定定A1L的的U2的预期值,并选择产生更大值的动作的预期值,并选择产生更大值的动作(从问题的结构我从问题的结构我们知道它将是们知道它将是A1R。但是,用这个例子仅仅说明这个方法。但是,用这个例子仅仅说明这个方法没没有什么惊奇的有什么惊奇的)。 概率推理与动作概率推理与动作 一般化举例一般化举例 分析方程分析方程p(E2|E0=0,A0=R,S1=1,A1=R),允许我们把它扩展),允许我们把它扩展到随后的时间步。这个方程在到随后的时间步。这个方程在 t1时被估计,就像时被估计,就像S11已被感知和动已被感知和动作作A1R被采取前一样。其他被采取前一样。其他“给定给定”的值成为
42、过去。因此,我们能的值成为过去。因此,我们能改写为改写为p(E2 values before t1, S1=1,A1=R)。同样,在求和中。同样,在求和中的表达式的表达式p(E2|E0=0,A0=RR)能被写为)能被写为p(E1|)。用这些改变,我们有:用这些改变,我们有: p(E2 values before t1, S1=1,A1) k p (E2 | A1,E1)p(S1=1 | E1)p(E1 | ) 将等式一般化为:将等式一般化为: p(Ei+1 values before ti, Si=si,Ai) k p (Ei+1 | Ai,Ei)p(Si=si | Ei)p(Ei | )概率推理与动作概率推理与动作 一般化举例一般化举例 为了决定动作,当我们处理时,用下面的方式使用这个等式。为了为了决定动作,当我们处理时,用下面的方式使用这个等式。为了计算在计算在t i时要采取的动作时要采取的动作A: 1) 从上一个时间步从上一个时间步(i-1)(以及感知到以及感知到Si-1=si-1后后),我们已经对,我们已经
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 地质灾害专业监测及普适型监测预警点建设标准
- 洗车服务公司洗车质量标准管理制度
- 洗车服务公司商业秘密保护管理制度
- 人工智能教育资源开发:用户需求调研与体验反馈的实证研究与实践反思教学研究课题报告
- 有色金属配料工安全防护竞赛考核试卷含答案
- 刀剪制作工复测水平考核试卷含答案
- 动画制作员岗前冲突解决考核试卷含答案
- 手工平毯工安全行为水平考核试卷含答案
- 燃气用户安装检修工岗位理论水平考核试卷含答案
- 重冶竖炉工岗位竞争考核试卷含答案
- 铸造车间安全生产守则培训课件
- 2025年福建省厦门市广播电视台(融媒体中心)人员招聘考试试题及答案解析
- 2026 年安全生产月(医院版)人人讲安全、个个会应急 - 排查整治风险隐患课件
- 2026年广东高中学业水平合格性考试生物试卷试题(含答案详解)
- 2026年7月自考10398现代汉语语法修辞研究押题及答案
- 2026年幼儿园游戏评价的方法
- 2026年土地整治规划设计人员考试题库
- 2024年厦门大学强基计划数学笔试真题试卷含详解
- 初中八年级数学下册《一次函数》单元整体教学设计
- 停车场保洁工作制度范本
- 2026年高考(山东卷)历史试题及答案
评论
0/150
提交评论