【机器人抓取的贝叶斯方法与物品感知方法分析概述5700字】

上传人：E*** IP属地：湖北上传时间：2026-07-05 格式：DOCX 页数：9 大小：1.71MB 积分：13 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

机器人抓取的贝叶斯方法与物品感知方法分析概述目录TOC\o"1-3"\h\u31956机器人抓取的贝叶斯方法与物品感知方法分析概述 1207791.1引言 116341.2贝叶斯神经网络 1130491.1.1贝叶斯定理 1244951.1.2贝叶斯估计 2154981.1.3变分贝叶斯推断 2198921.1.4随机梯度变分贝叶斯(SGVB) 4289171.3基于视觉的机器人抓取感知方法 5228181.3.1基于图像的边界框检测 5266811.3.2基于图像的语义分割 71.1引言本文使用贝叶斯方法引入任务信息指导机器人抓取位置的选择，并借助神经网络强大的拟合能力，在机器人视觉感知部分实现物品特征的提取，为抓取决策提供重要的物品的特征信息，并结合贝叶斯的方法以实现更加合理的抓取决策。因此在本章节中从贝叶斯定理出发，对贝叶斯方法在神经网络中的实现展开阐述和逐步公式推导。除此之外机器人感知部分是机器人抓取物品的前提，本章将描述三类与机器人抓取相关的感知方法，并对其应用场景和实现方式进行介绍。1.2贝叶斯神经网络1.1.1贝叶斯定理贝叶斯定理是18世纪英国数学家托马斯·贝叶斯（ThomasBayes）提出的解决逆向概率问题的重要概率学理论，从而衍生出了以贝叶斯定理为核心的多种贝叶斯理论方法。具体的贝叶斯定理公式如下所示：P(2-1)其中P(A)/P(B)分别表示事件A/B的先验概率。先验概率是根据历史资料或主观判断事件发生的概率，未经过实验证实，属于检验前的概率。其表示在未知观测信息时，对一件事情或一个状态发生的可能性的认识。PAB是后验概率，是结合调查证据获得了新的附加信息，并对先验概率进行修正后得到的更符合实际的概率。后验概率反应了人们从观测中进行学习的能力。PBA是条件概率，给出了一个事件的概率分布，即一个事件在整体空间中的概率分布情况，如果事件空间是由连续属性构成的连续事件空间，可以用概率密度函数。贝叶斯定理可理解为在先验概率P(A)的基础上，整合新信息带来的调整1.1.2贝叶斯估计贝叶斯神经网络相较于传统的神经网络最主要的区别是：传统神经网络的权值是固定值，而贝叶斯神经网络的权值以分布的形式表示。传统的神经网络可以视为一个条件分布模型p(y|x,w)，其输入x，输出预测值y的分布，w为网络中的参数权重。在分类问题中上述分布表示属于各类别的概率，在回归问题中一般认为是标准高斯（Gaussian）分布并取均值作为预测结果。给定一系列的训练数据D=w(2-2)MLE中没有对w的先验进行假设，若对w引入先验，则就变成了最大后验估计（MaximumPosteriori,MAP）：w(2-3)贝叶斯估计相较于MAP，同样引入了w的先验假设，但是在计算后验分布pDp((2-4)要使用上式意味着要将每个可能的权重配置，根据后验分布加权，对给定测试数据项x的未知标签进行预测。因此，在权值的后验分布下取期望等价于使用一个由无数个神经网络组成的集合。然而，对于任何实际规模的神经网络来说，这都是很难做到的。因为求解pwD要对所有的1.1.3变分贝叶斯推断对实际应用中的许多模型来说，计算后验概率分布或者计算关于后验概率分布的期望是不可行的。这可能是由于潜在空间的维度太高，以至于无法直接计算，或者由于后验概率分布的形式特别复杂，从而期望无法得到解析解。在本节将介绍一类近似的方法，称为变分推断（VariationalInference）或者变分贝叶斯（VariationalBayes）。变分贝叶斯方法是期望最大化算法（EM）的扩展，由经验贝叶斯的最大后验估计扩展到完全贝叶斯的计算（近似）参数或隐变量的后验分布估计。通过使用提出的下界估计器将近似推理模型（也称为识别模型）拟合到难以直接计算后验分布，使得后验推理有效运用在神经网络的参数训练中。如上一节所提到的pwD难以直接计算的问题，本节将说明如何使用变分推断逼近变分推断的主要思想是引入一个逼近分布函数qθ(w)（识别模型）来逼近真实的后验概率pwD。在信息论中，KL散度是用于描述两个随机分布之间距离的度量。变分推断的目标是通过优化求解参数θ，最小化识别模型qθ(w)和后验分布D(2-5)两个分布越相似KL散度数值越小，反之越大，因此使用变分推断将近似问题转化为了优化问题进行求解，目标即为最小化KL{θ(2-6)对公式(2-5)进一步推导可得到如下公式：D=−=−==logp(2-7)令(θ)=Ωlogp(2-8)根据KL散度性质可知，KL散度的数值总是大于等于0，因此有logpD≥(θ)。其中的logpD不包含w，因此可以看作常数。最小化KL{==−(2-9)把上式作为神经网络中代价函数，即要最小化：(D,其中，L(2-10)(D,θ)为代价函数由两项组成，第一项称为复杂性代价（complexitycost），描述的是权重和先验的契合程度；把第二项称为似然代价（likelihoodcost），描述对样本的拟合程度。代价函数体现了在满足数据1.1.4随机梯度变分贝叶斯(SGVB)随机梯度变分贝叶斯(SGVB)方法[30]是近年来提出的一种有效的基于小批量的可微模型优化方法。该学习方法将任意的权重w~qθw参数化表示为w=f(ϵ,L(2-11)其中xi,yii=1M是数据集D中的M个随机样本(xi,yi)~D，ϵ是从噪声分布−k(2-12)因此我们可以通过随机初始化θ来进行变分贝叶斯推理，并使用神经网络对(1.3基于视觉的机器人抓取感知方法为了完成机器人抓取任务，机器人需要先感知物体。机器人抓取行为是一项综合性的表现，主要包括抓取感知，抓取决策以及动作执行三部分[32]。其中抓取感知能力是机器人实现智能抓取物品的前提条件（类比于眼睛的作用）。随着传感器设备的发展，现在的机器人配备了RGB相机和深度相机，以捕捉环境的丰富信息。然而，原始的RGB-D图像对于机器人来说是简单的网格，其中需要提取高级语义信息以实现基于视觉的感知。要抓取的目标物品的高级信息通常包括位置、方向和抓取位置。同时感知结果作为重要的因素将直接影响机器人决策阶段的计算，进而影响物理抓取动作的执行。赋予机器人感知能力一直是计算机视觉和机器人学科的一个长期目标。大多数端到端的抓取方法不需要额外算输入图像数据中目标物体的位置，而是跳过目标物品的定位，直接从输入图像中恢复抓取位置。这意味着在抓取感知阶段，要同时对物品物理特征以及抓取特征进行处理。与目标检测深度学习网络类似，这些方法同样涉及到对物品的检测和分割技术。物品检测提供目标物品的矩形边框，物品分割提供目标物品的精确边界。后者对目标区域的描述更准确，但计算时间较长。同时分割方法在抓取检测应用中的使用，使得机器人可以区分物品的不同Affordance属性[33]，有利于机器人对物品的通用性理解。本节将分为基于图像的边界框检测和基于图像的语义分割两部分进行介绍。1.3.1基于图像的边界框检测使用抓取矩形表示抓取位置的方法，大都是继承了目标检测网络中矩形边界框的实现方法。物体检测的目标是确定图像中是否有来自给定类别(如人类、汽车、自行车、狗或猫)的物体实例，如果存在，则返回每个物品实例的空间位置和范围。物体的空间位置和范围可以使用边界框（紧紧包围物品的轴对齐矩形）粗略定义[34]，如图2-1所示。基于图像的边界框检测的方法则是通过神经网络学习对实例边界框的位置进行回归并分类。图2-1边界框检测Fig.2-1Detectionofboundingbox这些方法又可分为两阶段法和一阶段法。两阶段方法包括对区域建议的预处理，将整个信息流划分为两个阶段，即区域建议的生成和最佳区域的排序。一阶段方法跳过单独的建议区域检测，只利用一个统一的信息流通道直接输出检测结果。两阶段方法的代表性算法有RCNN[35]，其受到CNN突破性的图像分类结果和手工特征区域建议选择性搜索成功的启发，提出了以AlexNet为网络骨架的带区域建议的选择性搜索算法。但由于该方法存在训练多阶段，计算耗时，难以优化的等缺点，为了改善这些不足，产生了一系列的检测框架：SPPNet[36]，FastRCNN[37]，FasterRCNN等。其中Ren等人[38]提出的FasterRCNN框架提供了一个高效和准确的区域建议网络RegionProposalNetwork(RPN)，用于生成区域建议RegionProposal（如图2-2所示）。它们利用相同的骨架网络，利用最后一个共享的卷积层的特征完成区域建议的RPN和区域分类的任务。基于区域建议的方法由于计算代价较大，不适合存储和计算能力有限的移动或可穿戴设备使用。因此为了解决上述问题，研究人员开始尝试开发统一的检测策略。一阶段方法中不分离目标检测建议的过程，即在一个单一的设置中，使用一个前馈CNN直接预测完整图像的类概率和边界框偏移量，不涉及区域建议生成或分类/特征重采样，将所有计算都封装在一个单一的网络中。这类方法中代表性的方法是YOLO、SSD[40]等。Redmon等人[39]提出了YOLO(YouOnlyLookOnce)算法，将物品检测作为一个回归问题，使用一个统一的检测器得到从图像像素中获得包含空间信息的边界框，以及边界框中物体的类别概率。与基于区域的方法(例如FasterRCNN)依靠局部区域的特征预测不同，YOLO使用的是全局的整个图像的特征。特别地，YOLO图2-2FasterRCNN模型Fig.2-2The图2-2FasterRCNN模型Fig.2-2ThemodelofFasterRCNN图2-3YOLO模型Fig.2-3ThemodelofYOLO这些方法利用边界框对图片中的物品定位和分类，受此启发，抓取检测方法将‘边界框’转为抓取矩形作为抓取的表示，因此这些方法同样可被用于抓取检测，如Redmon等人[12]（如图2-4），Chu等人[41]。但是该种方式的抓取感知是简单的和直接的，并不能切实的实现对物品抓取特征和功能特征的理解。若机器人能够从基元的角度理解物品组成以及各部分功能，则会对机器人的抓取提供更加丰富的感知结果，有利于后续的抓取计划。1.3.2基于图像的语义分割随着对图像解析进入更深层次的研究理解（从图像级目标分类到单目标定位，以及像素物品分割），研究人员开始使用一个精确的像素分割蒙版[41]表示图像中的物品。这类的语义分割方法将图像分割成具有一定语义含义的区域块，并识别出每个区域块的语义类别，实现从底层到高层的语义推理过程，最终得到一幅具有逐像素语义标注的分割图像。随着深度学习的发展，语义分割技术得到很大的进步。Long等人[42]提出全卷积网络（FCN），这使得卷积神经网络无需全连接层即可进行密集的像素预测。如图2-5所示，将一张RGB图像输入到卷积神经网络，经多次卷积及池化过程图2-4基于卷积神经网络的实时抓取Fig.2-4Real-timegraspdetectionusingconvolutionalneuralnetworks得到一系列特征图，之后利用反卷积层对最后一个卷积层的特征图进行上采样，使得上采样后的特征图与原图像大小一致，从而实现对特征图中的每个像素数值进行预测的同时保留其在原图像中的空间位置信息，最后对上采样特征图进行逐像素分类，逐个像素计算softmax分类损失。FCN的提出是卷积神经网络处理语义分割问题的里程碑式突破，这也引起了之后一系列的研究例如SegNet[43]和DeepLab[44]等。语义分割显然是实现细粒度推理的自然步骤，其目标是对每个像素进行密集预测，推断出标签；这样，每个像素都用其包围物体或区域的类来标记。还可以进行进一步的改进，比如实例分割(为同一个类的不同实例提供单独的标签)，甚至是基于部分的分割(将已经划分的类分解为它们的组件部分)。图2-4基于卷积神经网络的实时抓取Fig.2-4Real-timegraspdetectionusingconvolutionalneuralnetworks随着机器人开始在日常工作空间与人类合作，它们将需要了解工具及其部件的功能。要切苹果或钉钉子，机器人不仅需要通过各种视觉属性(如颜色、形状)或物理属性(如重量、体积和材质)识别物品或分类到不同类别，还必须要定位工具的部件并识别它们的功能用以对物品执行潜在的操作。因此在抓取感知使用语义分割，更多的是使用基于部分的分割，即使用FCN类的方法将一个物品分割为不同的组件部分进行理解。与其他主要描述物品的视觉或物理属性不同，Affordance表明物品的组成部件与人的功能性交互，如图2-6所示。在图像中以像素级表示物品的Affordance，将物品图像一组具有相同功能的像素认为是一个Affordance。例如，锤子可分割为锤柄和锤头部分，锤头的Affordance是敲击，锤柄的Affordance是抓取。因此感知部分若能理解物品的Affordance则对后续的操作任务是非常有价值的。Myers等人[45]使用传统的分割方式利用超像素和随机森林两种方式对RGBD图像进行分割，用于关联A

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【机器人抓取的贝叶斯方法与物品感知方法分析概述5700字】

文档简介

温馨提示

最新文档

评论

【机器人抓取的贝叶斯方法与物品感知方法分析概述5700字】

文档简介

温馨提示

最新文档

评论

相关文档