




已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精品文档 1欢迎下载 新型机器人室内定位技术 XXX 软件研究所有限公司 一 技术背景一 技术背景 机器人六十年代 自第一台机器人装置诞生以来 机器人的发展经历了一个从低级 到高级的发展过程 第一代机器人为示教再现型机器人 是通过计算机来控制多自主的机 械装置 通过示教存储程序把信息读取出来并发出指令 也可以根据人示教的结果再现动 作 它对于外界的环境没有感知能力 在 20 世纪 70 年代后期人们开始研究第二代机器人 带感觉的机器人 这种机器人有类似人类的力觉 触觉 听觉 视觉等 第三代机器人是 智能机器人 它是当今机器人发展的热点和重点 机器人通过各种传感器获取环境信息 利用人工智能识别 理解 推理并进行判断和决策来完成一定的任务 因此智能机器人除 了具有感知环境和简单的适应环境能力外 还具有较强的识别理解能力和决策规划能力 80 年代中期 技术革命的第三次浪潮冲击着全世界 机器人总数每年以 30 以上的速度增 长 1986 年国家把智能机器人课题列为高技术发展计划 进入 90 年代 在国内市场经济 发展的推动下 确定了机器人及其应用工程并重 以应用带动关键技术和基础研究的发展 方针 实现了高技术发展与国民经济主战场的密切衔接 研制出有自主支持产权的工业机 器人系列产品 并小批量试产 完成了一批机器人应用工程 建立了 9 个机器人产业化基 地和 7 个科研基地 通过多年的努力 取得了举世瞩目的硕果 本公司的智能移动机器人 具备超声 红外等多传感器融合的导航系统 可以在一定的室内环境中自由行走 实现定 位与自动避障等功能 在国内处于先进水平 具有一定影响力 随着机器人技术 的发展 具有移动行走功能 环境感知能力以及自主规划能力智 能移动机器人得到了各国研究人员的普遍重视 特别是在 20 世纪八 九十年代 随着计 算机技术 微电子技术 网络技术等的快速发展 机器人技术的发展突飞猛进 本公司的 智能移动机器人的重要特点在于它的自主性和适应性 自主性是指它可以在一定的环境中 不依赖外部控制 完全自主地执行一定的任务 适应性是指它可以实时识别和测量周围的 物体 并根据环境变化 调节自身参数 动作策略以及处理紧急情况 随着智能移动机器人技术的发展 其在军事 医疗 商业等领域发挥着重要的作用 人们对智能移动机器人的需求和期望也越来越高 越来越迫切 移动机器人研究从而进入 了崭新的发展阶段 定位技术是智能移动机器人的研究核心 同时也是其实现完全自动化 的关键技术 机器人只有准确知道自身位置 工作空间中障碍物的位置以及障碍物的运动 情况等信息 才能安全有效地进行移动 由此可见 自主定位和环境分析是移动机器人最 重要的能力之一 精品文档 2欢迎下载 本公司的机器人室内定位技术是用于机器人在室内环境中定位 此项技术的概念是 通过场景主旨 Gist 和视觉显著性 Saliency 模型算法 逼真 精确地模拟人脑的神 经元以及视觉行为体系 希望机器人从未知环境的未知地点出发 在运动过程中通过反复 获取 观测周围环境的特征信息 从而定位自身的位置 二 技术内容二 技术内容 2 12 1 高斯金字塔高斯金字塔 高斯金字塔是在图像处理 计算机视觉 信号处理上使用的一项技术 本质上是信 号的多尺度表示方法 亦即将同一信号或图片多次的进行高斯模糊 并且向下取样 从而 产生不同尺度下的多组信号或图片用于后续处理 例如在影响辨识上 可以通过对比不同 尺度下的图片 防止要寻找的内容在图片上有不同的大小 高斯金字塔的理论基础是尺度 空间理论 给定一张图片 f x y 它的尺度空间表示方式 L x y t 定义为 影像信号 f x y 和高斯函数的旋积 完整的表达式如下 其中分号代表旋积的对象为 x y 而分号右边的 t 表示定义的尺度大小当 t 0 是对 于所有的 t 都会成立 不过通常只会选取特定的 t 值 其中 t 为高斯函数的变异数 当 t 越接近零的时候 使得 L x y t f x y 这代表 t 0 的时候我们把这项操作视为图片 f 本身 当 t 增加时 L 表示将影像 f 通过一个较大的高斯滤波器 从而使得影像的细节 被去除更多 在建立高斯金字塔时 我们首先会将影像转换为尺度空间的表示方式 即乘上不同 大小的高斯函数 之后再一句取定的尺度向下取样 乘上的高斯函数大小和向下取样的频 率通常会选为 2 的幂次 所以 在每次迭代的过程中 影像都会被乘上一个固定大小的高 斯函数 并且被以长宽各 0 5 的比率被向下取样 如果将向下取样过程的图片一张一张叠 在一起 就会呈现一个金字塔的样子 因此这个成果称为高斯金字塔 2 22 2 尺度不变特征转换尺度不变特征转换 SIFT SIFT 精品文档 3欢迎下载 SIFT 是一种用于侦测与描述影像中局部性特征的视觉算法 它在空间尺度中寻找 极值点 并提取出其位置 尺度 旋转不变数 其应用范围包含物体辨识 机器人地图感 知与导航 影像缝合 3D 模型建立 手势辨识 影像追踪和动作比对 局部影像特征的描述与侦测可以帮助辨识物体 SIFT 特征是基于物体上的一些局 部外观的兴趣点而与影像的大小和旋转无关 对于光线 噪声 些微视角改变的容忍度 也相当高 基于这些特性 它们是高度显著而且相对容易撷取 在母数庞大的特征数据库 中 很容易辨识物体而且鲜有误认 使用 SIFT 特征描述对于部分物体遮蔽的侦测率也相当高 甚至只需要 3 个以上的 SIFT 物体特征就足以计算出位置与方位 在现今的电脑硬件速度下和小型的特征数据库条件下 辨识速度可接近即时运算 SIFT 特征的信息量大 适合在海量数据库中快速准确匹配 2 32 3 主成分分析主成分分析 PCA PCA 在多元统计分析中 主成分分析是一种分析 简化数据集的技术 用于分析数据及 建立数理模型 主成分分析经常用于减少数据集的维数 同时保持数据集中的对方差贡献 最大的特征 这是通过保留低阶主成分 忽略高阶主成分做到的 这样低阶成分往往能够 保留主数据的最重要的方面 其方法主要是通过对共变异数矩阵进行特征分解 以得出数据的特征向量它们的特 征值 PCA 是最简单的以特征量分析多元统计分布的方法 其结果可以理解为对源数据中 的方差作出解释 哪一个方向上的数据值对方差的影响最大 换而言之 PCA 提供了一种 降低数据维度的有效方法 如果分析者在源数据中除掉最小的特征值所对应的成分 那么 所得的低纬度数据必定是最优化的 因为这样降低维度是失去信息最少的方法 PCA 是最简单的以特征量分析多元统计分布的方法 通常情况下 这种运算可以看 作是揭露数据的内部结构 从而更好的解释数据的变量的方法 如果一个多元数据集能够 在一个高维数据空间坐标系中被显现出来 那么 PCA 就能够提供一副比较低维度的图像 这幅图像即为在讯息最多的点上原对象的一个 投影 PCA 的数学定义是 一个正交化线性变换 把数据变换到一个新的坐标系统中 使 得这一数据的任何投影的第一大方差在第一个坐标上 第二大方差在第二个坐标上 以此 类推 精品文档 4欢迎下载 定义一个n m的矩阵 X XT为去平均值 以平均值为中心移动至原点 的数据 其行为数据样本 列为数据类别 注意 这里定义的是 X XT 而不是 X X 则 X X 的奇异值分 解为 X X W W V VT T 其中m m矩阵 W W 是 XXXXT的本征矢量矩阵 是m n的非负矩形 对角矩阵 V 是n n的 X XT TX X 的本征矢量矩阵 据此 当 m n 1 时 V V 在通常情况下不是唯一定义的 而 Y Y 则是唯一定义的 W W 是 一个正交矩阵 Y YT是 X XT的转置 且 Y YT的第一列由第一主成分组成 第二列由第二主成分 组成 依此类推 为了得到一种降低数据维度的有效办法 我们可以把 X X 映射到一个只应用前面 L 个向量的低维空间中去 W WL where with the rectangular identity matrix X X 的单向量矩阵 W W 相当于协方差矩阵的本征矢量 C C X X X XT 在欧几里得空间给定一组点数 第一主成分对应于通过多维空间平均点的一条线 同时保证各个点到这条直线距离的平方和最小 去除掉第一主成分后 用同样的方法得到 第二主成分 依此类推 在 中的奇异值均为矩阵 XXXXT的本征值的平方根 每一个本征 值都与跟它们相关的方差是成正比的 而且所有本征值的总和等于所有点到它们的多维空 间平均点距离的平方和 PCA 提供了一种降低维度的有效办法 本质上 它利用正交变换 将围绕平均点的点集中尽可能多的变量投影到第一维中去 因此 降低维度必定是失去讯 息最少的方法 PCA 具有保持子空间拥有最大方差的最优正交变换的特性 然而 当与离 散余弦变换相比时 它需要更大的计算需求代价 非线性降维技术相对于 PCA 来说则需要 更高的计算要求 PCA 对变量的缩放很敏感 如果我们只有两个变量 而且它们具有相同的样本方差 并且成正相关 那么 PCA 将涉及两个变量的主成分的旋转 但是 如果把第一个变量的所 有值都乘以 100 那么第一主成分就几乎和这个变量一样 另一个变量只提供了很小的贡 献 第二主成分也将和第二个原始变量几乎一致 这就意味着当不同的变量代表不同的单 精品文档 5欢迎下载 位 如温度和质量 时 PCA 是一种比较武断的分析方法 一种使 PCA 不那么武断的方法 是使用变量缩放以得到单位方差 通常 为了确保第一主成分描述的是最大方差的方向 我们会使用平均减法进行主 成分分析 如果不执行平均减法 第一主成分有可能或多或少的对应于数据的平均值 另 外 为了找到近似数据的最小均方误差 我们必须选取一个零均值 假设零经验均值 数据集 X X 的主成分w1可以被定义为 为了得到第 k个主成分 必须先从 X X 中减去前面的 个主成分 然后把求得的第k个主成分带入数据集 得到新的数据集 继续寻找主成分 PCA 类似于一个线性隐层神经网络 隐含层 K 个神经元的权重向量收敛后 将形 成一个由前 K 个主成分跨越空间的基础 但是与 PCA 不同的是 这种技术并不一 定会产生正交向量 2 42 4 独立成分分析独立成分分析 ICA ICA 在统计学中 ICA 是一种利用统计原理进行计算的方法 它是一个线性变换 这个 变换把数据或信号分离成统计独立的非高斯的信号源的线性组合 独立成分分析的最重要的假设就是信号源统计独立 这个假设在大多数盲信号分离 的情况中符合实际情况 即使当该假设不满足时 仍然可以用独立成分分析来把观察信号 统计独立化 从而进一步分析数据的特性 独立成分分析的经典问题是 鸡尾酒会问题 cocktail party problem 该问题描述的是给定混合信号 如何分离出鸡尾酒会中同 时说话的每个人的独立信号 精品文档 6欢迎下载 独立成分分析并不能完全恢复信号源的具体数值 也不能解出信号源的正负符号 信号的级数或者信号的数值范围 观察的数据或者信号用随机向量 表示 独立成分量可以定义 为向量 独立成分分析的目的是通过线性变换把观察的数据 转换成 独立成分向量 而独立成分分量满足互相统计独立的特性 统计独立的量化通 常通过某指定函数来衡量 2 52 5 基于视觉显著性基于视觉显著性 saliency saliency 模型的快速场景分析模型的快速场景分析 Saliency 模型是受早期灵长类动物的神经结构启发提出的一种视觉注意的系统 多种不同比例的特征图形结合形成一张 saliency 图 然后由动态神经网络选取视觉上最 引人注意的点来降低显著性 该系统将复杂的场景理解问题 分解为快速的场景选择 找 出最引人注目的点 尽管灵长类动物的神经元计算能力有限 但是对复杂场景的实时理解有着非常出色 的能力 所谓的 视觉焦点 通过两种方式扫描场景图片 一种是快速的自底向上 saliency 驱动 独立于任务的方式 一种是自顶向下 缓慢 意志控制并基于任务的方 式 注意力模型包括 动态路由 模型 在这个模型中 只有视觉区域中的一小部分信 息可以通过视觉皮层被处理 这些信息是通过自顶向下和自底向上控制下的皮层连接动态 变化或者事件短时间模式建立的 该模型采用的是 Koch 和 Ullman 提出的第二种生物上可行的结构 模型的理论基础 有许多模型 比如 特征结合理论 是对人类视觉搜索策略的一种解释 首先将视觉输入 分解为一组特征图 接着空间上的不同位置会相互竞争 直到找出显著点 因此只有局部 显著的点能够被保留下来 所有特征图自下而上汇总形成 saliency 图 这样就能找出整 个场景的局部显著点 这种方式 是灵长类动物大脑的后顶叶形成的对视觉输入的处理结 果图 模型的 saliency 图具有生成注意力转换的能力 因此此模型可以表示自底向上的 saliency 模型说明 而不需要自顶向下的帮助进行注意力转移 这个框架的结构 对于计算机视觉计算技术而言 提供了大量的并行方法 我们可 以通过快速选取出一组图片中感兴趣的点来分析更复杂和更消耗时间的物体识别过程 精品文档 7欢迎下载 Saliency 模型 程序输入是一张静态的彩色图片 通常采用 640 480 的图片 通过利用高斯金字塔 构建 9 种不同的空间尺度 对输入图像进行低通过滤和二次采样 生成从 1 1 到 1 256 这 8 个幅度的横向和纵向的图像缩小因素 每一个特征都是通过计算一组线性的 center surround 运算 类似于视觉接受域 典型的视觉神经元对视野中心的区域一 小块区域特别敏感 而刺激更广泛的外围区域则会抑制神经元的反应 对局部不连续空间 敏感的这样一种结构 特别适合用于检测明显与周围不同的局部特征 因此被用作模拟视 网膜 外侧膝状体和初级视皮层的运算法则 Center surround 在实现中会有从精细到粗 犷的不同尺度 中心分别取每个像素取 c 为 2 倍 3 倍 4 倍 外围则是每个像素对应 s 对应 s c 取 3 或 4 两张图的跨尺度区分是通过修改精细尺度和点对点做减 法获取的 通过使 c 和 两方面 可以获取真正的中心区域和周围区域的多尺度特征提 取 精品文档 8欢迎下载 2 62 6 提取早期视觉特征提取早期视觉特征 模型研究的特征分为三种 分别为明暗特征 色彩特征和方向特征 r g b 分别代表输入图像的红色 绿色和蓝色 图像的亮度通道 I 通过 I r g b 3 计算得到的 I 用于创建高斯金字塔 I 其中 取 0 到 8 的整数 r g b 通道通过 计算 I 进行正规化 将色彩从亮度中解耦 然而由于色彩变换在亮度特别低的时候是无法 感知的 因此是不显著的 因此正规化仅仅作用于 I 大于整张图片亮度最大值十分之一的 部位 4 个调和后的色彩通道分别为红色通道 R r g b 2 绿色通道 G g r b 2 蓝色通道 B b r g 2 和黄色通道 Y r g 2 r g 2 b 通过 这 4 个通道 由此 我们可以创建 R G B and Y 四个高斯金字塔 前面定义的 center surroun d 差值通过中心的精细比例 c 和外围的粗糙比例 s 的 差值产生了特征图 第一组特征图考虑的是亮度的对比 哺乳动物是通过神经元对暗中心 区域和亮外围区域或亮中心区域作用于暗外围区域的效果进行分别的 这两种类型的敏感 是用 6 组亮度图 I c s 同时计算的 c 分别取 2 3 4 s c 分别取 3 或 4 第二组特征图与前面类似 是为色彩通道构建的 在人类的视觉皮层中是通过一种 称为 双色对比 的系统来处理色彩的 在感受野中部的神经元会被一种颜色 例如红色 刺激产生兴奋而被另一种颜色 例如绿色 抑制 反之对外围的神经元也成立 这种空间 色彩的对比在人脑视觉感受皮层中存在红 绿 绿 红 蓝 黄和黄 蓝 4 组对比 因此 通过创建模型中的 RG c s 特征图可以同时模拟红 绿和绿 红两种对比 BY c s 则可 以模拟蓝 黄和黄 蓝两种对比 第三组特征图是局部方向特征图 通过 Gabor 金字塔作用于亮度图 I 产生方向显著 图 O 取 0 到 8 的正整数来表示比例 是表示的方向 分别取 0 45 90 和 135 Gabor 过滤是余弦光栅和 2D 高斯包络的乘积 结果近似于初级视皮层感受 野对方向的敏感辨识程度 方向特征图 O c s 表示了中心和周围尺度的方向对比 精品文档 9欢迎下载 综上所述 共通过计算生成了 42 张特征图 其中包括 6 张亮度图 12 张颜色图和 24 张方向图 2 72 7 显著图 显著图 TheThe SaliencySaliency MapMap 显著图用于通过常量表示一个区域的显著性 显著图与特征图结合起来 以动态神 经网络为模型提供了自低向上的构建特征图的方法 在结合不同的特征图时 由于各张特征图之间有着不同的值域 且提取方式不同 因此数值上不具有可比性 另外由于要结合所有的 42 张图 因此出现在少数几张图中几 个位置的视觉显著可能会被噪声或者其他较为不显著的物体遮挡 由于缺少自顶向下的监 督 我们提出一种对图进行正规化的方法 用 N 来表示 通过正规化可以达到的效果 为 增强只有少量显著点的显著图 削弱显著点较多的显著图 步骤如下 1 将每张图进行正规化到一个固定的值域 0 M 以消除振幅的差别 2 找出每张图的全局极大值 M 并计算所有局部极大值的平均值 m 3 对整个特征图进行运算 乘上 M m 2 只有局部极大值才会被计算 这样正规化就可以忽略同质的区域 比较整张图的极 大值和平均值可以看出最活跃的部位和平均值的区别 当这个差别较大的时候 最活跃的 精品文档 10欢迎下载 区域就会较为明显 若这个差别较小 则这张图就会被抑制 正规化方法的生物学解释在 于 它简单地重现了外侧皮层的抑制机制 相邻的类似特征会通过一种特殊的物理链接相 互抑制 精品文档 11欢迎下载 精品文档 12欢迎下载 特征图分别被合并到尺度为 4 的三张显著图 分别为亮度图 I 颜色图 C 和方向图 O 计算方法如公式所示 其中跨尺度的加法是由将每幅图降尺度到尺度四再进行像素对 像素的加法 对于方向而言 首先根据给定的角度和六张特征图生成中间步骤的四张图 接着整 合成一张方向特征图 创建三张单独的通道图 I C O 和他们各自的正规化是基于假设 类似的特征会为 了显著而激烈竞争 然而不同的特性对于显著图会有各自的表现 三张图片经过正规化后 取平均值即可得到最终的 saliency 图 在任意时刻 saliency 图的最大值定义了整张图片最显著的位置 也就是注意力 焦点所在的位置 FOA 我们可以简单地认为 图片中最活跃的区域就是模型关注的下 一个焦点 然而 在一个神经元可行的实现中 我们利用比例为 4 的 2D 积聚触发模型对 saliency 图进行建模 模型中的这些神经元有一个电容可以将突触输入的电量聚集起来 进行充电 一个漏电导和一个电压阈值 当电压达到了这个阈值 就会生成一个触发原型 并且电容的电量会减少到 0 尺寸为 4 的 saliency 图会输入到一个 2D 的赢家通吃 WTA 神经网络 不同单元之间的突触交互可以保证最活跃的区域被保留 而其他的区 域都被抑制 显著图 SM 兴奋接收区域的神经元都是独立的 在更加显著位置的 SM 神经元增长 会更快 然而这些神经元仅用于单纯的聚集但不触发 每一个 SM 神经元都会刺激周围 的 WTA 神经元 所有的 WTA 神经元都是独自进化的 知道其中一个首先达到阈值 同时触 发三个机制 精品文档 13欢迎下载 过程可以概括成三个步骤 如下 1 FOA 转移到赢家神经元的区域 2 对于 WTA 的抑制机制被处罚接着抑制 WTA 神经元 3 在 SM 区域 局部抑制被短暂触发 方式是在 FOA 的区域根据位置和大小进行抑 制 这样不仅可以动态的转移 FOA 从而使得次显著的点也能够成为赢家 还可以防止 FOA 立即回到之前的位置 这种 返回抑制 已经在人类视觉心理物理学中得到了证明 为了使得模型可以紧 接着跳转到当前注意点附近的显著点区域 会短暂地刺激在 FOA 附近的 SM 区域 这种 方式被称为 Koch 和 Ulman 法则 由于我们没有创建任何自顶向下的注意部件 FOA 仅是一个半径固定为输入图片宽 度或高度六分之一的圆盘 时间常数 电导 和模拟的神经元阈值都是被选定的 从而 FOA 可以从一个显著点在 30 79 毫秒左右跳到下一个显著点 并且上一个显著点的区域会 被抑制 500 900 毫秒 这个过程与视觉心理物理学中是被观测到的 这些延迟使得可以充 分扫描图片并且避免了在几个显著点间反复循环 在具体实现中 这些参数是固定的 在 研究中所有图片在系统中的结果都是稳定的 2 82 8 与空间频率内容模型的比较与空间频率内容模型的比较 Reinagel 和 Zador 使用了眼球追踪装置分析根据人类自由观看灰度图像生成的沿 眼扫描局部空间频率分布 他们发现 总的来说 在关注区域的空间频率内容要显著高于 随机区域 虽然在意志力控制下 眼轨迹是可以与注意力轨迹不同的 但是视觉注意力经 常被认为是一个先于眼球运动的机制 对于自由的浏览有很大的影响 因此 我们便探究 了是否我们的模型可以重现 Reinagel 和 Zador 的发现 对于空间频率内容 SFC 我们给出了一种简单的表示方式 对于一个给定的图像 位置 从每个灰度 R G B Y 图中提出一个 16 16 的图像块 然后对这个图像块进行 2D 快速傅里叶变换 FFTs 对于每个图像块而言 一个阈值用于计算不可忽略的 FFT 数系数 阈值对应于 FFT 刚感知光栅的丰富度 1 的对比度 SFC 表示五个相应图像块 不可忽视系数数目的平均值 选定相应大小和尺度的图像块 从而使得 SFC 对 RGB 通道和 灰度通道中进行计算 通过这种方式 可以生成一个尺度为 4 的 SFC 图 并于显著图进行 比较 精品文档 14欢迎下载 a 是色彩图片的例子 b 是相应的显著图输入 c 是空间频率内容 SFC 图 d 黄色圈标出了通过显著图找出的显著点 红色方框标出了 SFC 找出的显著 点 从结果可以看出 显著图对于噪声的容忍度很高 然而 SFC 受噪声干扰很大 显著图在 FOA 模型中常被用到 但是很少提到具体构建和动态变化 在这里 我们研 究了如何进行前馈特征提取 图像组合策略和显著图的时间特性都对于整体系统性能有贡 献 精品文档 15欢迎下载 我们用许多人工图像对模型进行了测试从而确保它的正常运作 比如 很多相同形状 但背景不同 按照对比度递减的顺序排列的物体 模型表现出了对于噪声良好的容忍性 尤其是对于噪声没有直接影响目标主要特征的图 模型可以重现人类对于许多弹出任务的视觉表现 当一个目标在方向 颜色 灰度或 者大小方面 与周围干扰项不同时 它总是可以成为最显著的点 反之 如果目标与干扰 项在多种特征中存在区别 比如在红色竖直条和绿色水平条图中 有一个唯一的红色水平 精品文档 16欢迎下载 条 找到显著点所需的搜索时间与干扰项数目成正比 这两种结果的结论已经被广泛地 观察和记录在人类视觉研究中 我们还是用了真实图片进行了测试 比如真实的户外图片和人工图画 通过正规化对 图片进行调整 由于这些图片没有被其他人作为实验素材使用 所以无从进行比较 我们建立的 Saliency 模型是一个架构和部件都模仿人类视觉属性的模型 本模型可以 良好的处理复杂的自然环境图像 例如 它可以快速检测到车流中的显著交通信号 圆形 三角形 正方形 长方形 颜色 红色 蓝色 白色 橙色 黑色 和文字信息 字 母 箭头 条纹 圆圈 从计算机的角度而言 此模型最大的优势在于有大量并行运算 包括早期特征提取阶段的大量操作和视觉注意系统 我们模型的结构可以支持在硬件上进 行实时操作 这与之前其他模型有较大不同 2 92 9 场景主旨模型 场景主旨模型 GistGist 随着计算机视觉技术的发展 机器场景识别的能力也在不断提高 这方面的研究也 日益丰富 目前主要分为基于物体场景识别 基于区域的场景识别 基于内容的场景识别 和生物可行场景识别 因为尽管硬件性能和计算算法在不断提升和优化 目前的场景识别 水平仍然和人眼相比差距甚远 所以采用生物可行场景识别是一个新颖而充满潜力的研究 方向 gist 算法是一种应用于机器人的场景识别算法 这种算法的优点在于 它具有生 物学上的可行性 并且计算复杂度较低 与其他的视觉注意模型共享相同的底层特征 可 以在机器人上与其他的模型进行并行计算 计算速度快 效率高 2 102 10 视觉皮层特征提取视觉皮层特征提取 和视觉引导 Saliency 计算机制相同 人类还有一项绝妙的快速获取图像 要点 Gist 的能力 比如快速在镜头和人眼前闪过一张图像 仅仅是一闪而过 就足以让 观察者回答图像是一张室内厨房的图 图中有很多五颜六色的物体 由此我们可以发现 仅仅需要 100ms 或者更短的时间 人们就可以对图像产生整体的印象 比如 室内还是室 外 厨房还是办公室等 一些大体的特征也可以被获取 然而 更让人惊讶的是 如果需 要观察者回答 图中是否有一只动物等问题 观察者只需要 28ms 就可以做出正确的回答 Gist 是在大脑中优先相应 位置 的区域中计算的 也就是对应限制空间布局的视觉场 精品文档 17欢迎下载 景类型 空间内容和颜色判断会影响 Gist 的感知 这就促进了当前专门研究空间分析的 计算机模型的发展 Gist 广义的心理学定义是观察者看一眼获取的图像信息 我们讨论的 Gist 表示是 建立与这个定义的基础上 指在一个短时间内获取的相对维度较低的场景图 我们将 Gist 表示为特征空间的向量 如果对应某个给定图像的 Gist 向量可以被分类到某个特定 的场景类别 那么基于 Gist 的场景分类就是可实现的 我们目前研究的重心集中在通过多个域的功能从图片中提取 Gist 计算它的整体 特征 同时兼顾其大致的空间信息 现有模型是根据 Saliency 模型提出的 2 112 11 场景主旨 场景主旨 GistGist 特征提取 特征提取 经过底层的 center surround 进行特征提取后 每个子通道都会提取一个相应特征 图的 gist 向量 将图片分割为 4X4 的 16 个子区域 对每个字区域进行均值计算 从获取 的结果的角度看 Gist 和 Saliency 是相对的 因为 gist 是对图像的子区域进行特征提 取 而 saliency 是对整个区域进行特征提取 精品文档 18欢迎下载 但是 人类只有一个大脑 同时要进行 Gist 和 Saliency 的计算 所以与 saliency 相同 在 Saliency 模型中 输入图像经过一系列底层的视觉特征通道过滤 得到不同尺寸的色彩 亮度 方向特征图 有些通道有许多子通道 每个子通道都有 9 种 不同尺寸的金字塔来表示过滤后的输出 在水平和竖直方向 比例都是从 1 1 到 1 256 并且都要进行 5 5 的高斯平滑 对于每个子通道 i 模型采用 center surround 操作进行 标准化 色彩和灰度通道公式如下 Mi c s Oi c Oi s Oi c Interps c Oi s Gist 模型复用 Saliency 模型的方向 色彩和灰度通道 对于方向通道 对灰度输 入图像采用 Gabor 滤波器从四个不同的角度 四个空间尺度计算十六个子通道的和 需要 注意的是 Gabor 滤波器不进行 center surround 因为这些滤波器本身已经各不相同了 Mi c Gabor i c 对于色彩通道的处理 与 Saliency 相似 每个子通道从各自的特征图中都能提出一个 Gist 向量 公式是对 16 个小的区域进行亮度特征提取的方法 k 和 l 分别是子区域在水平方 向上和竖直方向上的序号 W 和 H 分别是整张图片的宽度和高度 类似地 我们可以得到 方向通道的特征提取 尽管其他的数据统计可以提供不同的有效信息 然而它们的计算开 销太高 而且他们在生物学上的解释仍有争议 因此我们只进行一阶统计就可以进行有效 的分类 2 122 12 颜色恒常算法颜色恒常算法 利用这种基于统计的 gist 算法的优点在于它的稳定性可以屏蔽局部的或随机的噪 声干扰 在 gist 算法中更重要的是全局的特征 例如光线对整张图片的改变 颜色恒常 算法例如 gray world 算法和 white patch 算法就假设场景中的光线是恒定的 然而 在 现实场景中光线并不一定会恒定 光线不仅会随着时间的推移而改变 而且在同一场景中 光源也不一定是单点光源 由于光源的不稳定性 场景中的不同物体会在不同的时间被照 精品文档 19欢迎下载 亮 值得注意的是 这一步的目标不是为了高精度地对色彩进行识别或正规化 而是生成 稳定的颜色亮度 gist 特征图 我们也可以使用另一种正规化的方法 叫做 Comprehensive Color Normalization CCN 可用于全局和局部的正规化 当光线饱和的时候 即当摄像机捕捉的视频太亮或太暗的时候 物体的纹理信息 会丢失 而且无论用多复杂的正规化方法都无法恢复 在这种情况下 考虑到 gist 计算 的特性 最好的解决方就是在不同的光线条件下进行 gist 的识别 因此我们不应该进行 任何处理 而应该在不同的光线条件下训练我们的 gist 分类器 gist 本身的特性 Garbor 或 center curround 就已经帮助我们将光照变化的影响降到了最低 通过分析 在不同光线条件下的信号比峰值 我们发现底层特征处理产生的信息对于光线是合理而且 稳定的 2 132 13 PCA ICAPCA ICA 降维降维 未经处理的 gist 特征分为 16 个区域 每个区域都有 34 张特征图 因此维度总数 是 544 维 我们使用 principal component analysis PCA Independent Component Analysis ICA 和 FastICA 将维度降到 80 并且对于 3000 张测试图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-广西-广西理疗技术员二级(技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广西-广西机械热加工二级(技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-广西-广西农业技术员二级(技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广西-广西中式面点师三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广东-广东水土保持工一级(高级技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-安徽-安徽计算机操作员四级(中级工)历年参考题库典型考点含答案解析
- 2025年计算机技术与软考-计算机技术与软考(初级)-信息处理技术员历年参考题库含答案解析(5套)
- 2025年职业技能鉴定-铁路职业技能鉴定-铁路职业技能鉴定(轨道车司机)高级历年参考题库含答案解析(5套)
- 2025年职业技能鉴定-热工职业-热工仪表检修职业技能鉴定(技师)历年参考题库含答案解析(5套)
- 2025年综合评标专家-辽宁-辽宁综合评标专家(咨询类)历年参考题库含答案解析(5套)
- 《纯物质热化学数据手册》
- 中国儿童严重过敏反应诊断与治疗建议(2022年)解读
- 电动力学-同济大学中国大学mooc课后章节答案期末考试题库2023年
- 综采工作面液压支架安装回撤工理论考核试题及答案
- 放射科质控汇报
- 2023年山东威海乳山市事业单位招聘带编入伍高校毕业生12人笔试备考题库及答案解析
- 结构方案论证会汇报模板参考83P
- 《企业人力资源管理专业实践报告2500字》
- 万东GFS型高频高压发生装置维修手册
- 公寓de全人物攻略本为个人爱好而制成如需转载注明信息
- 魏家庄村道路实施方案
评论
0/150
提交评论