机器人感知智能课件第5、6章机器人听觉感知、机器人感知系统智能化

上传人：q*** IP属地：山东上传时间：2024-11-14 格式：PPTX 页数：94 大小：7.36MB 积分：30 举报 版权申诉

已阅读5页，还剩89页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

机器人感知智能第五章机器人听觉感知声音是一种物理波动现象，即声源振动或气动发声所产生的声波。声波通过空气、固体、液体等介质传播，便能被人或动物的听觉器官所感知。声波具有一般波的各种特性，包括反射、折射和衍射等。声音还是一种心理感受，不仅与人的生理构造和声音的物理性质有关，还受到环境和背景的影响。图5.1声音的分类关系图5.1.1人类听觉模型一、声音的定义5.1机器人听觉概述纯音和复合音都是周期性声音，波形具有一定的重复性，具有明显的音高。纯音是只具有单一频率的正弦波，通常只能由音叉、电子器件或合成器产生，在自然环境下一般不会发生。日常生活和自然界中听到的声音大多是复合音，由许多参数不同的正弦波分量叠加而成。纯音和复合音之间可以互相合成与分解。从信号的角度——声音可分为纯音、复合音和噪声。从声音特性的角度——声音可划分为语音、音乐和一般音频。语音信号属于复合音，其基本要素是音高、强度、音长、音色等。音乐是人类创造的复杂的艺术形式，组成成分是上述的各种乐音，包括歌声、各种管弦和弹拨类乐器发出的复合音、少量来自环境声的复合音以及一些来自打击乐器的噪乐音。除了人类创造的语音和音乐，在自然界和日常生活中，还存在着其他数量巨大、种类繁多的声音，统称为一般音频或环境声。5.1.1人类听觉模型二、人类听觉中枢外耳包括耳翼和外耳道两个部分。从外耳道发出的声音在中频区域与外耳产生共鸣。外耳道的最后部分是一种称为鼓膜的薄膜。中耳包括鼓膜和内耳层，内层有三个听小骨，即锥骨、砧骨和镫骨，它们彼此相连。声波经外耳道进入后，会引起鼓膜的震动，三个与鼓膜连接的听骨会因为声音的震动而产生震动。内耳是人类听觉的一个主要器官，在内耳有一个重要的螺旋状环形通路，称为耳蜗。耳蜗是主要的听觉器官，它是由骨头组成，外形像蜗牛，里面充满了高电阻的淋巴。当声音传入耳内时，由外耳、中耳、内耳分别负责，共同发出“感觉”讯息给大脑。一般而言，声源与媒介间的时序差异和声源间的强度差异，可以帮助人们精确地确定声源的方位。5.1.1人类听觉模型三、人类听觉中枢的工作方式机器人听觉传感器的总体思想：模仿人的听觉中枢，完成语音信号的信息提取和声源定位。外耳鼓膜接收外界声音，鼓膜产生震动，中耳将这种震动放大、压缩和限幅，并抑制噪声。内耳的主要功能是对不同声音进行分析。纤维将基底膜接受声音时产生的震动变成电信号的平均值时，对应的继电器接通。位于耳蜗底部的基底膜使得耳蜗带有相异的电谐振以及机械谐振效应，如果接收到的声音信号中含有不同频率段，那么在基底膜的不同位置会产生由于行波差异导致的某个频率段的最大峰值。重合神经元主要负责完成突触和细胞体的响应，在整个听觉中枢系统中完成对语音信号的空间方位信息提取与整合。5.1.1人类听觉模型（一）声源目标的实时定位：在许多应用场景下机器人是需要实时与人进行沟通的，目标定位的实时性是机器人定位应用的关键问题，如何进一步提高算法的精度和速度是下一步研究的主要内容之一。（二）多语音识别：很多时候机器人实际工作环境不可能是单声源的，如何在多声源情况下服务机器人准确辨识、分离、判断任务，是人机互动的前提之一。（三）针对运动声源实现跟踪定位：机器人大多需要不停移动或者被服务对象是运动的，如何针对运动的声源进行定位、追踪，同样是服务机器人进行声源定位的研究内容之一。（四）智能、友好的交互方式：机器人可以透明地、主动与人交互，而人处于被动的方式。因此，服务机器人目标声源定位技术一定程度上受到相关技术的限制，例如声音的分离、检测以及识别等。一、听觉感知应用5.1.2机器人听觉感知二、机器人听觉在应用中需要解决的问题音频时频表示：包括音频本身的表示，如信号或符号、单声道或双声道、模拟或数字、声波样本、压缩算法的参数等；音频信号的各种时频表示，如短时傅里叶变换、小波变换、小波包变换、连续小波变换、常数Q变换、S变换、希尔伯特－黄变换、离散余弦变换等；音频信号的建模表示由于种类繁多，又通常包含多个声源，无法像语音信号那样被有效地表示成某个特定的模型，如源滤波器模型，通常使用滤波器组或正弦波模型来获取并捕捉多个声音参数。特征提取：音频特征是对音频内容的紧致反映，用来刻画音频信号的特定方面，有时域特征、频域谱特征、T-F特征、统计特征、感知特征、中层特征、高层特征等数十种。典型的时域特征如过零率、能量，频域谱特征如谱质心、谱通量，T-F特征如基于频谱图的Zernike矩、基于频谱图的描述子，统计特征如峰度、均值，感知特征如Mel频率倒谱系数、线性预测倒谱系数，中层特征如半音类，高层特征如旋律、节奏、频率颤音等。5.1.2机器人听觉感知声音相似性：两段音频之间或者一段音频内部各子序列之间的相似性一般通过计算音频特征之间的各种距离来度量。距离越小，相似度越高。在某些时域信息很重要的场合，通常使用动态时间规整来计算相似度，也可通过机器学习方法进行音频相似性计算。声源分离：与通常只有一个声源的语音信号不同，现实声音场景中的环境声及音乐的一个基本特性就是包含多个同时发声的声源，因此声源分离问题成为一个极其重要的技术难点。音乐中的各种乐器及歌声按照旋律、和声及节奏耦合起来，对其进行分离比分离环境声中各种基本不相关的声源要更加困难，至今没有方法能很好地解决这个问题。多模态分析：人类对世界的感知都是结合各个信息源综合得到的。因此，对数字音频和音乐进行内容分析理解时，理想情况下也需要结合文本、视频、图像等多种媒体进行多模态的跨媒体研究。二、机器人听觉在应用中需要解决的问题5.1.2机器人听觉感知5.2.1麦克风原理：电磁感应原理。当发射声波后，膜片产生振动，膜片内部缠绕的线圈（又称音圈）也随之振动。线圈缠绕在磁铁上，在磁铁产生的磁场内发生振动，振动导致电流产生，输出电信号。当话筒采集到的声音时，在音圈内产生的电流的幅度和方向也会随之改变，获取到的声音信号决定了感应电流变化的大小。优点：结构简单、稳定性好、自身噪音小、容易操作、实用性好、成本低。缺点：灵敏度低、频率范围窄。结构：电容式麦克风内包含三部分，即振膜、金属极板和负载电阻。原理：内部含有两个导电膜片，当振膜受到声波振动时，导电膜片之间的电容大小产生变化，导致整个电路中的电流随之变化。电流的变化导致负载电阻上产生相对应的电压，将接收到的声音信号就变成电信号。优点：具有平坦的频率响应。对于语音信号的识别，语音频率范围内灵敏度统一，有利于单通道语音识别处理。缺点：灵敏度不足、识别距离有限、功耗大、大放大电路不稳定等。图5.6动圈式麦克风结构示意图一、动圈式麦克风二、电容式麦克风5.2声音传感器毫米级驻极体麦克风具有极低的杂散电容、自偏置、可大规模生产、可阵列、可与片上电子器件集成、结构简单且在普通环境中随时间推移极其稳定等特点。在声控电路、录音机、无线话筒等方面广泛应用，在其生产高峰时每年产量超过10亿个。由于出色的电荷存储氟碳聚合物的特性，几乎所有商用非硅驻极体麦克风使用碳氟化合物驻极体，例如聚四氟乙烯，且考虑到输入输出阻抗问题，驻极体电容式话筒在工作时需要直流工作电压。图5.7驻极体麦克风优点：高可靠性、高稳定性、高一致性、低不良率和低返修率等优点。图5.11MEMS传感器结构示意图与传感器实物图片（一）驻极体麦克风（二）MEMS电容传感器5.2.1麦克风压电式麦克风是用晶体或陶瓷（钦酸钡等材料）作为变换元件，利用压电原理将机械振动从声波信号转换为电信号。在压电式麦克风中，常用用来制造振动隔膜的压电材料是氮化铝和氧化锌。压电式麦克风的优点是灵敏度高、体积小。压电效应是通过变形来产生电荷，除了可以作为声音传感元件，压电效应所产生的电信号还可用于感知运动引起的物理或化学效应。图5.12柔性压电式麦克风的工作流程示意图

电容式压阻式电磁式压电式检测信号电容电压电流电压外部供电需要需要不需要不需要开路灵敏度低低低高频率响应平坦尖峰尖峰声音频带可调表5.1不同声传感器的性能对比三、压电式麦克风5.2.1麦克风

图5.14几款超声波传感器芯片：（a）MaxBotixInc.（MB1414-000）；（b）MaxBotixInc.（MB1443-000）；（c）TDKInvenSense（MOD_CH101-03-01）.超声波是一种具有很短的波长（在空气中不到2厘米）的机械波，它必须通过媒介来传递，在空中的传播速度没有声音和次声波快，在水里的传播范围要更大一些。超声传感器测距包括三个主要过程，即超声波的产生、传播和接收。5.2.2超声波传感器超声波传感器是一种应用超声波技术研制而成的传感器，可以把各种能量和超声波转换成各种形态的装置。超声波传感器的核心部分是一种能够发出和接收声波的压电片。超声波探头可以分为直探头、双探头、斜探头等。超声波沿着一条直线进行传播，其发射频率越高，其反射性能越好。目前超声传感器的市场份额最大的是电声型传感器和水力型超声波传感器。一、工作原理电声传感器包括压电、磁致伸缩、静电三大类；液动超声传感器分为两类，即气态和液态。5.2.2超声波传感器超声波接收器的工作原理：利用发电机中的压电晶体共振来生成声波。常见的压电式超声波传感器内部包括两块压电晶圆和一块喇叭或共振板，当负载的脉冲信号与压电晶圆的自振频率一致时，它们就会发生共鸣，从而引起振荡，因此形成了超声波信号。反之，在不将脉冲信号导入压电晶圆的两端时，若在扩音器或共振板上检测到超声波，则该扬声器或谐振板将引起振荡，从而使压电晶片产生振动，使物理机械能量转化为电能，而压电晶体在振动时，将会产生电信号，从而使压电晶体的两端产生电信号，这时，超声波发生器就变成了超声波接收器。接触式超声传感器主要用于变压器、组合电器等大型电力设备监测；非接触式超声传感器则主要用于电力电缆、开关柜等电力设备检测。图5.16超声波往返时间检测法测距原理示意图图5.15常见超声波传感器外观及结构示意图5.2.2超声波传感器常规脉冲回波超声波传感器，其测距方法包括单程测距法和双程测距法。单程测距法中传感器信号发射端和接收端分离，信号接收端配置在待测目标处，发射端发射信号，接收端接收信号，根据信号传播速度和渡越时间的乘积，计算获得距离。距离计算公式：l表示超声传感器信号的发送端到被测量对象的信号接收端的距离，c表示在空气中超声的传播速率，∆t表示从信号发送端到被测量对象的接收端的超声传输的传输时间。图5.19双程测距法原理图图5.18单程测距法原理图双程测距法与单程测距法的不同之处在于超声波传感器信号发射端与信号接收端配置在一起。距离计算公式：5.2.2超声波传感器二、声呐声呐检测利用了声波在水下的传播特性，发射声波在水中传播遇到物体发射的回波获取目标信息，完成水下目标检测。水下声传播可以用声波P的齐次波动方程来描述：其中c为水中声速，x，y，z为空间方向。通常用声场信号强度的衰减来度量传播损失的大小，某点与参考点距离之间的声信号强度损失为传播损失：声波的强度随传播距离增大会呈现指数衰减的变化规律，另外声波的振动频率、环境温度和介质特性也会造成声波强度的变化。一、仿生听觉传感器蝙蝠耳仿生麦克风：蝙蝠具有极其强大的检波、抗噪、自适应能力，是目前的声呐系统、雷达系统所无法达到的。仿蝇耳麦克风：一种具有指向性、灵敏度高特性的微型传声器蚊子听觉仿生系统：蚊子的听觉系统位于其头部触角上。当有声音传过来时，触角上的鞭毛会发生弯曲变形，拉动触角中的神经发生形变，使得神经膜内外电位差变化，从而将这种信号传输给蚊子大脑来感知声音信号。二、柔性压电声学传感器压电膜的厚度和形状是影响谐振频率的关键因素，设计时应该重点考虑；柔性压电膜可以根据通道宽度产生多个频率分量数据集，多通道信号可以获得两倍以上的语音信息进行语音处理；具有基于充足数据进行机器学习训练和从多通道输入中选择有用信号的优点。5.2.3其他声音传感器三、光纤声音传感器光纤声学传感器是一种利用光纤作为光传播的声学传感器媒体或检测单元。与传统的电声传感器相比，它具有灵敏度高、带宽频率响应、抗电磁干扰等优点，对国家安全、工业无损检测、医疗诊断、消费电子等领域具有重要价值。声场与光的耦合方式有间接耦合和直接耦合两种。间接耦合型光纤声传感器：分为光强调制型、相位调制型和波长调制型等类型。直接耦合型光纤声传感器：不使用声耦合材料，直接利用光束检测声波引起空气介质折射率的微小变化实现声探测，相比间接耦合型光纤声传感器，具有稳定性好、高频灵敏度高、大带宽、大动态范围等优点，主要包括自耦合效应型和法布里—珀罗标准具（FPE）型两种类型。衡量光纤声传感器性能的参数主要包括：灵敏度、信噪比、频率响应和动态范围。5.2.3其他声音传感器5.3.1语音信号特点一、语音的声学特性和短时性声道是一个可以放大一定频率的共振腔，同时也可以削弱其它频率的能量，这种共振频率就是所谓的共振峰值。谐振峰与声道的尺寸相关，不同组之间的谐振峰一一对应。语音的频谱特征主要取决于谐振峰值。因为不同说话人的声道尺寸是不一样的，所以谐振峰值和说话人有着很大的联系。即便是同样的音位，由于说话人的差异，其共振峰也会发生很大的改变。在语音识别中，需要考虑三个以上的共振峰。二、语音信号特点汉语以汉语拼音为基础。汉语一字节是由声母和韵母组成的，通常一个声母中只有一个辅音，而韵母是一个或几个以上的元音或元音和辅音的结合。汉语是一种声调语言，汉语声调的识别功能是其最基本的功能，其主要功能是根据调式进行区分不同的音调。英语里的每个句子都有一个重读。在口语中，有时还会出现两个或更多的重读，所以，在口头交流中，重音是表达意义的象征，而重音同时也是一条重要的信息。5.3语音识别二、语音识别系统分类（一）按照说话人分类说话人识别的特征提取与语音识别的特征提取正好相反，语音识别是要找到不同说话人相同语音之间的共性作为特征，而说话人识别则需要使用说话人之间的区别作为特征。说话人识别的特征在层次上又可分为低层的声学特征和高层的语言习惯特征，而在目前的研究水平，可区分性较强、稳定性较高特征还仅限于低层的声学特征，是基于个人的发声器官的生理特性的特征。具有较好效果的特征主要有如下几种：

基于发声原理的管道模型的线性预测系数及其各种变体；语音频谱导出系数组，包括基音轮廓、共振峰、语音强度以及其变迁特性；基于听觉感知原理的特征，以美尔频标倒谱为代表。5.3.2语音识别概述二、语音识别系统分类（二）按照词汇量分类大词汇量指的是500字以上的识别，小词汇量是指100字以下的识别，除此之外，还有中等词汇量的识别。例如，MHINT语料库：包含男性发音的480个语句，每个语句包含十个汉字。语音采样率均为16kHz。（三）按照表达方式的不同分类对于一次语音输出，机器可按照连续信号、孤立词、关键词三种方式检索识别。连续语音识别计算量较大，对一段连续的语音信号进行识别处理；孤立词即机器对一个个孤立的字或词进行识别，所以运算量较小；关键词语音识别即机器从一段语音信号中找出需要的关键词进行识别。5.3.2语音识别概述三、说话人识别基本原理说话人识别系统由语音数据预处理、特征提取、模型训练、模式匹配四部分组成。在训练阶段，系统根据输入的语音数据提取特征，利用声纹识别算法训练出模型；在识别阶段，系统提取输入语音数据的特征，并将该特征输入训练好的识别模型，输出识别结果。图5.25说话人识别系统架构语音情感识别语音情感识别是指从语音信号中识别出说话人的情感状态，常见特征包括：特征名称说明基音基因频率及其导数，以及均值，方差等统计量基音轮廓轮廓以及各种几何学特征强度短时能量及其导数的各种统计量语速单位时间内的符号数量音质共振峰的频率及其带宽5.3.2语音识别概述预处理

将输入的音信号数字话并转换成适合在计算机系统中进行运算的结构以及调整数据的特性。特征提取

从语音流中找到声学特征的表达参数，能够有效的包含应语音段的有效信息。特征训练

先将训练的声音输入到语音，再通过预处理、特征抽取等方法，获得一个特征向量的参数，再利用该模型建立一个训练语音的参照库，或者在模式库中修改该参照库。识别

将输入的语音特征矢量和参照模式库的相似度进行测度，并将它们的相应类型作为识别的中间候选。后处理判别模块是利用语言模型、词法、句法等多种知识进行最后的辨识，以达到语音识别的目的。图5.26典型的语音识别系统结构语音数据处理包含了语音信号预处理、特征提取、特征训练、识别与后处理判定等多项功能，后处理和判决是任选的。5.3.3语音数据处理一、语音数据预处理图5.27语音识别预处理基本流程（一）采样与量化声带发出的原始声音是连续的，而录音机则会接收到持续的讯号，也就是模拟讯号，需要取样、量化，然后再用电脑进行处理。取样是指在时间线上以某一频率（也就是间隔一段时间），用每一次模拟信号的模拟量替换原先连续的信号。奈奎斯特取样频率：假定频谱限制信号f（t），在频谱在-ωm~+ωm范围内时，可用等间距取样值来唯一地表达信号f（t）。（二）预加重目的是消除声门激振和口鼻辐射，人为地利用预加重功能强化了语音信号中的高频成分，改善了高频段的信噪比，降低了语音信号在发射时产生的能量损耗，使得声音的高频部分得到增强，使得信号的频谱更加扁平。5.3.3语音数据处理一、语音数据预处理（三）分帧与加窗可以把话音分成短时的语言，每一段都被称作“帧”，所以对话音信号的处理必须基于它的“短时性”；分帧是通过窗函数实现语音信号截断，但截断后的短时语音信号会导致信号的频谱特性发生突变，产生无限带宽；在语音分帧时，常采用一种可动的有限长窗来进行加权，而窗的选取会影响其短期能量，并将其视为滤波器的单元冲击响应。（1）矩形窗

（2）汉明窗（3）汉宁窗5.3.3语音数据处理（四）端点检测实际的语音识别中，由于语音信号中会含有噪音，因此，首先要对语音输入进行判定，并从中找到含有有效信息的起始点，从而确保所获取的声音是真正有用的；通常采用短时能量、短时平均振幅、短时过零率等时域参数来判定有效信号的起始和结束。语音信号的短时能量定义为：其中，窗口长度为N，短时能见度为一帧样点的加权平方和。短时能的主要功能是：首先，它可以区分清音与浊音，因为在浊音时，短时间内的能量E（n）要比清音大。语音信号的短时平均过零率定义为：一、语音数据预处理5.3.3语音数据处理二、特征提取（一）线性预测系数LPC线性预测的基本概念：将其以往几次抽样值的权值（线性结合）用于预测，其中每一权重系数都是以最小的预测误差平均方值为原则（也就是按照所谓的最小平均方差标准），那么就是p级的线性预测因子（Linearitypredictscoefficients,LPC）。设P{x（n）|n=0,1,...,N-1}为一帧语音采样序列，则第n个语音样点值s（n）的p阶线性预测值为：式中p为预测阶数，ai

（i=1,2,...,p

）是线性预测系数。预测误差ε（n）为：5.3.3语音数据处理二、特征提取线性预测倒频谱系数（Linearitypredictscepstrumcoefficients,LPCC）是一个较为关键的特征参数，它可以较彻底地消除语音生成时的激励信息，并能很好地反映出语音的共振峰。在线性预测分析中，通道模型是一个完全的极点模式：LPC分析的重要意义：该方法能提供一套简单的语音模型参数，能够更准确地反映出语音信号的波幅，并且其运算量也不大，可以用来做模板，既能提高识别率，又能缩短处理时间。LPC倒谱系数不足之处：其建立在全极点模式的基础上，因而不能准确地反映清、鼻音，同时又包含了零点效应，故在理论上，应采用极点模式。（二）线性预测倒谱系数LPCC5.3.3语音数据处理二、特征提取（三）梅尔倒谱系数MFCC在求取梅尔倒谱系数（Mel-frequencycepstralcoefficient,MFCC）的过程中，根据梅尔频率与Hz的对应关系，类似临界频带的划分，可以将语音频率划分成一系列三角滤波器序列，即梅尔频率滤波器组，每个滤波器在以梅尔为单位的频率轴上是不等间距的，而是符合临界带宽的分布特性。取每个三角形的滤波器频带宽内所有信号幅度加权和作为某个带通滤波器的输出，然后对所有滤波器输出做对数运算，再进一步进行离散余弦变换（Discretecosinetransform,DCT），即得到MFCC。将各三角滤波器频率带宽中的信号幅值相加，并将其作为一个带通滤波器的输出，并对各滤波器的输出进行对数运算，最后进行DCT，即获得MFCC。5.3.3语音数据处理（一）动态时间规整法（DynamicTimeWarping,DTW）动态时间规则问题是最典型的，其最大的特点是：在此基础上，利用一条有条件限制的时间规则函数来描述模型与样品模板之间的时间对应关系，并在此基础上求出相应的规则函数。（二）矢量量化（VectorQuantization,VQ）模型向量量化指的是把说话者当作一个声音信号源，通过向量量化技术对其进行建模（通过训练序列聚合产生

VQ代码书），使得

VQ代码书与说话者一一对应，在进行识别时，使用全部码本编码输入的测试序列，并计算出相应的平均量化畸变，再进行比较，确定出失真最少的基准模式。图5.17基于VQ技术的说话人识别系统原理图三、模型训练与模板匹配5.3.3语音数据处理（三）隐马尔可夫模型隐马尔可夫模型是一种以转移概率和输出概率为基础的随机模式，其原因在于，一种具有n个状态的S1，S2，……，Sn的模式，将输入的特性从一种状态转换到另一种状态，每次由于无法观测到状态转换序列，因此只能根据已知的输出符号序列进行运算，并对其进行预测。为每一个说话人构建一个特殊的语音模型，然后经过训练，获得一个状态转换的概率矩阵和符号的输出概率矩阵。在辨识时，通过计算状态转换中未知语言的最大机率，并利用最大概率对应的模式判断出说话者的身份。图5.19状态转移模型三、模型训练与模板匹配5.3.3语音数据处理语音识别系统可分为离线语音识别和在线离线语音识别系统。离线语音识别：词语库比较小，属于小词汇量语音识别，不依赖网络环境，识别过程在硬件内部自动完成；受嵌入式硬件平台的限制，导致离线语音识别不能占有过多的存储空间，而且不能进行太多复杂的运算处理；目前主要以嵌入式平台为主，通过启动专用语音识别芯片的方法来进行语音识别。在线语音识别：针对大词汇量的连续语音识别的分布式语音识别系统；每次识别前将需要识别的语音内容上传至服务器，然后通过服务器进行运算处理，最后与词语库中的词语进行匹配，最后再将结果反馈给说话者。一、语音识别模块（一）MEGASUN-M6语音识别模块（二）LD3320芯片（三）XFS5152CE芯片5.3.4语音识别系统二、硬件开发语音识别芯片：语音信号的处理和识别；单片机：主控芯片加以控制，同时与上位机进行通讯；外部寄存器：动态地添加和编辑需要识别的词语库；USB转串口模块：将硬件系统方便地与上位机建立通信；专用的语音识别芯片：用麦克风接收说话者的语音信号，进行处理和识别。三、软件开发（一）Arduino开源平台（二）DeepSpeech开源平台（三）Kaldi开源平台（四）CMUSphinx语音识别器5.3.4语音识别系统5.4.1人耳模型在大多数人类声音定位研究中，声源被限制在两个平面中的一个：水平面或垂直（中矢）面。水平和垂直定位之间的区别似乎也可以通过水平和垂直定位的主要空间线索（即双耳差异线索与单耳线索）的差异来证明。入射到听者耳朵上的声波会被面对入射波一侧的头部反射，衍射到头部阴影一侧的耳朵，并通过耳廓传输到耳膜。这些反射和衍射产生双耳时间差和双耳强度差，这是众所周知的双耳差异线索。5.4.2麦克风阵列麦克风阵列由若干个具有特定几何结构的感应器构成，具有很好的空间选择性，能够在一定的距离上对声源进行自适应探测，并能进行轨迹定位。麦克风阵列能够有效地解决单一话筒在空间信号的接收与处理上的不足。机器人听力系统通常采用多种形式的传声器，通过多种方法组成一个阵列，从周围环境中采集声音，并对不同方位的声音进行加强。5.4声源定位（一）线性阵列图5.23线性阵列示意图（二）二维平面阵列指向性模式图5.25二维面阵示意图5.4.2麦克风阵列（三）三维立体阵列1.四元正四面体阵列：图5.28正四面体阵列结构与位置示意图2.五元正四面体阵列：图5.29五元正四面体阵列结构3.球形阵列：图5.30球面阵列示意图5.4.2麦克风阵列固定波束形成。固定波束成形可以看做是一种闭环系统，在这种系统中，接收到的信号的随机统计特性决定了其性能的好坏，为了能够更好的降低噪声和干扰对语音的影响，进行固定波束形成前需要知道信号和干扰、噪声的具体位置。它的各项参数在进行波束形成前就由开发人员固定，不因信号的改变而改变。自适应波束形成。该类波束形成算法常以具体准则为基础提出相应的算法，可用较少的麦克风取得较好的去噪效果。自适应波束形成算法本质上以信号处理为基础，仍只是将语音看做普通的传输信号处理。

盲源信号分离。该类算法分为三类，第一类方法被称为独立分量分析，它是在信号经过变换后，保证不同的信号分量之间的相依性尽可能的减小。5.4.2麦克风阵列双耳声源定位主要机理：1.双耳间声强差：声源在左右耳的声音强度差；

2.双耳间时间差或相位差：点声源抵达左右耳的时间差；

3.频率线索：基于频谱相关特性来进行声源定位。在三维空间声场中，空间上的描述有三个维度：1.左右空间方位：这个主要是依赖于双耳线索，通过声音抵达双耳之间的差异，来判断声音的左右偏向。ITD是声源抵达双耳的时间差，ITD范围为0~690𝜇𝑠区间。2.上下空间方位：主要是通过耳廓的形状，造成不同入射角有不同的折射程度而产生的差异。大多数频谱线索位于4~16kHz的频率范围。

3.远近空间方位（Distance）：远近维度其实就是声源到达双耳的能量，能量大听觉上感觉近，能量小听觉上感觉远。

5.4.3声源定位方法

一、基于声波到达时间差声音定位的基本思想是从一对麦克风之间的到达时间差推导出声源的方向；时差可以在短时间内通过通用互相关方法进行估计；通用互相关方法可以通过不同的加权方案进行增强，如相位变换。二、基于最大输出功率的可控波束形成技术波束形成器形成标量输出信号，作为传感器阵列接收的数据的加权组合；权重确定波束形成器的空间滤波特性，并且如果具有重叠频率内容的信号来自不同位置，则能够分离这些信号；选择与数据无关的波束形成器中的权重，以提供与接收数据无关的固定响应。三、基于高分辨率谱估计高分辨频谱估计技术一般应用于多个声源环境；该方法给出了在一定条件下，保证在平稳状态下不发生变化，且具有充分的平均信号，而在真实情况下，这种情况发生的可能性非常低；这种方法计算量大，相对于传统的波束成形算法，它对声源和话筒模型的错误具有很好的鲁棒性，因而很难应用于现代的其他声源定位系统。5.4.3声源定位方法5.5.1人类视听交叉感知机制视听觉系统感受环境信息的机理相似，信息量重合，因此大脑对这两种系统获取的信息进行交叉感知，得到统一的感知。但对于视听觉信息发生的多种情况作出不同反应：互相补充。当两种信息中的一方不能满足环境的感知时，可以通过另一方来获得补充。例如视觉只能对视野内的目标信息敏感，但当发生遮挡和偏转等情况时，这时听觉系统可以根据目标的声音信息判别出物体，也可以提供物体的方位信息。这样，两者之间的互相补充作用增加了信息的全面性。

整合化一。当两者信息相违背时，人脑会对这两种感官信息分析融合，形成单一的认知。

对应调整。当两信号持续不一致时，人脑的神经系统会调整信息，最终获得视听一致的信号。例如当发生闪电时，视觉和听觉会对闪电的发生会产生不一致的信息，但人脑可以根据声音和视觉的传播差机制将这两种信息整合成单一的闪电信息。

5.5视觉听觉交叉融合图5.34说话人识别中的视听交互感知人的视觉和听觉是通过感知来收集外部的信息，然后将这些信息传递给大脑，再由大脑将这些信息结合起来，最终获得正确的信息。人在处理和做出决定的过程中，将感知所获得的信息进行综合处理，并与神经系统协同作用，最后由相互融合的信息做出决定。5.5.2视听信息融合识别一、视觉—听觉融合跟踪图5.37基于视觉听觉融合的目标跟踪算法结构二、听觉控制—视觉跟踪图5.38听觉控制—视觉追踪控制系统方案5.5.3视听信息交互的目标跟踪总结知识节点5.1机器人听觉概述人类听觉模型机器人听觉感知5.2声音传感器麦克风动圈式麦克风电容式麦克风压电式麦克风5.3语音识别语音信号特点语音识别概述语音识别系统分类说话人识别语音数据处理预处理特征提取特性训练与模板匹配语音识别系统语音识别模块硬件开发软件开发5.4声源定位人耳模型麦克风阵列阵列类型阵列算法声源定位方法声波到达时间差可控波束形成技术高分辨率谱估计声源定位案例系统原理方案设计定位误差分析5.5视听交叉融合超声波传感器概念与发展工作原理其他声音传感器仿生听觉传感器柔性压电声学传感器光纤声音传感器机器人听觉概述声音传感器语音识别声源定位视听交叉融合人类视听交叉感知机制视听信息融合识别视听信息交互的目标跟踪第五章机器人听觉感知机器人感知智能第六章机器人感知系统智能化信息融合所涉及的主要领域包括：模式识别、智能制造系统、无人机驾驶、目标检测与跟踪、人工智能、航空航天应用、图像分析处理等；由于该技术涉及到的研究内容种类丰富，领域广泛，目前还没有普遍适用且明确的定义。不同国家的学者对信息融合的定义有着不同的表述；根据国内外的观点，信息融合的定义为：按照一定的规则，使用计算机技术对特定时序获得的若干异质或同质的传感观测信息进行分析、提取和综合，是一种用于对所需要的目标进行估计与决策的信息处理过程。信息融合是近些年发展起来的技术，由许多学科领域交叉融合形成，在机器人信息处理的过程中被广泛应用。6.1.1多传感器信息融合概念一、信息融合6.1多传感器信息融合（一）分布式：先对各个独立传感器所获得的原始数据进行局部处理，然后再将结果送入信息融合中心进行智能优化组合来获得最终的结果。分布式对通信带宽的需求低、计算速度快、可靠性和延续性好，但跟踪的精度却远没有集中式高；分布式的融合结构又可以分为带反馈的分布式融合结构和不带反馈的分布式融合结构。（二）集中式：集中式将各传感器获得的原始数据直接送至中央处理器进行融合处理，可以实现实时融合，其数据处理的精度高，算法灵活，缺点是对处理器的要求高，可靠性较低，数据量大，故难于实现；（三）混合式：混合式多传感器信息融合框架中，部分传感器采用集中式融合方式，剩余的传感器采用分布式融合方式。混合式融合框架具有较强的适应能力，兼顾了集中式融合和分布式的优点，稳定性强。混合式融合方式的结构比前两种融合方式的结构复杂，这样就加大了通信和计算上的代价。二、多传感器信息融合图6.3紧耦合状态估计流程图根据数据处理方法的不同，信息融合系统的体系结构有三种：分布式、集中式和混合式。6.1.1多传感器信息融合概念二、多传感器信息融合多传感器融合状态估计技术在人工智能应用场景中，有非常多的应用：（一）扫地机器人：这是最简单的多传感器融合状态估计的应用了，一般该机器人会装有相机和IMU传感器，一些还有红外线接近度传感器、激光传感器。（二）餐厅服务机器人：在餐厅负责送餐任务的机器人，通常会有双目相机、轮速计、导轨等传感器。（三）增强现实（AR）应用：AR技术近年来快速发展，在手机软件、智能穿戴硬件中都有应用，主要用到的传感器有相机、惯性测量单元（InertialMeasurementUnit,IMU）等。（四）自动驾驶：自动驾驶对精度和鲁棒性要求非常之高，所用传感器也是非常之多，自动驾驶汽车基本都会用到的传感器有多个相机、IMU、轮速计、激光雷达、超声波、红外、GPS等。图6.5美国海军实验室研发的四麦克风阵列B21r机器人（左）和MDS像人机器人（右）6.1.1多传感器信息融合概念二、多传感器信息融合信息融合的三个主要特征如下：

（一）信息融合是一个多源、多级的信息处理过程，每一级都代表着不同层次的图像抽象。

（二）信息融合包含信息的检测、互联、相关、估计和组合等步骤。（三）信息融合的结果包含低层次的局部状态估计和高层次的全局状态估计。图6.4常见的地面机器人（a）新正源迎宾服务机器人（b）爱森T2智能移动机器人（c）华硕Zenbo智能家庭助理机器人6.1.1多传感器信息融合概念一、自主车辆机器人中的传感器融合技术二、医疗人机交互场景下的多传感器融合图6.7几种自主车辆机器人（a）应用于国家电网的新松无人搬运车（b）艾瑞思物流仓储智能机器人（c）海康威视智能仓库机器人（一）多模型用户数据融合：可解释的神经网络、联想学习。（二）人机对话和意图理解：人类识别、语音识别。（三）用户分类：交互式知识图谱建模。（四）路径和动作规划：基于多模态的路径规划仿人操作的感知、任务规划。

6.1.2几种机器人中的多传感器融合（一）跨领域融合：主要关注跨领域知识迁移和不同特征空间的融合，解决了由于源域和目标域在不同的有限元表示空间中的多模态数据，能够支持基于决策的融合医学人机交互产生的多源数据研究情节。（二）增量分类器融合：由于医疗机器人引入了附加信息、大量数据或数据的动态增长数据导致收敛开销显著增加，这不能满足实时融合决策的要求。增量分类器融合可以通过以下方式优化互补模态数据：对多模态数据进行联合聚类，更快地得到决策结果。（三）数据不完整的多传感器融合：主要处理部分丢失的原始感知数据。例如，传统的融合机制无法处理数据集中包含的不完整数据。虽然它可以直接删除不完整的数据，并做出融合决策仅基于剩余的完整数据，不完整数据中包含的有价值信息的丢失将影响融合决策的准确性和综合性。因此，核聚变机制基于不完全数据的医学人机交互是非常必要的。融合机制的选择：6.1.2几种机器人中的多传感器融合一、系统中传感器的类型、分辨率以及精度二、传感器在机器人本体上的布置位置三、系统的通信能力和计算能力四、系统的设计目标五、系统的拓扑结构在多传感器信息融合技术中，通常涉及到多种类型的传感器选择的问题，因此在选择传感器类型时，要考虑以下几个问题：多传感器融合的移动机器人一般包括三个传感系统：（一）视觉子系统。该子系统主要包括3个模块：光视觉检测模块、红外视觉检测模块和视觉融合模块。（二）听觉子系统。该子系统主要包括3个模块：语音检测模块、类周期求救声检测模块和声源定向模块。（三）运动规划子系统。该子系统主要包括3个模块：自主规划模块、机器人控制模块和避免碰撞模块。6.1.3传感器类型与布局一、相机传感器图6.9SLAM算法系统流程图6.1.4传感器模型二、惯性测量单元图6.11三轴数字加速度计图6.12三轴磁力计图6.13IMU传感器惯性测量单元IMU是一种组合测量传感器，其具有三个加速度计和三个陀螺仪，可用来获取运动载体的位姿信息的装置；加速度计和陀螺仪相互垂直安装，加速度计用来检测物体在坐标系上的加速度，陀螺仪利用载体相对空间的位置变化，再进行坐标变化检测到物体的角速度；通过测量物体的角速度与加速度来计算物体的姿态。6.1.4传感器模型三、里程计模型图6.14相机透视投影模型（一）从世界坐标系到相机坐标系的转换。6.1.4传感器模型三、里程计模型（二）从相机坐标系到物理成像平面坐标的转换。（三）从物理成像平面坐标到计算机图像坐标的转换。图6.15视觉里程计实现流程图6.1.4传感器模型四、激光雷达传感器模型图6.17激光雷达三角测距原理图6.18激光雷达飞行时间测量原理飞行时差测距法（TimeofFlight，TOF）是激光器发射激光脉冲，由计时器记录出射时间，接收器接收往返光，计时器记录返回时间，返回时间减出射时间，得到光的“飞行时间”。光速是已知的，因此在速度和时间已知的情况下，可以求得机器人与目标物体之间的距离。6.1.4传感器模型四、激光雷达传感器模型（一）测量距离：TOF激光雷达可以测量更长的距离，因此应用更为广泛，而三角测距法当测量物体距离越远时，在CCD上所成的像的位置间差别就越小，超过一定距离时，CCD上的成像位置几乎无法分辨。（二）采样率：TOF激光雷达采样率更高，因为飞行时间测距一次测量只需一个激光脉冲，且时效性好，可以快速响应。然而，三角雷达的计算时间较长。（三）精度：三角法在近距离测量时的精度很高，但是随着距离的增加，测量精度会随之下降。由于TOF激光雷达的精度取决于飞行时间，时间测量精度不随长度的增加而变化，在几十米的测量范围内都保持较高的测量精度。（四）转速（帧率）：三角激光雷达的最大转速通常在20Hz以下，而TOF激光雷达的最大转速约为30Hz~50Hz。6.1.4传感器模型一、多传感器融合分类（一）数据层的融合数据层融合也称像素层融合，是对传感器原始信息的融合，属于最低层融合方式。未经处理的原始观测信息直接通过数据层融合进行加工和处理，然后再提取其信息特征进行特征匹配。数据层融合对数据类型有所要求，即传感器感知观测到的对象信息需要是同一类型的数据。图6.20像素层融合6.1.5多传感器融合方法（二）特征层的融合特征层融合是指对传感器信息进行初步处理之后，将各自提取的特征点进行统筹融合，属于中间层融合，因此该方式同时具备了低层次和高层次的部分融合优势。该方法可分为目标特征信息融合和目标状态信息融合。前者适用于目标的跟踪，通过对数据进行配准实现对状态和参数的估计；后者适用于目标的组合分类，通过传统的模式识别技术实现分类再整合。图6.21特征层融合一、多传感器融合分类6.1.5多传感器融合方法（三）决策层的融合决策层融合属于高层次的融合方式，与前两者相比，这种融合的时间顺序发生了主要变化；该方式在感知到数据信息后，对其进行了特征提取和识别，之后才开始融合过程，同样融合之后可以返回用于决策，它直接响应决策目标，并为最终决策奠定基础，是充分利用较完整信息的一种策略类融合算法；通过策略类的选择评级，分数更高的结果使其成为下一模块的信息的输入，不会增加过多的运算负担，还能够拥有更好的鲁棒性。图6.22决策层融合一、多传感器融合分类6.1.5多传感器融合方法二、多传感器融合策略（一）加权平均法最简单的加权平均法是对一组传感器的数据直接进行加权平均运算，每个传感器的权值由经验确定，并将此加权结果作为最终融合的信息。6.1.5多传感器融合方法（二）卡尔曼滤波法卡尔曼滤波算法基于系统线性测量模型的统计特性进行递归计算，动态系统的状态通过一系列噪声数据来估计，实时更新和处理现场采集的数据。系统噪声和系统的状态都是呈现高斯分布的，因此对错误信息较敏感。在数据层融合中，传感器接收的数据常存在较大误差，卡尔曼滤波法能有效减小数据间的误差，提升融合效果。二、多传感器融合策略6.1.5多传感器融合方法（三）模糊逻辑模糊逻辑是一种不需要建立精确数学模型，将已有的经验和知识直接通过模糊集合论构建模型的方法。模糊逻辑是在人类思维方式的基础上，根据客观事物认知的统一特征，进行归纳、提取、抽象和总结，最后转化为模糊规则，来帮助相应的函数确定结果。由于该方法不依赖数学模型，所以该方法可以应用在各种复杂难以建模或动态特性常变的系统中。模糊逻辑的难点问题：合理的指标判断规则和隶属函数的构建。二、多传感器融合策略6.1.5多传感器融合方法（四）神经网络算法神经网络算法是一种新出现的算法，其融合方法能对非线性系统进行很好地处理和模型的泛化，并且可以较好地解决检测系统的误差问题，实现了知识的自动获取及并行处理信息的能力。图6.23神经元的数学模型图6.24网络通用结构二、多传感器融合策略6.1.5多传感器融合方法（五）贝叶斯估计贝叶斯的基本思想是：把现象的经验推理和某种先前经验结合，去估计事物的可能性。贝叶斯估计将每个传感器作为一个贝叶斯分类器，根据传感器的先验概率分布，组合成联合分布似然函数，然后根据不同的新观测值更新联合分布函数，并利用概率函数的极值完成融合。它要求系统具有正太分布，或者噪声也是高斯分布的。贝叶斯估计还可以将传感器采集的可信度低的信息剔除，提高了信息采集的准确性。状态方程：观测方程：图6.25状态估计模型图二、多传感器融合策略6.1.5多传感器融合方法（六）D-S证据理论D-S证据理论可以处理由于未知引起的不确定性，并将其转换为一组以概率分布函数表示的不确定性描述集，得到概率函数来描述不同数据对命题结果的支持率，并通过推理得到目标融合结果；该方法利用信任函数和非信任函数将证明区间分为支持、信任和拒绝三类，在不确定信息的情况下对证明区间进行快速分类，分类决策在最终的决策层进行，以促进最终结果的产生。图6.26三类证据关系图二、多传感器融合策略6.1.5多传感器融合方法三、隐马尔可夫模型与贝叶斯模型隐马尔可夫过程基于两个基本假设：

（一）齐次马尔科夫假设，是指假设马尔科夫过程在任意时刻的状态只与前一时刻的状态相关。

（二）观测独立性假设，是指任何时刻的观测只与当前时刻的状态有关，与其他时刻观测无关。

贝叶斯递推过程基于状态观测和状态更新：

（一）基于模型的状态估计，也就是说根据状态转移概率或者已知的真是测量值，计算预测概率分布，以得出状态预测的均值和方差等估计值。

（二）基于观测状态更新，通过概率函数与状态估计概率进行积分系数归一化处理，得到观测转移的后验概率分布，然后得到目标观测的均值和方差，计算卡尔曼增益。6.1.5多传感器融合方法一、微型惯性单元与视觉数据融合最早出现的IMU处理方法是整合IMU数据，再积分处理，但该方法对位姿信息依赖性强，融合过程中计算量较大。为了解决这个问题，学者们提出了IMU预积分法，该方法的核心思想是对两帧间的IMU运动增量进行计算，并提取增量积分中与初始值有关的数据，从而避免重复反馈过程优化中的重复积分，提高计算效率。同时，两帧之间的IMU预测分量可对这两关键帧加以限制。

IMU视觉优势快速响应；不受成像质量影响；角速度比较准确；可估计绝对尺度；存在零偏；低精度IMU积分位姿发散；高精度价格昂贵不产生漂移；直接测量旋转与平移劣势存在零偏；低精度IMU积分位姿发散；高精度价格昂贵受图像遮挡和运动物体干扰；单目视觉无法测量尺度；单目纯旋转运动无法估计；快速运动时易丢失表6.1IMU与视觉定位特点比较6.1.6SLAM技术中的多传感器信息融合一、微型惯性单元与视觉数据融合图6.27基于滤波的松耦合图6.28基于非线性优化的紧耦合6.1.6SLAM技术中的多传感器信息融合二、2D激光雷达与RGB-D相机信息融合将激光雷达和RGB-D相机结合，可以实现激光数据和三维深度数据的同时采集，进而建立激光雷达测距点与深度图像点间的对应关系，对检测数据进行融合，得到环境障碍物的位置。相机从空间中采集三维深度数据，使用针孔相机模型将真实世界中的三维坐标点映射到二维平面以获取深度图像，将数据深度图像转换为虚拟激光测距数据。图6.29英特尔RealSenseD455相机表6.2KinectV2参数配置参数彩色相机分辨率1920×1080深度相机分辨率512×424水平角度70°垂直角度60°骨骼关节数25个/人检测范围0.5~4.5m音效16bit，16kHz6.1.6SLAM技术中的多传感器信息融合（一）相机标定二者参考坐标系不同，需要将多个传感器的数据统一整合到一个参考坐标系中进行坐标对准，从而实现数据的粗糙融合。通过坐标标定，找到激光雷达坐标系与Kinect图像坐标系间的关系，以实现激光雷达测距与Kinect的深度图像数据的精确融合。图6.31激光雷达与Kinect相机坐标系图6.32激光雷达的直角坐标系与极坐标系二、2D激光雷达与RGB-D相机信息融合6.1.6SLAM技术中的多传感器信息融合（二）点云匹配激光点是真实环境中的曲面离散采样，激光点到实际曲面的距离是最佳误差范围。常用的点云匹配算法为迭代最近点算法，将点间距离作为误差，构造误差方程，易造成误差匹配，增加迭代时间。通过用点到其最近两点连线的距离，可以构建误差方程，有利于缩减迭代时间，增加算法时效性。深度相机模拟的点云和对应的激光雷达点云空间坐标集合分别为：二、2D激光雷达与RGB-D相机信息融合6.1.6SLAM技术中的多传感器信息融合（三）传感器数据融合在点云配准得到两传感器间的位姿关系后，可将两束激光转换到同一坐标系下进行数据精确融合。该过程常用滤波思想来实现，由于经典卡尔曼滤波对运算场景有限制，只能用于高斯理想场景下。而基于经典卡尔曼滤波演变的EKF算法，可以在粗融合的基础上再进行细化融合。（四）贝叶斯估计数据融合贝叶斯估计是一种利用先前经验与经验推理对状态进行估计的信息融合算法，该算法是在得到结果后重新修正的概率的基础上进行的。该方法通过观测得到已知状态向量Z，预测一个未知的n维状态向量X，并且已知状态向量z中包含有未知状态向量X的信息。二、2D激光雷达与RGB-D相机信息融合6.1.6SLAM技术中的多传感器信息融合三、视觉惯性激光雷达图6.33VIL-SLAM系统图图6.34固定滞后位姿图示惯性测量单元具有抗干扰能力强、可信度高、独立性强等优点，而3D激光雷达具有测量范围广、可以直接得到较为准确的深度信息、计算负担小以及受光照影响小等优点，恰巧可以弥补视觉传感器受剧烈运动、无环境纹理、光照条件不好等外界环境的影响，进而提高了系统的鲁棒性、健壮性以及广泛适用性。6.1.6SLAM技术中的多传感器信息融合物理层：也叫做传感器层，负责原始信号的采集，获取物理世界的信息；应用服务层：把采集到的信息进行局部功能封装，成为具有特定服务功能的模块；应用开发层：借助第三方开发工具、算法等对下层的功能模块进一步集成；应用层：面向最终的用户，针对具体应用定制自己的系统。6.2.1机器人感知系统概述相互合作型可以分为四类：一、水平型合作：每个模块可以独立获取问题决策而不必依赖于其他模块，而它与其他模块的合作可以增加决策的可信度；

二、树型合作：一个高级的模块必须依靠低级的模块才能获得问题的决策；三、递归型合作：为了取得问题的决策各模块之间具有相互依赖的关系；四、混合型合作：它是前三种合作类型的有机结合。6.2机器人感知系统控制机器人感知系统标准化工作的必要性：

一、仿人机器人智能化很大程度上取决于其感知能力，其传感器种类越来越多，对可重用和互置换的要求迫在眉睫；

二、现场总线的标准各自为政，需要统一的通信协议来约束，方便用户的操作；

三、国家的战略需求，国内机器人及传感器产业现状迫切需要制订的相应的标准，实现工业化级别的规模生产，降低制造成本。6.2.1机器人感知系统概述主控模块主要是进行各种信息数据的处理，可以让每一个功能模块都能更好的来完成它们各自的任务。图6.35STM32F芯片主控单元模板ARM是通常意义所说的高效能RISC，使用了经过精简设计的指令系统，基于该芯片的微控制器在功耗和体积上都大大减小，设计也可以更加简洁；DSP是数字信号处理器，顾名思义，DSP只负责数字信号处理，难以实现和普通处理器一样的通用计算；PLC是可编程逻辑控制器，PLC和工控机在控制性能上都很优异，二者缺点是相较于微处理器，其体积和功耗更大，价格更贵。6.2.2主控电路设计一、气体传感器氧气是人类正常生活必不可少的气体，因此氧气浓度是重要的检测参数。可燃性气体，以瓦斯为主要代表，其主要成分是烷烃，其中甲烷含量所占比例最高，其次还有少量的乙烷、丙烷和丁烷。烷烃类气体具有易燃易爆的特点，而且浓度过高时也可造成缺氧，甚至使人窒息死亡。分类优点缺点半导体响应速度快、检测灵敏度高、结构简单、价格低廉测量线性范围小，受背景气体干扰较大电化学线性和重复性较好，体积小，功耗小，分辨率较高，寿命较长易受干扰，灵敏度受温度变化影响较大催化燃烧式对环境湿度、温度的影响不敏感，近线性的输出信号，响应快精度低，电流功耗大，对可燃性气体无选择性，有引燃爆炸的危险，易中毒红外式无需加热、响应速度快、精度高、灵敏度高、寿命长技术不够成熟，制造成本高，使用复杂表6.3气体传感器的分类及各自优缺点对比图6.36MQ-2气体传感器化石能源生产和消耗环境气体检测主要分三大类：氧气检测、有毒气体检测和可燃性气体检测。6.2.3多传感器接口设计二、温度传感器

消防的目的就是为了救灾灭火，防止火势进一步蔓延而造成更多的损失，对环境的温度测量有助于消防工作。同时，为保护机器人内部元器件，防止高温对机器人的损害，可以采用机器人暂时远离火场，或者喷水自冷却等保护措施，则还需探测机器人内部的温度，来判断何时该启动保护措施。因此温度传感器需包括车内和车外温度传感器。三、超声波传感器

机器人在行进过程中，有时会遇到各种障碍物、崎岖路段，为保证车体顺利前进，不被障碍物阻隔，或者遇到洼地、较大的坑时被陷入无法动弹，我们需要增加一些测距传感器，测量车体与前方物体的距离，通过距离大小来判断机器人周围路段情况。当判断出前方有较高较大阻碍物，或者深坑、洼地等不良路面时，机器人需要提前避开，当阻碍物较低较小，或者路面情况良好时，机器人可以直接碾过去，因此还需注意传感器在车体上的安放位置。6.2.3多传感器接口设计在机器人感知系统设计方面，现阶段较为成熟的是就是统一建模语言（UnifiedModelingLanguage,UML，UML在面向对象模型的表示方面得到了广泛的认可。（一）逻辑视图，解决了系统的功能需求，是设计模型的抽象，并确定了主要的设计包、子系统和类；（二）实现视图，从打包、分层和配置管理的角度描述组织中的静态模块；（三）进程视图，处理系统运行时任务、线程或进程的并发方面及其交互；（四）部署视图，显示底层平台或计算节点中各种可执行文件和其他运行时组件的映射；（五）用例视图，在初始阶段和精化阶段推动架构的发现和设计，稍后将用于验证不同的视图。表6.4

UML表现不同的视图名称视图主要符号组合结构图表现架构需求，主要包括Part、Port接口和链接Part

、Port、接口、连接关系用例图表现功能需求，

主要包括用例和参与者用例、参与者、关联关系类图表现静态结构，

主要包括一群类及其间的静态关系关联关系、泛化关系序列图表现一群对象依序传送消息的交互状况对象、消息、活动期对象图表现某时刻下的数据结构，

主要包括一群对象及其间拥有的数据数值对象、链接、消息协作图表现一群有链接的对象传送消息的交互状况对象、链接6.2.4UML机器人感知系统设计UML的主要特点：（一）统一的标准。UML统一了众多方法中的基本概念，并被OMG接受为标准的建模语言，越来越多的开发人员和厂商开始支持并使用UML进行软件开发。（二）UML吸取了其它流派的长处，包括一些非常规方法的影响，同时也溶入了软件工程领域的新思想、新方法和新技术，它是开发者依据最优方法和丰富的计算机科学实践经验综合提炼而成的。（三）UML在演变过程中提出了一些新的概念，如模板、扩展机制、线程、分布式、并发等，为分布式、并发以及实时系统等的开发提供了支持。（四）面向对象、可视化、表示能力强大。丰富的符号表示使得UML成为众多应用程序领域中有关获得系统文件、规格说明、捕获用户需求、定义初始软件体系结构的一种受欢迎的建模语言。（五）独立于过程。UML不依赖于特定的软件开发过程，这也是它被众多软件开发人员接受的一个原因。（六）概念明确，建模表示法简洁，图形结构清晰，容易掌握和使用。6.2.4UML机器人感知系统设计UML建模分为三个建模过程：（一）概念级：确定所需解决的问题以及目标，常采用黑盒方式确立角色和用例，然后绘制用例图，角色可以是人，也可以是物，机器人感知系统中的用户是普通用户和设计人员，用例是系统所提供的功能模块。（二）逻辑级：详细分析用例的基本信息和工作流程，整个分析过程可以分为静态描述和动态描述。其中静态描述主要是明确系统的关键要素，可以使用类图、对象图等进行描述，感知系统的关键要素为：微处理器、存储器、总线、接口等，其关系为关联关系，接口可以派生出键盘、显示器、以太网等多个子模块。图6.37UML建模图形类别（三）物理级：主要考虑系统的实际结构以及物理部署，包括设备之间的连接、分布情况、组件之间的物理关系。终上所述，机器人感知系统的设计是软硬件互相嵌套的组合方式，可以将从中抽取相对固定的组件以及组件端口，组合出多样化的感知系统，同时组件可以分散提前开发，加快组合速度，并且可以外购线程组件以降低成本，为感知系统的模块化设计提供基础。6.2.4UML机器人感知系统设计一、通信原理图6.38机器人无线通信无论是数据传输还是视频传输，都需要通过无线发射模块和无线接收模块来实现：数传模块和图传模块均有独立的一套无线发射器和无线接收器，其各自有一个互不干扰的传输频段，设定好工作频段即可实现信号在无线模块之间传输。无线数传时，无线传输模块既可作发射器，也可作接收器，信号可在两个模块之间双向发射和接收，而无线图传时，发射器与摄像头连接，接收器与显示器连接，由于无需给摄像头下达控制指令，所以图像信息是单向传输。6.2.5传感器通讯模块设计无线传输的是上位机与下位机之间的指令、数据、图像等，包括上位机发出的控制指令，以及下位机对各个传感器、电机、摄像头的控制以及数据、图像的采集，并返回给上位机显示，即控制信号、数据信号和视频信号的无线传输，其中控制信号和数据信号可用同一无线设备传输。图6.39机器人数传模块数传模块图传模块图6.40机器人摄像头与图传模块二、模块选择6.2.5传感器通讯模块设计（一）结构分离原则（软硬件分离原则）：分级别、分层次结构分离原则是考虑机器人系统设计的分工和效率。目前现有的机器人系统专用性强，通常采用源自专业领域的整体系统设计方法。

（二）功能分离原则（通用专用分离原则）：平台无关和平台相关原则功能分离是功能构件体系的基本出发点。（三）复合原则（可组合性）：由于机器人功能具有可以复合的特点，模块化机器人的功能构件应当具有可组合性，即应当具有可以复合的特性。（四）开放原则（可扩展性）：对机器人本身构造来讲，为了提高机器人软件的复用性，实现源码开放，资源共享，一些开源的机器人软件工程获到了快速发展，提出了自己的复用解决方案。一、硬件模块化设计基本原则6.2.6控制系统硬件设计二、底层节点模块三、传感器模块机器人感知系统的硬件平台设计的基本任务是根据其所连接的各种传感器的输出方式设计相应的信号接口处理电路，用于传感器的信号转换和处理。传感器模块总体来说包括执行器、模拟传感器和数字传感器，该模块是直接与物理世界连接的装备，一切信号的来源，实现物理信号到数字信息的转换。机器人感知系统节点是传感器与计算机或传感器网络之间连接的桥梁，解决传感器的异构性带来的诸多问题，完成从原始信号到数据的数据流过程，一般是指传感器与计算机或传感器网络之间的硬件连接设备，主要包括传感器信号的转换、调理电路，有时还包括模数转换器以及数据通讯的总线接口。6.2.6控制系统硬件设计一、机

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器人感知智能课件第5、6章机器人听觉感知、机器人感知系统智能化

文档简介

温馨提示

最新文档

评论

机器人感知智能 课件 第5、6章 机器人听觉感知、机器人感知系统智能化

文档简介

温馨提示

最新文档

评论

相关文档

机器人感知智能课件第5、6章机器人听觉感知、机器人感知系统智能化