智能物联网-课件第3章-多模态智能感知

上传人：q*** IP属地：山东上传时间：2026-05-09 格式：PPTX 页数：50 大小：5.91MB 积分：15 举报 版权申诉

智能物联网-课件第3章-多模态智能感知_第1页

智能物联网-课件第3章-多模态智能感知_第2页

智能物联网-课件第3章-多模态智能感知_第3页

智能物联网-课件第3章-多模态智能感知_第4页

智能物联网-课件第3章-多模态智能感知_第5页

已阅读5页，还剩45页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

×第三章多模态智能感知Crowd-agentDistributedMachineLearningMethods智能物联网导论课程组西北工业大学计算机学院目录3.1.物联网多模态感知背景

3.1.1多模态感知概念3.1.2物联网数据特征3.2.物联网中的视觉感知

3.2.1视觉感知基础3.2.2移动目标检测3.2.3移动地图构建

3.2.4视频流目标跟踪3.2.5视频动作识别3.1.1多模态感知概念感知技术是物联网的核心技术，是联系物理世界和信息世界的纽带。近年来，计算机视觉、图像、语音等技术快速普及，为物联网多模态智能感知技术发展提供了保障计算机视觉计算机听觉多模态融合“模态”就如同人的“感官”，多模态即融合多种“感官”。通过融合计算机听觉、视觉以及传感器等模态，物联网设备就具备了丰富的感知能力。计算机视觉技术致力于使计算机和摄像机能够对目标进行分割、分类、识别、跟踪和决策。计算机听觉旨在模拟人类对声音的感知和理解过程，对数字声音的内容进行理解和分析，实现自动化语音和声音识别，进而改变人与设备交互的方式。目录3.1.物联网多模态感知背景

3.1.1多模态感知概念3.1.2物联网数据特征3.2.物联网中的视觉感知

3.2.1视觉感知基础3.2.2移动目标检测3.2.3移动地图构建

3.2.4视频流目标跟踪3.2.5视频动作识别3.1.2物联网数据特征模态多样：物联网数据蕴含多种模态。例如，智能汽车装备了摄像头、激光雷达、超声波雷达等各种类型的传感单元时空关联：物联网感知节点持续获取的感知数据反应了相应情境信息在时间维度的演变规律不同感知节点获取的感知数据可能蕴含空间维度的关联规律规模海量：物联网数据是典型的大规模海量数据目录3.1.物联网多模态感知背景

3.1.1多模态感知概念3.1.2物联网数据特征3.2.物联网中的视觉感知

3.2.1视觉感知基础3.2.2移动目标检测3.2.3移动地图构建

3.2.4视频流目标跟踪3.2.5视频动作识别3.2.1视觉感知基础图像质量的好坏直接影响识别算法的设计和识别效果的精度，因此在进行图像分析之前，需要进行预处理灰度化几何变换图像增强图像预处理的主要目的包括：消除图像中的无关信息恢复有用的真实信息增强有关信息的可检测性最大限度地简化数据等从而改进特征提取、图像分割、匹配和识别的性能。3.2.1数据预处理彩色图像数据量大、处理开销高，常用减少数据量的方法是灰度化，以RGB模型为例，当R=G=B时表示灰度颜色，其中数值称作灰度值图像灰度计算方法分量法将彩色图像中三分量的亮度分别作为三个灰度图像的灰度值。最大值法将彩色图像中三分量亮度的最大值作为灰度图的灰度值。加权平均法根据重要性等指标，将三分量进行加权平均。平均值法将彩色图像中三分量亮度的平均值作为灰度图的灰度值。在灰度计算完成后，通常会对图像进行几何变换，以改正图像采集系统的系统误差和仪器位置导致的随机误差。3.2.1数据增强图像增强可以看做是针对给定图像的应用场景，有目的地强调图像的整体或局部特性，将原来不清晰的图像变得清晰或突出某些特定信息，提升图像识别效果，满足特殊分析需要空间域法是一种直接图像增强算法，分为：点运算算法，包括灰度级校正、灰度变换和直方图修正等。邻域去噪算法，包括图像平滑和锐化两种：平滑常用算法有均值滤波、中值滤波、空域滤波，锐化常用算法有梯度算子法、二阶导数算子法、高通滤波、掩模匹配法等。频率域法是一种间接图像增强算法，常用的频域增强方法分为低通滤波器和高通滤波器。高斯低通滤波器图像增强效果如下：(a)原始图像(b)截止频率5Hz(c)截止频率200Hz3.2.1边缘检测边缘检测是物联网图像处理与计算机视觉中极为重要的一种图像分析方法，其目的是找到图像中亮度变化剧烈的像素集合，一般表现为轮廓边缘一般在下面4种情况下产生：深度的不连续（物体处在不同的物平面上）；表面方向不连续（如正方体的不同的两个面）；物体材料不同（这样会导致光的反射系数不同）；场景光照不同（如被树萌投向的地面）。边缘检测图像示例3.2.1语义分割语义分割是像素级别的分类，即将同一类的像素划分为一类房屋汽车...最简单的语义分割技术是基于硬编码规则或属性的区域划分和标签分配，其中规则可以根据像素的属性进行构建。深度学习通过简化通道执行语义分割，显著提升了分割结果。目前，用于语义分割最简单和最流行的架构之一是完全卷积网络（FullyConvolutionalNetworks，FCN）。3.2.1图像滤波噪声在图像上表现为引起较强视觉效果的孤立像素点或像素块，形成对观测信息的不利干扰。对于数字图像信号，噪声表现为或大或小的极值，对图像造成亮、暗点干扰，降低图像质量，影响图像分割、特征提取、图像识别等后续处理中值滤波示例非线性滤波器是实现图像滤波的一类常用方法。能够在将特定噪声近似地映射为零的同时保留信号的重要特征，因而在一定程度上克服了线性滤波器的不足之处。中值滤波是基于次序统计完成信号恢复的一种典型非线性滤波器，最初用于时间序列分析，后来被用于图像处理，并在去噪复原中取得了较好效果。目录3.1.物联网多模态感知背景

3.1.1多模态感知概念3.1.2物联网数据特征3.2.物联网中的视觉感知

3.2.1视觉感知基础3.2.2移动目标检测3.2.3移动地图构建

3.2.4视频流目标跟踪3.2.5视频动作识别3.2.2移动目标检测视觉感知的一个重要应用是移动目标检测深度学习方法两阶段目标检测算法：需要生成一系列可能包含目标物体的候选边界框，然后再对样本进行分类。一阶段目标检测算法：不需要生成候选框，而是直接利用卷积神经网络提取特征输出物体的类别和位置。基于CNN的滑动窗口算法目录3.1.物联网多模态感知背景

3.1.1多模态感知概念3.1.2物联网数据特征3.2.物联网中的视觉感知

3.2.1视觉感知基础3.2.2移动目标检测3.2.3移动地图构建

3.2.4视频流目标跟踪3.2.5视频动作识别3.2.3移动地图构建作为自主定位导航技术的重要突破口，同步定位与地图构建技术成为关注焦点。与激光SLAM相比，视觉SLAM具有设备成本低、感知信息丰富等优势，更有利于场景重建。视觉SLAM主要可以分为单目、双目（多目）、RGBD三类。视觉SLAM技术框架传感器数据：在视觉SLAM中主要为相机图像信息的读取和预处理。视觉里程计：又称前端，主要任务是通过相邻帧间的图像估计相机运动和恢复场景的空间结构。后端优化：后端优化主要处理SLAM过程中的噪声问题。回环检测：回环检测是指机器人识别曾到达场景的能力。地图构建：地图构建是根据估计所得轨迹建立满足任务要求对应的地图。3.2.3地图构建机器人学中常用的地图表示方法有栅格地图、特征点地图、直接表征法及拓扑地图栅格地图是最常见的一类环境描述方式。其中每个“像素”表示实际环境中存在障碍物的概率分布。特征点地图利用几何特征表示环境。相比于栅格地图，这种地图看起来不够直观。直接表征法直接用传感器读取的数据来构造机器人的位置空间，相对来说更加直观。拓扑地图是一种相对抽象的地图形式，这种方法只记录所在环境拓扑连接关系。3.2.3路径规划连续域范围内的路径规划主要包括环境建模、路径搜索、路径平滑三个阶段环境建模路径搜索路径平滑左图为环境建模结果；右图中黑色线条表示规划得到的路径3.2.3点云拼接在物联网的场景视觉感知中，通常需用对不同角度、位置的感知视图进行融合，以得到更加全面准确的点云地图，即点云拼接两点云间建立对应关系计算点云间变换关系特征点检测对应关系配准后点云目前，主流的方法是使用3DMatch等深度学习方法。由于体素化通常会导致点云质量损失，因此进一步提出PPFNet等优化网络。3.2.3三维渲染图像渲染是将三维的光能传递处理转换为二维图像的过程三维渲染一般流程图像渲染结束后，会把图像信息输出到图像文件或视频文件，或者是显示设备的帧缓存器中。目录3.1.物联网多模态感知背景

3.1.1多模态感知概念3.1.2物联网数据特征3.2.物联网中的视觉感知

3.2.1视觉感知基础3.2.2移动目标检测3.2.3移动地图构建

3.2.4视频流目标跟踪3.2.5视频动作识别3.2.4视频流目标跟踪视频目标跟踪是指随着时间推移在视频流中检测和定位移动目标的过程目标跟踪过程（四个阶段）分类实践目前主流的目标跟踪算法可分为：单目标多目标另一种分类方式为：离线跟踪在线跟踪GOTURN是一种基于卷积神经网络的离线学习跟踪器，甚至可以跟踪不属于训练集的目标。目标初始化外观建模运动估计目标定位目录3.1.物联网多模态感知背景

3.1.1多模态感知概念3.1.2物联网数据特征3.2.物联网中的视觉感知

3.2.1视觉感知基础3.2.2移动目标检测3.2.3移动地图构建

3.2.4视频流目标跟踪3.2.5视频动作识别3.2.5视频动作识别动作识别是视频理解领域的一个重要问题，亦是物联网环境中常见的应用之一深度学习方法Two-StreamCNN分为两个部分，一部分处理RGB图像，一部分处理光流图像。视频动作识别示意在深度学习之前，iDT是最经典的一种视频动作识别方法。相比于DT算法，其主要改进是利用前后两帧视频之间的光流以及SURF关键点进行匹配，从而消除或减弱摄像机移动带来的影响。目录3.3.物联网中的听觉感知

3.3.1听觉感知基础3.3.2语音识别模型

3.3.3人机语音交互3.4.物联网中的多模态融合感知

3.4.1多模态感知数据融合方法3.4.2多模态融合感知挑战和机遇3.5.习题3.3.1听觉感知基础语音信号质量影响听觉感知模型和算法设计的重要因素。因此，在进行语音分析之前需要进行预处理，即通过信号去噪和增强提升语音信号质量，为提取有效的语音特征奠定基础。语音信号预处理的步骤：语音信号去噪

去除混在有用信号中的噪声而保留有用的语音成分语音信号特征提取

通过提取表征不同目标语音特性的信息，挖掘内在特征，为语音分类奠定基础。3.3.1语音信号去噪噪声不仅存在于语音环境中，在语音传输的过程中同样会带来噪声，即乘性噪声；乘性噪声可以通过同态处理等方法变为加性噪声在语音去噪中主要对加性噪声进行去噪处理语音去噪原理示意传统语音去噪法深度语音去噪法：克服了传统方法对噪音类型的假设和对噪音估计不准确的问题，并且能够充分利用语音的先验信息。语音去噪方法分类3.3.1语音信号去噪传统语音去噪法谱减法：对带噪语音信号进行傅里叶变换，将带噪信号的功率谱与噪声功率谱进行减法运算获得纯净语音信号的频谱，再由傅里叶逆变换得到纯净语音波形。子空间分解法：假定纯净语音信号的子空间和噪声信号的子空间彼此正交，含噪语音信号空间可以分解为纯净语音和噪音两个子空间，通过将噪声子空间置零完成对含噪语音的去噪。统计模型法：将语音去噪问题归入统计估计的框架中，假定语音信号统计独立且服从特定分布（如高斯分布），通过估计纯净语音信号的统计而实现去噪。深度语音去噪法频域法：在深度神经网络的训练阶段和去噪阶段都对语音信号进行时频分解、特征提取等操作，提取的特征送入网络训练并预测输出纯净语音特征以实现语音去噪。波形域法：直接学习时域波形层的映射关系，因此亦被称为端到端的去噪方法。波形域法在语音去噪过程中保留了更多的原始波形信息并且在信号重建过程中不依赖信号的相位信息，当信噪比很低时同样能够还原出高质量的语音信号。3.3.1语音信号特征提取语音特征参数包括时域特征、频域特征以及描述语音信号时序信息的时频谱特征和听觉特征。语音时域特征提取

时域特征：短时平均能量、短时平均幅度和短时平均过零率等短时平均能量：描述语音信号的能量短时平均幅度：描述语音信号幅度变化的指标短时平均过零率：语音信号呈现零电平的次数或者相邻取样正负交替的次数语音频域特征提取

频域特征：线性预测倒谱系数LPCC和梅尔频率倒谱系数MFCC线性预测倒谱系数：基于声道模型表示的特征参数，为了避免激励信息对语音信号的影响，提高特征参数的稳定性，将LPC系数进行倒谱域变换得到LPCC，达到分离激励信号和声道响应信号的目的；梅尔频率倒谱系数MFCC：基于听觉特性的特征目录3.3.物联网中的听觉感知

3.3.1听觉感知基础3.3.2语音识别模型

3.3.3人机语音交互3.4.物联网中的多模态融合感知

3.4.1多模态感知数据融合方法3.4.2多模态融合感知挑战和机遇3.5.习题3.3.2语音识别模型语音识别是将输入语音序列转换为对应单词或字符序列的过程，可理解为一个信道编码或者模式分类问题，分为两个部分：前端部分和后端部分。语音识别系统一般结构前端部分：完成语音信号的预处理与特征提取，通过端点检测、降噪技术、特征提取等过程将语音信号转换为一串特征序列。提升输入观测信号的质量，为后端提供更好的特征信息。

3.3.2语音识别架构语音识别建模

语音识别架构3.3.2混合架构

HMM中状态路径的概率计算

3.3.2混合架构语言模型

3.3.2混合架构的经典模型以声学模型和语言模型为基石的混合架构从诞生到不断完善，混合架构的两种经典模型为GMM-HMM模型和DNN-HMM模型。

GMM-HMM语言识别架构示意DNN-HMM语言识别架构示意

DNN-HMM模型：无需假设语音声学特征的分布服从高斯分布，避免了假设前提带来的性能损失；GMM模型为了方便期望最大算法优化，需要对使用的特征进行去相关处理，DNN模型可以使用多种类型的特征；GMM由于不同维度的特征须服从独立性假设，因此只能采用单帧输入，DNN可以通过拼帧增强特征在时间维度的上下文相关性。3.3.2端到端架构端到端结构的实现思路可划分成两类。保留现有声学模型结构，通过修改损失函数来实现序列到序列的映射关系，其代表是基于连接时序分类准则的语音识别；通过模型结构建模输入输出之间的序列映射关系，其代表是基于编码－解码模型的语音识别。3.3.2端到端架构基于连接时序分类准则的语音识别CTC-RNN语音识别架构示例CTC输入输出序列路径对齐通过设计目标函数而非调整模型结构实现端到端语音识别建模；语音的非平稳属性，语音输入特征一般以帧级为单位，由此导致输入音频特征序列的数量远远多于输出文本序列，即输入序列中的多个单元对应于输出序列中的一个单元。去除输入序列中的重复部分，解决这种多对少的对应关系；最后由CTC层完成序列“去重”。3.3.2端到端架构基于编码-解码的语音识别基于编码-解码的语音识别示意图编码-解码模型是对输入输出间的序列映射关系进行建模的模型，可以将给定的输入序列映射到对应的目标序列。语音识别中使用的编码-解码模型一般为基于注意力机制的编码-解码模型，是一种端到端的结构，即以语音序列作为输入，直接输出相对应的文本序列。目录3.3.物联网中的听觉感知

3.3.1听觉感知基础3.3.2语音识别模型

3.3.3人机语音交互3.4.物联网中的多模态融合感知

3.4.1多模态感知数据融合方法3.4.2多模态融合感知挑战和机遇3.5.习题3.3.3人机语音交互人机语音交互是用户通过语音输入，系统利用人工智能等技术为用户提供反馈，实现人与机之间的智能语音交互。Eliza人机交互系统ALICE人机交互系统亚马逊Echo智能音箱人机语音交互系统历程问答系统阶段：系统根据用户命令执行任务并提供反馈；有限制多轮对话阶段：系统结合多轮次对话理解用户复杂命令，可在一定范围内使用自然沟通方式并执行命令；自然对话阶段：系统能够通过无限制的自然语言进行沟通且没有其他限制。3.3.3人机语音交互人机语音交互系统构成智能人机语音交互系统的一般架构主要由语音识别、自然语言理解、自然语言生成、语音合成等模块构成。人机语音交互系统构成示意自然语言理解（NLU）理解用户输入的语义信息。在智能语音交互系统中，当用户发出对话指令后，由语音识别模块转换为文字序列，自然语言理解模块负责在此基础上进一步理解其蕴含的语义信息即用户意图。自然语言生成（NLG）根据语义理解结果生成应答/回复文本。自然语言理解系统通过理解输入语句的含义产生机器表述语言，自然语言生成系统则基于机器表述生成自然语言。语音合成（SpeechSynthesis）从语言文本到语音信号的转换过程；统计参数语音合成和拼接语音合成是当前语音合成技术的两种主流方法。目录3.3.物联网中的听觉感知

3.3.1听觉感知基础3.3.2语音识别模型

3.3.3人机语音交互3.4.物联网中的多模态融合感知

3.4.1多模态感知数据融合方法3.4.2多模态融合感知挑战和机遇3.5.习题3.4物联网中的多模态融合感知多模态感知数据蕴含着彼此关联而互补的信息，从不同侧面共同描述了感知目标的状态信息。滴滴于2021年发布了双子星自动驾驶硬件平台，

该平台搭载50余个不同类型的传感器，最远探测距离超过300米，最小可探测距离为10厘米，车规级相机像素总和超1亿，可以有效提升车辆在树荫、隧道、雨雾、逆光、黑夜等复杂场景下的感知能力，使得自动驾驶系统达到更高的安全等级。滴滴双子星自动驾驶硬件平台目录3.3.物联网中的听觉感知

3.3.1听觉感知基础3.3.2语音识别模型

3.3.3人机语音交互3.4.物联网中的多模态融合感知

3.4.1多模态感知数据融合方法3.4.2多模态融合感知挑战和机遇3.5.习题3.4.1多模态感知数据融合方法传统多模态数据融合技术主要分为三种类型：数据级融合->融合不同模态的原始数据特征级融合->在特征空间中融合数据目标级融合->融合各模态预测结果前融合深度融合在此基础上，领域学者进一步提出分为强融合和弱融合的分类方式，其中强融合则细分为：前融合深度融合不对称融合后融合后融合不对称融合多模态感知数据融合方式目录3.3.物联网中的听觉感知

3.3.1听觉感知基础3.3.2语音识别模型

3.3.3人机语音交互3.4.物联网中的多模态融合感知

3.4.1多模态感知数据融合方法3.4.2多模态融合感知挑战和机

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论

 联系客服

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。人人文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知人人文库网，我们立即给予删除！

川公网安备: 51019002004831号 | 备案号:蜀ICP备2022000484号-2 | 经营许可证: 川B2-20220663
Copyright © 2020-2026 renrendoc.com 人人文库版权所有违法与不良信息举报电话：400-852-1180

/ 50

  0
 分享

复制分享文档地址

https://www.renrendoc.com/paper/521768820.html

复制

下载本文档