人工智能通识教程 课件 第05章-机器视觉_第1页
人工智能通识教程 课件 第05章-机器视觉_第2页
人工智能通识教程 课件 第05章-机器视觉_第3页
人工智能通识教程 课件 第05章-机器视觉_第4页
人工智能通识教程 课件 第05章-机器视觉_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章机器视觉机器视觉概述内容内容概述机器视觉(MachineVision,简称MV)是人工智能的重要组成部分,旨在让计算机具备“看”和“理解”视觉信息的能力。它在图像识别、目标检测、视频分析等方面具有广泛的应用,与语音处理和自然语言处理并列为人工智能的核心应用领域,也是许多综合AI系统中的关键模块。例如,语音与图像结合的人机交互系统、基于视觉的智能机器人等。因此,它是学习和设计人工智能系统的重要基础。主要内容1. 什么是机器视觉:让机器看懂世界2. “老式眼镜”:机器视觉的传统技术3. 深度学习加持:让机器拥有“鹰眼”4. 机器眼睛的未来:从看世界到理解世界什么是机器视觉:让机器看懂世界一1.1认识机器视觉(1)内容内容工作流程:图像采集→预处理→特征提取→分析判断→执行操作系统组成:图像采集设备(相机、传感器)、图像处理单元、特征提取与分析算法、决策与控制单元定义:AI重要分支,模拟人类视觉系统,通过图像/视频提取信息、做出决策。1.1认识机器视觉(2)内容内容机器视觉的定义机器视觉是计算机科学、图像处理和人工智能等领域交叉的产物,指的是通过模拟人类的视觉系统,让机器能够“看到”并“理解”外界环境的技术。它的核心任务是从图像或视频中提取信息,进而做出判断和决策。机器视觉系统不仅仅是“看”,而且需要具备对图像的识别、理解与分析能力,进而完成复杂的操作和任务。1.1认识机器视觉(3)内容内容图像采集设备通过数字相机、CCD、CMOS传感器等设备捕捉静态或动态的图像数据。执行一系列图像增强、去噪、边缘检测、特征提取等操作。根据提取的特征与模式识别结果,进行判断与决策,并对外部设备发出控制指令。提取图像中的关键信息(如物体的形状、颜色、纹理等特征),并进行分类或分析。图像处理单元决策控制单元特征提取与分析算法1.1认识机器视觉(4)内容内容机器视觉工作流程图像采集:系统通过摄像头或其他成像设备采集待处理的图像或视频流。预处理:图像通常需要进行一系列预处理,包括去噪、增强对比度、调整亮度等。特征提取:系统通过一系列算法提取图像中的关键信息。分析与判断:基于提取的特征,机器视觉系统使用机器学习、深度学习等方法进行模式识别和分类。执行操作:根据判断结果,系统可以执行一些操作。1.2机器视觉的主要任务(1)内容内容图像分类判断图像中物体类型(如“这是狗”)图像分割将每个像素分配给不同物体/区域(如医学影像中标记肿瘤)目标检测识别物体并确定位置(用边界框标记,如街道中的行人、车辆)动态场景分析动作识别(如跳跃、走路)场景理解(如识别“公园”“房间”)1.2机器视觉的主要任务(2)内容内容图像分类

目标是让计算机判断图像中所包含的物体类型。图像分类的过程通常涉及将图像从像素级别的信息转换为类别标签,常见的应用包括动物图鉴、食品分类、疾病诊断等。目标检测

目标检测不仅告诉我们图像中有什么,还标出这些物体在图像中的具体位置(通常使用边界框)。目标检测常应用于自动驾驶、安防监控、工业自动化等领域。准确快速地检测并定位目标是实现智能决策和控制的基础。图像分割

.要求机器将图像中的每个像素分配给不同的物体或区域。与目标检测不同,图像分割不仅仅识别物体,还将每个物体的具体区域精确划分出来。动态场景分析

动作识别和场景理解是机器视觉中更为复杂的任务,它们要求机器不仅识别视频中的物体,还能理解它们之间的动态关系。010203041.3面临的挑战内容内容光线变化

不同光照下物体外观变化影响识别(如白天vs夜晚)物体遮挡

部分遮挡导致完整识别困难(如人群中识别行人)复杂背景

复杂背景:背景与物体特征相似时难以区分(如树林中找鹿)。多样性与不确定性

物体种类多、环境动态变化(如未见过的物体识别)1.4生活中的应用实例内容内容自动驾驶通过摄像头/传感器识别道路、行人、交通标志(如百度“阿波龙”、滴滴自动驾驶出租车)。人脸识别验证/识别身份(如手机面部解锁、机场自助登机)“老式眼镜”:机器视觉的传统技术二2.1特征提取与描述(1)内容内容边缘检测角点检测SIFT/SURF特征边缘,作为图像中亮度发生显著变化的区域,通常精准对应着物体的边界轮廓。边缘检测帮助机器快速锁定物体的大致形状,为后续的深入分析奠定基础。角点,作为图像中那些容易被跟踪、具有显著特征的区域。在目标跟踪任务中,角点能够作为稳定的特征点,帮助机器时刻锁定目标物体的位置变化。SIFT(尺度不变特征变换)无论图像是放大还是缩小,都能稳健地提取出关键特征。SURF(加速稳健特征)算法是在SIFT(尺度不变特征变换)算法的基础上进行改进。2.1特征提取与描述(2)内容内容边缘检测:让机器“看到”轮廓Sobel算子:通过严谨计算图像在水平方向和垂直方向的梯度,巧妙地检测出边缘的存在。它的核心原理在于,图像中边缘区域的像素值会呈现出急剧的变化。Canny边缘检测:首先采用高斯滤波技术对图像进行平滑处理;接着计算图像的梯度,明确边缘的大致方向;最后,采用双阈值策略来最终确定边缘。2.1特征提取与描述(3)内容内容角点检测:识别图像中的显著点Harris角点检测原理:当一个小窗口在图像上移动时,如果窗口内的区域包含角点,那么无论向哪个方向移动,窗口内像素的灰度值都会发生显著变化。Harris角点检测步骤:第一步是使用Sobel算子或其他梯度算子计算图像中每个像素点在水平方向和垂直方向上的梯度。接着,针对每个像素点,计算出协方差矩阵。最后,引入Harris响应函数为每个像素点计算出一个响应值,该值越大,表明该点越有可能是角点。最后,依据设定的阈值对角点响应函数进行筛选,只保留响应函数大于阈值的像素点。2.1特征提取与描述(4)内容内容SIFT/SURF特征:识别和匹配图像SIFT:致力于提取图像中那些稳定可靠的关键点,并生成一种独具特色的描述符,以便后续进行精准的图像匹配。SURF:SURF算法是对SIFT的改进。改进之一是使用了不同尺寸的盒子滤波器进行卷积处理;改进之二是在特征描述符的计算上也进行了优化,它采用了Haar小波变换。SIFT2.2图像处理基础(1)内容内容直方图均衡化平滑滤波平滑滤波技术致力于去除噪声,还原图像的清晰面貌。灰度变换将彩色图像转为单通道黑白图像(简化信息,降低计算量)。对图像的像素值进行重新分布,均匀地拉伸亮度范围,从而显著增强图像的对比度,让原本模糊不清的细节清晰地展现出来。2.2图像处理基础(2)内容内容灰度变换:简化图像信息原理:基于人眼对亮度的感知特性,它通过特定的算法将彩色图像中的每个像素点的RGB值转换为一个单一的灰度值。结果:经过灰度变换后,图像从色彩斑斓的彩色世界转换为简洁明了的黑白天地,原本复杂的颜色信息被简化为单一的亮度信息,使得图像的数据量大幅减少,计算处理起来更加高效快捷。2.2图像处理基础(3)内容内容平滑滤波:去除图像中的噪声均值滤波:给图像的每个像素点都召集了一群“邻居”,然后将该像素点的值替换为周围像素的平均值。均值滤波能够有效地平滑图像,去除那些孤立的噪声点。高斯滤波:高斯滤波的核心在于依据高斯函数来对周围像素进行加权平均。能够在去除噪声的同时,最大程度地保留图像的边缘和细节信息。2.2图像处理基础(4)内容内容直方图均衡化:增强图像对比度直方图的定义:直方图是对图像中像素值分布情况的一种直观统计表示,横坐标表示像素值的范围,纵坐标表示该像素值在图像中出现的频率。方法:通过映射函数将原始图像中的像素值按照一定规则转换为新的像素值。首先统计原始图像的直方图,然后根据直方图计算出每个像素值的累积分布函数(CDF),最后将CDF进行归一化处理,并乘以最大像素值范围,得到的结果就是每个原始像素值对应的均衡化后的新像素值。2.3早期技术的意义与局限内容内容意义奠定机器视觉基础,实现初步特征识别局限依赖专家设计特征(缺乏灵活性);难以处理复杂场景(遮挡、光照变化等)深度学习加持:让机器拥有“鹰眼”三3.1卷积神经网络(CNN)在视觉中的作用(1)内容内容原理

模拟大脑视觉处理,通过卷积层逐层提取特征(边缘→细节→整体),结合全连接层输出结果。

流程

输入层→卷积层(卷积核提取特征)→激活函数(引入非线性)→池化层(降维,保留关键特征连接层(分类/决策)

3.1卷积神经网络(CNN)在视觉中的作用(2)内容内容CNN在机器视觉中的应用原理CNN通过不同的卷积层(ConvolutionalLayer)来逐层提取图像中的特征。每一层CNN都会通过卷积操作从图像中“扫描”出特定的模式或特征,最后通过全连接层(FullyConnectedLayer)将这些特征组合起来,帮助机器理解图像的内容。在识别一只猫的图像时,CNN会先识别出图像中的边缘,再识别出猫的耳朵、眼睛、胡须等细节,最终合成出“猫”这个标签。3.1卷积神经网络(CNN)在视觉中的作用(3)内容内容CNN在机器视觉中的工作流程输入层接收图像数据,将其传递给第一个卷积层。卷积层中有多个卷积核(也称为滤波器),这些卷积核与图像像素进行加权求和的卷积运算,提取出局部的特征。不同的卷积核可以检测出不同的特征。经过激活函数(如ReLU函数)的处理,将卷积层输出的特征图中的每个像素值进行变换,使得特征图中的信息更加显著。池化层通常采用最大池化(MaxPooling)或平均池化(AveragePooling)操作,进一步降低特征图的尺寸,减少计算量,同时保留最重要的特征。经过多个卷积层、激活函数和池化层的交替处理,图像的特征被逐步提取和精炼。最后,通过全连接层将这些特征映射到最终的输出空间,进行分类任务。3.2深度学习应用案例内容内容图像分类目标检测语义分割自动识别类别(如AlexNet在ImageNet竞赛中突破,应用于电商商品分类、智能相册)识别+定位(如YOLO、SSD,应用于自动驾驶避障、安防异常检测)像素级分类(如UNet,应用于医学影像病灶分割、自动驾驶道路场景识别)3.3迁移学习(1)内容内容内容内容步骤:选择预训练模型→适配新任务数据→微调训练(更新部分层参数)优势:减少数据需求、提高精度、节省计算资源核心:利用预训练模型(如ResNet、VGG)解决新任务,无需从头训练。3.3迁移学习(2)内容内容内容内容迁移学习的核心思想迁移学习的核心思想是将一个在大规模数据集上预先训练好的模型应用到新的任务中,从而避免从头开始训练一个新模型。3.3迁移学习(3)内容内容内容内容迁移学习的优势减少数据需求:可以借用已有的大数据集来加速模型训练。提高精度:预训练模型通常已经在广泛的数据上学到了有效的特征,因此可以在较小的数据集上得到更好的结果。节省计算资源:通过迁移学习,可以避免从头开始训练一个深度神经网络,节省大量计算资源。3.3迁移学习(4)内容内容内容内容迁移学习的步骤选择合适的预训练模型,根据新任务的需求,从众多已有的预训练模型中挑选出最匹配的模型。对预训练模型进行适配,根据新任务的数据特点,调整输入层的参数,使其与预训练模型的数据分布相匹配进行微调训练,固定预训练模型的大部分层,只对最后几层进行微调,利用新任务的少量标注数据,通过反向传播算法更新这些层的参数,使模型适应新任务的需求。机器眼睛的未来:从看世界到理解世界四4.1前沿方向:从“看”到“理解”内容内容3D视觉

突破平面限制,感知深度与空间结构(方法:立体视觉、激光扫描、结构光投影,应用于自动驾驶、工业检测)视觉与NLP结合

图像描述生成(如用CNN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论