大学计算机教程-计算与人工智能导论(第4版)课件 第8章 计算机视觉_第1页
大学计算机教程-计算与人工智能导论(第4版)课件 第8章 计算机视觉_第2页
大学计算机教程-计算与人工智能导论(第4版)课件 第8章 计算机视觉_第3页
大学计算机教程-计算与人工智能导论(第4版)课件 第8章 计算机视觉_第4页
大学计算机教程-计算与人工智能导论(第4版)课件 第8章 计算机视觉_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第8章计算机视觉8.1计算机视觉概述8.2计算机视觉任务8.3计算机视觉任务实战8.1计算机视觉概述8.1.1人类视觉vs.计算机视觉人类获取外部信息主要依赖视觉系统,在充满图像的世界中,我们能够自然、高效地识别物体和理解复杂场景。然而,对计算机而言,图像理解是一项复杂而具有挑战性的任务。2552542502452412552552512452452001992412402451931952422412411931941852552551911921902552558.1计算机视觉概述8.1.1人类视觉vs.计算机视觉计算机必须依赖算法和模型来解析视觉信息,而现实世界的场景建模充满复杂性与不确定性。为了解决这些问题,研究者们开始从人类视觉系统中汲取灵感,以提升计算机视觉系统的适应能力与鲁棒性。视网膜视觉通路视觉场景电信号感知传感器数学运算视觉场景电信号感知人类视觉系统计算机视觉系统8.1计算机视觉概述8.1.1人类视觉vs.计算机视觉计算机视觉是一门通过技术手段模拟人类视觉系统的科学,旨在让机器具备类似人类的“看”的能力。它通过成像设备采集图像,以计算机代替人脑对图像进行处理、分析与理解,实现对环境的自动感知与认知。核心任务包括图像和视频内容的识别、分类与解释。为此,计算机视觉不仅要解决图像的获取与处理问题,还需依靠算法支持,实现从像素级特征提取到语义层内容理解的全过程。8.1计算机视觉概述8.1.2计算机视觉发展史1959年,神经生理学家DavidHubel和TorstenWiesel发表研究成果,首次发现视觉皮层中的神经元会对线条和边缘的运动产生反应,揭示了视觉系统感知特征的机制。这一发现奠定了视觉神经科学的基础,也为计算机视觉领域的兴起提供了重要启发和理论支持。8.1计算机视觉概述8.1.2计算机视觉发展史1963年,LarryRoberts在其博士论文《三维实体的机器感知》中提出了开创性观点:将现实世界简化为基本几何图形,通过计算机识别和重组这些图形来理解三维场景。这一思想奠定了以理解三维结构为核心的计算机视觉研究基础。8.1计算机视觉概述8.1.2计算机视觉发展史1966年,麻省理工学院AI实验室举办了“SummerVisionProject”,研究团队一度乐观地认为暑假内即可解决计算机视觉难题,但最终发现构建实用的视觉系统远比预想复杂。尽管未达预期,该项目标志着计算机视觉作为独立科学领域的正式诞生,随后MITAI实验室开设了首个计算机视觉课程。8.1计算机视觉概述8.1.2计算机视觉发展史1982年,DavidMarr发表《愿景:对人类表现和视觉信息处理的计算研究》,受Hubel和Wiesel“视觉处理由局部到整体”理论启发,提出将边缘、角点等低级特征检测作为视觉高级理解基础的框架。同年,Marr出版《Vision》,标志计算机视觉作为独立学科正式确立。8.1计算机视觉概述8.1.2计算机视觉发展史21世纪以来,卷积神经网络的出现开启了计算机视觉的新纪元。与生物视觉系统类似,物体识别不依赖显式特征提取,而是通过多层自组织网络逐层抽象局部信息。每个神经元聚焦局部特征,经过层层整合,最终实现对图像全局信息的感知与理解。2018年图灵奖获得者:

YoshuaBengio、GeoffreyHinton和YannLeCun8.1计算机视觉概述8.1.3计算机视觉的基本任务图像分类是计算机视觉中的核心任务之一,目标是依据图像中所包含的语义信息,将图像自动归入预定义的类别中。这一过程要求模型能够理解图像的整体内容,并从中提取判别性特征,以实现准确分类。男人图像分类模型你能举出生活中常见的图像分类应用吗?8.1计算机视觉概述8.1.3计算机视觉的基本任务目标检测是计算机视觉中的关键任务,旨在从图像中自动识别出所有目标的位置,并确定其所属类别。该任务不仅要求准确分类每个目标,还需精确定位其在图像中的位置。通过模型处理,输入图像后可获得每个目标的检测框及其对应的类别标签,实现目标的同时定位与识别。目标检测模型目标检测模型在现实生活中可以应用于哪些场景?8.1计算机视觉概述8.1.3计算机视觉的基本任务图像分割是计算机视觉中的高级任务,相较于目标检测,其精度要求更高。目标检测仅需标出目标的大致位置,而图像分割需对图像中的每一个像素进行分类,精确区分目标与背景,或不同目标之间的边界。通过像素级的语义分组,图像分割能够实现更细致、结构化的图像理解,为精密视觉分析提供关键支持。图像分割模型8.1计算机视觉概述8.1.4计算机视觉与其他学科的联系计算机视觉与图像处理是密切相关的研究领域,均依赖于成像技术,并建立在数学、物理学与信号处理等理论基础之上。计算机视觉通过模拟人眼的视觉机制,融合神经生物学、人工智能和机器学习等方法,使计算机能够“看”并理解图像与视频。图像处理作为其核心组成部分,在计算机视觉和机器人控制中发挥着关键作用,实现环境感知与智能操作。在医学诊断、交通监控、虚拟现实等众多领域,计算机视觉展现出广泛的应用价值,成为推动科技进步和改善人类生活的重要力量。8.2计算机视觉基本任务8.2.1图像分类图像分类模型主要包括特征提取和分类器两个核心部分。简单的特征提取方法是将图像像素展开为一维向量,但该方法难以有效捕捉图像中的边缘、纹理和形状特征。因此,设计维数更低且能反映图像内在信息的特征表示对于提升分类准确性至关重要。输入图像特征提取分类器78.2计算机视觉基本任务8.2.1传统图像分类方法早期特征提取方法多依赖手工设计的图像算子,其中局部二值模式算子(LocalBinaryPattern,LBP)是典型代表。LBP通过比较中心像素与其邻域像素的灰度值差异,生成描述局部纹理信息的特征,有效捕捉图像的细节纹理结构。LBP算子考虑不同邻域的示意图8.2计算机视觉基本任务LBP计算过程假设我们有一个3x3的灰度图像局部区域,中心像素值为70,取中心像素周围8个邻居,按照顺时针进行判断。348060507065905540邻居像素3480606540559050是否≥70?010000108.2计算机视觉基本任务LBP计算过程按照顺时针顺序排列二进制值,得到:01000010将二进制数转换为10进制,因此中心像素的LBP值是66。0×2⁷+1×2⁶+0×2⁵+0×2⁴+0×2³+0×2²+1×2¹+0×2⁰

=0+64+0+0+0+0+2+0=668.2计算机视觉基本任务8.2.1传统图像分类方法LBP特征的主要优势在于计算简洁且对灰度和光照变化具有较强稳定性,因其基于局部像素关系,适合纹理分析和图像分类。提取LBP特征后,通常使用支持向量机等分类器进行训练,但传统分类模型性能受限,且依赖于手工设计的特征,缺乏泛化能力和鲁棒性,难以应对多样变化和噪声。为解决这些问题,近年来研究逐渐转向深度学习方法,通过自动学习更具表达力的特征,大幅提升分类准确性和鲁棒性,推动图像分类性能显著提升。8.2计算机视觉基本任务8.2.1深度图像分类方法2012年,AlexNet在ImageNet竞赛中以15.3%错误率大幅领先第二名,首次证明深度学习特征优于人工设计。其网络采用11×11、5×5和3×3卷积核,配合最大池化层和三个全连接层,实现对1000类目标的分类,最终通过Softmax输出概率。8.2计算机视觉基本任务8.2.1深度图像分类方法AlexNet的全连接层参数量最大,采用ReLU激活函数替代Sigmoid和Tanh,有效缓解梯度消失并加速训练。通过dropout随机失活增强泛化能力,结合数据增强技术防止过拟合。受限于硬件,AlexNet使用两块GPU并行训练,突破内存瓶颈。这一网络虽有改进空间,但奠定了深度学习在图像分类领域的基础,推动了后续模型的发展。8.2计算机视觉基本任务8.2.1深度图像分类方法2014年,VGG模型在ImageNet竞赛中获得第二名,因优秀的特征提取能力广泛应用于迁移学习和图像风格化。VGG主要有VGG-16和VGG-19两种变体,VGG-16由13个卷积层和3个全连接层组成,每隔2-3个卷积层后加最大池化层逐步下采样。8.2计算机视觉基本任务8.2.1深度图像分类方法VGG相较于AlexNet做出了关键改进。AlexNet采用大尺寸卷积核(11x11、7x7)捕捉大范围纹理,但计算复杂度高。VGG则用多个小卷积核(3x3)堆叠实现相同感受野,显著减少参数量和计算负担,同时使网络更深更精确。池化层方面,AlexNet用3x3最大池化,VGG改为更小的2x2最大池化,减少信息丢失,提升特征保留效果。8.2计算机视觉基本任务8.2.1深度图像分类方法8.2计算机视觉基本任务8.2.2目标检测目标检测是计算机视觉中的任务,旨在从图像或视频中识别并定位目标,输出物体的位置、大小和类别。与图像分类不同,分类任务对整幅图像进行整体分类,而目标检测不仅识别图像中的类别,还精确标注每个物体的位置,实现更细粒度的理解。8.2计算机视觉基本任务人类寻找目标的过程8.2计算机视觉基本任务8.2.2目标检测目标检测的核心任务包括两个方面:定位(localization)与分类(classification),两者需协同完成以实现对图像中目标的全面识别。定位:目标检测首先需要在图像中确定可能包含目标的区域,并估计其尺寸和位置。8.2计算机视觉基本任务8.2.2目标检测目标检测的核心任务包括两个方面:定位(localization)与分类(classification),两者需协同完成以实现对图像中目标的全面识别。分类:完成定位后,检测器需识别每个候选框中物体的类别。0.978.2计算机视觉基本任务8.2.2传统目标检测方法在早期的目标检测方法中,准确定位目标始终是一大挑战。为了解决这一问题,传统方法普遍采用滑动窗口策略来定位目标。该方法通过枚举图像中不同位置与尺度的区域,以穷举方式查找潜在的目标。8.2计算机视觉基本任务8.2.2深度目标检测方法基于深度学习的目标检测技术展现出两大显著优势:(1)能够直接预测图像中可能包含目标的位置与尺寸,有效规避了冗余搜索,大幅提升了检测速度,为实现实时目标检测奠定了基础;(2)可通过在大规模标注数据上的端到端训练,自动学习适用于目标检测的深层特征表示,不仅降低了对人为经验的依赖,也显著提升了检测的准确率与泛化能力。目前,基于深度学习的目标检测方法主要分为两类:一类是以RCNN系列为代表的两阶段检测方法,另一类是以YOLO系列为代表的单阶段检测方法。二者在检测速度与精度方面各具优势,是理解现代目标检测技术的核心基础。8.2计算机视觉基本任务8.2.2深度目标检测方法双阶段检测方法将目标检测任务划分为两个相互独立的阶段:候选区域生成:第一阶段使用特定的算法从输入图像中提取一批可能包含目标的候选区域。区域分类与边界框回归:第二阶段将这些候选区域送入一个分类器,对每个区域进行目标类别预测,并进一步精确回归出其边界框的位置。检测精度高,但检测速度相对较慢8.2计算机视觉基本任务8.2.2深度目标检测方法单阶段检测方法则将候选区域生成与最终检测(分类+回归)合并在一个网络中完成,直接从图像中同时预测目标的位置和类别,无需显式地生成候选区域。检测速度快,但检测效果相对较差8.2计算机视觉基本任务8.2.3语义分割语义分割是一项像素级别的图像理解任务,其目标是将图像中每个像素划分到预定义的类别之一,实现对图像中不同区域的语义理解。输出结果是一张与输入图像大小相同的标签图,每个像素的标签表示它所属的语义类别(如“狗”、“猫”或“背景”)。语义分割本质上是一种密集预测任务,要求模型同时理解图像的全局语义信息与局部位置信息,以准确预测每个像素的类别。8.2计算机视觉基本任务8.2.3深度语义分割方法全卷积网络是最早成功应用于语义分割任务的深

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论