《新一代信息技术与人工智能导论》课件第6章 计算机视觉_第1页
《新一代信息技术与人工智能导论》课件第6章 计算机视觉_第2页
《新一代信息技术与人工智能导论》课件第6章 计算机视觉_第3页
《新一代信息技术与人工智能导论》课件第6章 计算机视觉_第4页
《新一代信息技术与人工智能导论》课件第6章 计算机视觉_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章

计算机视觉01计算机视觉概述02计算机视觉的基础任务03计算机视觉的挑战与未来方向目录contents016.1计算机视觉概述什么是计算机视觉Image.jpg,25*25,10kb英文小写字母“b”

在计算机视觉诞生之前,一张图片对于计算机而言只是一个文件,计算机并不知道图片里的内容到底是什么,只知道这张图片是什么尺寸,多少MB,什么格式的。计算机视觉让计算机拥有像人类一样感知视觉世界并从图像中了解场景和环境的能力。4图像的表示与存储

在计算机中,图像以数字形式表示和存储。最常见的图像表示方式是像素矩阵,即把图像分割成一个个小的单元,每个单元称为一个像素(Pixel)。像素是构成图像的最小单位,它记录了图像在该位置的颜色和亮度信息。对于灰度图像,每个像素用一个数值表示其亮度,数值范围通常在0~255之间。0表示黑色,255表示白色,中间值表示不同程度的灰色。例如,下图展示了一幅灰度图像的像素矩阵表示。5图像的表示与存储

彩色图像通常采用RGB(红、绿、蓝)色彩模型进行表示。每个像素由三个数值分别表示红色、绿色和蓝色通道的强度,每个通道的取值范围也是0-255。通过不同强度的红、绿、蓝组合,可以生成各种颜色。例如,RGB值为(255,0,0)表示纯红色,(0,255,0)表示纯绿色,(0,0,255)表示纯蓝色,(255,255,255)表示白色,(0,0,0)表示黑色。图6-2展示了一幅彩色图像及其RGB通道表示。6图像的表示与存储7存储格式压缩方式特点应用场景JPEG有损压缩文件小,图像质量有损失照片存储、网络图片PNG无损压缩支持透明通道,图像质量高图标、透明背景图像BMP无压缩图像质量最高,文件大图像编辑临时存储GIF无损压缩支持动画,颜色数有限简单图标、动画TIFF无损/有损压缩灵活,支持多种数据类型专业图像处理、印刷1959年,神经生理学家DavidHubel和TorstenWiesel通过对猫的视觉进行实验,极大地推进了对视觉感官处理的理解。20世纪70年代,DavidMarr教授融合心理学、神经生理学、数学等多门学科,提出了有别于前人的计算机视觉分析理论,出版著作《Vision》标志着计算机视觉成为了一门独立学科。计算机视觉发展历程81989年,YannLeCun将反向传播学习算法应用于卷积神经网络结构,发布了LeNet-5--这是第一个引入今天仍在CNN中使用的一些基本网络结构的现代神经网络。2012年,AlexKrizhevsky在ImageNet数据集上训练了卷积神经网络,其图像分类性能大大超过了以前的先进方法。这引起了人们对使用深度学习的神经网络的研究和兴趣。2015年,微软亚洲研究院的何凯明等人提出的ResNet(Resid-ualNetwork)通过引入残差块(residualblocks)解决了深度网络遇到梯度消失或爆炸问题。计算机视觉发展历程92019年,Transformer采用了一种叫做注意力机制的方法大大提升了深度网络性能。图中纸制品都是黑白印刷的,但咖啡杯是红色的,咖啡杯在这种视觉环境中是突出和显眼的,所以我们会把注意力放到咖啡上。Transformer的机制也是如此。2022年,OpenAI发布ChatGPT,这使得人工智能与大模型进入了大众的视野。ChatGPT是一个基于大规模预训练的对话生成模型,专门用于处理对话场景。ChatGPT对大模型的解释比大部分定义更为通俗易懂,也更体现出类似人类的归纳和思考能力,实现了智能的涌现,展现出类似人类的智能。计算机视觉发展历程10026.2计算机视觉的基础任务图像数据处理是计算机视觉的重要步骤,其旨在提高图像的质量并获取更多有用的信息。常见的图像数据处理技术包含图像的缩放和旋转、噪声的去除、灰度变化等。提高图像的清晰度和可识别性,为后续任务的特征提取和分类识别等任务提供更好的基础。12图像处理图像分类图像分类概述图像分类是计算机视觉领域重要的任务之一,其主要任务便是让计算机能够从给定的图像中识别出所属的类别,以替代人眼对图像的观察和判断。图像分类的应用包含人脸识别,车牌识别等。13图像分类人脸识别人脸识别通过对输入人脸的特征进行分析与对比,来确认输入人脸的身份,广泛用于身份验证、安全监控、访问控制等领域。人脸识别通常包含人脸检测(facedetection)、人脸预处理(facepreprocess),人脸表征(facerepresentation)与相似度计算(calculatesimilarity)等步骤。14图像分类车牌识别车牌识别是一种基于计算机视觉和图像处理技术的自动化系统,用于从车辆图像或视频中检测、提取并识别车牌号码。它是智能交通管理(如电子收费、违章监控)、停车场管理、安防监控等领域的核心技术之一。车牌识别通常包括车牌检测、字符分割、字符识别步骤。使用算法(如边缘检测、深度学习模型)从图像中定位车牌位置,区分车牌与其他物体(如车身、背景)。将检测到的车牌区域进一步分割为单个字符(数字、字母或地区符号),便于后续识别。通过光学字符识别(OCR)技术(如卷积神经网络CNN)识别分割后的字符,输出车牌号码。15目标检测目标检测概述目标检测(objectdetection)的任务是找到图像或视频中所有感兴趣的目标(物体),并确定他们的类别与位置信息。16目标检测目标检测经典方法两阶段(two-stage):首先由算法生成一系列作为样本的预选框,再通过卷积神经网络进行样本分类。常见的算法有Faster-rcnn,Mask-rcnn等系列。单阶段(one-stage):不需要产生候选框,直接将目标框定位的问题转化为回归(Regression)问题处理。常见的算法有YOLO、SSD系列。目标检测的应用包含人脸检测、行人检测、车辆检测、遥感检测等。17语义分割语义分割概述语义分割(semanticsegmentation)就是让计算机根据图像的内容进行分割,在原始的图像中逐像素的找到需要的目标。与目标检测任务相似的是,语义分割需要对整张图像的语义信息进行理解,判断某一区域是什么(人、树等),但语义分割的细粒度更高,它需要对整张图像逐个像素进行分类(这个像素点是人,树还是背景等)。18语义分割语义分割当前应用无人车驾驶:语义分割也是无人车驾驶的核心算法技术,车载摄像头,或者激光雷达探查到图像后输入到神经网络中,后台计算机可以自动将图像分割归类,以避让行人和车辆等障碍。医疗影像分析:随着人工智能的崛起,将神经网络与医疗诊断结合也成为研究热点,智能医疗研究逐渐成熟。在智能医疗领域,语义分割主要应用有肿瘤图像分割,龋齿诊断等。(下图为龋齿诊断)190201视频数据处理视频目标跟踪视频理解03人体行为识别20视频增强。用于改善视频的整体质量,如对比度增强、色彩校正等。视频数据处理21使用编码算法去除视频中的冗余信息,视频文件缩小。其中常见的压缩方法有H.264/AVC、H.265/HEVC、VP9、AV1视频压缩视频数据处理22H.264H.265视频数据处理不同压缩下的视频分块23单镜头下的单类别目标跟踪:在单个镜头下,对于同一种类别的多个目标进行连续跟踪,是跟踪任务的基础。左图就是对行人进行跟踪。视觉目标跟踪24除了日常跟踪任务,针对还有针对特定场景存在出现目标遮挡的问题,进行适配的行人的人脸跟踪。视觉目标跟踪25视觉目标跟踪多目标跟踪:对单镜头中多种不同类别的目标进行跟踪。如左图实现跟踪类别覆盖人、自行车、小轿车、卡车、公交、三轮车等不同目标。26复杂行为识别是指识别和理解包含多个步骤、相互关联的动作序列,以及需要推理和上下文理解的行为。简单来说,就是识别那些“不止一个动作,而是多个动作组合起来完成的任务”的行为。人体行为识别27识别为跳舞036.3计算机视觉的技术瓶颈与未来方向现有瓶颈29需要大量标注数据,数据获取以及人工标注成本高,特别是一些特殊领域。数据依赖01在已知数据集上训练好

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论