人工智能与未来 课件 8.2 计算机视觉概述_第1页
人工智能与未来 课件 8.2 计算机视觉概述_第2页
人工智能与未来 课件 8.2 计算机视觉概述_第3页
人工智能与未来 课件 8.2 计算机视觉概述_第4页
人工智能与未来 课件 8.2 计算机视觉概述_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ComputerVision第8章

计算机视觉2035主讲:王红梅目录CONTENTS8.18.28.38.4计算机视觉那些事计算机视觉概述人脸识别原理人脸识别实现8.506扩展:空间智能8.2.1什么是计算机视觉?8.2.2计算机视觉要解决的问题是什么?8.2.3我们人类如何“看世界”?8.2.4人类如何教会机器“看世界”?8.2.5机器要认识什么?8.2.6计算机视觉的处理方法8.2.7计算机视觉的任务、分类及应用8.2.8人脸识别、计算机机视觉和人工智能之间的关系

我们人类通过视觉可以和客观世界进行沟通和交流。讨论:(1)你有没有通过视觉进行交流过,举个例子呗!

(2)在交流的过程中,都会发生什么?试着描述。8.2.1什么是计算机视觉?

与人类和世界进行沟通和交流的情况类似。计算机视觉(ComputerVision,简称CV)是让机器通过模拟人类视觉来和世界沟通与交流的方式,具体来说就是通过数字图像或视频等视觉信息来模拟人类视觉的过程,以达到对物体的理解、识别、分类、跟踪、重建等目的的技术。8.2.1什么是计算机视觉?

计算机视觉要解决的问题主要是让机器能看见世界中的客观对象和对对象有一定的理解能力。

换句话说计算机视觉要研究的问题:(1)机器“看见”世界的能力,(2)机器“看懂”和“理解”世界的能力(3)机器能进行“沟通”和“交互”的能力。说到这个问题,要先从我们人类如何认识世界说起。8.2.2计算机视觉要解决的问题是什么?8.2.3我们人类如何“看世界”?

从最早感知光线的生物三叶虫到我们人类,自然界经历了5亿4千万年的努力,而这大部分的时间都是在完成人类大脑内视觉处理器官的进化,而不是眼睛本身。8.2.3我们人类如何“看世界”?

在这个非常漫长的过程,“视觉”从眼睛采集数据开始,而大脑才是它呈现意义的地方,8.2.3我们人类如何“看世界”?

(a)宝宝水杯

(b)妈妈的水杯

(c)爸爸的水杯幼年时期认识的各种水杯8.2.3我们人类如何“看世界”?

当我们认识足够多的水杯后,下次再见到一个水杯,不用告诉我们这是水杯,我们就可以认识到它是个水杯了,甚至还可以表达出一些需求,妈妈,我想要这个水杯

李飞飞在TED的演讲中,讲到3岁的孩子,他通过眼睛要看到3亿张的图片,并把它们存入大脑,3岁以后的孩子对世界的认识基本就建立起来了。人类对现实世界的认识其实就是建立在先认识、后识别的基础上。8.2.3我们人类如何“看世界”?

人类经过上亿年的进化,我们才具备用眼看世界和识别世界的能力,其实机器对世界的认识,也同样是经过先认识,再识别的过程。8.2.3我们人类如何“看世界”?8.2.4人类如何教会机器“看世界”?1839年能记录图像,照相机的发明1957年图像数字化20世纪60年代(1)三维视觉理解的研究(2)发明了图像传感器1959年二维图像的分析和识别20世纪90年代特征识别2009年高质量数据集ImageNet2006年至今深度学习在视觉中的应用

(一)出现有标注的高质量数据集

2009年,李飞飞教授等发布了ImageNet数据集。8.2.4人类如何教会机器“看世界”?

(一)出现有标注的高质量数据集

ImageNet数据集包含了1400多万幅图片。2万多个类别的大型数据库,这个数据集是一个用于图像识别和分类的大型数据库,‌包含了大量的标注图片,‌用于训练和测试图像识别算法。‌ImageNet数据集的规模和多样性对于推动计算机视觉领域的发展起到了重要作用,‌使得研究人员能够开发出更加准确的图像识别和分类算法。8.2.4人类如何教会机器“看世界”?

(二)2010年-至今深度学习在视觉中流行,在应用上百花齐放

2012年,AlexKrizhevsky、IlyaSutskever和GeoffreyHinton创造了一个“大型的深度卷积神经网络”,也即现在众所周知的AlexNet。8.2.4人类如何教会机器“看世界”?(三)计算机视觉应用系统主要包括图像采集、预处理、特征提取、图像识别和决策判断等模块。图像采集预处理特征提取图像识别输出结果场景决策判断8.2.4人类如何教会机器“看世界”?过程举个例子:高铁出现时人脸识别

8.2.5机器要认识什么?

机器认识对象,其实是对对应图像的认识,更准确地说是对从图像中提取出来的特征的认识,如人脸的轮廓、眼、鼻子、嘴巴、眉毛等特征,或是花朵的颜色、形状等特征。

8.2.5机器要认识什么?

要得到图像就需要图像采集系统了。对可见光的处理是计算机视觉的一个非常重要的应用,摄像头是可见光范围内常用的采集传感器。但在实际应用中的光学采集传感器还有很多,如雷达传感器、红外传感器等,他们的作用范围也不相同。

8.2.5机器要认识什么?

在本章,提到的传感器采集的数据主要是基于摄像头的光敏传感器采集的可见光范围的图像。

8.2.5机器要认识什么?

采集后,显示的是数字图像。数字图像由像素构成,其中每个像素有位置值和颜色值两个属性,位置用x、y表示,颜色用RGB表示。机器就是通过对这些像素值进行计算处理来认识图像。

8.2.6计算机视觉的处理方法计算机视觉的处理自动学习特征,但需要大量数据和计算资源传统基于特征学习的方法基于关键点的特征基于纹理的特征基于区域的特征基于颜色和形状的特征基于多尺度提取图像特征深度学习方法卷积神经网络(CNN)生成对抗网络(GAN)循环神经网络(RNN)Transformer架构等端到端,速度更快,使用更为简单和高效,尤其在嵌入式设备中,被广泛使用

以人脸识别为例,在机器实现人脸识别的的过程中,人们提出了很多有效的方法,主要经历了三个阶段。

8.2.6计算机视觉的处理方法

第一个阶段:基于几何特征的人脸识别方法,20世纪60至80年代思想:每个人的面部几何结构都是独特的

8.2.6计算机视觉的处理方法第二个阶段:自动化与算法化,20世纪90年代至21世纪初(a)原图

(b)多个找人脸的滑动窗口

(c)找到人脸通过滑动窗口来进行人脸识别

8.2.6计算机视觉的处理方法第三个阶段:深度学习方法,自21世纪初至今

杨立昆所开发的手写字识别技术,基于神经网络算法,成功地将邮局提供的9000份扫描件进行了识别,该技术亦被称为LeNet。

自2012年李飞飞的ImageNet数据集问世以来,杨立昆的学弟,更确切地说是辛顿的学生们,持续在大数据识别领域进行深入研究。随后,AlexNet诞生,它基于海量数据,在英伟达的图形处理单元上对神经网络算法进行了验证。数据算法算力

之后,深度学习方法在人类识别中取得了巨大成功,并大规模走向商业使用,基于特定数据集LFW(LabeledFacesintheWild,自然环境下带标注人脸数据集)上的识别率均在99%以上。研究表明,人类的识别率为97%左右,可见机器人脸识别远超人类人脸识别的水平。

8.2.6计算机视觉的处理方法第三个阶段:深度学习方法,自21世纪初至今

8.2.6计算机视觉的处理方法第三个阶段:深度学习方法,自21世纪初至今模型训练人脸识别准备阶段实施阶段如何认识人脸?解决这是谁的脸?解决深度学习的人脸识别流程(1)讲述李飞飞自身成长的励志书(2)讲述人工智能发展(3)讲述计算机视觉的发展...图书推荐

8.2.7计算机视觉的任务、分类及应用是什么?

在哪里?

是什么?在哪里?

像素的归属问题计算机视觉关于图像识别主要有四大任务,分别为分类、定位、检测和分割,不同任务解决不一样的问题。分类

定位

检测

分割计算机视觉关于图像识别主要有四大任务,分别为分类、定位、检测和分割,不同任务解决不一样的问题。

8.2.7计算机视觉的任务、分类及应用1.

分类(Classification)问题:图片里是什么?例子:给你一张图,判断是“猫”还是“狗”。技术本质:算法给整张图打一个标签,像老师批改选择题(单选)。实际应用:相册自动分类(猫/狗/风景)、垃圾邮件过滤(正常/垃圾)。关键特点:只关心“是什么”,不关心“在哪里”或“有多少”。计算机视觉关于图像识别主要有四大任务,分别为分类、定位、检测和分割,不同任务解决不一样的问题。

8.2.7计算机视觉的任务、分类及应用2.定位(Localization)问题:目标在哪里?(通常已知类别)例子:已知图中有猫,用框标出猫的位置。技术本质:在分类基础上加一个边界框,像用笔圈出答案。实际应用:人脸识别时框出人脸、自动驾驶中标记车辆位置。关键特点:通常针对单个目标,既要分类也要定位。计算机视觉关于图像识别主要有四大任务,分别为分类、定位、检测和分割,不同任务解决不一样的问题。

8.2.7计算机视觉的任务、分类及应用3.检测(Detection)问题:图中是什么?它们在哪里?例子:一张街景图中找出所有的车、行人、红绿灯,并分别标出位置和类别。技术本质:多目标定位+分类,像在一群小朋友中找出所有戴红帽子的并点名。实际应用:自动驾驶、安防监控(识别多个人或物体)。关键特点:处理多个目标,输出一堆边界框和类别标签。计算机视觉关于图像识别主要有四大任务,分别为分类、定位、检测和分割,不同任务解决不一样的问题。

8.2.7计算机视觉的任务、分类及应用4.分割(Segmentation)问题:每个像素归属问题?例子:把照片中的猫的每一根毛发、脚爪的像素都精确标出来,其他背景排除。技术本质:给每个像素分类,像用彩色笔给不同区域涂色(猫涂蓝色、狗涂青色)。细分类型:语义分割和实例分割:实际应用:医学图像(标记肿瘤区域)、地图分割等。关键特点:像素级精度,比检测的边界框更精细。计算机视觉关于图像识别主要有四大任务,分别为分类、定位、检测和分割,不同任务解决不一样的问题。

8.2.7计算机视觉的任务、分类及应用技术关联:这些任务通常共用底层技术(如卷积神经网络CNN)来完成,四个任务难度递增:(1)分类是基础,(2)检测=分类+定位的多次应用,(3)分割需要更精细的处理。根据应用的目的和场景不同

(1)图像分类(2)目标检测(3)目标跟踪(4)语义分割(5)实例分割有时候还会有些应用上的细分

8.2.7计算机视觉的任务、分类及应用

8.2.7计算机视觉的任务、分类及应用(1)图像分类。是一种利用计算机技术对图像进行处理、分析和理解,按照一定的分类规则将图像自动分到一组预定义类别中的过程。超市购物时能自动进行水果分类

8.2.7计算机视觉的任务、分类及应用(2)目标检测。是指在图像或视频中识别出目标物体所在的位置,并标注出其所属的类别。(3)目标跟踪。目标跟踪是指计算机视觉系统发现目标后,能在后续时间内,不管目标位置是否发生变化,始终“看到”目标并获得目标的实时位置、形态等信息。目标跟踪相当于动态进行目标检测。自动驾驶中的目标检测

8.2.7计算机视觉的任务、分类及应用(4)语义分割

语义分割旨在将输入图像中的每个像素标记为属于哪个语义类别。与目标检测和图像分类不同,语义分割不仅可以识别图像中的物体,还可以为每个像素分配标签,从而提供更详细和准确的图像理解。

8.2.7计算机视觉的任务、分类及应用(4)语义分割

主要应用:适用于对图像进行精细分割和像素级分类的场景,例如自动驾驶中的道路分割、医学图像中的病灶分割、地理信息系统中的土地分类等。

8.2.7计算机视觉的任务、分类及应用(5)实例分割

实例分割是结合目标检测和语义分割的一个更高层级的任务,旨在检测图像中的物体的同时将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论