版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1
教材:
胡玉荣,余云霞,董尚燕,李俊梅,
《人工智能导论》,清华大学出版社,2025.9人工智能导论第6章计算机视觉6.1计算机视觉概述6.2计算机视觉的主要研究内容6.3常用的计算机视觉工具6.4计算机视觉的应用实例—人脸识别26.1计算机视觉概述3
计算机与人工智能想要在现实世界发挥重要作用,就必须看懂图像,这就是计算机视觉要解决的问题。具体来说,计算机视觉要让计算机具有对周围世界的空间和物体进行传感、抽象、判断的能力,从而达到识别、理解的目的。图6-1包含花草和小狗的图像6.1计算机视觉概述6.1.1计算机视觉定义6.1.2计算机视觉的应用领域46.1.1计算机视觉的定义56.1.2计算机视觉的应用领域6图6-2计算机视觉在手术中的应用6.1.2计算机视觉的应用领域7图6-2计算机视觉在交通中的应用6.2计算机视觉的主要研究内容6.2.1图像处理6.2.2目标检测6.2.3图像分割86.2.1图像处理91.图像增强图像增强技术是一种对图像进行处理的方法,其核心在于不考虑图像噪声产生的具体原因,而是专注于图像中某些特定部分的处理,以突出有用的图像特征信息。就像给图像“打光”,让图像中的某些部分更亮或者更清晰。图6-3亮度调整前的图像图6-4亮度调整后的图像6.2.1图像处理101.图像增强图像增强技术的目的是提高图像的可辨识性,但处理后的图像信息可能与原始图像信息不完全一致。图像增强技术主要应用于需要突出图像中特定特征的场景。
图像增强可以改善图像的视觉效果,使其更适合人眼观察或机器分析。常见的图像增强方法包括对比度增强、亮度调整、锐化等。例如,通过亮度调整,可以增强图像的对比度,使图像中的细节更加清晰可见。6.2.1图像处理112.图像去噪对数字图像处理而言,噪声是指图像中的非本源信息。图像在采集和传输过程中往往会受到噪声的干扰,导致图像质量下降。噪声会影响人的感官对所接收的信源信息的准确理解。图像去噪的目的是去除图像中的噪声,恢复图像的原始信息。图像去噪就像是给图像“除杂草”,把图像中的干扰信息(噪声)去掉,让图像更干净。降噪是图像处理中至关重要的预处理步骤。6.2.1图像处理122.图像去噪在实际应用中,有多种去噪方法可以用于改善被噪声污染的图像质量。常见的去噪方法(即算法)有均值滤波、中值滤波、高斯滤波等算法,其中高斯滤波算法在许多图像处理任务中被广泛应用。图6-5去噪前的图像图6-6去噪前的图像6.2.1图像处理133.边缘检测
边缘检测是计算机视觉和图像处理领域中的一个关键步骤,其主要目的是提取图像中的边界信息,这些信息通常代表了图像中的重要特征,如物体的轮廓、形状和结构。边缘检测就像是在图像中画出“轮廓线”,找出物体的边界。图6-7边缘检测前的原图图6-8边缘检测后的效果图6.2.1图像处理143.边缘检测
简单来说,边缘就是图像中因为物体的形状、材料或者光照条件不同而形成的分界线。边缘检测的实质就是找到图像中亮度变化剧烈的像素点构成的集合,表现出来往往是轮廓。
在图像中,边缘表示一个特征区域的终结和另一个特征区域的开始,这些区域的内部特征或属性是一致的,而不同区域的特征或属性是不同的。边缘检测利用物体和背景在图像特性上的差异来实现,这些差异包括灰度、颜色或者纹理特征。6.2.1图像处理153.边缘检测
边缘检测实际上是检测图像特征发生变化的位置。
常见的边缘检测方法(即算法)有:Sobel算子、Canny算子等方法。
边缘检测是图像处理中的一个重要任务,它用于检测图像中物体的轮廓和边界,可以为后续的目标识别和图像分割提供了重要的基础。6.2.1图像处理164.特征提取
判断目标为何物或者测量其尺寸大小的第一步,是将目标从复杂的图像中提取出来。例如,在街景中对行人的提取;在川流不息的道路中识别过往车辆和交通标志。
人眼在杂乱的图像中搜寻目标物体,主要依靠颜色和形状差别。
计算机视觉在提取物体时,也是依靠颜色和形状差别,即图像特征。计算机里没有这些图像特征,需要人们利用计算机语言,通过某种方法,将目标物体的知识输入或计算出来,形成判断依据。6.2.1图像处理174.特征提取
特征提取就像是从图像中找出最重要的“线索”。比如,想让计算机识别出照片中的人脸,就需要提取人脸的特征,比如眼睛、鼻子、嘴巴的形状和位置。这些特征就像是人脸的“指纹”,帮助计算机识别出这是一个人脸。图6-9特征提取的输入图像与特征提取效果图6.2.1图像处理184.特征提取
特征提取的实质就是从图像中提取有助于描述图像内容的特征。这些特征可以是颜色、纹理、形状或基于学习的特征。特征提取是图像分析的关键步骤,因为它直接影响到图像识别和分类的性能。
传统的特征提取方法包括边缘检测、角点检测和纹理分析等方法。近年来,基于深度学习的特征提取方法(如卷积神经网络)已成为主流,因为它们能够自动学习图像的高层次特征。6.2.2目标检测191.目标检测的基本概念
目标检测是计算机视觉领域的一个核心任务,其目的是在图像中确定图像中目标物体的位置和大小。简单来说,目标检测的目标就是在一张图片里找出人们关心的物体,并且告诉人们在哪里。
目标检测不仅要认出物体是什么,还要准确地指出它们的位置。通常用一个框(叫作边界框)来标注物体的位置。6.2.2目标检测201.目标检测的基本概念
目标检测在多个领域有着广泛的应用。例如在自动驾驶系统中,汽车需要实时检测路上的行人、其他车辆和交通标志,这样才能安全地行驶。目标检测是让计算机“看懂”世界的关键技术之一。图6-10目标检测结果图6.2.2目标检测212.目标检测的任务
1)分类(Classification)判断图像中包含哪些类别的目标。例如,在一个场景图像中,分类任务需要识别出图像中是否存在汽车、行人、交通标志等。
2)定位(Localization)确定目标在图像中的位置。一般是通过在图像上绘制边界框来实现,边界框是一个矩形框,能够精确地框出目标的位置。6.2.2目标检测222.目标检测的任务
3)检测(Detection)结合分类和定位,不仅识别出目标的类别,还要确定其位置。这是目标检测最重要的任务,例如在自动驾驶场景中,检测系统需要实时识别并定位道路上的行人和车辆。
4)分割(Segmentation)进一步细分为实例级分割和场景级分割。实例级分割要求对每个目标进行像素级的分割,即确定每个像素属于哪个目标;场景级分割则关注于对整个场景的语义分割,例如区分道路、天空、建筑物等。6.2.2目标检测233.目标检测的核心问题1)分类问题确定目标属于哪个类别。这要求检测系统能够准确地识别出图像中的不同物体,并将其归类到预定义的类别中。例如,在一个包含多种动物的图像中,系统需要能够区分出哪些是猫,哪些是狗。
2)定位问题确定目标在图像中的位置。定位通常通过边界框来实现,边界框的坐标(如左上角和右下角的坐标)需要尽可能精确。6.2.2目标检测243.目标检测的核心问题
3)大小问题确定目标的大小。目标的大小信息对于理解场景和进行后续处理非常重要。例如,在自动驾驶过程中,通过目标检测,可以了解车辆的大小,有助于预测车辆的运动轨迹和潜在的碰撞风险。
4)形状问题确定目标的形状。形状信息可以帮助系统更好地理解目标的特征,例如在医学图像分析中,肿瘤的形状对于诊断和治疗方案的选择具有重要意义。6.2.2目标检测254.目标检测的应用场景目标检测技术就像给计算机装上了一双“慧眼”,让它能够在图像或视频中自动发现、识别并定位人们感兴趣的物体。这项技术的应用场景非常广泛,几乎涵盖了人们生活的方方面面。6.2.3图像分割261.图像分割的基本概念
图像分割是指将图像分割成多个互不重叠的区域,使得每个区域内的像素具有相似的特性,如颜色、纹理、灰度等。分割后的区域可以代表图像中的不同对象或背景。其目的是将图像分割成多个有意义的区域或对象,以便于后续的分析和处理。6.2.3图像分割272.图像分割的任务
1)语义分割语义分割是将图像中的每个像素分配到预定义的类别中,每个类别代表一种语义对象或背景。语义分割就像是给照片里的每一小块地方贴上“标签”。
2)实例分割实例分割不仅将图像中的每个像素分配到预定义的类别中,还需要区分同一类别中的不同实例。实例分割的目标是识别和分割出图像中的每个独立对象。实例分割就像是在一堆相似的东西中找出每个独特的个体。6.2.3图像分割282.图像分割的任务
3)全景分割全景分割结合了语义分割和实例分割的特点,将图像中的每个像素分配到预定义的类别中,并区分同一类别中的不同实例。全景分割的目标是提供一个完整的、像素级别的图像分割结果,既包括语义信息,也包括实例信息。6.2.3图像分割292.图像分割的任务4)医学图像分割医学图像分割是在医学图像中分割出特定的组织、器官或病变区域。例如,在MRI图像中分割出大脑的不同区域,或在CT图像中分割出肿瘤。5)视频分割视频分割是在视频序列中,对每一帧图像进行分割,并跟踪分割结果在时间上的连续性。视频分割的目标是识别和分割出视频中的运动对象,实现视频的智能分析和理解。6.2.3图像分割303.图像分割的核心问题1)像素分类问题2)边界检测问题3)多尺度问题4)噪声和遮挡问题5)计算效率问题图6-11图像分割效果图6.2.3图像分割314.图像分割的应用场景图6-12农业监测中的图像分割结果图6.3常用的计算机视觉工具6.3.1图像处理工具6.3.2深度学习与机器学习框架6.3.3计算机视觉库326.3.1图像处理工具33图6-13scikit-imagel图像处理可视化界面6.3.1图像处理工具34图6-14Pillow官网的部分内容6.3.1图像处理工具35图6-15MATLAB的官网部分内容6.3.2深度学习与机器学习框架36图6-16Pillow官网的部分内容6.3.2深度学习与机器学习框架37图6-17TensorFlow工作界面6.3.2深度学习与机器学习框架38图6-18PyTorch实战界面6.3.2深度学习与机器学习框架39图6-19使用Keras预测的数据可视化界面6.3.3计算机视觉库40图6-20使用OpenCV库进行图像处理6.3.3计算机视觉库41图6-21使用SimpleCV库实现图像处理6.4计算机视觉的应用实例—人脸识别6.4.1人脸识别概述6.4.2人脸识别技术的发展6.4.3人脸识别的基本步骤6.4.4人脸识别的代码示例426.4.1人脸识别概述43图6-22校园AI业务系统中的人脸识别界面6.4.1人脸识别概述44图6-23安防监控系统与入侵检测展示图6.4.2人脸识别技术的发展456.4.3人脸识别的基本步骤466.4.3人脸识别的基本步骤476.4.3人脸识别的基本步骤486.4.3人脸识别的基本步骤496.4.3人脸识别的基本步骤506.4.4人脸识别的代码示例516.4.4人脸识别的代码示例521.人脸图像采集1)
采集代码使用OpenCV库初始化摄像头,通过cv2.VideoCapture(0)获取默认摄像头资源,等待用户按下回车键后读取一帧图像并保存为文件,采集完成后释放摄像头资源并显示采集到的图像。2)
注意事项确保采集环境光线充足,人脸角度适中,采集的图像清晰,以提高后续识别的准确性,采集方式可以是静态照片或动态视频。6.4.4人脸识别的代码示例532.人脸定位1)定位代码加载采集到的图像,使用face_recognition.face_locations(image)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026河南安阳市兵役登记参考笔试题库附答案解析
- 2025中国资源循环集团机动车有限公司岗位招聘【社招】备考笔试试题及答案解析
- 2026年春季学期广西南宁市第四十七中学招聘备考考试试题及答案解析
- 《去游乐园》数学课件教案
- 2025年12月江苏南京江北新区教育局所属部分事业单位招聘教师20人备考笔试题库及答案解析
- 2026中国农业科学院第一批统一招聘模拟笔试试题及答案解析
- 2025年甘肃省张掖市山丹县招聘城镇公益性岗位人员33人模拟笔试试题及答案解析
- 2025黑龙江鸡西社会福利院招聘公益岗位就业人员7人参考考试试题及答案解析
- 2025贵州黔西南州兴义市消防救援大队招录专职消防员招录20人参考考试试题及答案解析
- 2025中国农业科学院郑州果树研究所郑果所桃资源与育种创新团队招聘2人(河南)参考考试试题及答案解析
- 骶神经调节治疗盆底功能障碍性疾病课件
- 浙江省优秀安装质量奖创优计划申报表实例
- 新时代背景下企业人力资源管理的数字化转型探研共3篇
- 四川绵阳2020年中考语文试题
- 施工进度计划编制依据及原则
- 奥的斯电梯toec-40调试方法
- JJG 691-2014多费率交流电能表
- GB/T 7735-2004钢管涡流探伤检验方法
- 化工原理(下)第4章液液萃取
- 重点监管的危险化学品名录(完整版)
- 心脏瓣膜病超声诊断
评论
0/150
提交评论