《人工智能通识基础》课件第4章计算机视觉

上传人：h*** IP属地：山东上传时间：2026-06-27 格式：PPTX 页数：29 大小：2.71MB 积分：15 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

计算机视觉人工智能通识基础1.计算机视觉概述2.基于深度学习的计算机视觉3.数字图像4.图像处理技术5.计算机视觉应用6.开源技术与工具目录Contents计算机视觉概述01计算机视觉与人工智能的关系计算机视觉作为人工智能的关键分支，赋予AI系统

“看”

与理解视觉世界的能力，是实现高级智能行为的核心环节，如自动驾驶汽车依靠计算机视觉识别路况与障碍物。计算机视觉是人工智能的重要组成部分01人工智能为计算机视觉输送深度学习、神经网络等算法与模型。例如在图像识别任务中，借助这些算法从海量图像数据学习模式，实现精准识别。人工智能为计算机视觉提供支持02计算机视觉的进步反哺人工智能，视觉理解是智能系统与世界交互的重要方式。如智能机器人通过计算机视觉感知环境，推动人工智能在机器人领域的发展。计算机视觉推动人工智能发展03计算机视觉的定义与研究领域计算机视觉的发展历程基于深度学习的

计算机视觉02深度学习在计算机视觉中的应用深度学习的兴起2006年深度学习技术兴起，2012年AlexNet在ImageNet挑战赛取得巨大成功，开启其在计算机视觉领域广泛应用。此前计算机视觉多为浅层学习，需人工设计特征提取器，限制模型普适性，而深度学习可自动学习特征，推动了该领域发展。图像识别的突破深度学习大幅提升图像识别准确率。如在安防监控中，能快速准确识别监控画面中的人物、车辆等目标，助力安保人员及时发现异常情况，相较于传统方法，识别精度从60%提升至90%以上。目标检测的突破在自动驾驶领域，深度学习的目标检测算法可实时检测路面上的行人、车辆、交通标志等，为车辆决策系统提供关键信息。例如特斯拉汽车依靠此技术，能在复杂路况下准确检测目标，保障行车安全。图像分割的突破医学影像分析中，深度学习的图像分割技术可精准识别病变区域。如对脑部MRI图像分割，能清晰区分肿瘤与正常组织，辅助医生更准确诊断病情，提高诊断效率和准确性。核心模型：CNN、RNN和ViT卷积神经网络（CNN）原理：通过卷积层、池化层和全连接层组合，自动学习图像层次化特征表示。特点：局部感知和权值共享，减少参数数量，提高计算效率。应用场景：广泛用于图像分类、目标检测和图像分割等任务，如在人脸识别系统中表现出色。循环神经网络（RNN）原理：具有记忆功能，能处理时间序列数据，通过隐藏层传递信息。特点：适合处理具有时间依赖性的数据。应用场景：常用于视频分析，如动作识别、视频内容理解，可分析视频中目标物体的运动和状态变化。视觉变换器（ViT）原理：基于Transformer架构，将图像分割成小块视为序列数据输入，通过自注意力机制捕捉全局和局部信息。特点：在处理长序列数据和捕捉全局信息上有优势。应用场景：在图像分类任务中表现优异，也用于目标检测、图像分割等视觉任务。数字图像03图像的数字化过程图像数字化的步骤图像数字化需先通过图像采集设备，如摄像头、扫描仪等捕捉真实世界图像。以摄像头为例，光线进入镜头后，图像传感器将光信号转化为模拟电信号，随后图像采集卡把模拟信号转换为计算机能处理的数字信号，完成图像从模拟到数字的转变。以手机拍照为例当用手机拍照时，手机相机内的传感器捕捉光线，将其转变为代表像素颜色和亮度的电信号。相机内部处理器进一步把这些电信号处理成数字数据，形成数字图像，我们便能在手机相册中查看。常见数字图像类型灰度图像灰度图像每个像素点值常用8位二进制数表示，范围是0-255。0代表纯黑色，255代表纯白色，数值变化体现不同灰度，常用于凸显图像明暗对比，如老照片风格处理。二值图像二值图像是特殊灰度图像，仅含黑白两色，一般0为黑，1为白。其数据量小、处理速度快，像文档中的黑白文字图像常用二值图像表示。RGB彩色图像RGB彩色图像通过红色（Red）、绿色（Green）、蓝色（Blue）三种颜色组合表示色彩。每个像素点有三个值分别对应这三种颜色，每种颜色用8位二进制数（0-255）表示强度，可组合出16777216种颜色，日常彩色照片多为RGB图像。不可见光图像及应用医疗领域在医疗中，X射线成像可穿透人体组织形成图像，帮助医生检测骨折、肺部疾病等；CT机拍摄的CT片也是利用X射线，能提供更详细的人体内部结构信息，辅助疾病诊断。军事领域军事上，红外夜视仪利用红外线成像，让士兵在夜间或低光照环境下看清目标，进行侦察、巡逻等任务，提升作战能力。工业领域工业中，利用不可见光图像可检测产品内部缺陷。如利用X射线检测金属部件内部裂缝，确保产品质量，提高生产安全性。自动驾驶领域自动驾驶车辆配备的红外传感器，通过感知红外线形成图像，在夜间或恶劣天气下检测道路上的行人、车辆等物体，辅助车辆决策，保障行驶安全。图像处理技术04图像处理与计算机视觉的关系类比关系可将图像处理比作拍照后的修图，如裁剪、调色、去噪等操作；而计算机视觉类似欣赏照片的人，能识别照片中的物体、场景等。图像处理为计算机视觉准备优质素材，计算机视觉在其基础上深入理解图像内涵。依赖互补关系图像处理为计算机视觉提供经过优化的图像数据，使计算机视觉能更好地进行分析；计算机视觉则基于图像处理的结果，实现对图像内容的高层次理解，两者紧密相连，共同构成完整的图像分析体系。技术促进关系图像处理技术的提升，如更先进的滤波算法，为计算机视觉提供更强大支持；计算机视觉技术的创新，如对复杂场景识别的需求，推动图像处理技术不断发展，以满足更高要求。图像采集图像采集过程图像采集是将现实世界的图像转化为计算机可处理数字格式的过程。类似用相机拍照，先通过镜头搜索目标，调整参数如焦距、光圈，再按下快门捕捉光信号，转化为可存储处理的图像数据。精灵标注助手使用方法使用精灵标注助手时，先新建项目，选择标注类型并导入数据文件；然后在可视化界面进行标注，完成后手动保存；最后可导出PascalVOC、JSON等标准数据集格式。精灵标注助手获取途径可从官网或主流下载平台获取Windows/Linux版本；Mac用户可通过MacStore搜索“colabeler”下载。图像预处理01图像预处理的必要性采集的图像常因设备和环境因素出现噪声、几何形变等问题，影响后续分析，所以需预处理，如去除噪声、提高对比度，为后续处理提供更好图像。02对比度矫正技术-直方图均衡化直方图均衡化通过重新分配像素亮度级别，让亮的更亮，暗的更暗，提高图像对比度。例如使原本灰蒙蒙的阴天照片细节更清晰。03去噪技术-椒盐噪声与中值滤波椒盐噪声像照片上的胡椒粉和盐粒，中值滤波通过取窗口内像素强度中位数替代中心像素强度，有效去除椒盐噪声，恢复图像清晰度。04去噪技术-高斯噪声与高斯滤波高斯噪声类似照片上的薄雾，高斯滤波对窗口内像素加权平均抑制噪声，但会使图像模糊，在去除噪声同时需权衡图像模糊程度。图像分割图像分割的概念图像分割是将图像划分为不同区域或对象，使每个区域具有特定语义或特征，如将一张风景照中的天空、树木、建筑等分开。图像分割的技术原理通常涉及图像预处理，去除噪声等；特征提取，如边缘、纹理等；像素分类，依据特征判断像素归属；区域合并，修正不合理分割，得到准确结果。在医学影像分析中的应用在医学影像分析中，图像分割可识别和定位病变区域，如肺部CT扫描中准确识别肺结节、肺血管，辅助医生诊断疾病。在自动驾驶系统中的应用自动驾驶系统中，图像分割技术分割道路图像中的道路、车辆、行人等元素，帮助系统理解环境，做出驾驶决策。计算机视觉应用05目标识别目标分类与识别的概念目标分类是将图像中的目标分配到预定义类别，涉及特征提取与分类器训练。目标识别则是确定图像中是否存在特定目标，包含检测与验证步骤。手机相册人物识别应用案例智能手机借助人工智能算法分析照片人物面部特征，与面部数据库比对，实现人物识别，自动打标签，方便相册管理与检索。目标分类与识别的关系目标分类是目标识别的子过程，目标识别需先检测再分类，两者都依赖图像特征提取和深度学习模型，但目标识别更复杂，需兼顾检测与分类任务。实际应用领域目标识别和分类广泛应用于人脸和指纹识别、地形勘察、B超图像识别、智能家居监测等领域，助力身份验证、地质研究、医疗诊断和家居智能化。场景文字识别01与传统OCR技术的对比传统OCR主要针对纸上打印字符，将其转换为文本。场景文字识别专注自然环境下的文字识别，受光照、角度、遮挡等影响，识别难度更大。02停车场车牌自动识别案例停车场入口摄像头捕捉车牌图像，管理系统运用场景文字识别算法，处理车牌颜色、亮度等变化，准确识别车牌号码，实现自动计费与车辆管理。03技术流程差异传统OCR技术流程含图像预处理、版面划分等；深度学习OCR技术流程包括输入图像、深度学习文字区域检测等。场景文字识别技术更复杂，需应对自然场景的多样性与可变性。04应用领域场景文字识别在智能交通（如车牌、交通标志识别）、零售业（商品标签识别）、移动应用（图像文本提取）等领域发挥重要作用，提升各行业效率。目标测量01目标测量的概念目标测量指运用计算机视觉技术量化和确定图像中目标物体的几何属性，从二维图像数据提取三维世界信息。02可量化的几何属性可量化的几何属性包括尺寸测量（如长度、宽度、高度）、形状测量（识别和重建轮廓或表面形状）、位置测量（确定在图像和空间中的位置）、姿态测量（确定方向和倾斜角度）、运动测量（分析速度和加速度）。03医学影像中的应用在医学影像分析中，计算机视觉算法分析CT图像，识别肺部及病灶区域，分割后计算病灶尺寸，为医生诊断提供关键信息。04在工业自动化和自动驾驶中的应用在工业自动化中，用于危险或人工视觉难满足要求的场合进行精密测量；在自动驾驶中，实现车辆对周围环境速度和距离的精确测量，保障行车安全。目标跟踪目标跟踪的概念目标跟踪是在视频序列中实时识别和定位特定目标，持续监测目标在视频中的位置和状态。目标跟踪的类型目标跟踪分为单目标跟踪，适用于简单场景；多目标跟踪，需解决目标间相互干扰和遮挡问题，适用于复杂场景。体育比赛运动员跟踪应用案例大型足球比赛运用目标跟踪技术，识别并跟踪运动员，收集跑动距离、速度、射门次数等数据，为教练战术安排和观众观赛提供支持。应用领域目标跟踪在视频监控（如可疑人员轨迹重建）、自动驾驶（获取目标状态信息）、体育赛事转播（提供精彩视角和分析）、人机智能交互（根据人体动作反馈）等领域有广泛应用。开源技术与工具06计算机视觉的开源先锋：OpenCVOpenCV的定义OpenCV是一个开源的计算机视觉和机器学习软件库，自发布后在计算机视觉领域备受欢迎，广泛应用于学术、工业、商业等多领域。应用领域在学术研究中助力算法验证与模型开发；工业开发里用于产品检测、机器人视觉等；商业应用可实现安防监控、智能交通等功能。图像处理功能提供滤波、边缘检测等多种算法用于图像预处理、增强与去噪；还有SIFT、SURF等特征提取算法，用于图像匹配与物体识别。图像分割功能具备阈值分割、区域生长等算法，能将图像划分为不同区域，便于后续处理分析，如医学影像中分割器官组织。计算机视觉的开源先锋：OpenCV机器学习与深度学习功能集成SVM、决策树等算法用于图像分类、行为分析；通过集成TensorFlow等框架，可完成复杂图像理解任务。优点开源跨平台，开发者可免费获取修改代码，方便多系统部署；功能强大，涵盖众多领域算法，节省开发精力；易于学习，文档示例丰富，支持多语言。缺点深度学习集成复杂，构建训练复杂模型功能灵活性不足，模型转换易遇兼容问题；对复杂场景适应性有限，极端条件下传统算法易失效；更新速度较慢，新技术集成滞后。实时目标检测的革新者：YOLO自动驾驶领域能实时检测路面行人、车辆、交通标志等，为自动驾驶车辆决策系统提供关键信息，保障行车安全。视频监控领域可快速检测视频中的人、车辆等物体，实现特定区域实时安全监控，如商场、街道的安防监控。机器人视觉领域助力机器人实时检测环境物体，实现导航、目标抓取等操作，如工业机

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《人工智能通识基础》课件第4章计算机视觉

文档简介

温馨提示

最新文档

评论

《人工智能通识基础》课件 第4章 计算机视觉

文档简介

温馨提示

最新文档

评论

相关文档

《人工智能通识基础》课件第4章计算机视觉