版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章让机器看懂世界计算机视觉1目录Introduction0101计算机视觉概述0303案例应用:目标跟踪0202计算机视觉技术计算机视觉概述计算机视觉概述核心目标:通过软件算法来解析、理解和处理图像和视频数据,使计算机能够从视觉信息中提取有用的知识。涵盖了图像处理、物体识别、行为分析、图像理解等所有与图像和视频有关的问题。手机拍照时,手机不仅能够自动调整焦距、光线,还能识别人脸并添加滤镜,这些功能的背后,都是计算机视觉技术在发挥作用。像素从生物视觉到机器感知像素是构成图像的最小单位。一张1080p的照片,由207万个小方格(像素)组成。每个像素都有自己独特的颜色信息。每个像素的颜色是由不同强度的红、绿、蓝三种颜色混合而成的,这三种颜色的强度用数字表示,范围从0到255。像素从生物视觉到机器感知0:表示这个颜色“完全关闭”(比如红0=没有红色)。255:表示这个颜色“开到最亮”(比如红255=最鲜艳的红色)。纯红色:红(255)+绿(0)+蓝(0)→就像把红色颜料倒满,绿色和蓝色颜料一滴不加。纯白色:红(255)+绿(255)+蓝(255)→所有颜色开到最大,混合成白色。纯黑色:红(0)+绿(0)+蓝(0)→所有颜色都关闭,屏幕一片漆黑。纯黄色:红(255)+绿(255)+蓝(0)→红色和蓝色开到最亮,蓝色完全关闭。像素从生物视觉到机器感知分辨率从生物视觉到机器感知分辨率是衡量图像清晰度的指标,表示一张图片或屏幕上能显示多少像素。像素越多,图像就越清晰。像素少,图像模糊。像素的重要性从生物视觉到机器感知呈现细节像素的重要性从生物视觉到机器感知信息处理唐三彩彩色陶俑图像修复前后对照(上色、去部分划痕)像素的重要性从生物视觉到机器感知信息处理使用插值算法将左图(640*450)放大4倍到右图(2560*1800))像素的重要性从生物视觉到机器感知信息处理作物病虫害检测可以简单认为叶子发白的地方是病虫害较严重的地方图像中的特征计算机的视觉密码计算机如何“看懂”图像?核心问题:
计算机看到的只是像素矩阵,而非“物体”本身。解决方案:
通过识别图像中的特征(Features),即视觉世界的“密码”。定义:
特征是从图像中提取的、具有辨识度的视觉元素,是物体独特的
“视觉指纹”。特征类型计算机的视觉密码形状特征:猫的尖耳朵、书本的直角边。纹理特征:树皮的粗糙纹路、丝绸的光滑质感。颜色特征:苹果的红色果皮与绿叶的鲜明对比。边缘特征:人脸轮廓的曲线、建筑物的棱角。特征提取:LoG滤波器计算机的视觉密码作用:
主要用于检测图像中的边缘和纹理特征。关键参数:Sigma(σ),控制滤波器的尺度,决定提取特征的粗细程度。不同σ值的效果对比:σ值小(如σ=2):
对细节敏感,能捕捉精细边缘和细微纹理,但也容易受噪声干扰。σ值大(如σ=4):
对噪声不敏感,提取粗略边缘和整体轮廓,但会模糊细节。LoG特征提取效果对比计算机的视觉密码特征类型σ=2(精细尺度)σ=4(粗略尺度)边缘特征边缘细致,能捕捉单根条纹边界等细节边缘粗略,主要保留身体、头部等整体轮廓纹理特征增强细微纹理对比度,条纹内部细节更清晰纹理被平滑化,保留条纹整体走向形状特征局部轮廓更精细(如腿部、耳朵)整体结构更突出,弱化局部细节应用总结适用于高精度细节分析(如条纹计数)适用于整体目标识别(如斑马定位)特征解码三大步骤计算机的视觉密码扫描像素(ScanPixels)将图像分解为像素网格,记录每个像素的RGB颜色信息。提取特征(ExtractFeatures)运行算法(如LoG),寻找像素间的规律(颜色聚集、连续边缘等)。匹配模式(MatchPatterns)将提取出的特征与已知物体的特征数据库进行对比。最终推断出物体的类别(例如:这是“猫”,那是“车”)。特征解码三大步骤计算机的视觉密码探索星空夏季大三角猎户座特征解码三大步骤计算机的视觉密码动物保护通过分析大熊猫黑眼圈的大小或颜色变化判断它们的健康状况从“看见”到“看懂”计算机视觉技术核心目标:
让计算机具备通过图像或视频来识别和理解世界中各种物体及其动作的能力。技术本质:
将复杂的视觉世界分解为计算机可以处理的结构化信息。应用广度:
自动驾驶、智能家居、医学影像分析、安全监控等众多领域。目标检测与分类计算机视觉技术核心任务:分类:
识别图像中的物体是什么(如瓶子、茶杯、立方体)。定位:
用边界框
标出物体的位置。核心输出:
带有类别标签的边界框。找出“是什么”和“在哪里”目标检测与分类计算机视觉技术目标检测应用场景–自动驾驶计算机视觉技术自动驾驶行人、车辆、交通标志目标检测目标检测应用场景–安全监控计算机视觉技术电动车进入电梯监测报警目标检测应用场景–智能家居计算机视觉技术智能家居开启智慧新生活目标检测应用场景–零售行业计算机视觉技术店铺顾客行走路线热力图目标检测应用场景–零售行业计算机视觉技术货架商品数量监测图像分割计算机视觉技术核心任务:
对图像进行像素级的分析与标注,将图像划分为不同的、有意义的区域。与目标检测的区别:目标检测用矩形框近似物体位置。图像分割提供精确到像素的物体轮廓。像素级的精细理解图像分割的主要类型:语义分割计算机视觉技术定义:
将图像中的每一个像素都分配到一个类别中。不区分同一类别中的不同个体。语义分割的应用场景:虚拟现实计算机视觉技术在家环游世界,虚拟现实旅游语义分割的应用场景:医学影像计算机视觉技术肝脏肿瘤CT影像分割示例,红色为正常肝脏组织,绿色为肿瘤组织语义分割的应用场景:智能安防计算机视觉技术不同人群场景中预测的群体分割结果(紫色表示拥挤区域)语义分割的应用场景:农业计算机视觉技术语义分割区分作物与杂草(右下角图为分割结果,绿色表示作物,红色表示杂草)图像分割的主要类型:实例分割计算机视觉技术不仅要对像素进行分类,还要区分出同一类别的不同个体。语义分割(左)与实例分割(右)实例分割的应用场景计算机视觉技术人群计数:
精准统计图像中的人数。机器人抓取:
精确定位每一个待抓取的物体。医疗图像处理:以肿瘤的诊断与治疗为例,它可以精准识别出肿瘤组织,区分同一患者体内多个不同的肿瘤病灶,进一步细分肿瘤内部不同的细胞区域,如癌细胞密集区、坏死区等。自动驾驶:精确区分不同的车辆,包括轿车、卡车、公交车等,同时还能识别出每辆车的具体位置、行驶方向和速度。这有助于自动驾驶车辆更好地规划行驶路径,避免碰撞和追尾事故的发生。工业质检:精确分割出每个零部件的不同特征和区域,检测是否存在划痕、裂纹、变形等缺陷。物流仓储管理:准确识别不同类型的货物,区分每个货物的具体位置和边界,实现货物的快速定位和盘点。影视制作:将演员从复杂的背景中精确分离出来,实现无缝的抠像和合成。目标跟踪计算机视觉技术核心任务:
在视频序列中,持续地锁定一个或多个特定目标,并记录其运动轨迹、速度、行为。与目标检测的区别:目标检测处理静态图片。目标跟踪处理动态视频,关注目标的时序变化。在视频中“持续锁定”目标跟踪计算机视觉技术在视频中“持续锁定”目标跟踪的应用场景:智能摄影计算机视觉技术智能跟踪拍摄球场上快速奔跑的运动员目标跟踪的应用场景:辅助驾驶计算机视觉技术车辆识别、测距、测速、预测轨迹目标跟踪的应用场景:监控系统计算机视觉技术危险区域人员闯入检测与报警系统目标跟踪:监控系统计算机视觉技术目标跟踪的应用场景:增强现实AR计算机视觉技术AR课堂应用教师示范目标跟踪的应用场景:增强现实AR计算机视觉技术AR如何帮助施工目标跟踪的应用场景:人体行为识别计算机视觉技术人体行为识别是指识别和理解包含多个步骤、相互关联的动作序列,以及需要推理和上下文理解的行为。简单来说,就是识别那些“不止一个动作,而是多个动作组合起来完成的任务”的行为。识别为跳舞目标跟踪的应用场景:人体行为识别计算机视觉技术AI与运动视觉多模态计算机视觉技术让计算机能够同时处理和理解来自不同模态的数据。如同人类综合运用视觉、听觉、触觉等信息进行决策。模仿人类大脑的综合信息处理典型场景示例:医疗影像诊断视觉模态:
肺部CT影像(分析结节形状、密度)文本模态:
电子病历文本(如“持续咳嗽三周”)数据模态:
血液检测报告(白细胞计数等数值)音频模态:
听诊器呼吸音(判断肺部通气情况)如何实现?-核心技术计算机视觉技术技术一:跨模态嵌入对齐类比:将一张地图和一段文字描述中的同一个地点对应起来。技术原理:将不同模态的数据(图像特征、文本描述、数值指标)转换到同一个低维向量空间。在这个共享的“通用语言”空间中,不同模态的数据可以进行高效的比较和关联。作用:
为后续的信息融合与推理奠定基础。如何实现?-核心技术计算机视觉技术技术二:动态特征融合角色比喻:
优秀的协调者功能:动态融合来自不同模态的信息。能够根据信息的重要性和相关性,动态地分配注意力权重。将视觉、文本、数据等模态的信息有机地结合在一起。示例:在诊断时,若CT影像异常非常明显,则系统会给图像模态分配更高的权重;而当患者的症状比较复杂,需要结合病史和实验室检查结果时,文本和数值模态的权重可能会相应增加。如何实现?-核心技术计算机视觉技术技术三:多模态推理引擎类比:一位拼图高手,将零散的信息拼成一个完整的画面。技术原理:对融合后的信息进行深度推理和分析。模仿人类的推理过程,得出最终结论或决策。示例(医疗):输入:
CT结节(视觉)+“咳嗽”文本(文本)+炎症指标高(数据)推理过程:
综合分析各项证据输出:
“疑似真菌感染,建议支气管镜检查”(诊断建议)技术演进历程计算机视觉技术阶段一:机械式多模态拼接(1990s-2000s)“黑暗中摸索”的时代技术特征:简单关联:
不同模态数据仅为机械式拼接,缺乏深度交互与理解。依赖标签:
系统不理解内容本身,仅通过文本标签进行匹配。典型应用:图文关联检索:
图书馆检索系统。示例:
搜索关键词“猫”,返回所有带“猫”标签的图片,无法区分品种、姿态。局限性:信息处理表面化,无法满足复杂查询需求。技术演进历程计算机视觉技术阶段二:跨模态注意力机制(2010s-2018s)“智能放大镜”的出现技术突破:注意力机制(如Transformer):
实现了跨模态特征的动态聚焦。像“智能放大镜”,能自动关注不同模态数据中最重要的部分。标志成果:微软CaptionBot:
尝试为图像生成描述。意义:
开创了视觉-语言交互的先河。局限性:
当时技术不成熟,描述常出错(如将婚礼照描述为“一群人在食物旁”)。校园应用:智能教室系统:
将教师板书(视觉)
与讲课录音(语音)
自动对齐,生成可搜索的多媒体课件。技术演进历程计算机视觉技术阶段三:多模态预训练大模型(2019–至今)“量变引起质变”的革命技术革命:在海量多模态数据上预训练,学习不同模态数据之间的内在关联。核心能力:1.零样本推理模型:
GPT-4V示例:
解析数学题照片并直接给出解题步骤,无需额外训练。2.多模态生成模型:
DALL·E3示例:
输入文本“设计一款包含校徽元素的科技感书包”,生成高质量概念图。3.具身智能模型:
PaLM-E示例:
机器人融合视觉与语言,在杂乱课桌上找到并抓取指定文具。技术演进历程总结计算机视觉技术阶段时间技术特征交互深度典型能力机械拼接1990s-2000s关键词标签匹配浅层、孤立图文检索交互增强2010-2018注意力机制中层、关联图像描述、对齐深度融合2019-至今预训练大模型深层、原生推理、生成、具身智能
技术发展路径是从感知到认知,从关联到生成。数据(量)
和算法(力)
的共同驱动,实现了能力的阶跃式发展。视觉多模态的应用场景:
医疗领域计算机视觉技术医疗领域:精准诊断与手术导航内容:医学图像分析:X光片、CT扫描、MRI图像等多源信息融合:成像方式、临床数据辅助诊断:发现细微病变,提高诊断准确性手术导航:融合术前医学图像与术中视觉信息视觉多模态的应用场景:
教育领域计算机视觉技术教育领域:智能辅导与个性化学习内容:感知学生状态:表情变化、肢体动作、语音实时教学调整:根据学生反馈调整教学节奏个性化学习:量身定制学习计划和内容视觉多模态的应用场景:
交通领域计算机视觉技术交通领域:自动驾驶与智能交通管理内容:环境感知:摄像头、雷达、激光雷达多源信息融合:识别道路状况和障碍物智能交通管理:优化交通信号控制,缓解拥堵视觉多模态的应用场景:
智能家居领域计算机视觉技术智能家居领域:智能控制与安全防护内容:全面感知:摄像头、语音识别设备智能控制:根据家庭成员行为和需求自动调节家居环境安全防护:监测家中异常情况,及时发送警报视觉多模态的应用场景:
娱乐领域计算机视觉技术娱乐领域:沉浸式体验与影视制作内容:VR游戏:融合视觉画面、动作姿态、语音交互影视制作:整合视觉画面、演员表情动作、环境音效视觉多模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 仓库出入库管理规章制度
- 知识竞赛题目及答案科普
- AI在眼视光仪器技术中的应用
- 医共体消毒供应中心管理制度
- 新教材统编版七年级语文下册期末模拟卷
- 2026年安徽高考生物试卷试题真题及答案详解(精校打印)
- 通江县董家沟矿山建设项目(一期)水土保持报告表
- 年产1000吨麻地膜生产线建设项目环境影响报告表
- 2026年出境评估申报流程
- 2026八方电气电路面试题及答案
- 2026年餐饮从业人员食品安全知识培训测试题及答案
- 2026年高考上海卷语文试卷题库及答案(新课标卷)
- GB/T 6544-2026瓦楞纸板
- 2026山东济南市劳服中心劳务派遣人员招聘备考题库及答案详解(全优)
- 2026年聚氨酯工业行业分析报告及未来发展趋势报告
- 项目管理任务分解WBS工作坊模板
- 血液净化中心质量控制分析报告
- 2025长沙中考历史模拟试卷
- 正摇双脚并脚跳绳教学设计
- 假体周围感染诊疗策略
- 现代纺纱技术课件ppt 第二章1-2新型纺织纤维及其加工技术
评论
0/150
提交评论