人工通识基础 3_第1页
人工通识基础 3_第2页
人工通识基础 3_第3页
人工通识基础 3_第4页
人工通识基础 3_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机视觉核心定义及与人类视觉的本质区别1)计算机视觉定义:计算机视觉是一门利用摄像机、计算机与算法,模拟人类视觉感知功能,对图像/视频进行获取、处理、分析、理解并做出决策的技术学科,目标是让机器“看懂”视觉信息。2)与人类视觉本质区别:(1)人类视觉:生物神经系统驱动,具备意识、经验、语义理解、高度抽象、强泛化、强容错能力,无需大量样本即可认知世界。(2)计算机视觉:数学运算与数据驱动,基于像素数值计算,无主观意识,依赖数据集与模型,泛化能力有限,对光照、噪声、角度变化敏感。2.计算机视觉三阶段核心技术特征与代表技术1)传统图像处理阶段特征:人工设计规则、基于像素与滤波、无机器学习、浅层处理。代表技术:Canny边缘检测。2)统计学习阶段特征:人工提取特征+浅层分类器训练、特征工程依赖度高。代表技术:HOG+SVM。3)深度学习驱动阶段特征:端到端学习、自动提取深层特征、大数据驱动、深层神经网络。代表技术:CNN、YOLO目标检测。3.OpenCV核心功能及项目作用1)图像读写与格式转换:imread、imwrite、cvtColor(BGR↔灰度↔HSV)。作用:统一图像输入格式,是所有视觉任务基础。2)图像滤波与去噪:高斯滤波、中值滤波、双边滤波。作用:降低噪声,提升后续检测、分割、识别稳定性。3)边缘/轮廓/特征检测:Canny、轮廓查找、角点检测。作用:目标定位、尺寸测量、目标分割。4)视频处理与目标跟踪:背景差分、光流、目标跟踪器。作用:视频监控、运动目标分析。4.开发环境与数据集的相互支撑关系1)开发环境与数据集相互支撑(1)开发环境(Python、OpenCV、PyTorch等)提供数据加载、预处理、训练、推理、评估工具链。(2)数据集提供学习样本与评价标准,决定模型上限。2)缺失影响:(1)缺少工具库:无法读取图像、数据增强、模型训练,任务无法开展。(2)数据集质量差(模糊、错标、漏标、类别不均):模型不收敛、过拟合、泛化差、准确率虚高、实际失效。5.训练集、验证集、测试集作用及不可混用原因1)训练集:用于更新模型权重,学习特征。2)验证集:用于调参、选择最优模型、早停,不参与参数更新。3)测试集:无偏评估模型最终泛化能力,模拟真实未知数据。4)不可混用原因:混用会造成数据泄露,评估结果虚高,无法反映真实性能。5)7:2:1划分依据:保证训练数据充足(学习充分);验证集足够调整超参;测试集具备统计代表性。6.类别不平衡及校园安防解决方案1)类别不平衡定义:数据集中不同类别样本数量差异极大,模型倾向预测多数类,少数类召回率极低。2)校园安防示例:行人极多,异常物品极少。解决方法:(1)少数类过采样:对异常物品图像复制或数据增强,增加样本数量。(2)类别权重平衡:损失函数中提高少数类权重,降低误分类代价。(3)多数类欠采样:适度减少行人样本数量,平衡比例。(任选2种即可)。8.目标检测标注信息及缺失width/height影响1)标注关键内容:目标类别、边界框坐标(x1,y1,x2,y2或x,y,w,h)、置信度、分割掩码(如需要)。2)缺失width/height影响:无法确定目标尺度与位置范围,模型无法学习目标大小,完全无法收敛,检测完全失效。9.校园安防数据集要求及模糊图像处理1)数据集要求:(1)数据规模:足够覆盖各类目标(人、车、异物、包裹等)。(2)场景覆盖:白天/夜晚、晴天/雨天、远近视角、楼道/操场/大门。(3)标注精度:边界框精准、不漏标、不错标、不重复标注。(4)类别划分:清晰互斥,粒度合理。2)模糊图像处理:(1)严重模糊直接剔除;(2)轻微模糊使用锐化、高斯锐化、超分辨率重建优化;(3)保留少量模糊样本增强鲁棒性。11.图像分类与图像分割核心区别1)图像分类:对整张图像输出一个类别标签,关注“图是什么”。应用:水果分类、猫狗识别。2)图像分割:对每个像素分配类别,关注“每个像素属于什么目标/区域”。应用:医学影像分割、自动驾驶语义分割。14.视频目标跟踪与检测关系1)依赖关系:目标检测提供初始目标位置,跟踪在连续帧中维护目标ID与运动轨迹。2)不能仅用逐帧检测原因:(1)检测速度慢,无法实时;(2)无帧间目标ID关联,易出现ID切换;(3)遮挡时检测失效,跟踪可通过轨迹预测维持目标。15.卷积层参数量计算公式(无偏置):参数量=输入通道×卷积核尺寸×输出通道(1)第一层:3×3×3×16=432(2)第二层:16×3×3×32=4608(3)总参数量=432+4608=504016.高空抛物监测系统方案1)核心目标:实时检测高空坠落物体,自动报警、记录、存证。2)开发环境:Python+OpenCV+PyTorch+YOLO。3)数据集:高空抛物图像/视频,标注坠落目标。4)核心视觉任务:目标检测、视频跟踪、轨迹分析。5)关键步骤:视频采集→图像去抖/去噪→背景建模→异常运动目标检测→目标跟踪→抛物行为判断→报警与存储。17.人脸识别门禁特殊场景数据集1)必须覆盖场景:强光、逆光、弱光、戴口罩、戴眼镜、帽子、侧脸、局部遮挡、模糊、不同表情。2)影响:缺少这些场景→模型泛化能力极差,真实环境识别率大幅下降,出现大量误识/拒识。18.控制图像分辨率、光照、角度的必要性1)分辨率、光照、角度属于干扰变量。若不统一:2)光照变化→像素值剧烈变化→特征不稳定;3)分辨率不同→目标尺度混乱→检测/测量误差大;4)角度变化→目标形变→实验不可复现。5)结论:只有控制变量,实验结果才可比、可信、可复现。19.工业缺陷:深度学习准确率高、传统速度快如何选择1)追求高精度、复杂缺陷、安全关键场景:选深度学习。漏检代价远高于速度成本。2)简单缺陷、高速产线、低端硬件、实时性要求极高:选传统算法。速度快、资源占用低、稳定。3)最优方案:传统算法快速粗检+深度学习精检复核。22.遮挡、光照突变跟踪失效优化方案1)卡尔曼滤波预测:遮挡期间通过运动模型预测目标位置,保持跟踪。2)深度特征关联(如DeepSORT):利用外观特征稳定ID,减少遮挡漂移。3)自适应光照补偿:直方图均衡化、自适应阈值,降低光照突变影响。4)重检测机制:目标丢失后自动局部重检测,快速找回。24.计算机视觉理论→智慧社区项目落地链路1)理论层面(1)数字图像基础:像素、灰度、色彩空间、滤波、边缘、形态学。(2)机器学习基础:数据集划分、损失函数、优化器、过拟合。(3)深度学习基础:CNN、卷积、池化、全连接。(4)核心任务:分类、检测、分割、跟踪、IoU/mAP/准确率评价。2)技术层面(1)环境搭建、数据采集与标注、数据增强。(2)模型选择、训练、调参、评估。(3)模型压缩、推理优化、实际部署。3)实践层面:实验室vs真实场景(1)差异:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论