人工智能数据工程基础-课件 第5-8章 图像处理与数据集生产案例-数据标注技术的趋势与人才发展、附录A_第1页
人工智能数据工程基础-课件 第5-8章 图像处理与数据集生产案例-数据标注技术的趋势与人才发展、附录A_第2页
人工智能数据工程基础-课件 第5-8章 图像处理与数据集生产案例-数据标注技术的趋势与人才发展、附录A_第3页
人工智能数据工程基础-课件 第5-8章 图像处理与数据集生产案例-数据标注技术的趋势与人才发展、附录A_第4页
人工智能数据工程基础-课件 第5-8章 图像处理与数据集生产案例-数据标注技术的趋势与人才发展、附录A_第5页
已阅读5页,还剩532页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章图像处理与数据集生产案例教学目标理解数字图像的像素表示、分辨率与存储格式等基础概念,能解释它们对数据集质量与模型训练的影响掌握常用图像预处理与增强方法(裁剪、缩放、归一化、颜色变换、去噪等),能为分类任务设计合理的数据处理流水线了解典型公开图像数据源与数据集使用规范,能从许可、偏差与适用范围等角度评估数据可用性第五章图像处理与数据集生产案例教学目标能独立完成一个小型“水果分类图像数据集”的端到端生产:需求分析、数据获取、清洗去重、标注、质检、版本化交付与发布说明能输出并提交关键交付物(标签体系/标注规范、数据清单、质检报告、数据卡与版本说明),保证结果可复现、可验收、可迭代第五章图像处理与数据集生产案例教学目标第五章图像处理与数据集生产案例素养意识:数据意识、规范意识、质量意识、工程协作、责任与合规教学重点与要求重点:图像基础知识、图像处理方法与水果分类案例的完整流程。难点:把图像处理基础与案例项目步骤对应起来,形成端到端理解。要求:了解图像数据的基本特征和公开数据源;理解图像处理对数据质量的作用;掌握按教材案例完成小规模图像数据集生产的流程。第五章图像处理与数据集生产案例认识像素与图像第一节图像处理技术第二节图像数据的公开数据源第三节第五章图像处理与数据集生产案例水果分类数据集生产项目第四节认识像素与图像0本节内容一、图像概述二、认识“像素”一、图像概述三、色彩模型四、色深五、图像压缩、存储与尺寸六、图像操作与基本处理一、图像概述文件BMP/PNG/JPEG/WebP分辨率图像/显示/打印操作亮度/滤波/转换像素位置+数值颜色灰度/RGB/HSV色深1/8/24/32位PixelColor

ModelBit

Depth色彩模型从“像素”进入图像世界色深存储、压缩与文件格式分辨率、尺寸与操作建立图像常识与“面向图像数据工程”的基础技术框架。0本节内容一、图像概述二、认识“像素”二、认识“像素”三、色彩模型四、色深五、图像压缩、存储与尺寸六、图像操作与基本处理二、认识“像素”图像放大选中像素R255G128B64一个像素可以写成灰度值或RGB三元组矩阵视角图像数组示意01632486480255112128144160176192208224240灰度图:H×W彩色图:H×W×C在AI中,模型看到的是数值张量;“猫”“车”“道路”这些意义,是训练后才学出来的。像素(Pixel)构成数字图像的基本单元,显示为一个小点,代表“一个位置上的一系列数值”:像素=空间位置+亮度/颜色值图像=按行列组织的像素矩阵二、认识“像素”图像放大选中像素R255G128B64一个像素可以写成灰度值或RGB三元组矩阵视角图像数组示意01632486480255112128144160176192208224240灰度图:H×W彩色图:H×W×C在AI中,模型看到的是数值张量;“猫”“车”“道路”这些意义,是训练后才学出来的。像素(Pixel)构成数字图像的基本单元,显示为一个小点,代表“一个位置上的一系列数值”:计算机视觉读取的首先是数值,不是“意义”后续的标注、增强、识别,本质上都是在像素阵列上做计算0本节内容一、图像概述二、认识“像素”三、色彩模型四、色深五、图像压缩、存储与尺寸六、图像操作与基本处理三、色彩模型基础色彩模型(一)三、色彩模型(一)基础色彩模型灰度单通道亮度边缘、纹理、医学影像黑→白RGB显示与采集主模型屏幕、相机、网页、训练图像R+G+BCMYK印刷输出模型书刊、包装、喷绘、打印C+M+Y+KHSV/HSL更接近人类调色方式颜色选择、分割、风格调整色相/饱和度/明度色彩模型(ColorModels)就是颜色在计算机内的表示:灰度看结构RGB看显示CMYK看印刷HSV/HSL看调色基础色彩模型(一)三、色彩模型高级色彩模型(二)(二)高级色彩模型颜色空间YCbCr亮度Y与色度Cb/Cr分离适合压缩、视频编码、传输JPEG、视频编码常用LabL看亮度,a/b看颜色方向更适合高精度校色与工业质检设备无关,色差分析更稳定现代图像AI的常见工程分工:训练常看RGB,压缩常用YCbCr,精准色差与检测可借助Lab。面向工程的色彩表示0本节内容一、图像概述二、认识“像素”三、色彩模型四、色深五、图像压缩、存储与尺寸六、图像操作与基本处理四、色深四、色深1位黑/白最简单二值表示8位256级灰度灰度图、索引色图24位RGB真彩色最常见照片与训练图像32位RGB+Alpha透明叠加、界面、特效色深越高,颜色过渡越细腻;但数据量、存储和传输压力也会同步增加。色深位色深(BitDepth)指用多少位二进制数来表示一个像素的颜色信息,通常:位数越多能够表示的颜色种类就越多,图像的色彩区分也就越精细、越丰富、过渡更平滑,所需存储空间越大、处理运算量越大四、色深1位黑/白最简单二值表示8位256级灰度灰度图、索引色图24位RGB真彩色最常见照片与训练图像32位RGB+Alpha透明叠加、界面、特效色深越高,颜色过渡越细腻;但数据量、存储和传输压力也会同步增加。色深位色深(BitDepth)指用多少位二进制数来表示一个像素的颜色信息,通常:人眼所能区别的“色彩”远远没有计算机多0本节内容一、图像概述二、认识“像素”三、色彩模型四、色深五、图像压缩、存储与尺寸六、图像操作与基本处理五、图像压缩、存储与尺寸五、图像压缩、存储与尺寸为什么图像压缩?同一张图像里,大量相邻像素相同或相似,压缩就是在不影响或少影响效果和应用的前提下,尽量少存“重复信息”、少存细节信息,节省存储空间。大片同色区域:蓝天、墙面、背景会连续重复相邻像素相似:边缘外的大多数像素变化很小视觉冗余:细微颜色差异和高频细节不易察觉原始逐像素存储信息最完整,文件通常更大五、图像压缩、存储与尺寸哪些图像压缩方法?先找重复,再做编码,若再舍弃不重要细节,文件还能更小重复模式编码更小文件不删内容,只改变存法常见:PNG、GIF、LZW、

哈夫曼解压后像素完全一致更小文件变换量化编码舍弃不重要细节,换更高压缩比常见:JPEG、WebP、HEIF、JPEG2000解压后整体接近原图,细节略丢失无损是更聪明地存,有损是少存不重要细节。五、图像压缩、存储与尺寸图像压缩与存储格式常见格式PNG无损+透明适合标志、插画、分割掩码JPEG高压缩照片适合自然图像与数据集原图WebP网页更灵活有损/无损都支持HEIF移动端高效存储手机照片常见GIF256色+简单动画适合轻量动图面向AI数据工程的一个经验:照片原图常用JPEG;像素级标注结果常用PNG;类别、框、关系等结构化信息常另存为JSON。BMP无压缩/无损

适合教学、处理、视觉系统图像文件并不只是“保存图片”,而是在做取舍。位图(BMP)种类与应用五、图像压缩、存储与尺寸BMP图像常从色深、存储特征和使用环境来理解按色深1位黑白文档线稿4/8位调色板图标图形16位高彩旧设备24位真彩实验调试32位透明通道界面图标按存储未压缩像素直存读取快文件大RLE重复合并适合简单图形调色板先存颜色表低色深常见位域掩码分通道驱动底层系统典型使用场景教学与实验算法调试工业设备系统资源网络不优色深:1位、4/8位、16位、24位、32位变体:未压缩、RLE、调色板、位域位图(BMP)种类与应用五、图像压缩、存储与尺寸BMP图像常从色深、存储特征和使用环境来理解按色深1位黑白文档线稿4/8位调色板图标图形16位高彩旧设备24位真彩实验调试32位透明通道界面图标按存储未压缩像素直存读取快文件大RLE重复合并适合简单图形调色板先存颜色表低色深常见位域掩码分通道驱动底层系统典型使用场景教学与实验算法调试工业设备系统资源网络不优场景:教学实验、算法调试、工业设备、系统资源特点:结构简单,像素直观,文件通常较大PNG图像种类与应用场景五、图像压缩、存储与尺寸核心特征:无损、透明、边缘清晰常见类型:PNG-8、PNG-24、PNG-32、APNGPNG适合清晰边缘、透明背景和无损保存常见种类8PNG-8256色索引色图标、简单网页元素24PNG-24真彩色无透明截图、图表界面图片32PNG-32真彩色+AlphaLogo、素材透明叠加动APNG动画PNG贴纸、轻量网页动效为什么常用透支持透明背景清文字边缘更清楚稳多次保存不累积失真网网页与界面资源常用典型使用场景图标Logo截图图表网页界面透明素材APNG照片不优PNG图像种类与应用场景五、图像压缩、存储与尺寸PNG适合清晰边缘、透明背景和无损保存常见种类8PNG-8256色索引色图标、简单网页元素24PNG-24真彩色无透明截图、图表界面图片32PNG-32真彩色+AlphaLogo、素材透明叠加动APNG动画PNG贴纸、轻量网页动效为什么常用透支持透明背景清文字边缘更清楚稳多次保存不累积失真网网页与界面资源常用典型使用场景图标Logo截图图表网页界面透明素材APNG照片不优适应环境:网页界面、图标、截图、透明素材整体判断:清晰、可透明,但照片压缩不占优JPEG图像种类与应用场景五、图像压缩、存储与尺寸核心特性:有损为主、文件较小JPEG更适合连续色调照片与高压缩传播常见种类标标准JPEG最常见逐行解码手机照片、普通网页渐渐进JPEG先模糊后清晰网页预览、慢网加载2KJPEG2000小波压缩更灵活档案、医学高质量影像LSJPEG-LS低复杂度近无损工业、医疗机器视觉为什么常用小压缩后体积更小照适合真实照片传便于网络传播广设备兼容性高典型使用场景手机照片社交媒体网页照片数码相机监控图像透明不支从压缩方式、显示特性和典型场景三方面理解JPEG:常建类型:标准、渐进、JPEG2000、JPEG-LSJPEG有时也简写为JPG,完全一样JPEG图像种类与应用场景五、图像压缩、存储与尺寸使用环境:照片存储、网页图片、相机与社媒JPEG更适合连续色调照片与高压缩传播常见种类标标准JPEG最常见逐行解码手机照片、普通网页渐渐进JPEG先模糊后清晰网页预览、慢网加载2KJPEG2000小波压缩更灵活档案、医学高质量影像LSJPEG-LS低复杂度近无损工业、医疗机器视觉为什么常用小压缩后体积更小照适合真实照片传便于网络传播广设备兼容性高典型使用场景手机照片社交媒体网页照片数码相机监控图像透明不支从压缩方式、显示特性和典型场景三方面理解JPEG:整体判断:连续色调、照片更合适、透明边缘不优JPEG有时也简写为JPG,完全一样图像尺寸五、图像压缩、存储与尺寸三组概念图像分辨率图像文件本身有多少像素显示分辨率屏幕一次能显示多少像素PPI/DPI每英寸像素或打印点的密度同一张图片,在不同屏幕上显示大小可能不同;打印时又要重新映射到纸张尺寸。例子演算3000×2000像素@300DPI打印宽度=3000÷300=10英寸打印高度=2000÷300=6.67英寸像素数量决定“可供分配的细节”;PPI/DPI决定这些细节在屏幕或纸上被摊得多大。大图不一定更清晰,关键还要看显示尺寸、缩放方式和输出密度。文件尺寸设备尺寸打印密度0本节内容一、图像概述二、认识“像素”三、色彩模型四、色深五、图像压缩、存储与尺寸六、图像操作与基本处理六、图像操作与基本处理六、图像操作与基本处理理解像素之后才能真正进入图像处理像素操作是最基础的图像计算入口,OpenCV、PIL等工具都是在帮助我们高效地访问和修改像素矩阵三类操作点运算亮度、对比度、颜色滤镜区域运算模糊、锐化、边缘检测颜色转换RGB↔HSV/灰度/Lab处理流程原图亮度/对比度模糊/锐化/边缘颜色空间转换把“看见一张图”转化为“理解这张图在计算机里如何被表示、保存、压缩和处理”;后续做图像标注、图像增强、目标检测或分割时,都会反复回到这些基础概念。六、图像操作与基本处理读取图像并查看其大小与通道信息调整像素亮度(增加亮度)对图像进行模糊处理(高斯模糊)将图像从RGB转换为HSV颜色空间5-1样板程序功能简介六、图像操作与基本处理图像文件路径:./data/ch5/example.png存储格式:PNG图像模式(来自PIL):RGBA图像尺寸(宽×高):(1836,1526)OpenCV读取后图像大小(HxWxC):

(1526,1836,3)数据类型(Dtype):uint8色深:每通道8位色彩通道数:3(OpenCV以BGR通道存储)……运行结果认识像素与图像第一节图像处理技术第二节图像数据的公开数据源第三节第五章图像处理与数据集生产案例水果分类数据集生产项目第四节图像处理技术0本节内容一、图像的基本特征参数二、图像的高级特征参数一、图像的基本特征参数三、图像数据的分类与特性四、图像数据的处理操作一、图像的基本特征参数基本参数协同作用尺寸像素宽高分辨率像素密度色深颜色层次色彩模式通道组织存储格式文件封装压缩方式体积与质量共同影响:清晰度、文件大小、兼容性、训练效率尺寸:决定像素宽高分辨率:决定像素密度色深:决定颜色层次色彩模式:决定通道组织存储格式与压缩:决定体积与质量0本节内容一、图像的基本特征参数二、图像的高级特征参数二、图像的高级特征参数三、图像数据的分类与特性四、图像数据的处理操作二、图像的高级特征参数视觉效果整体优化明暗层次亮度对比度曝光伽马动态范围细节质量锐度噪点与纹理渐晕失真色差色彩控制饱和度白平衡色彩空间目标:真实、清晰、稳定、适配具体任务明暗层次:亮度、对比度、曝光、伽马、动态范围色彩控制:饱和度、白平衡、色彩空间细节质量:锐度、噪点、失真、色差、渐晕二、图像的高级特征参数识别问题偏暗/偏色/模糊/噪点选择工具PS美图秀秀程序获得效果更清晰/更自然/更适配核心原则:围绕任务目标做适度编辑Photoshop亮度/对比度色阶/曲线色彩平衡与色相饱和度、锐化、模糊、降噪、裁剪、变换、蒙版美图秀秀智能美化滤镜特效人像美容文字贴纸与拼图去水印、抠图、背景替换程序处理通过特定程序进行专项、批量处理全局调整:曝光、亮度、对比度、饱和度局部处理:选区、蒙版、修复、抠图细节优化:锐化、降噪、失真校正输出适配:尺寸、分辨率、格式与压缩图像数据工程通常需要用程序进行批量处理加载原始图像转换格式和保存属性显示JPEG格式的特殊处理获取原始文件大小演示JPEG格式在不同压缩质量下的视觉效果差异5-2样板程序功能简介二、图像的高级特征参数运行结果原始图像属性:

格式:BMP

尺寸:(2088,1178)模式:RGB文件大小:7206.10KBJPEG格式图像属性:文件路径:./data/ch5/example-2.jpg

尺寸:(2088,1178)模式:RGB文件大小:264.23KB二、图像的高级特征参数0本节内容一、图像的基本特征参数二、图像的高级特征参数三、图像数据的分类与特性四、图像数据的处理操作三、图像数据的分类与特性分类视角(一)三、图像数据的分类与特性(一)分类视角按维度2D图像3D图像位图/矢量/体数据/点云按通道与色彩模式黑白/灰度/RGB/RGBAYCbCr/HSV/Lab多光谱/高光谱/高位深按应用场景医学、遥感、工业、安防文档、艺术、媒体、电商不同场景决定不同采集与标注策略先看分类,再理解图像数据为什么“难处理、难治理、难标注”图像数据分类维度通道色彩色深应用场景分类视角(一)三、图像数据的分类与特性按维度分类(二)(二)按维度分类2D图像位图:JPEG、PNG、BMP、GIF、TIFF矢量:SVG、AI、EPS多帧2D:GIF、视频帧序列3D图像深度图:在像素上增加depth信息体数据:CT、MRI等体素数据3D模型/点云:重建、自动驾驶、机器人分类视角(一)三、图像数据的分类与特性按维度分类(二)按通道与色彩模式分类(三)(三)按通道与色彩模式分类维度×通道×位深共同决定图像表达能力位深与精度1、8、16、32位精度越高,细节保留越充分近年扩展1RGB-D数据快速普及适合具身智能、SLAM、抓取近年扩展2点云、NeRF、3D高斯泼溅推动3D场景理解与重建灰度图像单通道亮度信息8位最常见医学与科学成像多高位深彩色图像RGB/RGBAYCbCr/YUVHSV/HSL/Lab多光谱与高光谱通道可达数十至上百可见光外红外、热红外等遥感、农业、环境监测三、图像数据的分类与特性按应用场景分类(四)(四)按应用场景分类日常视觉类自然风景·人物肖像·娱乐媒体·电商宣传数据工程关注:采集来源、标注目标、质量标准、隐私合规医学健康类X光/CT/MRI·超声/病理·显微图像·诊断与科研数据工程关注:采集来源、标注目标、质量标准、隐私合规遥感地理类卫星图像·无人机航拍·GIS/城市规划·农业监测数据工程关注:采集来源、标注目标、质量标准、隐私合规工业安防类质检图像·机器人视觉·CCTV监控·人脸/虹膜/指纹数据工程关注:采集来源、标注目标、质量标准、隐私合规文档信息类扫描文档·OCR图像·图纸/报表·档案数字化数据工程关注:采集来源、标注目标、质量标准、隐私合规艺术设计类绘画/插画·UI/海报·商业摄影·品牌传播数据工程关注:采集来源、标注目标、质量标准、隐私合规热点:医学影像多模态、遥感多光谱、机器人视觉与电商内容理解持续升温三、图像数据的分类与特性按应用场景分类(四)图像数据的特性(五)(五)图像数据的特性高维与结构化高分辨率图像包含大量像素;同时保留二维、三维或体素结构。空间相邻性强相邻像素通常相关,边缘、纹理、形状具有连续分布。数据量大且多样高清图像、视频、多光谱和点云会迅速放大存储与算力压力。非线性与多尺度局部纹理与全局语义共存,需要多尺度、多层次模型建模。噪声与不确定性受设备、光照、运动、压缩和成像条件影响,易出现模糊、噪点、畸变。语义丰富但提取困难像素层不等于语义层,分类、检测、分割、关键点和生成任务各有难点。数据工程启示:要同时关注采集质量、标签质量、存储组织、版本管理、数据卡文档化,以及模型评测闭环。0本节内容一、图像的基本特征参数二、图像的高级特征参数三、图像数据的分类与特性四、图像数据的处理操作四、图像数据的处理操作图像操作解析(一)四、图像数据的处理操作(一)图像操作解析输入图像原始图像样本图监控帧医学切片遥感影像

…..输出与应用更适合建模统一尺寸、统一通道、统一质量更易提取目标边缘、区域、纹理、实例更强泛化能力增强样本、覆盖光照与视角变化更高工程效率去重、压缩、抽样、数据抽取核心高级操作几何变换缩放裁剪旋转翻转仿射质量优化颜色调整均衡化降噪平滑锐化增强结构分析边缘检测形态学二值化分割区域生长识别匹配特征提取图像匹配模板匹配颜色转换数据增强多视角样本难例扩充鲁棒性提升工程化操作质量检测去重抽取压缩导出专门的处理程序与工具图像操作不只是“修图”,是围绕模型输入、质量提升、目标提取和数据集生产展开的完整工程流程现代图像数据工程已从传统预处理扩展到模型辅助分割、自动增强流水线、跨模态对齐和数据文档化管理图像操作解析(一)四、图像数据的处理操作图像操作方法汇总(二)(二)图像操作方法汇总序号操作名称操作内容示例1图像缩放改变图像的尺寸,使其符合特定的输入要求或标准-原始图像:400x400像素-处理后:缩放为200x200像素2裁剪从图像中提取感兴趣的区域,去除不需要的部分-原始图像:包含很多无关背景-处理后:裁剪为包含主要对象的区域3旋转按指定角度旋转图像,通常用于数据增强-原始图像:竖直的猫-处理后:旋转90度后的横向猫4翻转对图像进行水平或垂直翻转,通常用于数据增强-原始图像:猫的正面-处理后:翻转后的猫的背面5颜色调整调整图像的亮度、对比度、饱和度等,以改善图像的视觉效果-原始图像:光线较暗-处理后:增加亮度、对比度,使图像更清晰(二)图像操作方法汇总序号操作名称操作内容示例6灰度化将彩色图像转为灰度图像,以减少计算复杂性-原始图像:彩色图像-处理后:转换为灰度图像7直方图均衡化增强图像的对比度,使图像中的细节更加明显-原始图像:暗淡的照片-处理后:亮度和对比度增强的清晰图像8图像降噪移除图像中的噪声,改善图像质量-原始图像:含有噪点的图像-处理后:去除噪声后的清晰图像9边缘检测提取图像中的边缘,常用于物体检测、分割等任务-原始图像:包含建筑物的照片-处理后:显示建筑物边缘的图像10形态学操作用于图像的形态学处理,如膨胀、腐蚀、开闭运算等-原始图像:含有小黑点的图像-处理后:腐蚀操作去除黑点(二)图像操作方法汇总序号操作名称操作内容示例11图像平滑对图像进行模糊处理,去除细节或噪声-原始图像:含有噪点的图像-处理后:应用高斯模糊降噪12图像增强增强图像的细节或特定特征,提升图像质量-原始图像:低质量的夜间照片-处理后:通过锐化增强图像细节13图像二值化将图像转化为黑白两色的图像,通常用于文本识别或目标分割-原始图像:灰度图像-处理后:将图像转换为黑白二值图像14图像旋转对图像进行旋转、缩放、平移等变换,保留其几何形状-原始图像:车辆图像-处理后:经过仿射变换的旋转图像(二)图像操作方法汇总序号操作名称操作内容示例15数据增强对图像进行多种操作,如翻转、旋转、剪裁等,生成更多训练样本-原始图像:猫的图像-处理后:生成多个不同角度和尺寸的猫图像16特征提取提取图像的关键特征,如纹理、颜色直方图、形状等-原始图像:包含建筑物的照片-处理后:提取纹理、颜色直方图等特征17图像压缩压缩图像文件大小以节省存储空间,分无损压缩和有损压缩-原始图像:大尺寸的高清图像-处理后:压缩后的低大小图像18图像分割将图像分成不同的区域或对象,常用于物体检测、图像分析等-原始图像:包含多个物体的图像-处理后:图像分割分别标出不同区域(二)图像操作方法汇总序号操作名称操作内容示例19图像匹配识别并匹配图像中的相似区域或对象-原始图像:包含建筑物的照片-处理后:图像匹配,识别出相似的建筑物或区域20颜色空间转换将图像从一种颜色空间转换为另一种颜色空间,如RGB到HSV-原始图像:RGB图像-处理后:转换为HSV图像21模板匹配在图像中找到一个子图像或模板的位置-原始图像:包含多个目标的图像-处理后:定位并标出图像中的目标22区域生长根据相似性规则从种子点开始,扩展到整个目标区域-原始图像:包含不同区域的医学影像-处理后:标记出肿瘤区域认识像素与图像第一节图像处理技术第二节图像数据的公开数据源第三节第五章图像处理与数据集生产案例水果分类数据集生产项目第四节图像数据的公开数据源0本节内容一、开源图像数据集的种类二、开源图像数据集的特征一、开源图像数据集的种类三、典型公开图像数据集解析公开图像数据源概览(一)一、开源图像数据集的种类(一)公开图像数据源概览公开图像数据源种类按内容/按任务特征规模/多样性/标注解析MNIST/CIFAR/ImageNet使用下载/加载/许可公开数据集不仅是训练资源,也是学习任务类型、标注形式和工程规范的重要入口从“数据集种类—数据集特征—典型公开数据集”建立系统认识:数据内容分类应用任务分类数据集核心特征典型数据集解析公开图像数据源概览(一)一、开源图像数据集的种类公开图像数据源的选用(二)(二)公开图像数据源的选用按内容分类按任务分类典型数据集平台入口选择标准通用/人像/医学/遥感/工业/文档分类/检测/分割/检索/描述/多模态ImageNet/COCO/OpenImages/MNISTKaggle/UCI/Roboflow/HuggingFace许可、质量、规模、偏差、场景适配公开图像数据源公开数据集能帮助快速启动项目,但真正可用的数据,还要结合任务目标、标注质量、许可范围与真实场景差异综合判断选择关注点:许可、质量、规模、类别定义、偏差与适配性公开图像数据源概览(一)一、开源图像数据集的种类公开图像数据源的选用(二)按内容分类(三)(三)按内容分类自然图像真实场景ImageNet/COCO手写字符灰度小图MNIST/EMNIST人脸图像识别与属性LFW/CelebA医疗影像X光/CT/MRIISIC/LUNA16遥感图像地表与建筑EuroSAT/DeepGlobe合成图像可控生成SYNTHIA/GTA5按内容分类有助于理解数据从哪里来、长什么样、适合解决什么问题不同来源和内容结构对应不同研究与应用场景。公开图像数据源概览(一)一、开源图像数据集的种类公开图像数据源的选用(二)按内容分类(三)按应用任务分类(四)(四)按应用任务分类图像分类整图一个类别CIFAR-10/100TinyImageNet目标检测识别+定位PascalVOCCOCO图像分割像素级标注CityscapesADE20K人体关键点关键点位置MPIICOCO-Keypoints图像生成生成与风格迁移CelebA-HQLSUN任务越复杂,数据集越不只是“给类别标签”,而是要提供位置、边界、关键点甚至生成条件。

任务不同,决定标签形式、粒度要求和评价指标。0本节内容一、开源图像数据集的种类二、开源图像数据集的特征二、开源图像数据集的特征三、典型公开图像数据集解析核心特征(一)二、开源图像数据集的特征(一)核心特征使用数据集之前,先判断它的规模、覆盖面、标注质量、获取方式和许可边界。规模从千张到千万级多样性场景/地区/气候/人群标注分类/框/分割/关键点获取官网/Kaggle/HF/GitHub许可研究用途/商用限制会选数据集,比“只会下载数据集”更重要核心特征(一)二、开源图像数据集的特征三项关键特征(二)(二)三项关键特征规模与结构图像数量从数千到千万级可能包含RGB、深度、红外带来更强泛化也带来更高算力成本数据多样性内容广:人物、动物、街景、工业环境广:国家、地区、气候、文化可降低DomainShift标注质量标签形式:分类、框、分割、关键点质量要求:一致、精确、低噪声低质量标注会直接伤害模型好数据集不是“只有很多图”,而是“数量、覆盖与标注质量同时过关”规模、多样性与标注质量决定了数据集能否真正支撑模型泛化:规模越大,训练资源越丰富多样性越高,越能减少分布偏移标注越精细,模型学习越稳定核心特征(一)二、开源图像数据集的特征三项关键特征(二)可用性(三)(三)可用性获取方式、可访问性与许可限制决定数据能否落地使用:规模越大,训练资源越丰富多样性越高,越能减少分布偏移标注越精细,模型学习越稳定许可与限制MIT/Apache/CC也可能仅限研究用途发布产品前必须确认引用、商用与衍生条款获取与访问官网、学术机构、Kaggle、GitHub、HF大数据集常需分片下载与额外存储管理格式与对接图像常见JPEG/PNG/TIFF标注常见XML/JSON/COCO/VOC是否兼容主流框架很关键公开可见,不等于可自由商用;下载容易,不等于接入容易0本节内容一、开源图像数据集的种类二、开源图像数据集的特征三、典型公开图像数据集解析三、典型公开图像数据集解析MNIST手写数字数据集(一)三、典型公开图像数据集解析(一)MNIST手写数字数据集MNIST

适合入门,CIFAR适合通用分类基准,是图像学习的两级台阶:MNIST解决“会不会做”MNIST70,000张灰度图28×28像素10个数字类别优点:简单、标准、适合入门用途:手写数字识别与分类实验MNIST:灰度小图、10类数字都可直接用深度学习框架加载MNIST手写数字数据集(一)三、典型公开图像数据集解析CIFAR图像分类数据集(二)(二)CIFAR图像分类数据集CIFAR适合通用图像分类基准:CIFAR-10、CIFAR-100RGB小图、自然场景MNIST解决“会不会做”,CIFAR解决“做得够不够好”CIFAR-10/10060,000张RGB图像32×32像素10类/100类优点:更接近自然图像用途:卷积网络与分类模型基准都可直接用深度学习框架加载MNIST手写数字数据集(一)三、典型公开图像数据集解析CIFAR图像分类数据集(二)ImageNet(三)(三)ImageNetImageNet是大规模复杂图像数据集,也是现代深度视觉发展的重要基准:类别多图像大分辨率高适合深层模型训练通常需要申请与规范使用ImageNet超过1500万张图像覆盖数千类别常用于分类、检测、分割研究意义:推动大规模视觉模型发展特点:数据规模大、训练成本高ILSVRC是基于ImageNet图像数据集的国际计算机视觉识别的著名赛事,2012的AlexNetMNIST手写数字数据集(一)三、典型公开图像数据集解析CIFAR图像分类数据集(二)ImageNet(三)公开图像数据集选用(四)(四)公开图像数据集选用MNIST:入门级CIFAR:中等复杂度ImageNet:大规模高复杂度选择数据集要同时看任务、规模、标注、许可与算力条件公开图像数据集的真正价值,不只是“能下载”,而是“能被正确选择、理解和使用”认识像素与图像第一节图像处理技术第二节图像数据的公开数据源第三节第五章图像处理与数据集生产案例水果分类数据集生产项目第四节水果分类数据集生产项目0本节内容一、项目简介二、项目背景、目标与需求分析一、项目简介三、数据获取四、数据处理五、注数据标六、质检与交付数据集简介(一)一、项目简介(一)数据集简介需求采集处理标注验收交付水果分类数据集从数据产品设计到交付发布的完整工程流程智慧农业场景·图像分类数据集·可追溯交付数据集简介(一)一、项目简介数据集生产流程(二)(二)数据集生产流程需求、设计数据获取处理与标注验收、交付产品设计目标规模类别质量交付数据获取来源开源网络众包实拍数据处理清洗统一去重增强人工标注工具LabelStudio质量验证指标Kappa抽检合规交付发布产物images/annotations/metadata0本节内容一、项目简介二、项目背景、目标与需求分析二、项目背景、目标与需求分析三、数据获取四、数据处理五、注数据标六、质检与交付项目目标(一)二、项目背景、目标与需求分析(一)项目目标场景挑战光照遮挡背景复杂角度多变数据风险模糊过曝欠曝重复图版权不明项目目标10,000+图像100+类别可追溯台账可验收交付核心产出:一个可用于智慧农业视觉应用的水果分类数据集,以及一套可复用的数据工程方法。真实场景变化大类别边界容易混工程交付要求高需要稳定泛化能力生产级项目越来越强调可追溯元数据、数据卡文档、版本化交付与复现实验项目目标(一)二、项目背景、目标与需求分析项目需求分析(二)(二)项目需求分析规模与分布图像质量多样性要求标注与一致性需求分析规模10k+质量清晰可辨多样性视角背景光照标注单标签Kappa≥0.85分布分层抽样8:1:10本节内容一、项目简介二、项目背景、目标与需求分析三、数据获取四、数据处理五、注数据标六、质检与交付三、数据获取采集原则(一)三、数据获取(一)采集原则来源多元许可明确难例优先全程可追溯网络采集40%–60%众包采集10%–30%实地拍摄10%–30%开源补充5%–20%可追溯台账字段source·license/permission·collectordate·original_url·remark下载后建议同步做水印、敏感信息与版权风险扫描采集原则(一)三、数据获取开源数据集Fruit-360(二)(二)开源数据集Fruit-360下载与许可核对:下载渠道以数据集官网/论文页/公开仓库说明为准;避免使用来源不明的网盘传播版本。下载后务必保留LICENSE、readme、引用信息,并在交付README中注明来源与使用范围目录结构:解压后可见训练集/测试集/说明文档等目录。不同版本的类别数与图像数量可能不同,请以官方说明文件为准,并用脚本生成你自己的“规格报告”【5-5.ipynb】加载与查看Fruit-360

数据集采集原则(一)三、数据获取开源数据集Fruit-360(二)网络爬取(三)(三)网络爬取【5-6.ipynb】水果图片爬取采集原则(一)三、数据获取开源数据集Fruit-360(二)网络爬取(三)实地拍摄(四)(四)实地拍摄0本节内容一、项目简介二、项目背景、目标与需求分析三、数据获取四、数据处理五、注数据标六、质检与交付四、数据处理处理要点(一)四、数据处理(一)处理要点标准化、去重与增强原始汇总格式统一RGB/JPEG尺寸统一800×600去重复核增强策略去重与增强的工程边界完全重复图直接删除;近重复图输出清单人工复核增强要保持类别语义,优先采用可组合流水线当前常见做法是把增强作为训练流水线,而不是全部提前固化到数据集原始数据只读保存处理结果写新目录日志和报表可复现增强不必全部固化处理要点(一)四、数据处理基础预处理(二)(二)基础预处理格式统一:转换为JPEG,RGB模式尺寸调整:缩放至800×600,保持比例,必要时填充背景颜色校正:按统一策略做轻量校正(二)基础预处理此Python程序是一个图像批量预处理工具,适合用于图像数据集的标准化处理,便于后续分析或使用。具体实现:5-7样板程序功能简介处理输入文件夹及其子文件夹中的所有图像文件自动读取支持的图像格式(PNG、JPG、JPEG、BMP、TIFF),进行格式统一(转换为RGB模式的JPEG)、尺寸调整(缩放至800x600像素,保持原比例并填充白色背景)、颜色校正(亮度增强20%,对比度增强10%)(二)基础预处理此Python程序是一个图像批量预处理工具,适合用于图像数据集的标准化处理,便于后续分析或使用。具体实现:5-7样板程序功能简介将处理后的图像保存到指定输出文件夹中程序会输出处理的图片总数和每个图片的处理步骤总结(二)基础预处理已处理:./data/ch5/processed_images/fruits.jpg已处理:./data/ch5/processed_images/IMG_20241107_101924.jpg……已处理:./data/ch5/processed_images/fruit-360-Training_Walnut_50_100.jpg总共处理了9024

张图片。每张图片经过了以下处理:-转换为RGB模式和JPEG格式-调整尺寸至800x600,保持比例,填充白色背景-亮度增强20%,对比度增强10%运行结果处理要点(一)四、数据处理基础预处理(二)数据去重与增强(三)(三)数据去重与增强去重:删除完全重复图;对视觉相似图(近重复)输出清单供人工复核增强:在不破坏类别语义的前提下做旋转、翻转、亮度抖动、裁剪等注意:增强属于“训练策略的一部分”,并非所有项目都必须把增强后的图像“固化为数据集”,可按教学目标选择保留通过图像数据增强扩大数据集规模,并移除重复图像以提高数据质量,适用于机器学习任务,核心功能包括:5-8样板程序功能简介图像去重:对原始图像(./data/ch5/processed_images)进行去重,移除完全重复图像(基于MD5哈希),检测视觉相似图像(感知哈希,汉明距离<5)并记录供人工审查(三)数据去重与增强图像增强:为去重后的图像生成2张增强图像(数据集规模翻倍),通过随机旋转、水平翻转、亮度调整和裁剪提升数据多样性通过图像数据增强扩大数据集规模,并移除重复图像以提高数据质量,适用于机器学习任务,核心功能包括:5-8样板程序功能简介(三)数据去重与增强去重、增强处理后的图片统一自动复制、保存到“./data/ch5/augmented_images”文件夹下结果追踪:记录增强图像与原始图像的对应关系,输出去重和增强统计,保存日志和CSV文件,便于分析图像去重与增强程序启动发现9014

张图片待去重计算哈希批次1:100%|████|1000/1000[00:07<00:00,128.91it/s]计算哈希批次2:100%|████|1000/1000[00:07<00:00,140.54it/s]计算哈希批次3:100%|████|1000/1000[00:07<00:00,136.31it/s]移除完全重复图像:example-RGBA2.jpg……运行结果(三)数据去重与增强……增强批次10:100%|██████████|11/11[00:00<00:00,23.16it/s]增强处理总结:原始图像数量(去重后):9011成功处理图像:9011生成增强图像:18022数据集规模扩大倍数:2.0倍增强记录已保存至:./data/ch5/augmented_images/augmentation_records.csv(三)数据去重与增强运行结果0本节内容一、项目简介二、项目背景、目标与需求分析三、数据获取四、数据处理五、注数据标六、质检与交付五、注数据标统一标签命名单图单标签边界类写清规则不合格样本剔除五、注数据标标注标准规则、项目设置与正式标注规则层label_map主水果类别multi_fruit策略reject清单项目层CreateProjectImageClassificationInstructions必填校验执行层样例校准正式标注自检回看疑难复审LabelStudio重点:分类任务建议单选、启用快捷键、允许评论反馈疑难样本五、注数据标标注实施Label

Studio标注演示独立标注同一批任务按task_id对齐结果Kappa

低就回修规范批次化导出归档五、注数据标质控抓手AnnotatorA独立标注AnnotatorB独立标注一致性评估按task_id/filename对齐Cohen'sKappa≥0.85导出归档JSON保留全量信息CSV用于统计与Kappa建议按批次命名同一批任务Overlap=2双人标注、一致性评估与数据导出0本节内容一、项目简介二、项目背景、目标与需求分析三、数据获取四、数据处理五、注数据标六、质检与交付六、质检与交付验收维度(一)六、质检与交付(一)验收维度完整性均衡性图像质量标注质量合规性质量控制与验证完整性10,000+图像100+类别均衡性主干类满足分布长尾类需声明图像质量分辨率清晰度曝光标注质量Kappa≥0.85抽检准确率>95%合规性许可可追溯敏感信息已处理验证脚本建议输出:ERROR/WARNING/INFO三级问题与整改清单。验收维度(一)六、质检与交付验收脚本(二)验证图像数据集的质量和合规性,适用于图像数据集的验收阶段:5-9样板程序功能简介(二)验收脚本完整性检查:验证图像数量(300~15000)和类别数量(10~150)均衡性检查:评估类别分布比例(0.5%~1.5%)图像质量检查:检测分辨率(≥800x600)、清晰度(方差≥100)和光照(均值80~200)验证图像数据集的质量和合规性,适用于图像数据集的验收阶段:5-9样板程序功能简介(二)验收脚本标注质量检查:计算Cohen'sKappa一致性(阈值0.85)和准确率(阈值0.95,需groundtruth)合规性检查:扫描EXIF元数据中的敏感信息(如GPS位置)结果输出:生成JSON报告,列出错误和警告,支持自定义groundtruth文件2025-08-2811:06:35,550-INFO-加载标注文件:4961条记录验证图像质量:100%|██████|4961/4961[00:27<00:00,178.66it/s]2025-08-2811:07:03,334-WARNING-DataFrame中缺少双人标注列,跳过Kappa检查2025-08-2811:07:03,335-WARNING-未提供groundtruth文件,跳过准确率检查2025-08-2811:07:03,349-INFO-验证报告保存至./data/ch5/validation_report.json2025-08-2811:07:03,350-ERROR-发现12019个问题(前10个):……运行结果(二)验收脚本验收维度(一)六、质检与交付验收脚本(二)交付物构成(三)(三)交付物构成标准目录结构README

与LICENSEmetadata.csv可加载可复现数据集交付与发布fruits_dataset/•images/•annotations/•metadata/metadata.csv•docs/•README.md•LICENSEREADME重点概述·结构·label_map来源与许可·验收方式·已知限制可用性验证按类别目录组织后,可直接被ImageFolder等加载器使用打包图像数据集以便交付和发布,生成标准化的目录结构,适合机器学习任务:5-10样板程序功能简介图像打包:复制JPEG图像,保留类别子文件夹结构(如apple/,banana/)(三)交付物构成标注文件:复制JSONL格式的标注文件至annotations/annotations.jsonl打包图像数据集以便交付和发布,生成标准化的目录结构,适合机器学习任务:5-10样板程序功能简介元数据生成:创建metadata.csv,包含filename,category,source,date字段(三)交付物构成错误处理:验证输入路径和文件格式,记录日志,确保打包可靠数据集打包至./data/ch5/fruits_dataset运行结果(三)交付物构成验收维度(一)六、质检与交付验收脚本(二)交付物构成(三)项目总结与当前工程实践(四)(四)项目总结与当前工程实践规范先行过程可追溯质量可验证交付可复现项目总结真正有价值的不是“凑够图片”,而是交付一个类别清楚、来源清楚、规则清楚、质量清楚、可直接训练的数据产品。传统主线设计→采集→处理标注→验收→交付当前补强数据卡文档版本化管理增强流水线进一步升级难例优先采集误差闭环回流训练集—验证集协同本章小结像素决定表示方式处理决定输入质量规范决定标注一致性质检决定数据是否可用交付决定数据能否复用第五章从像素和图像处理基础出发,走完整个图像数据集生产项目1认识像素数字表示/存储/分辨率2图像处理技术增强/变换/预处理3图像数据的公开数据源开源数据集/获取与操作4水果分类数据集生产项目需求到发布的全流程先懂像素与图像处理,再了解图像公开数据源,最后以水果分类项目完成图像数据集的需求、处理、标注与交付。第六章音频处理与数据集生产案例音频技术基础第一节音频数据的分类与音频数据集第二节音频数据的公开数据集第三节第六章音频处理与数据集生产案例城市声音数据集生产项目第四节教学目标理解声音与音频的基本内涵,掌握采样率、量化精度、声道、编码方式、存储格式等数字音频基础知识。熟悉语音、环境音、音乐等音频数据类型及典型公开音频数据集,能说明不同音频任务的数据需求差异。掌握音频切分、降噪、去静音、归一化、格式转换、特征提取和样本展示等基础处理操作。第五章图像处理与数据集生产案例教学目标理解城市声音数据集生产项目的完整流程,掌握项目目标、数据获取、预处理、标注、质检、发布与总结方法。能够围绕一个小型音频分类任务,设计采集标准、标签体系、质量指标和交付文档。第五章图像处理与数据集生产案例素养导向:培养听觉数据意识、环境敏感意识、隐私保护意识。教学重点与要求重点:数字音频基础、音频数据集分类、音频公开数据源、城市声音数据集生产项目。难点:理解采样率、声道、时长、噪声、信噪比、时间边界和标签准确性对音频数据质量的影响。要求:了解音频数据基础和典型公开数据源;理解音频预处理、标注和质量控制的关键点;掌握小规模城市声音数据集整理与交付的基本流程。第五章图像处理与数据集生产案例音频技术基础第一节音频数据的分类与音频数据集第二节音频数据的公开数据集第三节第六章音频处理与数据集生产案例城市声音数据集生产项目第四节音频技术基础0本节内容一、声音与音频内涵解析二、人的听觉与智慧听觉技术三、音频信号的分类与特性四、数字音频的编码方式色和存储格式一、声音与音频内涵解析一、声音与音频内涵解析二、人的听觉与智慧听觉技术三、音频信号的分类与特性智慧听觉应用全景模拟音频的数字化三、音频信号的分类与特性采样率、量化精度与声道数三、音频信号的分类与特性音量、音高与音色三、音频信号的分类与特性波形、频谱与声谱图三、音频信号的分类与特性FCC特征特征提取流程三、音频信号的分类与特性读取一个WAV格式的音频文件(example.wav),提取并输出音频的各种属性和特性信息,包括声道数、采样率、采样宽度、音频时长等;绘制了音频的波形图和频谱图,直观地展示音频信号在时域和频域的表现。6-1样板程序功能简介三、音频信号的分类与特性音频文件属性:文件名:./data/example.wav声道数:2采样宽度(每个样本的字节数):2bytes采样率(帧率):44100Hz总帧数:1335783音频时长:30.29秒压缩类型:NONE压缩名称:notcompressed该音频文件为未压缩的PCM编码。……运行结果三、音频信号的分类与特性运行结果三、音频信号的分类与特性加载音频文件:使用librosa.load()函数加载指定的音频文件,保留原始采样率;提取音频特性:按照你的列表,提取采样率、比特深度、声道数、时长、动态范围等特性;绘制图形:使用matplotlib绘制幅度波形、频谱图、过零率、谱质心、MFCC和声谱图等;提供解释:在每个特性输出后,附加简要的解释,帮助理解该特性的涵义。6-2样板程序功能简介三、音频信号的分类与特性欢迎使用音频特征查看和编辑器!请输入您的音频文件路径(如:./data/ch6/example.wav):./data/ch6/example.wav音频已加载:./data/ch6/example.wav采样率:44100声道数:2

菜单:1.查看采样率2.……运行结果三、音频信号的分类与特性2.编辑采样率3.查看比特深度4.编辑比特深度5.查看声道数6.编辑声道数7.查看时长8.编辑时长9.查看幅度10.编辑幅度11.查看频谱运行结果三、音频信号的分类与特性12.编辑频谱13.查看动态范围14.编辑动态范围15.查看时域和频域特征16.查看MFCC17.查看声谱图18.保存音频19.退出请输入您的选择:1采样率:44100Hz……运行结果三、音频信号的分类与特性四、数字音频的编码方式色和存储格式编码方式与存储格式四、数字音频的编码方式色和存储格式音频基础处理工具链四、数字音频的编码方式色和存储格式音频基础处理流程四、数字音频的编码方式色和存储格式6-3样板程序功能简介将指定的音频文件转换为其它格式(MP3、FLAC、AAC),并比较原始文件与转换后文件的特性差异。程序将以格式化的文本和图形方式展示音频文件的基本特性,包括采样率、比特深度、声道数、时长等。四、数字音频的编码方式色和存储格式运行结果原始音频文件特性--------采样率:48000声道数:2比特深度(解码后):32时长:267.97秒转换后音频文件特性(MP3)--------------采样率:48000声道数:2比特深度(解码后):16时长:267.97秒……四、数字音频的编码方式色和存储格式运行结果音频技术基础第一节音频数据的分类与音频数据集第二节音频数据的公开数据集第三节第六章音频处理与数据集生产案例城市声音数据集生产项目第四节音频数据的分类与音频数据集0本节内容一、音频的种类、特性与应用二、音频数据集的分类与特性三、典型公开音频数据集分类四、音频数据的处理操作一、音频的种类、特性与应用一、音频的种类、特性与应用音频数据类型全景二、音频数据集的分类与特性语音数据集分类与任务程环境声与城市声音数据二、音频数据集的分类与特性二、音频数据集的分类与特性专业场景声音数据一、三、典型公开音频数据集分类音频数据集选择逻辑一、三、典型公开音频数据集分类音频数据与多模态智能体四、音频数据的处理操作6-4样板程序功能简介演示“如何组织与实现”下载、展示信息如何从数据集中抽取样本并显示波形四、音频数据的处理操作运行结果=====数据集:LibriSpeech(test-clean子集)=====存储路径:./data/LibriSpeech/文件数量:847文件总大小:115.76MB其它信息:约346MB,英文朗读场景音频文件:./data/LibriSpeech/LibriSpeech/test-clean/5639/40744/5639-40744-0038.flac

采样率:16000Hz四、音频数据的处理操作运行结果声道数:1

时长:13.80秒……音频文件:./data/LibriSpeech/LibriSpeech/test-clean/5639/40744/5639-40744-0002.flac

采样率:16000Hz

声道数:1

时长:8.91秒……四、音频数据的处理操作运行结果四、音频数据的处理操作6-5样板程序功能简介针对一个音频文件(如./data/6/JustHereWaiting.wav)执行“基础处理”相关操作,并输出相应的处理结果。示例中主要依赖pydub库来进行音频读取、编辑、导出,以及一些常见的音频操作函数。四、音频数据的处理操作运行结果=====音频基础信息=====文件路径:./data/ch6/JustHereWaiting.wav采样率:48000Hz声道数:2位深度:32bit时长:267.97秒文件大小:102905410字节(约98.14MB)=================================

基础处理操作全部完成,已输出至./data/output文件夹。四、音频数据的处理操作6-6样板程序功能简介展示音频数据的增强与修复类别处理操作的基本实现思路结合音频文件(./data/ch6/JustHereWaiting.wav),具体实现了降噪、回声消除和音频增强操作。四、音频数据的处理操作运行结果【原音频】前10秒的波形与频谱:四、音频数据的处理操作运行结果开始执行“去噪(NoiseRemoval)”操作...去噪完成,结果输出:./data/enhance_output/noise_removed.wav【去噪后音频】前10秒的波形与频谱:……音频技术基础第一节音频数据的分类与音频数据集第二节音频数据的公开数据集第三节第六章音频处理与数据集生产案例城市声音数据集生产项目第四节音频数据的公开数据集0本节内容一、开源音频数据集的种类二、典型公开音频数据集选型三、UrbanSound8K数据集解析四、公开音频数据的合规使用五、音频数据的处理操作一、开源音频数据集的种类一、开源音频数据集的种类三、典型公开音频数据集选型三、典型公开音频数据集选型四、音频数据的处理操作6-7样板程序功能简介演示如何在PyTorch+torchaudio的基础上对LibriSpeech数据集进行详细的“样本数据”分析与可视化,并(在JupyterNotebook环境中)将其音频片段回放出来。在下载并加载LibriSpeech后,选取第一条语音(或其它条目)进行时长、波形、频谱、标注信息等多方面的展示。四、音频数据的处理操作运行结果=====基本信息=====Waveformshape:torch.Size([1,225360])Samplerate:16000Text(转写):CHAPTERONEMISSUSRACHELLYNDEISSURPRISEDMISSUSRACHELLYNDELIVEDJUSTWHERETHEAVONLEAMAINROADDIPPEDDOWNINTOALITTLEHOLLOWFRINGEDWITHALDERSANDLADIESEARDROPSANDTRAVERSEDBYABROOK四、音频数据的处理操作运行结果=====基本信息=====……SpeakerID:103ChapterID:1240UtteranceID:0

该音频时长:14.09秒四、音频数据的处理操作运行结果三、UrbanSound8K数据集解析四、音频数据的处理操作6-8样板程序功能简介输出UrbanSound8K数据集的简介,说明其背景、内容和用途。读取数据集的元数据(metadata,通常是UrbanSound8K.csv文件),统计并输出基本属性,例如类别数量、样本数量、采样率分布等。保持原有功能(降噪、波形可视化、音频切分和保存)不变。四、音频数据的处理操作运行结果===UrbanSound8K数据集介绍===UrbanSound8K是一个公开的城市声音数据集,包含8732个标注好的城市环境音频片段,分为10个类别。类别包括:空调声、汽车喇叭、儿童玩耍、狗叫、钻孔、引擎空转、枪声、汽笛、街头音乐、警笛。每个音频片段时长不超过4秒,采样率可能不同(通常为44.1kHz或其他)。数据集分为10个折(fold),可用于声音分类、环境声音识别等任务数据来源:/urbansound8k.html================================四、音频数据的处理操作运行结果===UrbanSound8K数据集基本属性===总样本数:8732类别数:10类别分布:dog_bark1000children_playing1000air_conditioner1000street_music1000engine_idling1000jackhammer1000四、音频数据的处理操作运行结果四、音频数据的处理操作运行结果drilling1000siren929car_horn429gun_shot374折数:10采样率分布:元数据中无采样率信息================================

音频采样率:48000Hz音频时长:4.00秒四、公开音频数据的合规使用五、音频数据的处理操作从公开音频数据到可用数据集一、五、音频数据的处理操作源数据与标签标准化五、音频数据的处理操作公开数据、自采数据与合成增强数据融合五、音频数据的处理操作开源音频数据集资产化与复用五、音频数据的处理操作Audition音频处理功能五、音频数据的处理操作Audition演示音频技术基础第一节音频数据的分类与音频数据集第二节音频数据的公开数据集第三节第六章音频处理与数据集生产案例城市声音数据集生产项目第四节城市声音数据集生产项目0本节内容一、项目简介二、目标与需求分析一、项目简介三、数据获取四、数据处理五、注数据标六、质检与交付一、项目简介二、目标与需求分析三、数据获取三、数据获取三、数据获取6-9样板程序功能简介音频录制:通过麦克风实时采集音频数据;波形可视化:动态显示实时波形(录音中)和完整波形(停止后);文件管理:自动保存为WAV格式文件(16-bitPCM);属性分析:显示音频时长、采样率、文件路径等关键参数;状态监控:实时显示录音/保存/就绪状态。三、数据获取运行结果四、数据处理三、数据获取6-10样板程序功能简介深度文件扫描:递归遍历./data/ch6/source-audio/文件夹及其所有子文件夹;支持常见音频格式:WAV、MP3、FLAC、M4A、OGG、AIFF;四层去重验证:通过哈希比对、声纹提取、声纹对比和DTW对齐验证等四层验证实现去重;智能文件保存;三、数据获取6-10样板程序功能简介自动处理文件名冲突(添加数字

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论