人工智能数据标注实战教程高职全套教学课件_第1页
人工智能数据标注实战教程高职全套教学课件_第2页
人工智能数据标注实战教程高职全套教学课件_第3页
人工智能数据标注实战教程高职全套教学课件_第4页
人工智能数据标注实战教程高职全套教学课件_第5页
已阅读5页,还剩405页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章数据标注基础任务一

了解相关基础知识1数据标注基础2图像任务标注3视频标注项目4自然语言处理任务标注5语音标注项目全套可编辑PPT课件内容概括人工智能与数据数据标注定义计算机视觉标注相关基础概念智能语音标注相关基础概念自然语言处理标注相关基础概念1.人工智能与数据“现在的人工智能,前面有多少智能后面就有多少人工”--《三体》作者刘慈欣1.人工智能与数据自20世纪50年代,人工智能就开始走上人类现代科技的历史舞台。从马文·明斯基建造世界上第一台神经网络计算机,到阿兰·图灵提出图灵测试,一件件铭记史册的事件拉开了人工智能发展的大幕。1.人工智能与数据2007年,斯坦福大学教授李飞飞开始启动ImageNet项目,其借助于亚马逊的众包平台完成大量图片的分类标注。2010年,该项目积累1400多万张图片,分为21841种类别。在此项目研究过程中,李飞飞教授逐渐认识到“数据”的重要性。2.数据标注定义数据标注是对未经处理的初级数据,包括语音、图片、文本、视频等进行分类、编辑、纠错和批注等加工处理,并转换为机器可识别信息的过程。对未经处理的初级数据一般通过数据采集获得,随后的数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里完成调用。2.数据标注定义任务子任务视觉标注图像分类,目标检测,语义分割,实例分割,全景分割,视频时间片分类,视频分割,关键点标注,3D点云标注,图像问答等。语音标注语音分割,语音自动识别,语音信号事件等。自然语言标注命名实体,翻译,关系抽取,文本摘要,问答和分级分类等。2.数据标注定义数据标注项目的工作流程3.计算机视觉标注相关基础概念--图像(1)像素一般人工智能讨论的都是假设基于屏幕像素的。屏幕像素是指显示屏的像素,包括电视机,电脑显示屏,手机屏等等,这些像素不是虚拟的,是实实在在存在的,具有物理尺寸大小,通常是英寸(inch)为单位。(2)分辨率屏幕分辨率只与长度有关,用ppi代表,有时也称像素密度,表示每英寸有多少个像素点,与物理设备相关。数码图像分辨率指这幅图的像素。数码图像的物理尺寸可以是任意的。如果当前数码图像分辨率标为5000×

4000像素,屏幕分辨率是100ppi,那么这幅图的屏幕尺寸是宽=5000/100=50英寸,高=4000/100=40英寸。3.计算机视觉标注相关基础概念--图像(3)色彩空间人类视网膜上有三种感知色彩的视锥细胞,所以理论上可用三种颜色的光就可以混合出自然界中任何一种颜色来。在20世纪20年代,戴维德等科学家通过三种颜色的光源进行匹配,得到了人眼对于不同颜色光的匹配函数。设三种颜色的光源(R红色,G绿色,B蓝色)强度分别为r,g和b,则颜色C可表示为:(4)图像文件格式分类:有损压缩、无损压缩常见得比较多的图片格式有:jpeg(jpg)、png、bmp、gif、tif和raw等。3.计算机视觉标注相关基础概念--视频(1)文件格式数字视频是人工智能数据标注主要关注的视频形式。数字视频有不同的产生方式,存储方式和播出方式。AVI,WMV,MPEG,DivX,MKV等(2)视频帧视频中标准的基本信息单元称为帧。3.计算机视觉标注相关基础概念--视频(3)帧速率帧速率即总帧数与时间的比值,单位为帧每秒(f/s,framespersecond)。帧速率越高,人眼感觉视频越流畅。要避免不流畅的最低指标是30fps。(4)采样率随着流媒体兴起,视频网络播放为了减少网络压力,采用采样率来抽样原视频文件,形成视频流。444,422和420是三种YUV色彩空间的采样。三位数分别代表Y、U和V通道的抽样比。例如,444是全采样;而422是对Y进行全采样,对U和V分别进行1/2均匀采样。YY,U,VYYY,U,VYYY,U,VYY,U,VY,U,VY,U,VY,U,VY,U,VY,U,VY,U,VY,U,VY,U,V3.计算机视觉标注相关基础概念--视频(5)码率码率是视频数据每秒输出的数据位数。简称BPS,全称BitsPerSecond。常见单位KBPS(千位每秒)和MBPS(兆位每秒)。(6)分辨率分辨率指视频一帧图像包含的像素的多少,常见有1280×720像素和1920×1080像素等规格。分辨率影响图像大小,且与之成正比。分辨率越高,一帧图像越大;反之,一帧图像越小。4.智能语音标注相关基础概念--声音信号声音是一种压力波。当演奏乐器、拍打一扇门或者敲击桌面时,振动会引起介质即空气分子有节奏的振动,使周围的空气产生疏密变化,形成疏密相间的纵波,这就产生了声波,这种现象会一直延续到振动消失为止。4.智能语音标注相关基础概念--声音信号(1)频率声源在一秒中内振动的次数,记作f。赫兹是频率单位,记为Hz,指每秒钟周期性变化的次数(2)周期声源振动一次所经历的时间,记作T,单位为s。(3)音调声音的高低(高音、低音),由频率决定,频率越高音调越高。人耳听觉范围20~20000Hz。20Hz以下称为次声波,20000Hz以上称为超声波。宋佚名《深堂琴趣图页》4.智能语音标注相关基础概念--声音信号(4)音色音色又称音品,声音波形决定了声音的音色。声音因物体材料的特性而不同,音色本身是一种抽象的东西,但波形是把这个抽象直观的表现。波形不同,音色则不同。不同的音色,通过波形,完全可以分辨的。(5)响度响度描述人主观上感觉声音的大小,也称幅度或音量。由“振幅”和人离声源的距离决定,振幅越大响度越大,人和声源的距离越小,响度越大。其单位为分贝。所谓分贝是指两个相同的物理量(例如A1和A0)之比取以10为底的对数并乘以10。分贝符号为“dB”,它是无量纲的。式中A0是基准量,A1是被量度量。被量度量和基准量之比取对数,这对数值称为被量度量的“级”。它代表被度量比基准量高出多少“级”。4.智能语音标注相关基础概念--数字声音声音音频有模拟信号和数字信号两种形式。模拟信号指时间连续、幅度都是连续的信号;数字信号指时间、幅度上都是离散的信号。把模拟信号转换成数字信号,叫A/D转换。从连续的变成离散的就需要采样;相反,当要把音频播放出来就需要把数字信号转换成模拟信号,这叫D/A转换。(1)采样频率数字声音每秒采集声音的频率,它用赫兹(Hz)来表示。常见采样场景包括:广播22.05khz、CD的44.1khz和DVD的96khz。(2)采样精度采样精度表示用多少位二级制数去表示声音信号强度。采样精度常用范围为8bit至32bit,而CD中一般都使用16bit。中央人民广播电台播音员齐越在做联播广播4.智能语音标注相关基础概念--数字声音(3)声音通道声音频率按照频率范围分为多少个部分来单独处理,每个部分可以单独放大,单独压缩,单独降噪,通道越多对声音处理的就越精细,听到的声音就越清晰。4.智能语音标注相关基础概念--数字声音(4)噪音声音在采集过程中难免会收到周遭环境的影响。从物理角度看,噪声是无规则的机械波。在声音数据标注中,可能对标注结果产生误差影响。由于有噪声的存在,所以信噪比是一个评价声音特性的指标。在声音领域中,将声音信号与噪声的声级之差为定义为信噪比,单位是分贝。一般使用如下公式计算:4.智能语音标注相关基础概念--数字声音音频文件通常分为声音文件和MIDI文件两类,声音文件是通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据;MIDI文件是一种音乐演奏指令序列,可利用声音输出设备或与计算机相连的电子乐器进行演奏。常见文件格式包括:Wave、MPEG、AAC、FLAC等。5.自然语言处理标注相关基础概念(1)txttxt即文本文件。早在DOS时代应用就很多,主要存储文本信息。(2)csv逗号分隔值(Comma-SeparatedValues,CSV),其文件以纯文本形式存储表格数据。csv文件具体规则如下:以行为单位,开始位置不能为空。文件首行可为列名行。数据不跨行,无空行。以半角逗号作分隔符,列内容为空也要保留分隔符。列内容如存在半角引号,替换成半角双引号转义,即用半角引号将该字段值包含起来。编码格式不限,可为ASCII、Unicode或者其他。2000,"Venture",4900.001999,"Venture",5100.005.自然语言处理标注相关基础概念(3)jsonjson(JavaScriptObjectNotation)是一种轻量级的数据交换格式。它基于ECMAScript的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得json成为理想的数据交换语言。json易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。json文件具体规则如下:并列的数据之间用逗号(,)分隔映射用冒号(:)表示并列数据的集合(数组)用方括号([])表示映射的集合(对象)用大括号({})表示5.自然语言处理标注相关基础概念(4)XMLXML可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。具体规则如下:必须有声明语句区别大小写有且只有一个根元素属性值使用引号所有的标记必须有相应的结束标记所有的空标记也必须被关闭5.自然语言处理标注相关基础概念计算机自己能理解的“语言”是二进制数,最小的信息标识是二进制数,8个二进制位表示一个字节;而我们人类所能理解的语言文字则是一套由英文字母、汉语汉字、标点符号字符、阿拉伯数字等等很多的字符构成的字符集。如果要让计算机来按照人类的意愿进行工作,则必须把人类所使用的这些字符集转换为计算机所能理解的二进制码,这个过程就是编码。5.自然语言处理标注相关基础概念(1)ASCIIASCII编码是最早采用的一种单字节编码系统。在这套编码规则中,人们将所需字符集中的字符一一映射到128个二进制数上,这128个二进制数是最高位为0,利用剩余低7位表示具体字符。其中,0X00到0X1F共32个二进制数表示控制字符或通信专用字符(如LF换行、DEL删除、BS退格)编码,0X20到0X7F共96个二进制数来对阿拉伯数字、英文字母大小写和下划线、括号等符号进行编码。5.自然语言处理标注相关基础概念(2)GB系列中国国家标准总局发布了一套《信息交换用汉字编码字符集》的国家标准,其标准号就是GB2312-1980,再后来生僻字、繁体字及日韩字也被纳入字符集,就又有了后来的GBK字符集及相应的编码规范,GBK编码规范也是向下兼容的。5.自然语言处理标注相关基础概念(3)UnicodeISO国际标准化组织提出了Unicode的编码标准,这套标准中包含了Unicode字符集和一套编码规范。Unicode字符集涵盖了世界上所有的文字和符号字符。UTF-8编码的文件有withoutBOM和BOM两种格式。BOM,即ByteOrderMark,意为字节序标记。BOM的本意是在UTF-16编码中用来表示高低字节序列的。UTF-16以两个字节为编码单元,在解释一个UTF-16文本前,首先要弄清楚每个编码单元的字节序。在字节流之前有BOM表示采用低字节序列(低字节在前面)。UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。如果接收者收到以“EFBBBF”开头的字节流,就知道这是UTF-8编码了。UTF-8编码的文件中,BOM占三个字节。UTF-8的BOM是“EFBBBF”,因为16位编辑器载入UTF-8文件会转成UTF-16,上述的“EFBBBF”在Utf16中是“FFFE”。由于文件在采用“withBOM”编码时,会产生不必要的数据字节进而影响读取,所以建议一般情况下使用“UTF-8withoutBOM”格式进行文件编码。小结知识目标:(1)明确数据标注定义(2)熟悉常见数据标注任务(3)熟悉数据标注相关概念和指标思政目标:(1)了解新中国发展史中广播事业的缩影(2)了解噪声危害第一章数据标注基础任务二

标注工具安装搭建内容概括工具介绍工具安装工具基本使用1.工具介绍常见的单类型数据标注工具:LabelmeLabelme能够对图像进行多边形、矩形、圆、折线,点形式的标注,主要用于目标检测,语义分割,图像分类等任务。支持视频标注、支持导出VOC与COCO格式数据实例分割都可以用它标注。LabelImgLabelImg是一款标框标注工具,通过创建矩形框及标签属性标签相应的区域内容,得到标注信息是矩形框的位置大小和标签属性的XML文件。1.工具介绍PraatPraat是目前已经成为比较流行也比较专业的语音处理的软件,可以进行语音数据标注、语音录制、语音合成、语音分析等等,具有免费、占用空间小、通用性强、可移植性好等特点。doccanodoccano是一个供人类使用的开源文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。因此,您可以为情感分析、命名实体识别、文本摘要等创建标记数据。只需创建一个项目,上传数据并开始注释。您可以在数小时内构建数据集。1.工具介绍国产标注工具腾讯标注数据堂BaiduEasyDL京东1.工具介绍LabelStudioLabelStudio是一个开源的,可配置的数据标注工具。能够使用标准化输出格式的最方便的界面标记不同类型的数据。具有如下优点:社区版免费使用社区版支持本地部署社区版支持一定的团队协作能力丰富的标注项目类型模板可以自定义2.工具安装(1)MiniConda安装为了安装标注工具LabelStudio,需要建立一个支持环境。因为Labelstudio是基于Python的Web应用程序,所以选择MiniConda作为其支持环境,能够灵活应对版本变化和环境调试。首先从MiniConda官方网站下载MiniConda安装包https://docs.conda.io/en/latest/miniconda.html在列表中选择下载支持python3.7版本MiniConda安装包后,双击启动安装。如果在过程中不进行特殊设定,可以保持默认选项并选择“next”进入到以下界面。在弹出的“AdvancedInstallationOptions”选项界面中,可以选中“AddMiniconda3tomyPATHenvrionmentvariable”,否则需要完成后面所叙述的环境变量配置步骤。2.工具安装(2)创建虚拟环境condacreate--namelspython=3.7.9激活进入condaactivatels设置镜像源pipconfigsetglobal.index-url/simple启动安装pipinstalllabel-studio3.工具基本使用(2)创建虚拟环境condacreate--namelspython=3.7.9激活进入condaactivatels设置镜像源pipconfigsetglobal.index-url/simple(3)启动安装pipinstalllabel-studio3.工具基本使用(1)启动LabelStudio是一款Web应用,所以系统需要提前安装较新版本的Web浏览器软件。命令行执行:label-studiostart首次运行将启动注册界面在“EMAIL”框中输入邮箱,在“PASSWORD”框中输入密码。然后单击“CREATEACCOUNT”进行账号注册。当注册完毕后,系统自动进入首页。3.工具基本使用也可以采用如下启动方式创建用户和密码:label-studiostart--username<username>--password<password>其中“<username>”和“<password>”为希望创建的用户账号和密码。当成功启动系统后,如果后再次启动系统时,将会默认使用上次的账号进行登录。启动成功后,将默认在弹出浏览器窗口中打开如下界面:3.工具基本使用(2)创建项目创建项目有两种方式。一种使用界面完成。例如,在上图界面中单击“CreateProject”按钮,将弹出如下界面:3.工具基本使用(2)创建项目另外一种创建项目的方式是通过启动指令完成。具体指令如下所示:label-studiostartFirstProject--init其中的FirstProject为待创建的项目名称,可以替换为其他内容。成功创建项目后,将会在项目列表窗口看到刚创建的项目卡片。如下图所示:3.工具基本使用(3)邀请他人如果平台需要其用户参与协作,可以采用如下方式邀请其他用户加入平台共同完成标注。选择单击“AddPeople”按钮,将弹出邀请对话框。在弹出的对话框中,可以得到邀请链接。①②③3.工具基本使用可以选择单击“Copylink”按钮,然后发送给协作伙伴。而后得到邀请链接的人,就可以访问该链接页面进行注册并使用系统平台。3.工具基本使用(4)删除项目对于无用的项目可以选择删除。具体操作如下:首先选择单击项目卡片中的“...”按钮,如下所示:①②3.工具基本使用③④小结知识目标:(1)掌握工具安装步骤(2)熟悉工具基本使用方法思政目标:(1)了解国产标注工具发展第一章数据标注基础任务三

数据标注项目和质量控制内容概括标注项目需求团队组建质量控制标注员职业素养1.标注项目需求在项目开始初期,决定成败的关键点是项目需求。“千里之行,始于足下。”--老子2.团队组建标注实施团队基本人员配置3.质量控制实施过程质量控制阶段质量控制工作成果启动启动文档审核归档(生产和培训计划,规格说明书,流程控制,验收标注和人员资质等)生产生产文档审核归档(过程报告,计划调整,质检报告等)验收验收文档审核归档(验收质量报告等)交付交付文档审核归档(交付报告等)3.质量控制抽样检查由于完全逐一检查对于成本和时间而言都是无法接受的方式,所以抽样检查成为最为常见的检查方式。抽检的样本比例实现都有约定,并且在项目规划中会将与项目类型相关的典型易出错检查点列举汇总,用于抽样检查时进行对照。3.质量控制3.质量控制3.质量控制4.标注员职业素养由于数据标注项目所涉及的行业和方向多种多样,例如自动驾驶,智慧医疗和自动翻译等领域,所以在细分职业素养方面略有不同。统计现行各领域对标注员的共性职业素养,形成如下表所示的基本职业素养内涵:小结知识目标:(1)了解项目过程(2)熟悉项目需求内容范畴(3)了解团队分工(4)熟悉质量控制和职业素养思政目标:(1)“开始”的意义(2)职业意识、工作态度、团队精神第二章

图像任务标注项目任务一

图像标签分类标注内容概括概念典型应用场景实践标注操作小结“人之情,目欲视色”--庄子1.概念图像分类是根据图像的语义信息将不同类别图像区分开来,是计算机视觉中重要的基本问题,也是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。其核心思想便是从给定的分类集合中给图像分配一个标签的任务。实际上,图像分类的任务是分析一个输入图像并返回一个将图像分类的标签。标签来自预定义的可能类别集。图像分类在很多领域有广泛应用,包括安防领域的人脸识别和智能视频分析等,交通领域的交通场景识别,互联网领域基于内容的图像检索和相册自动归类,医学领域的图像识别等。2.典型应用场景2.典型应用场景中医药数据领域广泛应用深度学习等新技术开展研究。中药作为中医药的重要组成部分,其有着数千年的悠久历史,底蕴十分丰富。中国劳动人民几千年来在与疾病作斗争的过程中,通过实践,不断认识,逐渐积累了丰富的医药知识。由于太古时期文字未兴,这些知识只能依靠师承口授。后来有了文字,便逐渐记录下来,出现了医药书籍,这些书籍起到了总结前人经验并便于流传和推广的作用。由于药物中草类占大多数,所以记载药物的书籍便称为“本草”。据考证,素汉之际,本草流行已较多,但可惜这些本草都已亡佚,无可考察。现知的最早本草著作称为《神农本草经》,著者不详,根据其中记载的地名,可能是东汉医家修订前人著作而成。2.典型应用场景人工智能技术的发展为中医诊断手段带来新的契机,随着中医传统诊断方法现代化研究的深入,脉诊仪、舌诊仪、色诊仪、闻诊仪、经络仪等已成为新兴的现代中医诊断技术。人工智能具有独立自主的诊疗能力,通过大数据学习可达到与中医专家高度匹配的诊疗结果,以现代中医诊断技术及其数据为支撑,基于案例推理模型,利用人体信息采集设备,应用人工智能技术模拟中医诊断过程,为医生提供诊疗所需的知识、经验、方法等启发医生思维,辅助医生诊断,实现中医诊断技术的信息化、数字化、标准化。3.实践标注操作准备数据此处准备了30张动物图像用于标注,分别是10张鸡的图像,10张兔子的图像,10张老鼠的图像。3.实践标注操作创建项目打开label-studio,在页面选择“CreateProject”创建项目,命名为AnimalClassify,并添加相应描述3.实践标注操作导入数据选择“DataImport”,通过左上角的“UploadFiles”选择准备好的数据,进行导入。右图分别为导入数据前后的“DataImport”界面。3.实践标注操作LabelingSetup导入数据后,选择界面上方的“LabelingSetup”,之后出现如图所示界面,左边列表为任务选择列表,包括ComputerVision、NaturalLanguageProcessing、Audio/speechProcessing等,根据不同任务选择选项,本次的图片分类任务选择第一项“ComputerVision”。之后界面右侧会出现八个不同的任务选项,由于本节要进行的是图片分类任务,所以选择第六个任务-“ImageClassification”。3.实践标注操作LabelingSetup选择项目模板类型后,跳转至如图所示界面3.实践标注操作LabelingSetup在上述界面的左边添加图片中动物的分类,因为图片分别有10张鸡,10张兔子以及10张老鼠,故设置了三个英文标签,分别为:chicken、rabbit、rat。添加完标签后,便可点击界面右上角的“Save”按钮,跳转至如图所示界面,该界面中展示了所有载入的图像。3.实践标注操作开始标注任意点击任务主界面的一张图像,便可进入该图像的标注界面。例如点击,如图所示的母鸡图片,在此界面可以根据该图像所属的标签类型,选择对应的标签,比如该图像内容是一只鸡,则选择对应的chicken标签,选完之后,点击右上角的“Submit”提交。3.实践标注操作开始标注通过图任务主界面点击中上方位置的LabelAllTasks按钮,则会进入到如图所示界面。于该界面中同样可对图片进行标注操作,打完标签后,点击右上角的“Submit”按钮即可跳转到下一张图像继续标注。3.实践标注操作开始标注如果当前图片不属于三个标签中的任一类或者该图像不能确认类别,则可点击界面右上角的“Skip”按钮,跳过该图像的标注过程。对于已经标记了的图像,可在标注界面通过左上角的<、>进行图像的切换选择待修改图像,更新该图像的标签后,点击右上角的Updata即可。3.实践标注操作开始标注所有图像标注完成之后,便会跳转到如图所示界面,代表所有图像均已处理完成。3.实践标注操作开始标注点击界面左上角的AnimalClassify便可查看图片的标注情况,如图所示,其中第一列数据代表图像id,第二列代表标注时间,第三列代表标注与否,1为标注完成,0为未标注,第四列代表是否跳过标注,1代表跳过,0代表未跳过。3.实践标注操作导出结果若要导出最终的标注结果,则可图中“Export”按钮,便会出现如图所示界面,根据处理任务的不同会显示不同文件生成结果,由于本节任务是图像分类,所以,可以生成如图所示的四类文件,若要导出哪种文件到本地,选中其后,点击右下角“Export”即可。3.实践标注操作结果展示将所需文件导出到本地后,可以进行查看,比如导出JSON格式文件,如图所示,由于篇幅过大,所以只展示了部分数据。[{

"id":90,

"annotations":[{

"id":91,

"completed_by":1,

"result":[{

"value":{"choices":["rat"]},

"id":"IkO1NcTGG_",

"from_name":"choice",

"to_name":"image",

"type":"choices",

"origin":"manual"}],

"was_cancelled":false,

"ground_truth":false,

"created_at":"2022-05-19T11:08:02.299987Z",

"updated_at":"2022-05-19T11:08:02.299987Z",

"lead_time":4.131,

"prediction":{},

"result_count":0,

"task":90,

"parent_prediction":null,

"parent_annotation":null}],………………

"file_upload":"ab51fbca-chickens007.jpg",

"drafts":[],

"predictions":[],

"data":{"image":"\/data\/upload\/9\/ab51fbca-chickens007.jpg"},

"meta":{},

"created_at":"2022-05-19T10:56:03.092880Z",

"updated_at":"2022-05-19T11:00:58.184831Z",

"project":9}]3.实践标注操作结果展示或者所需文件为CSV文件,则将CSV文件导出,如图所示。小结知识目标:(1)明确分类任务标注方法(2)熟悉分类任务结果导出格式思政目标:(1)了解中国传统哲学文化(2)了解中医药发展的历程第二章

图像任务标注项目任务二

目标检测标注内容概括概念典型应用场景实践标注操作1.1概念目标检测,也称为目标提取,是一种基于目标几何和统计特征的图像分割。它将目标的分割和识别合二为一,其准确性和实时性是整个系统的一项重要性能。目标检测是图像分类的进阶版本,图像分类只需要辨别图像中物体的类别即可,而对于目标识别来说,还需要得到目标详细的坐标信息。在目标检测任务中,需要输入一张图像,然后从整张图像中辨别出需要识别的目标,指出目标的类别,并且需要标注出目标的位置,并用外接矩形框标出。1.2典型应用场景随着计算机技术的发展和计算机视觉原理的广泛应用,利用计算机图像处理技术对目标进行实时跟踪研究越来越热门,对目标进行动态实时跟踪定位在智能化交通系统、工业检测、智能监控系统、军事目标检测及医学导航手术中的手术器械定位等方面具有广泛的应用价值。1.2典型应用场景在智能化交通系统中,目标检测主要应用于如下场景:(1)交通流量与红绿灯控制:通过视觉算法,对道路卡口相机和电警相机中采集的视频图像进行分析,根据相应路段的车流量,调整红绿灯配时策略,提升交通通行能力。1.2典型应用场景(2)交通事件检测:通过视觉算法,检测各种交通事件,包括非机动车驶入机动车道、车辆占用应急车道以及监控危险品运输车辆驾驶员的驾驶行为、交通事故实时报警等,第一时间将异常事件上报给交管部门。1.2典型应用场景(3)交通违法事件检测和追踪:通过视觉算法,发现套牌车辆、收费站逃费现象,跟踪肇事车辆,对可疑车辆/行人进行全程轨迹追踪,通过视觉技术手段,极大地提升公安/交管部门的监管能力。目标测标注1.2典型应用场景(4)自动驾驶:自动驾驶是一个多种前沿技术高度交叉的研究方向,其中视觉相关算法主要包含对道路、车辆以及行人的检测,对交通标志物以及路旁物体的检测识别等。主流的人工智能公司都投入了大量的资源进行自动驾驶方面的研发,目前已经初步实现了受限路况条件下的自动驾驶,但距离实现不受路况、天气等因素影响的自动驾驶,尚有相当大的一段距离。1.2典型应用场景工业检测是计算机视觉的另一个重要应用领域,在各个行业均有极为广泛的应用。在产品的生产过程中,由于原料、制造业工艺、环境等因素的影响,产品有可能产生各种各样的问题。其中相当一部分是所谓的外观缺陷,即人眼可识别的缺陷。在传统生产流程中,外观缺陷大多采用人工检测的方式进行识别,不仅消耗人力成本,也无法保障检测效果。工业检测就是利用计算机视觉技术中的目标检测算法,把产品在生产过程中出现的裂纹、形变、部件丢失等外观缺陷检测出来,达到提升产品质量稳定性、提高生产效率的目的。1.2典型应用场景昇腾AI是以昇腾AI基础软硬件平台为基础构建的人工智能计算产业,昇腾AI基础软硬件平台包括Atlas系列硬件及伙伴硬件、异构计算架构CANN(ComputeArchitectureforNeuralNetworks)、全场景AI框架昇思MindSpore、昇腾应用使能MindX等。作为昇腾AI的核心,异构计算架构CANN兼容多种底层硬件设备形态提供强大的异构计算能力,并且通过多层次编程接口,支持用户快速构建AI应用和业务。能够很好地完成工业检测任务。1.3实践标注操作此处准备了4张汽车图像用于标注,图像中有的只有一辆汽车,有的有多辆汽车。准备数据1.3实践标注操作打开label-studio,在页面选择“CreateProject”创建项目,命名为CarDetection,并添加相应描述,如图所示。创建项目1.3实践标注操作选择“DataImport”标签页,通过左上角的“UploadFiles”选择准备好的数据,进行导入。两图分别为导入数据前后的DataImport界面。导入数据1.3实践标注操作导入数据后,选择界面上方的“LabelingSetup”,之后出现如图所示界面。左边列表为任务选择列表,包括ComputerVision、NaturalLanguageProcessing等,根据不同任务选择选项,本次的目标检测任务选择第一项“ComputerVision”,之后界面右侧会出现八个不同的任务选项,选择“ObjectDetectionwithBoundingBoxes”。LabelingSetup1.3实践标注操作选择项目模板类型后,跳转至如图所示界面,在该界面的左边添加图片中目标检测的类型。因为只检测图像中的汽车,故共设置了一个英文标签“car”。LabelingSetup1.3实践标注操作添加完标签后,便可点击界面右上角的“Save”按钮,跳转至如图所示界面,该界面中展示了所有载入的图像。LabelingSetup1.3实践标注操作点击任务主界面的第一张图像,便可进入该图像的标注界面,如图所示开始标注1.3实践标注操作在上述界面先选中标签car,之后点击图像上汽车所在位置,鼠标不放并拖动,便会出现一个矩形框,如图所示开始标注1.3实践标注操作如果所画的矩形框的大小和汽车的大小不匹配时,点击该矩形框,矩形框则会变为可变大小并且可移动状态,如图所示,此时,通过拖动或者改变矩形框大小,使得该矩形框与汽车大小完全匹配,匹配后点击右上角的Submit即可。开始标注1.3实践标注操作对于图像的标注过程也可以不在此处进行,通过任务主界面的LabelAllTasks按钮,则会进入到如图所示界面。于该界面中同样可对图片进行标注操作,标注完成后,点击右上角的Submit按钮即可跳转到下一张图像的标注界面,如果当前图片中没有汽车,则可点击界面右上角的Skip按钮,跳过该图像的标注过程。开始标注1.3实践标注操作对于已经标记了的图像,可通过左上角的<、>进行图像的切换,若想改变某张图像的标注内容,则可通过“<”、“>”切换到该图像,更新该图像的标注内容后,点击右上角的“Updata”提交变更。当图像中出现多个目标时,使用多个矩形框逐个将其标注即可,如图所示。开始标注1.3实践标注操作所有图像标注完成之后,便会跳转到如图所示界面,代表所有图像均已处理完成。开始标注1.3实践标注操作点击界面左上角的CarDetection便可查看图片的标注情况,如图所示,其中第一列数据代表图像id,第二列代表标注时间,第三列代表标注与否,1为标注完成,0为未标注,第四列代表是否跳过标注,1代表跳过,0代表未跳过。开始标注1.3实践标注操作若要导出最终的标注结果,则可点击主界面右上角的Export按钮,便会出现如图所示界面,根据处理任务的不同会显示不同文件生成结果,由于本节任务是目标检测,所以,可以生成如图所示的七类文件,若要导出哪种文件到本地,选中其后,点击右下角Export即可。当然,也可以将这七类文件全部导出。导出结果1.3实践标注操作将所需文件导出到本地后,可以进行查看,此处导出的JSON格式文件(由于篇幅过大,只展示了部分数据)如图所示。结果展示[{

"id":94,

"annotations":[{

"id":95,

"completed_by":1,

"result":[{

"original_width":1080,

"original_height":659,

"image_rotation":0,

"value":{

"x":17.33333333333333,

"y":53.27510917030566,

"width":13.333333333333336,

"height":21.179039301310013,

"rotation":0,

"rectanglelabels":["Car"]},

"id":"Yq-t9cB1EO",

"from_name":"label",

"to_name":"image",

"type":"rectanglelabels",

"origin":"manual"},……"created_at":"2022-05-22T11:23:46.549674Z",

"updated_at":"2022-05-22T12:27:07.646509Z",

"project":10}]第二章

图像任务标注项目任务三

图像语义分割标注内容概括概念典型应用场景实践标注操作基于人工智能和深度学习方法的现代计算机视觉技术在过去10年里取得了显著进展。如今,它被用于图像分类、人脸识别、图像中物体的识别、视频分析和分类以及机器人和自动驾驶车辆的图像处理等应用上。许多计算机视觉任务需要对图像进行智能分割,以理解图像中的内容,并使每个部分的分析更加容易。今天的图像分割技术使用计算机视觉深度学习模型来理解图像的每个像素所代表的真实物体,这在十年前是无法想象的。图像分割主要用于提取图像中用于表述已知目标的种类与数量问题、目标尺度问题、外在环境干扰问题、物体边缘等的像素值。图像分割从分割目的上被分为语义分割、实例分割以及全景分割。1.1概念通常意义上的目标分割指的就是语义分割,图像语义分割,简而言之就是对一张图片上的相关像素点进行分类,即对图像中的每个像素都划分出对应的类别,实现像素级别的分类。和前边的分类任务不同的是,语义分割不仅仅是使用矩形框框住某一类物体即可,需要将该类物体用某种像素值进行标注。1.2典型应用场景1、自动驾驶自动驾驶是一项复杂的机器任务,需要在不断变化的环境中进行感知、规划和执行。由于其安全性至关重要,因此还需要以非常高精度执行此任务。语义分割提供有关道路上自由空间的信息,以及检测车道标记和交通标志等信息,为自动驾驶起到关键作用。1.2典型应用场景2、地质检测语义分割问题也可以被认为是分类问题,其中每个像素被分类为来自一系列对象类中的某一个。因此一个使用案例是利用土地的卫星影像制图。土地覆盖信息是重要的各种应用,如监测地区的森林砍伐情况和城市化等。1.2典型应用场景3、面部识别面部的语义分割通常涉及诸如皮肤、头发、眼睛、鼻子、嘴巴和背景等的分类。面部分割在计算机视觉的许多面部应用中是有用的,例如性别、表情、年龄和种族的估计。影响人脸分割数据集和模型开发的显著因素是光照条件、面部表情、面部朝向、遮挡和图像分辨率的变化等。1.2典型应用场景4、服饰分类由于服装数量众多,服装解析与其他服务相比是一项非常复杂的任务。这与一般的物体或场景分割问题不同,因为细粒度的衣物分类需要基于衣服的语义、人体姿势的可变性和潜在的大量类别的更高级别判断。服装解析在视觉领域中得到了积极的研究,因为它在现实世界的应用程序即电子商务中具有巨大的价值。1.2典型应用场景5、农业场景精确农业机器人可以减少需要在田间喷洒的除草剂的数量,作物和杂草的语义分割可以帮助他们实时触发除草行为,这种先进的农业图像视觉技术可以减少对农业的人工监测,提高农业效率和降低生产成本。1.3实践标注操作此处准备了4张含有人的图像用于标注,分别包含了2个人,4个人、1个人和5个人。如图所示。准备数据1.3实践标注操作打开label-studio,在页面选择“CreateProject”创建项目,命名为SemanticSegmentation,并添加相应描述,如图所示。创建项目1.3实践标注操作选择“DataImport”,通过左上角的UploadFiles选择准备好的数据,进行导入。两图分别为导入数据前后的“DataImport”界面。导入数据1.3实践标注操作导入数据后,选择界面上方的“LabelingSetup”,之后出现如图所示界面,左边列表为任务类型选择列表,选择第一项“ComputerVision”,然后在右侧任务模板中“SemanticSegmentationwithMasks”模板类型。LabelingSetup1.3实践标注操作跳转至如图所示界面,在该界面的左边添加图片中被分割的物体分类,因为此任务只分割人像,故设置了一个英文标签,标签为person。LabelingSetup1.3实践标注操作添加完标签后,便可点击界面右上角的“Save”按钮,跳转至如图所示界面,该界面中展示了所有载入的图像。LabelingSetup1.3实践标注操作点击任务主界面的第三张图像,便可进入该图像的标注界面,如图2-3-1-8所示,在此界面可以根据该图像中包含的标签类型,选择对应的标签,比如此例要分割图像中的人像,则选中person标签,之后根据任务大小在图像右侧的工具栏调整画笔大小,并且可调节图像大小,之后便可进行人像图像的描绘,将所有人像描绘完成便如下图所示,如果画错,则可以选中工具栏中的橡皮将画错部分擦掉,之后点击右上角的“Submit”完成提交。开始标注1.3实践标注操作开始标注1.3实践标注操作当然,对于图像的标注过程也可以不在此处进行,通过任务主界面,点击界面中上方位置的LabelAllTasks按钮,进入标注界面后便可开始进行标注,标注完成后,点击右上角的Submit按钮即可跳转到下一张图像的标注界面,如果当前图片不含人像,则可点击界面右上角的Skip按钮,跳过该图像的标注过程。更新该图像的标签后,点击右上角的“Updata”即可。开始标注1.3实践标注操作所有图像标注完成之后,便会跳转到如图所示界面,代表所有图像均已处理完成。开始标注1.3实践标注操作点击界面左上角的PersonSemanticSegmentation便可查看图片的标注情况,如图所示,其中第一列数据代表图像id,第二列代表标注时间,第三列代表标注与否,1为标注完成,0为未标注,第四列代表是否跳过标注,1代表跳过,0代表未跳过。开始标注1.3实践标注操作若要导出最终的标注结果,则可点击图主界面右上角的“Export”按钮,便会出现如图所示界面,根据处理任务的不同会显示不同文件生成结果,由于本节任务是图像分类,所以,可以生成如图所示的六类文件,若要导出哪种文件到本地,选中其后,点击右下角“Export”即可。当然,也可以将这六类文件全部导出。导出结果1.3实践标注操作将所需文件导出到本地后,可以进行查看,通过上图可知,对于语义分割任务,可以生成BrushlabelstoPNG数据,该结果会生成一个压缩包,压缩包中包含语义分割完的所有图片,如图所示。结果展示小结知识目标:(1)明确语义分割标注相关概念(2)明确语义分割标注方法思政目标:(1)工匠精神(2)人工智能对中国农业发展的积极作用第二章

图像任务标注项目任务四

图像实例分割标注内容概括概念典型应用场景实践标注操作2.1概念图像实例分割是在语义分割的基础上进一步细化,分离对象的前景与背景,实现像素级别的对象分离。所以图像实例分割是基于语义分割的基础上进一步提升。实例分割相对于语义分割的区别在于,实例分割需要将同一类型的多个个体做区分,而语义分割则不需要。具体区别可通过上一节与本节案例获悉。2.2典型应用场景实例分割在目标检测、人脸检测、表情识别、医学图像处理与疾病辅助诊断、视频监控与对象跟踪、零售场景的货架空缺识别等场景下均有应用。例如百度的AI开放平台中的车辆检测与类型识别功能便是很好的应用了实例分割技术。2.3实践标注操作此处准备了4张含有人的图像用于标注,分别包含了2个人,4个人、1个人和5个人。如图所示。准备数据2.3实践标注操作打开label-studio,在页面选择“CreateProject”创建项目,命名为InstanceSegmentation,并添加相应描述,如图所示。创建项目2.3实践标注操作选择“DataImport”,通过左上角的UploadFiles选择准备好的数据,进行导入。两图分别为导入数据前后的DataImport界面。导入数据2.3实践标注操作导入数据后,选择界面上方的“LabelingSetup”,之后出现如图所示界面,左边列表为任务类型选择列表,选择第一项“ComputerVision”,然后在右侧任务模板中“SemanticSegmentationwithPolygons”模板类型。LabelingSetup2.3实践标注操作点击第一个任务“SemanticSegmentationwithPolygons”后,跳转至如图所示界面,在该界面的左边添加图片中被分割的物体分类,因为此任务只分割人像,故添加person标签。LabelingSetup2.3实践标注操作添加完标签后,便可点击界面右上角的“Save”按钮,跳转至如图所示界面,该界面中展示了所有载入的图像。LabelingSetup2.3实践标注操作点击任务主界面的第一张图像,便可进入该图像的标注界面,如所示,在此界面可以根据该图像中包含的标签类型,选择对应的标签,比如要分割图像中的人像,所以选择person标签,选完之后,点击其中一个人像的某点边缘,便会出现标记点,然后沿着该人像的边缘连续点击,每相邻点会自动连接,直到最终再次点击第一个标记点,则会出现一片红色区域将人像分割,分割完成效果如图所示,之后点击右上角的“Submit”提交保存。开始标注2.3实践标注操作开始标注2.3实践标注操作当然,对于图像的标注过程也可以不在此处进行,通过上图所示的任务主界面,点击界面中上方位置的LabelAllTasks按钮,进入标注界面后便可开始进行标注,图展示了标注完成的效果,虽然图中有两个人,均使用person标签标注即可,标注完成后,点击右上角的Submit按钮即可跳转到下一张图像的标注界面,如果当前图片不含人像,则可点击界面右上角的Skip按钮,跳过该图像的标注过程。对于已经标记了的图像,可通过左上角的<、>进行图像的切换,若想改变某张图像的标签,则可通过<、>切换到该图像,更新该图像的标签后,点击右上角的Updata即可。开始标注2.3实践标注操作开始标注2.3实践标注操作所有图像标注完成之后,便会跳转到如图所示界面,代表所有图像均已处理完成。开始标注2.3实践标注操作点击界面左上角的PersonInstanceSegmentation便可查看图片的标注情况,如图所示,其中第一列数据代表图像id,第二列代表标注时间,第三列代表标注与否,1为标注完成,0为未标注,第四列代表是否跳过标注,1代表跳过,0代表未跳过。开始标注2.3实践标注操作若要导出最终的标注结果,则可点击图主界面右上角的“Export”按钮,便会出现如图所示界面,根据处理任务的不同会显示不同文件生成结果,由于本节任务是图像分类,所以,可以生成如图所示的五类文件,若要导出哪种文件到本地,选中其后,点击右下角“Export”即可。当然,也可以将这五类文件全部导出。导出结果2.3实践标注操作将所需文件导出到本地后,可以进行查看,比如所需文件为CSV文件,则将CSV文件导出,如图所示。结果展示小结知识目标:(1)明确实例分割标注相关概念(2)明确实例分割标注方法思政目标:(1)工匠精神(2)我国人工智能产业发展迅速第二章

图像任务标注项目任务五

图像全景分割标注内容概括概念典型应用场景实践标注操作3.1概念与之前介绍的语义分割与实例分割不同,全景分割任务要求图像中的每个像素点都必须被分配给一个语义标签和一个实例id。其中,语义标签指的是物体的类别,而实例id则对应同类物体的不同编号。全景分割的实现面临着一些难题。比如,与语义分割相比,全景分割的困难在于要优化全连接网络的设计,使其网络结构能够区分不同类别的实例;而与实例分割相比,由于全景分割要求每个像素只能有一个类别和id标注,因此不能出现实例分割中的重叠现象。3.2常见数据集目前用于全景分割的常见公开数据集包括:MSCOCO、Vistas、ADE20K和Cityscapes。COCO是微软团队公布的可以用来图像recognition、segmentation和captioning的数据集,主要从复杂的日常场景中截取,主要有91个类别,虽然类别比ImageNet少很多,但每一类的图像很多。Vistas是全球最大的和最多样化的街景图像数据库,以帮助全球范围内的无人驾驶和自主运输技术。3.2常见数据集ADE20K是一个可用于场景感知、分割和多物体识别等多种任务的数据集。相比于大规模数据集ImageNet和COCO,它的场景更多样化,相比于SUN,它的图像数量更多,对数据的注释也更详细。Cityscapes是一个包含50个城市街景的数据集,也是提供无人驾驶环境下的图像分割用的数据集。3.3实践标注操作此处准备了2张含有人的图像用于标注。如图所示。准备数据3.3实践标注操作打开label-studio,在页面选择“CreateProject”创建项目,命名为PanoramicSegmentation,并添加相应描述,如图所示。创建项目3.3实践标注操作选择“DataImport”,通过左上角的UploadFiles选择准备好的数据,进行导入。两图分别为导入数据前后的DataImport界面。导入数据3.3实践标注操作导入数据后,选择界面上方的“LabelingSetup”,之后出现如图所示界面,左边列表为任务类型选择列表,选择第一项“ComputerVision”,然后在右侧任务模板中“SemanticSegmentationwithMasks”模板类型。LabelingSetup3.3实践标注操作点击第一个任务SemanticSegmentationwithMasks后,跳转至如图所示界面,在该界面的左边添加图片中被分割的物体分类,因为此任务只分割人像,但为全景分割,所以设置了标签person和background。LabelingSetup3.3实践标注操作添加完标签后,便可点击界面右上角的“Save”按钮,跳转至如图所示界面,该界面中展示了所有载入的图像。LabelingSetup3.3实践标注操作点击任务主界面的第二张图像,便可进入该图像的标注界面,如图所示,在此界面可以根据该图像中包含的标签类型,选择对应的标签,比如要分割图像中的人像,首先选中person标签,将图像中的人像用person标签进行描绘,描绘完成后,再次选择background标签,将图像中的其余部分全部描绘,分割完成效果如图所示,之后点击右上角的Submit即可。开始标注3.3实践标注操作当然,对于图像的标注过程也可以不在此处进行,通过上图所示的任务主界面,点击界面中上方位置的LabelAllTasks按钮,进入标注界面后便可开始进行标注,下图展示了标注完成的效果,图中不同人像需选用不同的person标签进行标注,标注完成后,点击右上角的Submit按钮即可跳转到下一张图像的标注界面,如果当前图片不含人像,则可点击界面右上角的Skip按钮,跳过该图像的标注过程。对于已经标记了的图像,可通过左上角的<、>进行图像的切换,若想改变某张图像的标签,则可通过<、>切换到该图像,更新该图像的标签后,点击右上角的Updata即可。开始标注3.3实践标注操作开始标注3.3实践标注操作所有图像标注完成之后,便会跳转到如图所示界面,代表所有图像均已处理完成。开始标注3.3实践标注操作点击界面左上角的PanoramicSegmentation便可查看图片的标注情况,如图所示,其中第一列数据代表图像id,第二列代表标注时间,第三列代表标注与否,1为标注完成,0为未标注,第四列代表是否跳过标注,1代表跳过,0代表未跳过。开始标注3.3实践标注操作若要导出最终的标注结果,则可点击图主界面右上角的“Export”按钮,便会出现如图所示界面,根据处理任务的不同会显示不同文件生成结果,由于本节任务是图像分类,所以,可以生成如图所示的六类文件,若要导出哪种文件到本地,选中其后,点击右下角“Export”即可。当然,也可以将这六类文件全部导出。导出结果3.3实践标注操作将所需文件导出到本地后,可以进行查看,比如导出BrushlabelstoPNG格式文件,如图所示。结果展示小结知识目标:(1)明确全景分割标注方法(2)熟悉语义分割、实例分割与全景分割间的区别思政目标:(1)工匠精神第二章

图像任务标注项目任务六人物肢体关键点标注内容概括概念典型应用场景实践标注操作1.概念在数据标注中,机器学习工程师构建模型的策略需要考虑到实际应用场景。在检测人类运动和情绪方面,关键点标注尤为常用。关键点标注是指通过人工的方式,在规定位置标注上关键点,例如人脸特征点、人体骨骼连接点等,常用来训练面部识别模型以及统计模型。与其他标注类型不同,关键点标注是用来标注物体的骨骼轮廓而不是标注物体外缘,这就是为什么人体和动物的行为经常用关键点来标注。通过这种方式,模型可以检测到物体的运动形态。2.典型应用场景(1)人脸识别现在手机的解锁方式大多都使用了人脸识别,在看似简单的人脸解锁的背后,实际上是通过大量的标注好的人脸数据集训练出的高性能模型而实现的。当构建一个人脸识别模型时,工程师们查看关键点以测量重要的距离,比如你的眼睛到鼻子的距离,又或者眉毛到额头的距离等等。分析这些关键点之后,模型可以学习到人脸的细节。在查看了数以千计的人脸关键点之后,你的模型就可以开始检测人脸特征。2.典型应用场景(2)人体关键点及运动识别伴随着科技的发展,职业体育运动也开始产生了关键点检测的需求。使用AI技术分析球员的运动,能够发现一些肉眼无法察觉的细节。此外,肌肉运动的轻微变化可能表明即将出现损伤,在损害发生之前进行预测有助于预防并有可能延长运动员的职业生涯。对于教练来说,在招募和评估运动员环节,使用AI技术也可提高其甄别的效率和质量。使用可靠的模型能够检测运动员的动作并了解他们的技能水平,然后将这些数据存储起来,并通过这些数据对其他运动员进行评估。教练还可以通过这些数据评估球员的优势所在,有助于高效率筛选出可用人才。2.典型应用场景(3)医疗系统(通过关键点定位)在医学应用中也可以通过对病人的行走方式和关键点的变化来判断病人是否受伤或者出现畸形,从而为医学治疗提供参考数据。(4)2.典型应用场景除了专业运动,关键点标注和分析技术在虚拟运动软件和辅助平台中也发挥了重要作用。分析一个人的动作,学习哪种健身方式才是正确的,并了解关节是如何运动的,有助于为日常健身爱好者提供反馈。比如未接受过专业指导的健身爱好者,很容易在健身过程中造成身体的损伤,但通过运动分析软件便可以很好地掌握各种健身动作所对应的发力点以及动作要领,以达到运动的同时保护自己身体的目的。3实践标注操作此处准备了图像,图像内容是正在发生行走行为的人体图像用于标注。如图所示。准备数据3实践标注操作创建项目,项目名称为“人体关键点标注”,导入数据,选择模板“KeyPointLabeling”如图所示。创建项目3实践标注操作创建项目一般人体关键点标签为如右图所示。本项目出于复杂度考虑,自定义标签类型。3实践标注操作标签包括:(1)头(2)肩(3)肘(4)手(5)髋(6)膝(7)足创建项目3实践标注操作保存项目后,单击列表视图中的“LabelAllTasks”开始进行标注。开始标注3实践标注操作为了区别左右肩等,未标记点增加meta信息。如右图所示。按照此方法依次标注出所有人体关键点。开始标注3实践标注操作单击“Export”,在格式中选择“JSON”,然后“Export”导出。导出结果3实践标注操作导出数据时,选择JSON格式。在导出结果中,x,y为每个关键点的坐标,keypointlabels为部位,meta部分包括注释内容。导出结果小结知识目标:(1)明确关键点标注方法(2)熟悉关键点标注结果导出格式思政目标:(1)了解人工智能辅助运动发展趋势第二章

图像任务标注项目任务七

小目标检测标注内容概括概念面临挑战典型应用场景实践标注操作2.1概念目标检测是一种基于目标几何和统计特征的图像分割。而对于小目标检测则是对图形中的小目标物体进行检测,但是对于不同场景下定义的小目标标准不尽相同,现有定义方式按学术上主要分为两类:相对尺寸与绝对尺寸。2.1概念(1)相对尺寸从目标与图像相对尺寸来定义,Chen等人对小目标进行了定义:同一类别中,所有目标实例的相对面积,即他的边界框面积与图像面积之比的中位数于0.08%~0.58%之间。除此之外,较为常见的还有几种,比如面积边界框的宽高于图像的宽高比例小于一定值,较为常用的比值为0.1;再比如目标边界框面积与图像面积的比值开放小于一定值,较为常用的值为0.03;还有就是根据目标实际覆盖像素与图像总像素之间比例对小目标进行定义。相对尺度的定义存在一定的问题,这种定义方式难以有效评估模型对不同尺度目标的检测性能,同时容易受到数据预处理与模型的影响。2.1概念(2)绝对尺寸从目标绝对像素大小来说,目前最为通用的是来自MSCOCO数据集,将分辨率小于32×32像素的目标定义为小目标。对于为什么确定为32×32像素,提出了两种思路:人类在图像上方面能有效识别的彩色图像最低像素大小为32×32,小于32×32像素则人眼无法识别,VGG网络从输入图像到全连接层的特征向量经过了5个最大池化层,因此选定输入图像为32×32像素2.1概念对于小目标的目标检测,有很多的解决方案,下面将对部分方案进行介绍。(1)数据增强数据增强是提升小目标检测效果最简单有效的方法。主要通过扩充小目标样本的规模,或者增强模型的鲁棒性和泛化能力。(2)多尺度检测小目标与常规的目标相比可利用的像素少,难以提取到好的特征,随着网络深度的增加,小目标的特征信息和位置信息逐渐丢失,难以被网络检测。这些特性导致小目标同时需要深层语义信息与浅层表征信息,而多尺度学习将这两种相结合,是一种提升小目标检测性能的有效策略。2.1概念(3)上下文学习在真实世界中,目标与场景、目标与目标存在共存关系,利用这种上下文信息可以提升小目标的检测性能。基于隐式上下文特征学习的目标检测。隐式上下文特征是指目标区域周围的背景特征或者全局的场景特征。基于显示上下文推理的目标检测。显示上下文推理是指利用场景中明确的上下文信息来辅助推断目标的位置或类别,例如利用场景中草地区域与目标的上下文关系来推断目标的类别。2.1概念(4)对抗网络生成对抗网络的方法旨在通过将低分辨率小目标的特征映射成与高分辨率目标等价的特征,从而达到与尺寸较大目标同等的检测性能。可以通过结合生成对抗网络提高小目标的分辨率,缩小目标之间的尺度差异,增强小目标的特征表达,提高小目标的检测效果,也可以使用GAN生成图像,进行数据增强。2.2面临的挑战(1)可利用特征少。小目标的分辨率较低,可视化信息少,难以提取到具有鉴别力的特征,且极易被环境因素干扰。(2)定位精度要求高。小目标在图像中覆盖的面积小,在预测过程中,预测边界框偏移一个像素点都会造成很大的误差。(3)现有数据集小目标占比少。现有的数据集大多针对大尺寸目标,小目标较少,MSCOCO中虽然小目标占比较高,但分布不均。再加上小目标难以标注,一方面来源于小目标在图像中不易被关注,另一方面对标注误差非常敏感。2.2面临的挑战(4)样本不均衡。为了定位目标,现有的方法大多是预先在图像的每一个位置生成一系列的Anchor,在训练中,通过设定固定的阈值来判断Anchor是否属于正样本。(5)小目标聚集。相对于大目标,小目标容易出现聚集现象,当小目标聚集出现时,聚集区域相邻的小目标无法区分。当同类的小目标密集出现时,预测的边界框还可能由于后处理的NMS将大量正确预测的边界框过滤导致漏检。(6)网络结构因素。现有的算法在设计时更关注大目标的检测效果,针对小目标的优化较少,同时大多算法基于Anchor设计,对小目标检测不友好。在训练中,小目标由于训练样本少,进一步减弱了网络对小目标的学习能力。2.3典型应用场景对于小目标的目标检测,顾名思义,其主要应用于小目标的检测场景下面将简单介绍两个具体的应用场景。(1)乐谱识别乐谱识别现阶段比较健全的数据集是DeepScores,其包含高质量的乐谱图像,分为3000000张书面音乐,其中包含不同形状和大小的符号。该数据集拥有近一亿个小对象,这使得该数据集不仅独一无二,而且是最大的公共数据集。2.3典型应用场景(2)卫星图检测卫星图检测主要是检测通过卫星拍摄图形中的小目标物体,NWPUVHR-10Dataset是一个用于空间物体检测的10级地理遥感数据集,其拥有650张包含目标的图像和150张背景图像,目标种类包括飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁和汽车共计10个类别的小目标。2.4实践标注操作根据上文介绍,对于小目标检测有很多解决方案,由于本书主要讲授数据标注内容,并且上述解决方案也有两项与数据有关,一是数据增强,此处将实现将图形中小目标车牌复制粘贴到图形的任意位置后在进行标注,二是上下文推理的形式,此处检测的目标是车牌,而车牌几乎都会出现在车上,故标注时会将车牌与车一起标注,下面将对这两种形式的标注过程详细介绍。现找到两张图像进行车牌的目标检测,如上图所示,由于首先要进行小目标复制粘贴式的数据增强,故对图像中的车牌复制

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论