版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章数据标注基础任务一
了解相关基础知识内容概括人工智能与数据数据标注定义计算机视觉标注相关基础概念智能语音标注相关基础概念自然语言处理标注相关基础概念1.人工智能与数据“现在的人工智能,前面有多少智能后面就有多少人工”--《三体》作者刘慈欣1.人工智能与数据自20世纪50年代,人工智能就开始走上人类现代科技的历史舞台。从马文·明斯基建造世界上第一台神经网络计算机,到阿兰·图灵提出图灵测试,一件件铭记史册的事件拉开了人工智能发展的大幕。1.人工智能与数据2007年,斯坦福大学教授李飞飞开始启动ImageNet项目,其借助于亚马逊的众包平台完成大量图片的分类标注。2010年,该项目积累1400多万张图片,分为21841种类别。在此项目研究过程中,李飞飞教授逐渐认识到“数据”的重要性。2.数据标注定义数据标注是对未经处理的初级数据,包括语音、图片、文本、视频等进行分类、编辑、纠错和批注等加工处理,并转换为机器可识别信息的过程。对未经处理的初级数据一般通过数据采集获得,随后的数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里完成调用。2.数据标注定义任务子任务视觉标注图像分类,目标检测,语义分割,实例分割,全景分割,视频时间片分类,视频分割,关键点标注,3D点云标注,图像问答等。语音标注语音分割,语音自动识别,语音信号事件等。自然语言标注命名实体,翻译,关系抽取,文本摘要,问答和分级分类等。2.数据标注定义数据标注项目的工作流程3.计算机视觉标注相关基础概念--图像(1)像素一般人工智能讨论的都是假设基于屏幕像素的。屏幕像素是指显示屏的像素,包括电视机,电脑显示屏,手机屏等等,这些像素不是虚拟的,是实实在在存在的,具有物理尺寸大小,通常是英寸(inch)为单位。(2)分辨率屏幕分辨率只与长度有关,用ppi代表,有时也称像素密度,表示每英寸有多少个像素点,与物理设备相关。数码图像分辨率指这幅图的像素。数码图像的物理尺寸可以是任意的。如果当前数码图像分辨率标为5000×
4000像素,屏幕分辨率是100ppi,那么这幅图的屏幕尺寸是宽=5000/100=50英寸,高=4000/100=40英寸。3.计算机视觉标注相关基础概念--图像(3)色彩空间人类视网膜上有三种感知色彩的视锥细胞,所以理论上可用三种颜色的光就可以混合出自然界中任何一种颜色来。在20世纪20年代,戴维德等科学家通过三种颜色的光源进行匹配,得到了人眼对于不同颜色光的匹配函数。设三种颜色的光源(R红色,G绿色,B蓝色)强度分别为r,g和b,则颜色C可表示为:(4)图像文件格式分类:有损压缩、无损压缩常见得比较多的图片格式有:jpeg(jpg)、png、bmp、gif、tif和raw等。3.计算机视觉标注相关基础概念--视频(1)文件格式数字视频是人工智能数据标注主要关注的视频形式。数字视频有不同的产生方式,存储方式和播出方式。AVI,WMV,MPEG,DivX,MKV等(2)视频帧视频中标准的基本信息单元称为帧。3.计算机视觉标注相关基础概念--视频(3)帧速率帧速率即总帧数与时间的比值,单位为帧每秒(f/s,framespersecond)。帧速率越高,人眼感觉视频越流畅。要避免不流畅的最低指标是30fps。(4)采样率随着流媒体兴起,视频网络播放为了减少网络压力,采用采样率来抽样原视频文件,形成视频流。444,422和420是三种YUV色彩空间的采样。三位数分别代表Y、U和V通道的抽样比。例如,444是全采样;而422是对Y进行全采样,对U和V分别进行1/2均匀采样。YY,U,VYYY,U,VYYY,U,VYY,U,VY,U,VY,U,VY,U,VY,U,VY,U,VY,U,VY,U,VY,U,V3.计算机视觉标注相关基础概念--视频(5)码率码率是视频数据每秒输出的数据位数。简称BPS,全称BitsPerSecond。常见单位KBPS(千位每秒)和MBPS(兆位每秒)。(6)分辨率分辨率指视频一帧图像包含的像素的多少,常见有1280×720像素和1920×1080像素等规格。分辨率影响图像大小,且与之成正比。分辨率越高,一帧图像越大;反之,一帧图像越小。4.智能语音标注相关基础概念--声音信号声音是一种压力波。当演奏乐器、拍打一扇门或者敲击桌面时,振动会引起介质即空气分子有节奏的振动,使周围的空气产生疏密变化,形成疏密相间的纵波,这就产生了声波,这种现象会一直延续到振动消失为止。4.智能语音标注相关基础概念--声音信号(1)频率声源在一秒中内振动的次数,记作f。赫兹是频率单位,记为Hz,指每秒钟周期性变化的次数(2)周期声源振动一次所经历的时间,记作T,单位为s。(3)音调声音的高低(高音、低音),由频率决定,频率越高音调越高。人耳听觉范围20~20000Hz。20Hz以下称为次声波,20000Hz以上称为超声波。宋佚名《深堂琴趣图页》4.智能语音标注相关基础概念--声音信号(4)音色音色又称音品,声音波形决定了声音的音色。声音因物体材料的特性而不同,音色本身是一种抽象的东西,但波形是把这个抽象直观的表现。波形不同,音色则不同。不同的音色,通过波形,完全可以分辨的。(5)响度响度描述人主观上感觉声音的大小,也称幅度或音量。由“振幅”和人离声源的距离决定,振幅越大响度越大,人和声源的距离越小,响度越大。其单位为分贝。所谓分贝是指两个相同的物理量(例如A1和A0)之比取以10为底的对数并乘以10。分贝符号为“dB”,它是无量纲的。式中A0是基准量,A1是被量度量。被量度量和基准量之比取对数,这对数值称为被量度量的“级”。它代表被度量比基准量高出多少“级”。4.智能语音标注相关基础概念--数字声音声音音频有模拟信号和数字信号两种形式。模拟信号指时间连续、幅度都是连续的信号;数字信号指时间、幅度上都是离散的信号。把模拟信号转换成数字信号,叫A/D转换。从连续的变成离散的就需要采样;相反,当要把音频播放出来就需要把数字信号转换成模拟信号,这叫D/A转换。(1)采样频率数字声音每秒采集声音的频率,它用赫兹(Hz)来表示。常见采样场景包括:广播22.05khz、CD的44.1khz和DVD的96khz。(2)采样精度采样精度表示用多少位二级制数去表示声音信号强度。采样精度常用范围为8bit至32bit,而CD中一般都使用16bit。中央人民广播电台播音员齐越在做联播广播4.智能语音标注相关基础概念--数字声音(3)声音通道声音频率按照频率范围分为多少个部分来单独处理,每个部分可以单独放大,单独压缩,单独降噪,通道越多对声音处理的就越精细,听到的声音就越清晰。4.智能语音标注相关基础概念--数字声音(4)噪音声音在采集过程中难免会收到周遭环境的影响。从物理角度看,噪声是无规则的机械波。在声音数据标注中,可能对标注结果产生误差影响。由于有噪声的存在,所以信噪比是一个评价声音特性的指标。在声音领域中,将声音信号与噪声的声级之差为定义为信噪比,单位是分贝。一般使用如下公式计算:4.智能语音标注相关基础概念--数字声音音频文件通常分为声音文件和MIDI文件两类,声音文件是通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据;MIDI文件是一种音乐演奏指令序列,可利用声音输出设备或与计算机相连的电子乐器进行演奏。常见文件格式包括:Wave、MPEG、AAC、FLAC等。5.自然语言处理标注相关基础概念(1)txttxt即文本文件。早在DOS时代应用就很多,主要存储文本信息。(2)csv逗号分隔值(Comma-SeparatedValues,CSV),其文件以纯文本形式存储表格数据。csv文件具体规则如下:以行为单位,开始位置不能为空。文件首行可为列名行。数据不跨行,无空行。以半角逗号作分隔符,列内容为空也要保留分隔符。列内容如存在半角引号,替换成半角双引号转义,即用半角引号将该字段值包含起来。编码格式不限,可为ASCII、Unicode或者其他。2000,"Venture",4900.001999,"Venture",5100.005.自然语言处理标注相关基础概念(3)jsonjson(JavaScriptObjectNotation)是一种轻量级的数据交换格式。它基于ECMAScript的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得json成为理想的数据交换语言。json易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。json文件具体规则如下:并列的数据之间用逗号(,)分隔映射用冒号(:)表示并列数据的集合(数组)用方括号([])表示映射的集合(对象)用大括号({})表示5.自然语言处理标注相关基础概念(4)XMLXML可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。具体规则如下:必须有声明语句区别大小写有且只有一个根元素属性值使用引号所有的标记必须有相应的结束标记所有的空标记也必须被关闭5.自然语言处理标注相关基础概念计算机自己能理解的“语言”是二进制数,最小的信息标识是二进制数,8个二进制位表示一个字节;而我们人类所能理解的语言文字则是一套由英文字母、汉语汉字、标点符号字符、阿拉伯数字等等很多的字符构成的字符集。如果要让计算机来按照人类的意愿进行工作,则必须把人类所使用的这些字符集转换为计算机所能理解的二进制码,这个过程就是编码。5.自然语言处理标注相关基础概念(1)ASCIIASCII编码是最早采用的一种单字节编码系统。在这套编码规则中,人们将所需字符集中的字符一一映射到128个二进制数上,这128个二进制数是最高位为0,利用剩余低7位表示具体字符。其中,0X00到0X1F共32个二进制数表示控制字符或通信专用字符(如LF换行、DEL删除、BS退格)编码,0X20到0X7F共96个二进制数来对阿拉伯数字、英文字母大小写和下划线、括号等符号进行编码。5.自然语言处理标注相关基础概念(2)GB系列中国国家标准总局发布了一套《信息交换用汉字编码字符集》的国家标准,其标准号就是GB2312-1980,再后来生僻字、繁体字及日韩字也被纳入字符集,就又有了后来的GBK字符集及相应的编码规范,GBK编码规范也是向下兼容的。5.自然语言处理标注相关基础概念(3)UnicodeISO国际标准化组织提出了Unicode的编码标准,这套标准中包含了Unicode字符集和一套编码规范。Unicode字符集涵盖了世界上所有的文字和符号字符。UTF-8编码的文件有withoutBOM和BOM两种格式。BOM,即ByteOrderMark,意为字节序标记。BOM的本意是在UTF-16编码中用来表示高低字节序列的。UTF-16以两个字节为编码单元,在解释一个UTF-16文本前,首先要弄清楚每个编码单元的字节序。在字节流之前有BOM表示采用低字节序列(低字节在前面)。UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。如果接收者收到以“EFBBBF”开头的字节流,就知道这是UTF-8编码了。UTF-8编码的文件中,BOM占三个字节。UTF-8的BOM是“EFBBBF”,因为16位编辑器载入UTF-8文件会转成UTF-16,上述的“EFBBBF”在Utf16中是“FFFE”。由于文件在采用“withBOM”编码时,会产生不必要的数据字节进而影响读取,所以建议一般情况下使用“UTF-8withoutBOM”格式进行文件编码。小结知识目标:(1)明确数据标注定义(2)熟悉常见数据标注任务(3)熟悉数据标注相关概念和指标思政目标:(1)了解新中国发展史中广播事业的缩影(2)了解噪声危害第一章数据标注基础任务二
标注工具安装搭建内容概括工具介绍工具安装工具基本使用1.工具介绍常见的单类型数据标注工具:LabelmeLabelme能够对图像进行多边形、矩形、圆、折线,点形式的标注,主要用于目标检测,语义分割,图像分类等任务。支持视频标注、支持导出VOC与COCO格式数据实例分割都可以用它标注。LabelImgLabelImg是一款标框标注工具,通过创建矩形框及标签属性标签相应的区域内容,得到标注信息是矩形框的位置大小和标签属性的XML文件。1.工具介绍PraatPraat是目前已经成为比较流行也比较专业的语音处理的软件,可以进行语音数据标注、语音录制、语音合成、语音分析等等,具有免费、占用空间小、通用性强、可移植性好等特点。doccanodoccano是一个供人类使用的开源文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。因此,您可以为情感分析、命名实体识别、文本摘要等创建标记数据。只需创建一个项目,上传数据并开始注释。您可以在数小时内构建数据集。1.工具介绍国产标注工具腾讯标注数据堂BaiduEasyDL京东1.工具介绍LabelStudioLabelStudio是一个开源的,可配置的数据标注工具。能够使用标准化输出格式的最方便的界面标记不同类型的数据。具有如下优点:社区版免费使用社区版支持本地部署社区版支持一定的团队协作能力丰富的标注项目类型模板可以自定义2.工具安装(1)MiniConda安装为了安装标注工具LabelStudio,需要建立一个支持环境。因为Labelstudio是基于Python的Web应用程序,所以选择MiniConda作为其支持环境,能够灵活应对版本变化和环境调试。首先从MiniConda官方网站下载MiniConda安装包https://docs.conda.io/en/latest/miniconda.html在列表中选择下载支持python3.7版本MiniConda安装包后,双击启动安装。如果在过程中不进行特殊设定,可以保持默认选项并选择“next”进入到以下界面。在弹出的“AdvancedInstallationOptions”选项界面中,可以选中“AddMiniconda3tomyPATHenvrionmentvariable”,否则需要完成后面所叙述的环境变量配置步骤。2.工具安装(2)创建虚拟环境condacreate--namelspython=3.7.9激活进入condaactivatels设置镜像源pipconfigsetglobal.index-url/simple启动安装pipinstalllabel-studio3.工具基本使用(2)创建虚拟环境condacreate--namelspython=3.7.9激活进入condaactivatels设置镜像源pipconfigsetglobal.index-url/simple(3)启动安装pipinstalllabel-studio3.工具基本使用(1)启动LabelStudio是一款Web应用,所以系统需要提前安装较新版本的Web浏览器软件。命令行执行:label-studiostart首次运行将启动注册界面在“EMAIL”框中输入邮箱,在“PASSWORD”框中输入密码。然后单击“CREATEACCOUNT”进行账号注册。当注册完毕后,系统自动进入首页。3.工具基本使用也可以采用如下启动方式创建用户和密码:label-studiostart--username<username>--password<password>其中“<username>”和“<password>”为希望创建的用户账号和密码。当成功启动系统后,如果后再次启动系统时,将会默认使用上次的账号进行登录。启动成功后,将默认在弹出浏览器窗口中打开如下界面:3.工具基本使用(2)创建项目创建项目有两种方式。一种使用界面完成。例如,在上图界面中单击“CreateProject”按钮,将弹出如下界面:3.工具基本使用(2)创建项目另外一种创建项目的方式是通过启动指令完成。具体指令如下所示:label-studiostartFirstProject--init其中的FirstProject为待创建的项目名称,可以替换为其他内容。成功创建项目后,将会在项目列表窗口看到刚创建的项目卡片。如下图所示:3.工具基本使用(3)邀请他人如果平台需要其用户参与协作,可以采用如下方式邀请其他用户加入平台共同完成标注。选择单击“AddPeople”按钮,将弹出邀请对话框。在弹出的对话框中,可以得到邀请链接。①②③3.工具基本使用可以选择单击“Copylink”按钮,然后发送给协作伙伴。而后得到邀请链接
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026江苏南京师范大学专业技术人员招聘10人备考题库附参考答案详解【培优a卷】
- 2026云南省房物业管理有限公司招聘12人备考题库附参考答案详解(模拟题)
- 2026浙江国检检测技术股份有限公司第一轮招聘员工5人备考题库附参考答案详解(典型题)
- 2026汉江水利水电(集团)有限责任公司及所属单位招聘91人备考题库(管理与专业技术岗位)【综合卷】附答案详解
- 2026甘肃兰州城关区《卫生职业教育》杂志社招聘备考题库附参考答案详解【培优a卷】
- 2026黑龙江大庆市肇源县医疗卫生专项人才引进22人备考题库及完整答案详解【典优】
- 2026汉江实验室三亚研究中心(三亚深海科学与工程研究所)招聘20人备考题库及参考答案详解【达标题】
- 2026广东云浮市郁南县招聘公益性岗位人员27人备考题库(第二轮)附参考答案详解(典型题)
- 2026山东日照市教育局直属学校招聘第一批急需紧缺教师29人备考题库及一套答案详解
- 2026浙江台州市温岭市滨海镇招聘编外工作人员1人备考题库附完整答案详解(名校卷)
- 新疆喀什地区事业单位笔试真题2025年(附答案)
- 2024-2025学年度南京特殊教育师范学院单招《语文》测试卷(历年真题)附答案详解
- 2026浙江温州市公安局招聘警务辅助人员42人笔试参考题库及答案解析
- 2025四川长虹物业服务有限责任公司绵阳分公司招聘工程主管岗位测试笔试历年备考题库附带答案详解
- 2026广东茂名市公安局招聘警务辅助人员67人考试参考题库及答案解析
- 2026年希望杯IHC全国赛二年级数学竞赛试卷(S卷)(含答案)
- 中国抗真菌药物临床应用指南(2025年版)
- 北京市烟草专卖局公司招聘笔试题库2026
- 2025年安徽审计职业学院单招职业适应性测试试题及答案解析
- 2026常德烟草机械有限责任公司招聘35人笔试参考题库及答案解析
- 2025届安徽省示范高中皖北协作区高三下学期一模考试英语试题(原卷版+解析版)
评论
0/150
提交评论