版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
口语化视频语音类标注项目方案数据需求数据需满足下列需求:数据量1000小时有效数据语言普通话视频格式常见视频格式,MP4、3GP、AVI、MKV、WMV、FLV等等通用格式数据来源视频网站上获取的口语化视频类数据正确率句正确率95%交付内容音频文件、标注结果数据来源节目网站或自媒体平台上抓取公开的口语化视频节目。按照选题内容和节目类型两个不同的维度进行了如下分类:按照选题内容分类:选题内容视频内容举例访谈类节目焦点访谈、看见、小崔说事儿体育类节目比赛解说综艺类节目非常6+1、欢乐总动员、快乐大本营教程类节目美食、美妆、家装DIY娱乐性节目电视剧、电影、游戏视频、搞笑视频服务类节目生活服务类、评测类节目、开箱视频按照节目类型分类:节目类型节目举例电视类节目文艺类、电影、电视剧、谈话类、电视纪录片直播类脱口秀、说段子、聊热点、聊美食、游戏类、娱乐类、电台直播、绘画直播自媒体科普、演讲、历史、文化、见闻节目类型包含但不限于上述类别。视频获取要求:1、单个视频需要大于20分钟;& 标注要求•按句截取:1)标注人员需要在标注平台截取出多个有效语音段,对切开的每个语音段,进行标注。考虑语义连贯,以句为单位进行截取,太长的句子可以截取成分句,每句最长不超过10秒,截取时不考虑语意,但当遇到重叠时,需要考虑句意,这个当特例来记。是的,个人说话没有任何的重叠干扰等的,说什么就标什么,考虑句意的只可能出现在说话人重叠打扰的情况下~~2)每个时间边界的最佳位置在波形的最低点,如果仅有几个字包含不进来,那么建议舍弃这几个字。3)不同说话人的语音不能截在同一句里。4)截取时做标注的语音段周围尽量留0.2~0.3秒静音段,如本身没有这么长静音的情况不强求。尽可能截取没有突发噪音的语音段,可以为了避开突发噪音,而缩短语音前后的预留时间,但不能出现切音的情况。•有效性判断:若整段语音出现以下情况,则整段语音无效,不做截取标注等后续工作:1)整段段语音声音极小,小到几乎听不到;2)整段段语音中只含有噪声(例如欢呼声、音乐声、笑声、歌声等)或者静音(视为无声音)完全没有说话人声音;若整段语音合格,则该段语音需要截取。出现以下情形的,判定为单句不合格。单句不合格的句子不需标注文本内容:1)如果一段语音中两个人说话重叠,若声音大小接近,重叠部分比较多,则判为无效;若重叠部分较少(仅一两个词),截取不重叠部分标为有效。如果重叠另一个人声音很小可忽略。2)若说话人说话同时含有噪声,包括背景音、突发噪音、笑声、欢呼声等非第二人说话且声音不大于说话人声音,可以判有效,后续标噪音符号即可。3)若一个人说的两句话间出现语气词,如:"嗯"、"呦"、"哎呀"等等语气词说完后紧接着第二句话则需要转写后一句中。4)若一个人说完一句话后,又接着说了少于或等于2个字,如只有"嗯"、"啊"、"哇瞰、"哎呀"等语气词,后续为第二人说话,则该语气词的句子算作无效。例:A:您好,嗯。B:很高兴见到你。此时应将"嗯"无效,不截取不转写。A:您好,嗯。A:很高兴见到你。此时应将“嗯"和第二句话一起截取并转写。是的5)若一个人说完后,发出笑声或其他情绪类的声音,需要标注该说话人的内容,同时后面标注噪音符号。一句话有听不清楚的部分,不能判断内容转写不出正确结果的情况下,则该句无效。7)对于涉嫌色情暴力政治不正确的句子则该句需要标为无效。一句话如果是纯方言而非普通话,难以理解其含义,则该句无效。9)如果整段话中没有人声,只有背景播放的持续的纯音乐、歌词前奏等,则需要标注为无效。•说话人标识:按句将整段语音截取成分句后,需要记录每句是哪位说话人在说话,如记为"speaker1"sMspeaker2"等。并标识不同说话人性别。(说话人标识只是针对于判断有效的情况下)。•内容标注:数据处理人员根据所听到的音频写出内容,力求使文本内容与音频发音内容保持一致。一般准则如下:1)如果两个人说话重叠声音大小差不多,重叠部分切出去标无效。例:两个人说话重叠,甲说:”今天的天气好热呀!"话还没完,乙说:〃嗯。""嗯"字正好跟"热"字重叠了,且两个人声音大小差不多。则把“今天的天气好〃切成一句。"热呀"标成无效。(重叠时考虑句意)是的2)转写的内容必须和听到的语音完全一致,不能多字、少字、错字。3)音频中的阿拉伯数字要写成汉字形式,如"一二三",而不是"123”。注意区分"一"和"幺"。"二"和"两"4)音频中有英文发音的应写成相应的汉字或英文。具体分为以下几种情况:>网址中包含的所有的字母均或单词,均为大写。例如:发音内容为"",应转写为"三W点PP点COM">发音中包含的英文单词,转写时全部为小写。>发音中包含的英文字母,转写时全部为大写。>对于一些专有名词,或者一些英文缩写全部大写,例如:WTO、ERP等。5)语气词:音频中说话人清楚地讲出的语气词并且紧接着正常语音,如"呃啊嗯哦唉呐"等后接"吃了",要按照正确发音进行转写。例:"嗯吃了"。语气词除了"了不"没有口字旁,其他基本上都有口字旁。6)标注内容的完整性要与实际发音一致,不得删减。如发音为:我是北北京人;"北"字有重复现象,标注的时候要写成:我是北北京人。7)发现听的比较清楚,但是语义不确定,但是发音可以确定,比如普通人名等,可以选择同音字代替,但需要保证标注读音正确。在有明确上下文句意的情况下,选择符合发音以及句意的字进行标注。8)标注中只能含有中文、英文以及常用标点符号(空格、逗号、句号、问号、叹号、顿号)。如果符号被读出,则根据发音需写成相应汉字或英文。例如"@"读"at"时要写为"at",".com"读成"点com"时要写成"点com"。9)关于添加空格注意事项:>空格只允许出现在英文单词之间。比如:howareyou?是的>大写字母间需要以空格间隔。比如OK、LED。是的,一般部门、机构、组织、公司、名称、人名等的缩写每个字母都必须大写>英文字母、中文、中文和英文之间,均不能出现空格。•噪音标注:需要区分每句话是否含有噪音,对于含有噪音的数据,需要进行标注,但不用区分噪音类型。对于含有噪音的句子,在句尾标注噪音符号[N]。•补充要求:1、原则上一定是:说话人说什么,文本标什么。听不清时宁可不截取在有效语音范围内。2、一般的原则是:发音差不多的情况下(声韵母没有变化),按语意转写(例如:息屏那个就是写息屏),发音变化大的情况下,按音来。3、一个字不用截取标注。是的交付数据格式:交付内容为:语音文件(wav格式)和相应的标注结果,两者需要保持同名,其中标注结果需要含有如下内容:说话人ID说话人
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全协议书的法律效力
- 真不想和大佬协议书离婚
- 失眠症预防与管理方案训练
- 宇宙知识科普简短
- 2026广东汕头大学医学院实验动物中心劳务派遣人员招聘4人备考题库及参考答案详解(巩固)
- 2026国家统计局兵团第十四师调查队招聘1人备考题库(新疆)及参考答案详解(综合卷)
- 2026上半年安徽黄山市休宁城乡建设投资集团有限公司及权属子公司招聘18人备考题库含答案详解ab卷
- 2026四川甘孜州泸定县人民医院编外招聘工作人员5人备考题库及答案详解【必刷】
- 麻醉术后监测流程
- 2026黑龙江齐齐哈尔市拜泉县乡镇卫生院招聘医学相关专业毕业生5人备考题库附参考答案详解(达标题)
- 《青鸟》阅读交流课课件
- 初中英语听力mp3下载带原文mp3 初中英语听力mp3下载免费百度网盘
- X光安检机培训-PPT
- 盐城市区饮用水源生态净化工程验收调查报告
- GB/T 42477-2023光伏电站气象观测及资料审核、订正技术规范
- LY/T 2787-2017国家储备林改培技术规程
- GB/T 29256.3-2012纺织品机织物结构分析方法第3部分:织物中纱线织缩的测定
- 六年级下册数学试题数认识专题训练版语文
- 化工设备安装课件
- SY∕T 7298-2016 陆上石油天然气开采钻井废物处置污染控制技术要求
- 钢结构焊接施工方案(最终版)
评论
0/150
提交评论