客服录音数据标注规范(完整版).docx_第1页
客服录音数据标注规范(完整版).docx_第2页
客服录音数据标注规范(完整版).docx_第3页
客服录音数据标注规范(完整版).docx_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

客服录音数据标注规范(完整版)用谷歌浏览器(至少32.0以上版本)来标注。其他浏览器或低版本谷歌浏览器可能出现部分文件播放不了的问题。质量要求:l 文字错误率:3%以内n 注:文字错误率指语音内容标注错误,只要有一个字错,该条语音就算错。l 其他错误率:5%以内n 注:综合错误率指:除了语音内容以外的其他标注项错误,只要有一项错,该条语音就算错。客服语音内容说明:都是鲜百味公司和客户的电话语音,公司主营业务是卖海鲜,所以大部分内容都是关于海鲜(如大闸蟹)的购买、礼品券、配送等方面。1. 当前语音是否包含有效语音无效语音(即不包含有效语音)的类型:l 文件播放不了;l 音频全部是静音或噪音;l 许多地方听不清或者听不懂,例如,方言太重、噪音太大、音量过低等。l 两个人同时说话超过3个字(包括3个字)并且听内容不清楚的或者噪音声音盖住说话人声大于3个字(包括3个字)导致内容听不清楚的2. 当前语音的噪声情况如果能听到明显的噪音(噪音指说话人正常说话外的其他声音),则选择“含噪音”,否则选“安静”。常见噪音举例(但不限以下):l 其他人说话声l 背景音乐声l 动物叫声l 汽车滴滴声l 咳嗽声l 明显的电流声3. 说话人数量(即标注的语音内容是几个人说的)l 一人说话(主体说话人):只有一个人说话l 多人说话:有多个人说话(因为是客服语音,一般是两个人)4. 说话人性别如果有多个人说话,则标第一个说话人的性别。标注项:l 男l 女5. 是否包含口音如果有多个人说话,则标第一个说话人是否有口音。标注项:l 否:无口音l 是:有口音n 有口音是指说话人发音的拼音或声调和正确发音的不一致。常见情形包括:l和n不分,h和f不分,n和ng不分,e和uo不分,前后鼻音,平翘舌,以及其他情况。6. 语音内容如果两个人同时说话,以主体说话人声音大的为准来转写文字。如果一条语音中,低于3个字有两个人同时说话,并听不清楚的,将听不清的部分用“d”表示。如果一条语音中,低于3个字部分噪音太大,盖住说话人声音导致听不清的,将听不清的部分用“n”表示。文字转写具体要求:l 语音内容必须和听到的语音完全一致,不能多字、少字、错字。l 阿拉伯数字要写成汉字形式,如“一二三”,而不是“123”。注意区分“一”和“幺”。“二”和“两”l 语气词: 音频中说话人清楚地讲出的语气词,如 “呃 啊 嗯 哦 唉 呐”等,要按照正确发音进行转写。 语气词除了“了 不 ”没有口字旁,其他基本上都有口字旁。l 转写内容的完整性要与实际发音一致,不得删减;n 如发音为:我是北 北京人;“北”字有重复现象,那转写的时候要写成:我是北,北京人。l 英文比较复杂,转写的原则是:按字母读的情况(如缩写词,网址等)一律大写,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论