人工智能领域数据处理解决方案-中国大数据技术大会_第1页
人工智能领域数据处理解决方案-中国大数据技术大会_第2页
人工智能领域数据处理解决方案-中国大数据技术大会_第3页
人工智能领域数据处理解决方案-中国大数据技术大会_第4页
人工智能领域数据处理解决方案-中国大数据技术大会_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能领域数据处理解决方案质的数据深度加工链|数据众包百度数据众包-AI基础数据提供商数据之于人工智能高质量的数据为训练人工智能提供了原材料能技术的实现和人工智能应用的落地提供基础的后台保障!用层:身份识别、无人车、机器人等场景应用:机器学习、深度学习、语音识别、图像识别、人脸:大数据、云计算、神经网络芯片等计算商方言语音数据场景语音数据语音文本数据社交网络文本数据新闻媒体舆情数据社区、论坛知识数据多语种文本数据细粒度语义标注数据人脸图像数据字符图像数据物体图像数据物体属性数据物体行为数据不同领域的词性及关系数据数据处理的困境数据加工提取分类清洗评估据,人工智能基础数据的两大难题数据加工提取分类清洗评估始数据数据获取数据获取本采集音采集频采集统一的采集标准广,需要外包人时间、经济成本大视视频网页文本图片语音构化的数据量量精准识别数据一标准,方法不一致,投入颈数据处理众包海量采集(一般场景、非专业设备)包用户数据处理众包海量采集(一般场景、非专业设备)包用户取采集APP网页初检、场地培训据取上传模拟现场采集(需要特殊专业设备、特殊场景的项目)户数据需求案专家需求定义任务设计与拆分场片文本语音视频O片文本语音视频P户端9海量众包近场采集练数据集的样本数据用于础训练,尽可能多各类人群唤醒词采集海量众包近场采集练数据集的样本数据用于础训练,尽可能多各类人群唤醒词采集型使用人群在真实场远 表采集试集近场数据:采集能力:累计完成超过5000小时,覆盖10w人近场数据:。项目执行方案:预处理审核标注注级审核评估清洗提取其他析致力于数据处理规则的标准化与工具化注OCR审核预处理预处理审核标注注级审核评估清洗提取其他析致力于数据处理规则的标准化与工具化注OCR审核预处理注道包包级审核户需求需求据需求2、智能加众包标注:AIAI实现日均百万的数据吞AIAI3、多级质量管控:道突破准确率瓶颈道•不完整数据•错误数据•冗余数据•数据标签化•垂类数据•关键词提取•网页内容提取•图片内容提取(OCR体识别等)数据清洗数据清洗33数据内容获取数据评估数据评估244殊信息•相关性评估•时效性评估•竞品评估•电子商务评论•地图信息制作•语音转写•其他数据标注—通用图片检测通用图片检测类型涵盖商品、动物、植物、菜品、服装搭配、黄反、暴恐、建筑、素材等多种垂类。1.多图vs.单图;2.图+参考文字/参考图/搜索页面/参考链接/预识别结果/特定内部参考页面;3.多题vs.单题;4.题目类型:单选/多选/多级菜单选择/填写框选类能力涵盖:普通矩形、分类矩形、普通多边形、分类多边形、区域填色、多级属性多边形、Parsing、点+线+区域复合检测分类矩形普通矩形框普分类矩形普通矩形框点+线+区域复合分类多边形区域点+线+区域复合分类多边形对“兴趣偏好“属性进行策略优化,通过第三方人工标注,通过用户人工贡献评价,评估策略优化后的标签准确率令要素提取依据客户要求对文字内容或槽位进行提取并定位具体属性。标注工具——图片&语音转写言OCR文字转写2.进行多种口音的语音文字转写17标注标注类助标注众包用户核心用户团队标注员作业项目助理 标注员作业项目助理 标准自学统一培训习考试 检 (实时)产品线 )收检户•以“公会”聚集的小组(生产单元)•工作量、质量考核•公会奖惩、升降级中前后19案例:人脸识别基础数据服务使使用场景:身份识别,摄像监视系统,支付系统,门禁系统•采•一人多照人脸图片:多表情、多姿态•跨年龄段人脸图片:70-00后全年龄段•多光照条件、•多遮挡条件•标•人脸检测标注:人脸位置框选•人脸关键点标注:人脸5点-72点标注•验收通过率100%20例:语音识别基础数据服务使使用场景:音识别,智能机器人•采•采集指定地区的汉语方言数据•通过手机自带麦克录制•四川话/上海话/湖南话等8种方言•安静/吵闹环境录制•标•语音数据转写•中文方言、普通话•转写准确率98%,业内第一人像识别语音识别跨年龄段人像识别语音识别跨年龄段暗光人脸家福脸打点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论