关于某某AI大模型训练数据清洗与标注服务合同_第1页
关于某某AI大模型训练数据清洗与标注服务合同_第2页
关于某某AI大模型训练数据清洗与标注服务合同_第3页
关于某某AI大模型训练数据清洗与标注服务合同_第4页
关于某某AI大模型训练数据清洗与标注服务合同_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于某某AI大模型训练数据清洗与标注服务合同一、合同主体甲方(委托方):(以下简称“甲方”)法定代表人/授权代表:地址:____________________联系方式:____________________乙方(服务方):(以下简称“乙方”)法定代表人/授权代表:地址:____________________联系方式:____________________合同编号:____________签订日期:2025年____月____日二、服务内容2.1数据清洗服务乙方需对甲方提供的原始数据集进行系统性清洗,具体包括:去重处理:通过哈希算法与人工核验结合的方式,剔除重复数据(如重复图像、文本片段或音频文件),确保训练数据的唯一性。噪声过滤:针对图像数据去除模糊、曝光异常、分辨率不足(低于甲方指定阈值)的样本;针对文本数据过滤乱码、无意义字符及低信息密度内容(如纯数字串、重复短句);针对音频数据剔除静音片段、背景噪音超标(信噪比低于25dB)的音频。格式标准化:将清洗后的数据统一转换为甲方指定格式,图像数据统一为JPG/PNG格式(分辨率≥1920×1080),文本数据为UTF-8编码的TXT/JSON格式,音频数据为WAV/MP3格式(采样率≥16kHz)。2.2数据标注服务乙方需根据甲方提供的《标注规范手册》(作为合同附件一),完成以下标注任务:图像标注:支持物体检测(矩形框选,标注精度误差≤2像素)、语义分割(多边形区域划分,边缘贴合度≥95%)、关键点标注(如人脸106点骨骼标记,点位偏差≤1像素)及属性分类(如“车辆颜色-红色”“场景-室内”等标签准确率≥99%)。文本标注:包括实体识别(如人名、地名、机构名标注完整率≥98%)、情感倾向分类(正向/负向/中性,分类准确率≥95%)、意图识别(如“咨询”“投诉”“指令”等标签准确率≥96%)及多轮对话标注(标注对话角色、意图连贯性及上下文逻辑一致性)。音频标注:涵盖语音转写(准确率≥98%,支持多语种及方言)、音素分割(精确到0.1秒级)、情感标注(如“高兴”“愤怒”“平静”)及背景环境标签(如“办公室”“街道”“静音”)。2.3交付成果乙方需在服务周期内提交:清洗后的结构化数据集(含数据质量报告,说明去重率、噪声过滤比例及格式转换情况);标注完成的数据集(含标注结果文件及标注质量报告,说明准确率、完整率等指标);过程文档(包括清洗日志、标注规则修订记录及异常数据处理方案)。三、质量标准3.1数据清洗质量要求完整性:清洗后的数据量不低于原始数据集的80%(因甲方提供数据质量问题导致的例外情况需书面确认);准确性:去重率≥99.5%,噪声过滤准确率≥98%,格式转换错误率≤0.1%;一致性:数据格式、命名规则及元数据(如采集时间、来源标签)需符合甲方《数据规范文档》(附件二)要求。3.2数据标注质量要求准确率:图像标注准确率≥98.5%,文本标注准确率≥97%,音频标注准确率≥96%(按随机抽样5%样本人工核验,误差率超出标准的需免费返工);一致性:标注逻辑需符合《标注规范手册》,跨标注员标注结果差异率≤2%(通过Kappa系数检验);时效性:标注任务需按阶段交付,每个子任务延迟不得超过约定时间节点24小时。3.3质量验收流程甲方在收到乙方交付成果后5个工作日内完成验收,通过以下方式验证质量:自动化检测:通过甲方提供的质检工具(如标注校验脚本)进行批量指标核验;人工抽检:随机抽取10%的标注数据进行人工复核,若不合格率超过3%,乙方需在3个工作日内完成整改并重新提交。四、价格与支付4.1服务费用服务类型计费单位单价(元)预估工作量预估费用(元)图像数据清洗万张________________________文本数据清洗万条________________________音频数据清洗小时________________________图像标注(检测)万框________________________文本标注(实体)万词________________________音频转写小时________________________合计费用:人民币________________元(大写:________________)4.2支付方式预付款:合同签订后7个工作日内,甲方向乙方支付总费用的30%作为预付款,计________元;中期款:乙方完成50%工作量并通过甲方验收后7个工作日内,支付总费用的40%,计________元;尾款:全部服务完成并通过最终验收后10个工作日内,支付剩余30%,计________元。4.3发票与结算乙方需在收到款项后5个工作日内开具等额增值税专用发票(税率____%),发票类目为“数据处理服务”。五、权利与义务5.1甲方权利与义务权利:对服务过程进行监督,要求乙方按约定提交进度报告;对不合格成果提出整改要求;在乙方违约时解除合同并追责。义务:在合同签订后3个工作日内提供原始数据集、《标注规范手册》及相关工具(如质检软件);及时响应乙方提出的需求澄清(最长不超过24小时);按约定支付服务费用。5.2乙方权利与义务权利:要求甲方提供必要的数据支持及需求说明;按约定收取服务费用;在甲方逾期付款超过15日时暂停服务。义务:组建不少于10人的专项团队(含项目经理、技术负责人及标注员),并向甲方提供团队资质证明;严格遵守数据安全规范,对甲方数据进行加密存储(AES-256加密)及访问权限管控;每7个工作日提交《项目进度报告》,说明工作量、质量指标及风险预警。六、保密条款6.1保密范围双方应对以下信息承担保密义务:甲方提供的原始数据、标注规范、业务逻辑及未公开的技术文档;乙方的标注工具、清洗算法、质量控制流程及团队信息;合同内容、服务价格及合作过程中涉及的商业秘密。6.2保密期限保密义务自合同签订之日起生效,至相关信息公开或双方书面同意解除保密义务后持续有效,其中数据保密期限为合同终止后5年。6.3违约责任若乙方违反保密义务导致甲方数据泄露,需承担以下责任:立即停止侵权行为并消除影响;赔偿甲方直接经济损失(按泄露数据条数×____元/条计算,最低赔偿金额不低于10万元);承担由此引发的第三方索赔及法律诉讼费用。七、违约责任7.1甲方违约逾期付款:每逾期1日,按应付未付款的0.05%支付违约金,逾期超过30日的,乙方有权解除合同并要求赔偿已完成工作量的120%费用。未及时提供数据:因甲方原因导致乙方无法按期开工的,工期顺延,且甲方需支付乙方窝工费(按团队日均成本×延误天数计算)。7.2乙方违约质量不达标:标注准确率每低于约定标准1%,扣除对应模块费用的5%;需返工的,返工周期不得超过原工期的30%,否则按日扣除总费用的0.1%作为违约金。交付延迟:每逾期1日,按总费用的0.2%支付违约金,逾期超过15日的,甲方有权解除合同并要求乙方退还已付款项,同时赔偿总费用20%的违约金。八、争议解决8.1协商优先因本合同引起的争议,双方应首先通过友好协商解决,协商期限为争议发生后15个工作日。8.2诉讼管辖若协商不成,任何一方可向甲方所在地有管辖权的人民法院提起诉讼。8.3法律适用本合同的订立、履行及争议解决均适用中华人民共和国法律(不含港澳台地区法律)。九、其他条款9.1合同生效与终止本合同自双方法定代表人/授权代表签字并加盖公章之日起生效,有效期至服务完成且款项结清后终止。9.2合同变更任何对合同内容的修改需经双方书面确认并签署补充协议,补充协议与本合同具有同等法律效力。9.3不可抗力因地震、战争、政策调整等不可抗力导致合同无法履行的,双方应及时通知对方并协商延期或解除合同,互不承担违约责任。9.4附件效力本合同附件(《标注规范手册》《数据规范文档》《质量验收细则》)为本合同不可分割的组成部分,与正文具有同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论