版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
T/CSHB河 北 省 版 权 协 会 团 体 标 准T/CSHB0017—2024生成式人工智能模型训练合规技术规范GenerativeAImodeltrainingcomplieswithtechnicalspecifications2024-9-10发布 2024-9-10实施河北省版权协会 发布目 录前言 1范围 2规范性引用文件 2术语和定义 3合规原则 5数据收集合规要求 5合规性审查 5收集方式 6数据类别 6数据预处理合规要求 9数据预处理总体要求 9数据预处理安全技术要求 10数据标注合规要求 13训练数据预处理合规要求 14数据加密技术要求 14模型训练与测试合规要求 15模型训练 15模型测试 15数据备份与恢复 16内容生成服务合规要求 16使用者尽责义务的告知 16生成内容的审核 16生成内容的标识 16生成内容的异议审查机制 17使用者信息保护 17被侵权人维权支持 17PAGEPAGE10前言本文件按照GB/T1.1-2020《标准化工作导则 第1部分:标准化文件的结构和起草则》的规定起草。(河北人工智能科技有限公司及所有参与起草的单位共同所有,受国家版权法律、法规保护。未经许可,任何组织或个人不得擅自复制、出版、传播或用于其他商业用途。如有需要,请联系本文件发布机构或相关单位获取授权。本文件由配播智算(河北)人工智能科技有限公司提出。本文件由河北省版权协会归口。(河北)(杭州(北京标准化技(天津(河北企业管理服务有限公司、首科(河北)企业管理咨询有限公司。本文件适用于指导生成式人工智能进行模型训练。规范性引用文件(包括所有的修改单)适用于本文件。GB/T4943.1信息技术设备安全第一部分:通用要求GB/T5271.1-20001部分:基本术语GB/T5271.28-2001285271.29-2006295271.31-200631GB/T29246-2023信息安全技术信息安全管理体系概述和词汇GB/T29490-2023企业知识产权合规管理体系要求GB/T32914-2023信息安全技术网络安全服务能力要求GB/T32916-2023信息安全技术信息安全控制评估指南GB/T35273-2020信息安全技术个人信息安全规范GB/T35770-2022合规管理体系要求GB/T41479-2022信息安全技术网络数据处理安全要求GB/T41867-2022信息技术人工智能术语GB/T42018-2022信息技术人工智能平台计算资源规范GB/T42574-2023信息安全技术个人信息处理中告知和同意的实施指南GB/T42755-2023人工智能面向机器学习的数据标注规程GB/T43269-2023信息安全技术网络安全应急能力评估准则GB/T43557-2023信息安全技术网络安全信息报送指南TC260-PG-20202A移动互联网应用程序(App)收集使用个人信息自评估指南TC260-003生成式人工智能服务安全基本要求术语和定义3.1生成式人工智能generativeartificialintelligence(AIGC)具有文本、图片、音频、视频等内容生成能力的人工智能模型及相关技术。3.2提供者provider以交互界面、可编程接口等形式面向我国境内公众提供生成式人工智能服务的组织或个人。3.3个人信息personalinformation以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。[来源:GB/T42574-2023,定义3.1]3.4敏感个人信息sensitivepersonalinformation一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息。注:敏感个人信息包括生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息,以及不满14周岁未成年人的个人信息。[来源:GB/T42574-2023,定义3.2]3.5测试数据testdata用于评估最终机器学习模型性能的数据。注:测试数据与训练数据无交集。[来源:GB/T41867-2022,定义3.2.3]3.6模型训练modeltraining利用训练数据,基于机器学习算法,确定或改进机器学习模型参数的过程。[来源:GB/T41867-2022,定义3.2.18]3.7数据标注dataannotation给数据样本指定目标变量和赋值的过程给数据样本指定目标变量和赋值的过程。[来源:GB/T41867-2022,定义3.2.29]3.8训练数据trainingdata用于训练机器学习模型的输入数据子集。[来源:GB/T41867-2022,定义3.2.34]3.9告知notice使个人知晓其个人信息处理活动及其有关规则的行为。注:个人信息处理活动包括个人信息的收集、存储、使用、加工、传输、提供、公开、删除等。3.10同意consent个人对其个人信息进行处理自愿、明确作出授权的行为。注:包括通过积极的行为作出授权(即明示同意),或者通过个人的行为而推定其作出授权。[来源:GB/T35273-2020,3.7,有修改]3.11提供provision注:委托第三方处理个人信息的,不属于向其他个人信息处理者提供个人信息的行为。3.12人工智能伦理原则ethicalprinciplesofartificialintelligence(人工智能)开展人工智能技术基础研究和应用实践时遵循的道德规范或准则。3.13模型公平性modelfairness指模型的预测结果不受到不相关因素的影响,例如性别、种族等。合规原则生成式人工智能数据应用应符合以下合规原则。数据收集合规要求合规性审查数据来源审查c)数据安全性;d)数据使用合规性。内容合法性审查(收集方式直接收集数据间接收集数据数据类别公开数据信息API接口中获取数据,应遵守目标网站的网络爬虫排除协议(Robots协议)等声明文件要求,避免采用破解密码、伪造用户代理(UserAgent)、设置代理网际协议地址(IP地址)等技术手段进行违规爬取。的服务授权声明。个人数据信息收集个人信息的合法性要求对个人信息控制者的要求包括:不得欺诈、诱骗、强迫个人信息主体提供其个人信息;收集个人信息的最小必要性要求收集个人信息时的授权同意收集年满14周岁未成年人的个人信息前,应征得未成年人或其监护人的明示同意;不满14周岁的,应征得其监护人的明示同意;告知与同意的基本原则个人信息处理者在实施告知时需考虑以下基本原则。公开透明:公布处理个人信息的种类、目的、方式、安全措施等处理规则,不采取故意遮挡、隐藏等方式诱导个人略过告知内容;有效传达:尽可能通过交互式界面、邮件、电话或短信等方式向相关个人进行告知;适时充分:在收集、提供、公开等个人信息处理活动发生之前或同时,对个人进行充分告知;真实明确:告知个人信息的处理种类、目的、方式等规则与实际情况一致,且需结合实际业务功能,不使用笼统、宽泛的表述;清晰易懂:告知文本符合个人的语言习惯,使用通用且无歧义的语言、数字、图示等。个人信息处理者在取得个人同意时需考虑以下基本原则。告知一致:取得同意的范围不超出所告知的内容;自主选择:支持个人通过自行操作的方式作出同意,不使用默认勾选的方式取得同意;避免捆绑:区分产品或服务的业务功能,不采用捆绑方式强迫个人一次性同意多种业务功能可能收集的个人信息或多个处理活动,个人拒绝同意时,不影响与该个人信息无关的业务功能的正常使用。个人信息的展示限制(个人信息控制者宜对需展示的个知识产权保护获取数据用于模型训练的,应采取以下手段防止对他人知识产权的侵害。数据预处理合规要求数据预处理总体要求数据识别。分类分级。风险防控。审计追溯。网络运营者应对数据处理的全生存周期进行记录,确保数据处理可审计、可追溯。数据预处理安全技术要求通则收集应制定和公开个人信息保护政策并严格遵守,个人信息保护政策应符合GB/T35273-20205.5要求;收集个人信息前,应明示个人信息保护政策,并征得个人信息主体同意;存储网络运营者应对数据存储活动采取安全措施,包括:GB/T35273-20206.3b)c)的要求及生物特使用网络运营者在为用户提供定向推送或信息合成服务时的要求如下。定向推送及信息合成:第三方应用管理:网络运营者应对接入或嵌入其产品或服务的第三方应用加强数据安全管理,包括:应通过合同等形式,明确双方的数据安全保护责任和义务;对审计发现超出双方约定的行为及时停止接入。加工传输网络运营者在应对数据传输活动采取安全措施,包括:提供向他人提供网络运营者向他人提供数据前,应进行安全影响分析和风险评估,可能危害国家安全、公共安全、经济安全和社会稳定的,不应向他人提供。要求如下:向他人提供个人信息,应向个人信息主体告知接收方的名称、联系方式、处理目的、处理方式个人信息的种类、存储期限,并取得个人信息主体同意;数据出境:公开网络运营者利用所掌握的数据资源,公开市场预测、统计等信息时,不应危害国家安全、公共安全、经济安全和社会稳定。投诉、举报受理处置3数据标注合规要求标注规则的制定标注规则应根据数据需求方对模型训练的具体要求制定;标注规则应清晰、具体、全面、细化,对标注人员具有实际操作性;数据标注质量评估数据标注的全流程实施过程中应包含质量评估的环节,具体操作可依据GB/T42755-2023第6.2和第7.1条规定的流程与方法进行实践。训练数据预处理合规要求提高训练数据质量训练数据的真实性训练数据的准确性训练数据的客观性训练数据的多样性训练数据的安全性为确保训练数据的安全性,应对训练数据的来源进行安全评估和核验。数据加密技术要求为确保重要数据和敏感个人信息在存储和传输当中的安全性,应遵循以下要求。钥长度,以提供足够的安全性。模型训练与测试合规要求模型训练训练步骤模型训练应至少包括预训练与优化训练等两重的训练环节。预训练优化训练模型验证模型测试制定全面完整严格的测试指标体系,以减少幻觉、有害偏见和违法内容的生成;引入人工方式或其他模型进行对抗测试,根据结果反馈实现对模型性能的改进优化;c)效性;d)测试数据的来源应独立于训练数据与验证数据,且应按照同样标准进行预处理;e)确保模型在经过严格测试并核验完成之后才对公众提供内容生成服务;f)数据备份与恢复内容生成服务合规要求使用者尽责义务的告知提供者应当与注册使用其服务的使用者(下称“使用者”)签订服务协议,在服务协议中明确告知使用者如下事项:生成式人工智能服务的基本特点与可能风险;生成内容的审核生成内容的标识提供者利用生成式人工智能技术向使用者提供文本、图片、音频、视频等生成内容时,需依据TC260-PG-20233A第3章的规定,通过水印等方式对生成内容进行明确标识,标识信息至少应包含“由人工智能生成”或“由AI生成”等含义。在由自然人提供服务转为由人工智能提供服务容易引起混淆时,应通过提示文字或提示语音的方式进行标识。生成内容的异议审查机制
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 陕西西安科技大学附属中学2026年初三第二学期年级质量调研考试物理试题试卷含解析
- 2026年大学大一(康复治疗学)康复心理学基础阶段测试题及答案
- 2026年大学大一(机械设计制造及其自动化)机械设计基础阶段测试题及答案
- 2025年前台防疫知识卷
- 护理带教中的多学科合作
- 2025年前台电话接听能力训练
- 604 GLD1500皮带式给煤机
- 护理职业安全与持续改进
- 护理安全转运转运安全管理
- 护理安全与安全保障
- 2025年上海中烟机械技术中心限责任公司招聘高频重点提升(共500题)附带答案详解
- 铁路劳动安全 课件 第三章 防洪抢险
- 2024年度卫星导航设备融资租赁合同
- 医院品管圈(QCC)活动成果报告书-基于QFD 润心服务改善 ICU 患者及家属就医体验
- 基于PLC的物料分拣系统设计
- JTG-T 3392-2022高速公路改扩建交通组织设计规范
- DL-T5191-2004风力发电场项目建设工程验收规程
- DZ∕T 0130-2006 地质矿产实验室测试质量管理规范(正式版)
- 摩托车和轻便摩托车耐久性试验方法
- AQ 2047-2012 水泥工厂筒型储运库人工清库安全规程
- JJG 693-2011可燃气体检测报警器
评论
0/150
提交评论