版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS01.140.20CCSL70212026-04-01发布IDB21/T4416—2026前言 12规范性引用文件 13术语和定义 14基本要求 25元数据标注的分类要求 25.1基础元数据标注 25.2深度元数据标注 35.3周边元数据标注 35.4扩展元数据标注 46智能标注要求 46.1需求对接与标注方案制定 46.2数据获取、清洗与入库 56.3智能预标注 56.4人工标注与修正 56.5质量检测 66.6数据封装与交付 66.7数据归档与项目复盘 76.8数据安全与人员保密 7DB21/T4416—2026本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由辽宁省数据局提出并归口。本文件起草单位:集镁科技集团有限公司、中国联合网络通信有限公司沈阳市分公司、沈阳市市场监管事务服务中心(沈阳标准化研究院)。本文件主要起草人:苏振宇、夏云鹏、姜楠、刘春龙、文博识、王磊、勾颖、黄尹、张洋、耿建伟、赵龙、张华刚。本文件发布实施后,任何单位和个人如有问题和意见建议,均可通过来电、来函等方式进行反馈,有关单位将及时答复并认真处理,根据实际情况依法进行评估及复审。归口管理部门和联系电话:辽宁省数据局(辽宁省沈阳市皇姑区崇山中路109号),联系电话标准起草单位和联系电话:集镁科技集团有限公司(沈阳市浑南区创新一路5号联系电话B21/T4416—20261多维影视剧元数据智能标注要求本文件规定了多维影视剧元数据智能标注的要求,面向影视剧及其周边内容在人工与机器协同条件下的元数据生成、标注与管理活动,主要包括元数据的分类、各类元数据字段要求,以及适用于智能标注应用的相关管理要求。本文件适用于电影、电视剧、网络剧、综艺、纪录片、动画片等各类影视剧及其周边信息在元数据层面的标注与管理。本文件不涉及具体算法模型或实现方案,也不涉及影视内容制作、内容审查或播控许可等业务。2规范性引用文件GB/T42755—2023人工智能面向机器学习的数据标注规程GY/T261—2012广播电视数字版权管理元数据规范ISO/IEC9834信息技术标识和编码规范3术语和定义下列术语和定义适用于本文件。3.1元数据metadata描述数据的数据,是对内容元素及其关系、形式、相关使用规则、义务和其他事项的结构化描述,可以嵌入内容元素或与之相关联。[来源:GY/T261—2012,3.1]3.2数据标注datalabeling给数据样本指定目标变量和赋值的过程。[来源:GB/T42755—2023,3.1]3.3多维元数据multi-dimensionalmetadata从多个维度、多层级、多视角对数据对象进行结构化描述与属性标注的元数据集合,用于完整刻画数据的内容、质量、来源、结构、业务、安全、使用场景等综合信息,支撑数据理解、检索、治理、智能应用与全生命周期管理。3.4智能标注intelligentlabeling利用人工智能技术(包括机器学习、自然语言处理、计算机视觉等)辅助或自动化完成数据标注任务的过程。2DB21/T4416—20264基本要求多维影视剧元数据智能标注应采用人工与机器协同的方式开展,做到不漏标、正确标注、理解需求,确保数据质量。5元数据标注的分类要求5.1基础元数据标注基础元数据标注是对影视剧的作品标识类、演职人员类和作品属性类元数据进行标注。5.1.1作品标识类标注作品标识类元数据标注内容分为以下类别:1)源名称:由片方或版权方提供的原始作品名称,用于溯源;2)中文名称:影视剧在中国境内使用的正式名称;3)英文名称:影视剧的英文名称(如有);4)别名:影视剧在不同地区或平台使用的译名、曾用名或宣传名称等,可为多值;5)唯一标识符:系统内部用于唯一标识影视剧作品的编码,应符合唯一性要求;6)平台标识符:公共数据库、行业平台或业务平台中用于标识影视剧作品的内容标识符(如豆瓣、IMDb等,仅为示例),用于跨平台关联;平台类型和范围可根据实际业务需要扩展,示例不构成限5.1.2演职人员类标注演职人员类元数据标注内容分为以下类别:1)导演:影视剧作品的导演信息,可为多个;2)编剧:影视剧作品的编剧信息,包括原创、改编或联合编剧等,可为多个;3)制片人:影视剧作品的主要制片人信息;4)演员:出演影视剧主要角色的演员信息;5)配音演员:为作品主要角色提供配音的演员信息;6)摄影、灯光、剪辑、美术、服装、化妆、音乐等制作人员:根据作品实际情况记录主要制作工种人员信息。5.1.3作品属性类标注作品属性类元数据标注内容分为以下类别:1)主类型:影视剧作品所属的主要类型,如爱情、犯罪、动作、科幻、灾难、纪录片等;2)亚类型:影视剧作品所属的细分类型,如西部、公路、青春、童话等;3)制片国家/地区:影视剧作品制作时所属的国家或地区,可为多值;4)语言:影视剧作品的主要对白语言,可为多语种,包括方言;5)上映日期:影视剧作品的首映日期或平台上线日期等;6)上映地区:影视剧作品进行院线放映、影展放映或上线发布的主要国家、地区或平台;7)片长:影视剧作品的时长信息,单位为分钟;8)集数:影视剧作品的总集数信息,适用于电视剧、网络剧、动画剧集等分集播出的作品;9)剧情简介:对影视剧作品主要情节、核心冲突和整体基调的简要描述;DB21/T4416—2026310)分级信息:影视剧作品在不同国家或地区的官方分级信息;11)出品方:影视剧作品的主要出品或联合出品单位。5.2深度元数据标注深度元数据标注,是标注影视剧作品在内容层面的语义特征和叙事属性,以支持对作品内容的结构化表达。5.2.1故事背景类标注故事背景类元数据标注内容分为以下类别:1)故事发生时间:作品中故事发生的公元纪年、年代、朝代、时期、季节、节日等;2)故事发生地点:作品中故事主要发生的国家、城市、地区、自然环境、人文环境或地标等;3)故事发生期限:作品中故事情节所覆盖的时间长度,如“一夜之间”“数日”“多年”等。5.2.2人物设定类标注人物设定类元数据标注内容分为以下类别:1)主人公设定:主人公在作品中的身份、职业、年龄、家庭角色等基本设定;2)主人公关系设定:作品中主要人物之间呈现的关系类型,如亲属关系、师生关系、合作关系等。5.2.3题材与主题类标注题材与主题类元数据标注内容分为以下类别:1)题材:作品所围绕的主要情节内容或事件类型,如爱情故事、警匪对抗、体育竞技等;2)主题:作品在整体叙事中所表达的核心思想或价值取向。5.2.4风格与情绪类标注风格与情绪类元数据标注内容分为以下类别:1)作品风格:从整体氛围、叙事节奏或表现方式等方面对作品风格进行概括;2)观众情绪:概括作品在整体观感上可能引发的情绪体验。5.3周边元数据标注周边元数据标注,是标注影视剧周边的关联信息,包括宣传推广物料类、官方信息渠道类、口碑与数据类、荣誉与榜单类元数据。5.3.1宣传推广物料类标注宣传推广物料类元数据标注内容分为以下类别:1)拍摄地点:影视剧作品拍摄的主要城市、区域或场景信息;2)花絮:与影视剧作品制作过程相关的幕后资料或花絮信息;3)看点:对影视剧作品中具有吸引力内容或特征的概括性描述;4)经典台词:影视剧作品中被观众广泛认知的代表性台词;5)海报:以视觉化设计为核心的影视剧宣传物料;6)剧照:从影视剧拍摄素材或正片中截取的静态画面;7)预告片:影视剧作品上映或播出前制作的宣传短片;8)原著:影视剧作品创作所依据的原始文本作品;9)原声音乐:为影视剧作品创作或选配的音乐作品集合,包括主题曲、插曲、片尾曲或配乐等。DB21/T4416—202645.3.2官方信息渠道类标注官方信息渠道类元数据标注内容分为以下类别:1)官网地址:由影视剧作品发行方或相关单位设立的官方网站地址;2)流媒体播放地址:影视剧作品在流媒体平台上的播放访问路径。5.3.3口碑与数据类标注口碑与数据类元数据标注内容分为以下类别:1)评分信息:主流影视剧社区平台上的评分数值和评分人数(如豆瓣、IMDb等,仅为示例);2)点赞数量:影视剧作品在公开渠道中获得的点赞数量;3)评论数量:主流影视剧社区平台上的评论数量(如豆瓣、IMDb等,仅为示例);4)评论内容:具有代表性的专业评论或获奖评语等;5)票房数据:影视剧作品在公开渠道披露的票房收入信息。5.3.4荣誉与榜单类标注荣誉与榜单类元数据标注内容分为以下类别:1)获奖情况:影视剧作品在国内外主要颁奖活动中获得的奖项或荣誉;2)榜单排名:影视剧作品入选的榜单及其对应排名信息。5.4扩展元数据标注在实际应用中,元数据标注内容可由使用单位根据自身业务需求或行业特定需求进行定义,但应保持字段命名规范、结构清晰、取值可控,并与本标准规定的总体元数据标注体系保持一致性。扩展元数据标注应符合以下要求:1)不得破坏现有字段体系结构;2)字段命名应符合统一的命名约定,不得与已有字段冲突;3)字段应具备明确的数据类型、含义、取值范围及约束要求;4)扩展字段应可被独立识别,并与标准字段区分;5)扩展字段的启用、禁用或修改过程应记录相应的版本信息;6)新增或删除扩展字段时,应记录修改时间和版本号;7)扩展字段应与标准字段采用统一的数据交换格式。6智能标注要求6.1需求对接与标注方案制定6.1.1需求对接需求对接应符合以下要求:1)明确影视剧元数据标注场景,区分电影、电视剧、综艺、纪录片等不同影视类型标注需求;2)明确标注对象为影视剧基础、深度、周边、扩展元数据,确定各类型元数据字段精度要求、交付格式及交付周期;3)明确影视剧元数据标注特殊规则、边界案例、拒标条件及核心字段标注优先级。6.1.2标注方案制定DB21/T4416—20265标注方案制定应符合以下要求:1)结合影视剧类型特征制定专属标注方案,明确各元数据字段的智能标注算法匹配方式与人工复核要点;2)组织标注团队、质检团队、需求方开展影视剧元数据标注方案评审与专项培训,确保掌握影视行业专属标注规则。6.2数据获取、清洗与入库6.2.1数据获取数据获取应符合以下要求:1)影视剧原始数据来源合法,具备版权及信息使用授权证明,禁止使用无版权、涉密、隐私数据;2)对影视剧中涉及的演职人员个人隐私信息执行脱敏处理,对影视版权信息做加密保护。6.2.2数据清洗数据清洗应符合以下要求:1)剔除影视剧原始数据中损坏、模糊、重复、无效的信息;2)统一影视剧数据格式,对作品名称、时长、集数等字段做标准化命名与单位换算,按影视类型、制作地区完成数据分组与唯一编号;3)校验影视剧元数据核心字段的完整性,对缺失关键信息的影视数据做标记并反馈需求方。6.2.3数据入库将清洗后的影视剧原始数据按类型、批次上传至标注平台,完成影视剧数据加密存储、权限隔离及标注批次分配,建立影视剧数据唯一索引。6.3智能预标注6.3.1执行条件执行条件应符合以下要求:1)具备适配影视剧元数据标注的预训练模型和自动标注算法;2)针对影视剧不同元数据字段设定差异化置信度阈值,基础元数据置信度阈值≥80%可自动标注,深度元数据与周边元数据置信度阈值≥75%可自动标注,低于阈值直接进入人工标注。6.3.2操作规范操作规范应符合以下要求:1)对影视剧数据执行批量智能预标注,自动生成基础元数据、深度元数据、周边元数据等;2)系统自动标记影视剧低置信度标注数据,高亮提示待人工复核;3)禁止直接将影视剧元数据智能预标注结果作为最终交付数据,所有预标注信息均需经人工复核确认。6.3.3结果输出将影视剧元数据预标注结果按影视类型、标注批次同步至人工标注工位,附带各字段标注置信度、智能标注算法日志及低置信度字段标记。6.4人工标注与修正DB21/T4416—202666.4.1人工标注人工标注应符合以下要求:1)标注员需完成影视剧元数据标注专项培训并通过考核,熟悉影视行业术语、各元数据字段规则、边界案例及标注工具操作;2)标注过程中禁止主观臆测,不得随意修改标注信息;3)确保影视剧元数据与内容严格匹配,层级关系、属性信息填写完整,字段序号、命名统一,无乱码、空值及错误格式;4)对无法判断的影视剧元数据信息按规则标记为“未知”或“拒标”;5)实行“一人一任务一批次”的标注模式,禁止交叉篡改、重复标注影视剧元数据。6.4.2修正修正应符合以下要求:1)对影视剧元数据智能预标注结果逐一审定,修正错标信息、补全漏标字段、调整低置信度字段标注结果;2)将影视剧元数据标注中的高频错误反馈至算法侧,优化影视剧专属预标注模型参数。6.5质量检测建立三级质检体系,针对影视剧基础元数据、深度元数据和周边元数据的不同特征设定差异化质检标准,确保影视剧元数据标注整体合格率≥98%。6.5.1一级质检(自检)标注员完成单批次影视剧元数据标注后开展自我检查,重点复核核心字段的标注准确性,修正明显错误,自检合格率要求≥95%。6.5.2二级质检(专检)二级质检应符合以下要求:1)专职质检员按不低于20%的比例对影视剧元数据进行抽检,对低置信度、标记为“未知”或“拒标”的影视剧数据执行全检;2)质检内容涵盖:影视剧各元数据字段标签准确性、影视类型与题材匹配度、演职人员信息完整性、数据格式统一度及合规性;3)对质检发现的错误影视剧元数据做分类记录,退回标注员限期修正,并统计各标注员的错误类型与频次。6.5.3三级质检(抽检)三级质检应符合以下要求:1)项目负责人对影视剧元数据标注结果进行最终抽检,基础元数据执行100%全检,深度元数据和周边元数据抽检比例不低于30%,整体合格率达标后方可进入交付环节;2)对院线电影、热门电视剧等重点影视项目的元数据标注结果执行100%全量质检。6.6数据封装与交付6.6.1数据封装数据封装应符合以下要求:DB21/T4416—202671)按需求输出影视剧元数据标注结果,支持JSON、XML、CSV、TXT等常用格式,适配影视行业数据管理平台的对接要求;2)标注结果中需包含元数据字段标签、标注置信度、标注人、标注时间、批次信息。6.6.2交付交付应符合以下要求:1)交付包
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年湖南省永州市城管协管招聘笔试备考题库及答案解析
- 2026年焦作市中站区社区工作者招聘笔试参考题库及答案解析
- 2026年武汉市江汉区社区工作者招聘笔试备考试题及答案解析
- 2026年娄底市娄星区社区工作者招聘笔试参考试题及答案解析
- 2026年河池市金城江区社区工作者招聘笔试参考题库及答案解析
- 2026年莆田市秀屿区社区工作者招聘笔试参考题库及答案解析
- 课题二 化学实验的绿色追求教学设计高中化学人教版选修6实验化学-人教版2004
- 沪教版 (五四制)四年级下册小数加减法的应用教案设计
- 辽宁沈阳中考历史试卷
- 化学八年级全册课题3 水的组成教学设计及反思
- 2026年山西省政府采购从业人员核心备考题库(含典型题、重点题)
- 鼻咽癌的课件
- 民法典继承编讲座课件
- 中国电气装备集团储能科技有限公司招聘笔试题库2025
- 雨课堂在线学堂《中国建筑史-元明清与民居》课后作业单元考核答案
- 机场助航灯光安装方案
- 初中七年级词性综合测试题及解析
- 肿瘤的预防教学课件
- 绿化工安全教育培训课件
- 《安全经济学》课件(共十一章)
- 化疗病人的胃肠道护理
评论
0/150
提交评论