版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章人工智能数据工程概述《人工智能数据工程基础》这门课程面向人工智能数据工程岗位群,围绕“需求分析→数据设计→数据获取→数据预处理→数据标注→质量控制→数据交付→迭代优化”的全生命周期闭环,系统讲解人工智能数据工程的核心概念、数据来源与分类、数据集作用、数据产品工程化生产、开源数据利用、多源数据获取、工具平台应用与质量评估方法。课程简介教学目标课程简介课程以图像、音频、文本三类典型数据集生产项目为主线贯穿,强调规范化流程、可复现操作、过程留痕、质量验收与成果交付,帮助同学们形成“懂数据、会获取、能处理、能标注、会质检、可交付”的人工智能数据工程基础能力,为后续学习大模型数据工程、多模态数据处理、智能体数据支撑与数据资产化应用奠定基础。教学目标课程简介教学内容人工智能数据工程概述第一章数据产品的工程化生产第二章开源数据的利用与整合第三章数据获取第四章课程简介教学内容图像处理与数据集生产案例第五章音频处理与数据集生产案例第六章文本处理与数据集生产案例第七章数据工程的机遇、挑战与未来第八章教学目标第一章人工智能数据工程导论理解人工智能数据工程的核心概念、典型流程与在AI项目中的作用,形成全局视角掌握数据来源、数据模态、数据类型/类别等关键术语,能结合场景进行识别与举例理解数据标注、数据集与模型训练评估之间的关系,明确标注在闭环中的定位教学目标初步认识数据服务产业与岗位分工,了解数据标注与数据工程相关职业方向能描述一个小型数据工程项目的生命周期与关键交付物(需求、规范、数据集、质检与验收)素养导向:培养数据意识,重视数据来源合法合规、数据代表性与可追溯性第一章人工智能数据工程导论教学重点与要求重点:关于“数据来源—数据分类—数据标注与数据集-数据工程闭环”的整体框架。难点:将抽象概念转化为对真实数据生产流程的整体理解。要求:了解人工智能数据工程的基本框架,理解数据来源、数据分类与数据标注之间的关系,掌握用专业术语描述一个基础数据生产闭环的能力。第一章人工智能数据工程概述第一章人工智能数据工程概述人工智能数据工程简介第一节数据的来源第二节数据的分类第三节数据标注与数据集第四节数据产品的工程化生产第五节数据工程的趋势第六节人工智能数据工程简介0本节内容一、人工智能数据工程的涵义一、人工智能数据工程的涵义二、人工智能数据工程师人工智能数据工程的概念(一)一、人工智能数据工程的涵义(一)人工智能数据工程的概念多源数据图像/文本语音/视频→模型支撑训练/评估部署→人工智能数据工程AI
Data
Engineering系统化、工程化地设计、构建和维护高质量数据集,支撑AI模型训练、评估与部署什么是人工智能数据工程人工智能数据工程的概念(一)一、人工智能数据工程的涵义人工智能数据工程与大数据技术(二)(二)人工智能数据工程与大数据技术内涵比较大数据技术是指海量数据的存储、治理、分析、挖掘与展现等系列技术人工智能数据工程是指为机器学习设计、生产数据集的工程技术与实施方法,包括设计、采集、整理、标注、质量控制、运维、营销与工具开发等人工智能数据工程VS.
数据工程(二)人工智能数据工程与大数据技术内涵比较人工智能数据工程与大数据技术在数据存储、管理等方面有一些技术重叠,但在数据处理方法、加工目的和采集方式上是不同的(二)人工智能数据工程与大数据技术内涵比较大数据是生产、生活中的物联网、互联网、信息系统产生和存储下来的数据;而许多数据集里的数据是为了训练特定用途的机器学习模型人为专门在多种条件下采集(拍摄、录音、录入、挑选、合成、爬取等)、整理、制作出来的目标、重点和价值不同(二)人工智能数据工程与大数据技术核心区别(二)人工智能数据工程与大数据技术联系与协同(二)人工智能数据工程与大数据技术图解大数据的“大”(二)人工智能数据工程与大数据技术人工智能数据工程的概念(一)一、人工智能数据工程的涵义数据集的工程化生产与生命周期(三)人工智能数据工程与大数据技术(二)(三)数据集的工程化生产与生命周期核心:工程化建设高质量数据集需求分析与规划1明确任务目标制定数据方案数据采集2多源多模态获取来源真实可追溯清洗预处理3去重去噪统一格式与结构标注与规范4设计标签体系按规则完成标注质控与评估5检查准确性一致性和完整性存储治理运维6版本权限合规持续迭代优化全生命周期:需求→采集→处理→标注→质控→治理与优化一、人工智能数据工程的涵义大模型时代对数据的新需求与挑战(四)人工智能数据工程的概念(一)数据集的工程化生产与生命周期(三)人工智能数据工程与大数据技术(二)(四)大模型时代对数据的新需求与挑战(四)大模型时代对数据的新需求与挑战需求升级:规模更大、质量更高、多样性更强、结构更复杂核心挑战:多模态数据处理复杂、来源复杂、质量参差、合规要求高工程目标:把原始数据加工成可训练、可评估、可部署的数据资产原始数据→工程化处理→高质量数据集→AI模型应用一、人工智能数据工程的涵义具身AI与物理AI的新需求与挑战(五)大模型时代对数据的新需求与挑战(四)人工智能数据工程的概念(一)数据集的工程化生产与生命周期(三)人工智能数据工程与大数据技术(二)(五)具身AI与物理AI的新需求与挑战0本节内容一、人工智能数据工程的涵义二、人工智能数据工程师二、人工智能数据工程师三大要素算法/算力/数据→行业价值数据准备常消耗80%以上资源←人工智能数据工程师面向AI数据全生命周期的复合型技术人才,典型工作任务包括数据设计、获取、处理、标注、质检、治理、工具开发与流程优化等二、人工智能数据工程师岗位的重要性核心定位:懂数据+懂工程+懂AI应用岗位角色数据标注工程师数据采集分析师数据质量工程师数据治理专家关键技能数据采集与处理编程与工具使用机器学习基础隐私与合规核心职责需求分析与设计数据获取与加工质量控制与评估流程优化与协同服务对象数据服务企业模型研发团队行业智能化项目数据平台与交易场景→处理/标注→质控与治理→交付支持AI→训练/评估/部署采集二、人工智能数据工程师核心定位连接“数据资源”与“AI落地”的关键桥梁:AI产业催生了大量数据采集、标注、质检、治理与平台服务需求数据工程师既要理解数据产品生产流程,也要理解模型训练对质量、多样性、结构化与合规性的要求数据需求→工程实施→数据产品→AI应用面向多行业模型训练、评估、优化与落地他们不是单一操作人员,而是能够面向真实场景组织数据、改进流程、支撑AI系统开发与部署的应用型人才专业画像二、人工智能数据工程师第一章人工智能数据工程导论人工智能数据工程简介第一节数据的来源第二节数据的分类第三节数据标注与数据集第四节数据产品的工程化生产第五节数据工程的趋势第六节数据的来源0本节内容一、典型大模型所使用数据的主要来源二、通用数据类别三、专用数据类别一、典型大模型所使用数据的主要来源一、典型大模型所使用数据的主要来源典型大模型所使用数据的主要来源从海量互联网文本到对齐与多模态数据,形成“预训练语料+高质量知识源+反馈优化”的数据体系原始互联网数据网页/书籍/百科/论文→模型训练对齐/推理/多模态←来源广来源广(一)一、典型大模型所使用数据的主要来源体量大、类型多(二)典型来源:公开网页+高质量网络文本+书籍语料+百科知识+学术/专有数据CommonCrawl公开网页抓取数据覆盖数十亿网页规模大、来源广WebText2筛选高质量网络文本更贴近优质内容分布噪声相对更低Books1/2书籍语料丰富风格与叙事更完整提升长文本能力Wikipedia结构化知识较强主题覆盖广有助于事实性表达学术与专有数据论文、新闻、行业资料增强专业知识提升特定场景能力GPT数据演进:单一长文本→高质量网页语料→互联网/书籍/百科混合→人类反馈对齐→多模态→路由与推理训练统一系统体量大、类型多一、典型大模型所使用数据的主要来源数据工程视角:海量来源、质量过滤与训练前处理预训练数据规模极大,原始数据可接近PB量级关键处理:文件管理、质量过滤、冗余去除、隐私消除、词元切分核心目标:把“能收集到的数据”加工成“可用于训练的数据资产”原始数据→过滤与清洗→分词多模态扩展:文本之外,还会逐步加入图像、语音、视频,以及人类反馈与偏好数据处理复杂一、典型大模型所使用数据的主要来源0本节内容一、典型大模型所使用数据的主要来源二、通用数据类别三、专用数据类别二、通用数据类别语言与文字(一)二、通用数据类别(一)语言与文字语言本质上是人类用来表达意思、交流思想、传递知识的符号系统。它最早主要表现为口语,依靠声音、语调、节奏来表达信息。语言不仅能说“是什么”,还能表达情感、态度、关系、想象、规则和文化。不同民族、不同地区在长期历史发展中形成了大量不同的语言和方言,所以人类语言本身就具有多样性、复杂性和强烈的文化属性(一)语言与文字文字可以看作是把语言记录下来的一种视觉符号系统。它把原本转瞬即逝的口语,变成可以保存、传播、整理、研究和积累的内容。没有文字,知识更多依赖记忆和口耳相传;有了文字之后,人类才可能大规模积累法律、历史、文学、科技、教育和宗教等复杂知识。也就是说,语言让人能够交流,文字让文明能够沉淀语言与文字(一)二、通用数据类别主要语言与文字汇总(二)(二)主要语言与文字汇总序号语言与文字重要性定位使用人数公开网页语料大模型数据建设难点1英语当前全球大模型的核心基础语种约15.15亿CC41.06%/W349.5%数据太多但噪声也大;去重、版权、低质内容过滤压力很高2中文普通话超大用户规模,政务、教育、产业知识价值高约11.80亿CC4.99%/W31.3%分词复杂;简繁转换;方言口语与书面语差异大;高质量标注成本高3西班牙语横跨欧洲与拉美,跨国传播力强约5.59亿CC4.66%/W36.0%区域变体多;拉美国家表达差异明显;跨地区术语统一难4日语高质量网络文本、工业文档、文化内容丰富约1.25亿CC5.72%/W35.0%书写系统混合;省略现象多;口语与书面表达差异明显(二)主要语言与文字汇总序号语言与文字重要性定位使用人数公开网页语料大模型数据建设难点5德语欧洲工业、制造、科研和企业文档价值高约1.35亿CC5.98%/W36.0%复合长词多;专业文档密集;术语切分与领域建模要求高6法语欧洲、非洲、加拿大多区域覆盖约3.12亿CC4.61%/W34.5%法语区跨度大;非洲法语资源质量不均;平行语料整理难7俄语东欧与欧亚重要知识语言,技术社区文本较多约2.55亿CC6.49%/W33.6%历史资料多样;语体差异大;跨地区语料清洗与时效控制难二、通用数据类别人类的语言规律知识和技术规模巨大形式多样网页、对话文本、书籍是大模型训练中最常见的通用数据类别,蕴含语言规律、知识与技术,是人工智能数据工程需要重点处理的重要资源。网页内容与特点多样、广泛、半结构化、规模巨大重要性:语言模型训练、搜索索引、知识图谱代表性数据集CommonCrawlWikipediaDumps搜狗语料库/THUCNews对话文本内容与特点互动性强、口语化、依赖上下文重要性:聊天机器人、客服、情感分析代表性数据集OpenSubtitlesDailyDialogPersona-Chat/LCCC书籍内容与特点文本连贯、文体多样、质量较高重要性:预训练、知识获取、风格分析代表性数据集BookCorpusProjectGutenbergBooks3/中文古籍与全文库通用数据在大模型中的作用链语料积累→语言规律学习→知识与上下文建模→支撑预训练与应用工程提示:这些数据往往需要经过采集、清洗、去重、隐私处理、分词/切分、质量过滤等步骤,才能变成可用于训练和评估的高质量数据集。0本节内容一、典型大模型所使用数据的主要来源二、通用数据类别三、专用数据类别三、专用数据类别专业数据简介(一)三、专用数据类别(一)专用数据简介获取处理难高度专业性极高实用价值专业数据是指金融、医疗、制造、农业、商业、科研等领域在业务、实验和运营中形成的专有数据,专业性强、应用价值高,是行业智能化的重要基础。专业数据的工程价值专业场景→行业知识沉淀→数据治理与合规→模型训练与评估→智能应用工程提示:专业数据通常具有强领域知识、访问受限、隐私与合规要求高、标注成本高等特点,人工智能数据工程师需要把行业知识、数据治理和模型需求结合起来专业数据简介(一)三、专用数据类别专用数据分类(二)(三)专用数据分类金融行业数据交易、财报、宏观指标、信用数据应用:风险评估、量化分析、决策支持代表数据YahooFinanceAPIWind/巨潮资讯/东方财富医疗行业数据病历、医学影像、基因组、公共卫生应用:辅助诊断、医学研究、健康分析代表数据MIMIC-IIINIHX-ray/天池医疗/CBM制造业数据传感器、产线状态、质检、供应链、设计应用:预测维护、异常检测、质量优化代表数据SECOMNASA发动机/天池工业AI农业数据作物生长、遥感影像、气象、农情监测应用:产量评估、灾害监测、精准农业代表数据FAO数据库Sentinel/农业统计年鉴商业数据销售、库存、财务、人力、用户行为应用:运营优化、推荐系统、用户分析代表数据Kaggle销售MovieLens/天池用户行为科研数据基因序列、天文观测、实验与模拟应用:科学发现、模型验证、创新代表数据GenBank1000Genomes/SDSS/FAST第一章人工智能数据工程导论人工智能数据工程简介第一节数据的来源第二节数据的分类第三节数据标注与数据集第四节数据产品的工程化生产第五节数据工程的趋势第六节数据的分类0本节内容一、数据的模态二、数据的类型三、数据的类别一、数据的模态四、数据的模态、类型与类别三者的关系一、数据的模态数据的模态数据的感知方式或信息传递渠道即信息是“怎样被看到、听到、读到、测到”的图像、视频、音频、语音、文本、传感数据➜多模态系统接收/理解/融合/生成➜核心理解:模态=信息形式/感知通道看到的图像视频听到的音频语音读到的文本符号测到的→→→→传感器时序信号数据模态的涵义文本模态自然语言代码、日志评论、文档图像模态照片、医学影像遥感图手写数字音频/语音语音录音环境声音音乐视频模态监控视频短视频动作视频时序/传感器温度、心率加速度IoT数据图结构模态社交网络图知识图谱分子结构图多模态文本+图像语音+视频图像+传感器文本+语音+视频一、数据的模态数据模态的类型一、数据的模态多模态数据与多模态系统多模态系统的典型应用同时处理多种模态,完成理解、融合、转换与生成典型场景:自动驾驶、视觉问答、文生图、图生文、语音识别、视频生成→文本→图像→语音→视频→传感器→融合生成如GPT-4系列、Gemini等多模态大模型可实现跨模态理解与生成→0本节内容一、数据的模态二、数据的类型三、数据的类别二、数据的类型四、数据的模态、类型与类别三者的关系二、数据的类型数据类型(DataType)是从存储形式、数据结构、统计特性等视角对数据的技术性划分。数据的类型按存储形式划分:结构化数据、半结构化数据、非结构化数据从数据结构视角划分:基本类型、构造类型、引用/指针类型、抽象数据类型按统计/取值形式划分:数值型、分类型、布尔型、时间序列型、空间/时空型按存储形式划分的数据类型(一)二、数据的类型(一)按存储形式划分的数据类型数据存储形式:结构化→半结构化→非结构化结构化数据固定字段与类型表格/数据库模式明确SQL检索高效数据库/Excel/CSV半结构化数据有标签或键值对结构可扩展、较灵活适合交换与共享JSON/XML/HTML/日志非结构化数据无固定模式需解析理解内容占现实数据大多数文档/图片/音频/视频常见工程处理:非结构化/半结构化→清洗、解析、抽取→结构化特征为什么重要?人工智能训练前,往往需要把原始数据转成便于统计、检索、建模的形式。强调“数据的组织结构与存储格式”决定了数据如何被管理、查询、处理与分析(二)按存储形式划分的数据类型结构化数据1.结构化数据结构化数据(Structured
Data)是按照预定义的模型或格式组织的数据,存储在关系型数据库或电子表格中,具有严格的结构和数据类型。数据之间的关系明确,易于用SQL等查询语言进行检索和操作,具体体现在:固定的字段和数据类型高度组织化、易于检索和分析1.结构化数据关系型数据库表的每一列(字段)都有明确的涵义和数据类型,数据之间的关系通过表的结构(如主键、外键)来定义。典型数据库管理系统:Oracle、SQLServer、Access、MySQL等。员工ID姓名部门职位
入职日期薪水100110021003张三李四王五2020-03-152019-06-222021-01-10市场部技术部财务部市场专员开发工程师会计80001200090001.结构化数据电子表格(Excel
文件)中的数据按照行和列的结构存储,具有明确的字段和数据类型,如某超市的商品库存表:商品编号商品名称分类库存数量进价售价A001A002B003苹
果香
蕉大
米3.002.504.00水果水果粮油5.004.006.001502005001.结构化数据
CSV
文件(逗号分隔值)是一种简单的文本格式,用于存储表格数据,每一行代表一条记录,字段之间通过逗号或其他分隔符统一分隔,用逗号分隔的CSV文件内容示例:员工ID,姓名,部门,职位,入职日期,薪水1001,张三,市场部,市场专员,2020-03-15,80001002,李四,技术部,开发工程师,2019-07-22,120001003,王五,财务部,会计,2021-01-10,9000(二)按存储形式划分的数据类型结构化数据非结构化数据2.非结构化数据非结构化化数据(Unstructured
Data)是没有预定义的模型或数据结构的数据,无法直接存储在关系型数据库中的数据。内容和格式各异,缺乏统一的组织形式,需要通过自然语言处理、图像处理等技术进行解析和理解。特点缺乏固定结构:数据没有预定义的格式,内容多样难以直接检索和分析:需要特殊处理和分析,如文本分析、图像识别等数据量庞大:非结构化数据在大数据时代占据了很大比例2.非结构化数据非结构化数据具体类型文本文档:Word文档、PDF
文件、TXT本等格式,内容没有固定的格式和结构,需要进行文本解析和自然语言处理才能提取有用的信息多媒体文件:图片(JPEG、PNG)、音频(MP3、WAV)、视频(MP4、AVI)等类型社交媒体内容:自由文本,如图片、表情、话题标签等非结构化信息组成电子邮件正文:非结构化的文本,需要文本分析技术来提取关键信息(二)按存储形式划分的数据类型结构化数据非结构化数据半结构化数据3.半结构化数据半结构化数据(Semi-Structured
Data)是介于结构化数据和非结构化数据之间的数据,数据不遵循关系型数据库的表格形式,但包含标记、标签或键值对等元数据,用于描述数据的层次结构和属性。具有一定的灵活性,同时保留了一定的组织性。特点具有可变的结构:数据的结构不是固定的,可以根据需要扩展或修改包含元数据:使用标签、键值对等方式描述数据的涵义和层次关系易于交换和共享:常用于数据交换格式,适合在不同系统之间传输3.半结构化数据
XML(可扩展标记语言)描述的半结构化数据使用标签来描述数据的结构和内容,可以嵌套和扩展,适合表示层次化的数据。例如一本书的描述<book>
<title>数据结构与算法分析</title>
<author>张伟</author>
<publisher>清华大学出版社</publisher>
<pricecurrency="CNY">59.80</price></book>3.半结构化数据
JSON(JavaScript对象表示法)使用键值对和数组来表示数据,具有层次结构,易于人和机器读取。例如一名学生的信息描述{"studentID":"2018001","name":"李明","major":"计算机科学","courses":[{"courseName":"数据结构","grade":85},{"courseName":"操作系统","grade":90}]}3.半结构化数据
HTML(超文本标记语言)使用标签来描述网页的结构和内容。例如:<html><head><title>公司简介</title></head><body><h1>欢迎来到我们的公司</h1><p>我们专注于提供高品质的服务。</p></body></html>3.半结构化数据日志文件描述的半结构化数据通常有一定的格式,如时间戳、日志级别、消息内容,但不严格遵循数据库的结构。例如下面关于服务器的日志记录的描述[2023-08-0110:15:23]INFO:User'admin'loggedinfromIP0[2023-08-0110:17:45]ERROR:Failedtoopenfile'/var/data/data.csv'[2023-08-0110:20:00]INFO:Scheduledbackupcompletedsuccessfully从数据结构视角划分的数据类型(二)二、数据的类型按存储形式划分的数据类型(一)(二)从数据结构视角划分的数据类型从程序设计和数据结构的视角,数据类型不仅仅是“整数、浮点数”这样的名字,更重要的是它们在内存中的组织方式以及允许的操作,可分为:基本(原子)数据类型构造(结构化)数据类型引用/指针类型抽象数据类型(ADT)从“单个值”的基本类型,到“组合值”的构造类型,再到“逻辑结构”的抽象数据类型,形成了一个逐步抽象和丰富的数据类型体系。(二)从数据结构视角划分的数据类型《程序设计》《数据结构》“数字化”的实现方法与技术《计算方法》从“单个值”到“复杂逻辑结构”的逐层抽象看什么基本类型:看单个值如何表示构造类型:看如何组合ADT:看逻辑规则做什么程序实现:变量、记录、数组系统设计:链表、树、图工程抽象:栈、队列、映射引用/指针使动态结构成为可能ADT强调“逻辑”不强调实现启示:数据标注系统实现时,要同时考虑逻辑结构、内存组织和存储方式逻辑结构+操作集合栈、队列、树、图、集合值是地址或对象引用把多个内存块连接起来2.构造类型数组、结构体、字符串等多个基本类型组合1.基本类型整型/浮点/字符/布尔3.
引用/指针类型4.抽象数据类型从数据结构视角划分的数据类型(二)二、数据的类型按存储形式划分的数据类型(一)按统计/取值形式划分的数据类型(三)数值型(numerical):连续型(continuous)(三)按统计/取值形式划分的数据类型分类型/类别型(categorical):无序名义型(nominal)、有序类型(ordinal)布尔型(boolean):如是否违约(是/否)、是否点击(0/1)等时间序列型(timeseries):带时间索引的一维序列空间/时空型:带经纬度、空间坐标或轨迹(三)按统计/取值形式划分的数据类型从“值的表现形式”理解数据:能算?能分组?能排序?能随时间或空间变化?数值型连续型:温度、价格、长度离散型:计数、次数、件数分类型名义型:红/绿/蓝有序型:差/一般/好/优布尔型两种取值:是/否,0/1常见于点击、违约、通过与否时间序列型带时间索引的一维序列:每分钟心率、每天销量、每秒温度空间/时空型带位置、坐标或轨迹:经纬度点、车辆轨迹、气象格点建模启示:数值型常做回归/统计;分类型常做分类与编码;
时间序列关注趋势;时空型关注位置、邻近关系与轨迹演化核心作用是:决定“怎么检查、怎么表示、怎么建模、怎么评价、怎么标注”它是数据工程与机器学习之间的“接口层”,能显著减少数据处理与建模中的常见错误小结一、按存储形式划分结构化数据固定字段和数据类型模式清晰,关系明确易于用SQL检索、统计和分析示例:数据库表、Excel、CSV半结构化数据有一定结构,但不固定使用标签、键值对、元数据描述层次,便于交换与共享如:XML、JSON、HTML、email非结构化数据示例:文档、图片、音频、视频、社交媒体内容没有预定义模型,内容形式多样难以直接检索,需要解析与理解通常规模大、占比高三、按统计/取值形式划分数值型连续型:温度、价格、长度离散型:计数、次数、件数分类型/类别型名义型:颜色、品牌、部门有序型:满意度、学历等级其他常见取值形式布尔型:是/否,0/1时间序列型:每天销量、每分钟心率空间/时空型:经纬度、轨迹、气象格点数据二、从数据结构视角划分基本(原子)数据类型整型、浮点型、字符型、布尔型等通常不可再分,是构造复杂数据的基础单元构造(结构化)数据类型多个基本类型按一定结构组合如数组、结构体、联合、字符串等引用/指针类型值是地址或对象引用,而不是数据本身可连接多个内存块,构建链表、树、图等线性表、栈、队列、树、图、集合、映射抽象数据类型(ADT)数据类型核心认识核心:同一份数据可以从存储形式、数据结构、统计取值三个视角来理解。实践中常把半结构化和非结构化数据转化为结构化表示,便于统计分析与机器学习。0本节内容一、数据的模态二、数据的类型三、数据的类别三、数据的类别四、数据的模态、类型与类别三者的关系三、数据的类别图像分类猫/狗/鸟按视觉内容分配类别情感分析正面/中性/负面按情感倾向分配类别垃圾邮件识别垃圾邮件/正常邮件按是否为垃圾邮件分配类别意图识别查天气/查路线点外卖/闲聊数据类别(标签集合)从人工智能任务/标签视角理解“类”与“标签集合”数量巨大质量要求处理繁琐在特定任务或场景下为数据集样本划分的“标签集合”的类型:任务强相关:换一个任务,类别定义通常就要重来类别有限离散:常见有二分类、多分类、多标签工程落地:标注员打下的标签,最终会成为模型学习的类别y关键词:任务目标·标签集合·类别数·标注结果→模型类别0本节内容一、数据的模态二、数据的类型三、数据的类别四、数据的模态、类型与类别三者的关系四、数据的模态、类型与类别三者的关系四、数据的模态、类型与类别三者的关系分类数据的模态、类型与类别三者的关系从“感知形式、工程特性、任务标签”三个维度共同刻画数据看到/听到/读到/测到→猫/狗正面/负面垃圾/正常←同一条数据,可以同时具有“模态+类型+类别”三重属性数据模态回答:这是什么信号?文本、图像、音频视频、传感器、多模态感知形式/呈现通道数据类型回答:工程上怎样处理?结构化/半结构化/非结构化数值型/分类型/时序型/图结构型工程特性/处理方式数据类别回答:任务中属于哪一类?猫/狗,正面/负面垃圾/正常,查天气/查路线任务标签/输出结果→→同一数据先看模态再定类型最后给类别→→→模态=图像类型=非结构化图像数据类别=猫•模态告诉我们:它通过什么通道被感知和采集•类型告诉我们:在存储、处理和建模时应用什么方法•类别告诉我们:在具体任务下,这条数据最终属于哪一类•三者不是同义词,而是共同描述同一样本的三个维度数据文件6-1.jpeg从不同视角看数据:洞察获取处理应用维度模态类型类别问的是什么?数据以什么形式出现?来自哪个感知通道?四、数据的模态、类型与类别三者的关系数据在结构、存储、统计上是什么形态?在具体任务下,我们把样本分成哪几种情况?典型划分示例文本、图像、音频、视频、传感器、多模态…结构化/半结构化/非结构化;数值/类别/时间序列/图结构…猫/狗/鸟;正面/中性/负面;垃圾/正常…在本书中的主要用法介绍“文本标注/图像标注/音频标注”等章节时用讲数据预处理、特征工程、存储格式时用讲标注体系设计、分类任务、标签分布时用数据的模态、类型与类别比对表第一章人工智能数据工程导论人工智能数据工程简介第一节数据的来源第二节数据的分类第三节数据标注与数据集第四节数据产品的工程化生产第五节数据工程的趋势第六节数据标注与数据集0本节内容一、数据标注的概念与作用二、数据标注的一般流程三、常见数据标注类型与示例一、数据标注的概念与作用四、数据集的基本概念与结构五、数据标注与数据集的关系数据标注的含义(一)一、数据标注的概念与作用(一)数据标注的含义原始数据图片/文本语音/视频→→带答案数据可训练/可评估在任务目标和标注规范约束下,为原始数据添加标签或结构化信息,形成可供模型训练与评估的“带答案数据”。数据标注的含义核心作用:把人能理解的含义转成机器可学习的标签数据与标注(一)数据标注的含义告诉模型“有什么、在哪里、边界到哪儿”告诉模型“属于哪类、什么情感、提到了哪些实体”告诉模型“说了什么、谁在说、何时发生了什么”告诉模型“各模态表达什么、是否一致、如何对齐”图片标注文本标注语音/视频标注多模态标注原始数据→人工理解与规范表达→数据标注→数据集→模型基本标注含义(一)数据标注的含义案例:把商品评论标成情感标签文本内容:手机很好用,屏幕清晰、运行流畅,下次还会再买!情感标签:正面(positive)大量类似标注后,可构建“情感分析数据集”,训练模型自动判断新评论是好评、差评还是中性。评论→正面标签→数据集单模态是基础,多模态标注正成为复杂真实场景中的关键能力。基本标注案例数据标注的含义(一)一、数据标注的概念与作用数据标注的作用(二)(二)数据标注的作用对大多数监督学习任务来说,模型学习往往从“数据+正确答案”开始:数据:原始样本(图片、文本、语音、视频、多模态数据等)正确答案:标签(类别、位置、情感、转写文本等)当数据规模巨大、质量严苛的时候,数据标注成为一件非常重要、繁琐、成本巨大的工作;还可能需要专业领域的知识才能“标注”。数据标注的作用给模型提供学习目标:让模型知道“什么是对的”把任务变得可训练:把“看懂图片/读懂文本”变成可计算的标签问题支撑评估与改进:有了统一标签,才能客观比较不同模型或不同版本效果(二)数据标注的作用数据标注的含义(一)一、数据标注的概念与作用数据标注的作用(二)高质量数据标注的重要性(三)(三)高质量数据标注的重要性从工程实践来看,标注质量往往决定了模型效果的上限:数据集质量高标注质量好模型效果更稳定、更可靠数据噪声大标注质量差即使模型再复杂,性能也会明显受限直观理解:模型就像学生,数据标注就像“标准答案”。如果答案本身经常出错、规则不一致,学生就很难学对数据标注的含义(一)一、数据标注的概念与作用数据标注的作用(二)高质量数据标注的重要性(三)数据标注的困难性(四)(四)数据标注的困难性不只是打标签,是高成本、高要求、强闭环系统工程难点不只在“做得多”更在于:做得准·做得一致·做得可复现1.海量数据样本常达万级、百万级还伴随规范制定、过程管理质检、返工与持续迭代2.专业门槛高医疗、金融、法律、工业等需要领域知识判断培训成本高,专家资源稀缺3.多模态对齐复杂不仅判断“是什么”还要判断“和什么对应”涉及时间、空间、语义匹配4.推理与对齐更难要标答案、理由、偏好还要区分安全性、帮助性主观性更强,规则更细必须强调标注规范、试标注、培训、质检、复核与迭代闭环数据工厂数据工程师标注员专业标注工具领域专家经济投入0本节内容一、数据标注的概念与作用二、数据标注的一般流程三、常见数据标注类型与示例二、数据标注的一般流程四、数据集的基本概念与结构五、数据标注与数据集的关系二、数据标注的一般流程巨量数据的标注繁琐、复杂采用分工协作、流程化的工程闭环生产方式先定义任务,再规范标注,最后构建可用数据集,并在反馈中持续优化1需求分析与任务定义明确要解决的问题与输出形式↘2设计标注方案与规范确定标签体系、边界规则与特殊情况处理↙3选择或开发标注工具按图像、语音、视频等任务匹配工具↘4培训与试标注先小批量试做,再校正规范和理解差异↙5正式标注与过程监控记录进度、日志与标注表现,推进批量生产↘6质检与质量控制抽检、双标、多标、复核,必要时返工↙试标注→质检→反馈→修订规范→再标注流程本质:不是一次性作业,而是面向质量与一致性的工程闭环7数据整理与数据集构建统一结构,划分训练/验证/测试并撰写说明文档↺0本节内容一、数据标注的概念与作用二、数据标注的一般流程三、常见数据标注类型与示例三、常见数据标注类型与示例四、数据集的基本概念与结构五、数据标注与数据集的关系数据标注的主要类型(一)三、常见数据标注类型与示例(一)数据标注的主要类型数据类型典型任务常见标注形式图像分类、检测、分割类别标签|矩形框|多边形|关键点坐标文本分类、分词、实体识别类别标签|每字/词标签|实体范围语音语音转写、情感识别对应文本|情绪标签|说话人标识视频行为识别、目标跟踪行为类别|时间段|轨迹与位置标签多模态图文匹配、字幕对齐、视觉问答匹配标签|对应关系|问答标注看数据:图像、文本、语音、视频、多模态定任务:分类、检测、识别、对齐、问答选标注形式:标签、边框、范围、时间段、对应关系数据标注的主要类型(一)三、常见数据标注类型与示例图像数据标注(二)(二)图像数据标注
AI“视觉”是指看懂、理解现实世界。难点:规模大、类型多、识别难、理解深、标准难统一、质量难控制。数据标注的主要类型(一)三、常见数据标注类型与示例图像数据标注(二)文本数据标注(三)(三)文本数据标注文本分类序列标注情感与立场标注文本匹配与问答标注文本分类为句子、段落或文档指定类别。体育财经科技娱乐“今晚的比赛非常精彩”体育序列标注对文本中的字或词赋予标签。张三在北京的清华大学工作。人名地名机构典型任务:分词/词性标注/命名实体识别情感与立场标注判断文本表达的情绪或立场。赞同中立反对“这部电影太棒了,我非常喜欢!”积极文本匹配与问答标注判断两个文本是否匹配,或问答是否正确。问题:谁是中国的首都?A.北京正确B.上海错误难点:规模大、语种多、类型多数据标注的主要类型(一)三、常见数据标注类型与示例图像数据标注(二)文本数据标注(三)语音与音频数据标注(四)(四)语音与音频数据标注语音(speech):特指人说话的声音,有人类语言内容,可转写成文字,并承载语义、说话人、情绪等信息音频(audio):范围更广,凡是声音都算,如音乐、环境声、机器声、动物声、混音等语音转写(ASR标注)说话人标注情感和状态标注事件与时间轴标注根据语调、语速、能量、韵律和说话方式,判断说话人的额状态。将语音中说出的内容转写成文字,尽量准确反映原话,包括数字、专有名词等。在多人说话场景中,标记不同于音频片段分别属于哪位说话人。在时间轴上标记某个声音事件的起止位置。高兴平静生气悲伤狗叫汽车鸣笛玻璃破碎难点:种类多、方言口语复杂视频与时序数据标注(五)三、常见数据标注类型与示例(五)视频与时序数据标注视频=空间画面+时间演化视频级分类走路跑步骑车为整段视频指定一个活动类别目标跟踪标注在连续帧中持续标记同一目标行为识别标注标出某一时间段内发生了什么行为异常事件标注在监控视频中标记风险事件和告警时刻打架摔倒入室盗窃安全事件数据量巨大,比静态图像更复杂视频与时序数据标注(五)三、常见数据标注类型与示例多模态数据标注(六)(六)多模态数据标注脑跨模态理解需要同时理解图像、文本、语音和视频。多数据对齐要判断不同模态之间是否对应、是否一致。规则更复杂既要看各模态内容,也要判断它们之间的关系。难点:多模态数据标注需要更高的理解能力图像文本语音视频图片+文字说明是否匹配?白色运动鞋匹配视频+字幕+音频是否对齐?字幕与音频时间一致对齐图片+问题+答案是否正确?这是什么动物?图片答案:小猫正确商品图联合标注:商品是什么,以及图片与描述是否一致一致电商场景同时涉及图像、文本、语音、视频等多种信息的联合标注:“图片+文字说明”标注“视频+字幕+音频”标注“图像+问题+答案”标注视频与时序数据标注(五)三、常见数据标注类型与示例多模态数据标注(六)标注方式划分(七)(七)标注方式划分人工标注人工完全由人工逐条完成标注优点理解能力强,适合复杂场景缺点成本较高,速度较慢风险长时间工作易疲劳和出错半自动化标注预标注+修正模型或工具先给初始结果,再由标注员修改和确认适合已有模型基础、数据量较大效果兼顾质量与效率特点工程中最常见全自动化标注自动生成标签依赖算法、规则引擎或预训练模型自动完成常用粗标注、筛选、前处理优势适合大规模数据注意仍需人工抽查或复核标注方式种类(七)标注方式划分人工标注、半自动化标注与全自动化标注组合使用。工程做法自动或半自动预标注→人工审核修正自动预标注半自动修订人工审核目标兼顾标注效率与数据质量。说明不是三选一,而是按场景组合使用。工程常用做法0本节内容一、数据标注的概念与作用二、数据标注的一般流程三、常见数据标注类型与示例四、数据集的基本概念与结构五、数据标注与数据集的关系四、数据集的基本概念与结构数据集的概念(一)四、数据集的基本概念与结构(一)数据集的概念数据集(Dataset),是指按照一定规则收集、整理和标注的一组数据样本及其标签的集合,通常以统一的格式组织和存储,用于训练、验证和测试机器学习模型数据集也称为“数据产品”,已经成为一种高价值、可交易的重要“商品”Id123textlabelpositivenegative……手机很好用,屏幕清晰、运行流畅,下次还会再买!快递太慢了,包装也破损,不推荐……(一)数据集的概念数据样本文件:如图片文件、音频文件、文本文件等典型结构标注文件:存储每个样本的标签信息(类别、坐标、转写文本等),常见格式如JSON、XML、CSV等划分列表:标明哪些样本属于训练集、验证集和测试集(一)数据集的概念说明文档(README):数据来源、采集方法、标注标准、版权与使用限制等典型结构在大规模数据集里,还可能增加时间戳、用户信息、数据来源等字段数据集的概念(一)四、数据集的基本概念与结构数据集的关键特性(二)(二)数据集的关键特性规模适当样本数量要足够支撑模型训练,但“不盲目追求越多越好”,要考虑采集和标注成本。代表性和多样性尽量覆盖真实应用场景中可能出现的各种情况,而不是只包含“干净、典型”的样本。类别平衡性不同类别的样本数量尽量不要差别太大,否则模型可能偏向“多数类别”。(二)数据集的关键特性标注质量高标签准确、一致,错误标注和缺失标注要严格控制;标注规范和质检流程要完善。合法合规数据采集和使用要遵守相关法律法规;特别注意隐私数据、敏感个人信息的保护与脱敏处理。0本节内容一、数据标注的概念与作用二、数据标注的一般流程三、常见数据标注类型与示例四、数据集的基本概念与结构五、数据标注与数据集的关系五、数据标注与数据集的关系五、数据标注与数据集的关系原始数据像“矿石”一样,未经处理,内容丰富但杂乱数据标注过程像“分拣、分类、标记”,把人的知识写入数据数据集像“标准矿产品”,可直接供模型训练与评估图像文本语音真实世界采集而来内容多样、格式杂、质量不一分类标记猫正面实体规范+试标注+质检+复核把“人的判断”写入样本数据集训练集/验证集/测试集样本文件+标注文件+说明文档可复用、可共享、可训练采集数据→数据标注→整理与格式化→形成数据集→训练与评估模型数据标注是构建高质量数据集的关键步骤数据集是数据标注的重要产出形式标注质量→数据集质量→模型性能第一章人工智能数据工程导论人工智能数据工程简介第一节数据的来源第二节数据的分类第三节数据标注与数据集第四节数据产品的工程化生产第五节数据工程的趋势第六节数据产品的工程化生产0本节内容一、人工智能数据工程的实现方法二、数据产品的生产流程三、数据工程在AI项目中的位置一、人工智能数据工程的实现方法一、人工智能数据工程的实现方法规范化流程图书文本语音视频数据接口大规模处理监控与调度高效交付可持续与可扩展决策0本节内容一、人工智能数据工程的实现方法二、数据产品的生产流程三、数据工程在AI项目中的位置二、数据产品的生产流程二、数据产品的生产流程数据产品设计需求分析、技术方案、项目计划数据获取公开数据、自采、爬虫、合作、合成数据处理清洗、标准化、集成、格式转换数据标注规则制定、工具、培训、实施质检与验收自动检测、抽检、返修、验收报告交付与运维打包交付、部署上线、更新支持工程主线:先定义要什么数据,再把数据拿到、处理好、标正确、检合格,最后交付并持续运维。大模型时代进一步强调合成数据、自动预标注、数据版本化与回流优化制造“数据产品”:业务流水线数据工厂工程化生产数据产品设计(一)二、数据产品的生产流程(一)数据产品设计设计输出产出内容规格·规模·质量目标·范围·技术路线工程建议需求、技术、管理三者一起设计,形成可执行的数据生产方案。需求分析技术方案设计项目管理规划设计内涵与输出(一)数据产品设计用户/场景明确目标用户、使用场景,以及要解决的核心问题。规格/规模确定数据类型、格式、规模、精度与覆盖范围。功能需求关注数据内容、格式、接口与交付方式。非功能需求关注性能、安全性、稳定性与合规性。输出:把“做什么”说清楚用户是谁、数据长什么样、要达到什么要求?需求分析(一)数据产品设计数据源分析可用数据源,评估质量、合法性和获取难度。技术选型选择处理、存储、分析工具与开发框架。生态示例Python工具、Spark、Hadoop等可按场景组合。流程规划设计生产流程、阶段任务、工具与时间安排。输出:把“怎么做”说清楚数据从哪里来,用什么工具,按什么流程完成。技术方案设计(一)数据产品设计团队/角色确定项目成员与职责分工。资源预算估算人力、物力、时间和成本。风险评估识别潜在风险,并制定应对策略。项目节奏设置里程碑、检查点与沟通机制。输出:把“如何保障落地”说清楚谁来做、花多少资源、风险怎么控。项目管理规划数据产品设计(一)二、数据产品的生产流程数据获取(二)(二)数据获取数据收集过程合法性与合规性数据源确定常见工程做法:多源并行采集+过程监控+质量抽检考虑因素与工程做法(二)数据获取开公开数据集政府、科研机构、企业发布的开源数据。采自有数据采集传感器、日志系统、业务系统持续采集。爬网络爬虫从互联网收集公开数据,注意合法合规。合第三方合作与机构或公司合作共享、采购数据。生合成数据利用大模型或仿真系统生成样本。数据源确定收集计划□明确收集方式、时间、责任人确定优先级与进度安排→工具配置⚙安装并配置采集硬件与软件准备接口、脚本、存储环境→实施采集◎按计划执行,持续记录与汇总监控采集进度与数据质量常见工程做法多源并行采集+过程监控+质量抽检数据收集过程(二)数据获取(二)数据获取版版权和许可确保数据使用符合版权法、许可协议和平台规则。隐隐私保护遵守个人信息保护等法规,对敏感数据进行匿名化处理。数据合法性与合规性数据产品设计(一)二、数据产品的生产流程数据获取(二)数据预处理(三)(三)数据预处理数据预处理总览(三)数据预处理核心环节(三)数据预处理单模态数据的预处理(三)数据预处理多模态数据的预处理数据标注(四)二、数据产品的生产流程(四)数据标注工程常见做法:自动或半自动预标注+人工审核修正核心特征≡繁琐规则多、步骤多、反复核对※复杂场景复杂,容易出现歧义▦量大数据规模大,人工耗时明显⚙提效自动化预标注可明显提高效率人工质量高自动效率高标注实施主流程工具与平台选择•评估效率与易用性•支持批量任务分配•可选定制开发人员培训与试标•培训规则和工具•试标注+反馈修订•减少理解偏差任务执行与管理•任务分配与进度监控•质量抽检与复核•版本管理与留痕•编写标注指南•提供典型示例•统一标签定义标注标准制定从劳动密集型向知识密集型发展!数据标注(四)二、数据产品的生产流程质检与验收(五)(五)质检与验收质检标准制定质检方法与工具问题反馈与修正最终验收质检标准检测方法反馈修正最终验收先定规则→再做检查→发现问题立即修正→形成验收结论质检标准制定质检方法与工具准确率标签正确、错误少一致性标准统一、口径一致完整性字段齐全、样本不缺明确“合格/不合格”判定线自动化检测检脚本检查格式、完整性、一致性人工抽检查人工核查重点样本和关键指标交叉验证比多人标注同一数据,比较结果常见做法:自动检测+人工抽检+交叉验证+问题闭环修正验收结果质量可靠准确率达标一致性更好过程可追溯问题有记录修正有依据可以交付报告齐全签字确认问题反馈与修正最终验收问题记录记录错误类型和出现位置原因分析查明原因避免再犯修修正重标验收报告总结质检结果给出验收结论签字确认负责人确认数据可交付查明原因避免再犯数据标注(四)二、数据产品的生产流程质检与验收(五)交付与运维(六)(六)交付与运维数据打包与交付部署与上线运维与支持文档和培训打包交付部署上线运维支持文档培训数据打包与交付部署与上线数据组织按约定目录结构和命名规则整理数据元数据编写数据说明、字段解释和使用方法安全传输加密传输或安全介质交付,保护数据安全交付重点:数据包+说明文档+安全传输环境配置部署到指定服务器或云平台接口开发提供查询和使用接口,便于调用权限管理设置访问控制,确保数据安全上线重点:可访问、可控制、可稳定运行运维与支持文档和培训监控告警数据更新用户支持建立监控机制,定期更新维护,并持续解答用户问题。使用手册指导用户正确使用数据产品培训服务为重要用户提供培训支持。交付后仍要让用户“会用、敢用、用得好”常见工程做法:数据包交付+生产部署+持续监控更新+文档培训运维目标稳定可用服务可访问安全可控权限可管理持续更新问题可响应小结设计需求分析方案设计项目计划获取公开数据自有采集爬虫/合作/合成处理清洗去重标准化转换格式与存储标注规范指南工具与培训实施与版本质检验收标准设定自动+人工检查修正与签收交付运维打包交付上线接口更新与支持流程化·系统化·工程化反馈回流·持续优化从数据产品设计到交付运维,前后衔接、持续迭代0本节内容一、人工智能数据工程的实现方法二、数据产品的生产流程三、数据工程在AI项目中的位置三、数据工程在AI项目中的位置数据工程与模型开发的关系(一)三、数据工程在AI项目中的位置(一)数据工程与模型开发的关系协同闭环数据驱动模型开发高质量数据准确、一致、完整的数据,是模型性能的基础。多样代表性覆盖不同用户、环境、异常场景,提升泛化能力。预处理清洗、补缺、归一化、特征提取,转成可训练数据。工程价值把原始数据变成模型真正能用的数据资产。核心作用:为模型训练“喂好数据”。模型反馈数据需求性能分析模型在哪些场景表现差,会反向暴露数据问题。不足与偏差样本过少、分布失衡,需要补采或重平衡。新特征需求模型优化时,常需要增加新特征或新字段。流程调整据模型反馈改进采集、清洗、标注和管道设计。核心作用:让数据持续贴近模型需求。持续协同与迭代1数据准备采集、清洗、特征工程2模型训练训练、评估、分析问题3反馈改进补数据、调分布、加特征4上线更新数据与模型同步迭代高质量数据提升模型性能,模型反馈推动数据工程优化数据驱动模型开发模型反馈数据需求持续的协同与迭代数据工程与模型开发的关系(一)三、数据工程在AI项目中的位置关键作用和挑战(二)(二)关键作用和挑战电商推荐系统案例用户行为产品信息实时交互个性化推荐数据工程任务繁重、作用关键:既要支撑推荐模型训练,也要满足实时推荐要求。关键作用收集整合整合网站、App、第三方平台的行为、产品和交易数据。清洗预处理处理缺失、重复、异常,统一编码和格式。特征工程提取用户兴趣、购买力、价格区间、品牌等特征。存储管理建设数据仓库,支持高效查询分析,并兼顾安全合规。核心价值:把复杂业务数据变成模型可用资产面临挑战数据规模与复杂性数据质量问题实时性要求海量用户和产品数据、日志缺失或错误、低延迟高吞吐要求,都需要强数据工程能力支撑。与模型开发协同模型反馈某些品类效果差,提示增加采集和特征。数据更新优化实时管道,减少延迟,提高响应速度。特征优化合作挖掘新特征,提升推荐准确性。结果与收益推荐更准模型准确性显著提高体验更好满意度、留存率和转化率提升业务增长精准推荐带来销售额增长数据收集与整合数据清洗与预处理特征工程数据存储与管理面临的挑战与模型开发的协同结果与收益第一章人工智能数据工程导论人工智能数据工程简介第一节数据的来源第二节数据的分类第三节数据标注与数据集第四节数据产品的工程化生产第五节数据工程的趋势第六节数据工程的趋势0本节内容一、数据要素市场化二、绿色数据工程一、数据要素市场化数据要素市场化含义(一)一、数据要素市场化(一)数据要素市场化含义把数据资源转化为可流通、可定价、可复用的数据产品与服务关键词:产权与合规、交易与流通、场景应用、价值释放市场化主线数据资源合规加工数据产品流通交易场景应用价值登记、授权运营、脱敏、标注、建模、定价、交付、审计、复用制度与基础设施数据被纳入新型生产要素,市场化配置改革持续推进交易中心逐步强化合规保障、供需匹配、价格发现数据开发形成“1+3”政策体系,登记、运营、价格清晰关键底座:产权规则、流通标准、隐私保护、审计追溯、安全治理政策牵引规则建设基础设施市场主体与服务链数据供方数据商交易所/平台服务机构用数方→→↘→数据登记合规审查定价交付撮合应用市场化不是简单“卖数据”,而是围绕数据产品和服务构建可交易、可监管、可复用的服务链。典型场景公共数据授权运营企业数据产品图文与音视频数据高质量数据集数据接口与服务行业赋能金融、医疗、交通、制造、电商、政务、科研等场景推动数据要素从资源汇聚走向产品化、服务化和价值化。关键要求与能力合规安全个人信息保护与数据安全确权授权、脱敏匿名、审计留痕场内外结合也必须合规流通工程能力标准化加工与质量控制接口对接、数据目录与元数据隐私计算、溯源、交付运维人才方向数据产品设计与估值意识场景理解、数商协同、平台使用懂政策、懂工程、懂应用落地数据要素市场化=政策规则+工程加工+交易服务+场景应用+安全合规数据要素市场化含义(一)一、数据要素市场化数据要素市场化的人才需求(二)(二)数据要素市场化的人才需求序号岗位名称典型任务1数据资产经理盘点可资产化数据,建立目录、台账、权属与血缘关系,推动数据资源入表2数据资源会计归集采集、清洗、标注、加工成本,编制入表、披露与减值相关材料3数据资产评估师评估数据质量、稀缺性、场景价值与收益预期,形成估值报告4数据合规专员审查来源合法性、授权边界、个人信息与敏感数据风险出具合规意见5数据产品经理把原始数据加工成数据集、数据接口、数据服务或行业解决方案6数据经纪/撮合专员对接供需双方,协助产品包装、询价议价、交易撮合与签约7数据交易运营专员负责登记受理、挂牌审核、样例测试、流程管理、存证与结算协调8数据交付与安全工程师完成脱敏、水印、权限控制、API交付、接口联调与验收保障0本节内容一、数据要素市场化二、绿色数据工程二、绿色数据工程二、绿色数据工程绿色数据工程强调在数据采集、存储和处理的全生命周期中融入可持续原则,重点减少碳足迹和资源消耗在可持续采集方面,强调最小化数据采集规模、使用合成数据替代实地采集,并集成碳足迹监控工具2026年数据工程趋势强调价值与可持续的平衡,推动从传统处理向智能、环保范式演进。应用型人才应主动学习相关工具和技术,以适应产业需求,并在实践中贡献力量本章小结第一章本章内容层次建立“数据来源—数据理解—标注数据集—工程化生产”的全景视角1第一节人工智能数据工程简介核心概念/岗位角色2第二节数据的来源大模型数据/通用数据/专业数据3第三节数据的分类模态/类型/类别4第四节数据标注与数据集标注概念/流程/关系5第五节数据产品的工程化生产设计/获取/处理/交付6第六节数据工程的趋势多模态/自动化/人才升级主线:先认识人工智能数据工程及岗位,再理解数据来源、分类、标注与数据集关系,最后落到工程化生产与未来趋势。第三章数据产品的工程化生产第三章数据产品的工程化生产数据产品的涵义第一节数据产品生产的全流程第二节数据产品生产的组织与管理第三节数据产品生产的工具与平台第四节数据标注专项训练第五节教学目标第三章数据产品的工程化生产理解数据产品的定义、基本特征与AI项目价值,能区分普通数据集合与可交付的数据产品。掌握数据产品从需求分析、产品设计、数据获取、预处理、标注、质控到交付与迭代的完整流程。理解数据产品生产中的项目管理、数据管理、质量控制和工具平台建设要求,能识别关键角色与关键产物。教学目标第三章数据产品的工程化生产能结合ImageNet等典型案例,分析标准化、规模化和质量控制如何推动模型训练与应用落地。能面向一个小型任务场景,设计简版数据产品需求说明、标签体系、质检口径和交付清单。素养导向:产品意识、流程意识、交付意识、协作意识教学重点与要求重点:数据产品概念、生产全流程、组织管理、质量控制与交付逻辑。难点:把抽象的“数据”转化为具有需求、标准、质量指标、版本和交付清单的工程化产品。要求:了解数据产品的基本含义与典型特征;理解数据产品生产全流程;掌握设计简版数据产品需求说明、数据字典和交付清单的基本方法。第三章数据产品的工程化生产第三章数据产品的工程化生产数据产品的涵义第一节数据产品生产的全流程第二节数据产品生产的组织与管理第三节数据产品生产的工具与平台第四节数据标注专项训练第五节数据产品的涵义数据产品的涵义0本节内容一、数据产品的涵义与特征二、数据产品生产案例分析一、数据产品的涵义与特征数据产品的涵义(一)一、数据产品的涵义与特征(一)数据产品的涵义数据产品是指经过规范化流程设计、采集、加工并满足特定需求、可以流通、重复用于机器学习或人工智能模型训练的数据集数据产品不是简单的数据集合,而是通过系统化的处理和严格的质量控制,达到一定规模和特定用途的高质量产品(一)数据产品的涵义数据产品在人工智能项目中起着关键作用,为模型训练和性能提升提供了坚实的基础数据产品还具备可复用性、交易性和流通性,使其能够在不同项目和企业之间灵活应用数据产品的涵义(一)一、数据产品的涵义与特征图解数据产品(二)(二)图解数据产品(二)图解数据产品数据产品的涵义(一)一、数据产品的涵义与特征图解数据产品(二)数据产品的特征(三)(三)数据产品的特征元数据更完整版本与血缘可追踪质量与评测可量化治理与合规可审计支持训练、测试支持微调/RAG/评测(三)数据产品的特征工程化生产合成数据成为补充(三)数据产品的特征0本节内容一、数据产品的涵义与特征二、数据产品生产案例分析二、数据产品生产案例分析ImageNet数据集(一)二、数据产品生产案例分析(一)ImageNet数据集ImageNet视觉数据产品里程碑猫犬类车辆水果1400万+图像
2万+类别◎设计构建目标导向WordNet层次✓质量标准清洗去重统一规范✎采集标注爬取+众包人工复核▲应用影响AlexNet迁移学习▣规模扩展海量图像持续扩容↺验证反馈多轮审核社区改进⚖复用、流通与合规开放基准·标准格式迁移学习·偏见反思→→→→价值:把互联网图像资源加工成可训练、可评测、可复用的视觉数据资产推动现代计算机视觉和深度学习快速发展的标志性图像数据集:大规模价值高分类清晰影响深远推动视觉智能发展ImageNet数据集(一)二、数据产品生产案例分析ImageNet与ILSVRC、AlexNet(二)(二)ImageNet与ILSVRC、AlexNet发展链:数据规模化→基准竞赛化→模型突破化ImageNet2009大规模标注图像库第一次提供海量有标注视觉样本ILSVRC2010公开基准与竞赛把“谁更强”变成统一规则下的比较AlexNet2012深层卷积网络突破证明深度学习能把识别精度拉上新台阶数据资产化评测标准化模型范式跃迁智能视觉从“手工特征”走向“数据+算力+深度模型”数据基础评测规则模型跃迁现代视觉AI奠定检测与多模态基础第三章数据产品的工程化生产数据产品的涵义第一节数据产品生产的全流程第二节数据产品生产的组织与管理第三节数据产品生产的工具与平台第四节数据标注专项训练第五节数据产品生产的全流程0本节内容一、数据产品工程化生产的涵义二、数据产品工程化生产平台三、数据产品工程化生产的流程一、数据产品工程化生产的涵义一、数据产品工程化生产的涵义数据产品(即数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年吉林省图们市高二生物下册期末考试模拟卷带答案AB卷
- 2026年云南省开远市高二生物下册期末考试测试卷带答案(基础题)
- 2026年河北省辛集市高二生物下册期末考试试卷附参考答案【考试直接用】
- 2026年云南省开远市高二生物下册期末考试检测卷含答案【考试直接用】
- 2026年云南省瑞丽市高二生物下册期末考试检测卷附参考答案(考试直接用)
- 2026年湖北省枣阳市高二生物下册期末考试检测卷及参考答案(黄金题型)
- 2026年吉林省大安市高二生物下册期末考试考试卷及答案(名校卷)
- 2026年河北省安国市高二生物下册期末考试检测卷附参考答案(考试直接用)
- 2026年福建省福安市高二生物下册期末考试测试卷附答案(B卷)
- 2026年江西省瑞金市高二生物下册期末考试考试卷附参考答案【巩固】
- 高考英语近6年高频考察300个长难句型(带解析版)
- 铁路专用线竣工验收管理方案
- 2026春粤教花城版三年级下册音乐期末练习卷含参考答案
- 2026年文献检索和科技论文写作练习题库及答案详解(易错题)
- 浙江省台州市2024-2025学年高二下学期6月期末数学试题
- 2026年高考(北京卷)化学试题及答案
- DB50∕T 1608-2024 槲蕨孢子育苗技术规程
- 园艺植物病虫防治参考题库
- 贵州国企招聘2025榕江县粮油购销有限公司招聘笔试历年常考点试题专练附带答案详解试卷3套
- 2025年数据中台建设合同协议
- 2025年贵州小升初真题试卷及答案
评论
0/150
提交评论