人工智能数据工程基础-课程教学大纲_第1页
人工智能数据工程基础-课程教学大纲_第2页
人工智能数据工程基础-课程教学大纲_第3页
人工智能数据工程基础-课程教学大纲_第4页
人工智能数据工程基础-课程教学大纲_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

“人工智能数据工程基础”课程教学大纲PAGE1“人工智能数据工程基础”课程教学大纲第一部分大纲说明一、课程性质与任务“人工智能数据工程基础”是人工智能数据工程技术、人工智能技术应用、数据科学与大数据技术、软件技术等相关专业面向人工智能产业数据岗位开设的专业基础课程。课程以“高质量数据产品生产”为主线,围绕“需求分析—产品设计—数据获取—数据预处理—数据标注—质量控制—成果交付—迭代优化”的工程化闭环,系统讲授人工智能数据工程的基本概念、方法体系、工具平台、质量度量、组织管理和典型数据集生产案例。课程以教材中的图像、音频和文本三个端到端数据集生产项目为实践载体,强调“会理解、会设计、会处理、会质检、会交付”。通过理论学习、工具实操、项目训练和交付验收,培养学生具备面向人工智能模型训练、评估和应用落地的数据工程基础能力,为后续学习数据标注技术、机器学习、大模型应用开发、数据治理与数据资产管理等课程奠定基础。二、课程目标1.知识目标理解人工智能数据工程、数据产品、数据集、数据模态、数据类型、数据质量、数据闭环、数据交付等核心概念。掌握数据产品工程化生产的基本流程,理解需求分析、产品设计、数据获取、预处理、标注、质控、验收与迭代之间的关系。掌握开源数据、网络爬虫、众包采集、传感器数据、合成数据、API数据、数据合作共享等典型数据获取方式及适用边界。理解图像、音频、文本三类典型数据的基础表示、处理方法、公开数据源、生产流程与质量控制要点。了解大模型、多模态、具身智能、数据资产化、实时数据管道和智能化数据治理对数据工程提出的新需求。2.能力目标能够根据具体人工智能应用场景完成简要的数据需求分析,设计数据集规模、字段、类别、质量指标和交付物清单。能够使用Python、JupyterNotebook及常用库完成基础数据读取、清洗、转换、统计、可视化和质量检查。能够完成开源数据检索、许可协议识别、数据适配、元数据整理和合规风险记录。能够依据教材案例完成小规模图像、音频、文本数据集的采集、预处理、标注整理、质量检查与交付打包。能够编写基础的数据字典、README、质检报告、验收清单和项目复盘说明,形成可追溯、可复现的工程交付习惯。3.素质目标形成数据安全、隐私保护、版权意识、许可合规和人工智能伦理意识,能够识别数据获取与使用中的风险。养成严谨、细致、规范、可追溯的工程化工作习惯,重视版本记录、过程记录和质量闭环。增强问题分析、协作沟通、项目管理和持续学习意识,能够主动关注人工智能数据工程技术与产业岗位的发展。三、先修课要求建议先修计算机应用基础、数据库基础或Python入门课程;具备基本文件管理、数据表格处理、网络检索和简单编程能力。学习过人工智能导论、机器学习基础或大数据基础的学生,可更好理解数据工程与模型训练、评估和应用之间的关系。四、课程的教学要求坚持“概念清晰+流程可执行+工具可复现+质量可度量+成果可交付”的教学原则。以教材主线组织教学:第1章建立数据工程全景,第2—4章形成方法底座,第5—7章完成图像、音频、文本三个项目训练,第8章完成趋势提升与职业发展引导。突出数据全生命周期:从数据需求、数据来源、数据获取、数据处理,到标注、质检、交付、迭代和治理,形成闭环理解。强化工程化表达:要求学生提交数据字典、标注或处理说明、Notebook、质量检查记录、README、验收清单和项目复盘等过程性成果。强调大模型时代的数据能力:引导学生理解预训练、监督微调、RAG、多模态和具身智能等场景对数据规模、质量、多样性和可追溯性的要求。五、课程的教学方法和教学形式建议线上线下混合:线上提供微课、教材片段、操作演示、章节测验与资料下载;线下重点开展案例讲解、工具演示、实验训练和项目复盘。任务驱动教学:每章设置“学习任务—课堂练习—实验实践—交付物—评价要点”,让学生围绕真实任务完成学习。项目化学习:围绕水果分类、城市声音、中文知识问答等案例,组织学生完成至少一个小规模可交付数据集生产项目。示范与复盘结合:教师演示标准流程和常见错误,学生通过实验记录、互评讨论和复盘报告提升规范意识。大模型辅助学习:允许学生使用大模型进行预习、资料整理和问题分析,但必须保留提示词、上下文材料和人工核校记录,避免直接照搬模型输出。六、教学要求的层次了解:能够说清人工智能数据工程的基本概念、典型数据来源、主要流程、常见工具和岗位方向。理解:能够解释为什么需要高质量数据、为什么要进行规范化处理和质量控制,以及数据问题如何影响模型训练与应用效果。掌握:能够独立完成小规模数据集的需求分析、数据获取、预处理、质量检查和交付说明,并形成可复现的实验成果。应用:能够综合运用课程知识完成一个面向图像、音频或文本场景的数据产品小项目,完成文档、数据、代码和质量报告的规范化提交。第二部分教学媒体与教学过程建议一、教学媒体与资源建议教材资源:以《人工智能数据工程基础——概念、方法与案例》为主教材,配套PPT、案例数据、样板程序、习题答案和项目模板。网络课程:提供章节微课、操作视频、实验指导书、在线测验、资料下载和作业提交入口。开发环境:Python、JupyterNotebook、虚拟环境、pip依赖管理,常用库包括numpy、pandas、matplotlib、scikit-learn、Pillow、OpenCV、librosa、jieba等。标注与数据处理工具:LabelStudio、CVAT、doccano、Praat、Audino、LabelImg、LabelMe等,可根据教学条件选用。模板资源:数据需求说明模板、数据字典模板、标注规范模板、质检报告模板、验收清单模板、README模板、项目复盘模板。二、教学过程组织建议课程建议采用“概念导入—案例拆解—工具演示—实验训练—交付验收—复盘提升”的流程组织。第1—4章重点建立人工智能数据工程的方法体系,讲清数据来源、数据产品、开源数据、数据获取与合规边界。第5—7章围绕图像、音频、文本三个项目开展端到端训练,强调数据处理脚本、质量指标、交付目录和项目文档。第8章结合大模型、多模态、数据资产化、智能化治理、职业岗位等趋势,引导学生形成持续学习路线。实验强调可复现与可验收:每次实验均要求记录环境、数据来源、关键步骤、运行结果、问题样本和改进建议。三、教学学时说明课程教学总学时数为72学时,建议4学分。其中授课学时为48学时(含面授、录像学时),实验学时为24学时。实验共12个,每个实验2学时。

第三部分教学内容和教学要求一、学时分配表序号教学内容授课学时实验学时1第1章人工智能数据工程概述622第2章数据产品的工程化生产643第3章开源数据的利用与整合644第4章数据获取845第5章图像处理与数据集生产案例846第6章音频处理与数据集生产案例627第7章文本处理与数据集生产案例648第8章数据工程的机遇、挑战与未来2—合计4824二、分章教学要求第1章人工智能数据工程概述(6学时)1.教学内容·依据教材1.1“引言”,建立课程总体认识,讲清人工智能数据工程的涵义、作用和人工智能数据工程师的岗位内涵。·依据教材1.2“数据的来源与分类”,讲解典型大模型训练数据来源、通用数据类别、专业数据类别,以及数据模态与类型。·依据教材1.3“数据集的概念与作用”,理解数据集定义、分类及其在模型训练、验证和评估中的作用。·依据教材1.4“人工智能数据工程解读”,理解数据工程实现方法、数据产品生产流程及数据工程在AI项目中的位置。·依据教材1.5“数据服务产业的发展现状与人才需求”,认识数据服务产业、岗位能力和职业发展路径。2.教学重点与难点·重点:人工智能数据工程概念、数据来源与分类、数据集作用、数据产品生产流程。·难点:从“数据是材料”上升到“数据是工程化产品和AI系统核心资产”的理解。3.教学要求·了解人工智能数据工程基本框架与岗位分工;理解数据来源、数据分类、数据集和数据产品之间的关系;掌握用课程术语描述一个基础数据工程闭环的能力。4.学习任务/作业建议·学习任务:阅读教材第1章,绘制“需求—获取—处理—质控—交付—迭代”流程图。作业:结合一个AI应用场景,说明所需数据来源、数据类型、数据集目标和预期交付物。5.对应教材·第1章《人工智能数据工程概述》(1.1至1.6)。6.授课计划(2学时/次)·第1次课:1.1引言——人工智能数据工程的涵义、课程定位、岗位角色与能力要求。·第2次课:1.2数据的来源与分类——大模型数据来源、通用/专业数据类别、数据模态与类型。·第3次课:1.3数据集的概念与作用+1.4人工智能数据工程解读+1.5产业发展与人才需求——数据集作用、数据产品流程、AI项目位置和职业路径。第2章数据产品的工程化生产(6学时)1.教学内容·依据教材2.1“数据产品的涵义”,讲解数据产品定义、特征和ImageNet数据产品构建案例。·依据教材2.2“数据产品生产的全流程”,系统学习需求分析、产品设计、数据获取、预处理、标注、质量控制、交付和迭代升级。·依据教材2.3“数据产品生产的组织与管理”,理解项目管理、数据管理和质量控制在工程化生产中的作用。·依据教材2.4“数据产品生产的工具与平台”,认识数据生产平台架构、常用工具、技术栈及平台实施运维要求。2.教学重点与难点·重点:数据产品概念、生产全流程、组织管理、质量控制与交付逻辑。·难点:把抽象的“数据”转化为具有需求、标准、质量指标、版本和交付清单的工程化产品。3.教学要求·了解数据产品的基本含义与典型特征;理解数据产品生产全流程;掌握设计简版数据产品需求说明、数据字典和交付清单的基本方法。4.学习任务/作业建议·学习任务:阅读教材第2章,整理数据产品生产全流程。作业:以一个图像、音频或文本应用为例,完成简版《数据产品需求说明》和《交付清单》。5.对应教材·第2章《数据产品的工程化生产》(2.1至2.5)。6.授课计划(2学时/次)·第4次课:2.1数据产品的涵义——定义、特征与ImageNet案例分析。·第5次课:2.2数据产品生产的全流程——需求分析、产品设计、获取、预处理、标注、质控、交付与迭代。·第6次课:2.3数据产品生产的组织与管理+2.4工具与平台——项目管理、数据管理、平台架构、常用工具与运维。第3章开源数据的利用与整合(6学时)1.教学内容·依据教材3.1“开源数据的概念与意义”,讲解开源数据的价值、优势、典型案例和局限。·依据教材3.2“常用的开源数据集”,认识图像、文本、音频、视频、网页等常见开源数据资源。·依据教材3.3“开源数据的获取与使用”,学习数据许可协议解读、数据预处理与适配、数据质量评估。·依据教材3.4“开源数据在数据产品生产中的应用”,理解开源数据扩充、迁移、融合、合规和质量风险。2.教学重点与难点·重点:开源数据检索、许可协议、质量评估、格式适配和合规使用。·难点:在“能下载数据”和“能合法、可靠、可复现地用于数据产品生产”之间建立清晰边界。3.教学要求·了解常见开源数据集类型和来源;理解许可协议、质量评估和适配处理的重要性;掌握对一个开源数据集进行初步检索、记录、评价和风险说明的方法。4.学习任务/作业建议·学习任务:选择一个公开数据集,记录数据来源、许可方式、字段结构、质量问题和适配建议。作业:提交《开源数据集评估表》。5.对应教材·第3章《开源数据的利用与整合》(3.1至3.5)。6.授课计划(2学时/次)·第7次课:3.1开源数据的概念与意义+3.2常用开源数据集——优势、局限与典型资源。·第8次课:3.3开源数据的获取与使用——许可协议、预处理适配与质量评估。·第9次课:3.4开源数据在数据产品生产中的应用——扩充、整合、挑战与风险应对。第4章数据获取(8学时)1.教学内容·依据教材4.1“网络爬虫数据获取”,讲解爬虫原理、爬取策略、反爬机制、清洗存储和法律伦理要求。·依据教材4.2“众包数据获取”,理解众包模式、任务设计、发布流程、质量控制和数据回收。·依据教材4.3“传感器与设备数据获取”,认识设备选型、部署、数据采集、存储、传输和安全。·依据教材4.4“合成数据的生成”,讲解合成数据概念、典型方法、质量评估和未来发展。·依据教材4.5至4.9,综合理解开源数据集整合、API数据获取、数据合作共享、实验研究数据采集和数据获取方法选择。2.教学重点与难点·重点:网络爬虫、众包、传感器、合成数据、API、合作共享等多源数据获取方法。·难点:根据任务目标、成本、质量、合规和可持续性选择合适的数据获取方案。3.教学要求·了解多源数据获取方式;理解不同方法的适用场景、风险和质量控制要点;掌握编写简版数据采集方案和合规记录的基本方法。4.学习任务/作业建议·学习任务:对比至少四种数据获取方式。作业:针对一个AI应用场景,设计“主数据来源+备选来源+合规约束+质量控制”的数据获取方案。5.对应教材·第4章《数据获取》(4.1至4.10)。6.授课计划(2学时/次)·第10次课:4.1网络爬虫数据获取——爬虫原理、策略、反爬、清洗存储与合规边界。·第11次课:4.2众包数据获取——众包模式、任务设计、质量控制与数据收集。·第12次课:4.3传感器与设备数据获取——设备选型、部署、采集、存储、传输与安全。·第13次课:4.4合成数据生成+4.5—4.9多源获取方法小结——合成、API、合作共享、实验采集与方案选择。第5章图像处理与数据集生产案例(8学时)1.教学内容·依据教材5.1“认识像素”,理解像素数字表示、计算机存储方式、像素操作和分辨率。·依据教材5.2“图像处理技术”,学习图像基本特征参数、高级特征参数、图像数据分类与特性。·依据教材5.3“图像数据的公开数据源”,了解开源图像数据集种类、特征、典型公开数据集和基本操作。·依据教材5.4“水果分类数据集生产项目”,完整学习项目背景、需求分析、数据获取、处理、标注、质控、交付和总结。2.教学重点与难点·重点:像素与图像基础、图像处理方法、公开图像数据源、水果分类数据集生产流程。·难点:把图像技术基础与真实数据集生产过程结合起来,理解图像质量、类别均衡、采集条件和交付结构对模型训练的影响。3.教学要求·了解图像数据基础知识和公开数据源;理解图像处理对数据质量的作用;掌握小规模水果分类数据集生产与交付的基本流程。4.学习任务/作业建议·学习任务:梳理水果分类数据集生产流程。作业:整理一批图像样本,提交目录结构、类别清单、质量问题记录和处理说明。5.对应教材·第5章《图像处理与数据集生产案例》(5.1至5.5)。6.授课计划(2学时/次)·第14次课:5.1认识像素——像素数字表示、存储方式、像素操作与分辨率。·第15次课:5.2图像处理技术——基本特征参数、高级特征参数、图像数据分类与特性。·第16次课:5.3图像数据的公开数据源——开源图像数据集、典型数据集解析与图像数据操作。·第17次课:5.4水果分类数据集生产项目——需求、获取、处理、标注、质控、交付与项目总结。第6章音频处理与数据集生产案例(6学时)1.教学内容·依据教材6.1“音频技术基础”,理解声音与音频、听觉与智慧听觉、音频信号分类与特性、数字音频编码和存储格式。·依据教材6.2“音频数据的分类与音频数据集”,学习音频数据种类、特征、应用、语音数据集分类与音频基本处理操作。·依据教材6.3“音频数据的公开数据源”,了解开源音频数据集种类、特征、典型数据集和样板数据集展示。·依据教材6.4“城市声音数据集生产项目”,学习城市声音数据集从需求分析到交付发布的完整流程。2.教学重点与难点·重点:数字音频基础、音频数据集分类、音频公开数据源、城市声音数据集生产项目。·难点:理解采样率、声道、时长、噪声、信噪比、时间边界和标签准确性对音频数据质量的影响。3.教学要求·了解音频数据基础和典型公开数据源;理解音频预处理、标注和质量控制的关键点;掌握小规模城市声音数据集整理与交付的基本流程。4.学习任务/作业建议·学习任务:整理音频数据质量指标。作业:选择若干城市声音样本,完成格式检查、元数据记录和简版质检说明。5.对应教材·第6章《音频处理与数据集生产案例》(6.1至6.4)。6.授课计划(2学时/次)·第18次课:6.1音频技术基础——声音、听觉、音频信号、编码方式与存储格式。·第19次课:6.2音频数据的分类与音频数据集+6.3音频数据公开数据源——音频种类、语音数据集、典型公开数据与处理操作。·第20次课:6.4城市声音数据集生产项目——项目背景、需求、获取、预处理、标注、质控、交付与总结。第7章文本处理与数据集生产案例(6学时)1.教学内容·依据教材7.1“文本数据技术基础”,学习文本数据特性、表示方法、特殊文本表示及GPT文本表示方法。·依据教材7.2“文本数据的来源、分类与公开数据集”,理解文本数据来源、文本数据集分类、典型公开文本数据集和文本基本操作。·依据教材7.3“中文知识问答数据集生产项目”,学习文档解析、文本数据获取、数据处理、数据标注、质量控制、验收、保存和使用。2.教学重点与难点·重点:文本数据特性、文本表示、文本数据来源、文档解析与中文知识问答数据集生产。·难点:理解文本语义、上下文、歧义、多样性和问答对质量之间的关系,避免机械切分和低质量问答生成。3.教学要求·了解文本数据基础与公开数据源;理解文本处理、文档解析和问答数据集质量控制;掌握小规模中文知识问答数据集生产与保存的基本流程。4.学习任务/作业建议·学习任务:阅读教材第7章,整理文本数据处理流程。作业:从教材或业务文档中抽取若干段落,生成并质检小规模中文问答对。5.对应教材·第7章《文本处理与数据集生产案例》(7.1至7.3)。6.授课计划(2学时/次)·第21次课:7.1文本数据技术基础——文本特性、表示方法、特殊文本表示和GPT文本表示。·第22次课:7.2文本数据的来源、分类与公开数据集——来源、分类、公开数据集和文本基本操作。·第23次课:7.3中文知识问答数据集生产项目——项目背景、需求、获取、处理、标注、质控、保存与总结。第8章数据工程的机遇、挑战与未来(2学时)1.教学内容·依据教材8.1,理解数据成为大模型时代核心驱动力的原因,以及人工智能发展对数据的新需求。·依据教材8.2,理解数据质量四维度和数据闭环流程。·依据教材8.3,认识数据工程师职业发展路径和从支持岗位走向AI核心岗位的能力升级方向。·依据教材8.4,了解AI与数据工程深度融合、开源协作、智能治理、合成数据、实时流式数据管道和AGI背景下的数据工程趋势。2.教学重点与难点·重点:大模型时代的数据需求、数据质量闭环、职业发展和未来趋势。·难点:把趋势认识转化为学生可执行的学习路线、能力清单和作品集规划。3.教学要求·了解人工智能数据工程的机遇与挑战;理解数据质量闭环和智能化数据治理趋势;掌握制定个人学习提升计划的基本方法。4.学习任务/作业建议·学习任务:提炼“新需求、新方法、新岗位、新能力”各3条。作业:提交个人学习路线和作品集建设计划。5.对应教材·第8章《数据工程的机遇、挑战与未来》(8.1至8.4)。6.授课计划(2学时/次)·第24次课:8.1—8.4数据成为大模型时代核心驱动力、数据质量与闭环流程、职业发展和未来趋势。第四部分实践环节(实验)本课程实验共12个,每个实验2学时,总计24学时。实验以“可复现、可验收、可交付”为原则,建议按照“任务理解—环境准备—数据获取/处理—质量检查—成果提交—复盘改进”的闭环流程实施。重要要求:所有实验均以学生个人独立完成为主;允许课堂讨论、互评和教师答疑,但提交成果必须体现个人操作过程、数据记录、问题分析和改进说明。实验1:大模型辅助《人工智能数据工程基础》课程学习(2学时)1.实验目标·学会使用DeepSeek、通义、豆包或其他合规可用的大模型辅助课程预习、概念理解和问题分析。·初步掌握提示词工程、上下文工程、追问优化和人工核校方法。·形成“使用大模型提升学习效率,但不盲从模型答案”的基本意识。2.实验环境与数据·可访问的大模型工具;教材第1章内容;教师提供的学习任务单或学生自拟问题清单。3.实验内容与步骤(1)阅读教材第1章,整理不少于10个课程问题,覆盖概念解释、流程梳理、比较分析和案例举例。(2)围绕同一知识点尝试至少3种提示方式,比较回答质量差异。(3)选取一段教材内容作为上下文,连续追问“解释、举例、比较、总结、生成表格”。(4)对模型输出进行人工核对,标出准确、不完整或不严谨之处。(5)形成一页“大模型辅助本课程学习方法小结”。4.实验交付物与验收要点·提示词清单、问答记录、至少1组“原始问题—优化提示—改进回答”对比记录、人工核校说明和学习方法小结。重点检查问题设计是否覆盖课程主线,是否体现人工核校与修正。实验2:开发环境安装、虚拟环境创建与Notebook验证(2学时)1.实验目标·完成Python、虚拟环境、pip依赖和JupyterNotebook的安装与基础配置。·建立后续数据清洗、处理、统计、可视化和质检实验所需的可复现实验环境。·养成记录环境信息、依赖版本和项目目录结构的工程习惯。2.实验环境与数据·Windows、macOS或Linux;Python3.x;venv/conda;JupyterNotebook;常用依赖库。3.实验内容与步骤(1)安装或检查Python版本,创建独立虚拟环境。(2)安装numpy、pandas、matplotlib、jupyter、scikit-learn等基础依赖。(3)启动JupyterNotebook,新建测试Notebook,完成变量定义、数据读写、简单绘图。(4)建立课程项目目录结构,如data/、notebooks/、outputs/、docs/。(5)记录Python版本、依赖列表、目录结构和Notebook运行截图。4.实验交付物与验收要点·环境配置说明、依赖清单、测试Notebook、运行截图和项目目录结构。重点检查环境是否独立可用,记录是否完整,Notebook是否能正常运行。实验3:人工智能数据工程流程规划与项目甘特图绘制(2学时)1.实验目标·理解人工智能数据工程“需求—获取—处理—质控—交付—迭代”的流程结构。·学会用表格和甘特图描述一个小型数据工程项目计划。·建立从项目管理角度组织数据生产任务的基本能力。2.实验环境与数据·JupyterNotebook;Python;pandas;matplotlib;教师提供的项目场景说明。3.实验内容与步骤(1)选择一个数据工程项目场景,如水果分类、城市声音识别或知识问答数据集。(2)拆解项目阶段,包括需求分析、数据获取、预处理、标注整理、质检、交付。(3)为每个阶段设置任务、负责人、起止时间、输出物和检查点。(4)使用pandas整理任务表,使用matplotlib绘制简版甘特图。(5)根据甘特图检查任务顺序是否合理,写出风险点与改进建议。4.实验交付物与验收要点·项目任务分解表、甘特图Notebook、风险与改进说明。重点检查流程是否完整,阶段输出物是否明确,图表是否能表达项目节奏。实验4:数据产品需求分析、数据字典与交付清单设计(2学时)1.实验目标·从应用场景出发完成简版数据产品需求分析。·能够设计数据字段、类别体系、质量指标和交付目录。·理解“数据产品”必须具备目标、标准、版本、说明文档和验收依据。2.实验环境与数据·教材第2章;教师提供的项目场景;Word/Excel或在线文档;可选JupyterNotebook。3.实验内容与步骤(1)明确应用场景、模型任务、数据用途和用户对象。(2)设计数据集基本信息,包括数据类型、规模、字段、类别、格式和命名规则。(3)制定基础质量指标,如完整性、准确性、一致性、多样性、可追溯性。(4)设计交付目录结构和文件清单,包括原始数据、处理后数据、标注文件、README、质检报告。(5)形成简版《数据产品需求说明》《数据字典》和《交付清单》。4.实验交付物与验收要点·数据产品需求说明、数据字典、交付清单和质量指标表。重点检查需求是否清楚,字段是否可执行,交付物是否可验收。实验5:开源数据集检索、许可协议解读与质量初评(2学时)1.实验目标·掌握开源数据集检索、下载页面阅读和基本信息记录方法。·能够识别常见许可协议、使用限制和引用要求。·能够从数据规模、字段、格式、样本质量和适配性角度进行初步评价。2.实验环境与数据·互联网检索环境;Kaggle、HuggingFaceDatasets、OpenML、UCI等平台;教师提供的评价表模板。3.实验内容与步骤(1)选择一个图像、音频、文本或网页开源数据集。(2)记录数据集名称、来源、发布者、更新时间、数据规模、格式、字段和下载方式。(3)查找许可协议、引用方式、商业使用限制和隐私风险。(4)抽查若干样本,评估完整性、标签质量、格式一致性和任务适配性。(5)填写《开源数据集评估表》,提出能否用于本课程项目的建议。4.实验交付物与验收要点·开源数据集评估表、数据来源记录、许可协议摘要和质量初评说明。重点检查信息是否可追溯,许可解读是否清楚,质量评价是否具体。实验6:开源数据预处理、格式适配与数据质量检查(2学时)1.实验目标·掌握下载或导入开源数据后的基本预处理流程。·能够完成文件重命名、格式转换、缺失检查、重复检查和统计分析。·理解预处理与格式适配对后续标注、训练和交付的基础作用。2.实验环境与数据·JupyterNotebook;Python;pandas;Pillow/OpenCV或相关文本处理库;实验5选取的数据集。3.实验内容与步骤(1)导入实验5选取的小规模数据样本,建立规范目录结构。(2)检查文件格式、字段完整性、空值、重复样本、异常样本和命名问题。(3)完成必要的格式适配,如CSV字段整理、图片尺寸统一、文本编码转换。(4)生成数据统计摘要,如类别分布、样本数量、文件大小、字段缺失率。(5)输出清洗后数据和质量检查记录。4.实验交付物与验收要点·清洗后小样本数据、预处理Notebook、质量统计表、问题样本记录和处理说明。重点检查处理过程是否可复现,质量问题是否有记录。实验7:网络爬虫数据获取、清洗存储与合规记录(2学时)1.实验目标·理解网络爬虫数据获取的基本流程和边界。·能够完成合规前提下的小规模网页文本抓取、解析、清洗和存储。·形成尊重robots协议、版权、隐私和网站服务条款的合规意识。2.实验环境与数据·JupyterNotebook;Python;requests、BeautifulSoup或教师提供的离线HTML样本;CSV/JSON存储工具。3.实验内容与步骤(1)选择教师允许的练习网页或离线HTML样本,明确抓取目的和字段。(2)读取网页或HTML,解析标题、正文、链接或其他指定字段。(3)完成基础清洗,如去除HTML标签、空白字符、重复内容和无关噪声。(4)将结果保存为CSV或JSON,并记录字段说明。(5)填写合规记录,包括来源、访问方式、用途限制、是否含隐私信息和引用要求。4.实验交付物与验收要点·爬取/解析脚本、CSV或JSON数据文件、字段说明、合规记录和清洗说明。重点检查是否遵守教师规定的数据源,是否记录来源与用途限制。实验8:多源数据获取方案设计:众包、传感器、API与合成数据(2学时)1.实验目标·理解众包、传感器、API、合成数据、数据合作共享等获取方式的适用场景。·能够围绕一个真实应用设计多源数据获取方案。·能够从成本、质量、合规、可持续性和风险角度进行方案比较。2.实验环境与数据·教材第4章;教师提供的应用场景;方案设计模板;可选在线API文档或公开合成数据示例。3.实验内容与步骤(1)选择一个场景,如智能客服、智慧农业、城市噪声监测或校园知识问答。(2)列出至少4种可能的数据来源,并说明每种来源的获取方式。(3)设计每种来源的数据字段、采集频率、样本规模、质量控制和风险点。(4)从成本、质量、合规、可持续性和时效性角度比较方案。(5)形成“推荐方案+备选方案+风险控制措施”。4.实验交付物与验收要点·多源数据获取方案表、方案比较矩阵、风险控制说明。重点检查方案是否贴近场景,是否体现质量与合规权衡。实验9:图像处理与水果分类数据集生产项目(2学时)1.实验目标·按教材第5章案例完成水果分类数据集生产的核心流程。·训练学生把图像获取、整理、预处理、标注、质检和交付串成完整过程。·建立图像数据集“可训练、可评估、可交付”的整体意识。2.实验环境与数据·JupyterNotebook;Python;Pillow/OpenCV;LabelStudio可选;教师提供或学生采集的小规模水果图像。3.实验内容与步骤(1)确定类别体系,如苹果、香蕉、橙子等,并写出简版需求说明。(2)收集或导入水果图像,记录来源、许可和采集条件。(3)完成基础预处理,如重命名、目录组织、尺寸检查、模糊图和重复图筛查。(4)完成图像分类标签整理,可采用目录分类或LabelStudio导出格式。(5)抽检样本质量,整理README、类别清单、问题样本记录和交付目录。4.实验交付物与验收要点·小规模水果分类数据集目录、类别清单、处理脚本或Notebook、标注结果、README和问题样本记录。重点检查类别与文件组织是否规范,交付物是否清楚可用。实验10:音频处理与城市声音数据集生产项目(2学时)1.实验目标·按教材第6章案例完成城市声音数据集生产的核心流程。·掌握音频文件格式、时长、采样率、声道、噪声和标签的基础检查方法。·理解音频数据集中“声音事件—时间片段—标签—质量记录”的关系。2.实验环境与数据·JupyterNotebook;Python;librosa/pydub等音频处理库;教师提供的小规模城市声音样本。3.实验内容与步骤(1)确定城市声音类别,如车流、人声、施工、警报、鸟鸣等。(2)导入音频文件,记录来源、格式、采样率、时长和声道。(3)完成基础预处理,如格式检查、音量/时长统计、异常文件筛查。(4)整理标签文件,记录声音类别、文件名、时间片段和备注。(5)抽检音频与标签对应关系,生成README、质检记录和交付目录。4.实验交付物与验收要点·小规模城市声音数据集、音频元数据表、标签文件、处理Notebook、README和质检记录。重点检查音频字段是否完整,标签是否准确,交付结构是否规范。实验11:文档解析与中文知识问答数据集生产项目(2学时)1.实验目标·按教材第7章案例完成中文知识问答数据集生产的核心流程。·训练文档解析、文本清洗、段落组织、问答对生成和质量检查能力。·理解知识问答数据集对答案完整性、问题多样性和原文可追溯性的要求。2.实验环境与数据·JupyterNotebook;Python;pandas;jieba或文本处理工具;教师提供的教材片段、政策文档或课程资料。3.实验内容与步骤(1)选择一份中文文档或教材片段,明确问答数据集使用场景。(2)完成文本抽取、去噪、分段、编码统一和字段整理。(3)根据段落内容生成若干问答对,覆盖事实型、解释型、比较型和应用型问题。(4)对问答对进行质量检查,重点检查答案是否完整、准确、通顺并能追溯到原文。(5)保存为CSV或JSON格式,整理字段说明、README和质检记录。4.实验交付物与验收要点·中文知识问答数据集CSV/JSON、原文片段、处理Notebook、字段说明、README和质检记录。重点检查问答质量、原文可追溯性和格式规范。实验12:综合质量验收、交付打包与项目复盘(2学时)1.实验目标·综合运用课程知识完成一个小规模数据产品交付包。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论