下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课次:第讲课程教案授课主题第3章数据预处理章节内容数据预处理基础、质量与格式地点课时2教学目的与要求1、理解数据集预处理的重要性及其与模型性能的关联;2、掌握数据集预处理的核心流程与全景图;3、熟悉通用与专业数据集的类型及来源;4、了解并区分常见的数据格式及其应用场景;教学重点数据预处理的重要性与全流程、数据质量与模型性能的关联、不同数据格式(QA、对话、指令等)的理解与区分。教学难点数据质量各维度对模型性能影响机制的理解、不同数据格式在具体任务中的选择与适配。教学方法1、多媒体教学演示2、案例分析法3、讨论法教学手段网络资源应用、在线教学平台教学过程课程思政元素一、导入新课(一)播放微软Tay机器人“失控”的简短新闻报道。(二)提问引导:Tay为何会“学坏”?问题的根源可能是什么?(三)引出核心观点:数据质量决定AI行为,进而强调数据预处理的极端重要性。二、理论讲解(一)数据预处理概述1.概念与目的:定义数据预处理,阐明其目标是提升数据质量。2.核心流程全景图系统讲解预处理前、中、后三个阶段的主要任务。(二)数据质量与模型性能关联1.结合教材表3.1,重点讲解“数据纯净度”、“一致性”、“多样性”三个维度如何直接影响模型的效率、泛化能力和鲁棒性。2.穿插讲解亚马逊招聘AI性别偏见案例,深化理解。(三)数据类型与来源1.介绍通用数据(网页、书籍、对话)与专业数据(多语言、科学、代码)的区别与价值。2.展示部分代表性数据集(如CommonCrawl,arXiv,GitHub),说明其获取渠道。三、格式解析与课堂互动(一)常见数据格式详解1.对比讲解:问答格式(QAPairs)vs对话格式(Conversational)vs指令微调格式(Alpaca)。2.说明JSON/JSONL和TXT格式的适用场景。(二)小组讨论假设要微调一个“医疗问答助手”,应优先使用哪种数据格式?为什么?四、归纳总结,布置课后作业(一)回顾本次课核心:为什么要预处理(重要性),以及要处理成什么样(格式)。(二)预习任务:通读教材3.4-3.6节,了解预处理具体技术与实战案例。(三)思考题(线上平台发布):IBM面部识别系统的偏见问题,从数据预处理角度看,最可能的原因是什么?从Tay案例切入,引导学生思考技术背后的社会责任,树立“数据有伦理、算法有温度”的价值观,明确技术人员的道德边界。课堂互动设计:
通过具体场景讨论,促进学生将理论格式与实际问题结合,锻炼其技术选型与论证能力。教学后记
课次:第讲课程教案授课主题第3章数据预处理章节内容预处理技术、合规要求与实战地点课时2教学目的与要求1、掌握数据清洗、标准化、拆分等核心预处理技术的原理与方法;2、理解数据合规性的具体要求与重要性;3、能够运用Python工具链完成对话数据集的预处理实战;4、树立在数据处理过程中的安全、合规与伦理意识。教学重点数据集预处理各环节的技术实现(清洗、转换、拆分)、数据合规性要求、LCCC-base数据集预处理实战。教学难点数据清洗中敏感信息过滤与脱敏的具体实现、将预处理流程转化为可执行代码的工程化思维。教学方法1、多媒体教学演示2、案例分析法3、讨论法教学手段网络资源应用、在线教学平台教学过程课程思政元素一、回顾与衔接(一)快速回顾上节课重点:预处理重要性、流程、数据格式。(二)提问:思考题(IBM案例)的讨论分享。(三)引出本次课主题:知道了“为什么”和“做什么”,今天学习“怎么做”。二、核心技术讲解(一)预处理技术详解1.数据清洗:去重、去噪(乱码/广告)、隐私脱敏(重点)。2.格式标准化:编码、日期、单位、角色标签的统一。3.数据集拆分:训练集、验证集、测试集的意义与比例。(二)数据合规性要求1.结合教材表3.6,系统讲解数据来源、使用、处理、共享各环节的合规要求。2.重点讨论:GoogleGemini争议中,数据预处理应如何平衡“纠偏”与“真实”?三、案例实战(一)环境与项目介绍1.介绍LCCC-base数据集与实战目标。2.检查Python环境及所需库(pandas,tqdm,re等)。(二)分步演示与同步实操教师带领学生逐步完成教材3.6节的代码:1.数据加载与清洗(去除HTML标签、过滤短句)。2.格式转换(转为user/assistant角色对话格式)。3.敏感信息过滤(使用正则表达式识别手机号、身份证号)。4.数据集拆分与保存(保存为train/val/test.jsonl)。(三)效果对比与讨论1.展示处理前后的数据对比(如图3.5)。2.提问:如果数据中包含电子邮件地址,应如何修改过滤代码?四、总结与布置作业1.本章总结:利用思维导图(图3.8)梳理从“重要性”到“实战”的完整知识体系。2.布置作业:1)基础题:完成教材课后习题。2)实践题:自选一个小型公开数据集(如电影评论),完成一次简易预处理(清洗、格式转换),提交代码与简短报告。3)思考题:在数据预处理中,如何为“文化敏感性”设计过滤或标注规则?思政融入点:
从IBM案例总结,强调技术开发中尊重多样性、保障不同群体权益的普世价值,深化对技术公平性的理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026天津东丽经开区国有公司基层岗位招聘10人考试备考试题及答案解析
- 2026重庆九洲智造科技有限公司招聘工艺技术员等测试成绩公示考试参考题库及答案解析
- 2026集团融媒体中心招聘编导、剪辑实习生3人(广东)考试参考题库及答案解析
- 2026福建厦门市集美区双塔小学产假顶岗教师招聘2人考试参考题库及答案解析
- 2026中国农业科学院农产品加工研究所食物营养与功能性食品创新团队招聘合同制科研助理考试参考题库及答案解析
- 2026海康威视创新业务招聘考试参考题库及答案解析
- 2026年安徽煤矿矿用安全产品检验中心有限公司招聘劳务派遣驾驶员1名考试备考试题及答案解析
- 2026徽商银行总行金融科技岗社会招聘笔试参考题库及答案解析
- 2026河北秦皇岛市抚宁区农业发展有限公司招聘9人考试备考题库及答案解析
- 2026年海南软件职业技术学院高职单招职业适应性考试备考题库有答案解析
- 《创新创业基础》课件-项目1:创新创业基础认知
- 2026北京市通州区事业单位公开招聘工作人员189人笔试重点基础提升(共500题)附带答案详解
- 2025~2026学年山东省菏泽市牡丹区第二十一初级中学八年级上学期期中历史试卷
- 2026国家统计局仪征调查队招聘辅助调查员1人(江苏)考试参考试题及答案解析
- 2025至2030中国细胞存储行业调研及市场前景预测评估报告
- 《中华人民共和国危险化学品安全法》解读
- 水暖施工员考试及答案
- 2025年省级行业企业职业技能竞赛(老人能力评估师)历年参考题库含答案
- 水利工程施工质量检测方案
- 2025年北京高中合格考政治(第一次)试题和答案
- 卵巢类癌诊治中国专家共识(2025年版)
评论
0/150
提交评论