版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《数据采集与预处理》课程标准一、课程基本情况课程代码课程名称数据采集与预处理课程学分4课程学时64课程类型理实一体考核性质考试适用专业大数据技术专业&人工智能数据工程技术专业制订时间2026.06制定人审核人课程团队成员名单姓名职务/职称工作单位承担工作二、课程性质与任务(一)课程的性质本课程是大数据技术专业/人工智能数据工程技术专业开设的专业核心课程,该课程教学内容以任务驱动为主线,围绕企业级数据采集与预处理应用进行项目任务设计。以大数据和人工智能行业实际工作岗位需求为导向选取课程内容,完成了数据采集技术概述、网络爬虫数据采集、日志数据采集、结构化数据采集、数据预处理等典型工作任务的学习,使学生掌握数据采集与预处理的核心技术,熟练使用主流数据采集工具和预处理方法,培养学生解决实际数据工程问题的能力,为后续人工智能应用开发奠定坚实的数据基础。课程目标是使学生掌握数据采集的基本概念、主流方法和技术原理;熟练使用urllib、Selenium、Scrapy等工具进行网络数据采集;掌握Flume日志数据采集的配置与使用;熟练使用Sqoop进行结构化数据的导入导出;具备使用Kettle和pandas进行数据预处理的能力;掌握文本数据预处理的基本方法;培养数据质量意识、工匠精神和安全规范意识,养成严谨细致的数据处理职业素养。(二)课程任务本课程的任务是贯彻党的教育方针,落实立德树人根本任务,以大数据与人工智能行业实际工作岗位需求为导向选取课程内容,围绕数据采集与预处理的核心工作流程,完成了从数据获取、数据清洗、数据转换到数据加载的完整ETL流程学习。课程涵盖网络爬虫、日志采集、结构化数据交换、数据预处理等典型任务,调动学生主动思考,帮助学生快速掌握数据采集与预处理的核心技术;熟练使用主流数据采集工具和预处理框架;具备完整的数据工程实践能力;培养运用数据处理工具解决实际业务问题的能力,养成诚实、守信、吃苦耐劳的品德,养成善于动脑、勤于思考、及时发现问题的学习习惯;具有团队意识,能进行良好的团队合作,养成数据安全意识和规范操作意识。本门课程建议开设学期为第2学年第2学期。课程的总学时数为64,课程学分:4。三、课程目标《数据采集与预处理》课程目标是全面贯彻党的教育方针,落实立德树人根本任务。根据大数据技术专业/人工智能数据工程技术专业人才培养目标及对应岗位能力要求,本课程致力于使学生掌握数据采集、清洗、转换和加载的核心技术,具备完整的数据工程实践能力。1.知识目标(1)掌握数据采集的基本概念、目的和意义(2)熟悉大数据的定义、基本特征及主要应用场景(3)理解数据采集的主要来源和常用方法(4)掌握网络爬虫的基本原理和主流爬虫框架(5)熟悉urllib、Selenium、Scrapy等爬虫工具的使用方法(6)理解Flume的架构原理、核心组件和工作机制(7)掌握Sqoop的工作原理和数据交换流程(8)理解数据预处理的基本概念、主要任务和工作流程(9)熟悉Kettle工具的可视化数据处理方法(10)掌握pandas库进行数据清洗和预处理的基本方法(11)了解文本数据预处理的基本方法和常用工具(12)掌握数据质量评估的基本指标和规范2.技能目标(1)能够使用urllib和BeautifulSoup爬取静态网页数据(2)能够使用Selenium爬取动态加载的网页数据(3)能够使用Scrapy框架构建分布式爬虫系统(4)能够完成Flume的安装配置,实现日志数据采集(5)能够使用Flume将采集的日志数据上传到HDFS/HBase(6)能够使用Sqoop将数据从MySQL导入HDFS/Hive(7)能够使用Sqoop将数据从HDFS/Hive导出到MySQL(8)能够使用Kettle进行可视化的数据预处理操作(9)能够使用pandas进行数据清洗、转换和预处理(10)能够使用NLTK和jieba进行中文文本数据预处理(11)能够使用FlumeInterceptor对日志信息进行过滤和预处理(12)能够在数据采集中遵循法律法规和伦理规范3.素质目标(1)培养解决问题的能力和严谨细致的职业素养(2)塑造精益求精的品质和笃实创新的意识(3)发扬勇于担当的作风和团队协作的精神(4)强化数据安全意识和规范操作的责任感四、课程内容及教学要求表1教学内容计划表序号学习内容教学要求参考课时项目任务知识要求技能要求素质要求模块一数据工程概述81项目一:数据采集与预处理准备任务1认识数据采集技术,熟悉数据采集平台熟悉数据采集的来源和采集的方法。学会数据采集平台的搭建。深度体会大数据作为国家战略资源的重要意义,培养技术创新意识。4任务2认识数据预处理技术了解原始数据存在的主要问题;熟悉数据预处理的作用和工作任务。学会数据处理工具平台的搭建。数据是任何信息系统的重要基石,培养数据质量意识和规范意识。4模块二数据采集实践382项目二:网络爬虫实践任务1使用urllib爬取北京公交线路信息熟悉urllib基本库和BeautifulSoup解析库的使用方法使用urllib基本库和BeautifulSoup解析库,学会北京公交线路相关信息的爬取。通过对公交线路数据爬取,运用知识解决社会民生问题。4任务2使用Selenium爬取淘宝网站信息熟悉Selenium基本库和pyquery解析库的使用方法使用Selenium基本库和pyquery解析库,学会淘宝网站信息的爬取。电子商务是人们生活中不可或缺的组成部分,培养合法合规的数据采集意识。4任务3使用Scrapy爬取北京公交信息熟悉Scrapy的使用学会使用Scrapy爬取北京公交信息举一反三的方法去处理同一类问题,培养创新思维。4任务4实践与拓展熟悉urllib基本库和BeautifulSoup解析库的使用方法使用urllib基本库和BeautifulSoup解析库,学会起点中文网中相关信息的爬取通过对比法来选择最优技术方案,培养技术选型能力。23项目三:日志数据采集实践任务1Flume的安装和配置熟悉Flume的相关基础知识学会Flume的安装和不同应用场景下的配置日志数据是系统运维和数据分析的重要基础,培养数据价值认知。4任务2使用Flume采集数据并上传到集群熟悉Flume的相关基础知识学会将采集的日志数据转存到HDFS的方法;学会将采集的日志数据转存到HBase的方法感受大数据分布式存储的规模和规则流程,培养规范操作意识。4任务3实践与拓展熟悉Flume日志信息的采集过程;熟悉Nginx的安装和基础语法。学会使用Flume搭建日志采集系统,并学会日志采集;学会使用Nginx和Flume搭建日志采集系统,并完成日志采集;学会使用Kettle采集Excel表格中的数据;学会使用Kettle进行多复合来源数据的采集与关联通过实际动手操作来强化理论吸收,培养实践能力。234项目四:使用Sqoop进行数据迁移任务1使用Sqoop将数据导入HDFS熟悉Sqoop的工作原理、基本命令和参数配置。学会使用Sqoop将MySQL中的数据导入HDFS的方法。数据交换是数据流转的关键环节,培养数据流转全局意识。4任务2使用Sqoop将数据导入Hive熟悉Sqoop与Hive的集成方法和数据映射规则。学会使用Sqoop将MySQL中的数据导入Hive的方法。数据仓库建设需要精细的数据导入策略,培养细致严谨的工作作风。4任务3使用Sqoop将数据导出到MySQL熟悉Sqoop导出数据的基本原理和参数配置。学会使用Sqoop将HDFS/Hive中的数据导出到MySQL的方法。数据导出需要考虑数据一致性和完整性,培养质量第一的意识。4任务4实践与拓展熟悉Sqoop数据交换的综合应用场景。学会使用Sqoop完成更复杂的数据交换任务,掌握性能优化方法。通过实践拓展技术视野,培养持续学习的能力。2模块三数据预处理实践184项目四:数据预处理实践任务1用Kettle进行数据预处理熟悉Kettle工具的基本概念、核心组件和使用方法。使用Kettle完成数据预处理任务,掌握可视化数据处理的流程。精益求精是数据处理工程师一生的追求,培养工匠精神。4任务2用pandas进行数据预处理熟悉pandas库的基本概念、核心数据结构和常用方法。使用pandas完成数据清洗、转换、合并等预处理任务。能够运用所学知识和经验,分析数据质量问题的原因并提出有效解决方案。4任务3用NLTK和jieba进行文本数据预处理熟悉NLTK和jieba工具的基本概念、安装配置和使用方法。学会使用NLTK和jieba完成中文文本的分词、词性标注和关键词提取。中文是世界上使用人数最多的语言,体验中文处理的博大精深。4任务4用FlumeInterceptor对日志信息进行数据预处理熟悉FlumeInterceptor的类型、配置方法和应用场景。使用FlumeInterceptor完成日志信息的过滤、转换和预处理。能够与团队成员就数据预处理进行有效的沟通和协作,共同完成项目目标。4任务5实践与拓展熟悉数据预处理的综合应用场景和最佳实践。学会使用多种工具完成复杂的数据预处理任务,掌握数据质量评估方法。具备创新思维,能够在掌握基本用法的基础上,探索新的解决方案。2合计64五、实施建议(一)教材及参考资料1.教材选用本课程使用教材是《数据采集与预处理》。2.参考资料(1)参考教材:《Python网络数据采集》(2)线上课程资源:网易云课堂:Python数据爬虫工程师,全栈数据工程师养成攻略;B站:python数据清洗、Scrapy框架实战等;覆盖基础理论、案例实操、项目实战等系统化教学内容。(3)网络资源:Python官方技术手册、Scrapy官方文档、Flume官方文档、Sqoop官方文档等,为学生自主学习、问题排查、技术拓展提供资源保障。(二)教学条件1.教学环境(1)配备标准化多媒体理实一体化实训室,每间实训室标配教师机、学生机、投影仪、白板、广播教学系统等全套多媒体教学设备,可满足课堂理论讲解、代码演示、实操示范、集中答疑等教学场景需求,适配程序开发类课程教学模式。(2)提供智慧教学平台,用来存放教师提供的素材以及所有学生上机完成的作业内容。方便学生每次离开实训室时进行数据备份、以便完成连续的贯穿项目、项目案例、阶段项目和毕业设计项目,实训室学生用机应能通过局域网访问项目服务器。(3)必须实现全部计算机联网并安装多媒体教学广播软件,教师可将示范的内容通过广播软件显示在学生机的屏幕上,并可以锁定学生的键盘和鼠标操作,使其专心听讲。(4)必须提供学生自由上机的时间,软件开发需要大量的课余时间进行练习,提供一个学习的环境。2.师资条件(1)本课程授课教师应具备合法有效的高等学校教师资格,拥有计算机应用、人工智能、大数据技术等相关专业背景,持有计算机技术与软件专业技术资格证书、人工智能技术应用相关职业资格证书。教师需熟练掌握Python编程、人工智能典型算法等核心专业知识,具备丰富的大数据与人工智能项目开发经验和实训指导能力,能够精准解决学生算法实操、代码调试、项目开发过程中的各类技术问题。(2)教学团队需持续提升数字化教学素养与信息化教学能力,熟练运用智慧教学平台、线上资源库、多媒体教学系统、代码演示工具等数字化教学手段,能够灵活开展线上线下混合式教学。可依托数字化资源优化教学设计,结合行业前沿计算机视觉项目案例更新教学内容,具备课堂信息化管控、实训实操指导、学情数据分析、分层教学引导的综合教学能力。3.实训条件本课程实践性、应用性极强,以数据采集、清洗、存储和特征工程为核心实训内容,需配套完善的软硬件实训设施、标准化实训资源与规范的实训管理体系,满足课程基础实操、模块实训、综合项目实战等全流程教学需求,具体实训条件如下:(1)硬件实训条件。实训机房所有计算机设备性能达标,CPU、内存、显卡配置可满足数据读取、预处理、特征工程、算法运算等实训内容的稳定运行,避免因设备性能不足导致程序卡顿、运行失败等问题。(2)软件实训条件。所有实训设备统一预装课程必备开发环境与工具,包含Python3.8及以上版本、PyCharm开发工具、NumPy、Pandas等配套算法库,同时预装数据处理软件、代码调试工具,完整覆盖课程所有基础实训、模块项目、综合实战的开发、调试、运行需求,保障学生顺利完成各类数据工程实训任务。(3)实训资源条件。配套完善的课程实训资源体系,包含课程任务单、数据工程实操案例源码、操作微课等专项资源。贴合企业真实开发规范,满足分层递进的教学需求。(4)实训管理条件。建立规范的实训课堂管理制度和项目实训考核机制,明确实训操作规范、代码编写标准、项目提交要求。教师全程跟进学生实操过程,针对代码报错、框架使用、项目调试等问题进行指导,保障教学效果落地。(三)教学组织本课程基于“产教融合、项目引领、能力递进”的整体设计理念,严格遵循数据标注、人工智能开发、智能产品运维等岗位职业成长规律,以企业真实数据工程项目典型工作任务为载体,对课程知识体系进行重构与整合,构建“一个核心、双线并行、三阶递进”的立体化课程教学体系。课程坚持“学生主体、教师引导”的教学理念,整体教学项目由简单到复杂逐层递进,理论知识采用循环式巩固教学,重难点内容实行理论讲解、实操训练A/B双线并行模式,采用课内基础实训项目与课外创新拓展项目相结合的教学形式,实施基础认知、技能进阶、项目实战三阶递进式教学,让学生在完成真实项目开发的过程中内化理论知识、锤炼实操技能、培育综合职业能力。课程整体采用模块化结构设计,全面开展项目式教学,注重知识迁移、举一反三与创新应用,重点讲授数据采集、清洗、存储和特征工程,着力培养学生的程序设计、代码调试、算法应用与项目开发能力。同时深度融合人工智能前沿技术,依托数字化教学平台推进课程教学数字化转型,全面提升课程信息化、智能化教学水平。本课程依托专业教学资源库、智慧教学平台,全面推行线上自学、线上辅导与线下课堂实操相结合的混合式教学模式,实现传统教学与数字化教学优势互补。教学全过程深度融入科技创新意识、工匠精神、数据安全意识、严谨治学素养等课程思政元素,将思政素养培育与图像处理、算法编写、项目开发、成果优化等专业教学环节深度融合,实现价值引领、知识传授、能力培养三位一体的育人目标。课前:教师依托智慧教学平台,提前发布当期授课任务的相关预习课件、微课视频、任务清单及预习思考题等资源,明确预习目标与学习要求。学生登录教学平台完成线上预习,并在平台反馈预习疑问。教师通过平台后台实时统计学生预习完成情况及高频问题,精准掌握班级学情,针对性调整线下课堂教学重难点、实操案例及教学节奏,实现因材施教、精
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年通信工程师考试题库
- 2026年初中道德与法治基础知识
- 2026年幼儿园防拐骗教育知识培训
- 2026年电力调度员初级模拟题集
- 2026年民航英语口语应试练习
- 2026年会计职称考试实务仿真题
- 2026年船员适任考试预测轮机精
- 2026年海南省五指山市高三生物下册期末考试模拟卷带答案(典型题)
- 教育管理制度
- 敬老院活动策划书集合(30篇)
- 飞锤支架设计说明书完整版
- 林木良种基地建设可行性研究报告
- ISO19600-2019合规管理体系指南(中英文对照)
- MT 210-1990煤矿通信、检测、控制用电工电子产品基本试验方法
- GB/T 13912-2020金属覆盖层钢铁制件热浸镀锌层技术要求及试验方法
- FZ/T 74007-2019户外防晒皮肤衣
- CAXA3D实体设计2018视频教程下载 入门精通高级建模装配实例教程
- 城市垃圾填埋场和污水处理厂工程【】ppt(与“施工”有关文档共145张)
- 校园物业保安秩序维护管理服务方案
- 地暖砼垫层浇筑技术交底
- 重症患者肠内营养支持常见并发症预防管理
评论
0/150
提交评论