版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《大数据采集与预处理技术》课程标准课程类别:专业核心课适用对象:人工智能技术应用授课单位:人工智能学院学分:3 学时:56编写执笔人及编写日期:***2025年6月12日审定负责人及审定日期:***2025年6月12日一、课程定位和课程设计(一)课程的性质大数据采集与预处理技术是人工智能技术应用专业核心课,是人工智能专业学生的必须掌握的基础技能之一。该课程是程序设计基础、数据分析技术等课程的延伸,是计算机视觉技术、深度学习应用等核心课的基础要求,是学生进入人工智能领域的基础必须条件。它主要介绍不同类型的人工智能数据采集方法及其预处理技术,是大数据和人工智能等专业的基础教程,通过丰富的项目案例,演示不同数据的采集方法。通过本课程的学习,在学习过程中,通过各种类型的AI数据实践项目和案例分析,学生将掌握面向不同人工智能任务的数据采集方法和预处理方法,从而加深人工智能数据采集和预处理的理解、应用能力,为未来的专业发展打下坚实的基础。该课程以实践为主,强调基于工作过程系统化学习,是工学结合课程。(二)人才培养中的作用本课程主要学习大数据的采集、预处理方法和相关工具。目标是培养人工智能训练师、数据标注工程师、人工智能开发工程师对数据的采集和预处理能力。该课程作为人工智能技术应用专业的专业核心课,开设学期为大二第一学期,具有较强的综合应用性和专业前瞻性,学生需具备python程序设计基础、数据分析技术等专业基础课程知识,通过本门课程的学习进一步巩固专业知识和技能。本课程后续专业课程为计算机视觉应用技术、深度学习框架、自然语言处理技术等课程,以实现对本专业知识的综合应用和专业能力的集中锻炼。Python程序设计基础Python程序设计基础Python数据分析技术数据库技术应用计算机视觉技术深度学习框架应用自然语言处理技术大模型应用开发技术大数据采集与预处理为后续课程案例提供必要数据支持数据采集和处理的必要技能数据标注工程师人工智能训练师人工智能开发工程师对标以下岗位必备技能(三)课程设计思路课程设计从课程对应的就业岗位调研入手,分析得到对应的四个典型数据类型采集项目,按“内容由业务流程驱动、递进实现业务目标”的原则进行整合后提炼出三个对应的应用项目九个任务。然后,根据高职学生的能力水平和学习特点,采用真实应用项目方式将教学案例设计为与工作情景对应的九个学习情景。课程构建实践与理论教学并行的教、学、做三个层次的课程教学体系。即项目导向设计教学;职业体验组织教学;多种平台实施教学。教学过程是让学生通过工作角色扮演的方式进入学习情景的课程实践。通过职业体验式的学习来实现知识的学习和职业技能的培养,以提高学生的学习兴趣和增强学生未来的岗位适应能力。二、课程目标(一)素质目标通过大数据采集与预处理技术的学习,能够明白AI数据在当前信息经济的重要作用,对工业生产、信息传输的推动作用。通过掌握人工智能各类任务的数据采集方法、数据预处理技术等基本知识和技能,培养学生的职业基本素养。通过项目锻炼学生能熟练掌握图像数据、文本数据、语音数据的采集和预处理方法,掌握常见数据标注软件的使用技巧,使学生具有较强的动手能力和精益求精的精神,通过持续实践实验项目,使学生具备较强的动手能力、实践能力和继续学习的能力。课程思政目标职业素养工匠精神双创精神1.培养学生树立正确的价值观;2.采取启发式手段,引导学生批判性思考;3.将社会主义核心价值观融入教学。1.掌握良好用户体验的设计理念;2.掌握机器视觉的基本知识及应用技能;3.培养良好的团队合作精神。1.精心打造软件产品的追求和理念;2.不断吸收前沿技术能力;3.追求精益求精的精神。1.不断创造新成果的能力;2.具有把成果推广、应用到市场的能力。(二)能力目标学生能够根据人工智能应用场景完成不同类型的数据采集,掌握通过公开数据集、爬虫采集图像数据、文本数据以及语音数据,并能够完成不同类型数据的清洗和预处理,根据深度模型业务需求,完成数据对象标注,为数据分析和模型训练提供数据集。掌握通过爬虫技术采集图像数据,能熟练使用常见的爬虫依赖库如lxml、requests、BeautifulSoup、scrapy等完成爬虫程序编写,了解反爬机制和反反爬处理方法。熟悉公开的图像数据集的使用方法。掌握常见图像处理库如opencv、pytorch的使用,能通过图像预处理程序完成图像数据集的增强处理。能够使用常见的图像标注工具完成图像分类标注、2D框标注、多边形标注、关键点标注等。掌握使用分布式爬虫程序采集文本数据的方法,了解常见的文本公开数据集,并完成常见文本数据的采集和存储;能够应用常见的数据预处理工具对文本数据进行清洗,能够使用文本标注工程软件完成文本数据的标注。能够通过传感器采集语音数据,并使用常见语音转换接口对语音数据转换文本和标注。掌握多模态数据的采集方式,并使用预处理工具对数据进行清洗和预处理。三、课程内容与要求(一)课程教学内容与教学要求1、表情图像数据采集1.1教学内容:1.1.1表情图像数据采集环境准备1.1.2理解requests、lxml等依赖库的使用1.1.3集成开发环境和OpenCV、PyTorch的安装1.1.4了解常见的公开图像数据集1.2教学要求掌握常见图像数据的采集方法,能够安装配置图像数据采集环境,配置相关的采集工具、接口。2、表情图像数据采集实施2.1教学内容:2.1.1编写表情图像采集爬虫程序2.1.2分析常见网页结构和数据爬取方法2.1.3掌握爬虫依赖库requests使用方法2.1.4能够解析爬取的网页并提取数据2.2教学要求:能够利用爬虫依赖库编写表情图像采集爬虫程序,理解常见网页结构和数据读取解析方法。完成表情图像数据的爬取采集。3、表情图像数据预处理3.1教学内容:3.1.1PyTorch、OpenCV等对图片进行预处理3.1.2图片批量预处理的方法和程序设计3.1.3对图像进行翻转、旋转、缩放、截取、平滑、锐化等常见处理3.1.4完成爬取图像的TENSOR化、归一化3.2教学要求:理解常见的图片预处理库的使用方法,掌握常见的PyTorch图片预处理接口。对爬取的图像进行翻转、旋转、缩放、截取、平滑、锐化等预处理并Tensor化。4、表情图像数据标注4.1教学内容:4.1.1掌握常见图像标注工具Labelme和LabelImg的安装和配置。4.1.2熟悉图像分类、2D框、多边形、关键点等标注4.1.3完成表情图像数据的分类标注,使用Labelme完成表情图像的2D框标注以及多边形标注,使用LabelImg完成表情图像的关键点标注。4.2教学要求:理解常见的图片标注工具使用方法,掌握常见的图像标注类型。学生能够完成图像数据的分类标注、2D框标注、多边形标注以及关键点标注。5、豆瓣图书数据采集5.1教学内容:5.1.1了解分布式爬虫框架的安装和使用;5.1.2掌握爬虫工具scrapy和redis框架的爬虫程序开发流程;5.1.3掌握自然语言公开数据集的使用方法。5.2教学要求:了解scrapy框架、redis的安装和配置,完成豆瓣图书信息数据的爬虫程序开发。掌握爬虫数据数据库存储方法。了解常见的公开文本数据集的使用方法。6、图书信息数据预处理6.1教学内容:6.1.1掌握pandas数据处理依赖库的安装与配置;6.1.2完成图书信息数据的重复值、缺失值、异常值处理;6.1.3完成图书数据清洗,将描述性变量转换为数值型变量;6.1.4完成文本数据的训练集、测试集划分,将数据进行规范化处理。6.2教学要求:完成图书信息数据的预处理,能够掌握文本数据重复值、缺失值、异常值处理方法;并能够根据应用场景完成描述性变量转换、训练集测试集划分以及规范化处理。7、图书信息数据标注7.1教学内容: 7.1.1掌握常见的文本标注类型,了解文本分类标注、命名实体标注、词性标注、句法依存分析、关系抽取、情感标注、事件标注、序列标注等常见标注类型。7.1.2掌握常见的文本标注工具doccano、labelstudio等安装使用方法。7.1.3能够使用常见的文本标注工具对图书介绍等文本数据完成标注。8、语音直播数据采集8.1教学内容:8.1.1理解音频基础知识和常用的语音采集软件;8.1.2了解常见的语音公开数据集下载方法;8.1.3能够通过OBS等工具完成直播语音数据的采集;8.1.4能够调用常见的语音转写接口完成语音转写。8.2教学要求:掌握语音采集设备的安装和查看方法,完成语音收集源准备,能够编写语音采集程序并完成语音转写。8、语音直播数据预处理8.1教学内容:8.1.1了解常见的语音预处理类型如降采样、去噪、分帧、预加重、特征提取、傅里叶变换、时间和帧率变换、可视化、语音增强等。8.1.2熟悉常见的语音预处理库librosa、Scipy以及Noisereduce的安装和使用;8.1.3能够使用常见的语音预处理工具完成语音数据的预处理。8.2教学要求:掌握常见语音预处理工具如librosa、Scipy以及Noisereduce的安装和使用,能够使用以上工具完成语音数据的常见预处理操作。9、语音直播数据标注9.1教学内容:9.1.1了解常见的语音数据标注类型库,如语音段标注、语音词语标注、情感标注以及标注的质量控制;9.1.2掌握常见的语音标注工具如Praat、LabelStudio的安装和使用;9.1.3完成语音直播数据文本转录、情感标注以及事件标注等典型标注任务;9.2教学要求:了解语音数据的常见标注类型,能够掌握常见的语音标注工具的安装和使用;能够根据应用场景完成语音数据的常见标注任务。(二)课程学时分配学时分配表序号教学内容(按课题或知识单元)学时其中讲授实践其他1表情图像数据采集8442表情图像数据预处理8443表情图像数据标注4224图书信息数据采集8445图书信息数据预处理8446图书信息数据标注4227语音直播数据采集4228语音直播数据预处理8449语音直播数据标注422学时总计562828四、实践教学(一)课内实践项目实验一1、名称:表情图像数据采集实验2、内容:(1)安装配置数据集成开发环境;(2)安装采集环境依赖包lxml、requests以及BeautifulSoup;(3)使用公开数据集采集表情图像数据;(4)分析常见的网站爬虫表情图片方法;(5)开发表情图像爬虫采集程序并完成图像数据采集。3、目的要求:(1)掌握python爬虫程序相关依赖库的安装和使用。(2)掌握常见的图像数据集采集方法。4、课时数:4学时实验二1、名称:表情图像数据预处理实验2、内容:(1)安装配置torchvision等常见的图像预处理库,掌握常见的图像预处理类型;(2)完成表情图像常见的翻转、旋转、颜色转换、饱和度增强、清晰化、滤波等操作。(3)完成表情图像数据的归一化、张量化、训练集和测试集划分操作。3、目的要求:(1)掌握图像数据的常见预处理方法;(2)掌握图像数据面向人工智能模型的常见操作;4、课时数:4学时实验三1、名称:表情图像数据标注实验2、内容:(1)安装常见的图像数据标注软件如Labelme\LabelImg等;(2)熟悉常见的图像标注类型如分类、2D框、多边形、关键点等标注;(3)结合表情图像面向的不同深度学习模型处理任务完成图像标注;3、目的要求:(1)掌握常见的图像标注工具安装和使用;(2)掌握图像标注类型和标注方法;(3)能够根据业务场景完成图像标注。4、课时数:4学时实验四1、名称:图书信息数据采集2、内容:(1)安装配置Scrapy爬虫依赖库和分布式工具redis;(2)设计开发分布式豆瓣图书数据爬虫程序;(3)完成图像信息数据的采集和数据持久化。3、目的要求:(1)掌握分布式爬虫程序的开发方法;(2)掌握常见的分布式爬虫工具;(3)能够根据业务场景完成数据持久化。4、课时数:2学时实验五1、名称:图书信息数据预处理实验2、内容:(1)安装和配置常见数据清洗工具如pandas,掌握其常用的数据处理接口;(2)完成图书信息数据的预处理,如重复值、缺失值、异常值等处理;(3)完成图书信息数据的描述性变量转换、训练集测试集划分、数据规范化等操作;3、目的要求:(1)掌握常见文本数据清洗方法;(2)掌握文本数据常见预处理操作。4、课时数:4学时实验六1、名称:图书信息数据标注实验2、内容:(1)安装和配置常见文本标注工具如doccano、LabelStudio等;(2)了解常见的文本标注类型如命名实体标注、情感标注、关系标注等;(3)面向不同的深度学习处理模型完成图像信息数据的文本标注。3、目的要求:(1)掌握常见文本数据标注工具使用方法;(2)掌握文本数据常见的标注操作。(3)熟悉不同文本标注数据所适用的深度学习模型处理场景。4、课时数:4学时实验七1、名称:语音直播数据采集实验2、内容:(1)掌握音频数据采集环境配置(2)熟悉语音数据的采集场景和采集方法(3)完成语音数据程序的编写(4)完成语音数据的采集和保存3、目的要求:(1)掌握语音数据采集环境配置方法(2)能够根据实际场景编写语音采集程序(3)能够对语音数据进行采集保存(4)掌握循环、实时、自动采集程序编写方法4、课时数:4学时实验八1、名称:语音直播数据预处理实验2、内容:(1)完成语音预处理常见库librosa、Scipy、Noisereduce等安装和使用场景;(2)完成语音数据的预处理如去噪、预加重、傅里叶变换、特征提取、滤波等;(3)完成语音直播数据的预处理操作。3、目的要求:(1)了解常见语音数据预处理方法;(2)掌握常见的语音预处理工具使用;(3)掌握常见的语音预处理程序开发设计方法。4、课时数:2学时实验九1、名称:数据直播标注实验2、内容:(1)完成常见语音数据标注工具如Praat、LabelStudio的安装,熟悉其使用方法。(2)使用语音数据标注工具完成语音直播数据的文本转录;(3)使用语音数据标注工具完成语音直播数据的情感标注、事件标注等任务;3、目的要求:(1)了解常见的语音标注工具安装和使用方法;(2)熟悉语音数据标注类型和适用场景;(3)掌握常见的语音数据标注方法。4、课时数:2学时实践教学安排表(以实践项目先后顺序编排)序号实践项目学时备注1表情图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大学本科三年级(粮食工程)粮食储藏与加工技术测试题及答案
- 2025年大学本科(服装与服饰设计)服装史试题及答案
- 2025年中职大气科学(大气物理学)试题及答案
- 中职第二学年(服装设计与工艺)服装裁剪与缝制2026年阶段测试题及答案
- 2025年大学(人口学)人口政策与规划期末试题及答案
- 2025年中职畜牧兽医(动物育种技术)试题及答案
- 高职第二学年(艺术设计)室内空间设计2026年阶段测试题及答案
- 2025年高职港口与航运管理(港口作业管理)试题及答案
- 2025年中职中西面点(面包整形工艺)试题及答案
- 2025年高职种子生产与经营(良种繁育技术)试题及答案
- 2026云南昆明铁道职业技术学院校园招聘4人考试笔试参考题库及答案解析
- 模板工程技术交底
- 2025广东广州南沙区南沙街道社区专职工作人员招聘32人考试笔试参考题库及答案解析
- 广东省广州市越秀区2024-2025学年上学期期末考试九年级数学试题
- 医疗器械全生命周期有效性管理策略
- 排水管道养护试题及答案
- 2025国家电投集团水电产业平台公司筹备组人员选聘备考题库及一套答案详解
- 外科术后护理与康复指导
- 2025版《煤矿安全规程》学习辅导课件(运输、提升和空压机)
- 平台合作协议书合同
- 护理学毕业论文
评论
0/150
提交评论