下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据采集与预处理课程教案课程思政版·理实一体化课程名称数据采集与预处理课程类型专业核心课(理实一体化)教案编号P1-T1授课周次第周章节项目1数据采集与预处理准备本次学时4学时(180分钟)课题任务1认识数据采集技术,熟悉数据采集平台授课类型理论+实践授课地点计算机实训室授课班级授课日期年月日授课教师教室/实训室计算机实训室一、教学目标目标维度具体内容🎯课程思政目标(价值塑造)通过本任务的学习,培养学生:①精益求精的工匠精神和严谨细致的工作态度;②遵守职业规范、保护数据安全的职业道德意识;③团队协作、共同解决技术问题的合作精神。📚认知目标(知识传授)①识记数据采集与预处理的概念和目的。②领会数据采集与预处理的意义。💪能力目标(技能培养)①熟悉数据采集技术。②熟悉数据预处理技术。③学会数据采集与预处理环境的搭建。二、教学重点与难点(核心知识点)类别内容教学重点1.学习数据采集等相关知识,熟悉大数据的定义、大数据的基本特征及数据采集的相关技术、工具和产品等。2.熟悉数据的来源和数据采集方法。3.完成Scrapy平台的搭建。4.完成ApacheFlume平台的搭建。5.掌握数据的来源和数据采集的方法。6.学会搭建数据采集平台。教学难点1.学习数据采集等相关知识,熟悉大数据的定义、大数据的基本特征及数据采集的相关技术、工具和产品等。2.熟悉数据的来源和数据采集方法。3.完成Scrapy平台的搭建。三、教学过程设计(180分钟理实一体化)教学环节时间教学内容与活动课程思政融入课程导入10分钟1.情景导入:展示认识数据采集技术,熟悉数据采集平台在实际项目中的应用案例2.回顾上节课的知识点,建立知识联系3.提出本节课的学习问题:如何实现认识数据采集技术,熟悉数据采集平台?4.明确本次任务目标和学习路径创设真实应用情境,激发学习兴趣,潜移默化融入思政元素,引导学生思考技术与社会的关系。理实一体化78分钟②网络数据采集方法。网络数据采集是指通过网络爬虫或网站公开应用程序接口(ApplicationProgrammingInterface,API)等方式从网站上获取数据信息,该方法可以将非结构化数据从网页中抽取出来,并以结构化的方式存储为统一的本地数据文件。网络数据采集方法支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网络中包含的内容之外,对于网络流量的采集还可以使用深度包检测(DeepPacketInspection,DPI)或深度流检测(DeepFlowInspection,DFI)等带宽管理技术进行处理。③其他数据采集方法。对于企业生产经营数据或科学研究数据等对保密性要求较高的数据,可以通过与企业、研究机构合作或授权的方式,使用特定系统接口等实现数据采集。(2)网页数据采集的方法网页数据具有分布广、格式多样、非结构化等大数据的典型特点,需要有针对性地对网页数据进行采集、转换、加工和存储。在网页数据的架构和处理方面,存在亟须突破的若干关键技术。传统的数据挖掘、分析处理方法和工具,在非结构化、高速化的大数据处理要求面前显得过于乏力,需要创新开发适应新型大数据处理需求的数据挖掘和数据处理方法。网页数据是大数据的一个重要组成部分,是互联网公司和金融机构获取用户消费、交易、产品评价信息以及其他社交信息等数据的重要途径,为互联网和金融服务创新提供了丰富的数据基础,因此,对网页的大数据处理流程和技术进行探索具有重要意义。①网页数据采集的基本过程。网页数据采集就是爬取互联网中相关网页,并从中抽取出所需内容的过程。网页数据处理,就是对抽取的网页数据进行内容和格式上的处理,进行转换和加工,使之能够适应用户的需求,并进行存储以供后续使用。网络爬虫(WebCrawer)是一种自动提取网页的程序,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成部分。网络爬虫根据任务目标和设计理念,又分为传统爬虫(也称通用爬虫)和聚焦爬虫(也称主题爬虫)。传统爬虫从一个或若干初始网页的URL开始,获得初始网页的URL,在爬取网页的过程中,不断从当前页面中抽取新的URL放入队列,直到满足系统设定的停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待爬取的URL队列。它将根据一定的搜索策略从队列中选择下一步要爬取的网页URL,并重复上述过程,直到满足系统设定的停止条件。另外,所有被网络爬虫爬取的网页将会被系统存储起来,进行一定的分析、过滤,并建立索引,以便之后进行查询和检索。对聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的爬取过程给出反馈和指导。网络爬虫自动提取网页的过程如图1-1所示。②网页数据采集的工作过程。通过了解国家大数据战略,培养学生的数据主权意识和科技报国情怀,引导学生认识到数据安全的重要性。理实一体化77分钟网页数据采集的目的就是把目标网站上网页中的文字或图片等资源下载到指定位置。为实现该目标需要做如下配置工作:下载网页配置,解析网页配置,修正结果配置,输出配置数据。如果数据符合要求,则修正结果配置这一步可省略。配置完毕后,把配置形成任务(任务以XML格式描述),采集系统按照任务的描述开始工作,最终把采集到的结果存储到指定位置。整个网页数据采集过程的基本步骤如下。a.将需要爬取数据网站的URL(SiteURL)信息写入URL队列。b.网络爬虫从URL队列中获取需要爬取数据网站的URL信息。c.获取URL信息对应的网页内容。d.从网页中抽取出内容,如果抽取到的内容为URL,则按照步骤e处理;如果抽取到的内容不包含URL,则按照步骤f执行。e.过滤URL。将当前URL和已经爬取过的URL进行比较,如果当前URL没有被爬取过,则跳转到步骤a继续执行;如果当前URL已经被爬取过,则放弃对这个地址的操作。f.获取网页内容,并抽取所需属性的内容。g.将抽取的网页内容写入数据库。网页数据采集的工作过程如图1-2所示。相应的网页内容提取、数据采集与数据处理逻辑如图1-3所示。③Web信息数据自动采集。Web可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特性。因此,准确、迅速地从Web中获取所需的数据十分困难。尽管目前有各种搜索引擎,但是搜索引擎在数据的查全率方面考虑较多,查准率不足,而且很难进一步挖掘深度数据。所以,人们开始研究如何更进一步地获取互联网中某一个特定范围内的数据,从信息搜索到知识发现。Web数据自动采集涉及Web数据挖掘(WebDataMining)、搜索引擎(SearchEngine)、信息提取(InformationExtraction)、信息检索(InformationRetrieval)等概念和技术。这些概念密切相关,但又有所区别。a.Web数据自动采集与Web数据挖掘。通过独立实践操作,培养学生自主探究能力和解决实际问题的技术应用能力,强调规范操作和数据安全意识。课堂总结15分钟1.梳理本次课程的核心知识点2.对比总结认识数据采集技术,熟悉数据采集平台的关键操作步骤3.布置课后作业:完成课后练习题,预习下一任务4.预告下一次课程内容归纳总结知识要点,强化职业规范意识,鼓励学生持续学习、精益求精,以工匠精神要求自己。四、课后作业①复习并整理本次课程的核心知识点,撰写不少于200字的学习心得。②完成教材项目1数据采集与预处理准备中与认识数据采集技术,熟悉数据采集平台相关的课后练习题。③拓展练
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年畜牧师资格考试重点串讲
- 2026年失智老人生活护理模拟题
- 2026年幼儿园幼儿防护知识
- 2026年小学生宇宙与地球知识
- 2026年保险精算师模拟试卷
- 2026年中学政治教师招聘笔试题集
- 2026年应急队员考试模拟题解
- 2026年软件设计师考试重点难点突破
- 2026年小学二年级下册语文词语默写专项过关卷含答案
- 2026年小学六年级下册数学口算速算技巧专项训练卷含答案
- 辅导员基础知识试题及答案
- (完整版)韦氏儿童智力测试试题
- 我是爸妈的小帮手课件
- 部编版语文八年级下册第五单元游记散文阅读练习(含解析)
- 公路隧道开挖施工技术规范
- 现代全口义齿学知到章节答案智慧树2023年浙江大学
- x社区房屋修缮工程监理规划
- 行星轮系的效率
- 国家开放大学电大本科《离散数学》2023-2024期末试题及答案(试卷代号:1009)
- 高标准农田建设示范工程安全应急预案
- 农村卫生旱厕建设技术规范征求
评论
0/150
提交评论