版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据采集与预处理技术**项目一表情图像数据采集和预处理序号软件配置要求1python3运行计算机内存8G以上2torchvision最新版本3requests、lxml最新版本一、项目目标:1、完成表情图像数据采集环境安装配置,掌握爬虫必备知识;2、完成表情图像数据爬虫采集程序设计和数据采集;3、完成表情图像数据预处理。二、环境要求:任务一表情图像数据采集环境准备一、任务目标1、完成python、pytorch、requests、Lxml、BeautifulSoup等依赖库安装;2、完成各依赖库的典型用例,保证测试环境正常;3、熟练掌握HTML文件结构,能够分析各组件元素的含义。二、采集方法网络爬虫公开数据集摄像机传感器API接口或者已有图像生成三、爬虫采集步骤四、开发环境搭建1、python3、opencv、numpy、pycharm等介绍在其它课程有介绍,不再赘述。2、torchvision是PyTorch项目官方维护的一个核心库,专为计算机视觉任务设计。它的核心目标是简化计算机视觉模型的开发、训练和评估流程,提供一系列高效且易于使用的工具。安装方法,在集成环境中搜索torchvision选择默认版本安装即可,在命令行使用如下命令:pipinstalltorchvision选择目标网站确定爬虫工具编写爬虫脚本处理反爬机制图像存储管理四、开发环境搭建2、torchvision主要组件和功能包括:预训练模型(Models):提供大量经典的、高性能的、开箱即用的预训练模型架构,如AlexNet、ResNet、FasterR-CNN等。常用数据集(Datasets):内置加载许多广泛使用的计算机视觉数据集的接口,如MNIST、ImageNet、COCO(目标检测、实例分割、关键点检测)、VOC(目标检测、语义分割)等。图像变换(Transforms):提供丰富的图像预处理和数据增强函数(torchvision.transforms模块)。包括常见的操作(如调整大小Resize、裁剪Crop、旋转Rotate、翻转Flip、归一化Normalize、色彩抖动ColorJitter)以及将多个变换组合成流水线的功能。四、开发环境搭建3、RequestsRequests是一个为人类设计的简单而优雅的HTTP库。requests库是一个原生的HTTP库,比urllib3库更为容易使用。requests库发送原生的HTTP1.1请求,无需手动为URL添加查询串,也不需要对POST数据进行表单编码。相对于urllib3库,requests库拥有完全自动化Keep-alive和HTTP连接池的功能。
安装方法,在集成环境中搜索requests选择默认版本安装即可,在命令行使用如下命令:pipinstallrequests4、LxmlLxml库是python的第三方库,特点是简单和易上手,并且解析大型文档(如xml或html文档)比较快,因此写爬虫解析网页的时候可以选择。在集成环境中搜索lxml选择默认版本安装,命令行安装:pipinstalllxml四、开发环境搭建5、BeautifulSoupPython第三方库,需要安装使用。BeautifulSoup将HTML内容转换成结构化内容,只要从结构化标签里面提取数据,比如,要获取百度首页的标题“百度一下,我就知道”,这个标题是被两个标签套住的,一个是一级标签<head><head>,另一个是二级标签<title><title>,所以只要从标签中取出信息就可以了。安装方法,在集成环境中搜索bs4选择默认版本安装即可,在命令行使用如下命令:pipinstallbs4五、依赖库使用示例1、python爬虫依赖库requests示例:发送一个get请求并查看返回结果importrequestsurl='/tipdm/index.html'#生成get请求rqg=requests.get(url)#查看结果类型print('查看结果类型:',type(rqg))#查看状态码print('状态码:',rqg.status_code)#查看编码print('编码:',rqg.encoding)#查看响应头print('响应头:',rqg.headers)#打印查看网页内容print('查看网页内容:',rqg.text)查看结果类型:<class’requests.models.Response’>状态码:200编码:ISO-8859-1响应头:{’Date’:’Mon,18Nov201904:45:49GMT’,’Server’:’Apache-Coyote/1.1’,’Accept-Ranges’:’bytes’,’ETag’:’W/"15693-1562553126764"’,’Last-Modified’:’Mon,08Jul201902:32:06GMT’,’Content-Type’:’text/html’,’Content-Length’:’15693’,’Keep-Alive’:’timeout=5,max=100’,’Connection’:’Keep-Alive’}五、依赖库使用示例2、python爬虫依赖库lxml对于爬虫请求的html网页,实际是xml文件,因此需要使用对于的解析工具找到目标资源,然后发起请求抓取资源。使用lxml库的第一个步骤永远是初始化,只有初
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高职第一学年(康复治疗技术)康复评定技术试题及答案
- 2025年中职助产(助产技术)试题及答案
- 2025年大学(工艺美术)工艺美术概论试题及答案
- 2025年高职第一学年(现代供配电技术)供配电系统运行阶段测试试题及答案
- 2025年中职(计算机应用)数据库应用综合测试题及解析
- 2026年社保服务(参保办理)考题及答案
- 2025年高职美术教学法(教学方法)试题及答案
- 航空制造角度装配工艺规范
- 川北幼儿师范高等专科学校《道路工程和选线设计》2025-2026学年第一学期期末试卷
- 湖南医药学院《国际货运代理》2025-2026学年第一学期期末试卷
- 社会研究方法风笑天
- 激光切割软件lasercad说明书
- 柑桔周年管理工作历第二版课件
- 学生教职工每日晨检午检流程图
- 医学髌上入路髓内钉技术治疗胫骨骨折专题课件
- Q∕SY 1775-2015 油气管道线路巡护规范
- 高处作业吊篮安装验收表(范本模板)
- [管理]企财险风险查勘记录
- 中药学综合知识与技能考试卷
- 220th煤粉锅炉热力设计热动专业锅炉原理课程设计书
- 美术第二课堂国画教案
评论
0/150
提交评论