版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据采集与预处理技术*
*项目一表情图像数据采集和预处理序号软件配置要求1Python3运行计算机内存8G以上2Pytorch最新版本3Pycharm+Requets+Lxml最新版本一、项目目标:1、完成表情图像数据采集环境安装配置,掌握爬虫必备知识;2、完成表情图像数据爬虫采集程序设计和数据采集;3、完成表情图像数据预处理。二、环境要求:任务三表情图像数据预处理一、任务目标1、掌握常见的预处理操作;2、完成表情图像数据的旋转、剪切、拉伸等预处理操作;3、完成表情图像数据的Tensor化,编写批量预处理程序。二、任务内容1、表情图像剪裁、饱和度增强、仿射变换、水平或垂直翻转、旋转;2、图像增强、模糊、颜色变换3、图像Tensor化操作任务三表情图像数据预处理一、图像筛选对于分类模型需要把图片分为不同的类别,任务一中通过公开数据集和爬虫采集了一部分人脸图像,我们可以根据需要分为Anger、Contempt、Disgust、Fear、Happy、Neutral、Sad、Surprised文件夹,把对应的表情图像分放到不同文件夹中,如果采集的图像不属于以上几类表情,可以不作为训练数据(删除不需要的图像)。任务三表情图像数据预处理二、图像统一化对表情图像进行统一化可以使用Python代码实现,实际上利用PyTorch图像处理接口来处理该类任务是非常常见的处理操作,通常包括统一图像大小、统一图像颜色编码,对于传统机器视觉模型还需要统一图像位深度。一般图像数据集数据庞大,需要提前准备好数据。假设所有数据存储在images文件夹,images文件夹下有Anger、Contempt、Disgust、Fear.、Happy、Neutral、Sad、Surprised文件夹,这8个文件夹下放置了各类表情图像,样式如右图:2.1读取图像并统一大小、tensor化importosimporttorchvision.transformsastransforms#导入python图像处理库,如果没有可以使用pipinstallPillow安装fromPILimportImagefile_dir='images'#原图片所在文件夹features_dir='features' #特征图要保存到的文件夹#读取图像所在目录的图像文件夹img_dirs=os.listdir(file_dir)#遍历每个图像文件夹fordirinimg_dirs:#生成图像所在目标img_dir=os.path.join(file_dir,dir)out_path=os.path.join(features_dir,dir)#如果文件夹没有创建则创建2.1读取图像#如果文件夹没有创建则创建ifos.path.exists(out_path)isFalse:os.makedirs(out_path)#找到每个图像文件夹下的所有图像img_names=os.listdir(img_dir)#遍历读取每张图像名称forimg_nameinimg_names:#生成每个图像的路径
img_file=os.path.join(img_dir,img_name)#读取图像
img=Image.open(img_file)#大小统一化处理转换器
transform1=transforms.Resize(256)#对图像进行大小统一化2.1读取图像#对图像进行大小统一化
resize_img=transform1(img)transform2=transforms.Compose([transforms.ToTensor(),#将图像转换为Tensor])#将Tensor转换为PIL图像image=transforms.ToPILImage()(resize_img.squeeze(0))#生成保存文件路径和文件格式
img_name=f'image_{i}.jpg'img_path=os.path.join(out_path,img_name)#保存图像为JPG格式image.save(img_path)2.2图像增强预处理
任务二中采集了人像数据,但是数据仍然不够丰富,在图像模型训练时,数据集的稀缺很容易令模型出现过拟合,泛化能力差等问题。因此,在输入给深度模型使用之前还需要对数据预处理,对有限的图像数据集进行图像增强处理以扩展图像训练集,常见的包括翻转、旋转、尺寸缩放、灰度化、高斯模糊、剪裁、仿射变换、锐化等操作。#导入依赖库如前述页示例,读者自行参考查阅trans1=[#色彩饱和度增强 transforms.ColorJitter(brightness=0.3,contrast=0.3,saturation=0.3,hue=0.4),
#随机仿射变换 transforms.RandomAffine(degrees=20,translate=None,scale=None,shear=0.3)]trans2=[#随机水平翻转
transforms.RandomHorizontalFlip(1),#随机垂直翻转
transforms.RandomVerticalFlip(1),
#随机旋转
transforms.RandomRotation((0,360))]trans3=[#随机进行颜色转换
transforms.RandomInvert(1),#随机进行直方图均衡化
transforms.RandomEqualize(1),#随机进行高斯模糊
transforms.GaussianBlur(kernel_size=(5,9),sigma=(0.1,5))]trans4=[#随机进行色彩分离
transforms.RandomPosterize(bits=2,p=0.6),#随机过度曝光
transforms.RandomSolarize(threshold=192.0),#随机对图像进行锐化
transforms.RandomAdjustSharpness(sharpness_factor=2,p=1)]forimage_nameinimages: #读图片并进行预处理,每张图片读取参照前述案例img=Image.open(image_name)#随机选择预处理1transform_random=Nonetransform_random=transforms.RandomApply(trans1,p=0.2)result=transform_random(resize_img)#随机选择预处理2transform_random=transforms.RandomApply(trans2,p=0.3)result=transform_random(result)#随机选择预处理3transform_random=transforms.RandomApply(trans3,p=0.2)result=transform_random(result)#随机选择预处理4transform_random=transforms.RandomApply(trans4,p=0.3)result=transform_random(result)result.save(os.path.join(img_str.split('.')[0]+'new.jpg')) #保存预处理后的图片2.3图像输入模型前预处理
#在模型训练之前使用trans5=[ #张量化处理 transforms.ToTensor(), #标准化处理
transforms.Normalize([0.5,0.5,0.5],[0.5,0.5,0.5])]#随机选择预处理5transform_random=transforms.RandomApply(trans5,p=1)result=transform_ran
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 50hz轨道电路的日常维护和故障处理
- 2025年高职(食品质量与安全)食品质量管理测试题及答案
- 2025年大学(眼视光学)眼科学基础真题及答案
- 2025年高职第一学年(纺织工程技术)纺织设备维护基础综合测试试题及答案
- 2025年大学核安全工程(核安全方案)模拟试题
- 大学(临床医学)内科常见病诊断2026年阶段测试题及答案
- 2025年大学水利工程与管理(水利工程施工)试题及答案
- 2025年大学咖啡拉花(技法训练)试题及答案
- 2025年大学(环境设计)室内空间设计期末试题及答案
- 2025年中职水域环境监测与保护(水质监测)试题及答案
- 2025海南省红十字医学捐献服务中心招聘事业编制人员1人(第1号)备考考试题库附答案解析
- 监理员答辩课件
- 2025-2030农村养老服务体系建设现状与可持续发展策略研究
- 2025年事业单位招聘考试卫生类中医学专业知识试卷
- 中国证券登记结算有限公司笔试
- 2025注册城乡规划师考试真题及答案详解
- 2025年度云南省大数据有限公司第二批公开招聘笔试参考题库附带答案详解
- DB32/T+5124.2-2025+临床护理技术规范+第2部分:成人危重症患者无创腹内压监测
- 2025国考税务考试题目及答案
- 特殊疑问句的教学课件
- 途虎养车加盟协议合同
评论
0/150
提交评论