版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目五《数据可视化服务》主讲教师:候佳丽Datavisualizationservice任务一:票据数据可视化CONTENTS目录任务需求01Taskrequirements可视化需求02VisualizationrequirementS票据数据可视化03VisualizationofBillData任务需求面对海量的数据,我们如何快速有效的得到数据中所传递的信息?同样的数据,可以用一张表格或者一张图片呈现,很明显,通过图形化方式呈现以后,信息更清晰明了的显示出来了。这就是数据可视化的意义所在。任务需求在数据可视化部分,选择开源票据数据集作为我们的可视化数据集,可以更好的体验票据数据可视化。该数据集为Kaggle平台上的开源数据集,数据集文本内容为英文购物小票。数据可视化需求研究员想了解训练数据的数据情况,探索数据的基本信息:数据集内有多少张图像样本?
1数据集内最多和最少的文本框个数是多少?图像样本分别具有什么性质?3数据集图像的文本标签长度分布情况如何?5数据集中有哪些类别?和其他项目对比有什么区别?2数据集内图像的字符分布情况如何?4数据集图像的分辨率分布情况如何?6票据数据可视化操作1:
利用平台,读取数据集内测试集与训练集的样本数量。1.查看数据集的数量引用数据集中存储了可视化数据集,为开源票据数据集,后续也可以进一步探索标注阶段的数据集#标注数据集地址#训练图像文件夹地址TRAIN_DIR='/data/54JHKL/OCR_EDA_Data/OCR_Data/train/imgs'#测试图像文件夹地址TEST_DIR
='/data/54JHKL/OCR_EDA_Data/OCR_Data/test/imgs'#训练图像标注文件地址TRAIN_JS_PATH
='/data/54JHKL/OCR_EDA_Data/OCR_Data/train.json'#测试图像标注文件地址TEST_JS_PATH
='/data/54JHKL/OCR_EDA_Data/OCR_Data/test.json'#输出数据集数量(完成程序)
完成程序提示:利用"Os"程序库内函数读取数量。完成"notebook
文档”上的程序回顾pycocotoolspycocotools库(python
api
tools
of
COCO)
是专用于COCO数据集格式的加载、解析与可视化的工具。getImgIds(imgIds=[],catIds=[])获取图像id(可选参数为imgIds,catIds)。若设置catIds参数,则可以根据类别id获取该类别下的图像idloadImgs(ids=[])根据图像id获取图像信息getCatIds(catNms
=[])获取类别id(主要参数catNms),可根据类别名获取类别idloadCats(ids
=
[])根据类别id获取类别信息getAnnIds(imgIds=[],catIds=[])获取标注id(主要参数imgIds,catIds),可根据图像id,类别id获取标注idloadAnns(ids=[])根据标注id获取标注信息showAnns(anns)显示标注信息票据数据可视化票据OCR的coco
类
的json标签文件包含以下“3”个大部分:"iscrowd":0,"category_id":0,"bbox":[72,198,431,29"area":12499,72,198,503,198,503,227,72,2271,"image_id":0,"id":e,"textAttribute":"AIK
HUAT
HARDWARE",
"order":1"images":t"file_name":"X51887339643.jg",
"height":1659,"width":591,"segm_file":"X51087339643.txt","id":0},{"file_name":"X51006620191.jpg",
"height":1979,"width":884,"segm_file":"X51086620191.txt","id":1{"filename":"X51086414675.jpg","height":7016,"width":4961,"segm_file":"x51086414675.txt","id":2{"file_name":"x5185605285.jpg","height":1481,"width":697,"segm_file":"x51805605285.txt",
"id":3"categories":["id":0,}"name":"text""segmentation":["annotations":[},},数据集图像信息数据集类别信息数据集标注信息"categories""annotations""images"票据数据可视化对比两个不同项目json
标签文件内的"categories
"标签部分,有什么区别?口罩检测项目的类别标签票据OCR项目的类别标签OCR的任务中,类别只有一个“text”票据数据可视化操作2:
利用平台程序,读取数据集内的类别信息。#
#获取数据集类别(完成程序)完成程序在下方完成程序,获取训练数据集类别感知传感器包括视觉传感器、激光传感器、雷达传感器等类型。视觉传感器:即摄像头,摄像头分为单目视觉和双目(立体)视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye,加拿大的PointGrey,德国的Pike等。激光传感器:分为单线和多线。每多一线,成本相应上涨,当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy,德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器:雷达传感器已经在汽车上得到了广泛使用,应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。票据数据可视化如何统计文本框数量?票据数据可视化操作3:
利用平台程序,使用pycocotools的方法统计训练集和测试集的文本框数量。3.统计训练集和测试集的文本框数量#统计训练集和测试集的文本框数量(完成程序)
完成程序使用pycocotools的方法统计训练集和测试集的文本框数量提示:标注信息记录了每个文本框的相关信息票据数据可视化"annotations"
中包含了数据集主要的标注信息。右图截取的是某图像内的一个文本框的标注标签信息标注框的位置图像编号文本框标签编号文本内容当前图像编号下的文本框顺序编号票据数据可视化除了利用pycocotools
的相关方法,还可以直接读取json文
件
,统计
'annotations‘字段中标注信息的个数。"annotations”
为json
字典元素内的"key",而对应的
"value
"为一个列表,列表内的每一个元素用新的字
典
"{}"存储
一
个标签成员,所以我们可以通过提取annotations的
"value",
判断其长度来得到文本框标
签的数量。票据数据可视化操作4:
利用平台程序,直接读取训练集与测试集的json文件,统计训练集和测试集的文本框数量。提示:利用字典的相关操作票据数据可视化下图表示同一张图像中有多个文本框:可以通过“image_id”来判断文本框是否为同一张图像。票据数据可视化操作5:
完成平台上的程序,查找训练集文本框最多和最少的图像。方法一:利
用pycocotools的方法获取图像上的标注信息。方法二:通过解析json
文件,以读取字典的形式获取图像上的标注信息。票据数据可视化操作6:
完成平台程序,统计训练集中各个字符出现的数量以及每个标注文本长度。读取文本中的每一个字符,统计字符的数量。使用len()方法计算文本的长度小票中的字符包括:abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789通过读取“textAttribute”的值,获取文本信息票据数据可视化操作7:
完成平台程序,统计训练集中图像的分辨率分布与标注框的大小分布。
读取“images”字段,分别统计图像的高和宽读取“annotation”字段,统计每个标注信息的标注框大小感知传感器包括视觉传感器、激光传感器、雷达传感器等类型。视觉传感器:即摄像头,摄像头分为单目视觉和双目(立体)视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye,加拿大的PointGrey,德国的Pike等。激光传感器:分为单线和多线。每多一线,成本相应上涨,当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy,德
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子电气产品能效检验员安全综合测试考核试卷含答案
- 聚偏氯乙烯装置操作工岗前实操效果考核试卷含答案
- 醋酸乙烯装置操作工岗前内部控制考核试卷含答案
- 水电站水工建构筑物维护检修工安全实操模拟考核试卷含答案
- 电子电路逻辑布线工QC管理强化考核试卷含答案
- 自体干细胞移植的并发症及护理措施
- 大肠息肉的术后护理
- 河南省2025-2026学年高二历史上学期期末考试16-4选择性必修三册
- 门诊护理伦理与法律问题
- 针灸操作技术及护理配合
- 2026浙江宁波高新技术产业开发区人民检察院面向社会招录聘用制书记员3人笔试参考试题及答案解析
- GB/T 47383-2026航空航天O形圈沟槽尺寸
- 2026年广西继续教育公需科目试题及答案
- 呼吸衰竭的早期识别与处理
- 2026中国华电校园招聘易考易错模拟试题(共500题)试卷后附参考答案
- 数学活动切割后组拼正方形
- 2026年事业单位考试公文改错专项训练测试
- 2026年芯片设计DFT工程师高频面试题包含详细解答
- 2026年上海市静安区社区工作者招聘考试参考题库及答案解析
- 数字化时代下TC保险公司内部审计信息化建设路径探析
- 2026年心血管内科医疗质量控制方案
评论
0/150
提交评论