任务2.3 票据数据采集_第1页
任务2.3 票据数据采集_第2页
任务2.3 票据数据采集_第3页
任务2.3 票据数据采集_第4页
任务2.3 票据数据采集_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目三主讲教师:段晓亮Billdatacollection票据数据采集随着现在很多大型企业的规模扩大、销售业务不断拓展,财务部门审票的工作量也日渐增长。每月需要处理大量的票据,而目前企业使用最多的方式手动录入。为了解决上述问题,基于OCR技术的票据识别功能,可以帮助公司员工快速导入票据信息,节省录单时间,提高录单准确率,增加公司效益。任务导入任务知识目标01了解OCR的概念以及几种应用类型02了解数据采集的几种不同方式,分析数据实用性,掌握采集技巧03根据项目采集需求完成票据的数据采集任务能力目标熟悉图像数据的采集流程,能根据需求合理完成数据采集01了解图像数据的来源与采集流程02掌握图像数据的爬取方法0304能够通过编写程序解决实际数据采集问题任务思政目标目标01通过图像数据的采集,使学生体会到科技进步带来的生活方式的改变02通过编写程序爬取图像数据培养学生的网络安全意识和创新意识CONTENTS目录文字识别OCR概述01OverviewofTextRecognitionOCROCR应用场景分类02OCRapplicationscenarioclassification票据采集03Billcollection文字识别(OCR)是视觉感知中一个重要的技术,目的是从照片中提取文字信息。比如,把扫描文档转化成结构化的文字信息以方便检索。近几年来,随着深度学习等技术的发展,文字识别相关技术取得了突破性进展,特别是场景文字的检测、识别和结构化技术。这些技术的发展使得文字识别在工业界受到了广泛关注。1.文字识别(OCR)文字识别技术主要分两个部分:文本检测与文本识别。对于一张原始图像,首先根据文本检测算法得到文字所在位置区域,再将图像中的该区域裁剪下来,然后通过文本识别技术识别出裁剪区域的文字信息。1.文字识别(OCR)2.OCR应用场景分类OCR(OpticalCharacterRecognition,光学字符识别)可以针对所有图像内文本文字的信息进行识别。根据使用场景不同,又分为以下几种:通用类OCR证件类OCR票据类OCR行业类OCR自定义OCR表格文档身份证驾驶证行驶证护照增值税发票机动车销售发票医疗发票购物小票物流面单医疗化验单公司姓名牌活动组织牌2.OCR应用场景分类由于不同场景下的OCR文本数据并不相同,所以并不能训练一个很好的OCR模型用来识别所有的文本数据。下图中可以看出:不同类型的数据文本,字符组成和排列结构存在很大不同。2.OCR应用场景分类票据样本与其他文本样本最大的不同在于:票据上含有大量的金额数字,OCR会趋向于识别金额的准确度。随着社会的发展,越来越多的购物商品或人们的衣食住行都会产出大量的票据信息。整理账单一直都是公司和个人共同具备的理财规则。由此也导致了人们对票据样本的依赖性越来越高。3.票据数据采集购物小票分为很多种,例如超市购物、餐饮、商店商品购物等等。3.票据数据采集但是大多数购物小票的文本结构基本相同,包括商品信息,对应金额以及商店名称等。商品名称对应价格商品描述3.票据数据采集英文购物票据与中文相似,其最大不同就是商品信息是由英文字母组成。购物票据在文本内容上有如下几个特点:1、小票具有大量金额信息(阿拉伯数字);2、普通文本每行内容较长,而小票信息多数是短字符文本;3、普通文本除了标点符号外,很少出现特殊字符,而小票内具有大量分割符、标识符等特殊字符。3.票据数据采集爬虫采集某平台的小票爬虫采集数据有很多,但是绝大多数存在一些噪声信息,不稳定因素等。某平台小票搜索结果3.票据数据采集该类图像内票据有以下几个问题:1、光线不稳定,容易导致票据反光失去重要信息;2、票据和拍摄设备之间的距离不同;距离较远导致字符像素值较低,难以识别;3、拍摄角度不同,图像内的票据具有透视效果,失去重要信息;爬虫采集由于票据识别需要准确考虑每个字符的准确度,所以模型对于数据的要求非常高。3.票据数据采集数据集关键字里搜索:SROIE

datasetv2在Kaggle网站上,观察该数据集内的数据样本特性。尝试指出该数据集内样本存在哪些问题?开源数据集之前的课程了解到,Kaggle网站会开源很多免费的数据集,我们可以在Kaggle上寻找票据数据集。3.票据数据采集数据集简介数据样本浏览数据目录3.票据数据采集我们进入到该数据集的img文件夹下,查看数据样本。3.票据数据采集该开源数据集内的数据样本有以下几个问题:1、分辨率较低,文本内容模糊不清;2、部分内容存在人为涂抹,影响标注和识别;3、文本内容本身存在失真,不易分辨;该数据集会影响我们标注和后续模型的训练精度,所以不能使用3.票据数据采集由于其他采集方式采集的数据大多数具有噪声,以及存在数据不可用情况,所以我们可以通过自己购物的小票样本,利用手机进行拍摄或扫描数据。拍摄样本(光线影响较大,拍摄时需要注意光线)扫描样本(需要注意清晰度)3.票据数据采集和其他数据采集任务相同,利用手机等电子设备拍摄/扫描采集数据需要有准确采集则。我们需要图像数据样本内文字具备清晰,完整等条件,所以应具备以下条件:01拍摄/扫描之前需铺平样本原件,不要出现折痕,扭曲等情况;02拍摄/扫描之前需检查文本内容,避免存在涂抹、修改等情况;03拍摄:尽量垂直样本拍摄,将镜头拉近,整个镜头只有一张小票,减少光照阴影,同时避免图像出现逆光情况;04扫描:扫描内容清晰,每次扫描一张小票,扫描件中不能出现除小票外的其他内容,截掉不需要的部分。任务实施Taskimplementation感知传感器包括视觉传感器、激光传感器、雷达传感器等类型。视觉传感器:即摄像头,摄像头分为单目视觉和双目(立体)视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye,加拿大的PointGrey,德国的Pike等。激光传感器:分为单线和多线。每多一线,成本相应上涨,当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Qu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论