




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于matlab的票据自动报账系统设计与实现 赵懿琨 马劼聪 陈仰丽 余晓佳 黄国伟【摘 要】 目前,国内会计师仍采用人工方式进行票据数据录入,完成账目的处理,错误率高且效率低,针对该问题,本系统开发出一款对发票实现自动化信息识别并报账的软件,实现从数据采集到报账完成一体的自动化服务。本系统在matlab软件上运行,结合光学识别ocr引擎tesseract软件实现功能,基础功能包括:票据图像的无线收发、票据图像信息提取处理与识别,自动生成财务报表等功能。此外,为了提高系统的可靠性,增加了如多段关键信息截取、图像的倾斜校正、数学形态学处理等技
2、术。【关键词】 自动化;tesseract;ocr;matlababstract at present, domestic accountants still use manual way to input bill data and complete the account processing. the error rate is high and the efficiency is low. aiming at this problem, this system develops a software to realize automatic information identifica
3、tion and account reporting for invoices, which realizes the automation service from data collection to account reporting. the system runs on matlab software and combines with tesseract software of optical recognition 0c engine to realize the functions. the basic functions include: wireless receipt a
4、nd dispatch of bills image, information extraction and recognition of bills image, automatic generation of financial statements and other functions. in addition, in order to improve the reliability of the system, such as multi-segment key information interception, image tilt correction, mathematical
5、 morphology processing and other technologies are added.keywords automation; tesseract ; ocr; matlab1 系統整体概述本软件主要在pc 及其兼容机上运行,使用windows 7以上操作系统。成功安装软件并配置相应的系统环境后,在matlab上运行,利用ftp传输协议接收票据图像,根据用户需要制作不同票据图像模板,自动批量准确提取相关区域图像,对图像进行预处理后,结合光学识别引擎tesseract软件,对图像中的字符信息进行识别,并将结果制成汇总表格,根据小企业会计准则和手工报账标准生成财务报表。票
6、据自动报账系统软件利用matlab进行编程,核心部分包括票据图像的无线收发、信息提取处理与识别,自动生成财务报表等功能。票据图像信息提取处理与识别部分包括票据图像自动化分类、图像的倾斜校正、关键信息的截取、图像二值化和数学形态学处理以及对票据信息的ocr识别,并储存在txt文件中;自动报账部分用于完成最后的报账任务,遵循小企业会计准则的做账原则,按一定规律进行报账,同时提供导出功能便于输出纸质报表和核查财务数据。项目整体系统框图如图1所示。2 系统实现部分2.1 票据图像的无线收发2.1.1 图像输入读取 在filezilla软件的服务器端开放“download”及“upload”接收、传送图
7、像。可以使用imread,dir函数检测指定目录下图像的张数,设置for循环函数自动读取完目录下所有图像。在此过程中,需要检测图像是否正向读取,若不可取,则反馈给图像输入模块,若可取,则进行下一步操作。在这个过程中,当图像不被读取反馈回去时,下一步操作中将出现图像空缺,在下一级读取图像时,添加判别出错算法。2.1.2 图像初级处理 基于无线接收到的图像可直接根据matlab处理匹配的命名方式进行批量命名和文件建立,需要考虑图像是否可用,接收到的图像基于以下三种处理方式进行触及处理:(1)正反面(颠倒):根据对发票右上角的“二维码”进行定位判断,可通过canny算子提取“二维码”边缘,计算统计得
8、出灰度值的平均值,可连接起被分隔开的区域,判断该区域是否存在对应宽度信息,以此判断图像是正面或颠倒,如果判定结果为颠倒,可以通过imrotate语句将图像旋转180度保存以便下一步处理。(2)里外面:如果发票的上下方位都检测不到“二维码”区域,则表明该图像放置反了,可以反馈回硬件系统,提醒翻转。(3)拍摄模糊:当将图像进行二值化、中值滤波后,发现无法清晰读取所提取的“二维码”,则该图像拍摄模糊,反馈给硬件系统,提醒硬件重拍。2.1.3 图像识别反馈 以带有“二维码”的增值税票据图像为例,将左上角的“二维码”识别结果作为判定票据放置是否正确的依据,利用阈值分割提取出“二维码”所在区域,通过扫描得
9、到“二维码”的边角坐标。调用matlab中“width”函数对100张票据“二维码”所在区域的测算得到“二维码”区域平均宽度值为385像素,定义识别到图像中黑色边角宽度像素区间位于375400时,票据图像放置正确,图像质量合格,储存进“upload”文件夹,当识别到像素区间不符合要求时,将该票据图像储存进“待反馈文件夹”。将不合格的票据图像序号通过filezilla无线传输发送到上一级的票据图像输入模块。将“upload”文件夹图像的序号储存成txt文档,通过filezilla平台反馈回上一级。2.2 票据图像信息提取处理与识别2.2.1 票据图像信息提取处理 无线接收票据图像后,软件利用ma
10、tlab批量处理票据,首先截取有效票据区域,然后截取票据中有效数据区域;接着逐渐增加角度调整函数,自动调整图片,不同票据用同一算法实现;再对截取部分进行灰度化,腐蚀膨胀处理,以便于识别。2.2.2 识别 本设计通过第三方jtessboxeditor工具训练字库,字符识别过程中ocr也在进行自适应学习,不断拓展字库,识别更多的字符,从而提高识别率。通过tesseract平台上的jtessboxeditor工具来处理修正字库,通过不断识别更新字库,积累字库的信息。2.3 自动生成财务报表这一步分为四个模块,分别是数据导入模块、数据识别模块、数据判断模块和表格生成模块。总工作流程:如图2所示,首先导
11、入存放ocr识别结果的txt文本,将这些信息汇总成表格,然后在汇总表的基础上,加入会计科目等类别,对收集到的信息进行分类处理,完善汇总表格成为会计信息总表,最后在会计信息总表上提取数据,经过统计归类,按实际需求,编制财务表格。数据导入模块设计:在本模块中,txt文件分为七类,对应发票上的七类有效信息。因为ocr识别对字符和数字的编码方式不同,七类txt文件中会出现两种编码格式,一种是ansi,另一种是utf-8。针对不同的编码格式,matlab在将txt文件里的内容导入到汇总表格时,需要运行不同的处理语句,确保txt文件里的内容能被正确导入。数据识别模块设计:本模块的功能是在汇总表上处理错误的
12、数据,完成对汇总表的自动修正。完成数据的导入后,因为ocr识别可能存在错误,所以数据识别模块的工作就是识别并且定位汇总表格上错误的数据。基于本设计对于报账系统自动化的目標,在构想处理方案时,希望做到的是发现错误并且能够自动改正错误。因此也引入了相似度算法,对可能出现的一些错误实现自动纠正,或者是为使用者手动纠正提供参考。数据判断模块:在汇总表的基础上,通过对表上数据的分析判断得到借贷关系和会计科目。判断会计科目时额外需要关系数据库的辅助。得到这两项信息后,即完成了由汇总表到会计信息总表的过程。表格生成模块设计:在本设计中,输出的财务表格有三种,分别是资产负债表、科目余额表和利润表。在会计信息总
13、表的基础上,对表格上的金额依照会计科目和借贷关系进行统计和归类,将统计归类后的信息分别输出到三种财务表格的相应模板上,完成财务表格的编制。如果在以上模块中识别出错误并无法修正时,则需要人工参与修正。3 系统测试部分3.1 识别部分测试结果汉字89%、符号98%、字母98%、数字96%,通过测试结果分析可以看出,数字的识别准确率已比较高,但文字识别准确率还有待提高,ocr识别字库需要不断训练积累,需要一定的时间,需要不断扩充识别字库来满足需求。二维码测试结果:发票二维码内的信息都是符号和数字,符号和数字识别率已到达96%。识别速度达到ocr识别每张图片2.1s,二维码识别每张图片1.95s3.2 票据提取部分测试结果经过测试发现并解决问题,测得本设计图像处理平均时间为396秒4 总结本课题通过使用matlab软件与tesseract开源ocr引擎进行设计研究,对会计人员没有完整的自动化发票单据报账软件这一问题做出尝试,通过对ocr引擎的熟悉与训练,通过使用matlab软件进行程序的开发,实现了从发票单据的图片输入、输入图片处理、有效数据的截取、数据的录入到通过程序进行自动报账,这样一系列完整的功能,证明了全流程的自动化报账软件实现是非常有前景的。参考文献:1 安然.基于ocr技术的原始凭证电子化管理系统的设计与 实现d.吉林:吉林大学,2016.2 陈东霞.浅谈高校财务预约报账系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网络数据包的传输与处理流程试题及答案
- 2025年矿山无人作业技术智能化数据采集与分析报告
- 2025消防设备维护保养合同
- 2025茶叶供货合同范本
- 明确目标准备2025年数据库考试的试题及答案
- VFP深入学习方法试题及答案
- 数字水印技术在工业互联网平台中的数据防篡改与安全认证:2025年数据保护策略报告
- 2025年矿山无人作业技术智能化设备在矿山智能化矿山战略实施保障中的应用报告
- 软件测试工程师考试提升方法试题及答案
- 新媒体时代新闻传播真实性与公信力跨媒体传播融合趋势报告
- 2025年物联网工程师考试试题及答案
- 宣城郎溪开创控股集团有限公司下属子公司招聘笔试题库2025
- 2025年高尔夫教练职业资格考试试卷及答案
- 抖音合作合同协议书
- 肥胖症诊疗指南(2024年版)解读
- 麦收消防安全培训课件
- 2024北京西城区六年级(下)期末数学试题及答案
- DBJ50-T-078-2016重庆市城市道路工程施工质量验收规范
- 中国历史地理智慧树知到期末考试答案章节答案2024年北京大学
- MOOC 跨文化交际通识通论-扬州大学 中国大学慕课答案
- C-TPAT反恐程序文件(完整版)
评论
0/150
提交评论