【《文字识别神经网络相关技术理论基础综述》4900字】

上传人：E*** IP属地：湖北上传时间：2026-04-29 格式：DOCX 页数：8 大小：492.77KB 积分：10.8 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

文字识别神经网络相关技术理论基础综述目录TOC\o"1-3"\h\u5363文字识别神经网络相关技术理论基础综述 1293821.1Flask框架介绍 1133191.2Vue框架介绍 13911.3汉字数据集 2166231.4文字检测 2143231.4.1神经元神经网络 2277451.4.2文字检测神经网络简介 359111.5文字识别 5168021.5.1神经网络基础 5312091.5.2文字检测神经网络简介 6本章简要介绍开发框架技术，并且介绍采用的数据集，文字检测神经网络与文字识别神经网络相关技术等。1.1Flask框架介绍在本系统中，采用Flask作为后端框架进行编写。Flask是一个使用Python编写的轻量级Web应用框架，是基于PythonWebServerGatewayInterface（WSGI）接口与Jinja2模板引擎进行实现Python应用程序或框架[2]。Flask框架性能满足需求，并且已与拓展，居于开发快，应用灵活等特点。Flask框架通过虚拟环境解决了包混乱以及版本冲突，从而提高系统移植性。因此本系统采用此框架。1.2Vue框架介绍本系统前端主要采用Vue框架与Element-ui来进行封装组成。Vue是渐进式JavaScript框架，Vue也称Vue.js，是现在所使用的主流框架，Vue具有体积小，隐形效率高等特点，使用表单数据进行总结，并且Vue使用Axios替代Ajax库，从未起到了从前端其中创建HttpRequest，从前后端发出http请求，支持拦截相应、讲述转换为JSON数据等。Element-ui是基于Vue实现的组件库，它可以是前端应用，也可以是后端应用，在进行开发时减少了研发的人力与时间成本。1.3汉字数据集由于汉字与英文在本质上的不同，国内暂时并未追赶上国外系统的发展。一方面是因为国内起步较晚，另一方面是因为中文识别比英文识别复杂很多。汉字作为世界上最古老的语言之一，从甲骨文一直发展到现在的集音、形和义为一体的简体汉字，在结构上，存在着许多不同结构的方块字，并且在数量级上，有大概十几万个汉字，与仅存在36个英文字母的英文相比，两者之间难度的区别可见一斑。随着时代的发展，文字识别应用在越来越多方面，也有越来越多学者开始研究文字方面的技术，并且国内外开展了许多比赛，创造了大量数据集。从上个世纪发展到现在，出现了许多优秀的训练集。在英文字符字符集方面，ICDAR竞赛为识别提供了大量优秀的字符集，如ICDAR2012与ICDAR2015，二者都包含了大量的训练集图片与测试集图片，图片中的文字都是水平方向，在文字识别方面有了很大的应用。在中文识别方面，也涌现出了众多优秀的字符集，如ReadingChineseTextintheWild（RCTW），次数及采用是场景识别；还用本系统中所使用的SyntheticChineseStringDataset是一个拥有360万张训练图片，5824个字符，对于机器学习来说，训练集足够，但是存在场景比较简单，并且是印刷字体；CASIA手写汉字训练集包括CASIA-HWDB与CASIA-OLHWDB，其中HWDB为手写单子样本，含有3895135个手写汉字，所有文本样本都已经存为灰度图像，按书写人序号分别存储，OLHWB含有3912017个手写单字样本，其中的所有文字和文本样本存为笔画序列，按照书写人序号分别存储。1.4文字检测从计算机科学与技术发展开始到现在，在文字检测方面，出现了许许多多优秀的算法，不同的算法在不同的应用场景所达到的检测水平是不同的，本节简单概述一下文字检测算法，并解释文字识别的基础神经网络。1.4.1神经元神经网络随着深度学习的崛起，人们将文字识别分为了大概两个部分：文字检测与文字识别。其中文字检测是文字识别的前提，只有将文字检测到以后，才能够识别出文字，因此，文字检测就显得十分重要。在机器学习得到发展以后，先在文字识别都是基于深度学习对文字进行检测。深度学习属于人工神经网络，人工神经网路指的是模仿大脑的功能，对真实世界做出反应[3]。神经网络最基本的单位神经元（neuron）模型，神经元接收到来自n个其他神经元传递过来的输入信号，对输入信号进行处理，球的处输入信号的总强度，然后根据神经元本身的阈值，确定转移特性。现在说常用的神经元为“M-P神经元模型”，其结构如图2-1所示：图2-1M-P神经元模型1.4.2文字检测神经网络简介随着计算机性能的发展，在过去的几十年里，许多学者与专家在文字检测方面提出了许多有些的算法。目前主要可以把方法分为：基于人工定义特征的传统方法和基于深度学习的方法。其分类的依据时根据选用特征的方式不同。基于传统方法文字检测的方法有许多，但是他们都认为文字有着特殊的纹理特征和结构，其边缘梯度较大，与背景有着明显区分。基且将文字检测方法分为了三个过程[4]：文本候选框提取、非文字区域的筛选与文本框的组合。再次规程中由于文本候选框的声称是文字识别的关键，文字检测的准确性取决文本候选框生成的准确性，因此许多学者提出了许多文本检测方法，其中较为出名时：基于连通域的文本检测方法和基于纹理的文字检测方法。并且为了提高检测准确率，有的准假又提出了用来进行辅助文字检测方法，例如：颜色特征，边缘特征，笔画特征等等。历年来，许多专家与学者对其进行了研究，2010年，EpshteinB等人发现文字笔画的宽度接近常数的特点，基于此提出了一种基于笔画宽度变换（StrokeWidthTransform，SWT）的算法。这种算法局限性十分强，只能根据人工设置的参数与规则，对水平文字进行检测。同年，LukasNeumann等人提出了一种基于最大稳定极值区域（MaximallyStableExtremalRegions,MSER）的文字检测算法,根据二值化的图像提取最大稳定极值区域作为候选区域。但是这种算法对于光照不均匀的文字检测效果非常不理想。随着机器学习的崛起，现在越来越多的人使用机器学习的方法来对文本进行检测[5]。其中最为明显的就是随着卷积神经网络（ConvolutionalNeuralNetwork，CNN）的发展推动了目标检测任务的研究，出现了越来越多的神经网络与复杂方法，如FCN、SSD和R-CNN系列等研究成果。但即使使用机器学习的方法，在文字检测方面仍然存在着边界框的回归于文字分割的问题。针对这个问题，许多学者提出了具体的解决问题的解决方案：2016年LiaoM等人设想出TextBoxes算法，通过适应默认行宽比的变化，以便更好的得出行宽高比的变化。随后，提出TextBoxes++算法，此算法采用四角框，代替了水平框，使其可以更好的检测非水平文本。TianZ等人提出文字建议连接网络（ConnectionistTextProposalNetwork，CTPN），通过特征提取与连接上下文信息，更好的实现水平文字框的生成。在现代文字检测中，神经元只能作为最基本的模型，在神经元的基础上，引出了许多更加好用以及适合更多场景的神经元，甚至随着机器性能的提升，神经元里面的机器学习有了更多方法且更加适合更多场景，因此在现代文字检测算法中，基于深度学习的算法会存在更多并且成为主流。这些基于深度学习文字检测算法构更加适合复杂场景且方便文字检测，常见的文字检测算法有：FasterRCNN算法，CPTN算法，RRPN算法，EAST算法。四种算法的优缺点如表2-1所示：表2-1四种算法对比算法名称优点缺点使用场景FasterRCNN用RPN生成候选区域，检测效果提升运行速度达不到要求文本检测CPTN很好检测水平方向文字非水平方向检测效果差水平方向文本检测RRPN加入旋转神经网络，可以检测旋转方向文字长文本框检测效果不好旋转方向文本检测EAST进行端到端的文本检测长文本检测效果不好端到端文本检测对于纸质医药处方信息提取系统，现代医生所写处方一般都是水平方向的文字，因此经过综合对比，本系统采用CPTN进行文本检测。1.5文字识别经过文字识别之后，那么接下来就需要将文字进行识别。随着时代的发展与神经网络的崛起，越来越多文字识别神经网络应用在我们日常生活中，不同的场景下文字识别各有优缺点，本节文字识别所基于最基本的神经网络，并且简单概述一下文字识别算法。1.5.1神经网络基础文字识别在上个世纪就曾经大火，由最开始邮件文字识别到场景中的文字识别再到文档文本中的文字识别，随着计算机科学与技术的发展与深度学习的崛起，文字识别技术又有了质的飞跃。但是文字识别的都是在基本最的两个神经网络实现的，下面将会分别介绍这两种神经网络。卷积神经网络卷积神经网络[6]（ConvolutionNeuralNetworks，CNN）是神经网络中的一种，是现在应用比较广泛的一种深度学习模型，并且成为了语音识别与图像识别领域的研究热点。该模型通过模拟人眼观察图像或人耳听取音频的机制，即它的权值神经网络类似于生物神经网络，从而降低了网络模型的复杂度，减少了权值的数量。并且从边缘特征、低纬度纹理到高级语义特征，以及静态图像的特点，从本人降低了网络参数，因此CNN在网络输入时多为图像时表现得十分明显。直接将图像作为输入，从而避免了在传统特征提取中复杂的数据重建与特征提取的过程。现如今卷积神经网络在已经得到了充分了应用，对于图像识别来说具有划时代的意义，具有很高的价值，现在已经称为图像识别甚至计算机视觉的主流。卷积神经网络有五个层级结构，分别实输入层，输出层，卷积层，激活层，池化层和全连接层。在识别时所对应结构模型如图2-2所示：图2-2卷积神经用于手写字符识别当在网络层输入一个的手写字符时。会先通过多个卷积层与池化层，从而对输入信号进行加工，然后在连接层和输出层进行映射。由此过程可以知道每层所能完成的大致的功能：卷积层的主要作用是提取出不同的特征，而池化层是来在卷积层提取出来不同特征之后进行“池化”，从而减少参数，在CNN使用的绝大多数场景中，都为静态图片，静态图片具有特征不变性，经过池化之后，可以使卷积神经网络更加关注特征，判断这个特征是否是图像中的特征，并且减少了大量窗口的重叠，防止了过拟合的现象。卷积神经网络的核心思想有三个，分别是局部感受野，权值共享和降采样。局部感受野指的是人们在看到一张图像时，会存在一个从片面到整体的过程，比如当看到一个任务图像时会先集中看一小部分地方，然后再扩散到全身，基于此特点，我们在进行图像特征提取时，只需要限定观察一部分范围，不需要对全部进行查找，即为局部卷积。权值共享指的是不同局部的相同特征是相似的，如用同一个神经网络去对不同图像区域进行感知，不同卷积层提供不同特征。降采样是指减少对具体位置关心，从而使得卷积神经网络更加关注特征，并且对于不同特征进行聚类统计，从而降低过拟合的可能性。循环神经网络除了卷积神经网络外，在深度学习中，循环神经网络[7]（RecurrentNeuralNetworks，RNN）也成为了不可或缺的一部分，循环神经网络已经成为了语音分析和图像识别的研究热点，并带给语音分析和图像识别重大突破。循环神经网络通过使用带自反馈的神经元，可以根据所传入图片或者音频大小来进行调整，因此可以处理任意长度的序列。并且循环神经网络比前反馈神经网络更加符合生物的神经网络的结构。基于以上特点，可以总结出循环神经网络的定义：循环神经网络是一类以序列数据为输入，在序列上演进递归，且所有节点按链式连接的递归神经网络。循环神经网络的结构有三层，分别是输入层，蕴藏状态层和输出层。循环神经网络由于是递归演进，因此存在短期训练问题，无法对长序列进行很好的处理，基于这个特点，我们在实际应用循环神经网络时，会添加长短期记忆网络（Longshort-termmemory，LSTM）来进行长序列提取。保留住其中重点信息，从而成功提高获取信息的准确率。1.5.2文字检测神经网络简介文字识别是整个系统的最重要部分，文字识别的准确率直接影响了用户的体验感觉。近年来，有许多学者与专家提出了许多文字识别的算法，大概可以将其分为两种方法：字符识别方法与基于文本行或单词的字符序列识别方法。1997年，ZhouJ[8]等人构建了一个n元贝叶斯最大似然分类器，此方法将颜色拟合性作为最主要的特征，在较小噪声干扰的图像上去的了较好的效果。2000年，SawakiM[9]提出了一种基于模板匹配的字符识别算法，此方法通过利用图像的特征，制作字符模板。2012年，JawaharCV[10]等人利用滑动窗口逐步进行特征提取，利用分类器分类，并根据文字之间的相关性提出了一种自底向上和有上向下的文字识别方法。2014年BaiX[11]等人通过借助字典使用动态K邻近(K-NearestNeighborhoods，KNN)算法，学习字符的笔画和结构特征，利用预先训练好的分了其对文字进行识别。近几年随着人工智能的发展与机器学习的崛起，越来越多的文字识别采用深度学习为基础开始进行识别，出现了许多典型模型，文字识别在许多神经网络在现代文字识别中都有应用，如我们常说的长短期记忆网络（LSTM）、联合主义时间分类器（CTC

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《文字识别神经网络相关技术理论基础综述》4900字】

文档简介

温馨提示

最新文档

评论

【《文字识别神经网络相关技术理论基础综述》4900字】

文档简介

温馨提示

最新文档

评论

相关文档