CN113762241B 场景文字识别模型的训练方法与识别方法及装置（清华大学）

上传人：1*** IP属地：山西上传时间：2026-06-19 格式：DOCX 页数：53 大小：2.81MB 积分：9.6 举报 版权申诉

CN113762241B 场景文字识别模型的训练方法与识别方法及装置（清华大学）_第2页

CN113762241B 场景文字识别模型的训练方法与识别方法及装置（清华大学）_第3页

CN113762241B 场景文字识别模型的训练方法与识别方法及装置（清华大学）_第4页

CN113762241B 场景文字识别模型的训练方法与识别方法及装置（清华大学）_第5页

已阅读5页，还剩48页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

AU2020101229A4,2020.08.06场景文字识别模型的训练方法与识别方法本申请实施例提供一种场景文字识别模型本图像对应的目标文字以及文字几何形状信息状信息包括前景掩膜以及字符轮廓中的至少一2将所述样本图像输入场景文字识别模型，得到所述样本图根据所述预测文字、所述文字几何形状信息的预测特征图、所征融合模块和编码器-解码器，所述卷积神经网络用于对所述样本图像的归一化图像进行始特征图与前景掩膜的预测特征图以及字符轮廓的预测特征图加权特征融合；所述编码征图是所述卷积神经网络在计算过程中的输出的所述文字几何形状信息包括前景掩膜以及字符轮廓中的至将所述样本图像的归一化图像输入至所述卷积神经网络，输将至少一个所述中间特征图输入所述文字几何形状信息的将所述原始特征图与所述文字几何形状信息的预测特征图特征融合将所述归一化图像输入所述A个卷积块中的第一个卷积块，得到至少一个所述卷积块3将所述第二特征图输入第二子卷积层，得到所述文字几述文字几何形状信息的预测特征图为所述前景掩膜的预第f+1个第二上采样单元的输入，或所述第f个第二上采样单元的输出与第e个第二上采样将所述第二特征图依次经过所述第三子卷积层和第二池化层处理后得到所述字符轮将所述前景掩膜的预测特征图输入所述第一池化层，得到缩小将所述字符轮廓的预测特征图输入所述第二池化层，得到缩小7.根据权利要求1至6任一项所述的场景4根据所述文字几何形状信息的预测特征图和所述文字几何形状信息根据所述第一损失函数和所述第二损失函数采用所述总损失函数对所述场景文字识别模型进行调参，得到满足;;处理模块，用于将所述样本图像输入场景文字识别模型，得到所5征融合模块和编码器-解码器，所述卷积神经网络用于对所述样本图像的归一化图像进行始特征图与前景掩膜的预测特征图以及字符轮廓的预测特征图加权特征融合；所述编码所述文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种6经网络进行图像特征提取，再利用长短时记忆网络为代表的循环神经网络进行序列建模，术提供的模型对具有复杂背景的文字识别效码器-解码器，卷积神经网络用于对样本图像的归一化图像进行特征提取得到原始特征图征图与预测特征图进行特征融合处理得到特征融合图，编码器-解码器用于对特征融合图形状信息的预测特征图特征融合处理，得到特征融合图；将特征融合图输入编码器-解码7原始特征图和至少一个中间特征图，包括：将归一化图像输入A个卷积块中的第一个卷积第f+1个第二上采样单元的输入，或第f个第二采样单元的输出与第e个第二采样单元的输经过第三子卷积层和第二池化层处理后得到字符轮廓的预测特征8m为0征融合模块和编码器-解码器，卷积神经网络用于对样本图像的归一化图像进行特征提取块用于对原始特征图与预测特征图进行特征融合处理得到特征融合图，编码器-解码器用几何形状信息包括前景掩膜以及字符轮廓中的9网络用于对样本图像的归一化图像进行特征提取得到原始特征图和至少一个中间特征图，[0047]图8为本申请一实施例提供的卷积神经网络和文字几何形状信息的预测模块的示[0048]图9为本申请另一实施例提供的卷积神经网络和文字几何形状信息的预测模块的PyTorch(/pytorch/pytorch)[0061]图2为本申请一实施例提供的场景文字识别模型的训练方法的流程示意图。本申请实施例提供一种场景文字识别模型的训练方法，应用于场景文字识别模型的训练装置，块33用于对原始特征图与预测特征图进行特征融合处理得到特征融合图，编码器-解码器[0070]示例性的，参照图4，为各样本图像归一化处理后得到的对应的多个归一化图像景掩膜的预测特征图以及字符轮廓的预测特MJSynth和SynthText两个英文场景文字数据集中文字内容和TrueType字体生成的前景掩测特征图和文字几何形状信息的目标图先对卷积神经网络和文字几何形状信息的预测模[0083]如图7所示，为本申请另一实施例提供的场景文字识别模型的训练方法的流程示括A个卷积块)和上采样分支(B个第一上采样单元和第一子卷积层)。所采用的基准网络为[0091]其中，归一化图像(256*64*3)输入至第1个卷积块，对应输出第1个中间特征图1)的前景掩膜的预测特征图Fu，将该前景掩膜的预测特征图Fu通过第一池化层进行尺寸缩子卷积层和第二池化层处理后得到字符轮廓的预测得到一个(128*32*1)的字符轮廓的预测特征图Fv，将该字符轮廓的预测特征图Fv通过第二FFD(z)-conv2(q(conv1(z))。其中，conv1和conv2为多通道1×1一维卷积操接层将解码器每步输出的维度转换为字符集大小的维度，再经过softmax函数得到每步输m为0对应的是字符轮廓的预测特征图和字符轮廓的目标图对应的二分类交[0132]L=L,+L,同中间特征图的尺寸不同；采用第一神经网络对至少一个中间特征图进行前景掩膜处理，神经网络对采用归一化后的图像进行特征提取，得到原始特征图和至少一个中间特征图，不同中间特征图的尺寸不同；采用第一神经网络对至少一个中间特征图进行字符轮廓处神经网络对采用归一化后的图像进行特征提取，得到原始特征图和至少一个中间特征图，不同中间特征图的尺寸不同；采用第一神经网络对至少一个中间特征图进行前景掩膜处比。其中，现有的场景文字识别方法是指目前已公开的7个英文场景文字数据集(IIIT5k、经网络31和编码器‑解码器34。场景文字识别模型②在①的基础上添加了前景掩膜对应第廓对应的第二神经网络322。场景文字识别模型⑥在④的基础上添加了第二池化层和特征[0157]表四列出了在本申请实施例场景文字识别模型采用ResNet-50的卷积神经网络的高场景文字识别模型的识别准确率，进一步证明了本申请实施例的泛化性。但是与采用[0161]本申请实施例提供的场景文字识别模型，能够准确的识别图1所示的场景图像中[0162]图13展示了本申请实施例的场景文字识别模型对场景图像中包含的文字的前景征融合模块和编码器-解码器，卷积神经网络用于对样本图像的归一化图像进行特征提取块用于对原始特征图与预测特征图进行特征融合处理得到特征融合图，编码器-解码器用个中间特征图，输入第一个第一上采样单元，得到第B个第一上采样单元输出的第一特征处理后得到前景掩膜的预测输出或字符轮廓的单元的输入，或第f个第二采样单元的输出与第e个第二采样单元的输入卷积后为第f+1个[0186]L=L,+L[0193]需要说明的是，应理解以上装置的各个模块的划分仅仅上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软储器中的指令以执行如上述场景文字识别模型的训练方法实施例[0197]本申请实施例还提供一种计算机程序产品，该计算机程

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113762241B 场景文字识别模型的训练方法与识别方法及装置（清华大学）

文档简介

温馨提示

最新文档

评论

CN113762241B 场景文字识别模型的训练方法与识别方法及装置 （清华大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN113762241B 场景文字识别模型的训练方法与识别方法及装置（清华大学）