CN119296094B 一种基于轮廓特征增强的任意形状场景文本检测方法 (天津大学)_第1页
CN119296094B 一种基于轮廓特征增强的任意形状场景文本检测方法 (天津大学)_第2页
CN119296094B 一种基于轮廓特征增强的任意形状场景文本检测方法 (天津大学)_第3页
CN119296094B 一种基于轮廓特征增强的任意形状场景文本检测方法 (天津大学)_第4页
CN119296094B 一种基于轮廓特征增强的任意形状场景文本检测方法 (天津大学)_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种基于轮廓特征增强的任意形状场景文本发明公开了一种基于轮廓特征增强的任transformer和卷积神经网络结合,利用低级特征图中丰富的细节信息增强网络对文本区域的还利用文本边缘的梯度信息增强来区分文本区为自然场景文本检测的深度学习方法提供了研2S2、采用自上而下的策略融合来自不同层级的特征S4、对新得到的多层金字塔特征进行自上而下的特征融合,然后通过3x3的卷积和不S5、利用正交文本注意力模块的两个并行的分支分S8、将S7中所得的特征图输入到输出模块进行后处2.根据权利要求1所述的一种基于轮廓特征增强的任意形状场景文本检测方法,其特{F2,F3,F4,F5}输入到多尺度特征融合模块,多尺度特征的分辨率大小分别为输入图像的3.根据权利要求2所述的一种基于轮廓特征增强的任意形状场景文本检测方法,其特将输入的高分辨率特征{F2}首先经过两个串行的swintransformer块,所述swintransformer块利用窗口注意力机制和多头MSA表示多头自注意;fLN表示层归一化;FE表3S表示swintransformer块的输出。4.根据权利要求3所述的一种基于轮廓特征增强的任意形状场景文本检测方法,其特5.根据权利要求4所述的一种基于轮廓特征增强的任意形状场景文本检测方法,其特6.根据权利要求5所述的一种基于轮廓特征增强的任意形状场景文本检测方法,其特在正交文本注意力模块的左分支中,水平方向上采用全局GAP_hGAP_vh和Fv表示正交方向上的输出特征。7.根据权利要求6所述的一种基于轮廓特征增强的任意形状场景文本检测方法,其特8.根据权利要求7所述的一种基于轮廓特征增强的任意形状场景文本检测方法,其特FO=F+FxFS1xFS249.根据权利要求8所述的一种基于轮廓特征增强的任意形状场景文本检测方法,其特5文本检测作为对象特殊的目标检测,基于transformer的文本检测算法也成为文本检测领出的渐进尺度扩展网络(ProgressiveScaleExpansionNetwork,PSENet)将检测区域从素之间的相似度向量,然后通过可学习的像素聚合算法对属于同一文本核的像素进行聚合。2020年,Liao等人提出的可微二值化网络(DifferentiableBinarizationNetwork,6[0006]基于transformer的文本检测算法主要受到transformer在目标检测中应用的启一个问题是采用多个卷积层会导致文本边缘信息不清晰,从而导致文本边界轮廓的丢失。[0009]本发明的目的在于提出一种基于轮廓特征增强的任意形状场景文本检测方法以7征补偿模块(FCM)中,采用轻量的swintransformer和卷积神经网络结合以较低的计算复[0024]将输入的高分辨率特征{F2}首先经过两个串行的swintransformer块(STB),所述swintransformer块(STB)利用窗口注意力机制和多头自注意力机制来增强模型的表达S表示swintransformer块的输出。8GAP_v本检测中轮廓模糊的问题。本发明包括特征补偿模块(FeatureCompensationModule,模块FCM采用轻量的swintransformer结合边界嵌入丰富特征图的细节信息,之后结合注9[0054]图1为本发明实施例1中提到的一种基于轮廓特征增强的任意形状场景文本检测[0055]图2为本发明实施例1中提到的特征补偿模块(FeatureCompensationModule,[0056]图3为本发明实施例1中提到的正交文本注意力模块(OrthogonalText(FCM)中,采用轻量的swintransformer和卷积神经网络结合以较低的计算复串行的swintransformer块(STB),swintransformer利用窗口注意力机制和多头自注意)))GAP_v图[0102]基于实施例1但有所不同之处在于,下面设计具体实验对本发明所提出的基于轮[0104]将实施例1中所提出的一种基于轮廓特征增强的任意形状场景文本检测方法在四[0105](1)Total_Text是一个主要用于任意形状文本检测的数据集,该数据集使用多边[0111]整个实验过程分为预训练阶段和微调阶段,首先在人工合成数据集SynthText数SGD优化器进行训练,在训练前对图像进行数据增强,训练图像被随机裁剪为640×640大[0115]在四个基准数据集上对本发明提出的方法和之前的场景文本检测方法进行了对多语言曲线文本数据集(CTW1500)上进行了实验,并从精确率(Precision)、召回率发明的性能。并且在MSRA_TD500数据集和CTW1500数据集上进行消融实验说明本发明各个[0127]表6对本发明方法的主体模块在CTW1500数据集进行了消度提高了1.81这说明了本发明提出的OTAM有效地从两个正交方向捕获文本边缘信息,[0130]表7、表8和表9则是对主体模块的各个组成部分进行了消融实验。特征补偿模块效性。表9在MSRA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论