屏幕检测数据自动识别方法的研究与应用

上传人：瀚*** IP属地：湖北上传时间：2026-05-02 格式：DOCX 页数：28 大小：1.10MB 积分：15 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

屏幕检测数据自动识别方法的研究与应用

目录TOC\h\z\t"各章标题,1,一级节标题,2,二级节标题,3"第一章绪论 51.1课题研究背景和意义 51.1.1研究背景 51.2国内外研究现状及发展方向 51.3课题主要研究内容 51.4论文技术路线 51.5论文结构安排 5第二章图像预处理 62.1灰度化 62.1.1图像类型 62.1.2灰度化基本原理 62.1.3分量法 62.1.4最大值法 72.1.5平均值法 72.1.6加权平均法 72.2二值化 72.2.1双峰法 72.2.2P参数法 82.2.3迭代法 92.2.4OTSU法 92.2.5一维最大熵法 102.2.6wolfjolion算法 102.3霍夫变换及图像矫正 122.3.1霍夫变换 122.3.2基于直线检测的图像矫正算法 13第三章文本区域检测 153.1基于SWT的文本检测 153.1.1笔画宽度变换 153.1.2寻找候选文字 163.1.3字符合并 173.2EAST 173.2.1神经网络模型结构 173.2.2合并层特征图的合并规则 183.2.3网络的输出 193.2.4损失函数 193.2.5局部感知NMS 203.3MSER 203.3.1原论文算法 213.3.2更高效的算法 213.3.3NMS 23第四章字符识别 244.1Tesseract使用方法介绍 244.2Tesseract具体原理 254.2.1架构 254.2.2行及字符查找 254.2.3单词识别 26第五章实验结果 285.1文本区域检测 285.2字符识别结果 28第六章总结与展望 296.1总结 296.2展望 29

第一章绪论1.1课题研究背景和意义1.1.1研究背景1.2国内外研究现状及发展方向1.3课题主要研究内容1.4论文技术路线1.5论文结构安排

第二章图像预处理2.1灰度化2.1.1图像类型每个图像的像素通常对应于二维空间中一个特定的位置，并且有一个或者多个与那个点相关的采样值组成数值。根据这些采样数目及特性的不同数字图像可以划分为彩色图像、灰度图像及二值图像。彩色图像主要分为RGB和CMYK两种类型。其中RGB的彩色图像是由三种不同颜色成分组合而成，R（红），G（绿），B（蓝）。而CMYK类型的图像则由四个颜色成分组成：C（青）、M（品）、Y（黄）、K（黑）。其中CMYK类型的图像主要用于印刷行业。灰度图像也称为灰阶图像，图像中每个像素可以由0（黑）到255（白）的亮度值表示。0-255之间表示不同的灰度级。二值图像中每个像素的亮度值仅可以取自0或1的图像。2.1.2灰度化基本原理图像灰度化是指将彩色图像转化为灰度图像的过程。在RGB色彩模型中，当R=G=B时，表示一种灰度颜色，灰度值即为R、G、B的值。彩色图像中的每个像素的颜色有R、G、B三个分量决定，而每个分量有255个值可取，这样一个像素点可以有1600多万的颜色的变化范围。而灰度图像一个像素点的变化范围为255种，所以在数字图像处理种一般先将各种格式的图像转变成灰度图像以使后续的图像的计算量变得少一些。灰度图像的描述与彩色图像一样仍然反映了整幅图像的整体和局部的色度和亮度等级的分布和特征。图像灰度化一般有分量法、最大值法、平均值法、加权平均法四种方法。2.1.3分量法将彩色图像中的RGB三分量的亮度作为三个灰度图像的灰度值，根据实际需要选取其中的一个灰度图像。fff3i其中fki,j(k=1,2,3)为转换后的灰度图像在2.1.4最大值法将彩色图像中的RGB三分量的亮度的最大值作为灰度图像的灰度值。f2.1.5平均值法将彩色图像的RGB三分量的亮度的平均值作为灰度图像的灰度值。f2.1.6加权平均法将彩色图像的RGB三分量根据重要性及其他指标以不同的权值进行加权平均。由于人眼对绿色的敏感最高，对蓝色敏感最低，因此，按下式对RGB三分量进行加权平均能得到较合理的灰度图像。fopencv中灰度化采用加权平均值方法2.2二值化二值化是图像分割的一种方法。在二值化图象的时候把大于某个临界灰度值的像素灰度设为灰度极大值，把小于这个值的像素灰度设为灰度极小值，从而实现二值化。根据阈值选取方法的不同，二值化的算法分为固定阈值和自适应阈值。比较常用的二值化方法则有：双峰法、P参数法、迭代法和OTSU法等。2.2.1双峰法在一些简单的图像中，物体的灰度分布比较有规律，背景与目标在图像的直方图各自形成一个波峰，即区域与波峰一一对应，每两个波峰之间形成一个波谷。那么，选择双峰之间的波谷所代表的灰度值T作为阈值，即可实现两个区域的分割。如图（灰度直方图）所示在灰度直方图中我们可以明显的看到两个山峰状的图像分布，山峰的顶点我们记为Hmax1和Hmax2，他们对应的灰度值分别为T1和T2，那么双峰法图像分割的思想就是找到图像两个山峰之间的谷地最低值，即在[T1，T2]的灰度范围内寻找阈值T，使其满足对应的像素数目最少，表现在灰度直方图图像上就是高度最低，用T对图像进行分割或二值化。2.2.2P参数法又称P分位法图像分割，在已知图像中目标所占的比率Ratio时，遍历灰度值对图像进行分割，并计算对应的目标所占的比率，当该比率与Ratio差值最购销，则该灰度值就是所求的最佳分割阈值。算法过程如下：1.已知目标图像所占比率P2.设定一阈值Tℎ，它将图像分割为两部分，目标部分A和背景部分B，统计两部分所包含的像素数目分别为NA和N3.将Tℎ从1-254迭代，每改变一次Tℎ，计算一次NA，NB，根据NAP4.计算当前阈值对应的分割比率与已知比率的差值，若小于某阈值则停止迭代，否则，转至3继续进行，公式如下：P−其中T为某一小数2.2.3迭代法首先根据经验给定一个初始阈值，再通过对图像的多次计算对阈值进行改进。重复地对图像进行阈值操作，将图像分割为对象类和背景类，然后来利用每一个类中的灰阶级别对阈值进行改进。算法步骤如下：1.为全局阈值选择一个初始估计值T(图像的平均灰度)2.用T分割图像。产生两组像素：G1由灰度值大于T的像素组成，G2由小于等于T像素组成3.计算G1和G2像素的平均灰度值m1和m24.计算一个新的阈值:T=5.重复步骤2和4,直到连续迭代中的T值间的差小于一个预定义参数为止。2.2.4OTSU法又称最大类间方差法，是由日本学者大津于1979年提出的,是一种自适应的阈值确定的方法,又叫大津法,简称OTSU。它是按图像的灰度特性,将图像分成背景和目标两部分。背景和目标之间的类间方差越大,说明前景和背景的差别越大,当部分目标错分为背景或部分背景错分为目标都会导致差别变小。因此,使类间方差最大的分割意味着错分概率最小。对于图像I(x,y),前景(即目标)和背景的分割阈值记作T,属于前景的像素点数占整幅图像的比例记为ω0,其平均灰度μ0;背景像素点数占整幅图像的比例为ω1,其平均灰度为μ1。图像的总平均灰度记为算法步骤如下：假设图像的背景较暗,并且图像的大小为M×N,图像中像素的灰度值小于阈值T的像素个数记作N0，像素灰度大于阈值T的像素个数记作NωωNωμ=g=将式(5)代入式(6),得到等价公式:g=采用遍历的方法得到使类间方差最大的阈值T,即为所求。2.2.5一维最大熵法利用图像的灰度分布密度函数定义图像的信息熵，通过优化一定的熵准则得到熵最大时对应的阈值，从而进行图像分割的方法。算法步骤如下：1.对于一幅灰度图像，灰度范围为[0,L-1]，求取图像的最小灰度级min，最大灰度级max；2.按照如下熵的公式求取灰度t对应的熵值；其中，pi表示灰度级i出现的概率。3.计算t从最小灰度min到最大灰度max之间不同灰度级所对应的熵值E(t)，求取E(t)最大时所对应的灰度级t，该灰度级即为所求的阈值Th。2.2.6wolfjolion算法OTSU是一种全局二值化算法，若图片中包含阴影且阴影不平均，二值化算法效果就会比较差，Wolfjolion为一种针对图像和视频中文字的局部二值化算法，对包含阴影的图像也有较好的二值化效果。Wolfjolion算法主要思路为先对文本区域进行检测，追踪，再提高分辨率，最后针对文本区域进行二值化。算法主要步骤1.文本区域检测基于文本字符通常包含水平对齐的垂直笔画纹理。在LeBourgrois的算法上做了一点改进，它使用了梯度累加的（accumulatedgradients？）方法：梯度累加图像的二值化是通过双参数OTSU算法实现的，修改了对每一个像素的二值化判定条件如下：其中Kh是OTSU算法计算的最优阈值，Kl是通过Kh和直方图的第一模式（thefirstmodem0ofthehistogram？）m0计算得到：Kl=m0+alpha（kh–m0），参数alpha为0.87。为了降低噪声，纠正分类错误及连接字符区域，还需在二值化后对图像进行形态学操作，包括以下几步：闭操作（1次）抑制组件间多余的连接（抑制所有高度小于等于2像素的列内部的像素）选择性膨胀（16次）和选择性腐蚀（16次）水平开操作（6次）2.追踪追踪是为了关联相连帧中检测到的文本框并创建文本外观。该算法用了当前帧中检测到的矩形框列表和之前帧中检测到的文本框列表间的冗余信息来实现。3.多帧整合增强图像的区域由序列中第i帧所有的文本图像Fi组成，对每一像素p计算其时间均值（temporalmean？）M（p）和标准差S（p），然后用双线性差值（如上图）提高每一帧的分辨率。每个像素的灰度值收与他相邻的像素灰度值的线性组合，权重通过该像素与对应相邻的像素Mk的距离计算：。最终增强的图像为每一帧增强的图像的均值。为了提高插值处理的鲁棒性，该算法增加了一个额外的权重以减少异常像素的权重：则第i帧的相邻像素Mk的权重为。4.二值化该算法采用了Niblack算法，Niblack算法通过在图像上滑动窗口，计算窗口内像素灰度值的均值m和方差s，求得阈值：，k为-0.2。为了克服该算法会在不包含文本的区域产生噪声的缺点，Sauvola等人通过加入了对文本和背景像素的灰度值的前提假设，得到了下列公式：R是固定为128的标准差的强度，这一方法改善了文档图像的结果，但给视频帧带来了额外的问题，因为视频帧并不总是符合这一前提假设。为了克服这一问题，该算法为了标准化图像的对比度和平均灰度级，修改公式如下：M为图像的最小灰度级，R是所有窗口中的最大标准差2.3霍夫变换及图像矫正2.3.1霍夫变换Hough变换是识别几何形状的基本方法之一，于1962年由PaulHough首次提出，后于1972年由RichardDuda和PeterHart推广使用，经典霍夫变换用来检测图像中的直线，后来霍夫变换扩展到任意形状物体的识别，多为圆和椭圆。Hough变换的基本原理是利用点线的对偶性，将图像空间的曲线通过曲线方程转化为参数空间的点，将曲线检测问题转化为峰值问题。基本思想是由于图像空间的一个点对应参数空间的一条线，同样参数空间的一条线也对应图像空间的一个点。由于图像空间的一条直线上的所有的点的截距与斜率相同，所以这些点对应到参数空间的线相交于同一点。这样将图像空间的各个点投影到参数空间后，若有聚焦点则其为图像空间的直线。实际应用中，由于y=k*x+b表示的直线方程无法表示x=c一类的直线，故一般采用极坐标形式p=x*cos(theta)+y*sin(theta)。为检测出直角坐标系由点构成的直线，将极坐标参数θ-ρ量化为许多小格，根据直角坐标系每个点（x，y），在θ=0~180°内按小格步长计算ρ值，将其落在的小格的计数值加1，全部计算完后，计数值最大的小格，其（θ，ρ）值对应于所求直线。具体步骤：1.读取待处理的二值图像，获取图像空间的源像素数据2.量化参数空间为有限个间隔等分的累加单元，即θ、ρ3.将图像空间的直角坐标系下的像素坐标（x，y）转化到参数空间极坐标系的（θ，ρ）曲线点上，并将对应的单元累加。4.查找参数空间的最大计数值，反变换到图像空间。2.3.2基于直线检测的图像矫正算法主要流程：1.图像预处理，得到二值化图像2.用霍夫变换检测图像中所有直线3.计算出每条直线的倾斜角度，选取若干一定范围内的直线分别计算其倾斜角度的平均值4.按照计算出的倾斜角度进行旋转矫正。

第三章文本区域检测3.1基于SWT的文本检测笔画宽度变换是计算每一像素点最有可能属于的笔画的宽度的操作。其基本依据是统一的文本基本具有统一的笔画宽度。该方法的很大的优势是笔画特征基本上是属于文字独有的特征，且基于笔画特征对于不同的文本是普适的。3.1.1笔画宽度变换1.用Canny对图像进行边缘检测，得到的每一边缘像素点p都具有一个方向梯度值dp，初始化像素点的笔画宽度属性值为∞。2.若边缘像素点p为笔画边缘，则dp方向会大致与笔画方向垂直。沿射线r=p+n*dp(n>=0)梯度查找对应的边界像素点q，则dp与dq的方向大致相反（dp=-dq±pi/6），此时可能：1）没有符合条件的q，则排除射线r2）找到符合条件的q，则修改[p,q]路线上的每一像素点笔画宽度属性为||p-q||（欧氏距离），除非该像素点已有了一个跟小的笔画宽度属性值。3.重复步骤2，计算出所有未被废弃的路线上的像素的笔画宽度属性值。4.根据笔画宽度建立像素点间的联系，对笔画宽度相近的连通区域进行聚类，构造出每个笔画，得到文字区域。）（与下一部分重复？）由于上述过程是针对亮底暗字的情况，对于暗底亮字的情况在步骤2中需要沿着dp反方向寻找q。则在对图像计算笔画宽度时需要进行两次上述过程。3.1.2寻找候选文字对上一步得到的文字区域进行筛选，剔除干扰。1.计算每一连通区域各像素点像素宽度属性值的最大差值，若差值大于阈值则排除该连通区域，阈值为该连通区域笔画宽度属性值平均值的一半。（剔除树叶类似的形状近似文字但笔画宽度不均匀）2.设定候选区域的长宽比在0.1到10之间，将不合要求的排除。（剔除电线杆类似的笔画宽度属性值均匀但形状与文字相差较大）3.若某一连通区域的边界框包含超过两块区域，则排除该区域。（用以剔除文本包围线等）4.排除面积较大或较小的连通区域。5.孤立的文字一般不会出现在图像中，视为噪声排除。3.1.3字符合并视文本为线性方式出现，每行文本有相似的地方：笔画宽度、文字宽度、高度、文字间的间距等对于两候选文字区域，若满足:1.具有相似的笔画宽度（中值比小于2）2.高度比不超过23.两个区域间的距离不超过交宽字符宽度的3倍4.像素值相近则对其进行聚类，形成文本行。3.2EASTEAST算法基于全卷积神经网络（FCN）和局部感知非极大值抑制（Locality-AwareNMS），仅有两层处理过程，是端到端的文本检测方法。EAST与传统的和一些基于深度学习的文本检测方法不同的是，其直接预测图像中的文本区域，消除了中间的多层处理过程，加快了检测速度，且检测的精度也有一定的提升。3.2.1神经网络模型结构EAST的网络主要结合了DenseBox和U-net的特性，具体结构如下：1.用一个通用的网络作为basenet，用于特征提取（论文中采用的是Pvanet，实际也可用VGG16，Resnet等）2.基于这一主干特征提取网络，提取不同级别的特征图（尺寸分别是输入图像的1/32，1/16，1/8，1/4）得到不同尺度的特征图。用来解决文本行尺度变换剧烈的问题，前层（ealy-stage）用于预测小的文本行，后层（late-stage）用于预测大的文本行。3.特征合并层：将提取的特征进行合并，采用U-net的方法，从网络的顶部特征按照相应规则向下合并。4.网络输出层：包含文本得分和文本形状，文本形状包括RBOX和QUAD两种，对应的输出也不同。3.2.2合并层特征图的合并规则合并步骤如下：1.将特征提取网络提取的最后层的特征图最先送入上池化（uppooling）层（将图像放大两倍）2.将放大后的特征图与前一层的特征图进行连接（concatenate）3.依次送入卷积核大小为1*1，3*3的网络，卷积核个数依次递减为128，64，324.重复1-3步骤2次5.将输出经过一卷积核大小为3*3的网络，卷积核个数为32个公式为：3.2.3网络的输出检测形状为RBOX：包含文本得分和文本形状（AABBboundingbox和rotateangle），共有6个输出。AABB表示相对于top、right、bottom、left的偏移。检测形状为QUAD：包含文本得分和文本形状（8个相对于cornervertices的偏移），共9个输出。QUAD有8个，分别为（xi，yi），i∈[1，2，3，4]3.2.4损失函数损失函数由分数图损失函数和几何形状损失函数两部分组成。1）分数图损失函数：原文采用类平衡交叉熵，从而避免使用较为复杂的平衡采样和硬负挖掘（balancedsamplingandhardnegativemining）的方法解决目标物体的不平衡分布，以简化训练过程：损失函数为：其中Y^=Fs是分数图的预测结果，Y*是分数图的真值，参数β是积极和消极样本的平衡因子在实际过程中，一般使用diceloss作为损失函数，其收敛速度比类平衡交叉熵快。2）几何形状损失在自然场景中，文本的尺度变化较大，直接使用L1或L2损失函数会导致偏差更大。论文中对RBOX回归采用IoU损失函数，对QUAD采用尺度归一化的smoothed-L1损失函数，以保证几何形状的回归损失是尺度不变的。RBOX损失函数公式：QUAD损失函数公式：3.2.5局部感知NMS与通用目标检测类似，阈值化后的结果需要经过非极大值抑制来得到最终结果。本文需要处理的几何体较多，一般的NMS计算复杂度O（n^2)，开销较大。针对这一问题，本文提出基于行来合并几何体的方法，基于邻近的几何体高度相关的假设。合并后的四边形坐标是给定的两个四边形的坐标按照其对应的得分进行加权平均的结果。3.3MSERMSER全称为最大稳定极值区域，其基于分水岭的思想对图像中的斑点进行检测。MSER主要思想为将全局二值化阈值从0递增到255，二值化图像从全黑变为全白，其中某些区域的面积随阈值改变的变化很小，说明该区域的灰度值较为一致，这些区域叫做最大稳定极值区域。MSER具有如下特点：1.对图像灰度有仿射变换不变性2.具有稳定性，即相同阈值范围内的区域才会被选择3.不需要进行平滑出路就可实现多尺度检测，即较小和较大的结构都可被检测到3.3.1原论文算法1.将像素按照灰度值强度排序，使用BINSORT算法排序，复杂度为O(n)2.递增二值化阈值，用联合查找算法（union-findalgorithm）维护连通区域，复杂度为O(nloglogn)，近似线性。3.在阈值递增过程中，两个连通区域的合并为删去面积较小的区域，并将其所含像素点添加进面积较大的区域的过程。4.提取局部变化率最小的区域即最大稳定极值区域。变化率的数学定义为：Qi表示阈值为i时的某一连通区域，△为灰度阈值的微小变化量，q(i)为阈值是i时的区域Qi的变化率。当q(i)为局部极小值时，则Qi为最大稳定极值区域由于按此方法对灰度图像进行操作后仅能提取黑色部分的MSER因而还需对反色后的灰度图像进行上述步骤以提取白色部分的MSER3.3.2更高效的算法DavidNister等人与2008年提出了LinearTimeMaximallyStableExtremalRegions算法，比原论文中的算法要快，是线性复杂度的算法。该算法是基于改进的分水岭算法，即当向某处注水时，仅当该处的沟壑被填满后，水才会向周围溢出，随着注水量增加，各处的沟壑也逐渐被水填满，但各沟壑睡眠不是同时上升的，其按照水漫过沟壑的先后顺序，逐一填满，只有当相邻的两个沟壑被水连通后，这两个沟壑的水面才是同时上升的。具体步骤如下：1.初始化栈和堆。栈存储组块代表水面区域，组块的值即水面的高度，即图像的灰度值。堆存储边界，因为边界要高于水面区域，因而边界像素的灰度值不小于其所包围的组块的灰度值。组块栈中首先入栈一个虚假的组块，用于标识程序的结束。2.取图像中任一像素作为初始像素，标注该像素已访问，将该像素作为当前像素点，将其灰度值作为当前值。（相当于像初始像素注水）3.入栈一空组块，组块值为当前值。4.依次访问当前像素点4-邻域的像素点，对每一邻域，检查是否已被访问过，若没有，则标记其已被访问并检查其灰度值。若其灰度值不小于当前值，则将其放入边界像素堆中。若其灰度值小于当前值，则将当前像素点放入边界像素堆中，将该邻域作为当前像素点，将其灰度值作为当前值，回到步骤3。5.将当前像素加入组块栈栈顶的组块。（相当于水面的饱和）6.弹出堆中的边界像素，如果堆为空，则结束。如果弹出的像素的灰度值与当前值相同，则将该像素点作为当前像素点，回到步骤4。7.此时堆中弹出的像素点的灰度值大于当前值，需要处理组块栈中的所有组块使得栈中组块的值大于该边界像素点的灰度值，回到步骤4。处理组块的方法在处理栈的子模块中，传入该模块的参数为步骤7中边界像素的灰度值。子模块具体步骤为：1.处理栈顶的组块：按照公式（1）计算组块区域面积变化率，判断是否为MSER2.若边界像素灰度值小于栈顶第二个组块的值，则置栈顶组块的灰度值为边界像素灰度值，退出该模块返回主程序，再次搜索组块。（因为出现这种情况说明在两个组块间存在未被检测的组块，改变栈顶组块的灰度值相当于将这些组块进行合并）3.弹出栈顶组块并于当前栈顶组块合并。（合并步骤省略）4.如果边界像素灰度值大于栈顶组块的值则回到步骤1。其中，步骤1中如何处理一个组块与原算法相同，并取决于想要获得的关于MSER的信息。3.3.3NMS使用MSER算法可以用于粗略的检测图像中的文本区域，但往往会有许多重复检测的区域，因而需要用NMS算法去除重复区域。NMS算法即非极大值抑制算法，基本思想是按面积大小遍历所有的文本框，删去与当前文本框重叠面积大于设定阈值的其余文本框，从而保留最大的文本框。

第四章字符识别4.1Tesseract使用方法介绍Tesseract项目最初由惠普实验室支持，1996年被移植到Windows上，1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在，都由Google公司开发。其源代码放在GitHub上。Tesseract可以识别超过100种语言，也可以用来训练其他的语言。开源项目提供了一个OCR引擎——libtesseract以及一个命令行程序——tesseract.exe开发者可用libtesseract的C/C++接口构建自己的程序Tesseract于2018年更新了4.0.0版本，增加了新的OCR引擎。增加了基于LSTM神经网络模型的OCR引擎，提高了精度。新的LSTMOCR引擎仍不支持原先的引擎的所有特性。提供了用于训练LSTMOCR引擎的性的工具，可以从头开始或微调现有模型来训练新的模型。增加了123个语言的包括了LSTM模型的训练好的数据。使用tesserct对图像OCR识别建议图片经过预处理且较为干净，并且具有高分别率高DPI，可以使用阈值化分割从背景中分理处文本，确保前景色和背景色可以清晰的分开，使用textskewcorrection确保文字对齐。Tesseract提供了如下参数可供修改：-l待识别文本的语言种类，共有123个语言-oemOCR引擎模式，有4种模式传统引擎LSTM神经网络引擎传统引擎+LSTM神经网络引擎默认，选择可用的引擎-psm页面分割模式，共有14种模式水平和脚本检测（OSD）基于OSD的页面自动分割无OSD或OCR的页面自动分割无OSD的全自动页面分割单列大小可变的文本垂直对齐的文本块统一的文本块视图像为一行文本视图像为一个字视图像为一个环形呈现的字视图像为一个字符稀疏文本，找到尽可能多的文本稀疏文本，使用OSD分割视图像为单一文本行，通过绕过Tesseract特有的Tesseract在前景文本和背景色区分明显的图像上识别效果很好。此外，阈值化后得到的分割图像分别率尽可能的高，且字符不会出现“像素化”。4.2Tesseract具体原理4.2.1架构1.连通组件分析，保存组件的轮廓这一阶段计算开销较大，但带来了一个意义重大的好处：通过分析轮廓间的关系，可以轻松的检测黑底白字的文字，并同白底黑字一样容易识别。轮廓信息仅通过嵌套聚集在Blobs中。2.文本行构成及拆分Blobs被组建成文本行，并分析线和区域的固定间距或间距成比例文本。根据不同的字符间距种类拆分文本行。固定间距的文本直接被字符单元格拆分间距成比例的文本通过确定空间和模糊空间拆分3.字符识别字符识别是需要进行两遍的过程。第一遍尝试依次识别每一个字符，将识别结果较为满意的字符作为训练数据传给自适应分类器，使得分类器有机会更加准确的后面的字符。由于自适应分类器可能没有及时

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

屏幕检测数据自动识别方法的研究与应用

文档简介

温馨提示

最新文档

评论

屏幕检测数据自动识别方法的研究与应用

文档简介

温馨提示

最新文档

评论

相关文档