CN112906683B 文本标注方法、装置及设备 (中国工商银行股份有限公司)_第1页
CN112906683B 文本标注方法、装置及设备 (中国工商银行股份有限公司)_第2页
CN112906683B 文本标注方法、装置及设备 (中国工商银行股份有限公司)_第3页
CN112906683B 文本标注方法、装置及设备 (中国工商银行股份有限公司)_第4页
CN112906683B 文本标注方法、装置及设备 (中国工商银行股份有限公司)_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

用眼球追踪技术对获得业务员对所述待标注图业务员对所述待标注图片的关注区域和关注频2根据所述待标注图片中的像素点和所述待标注文本的字符之间的对基于光学字符识别技术对所述关注字符信息进行筛选,获得其中,所述基于光学字符识别技术对所述关注字符信息进行历史关注字符信息;获取业务员对所述历史待标注样本进行标注的历史样本确认标注信根据所述待标注图片构建待标注图像矩阵,所述待标注图像矩阵将所述待标注图像矩阵中各元素的数值设置为所述待标注图片中各元素的关注次数,将确定出元素数值的待标注图像矩阵作为所根据所述待标注文本构建待标注文本矩阵,其中,所述待标注文本根据所述待标注文本矩阵中的字符与所述待标注图片中像素点之间述待标注图像矩阵中各个元素的数值转换为所述待标注文本矩阵中个元获取业务员对所述待标注文本对应的指定数量的待标注图片进将所述指定数量的待标注图片的关注字符信息作为所述光学字符识别模型的优化训3基于光学字符识别技术对所述关注字符信息进行筛选,获得所注字符矩阵,所述标注字符矩阵中的元素数值表示所述待标注文本中各个字符的标注频根据所述标注字符矩阵确定所述待标注文本中重点标注区域的根据所述待标注文本和所述待标注图片的对应关系,将所述重点标基于所述重点标注区域的一维字符索引获得所述待标其中,I1表示重点标注区域的二维图片坐标的集合,xn_1表n_2表示第n个重点标注区域的横轴终止点,yn_1表示第n个重点标注区域的纵轴眼球追踪标注模块,用于利用眼球追踪技术对获得业务员对所标注信息字符转换模块,用于根据所述待标注图片中的像素点和所述待标注信息筛选模块,用于基于光学字符识别技术对所述关注字符信其中,所述标注信息筛选模块具体用于:基于光学字符识别技4根据所述待标注图片构建待标注图像矩阵,所述待标注图像矩阵将所述待标注图像矩阵中各元素的数值设置为所述待标注图片中各元素的关注次数,将确定出元素数值的待标注图像矩阵作为所根据所述待标注文本构建待标注文本矩阵,其中,所述待标注文本根据所述待标注文本矩阵中的字符与所述待标注图片中像素点之间述待标注图像矩阵中各个元素的数值转换为所述待标注文本矩阵中个元存储处理器可执行指令的存储器,指令被处理器执行时实现包括上述权利要求1_7任一项5[0015]将所述待标注图像矩阵中各元素的数值设置为所述待标注图片中各元素的关注6[0018]根据所述待标注文本矩阵中的字符与所述待标注图片中将所述待标注图像矩阵中各个元素的数值转换为所述待标注文本矩阵中个[0028]将所述指定数量的待标注图片的关注字符信息作为所述光学字符识别模型的优7[0040]其中,I2表示重点标注区域的一维字符索引,i表示所述标注字符矩阵的列数,n_1注图像信息,所述关注图像信息包括所述业务员对所述待标注图片的关注区域和关注频[0045]标注信息筛选模块,用于基于光学字符识别技术对所述[0050]将所述待标注图像矩阵中各元素的数值设置为所述待标注图片中各元素的关注[0053]根据所述待标注文本矩阵中的字符与所述待标注图片中将所述待标注图像矩阵中各个元素的数值转换为所述待标注文本矩阵中个8[0064]图1是本说明书实施例提供的文本标注方法实施例的流程示意图。虽然本说明书本说明书实施例或附图所示的执行顺序或模块结构。的方法或模块结构的在实际中的装9述关注图像信息包括所述业务员对所述待标注图片的关注区[0075]将所述待标注图像矩阵中各元素的数值设置为所述待标注图片中各元素的关注时间为10秒,每1秒记录一次业务员对待标注图片的关注信息,可以获得10个标注图像矩[0080]步骤106、根据所述待标注图片中的像素点和所述待标注文本的字符之间的对应[0084]根据所述待标注文本矩阵中的字符与所述待标注图片中将所述待标注图像矩阵中各个元素的数值转换为所述待标注文本矩阵中个像矩阵中对应于同一个字符的元素的数值累加获得该字符对应在待标注文本矩阵中元素[0090]待标注文本矩阵中每个元素的数值可以表示待标注文本中每个字符被关注的次再利用OCR定位模型对基于眼球追踪技术获得的关注字符信息进行筛选和进一步的确认,有大量具备专业知识的业务人员参与的特点,使眼球追踪应用于标注系统具有实际的价[0103]本说明书实施提供的文本标注方法,将眼球追踪技术和光学字符识别技术相结[0106]将所述指定数量的待标注图片的关注字符信息作为所述光学字符识别模型的优[0108]在具体的实施过程中,在利用OCR技术对眼球追踪技术获得的标注信息进行筛选[0110]本说明书实施例在使用OCR技术对眼球追踪技术识别出的标注信息进行筛选时,将标注字符矩阵中元素数值大于指定阈值的元素在矩阵中的位置坐标作为该元素的二维[0117]一维字符索引可以理解为重点标注区域的字符在待标注文本整个文本内的字符设标注字符矩阵为元素数值大于2的作为重点标注区域,那么改n_1[0130]重点标注区域的一维字符索引可以理解为重点标注的字符在整个待标注文本中的反馈对眼球追踪技术以及OCR技术的模型进行优化,以使得文本标注的结果更加符合业1,业务人员处理一个待标注图片的时间段中会留下n次标记信息,则累加这n次的(M1,将重要信息区域的图片n个二维坐标映射转化为n个一维字符索引I1,其中I1、I2的确定方法具体参见上述实施例的记载,此处不再赘述。由此获得了待标注文本的标注信息I2,即上自动标注出业务人员注意力集中的区域。图2是本说明书实施例中文本自动标注的界面[0159]标注信息筛选模块34,用于基于光学字符识别技术对所述关注字符信息进行筛[0165]将所述待标注图像矩阵中各元素的数值设置为所述待标注图片中各元素的关注[0168]根据所述待标注文本矩阵中的字符与所述待标注图片中将所述待标注图像矩阵中各个元素的数值转换为所述待标注文本矩阵中个[0171]需要说明的,上述的装置根据对应方法实施例的描述还可以包括其他的实施方[0178]本说明书提供的上述实施例的方法或装置可以通过计算机程序实现业务逻辑并[0180]非易失性存储器200可用于存储应用软件的软件程序以及模块,如本说明书实施[0181]传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括[0182]上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围[0183]本说明书实施例提供的上述文本标注方法或装置可以在计算机中由处理器执行产品执行时,可以按照实施例或者附图所示的方法顺说明书一个或多个时可以把各模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论