版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种表格证件影像件的文本识别方法及计本发明实施例提供了一种表格证件影像件数量与该类型的表格证件所具有的各关键字段合该类型的表格证件中任一关键字段的文本内文本内容,从而可确定出各关键字段的文本内2针对任一类型的表格证件影像件,通过对所述类型的表格证件在确定所述第一文本内容中第一文本行的字符串的数量与所述类型的表格证件所具在任一拼接后的字符串符合所述类型的表格证件中任一关键字段的文本内容规则时,将所述拼接后的字符串确定为所述关键字段将所述各关键字段的文本内容确定为所述类型的表格证件影像件的第若所述拼接后的字符串属于纯数字类型,则从所述各关键字段中针对任一文本内容属于纯数字类型的关键字段,按照所述关键字符合所述关键字段的文本内容规则。若所述拼接后的字符串属于字母+至少一个特殊字符类型,则从所述各关键字段中确针对任一文本内容属于字母+至少一个特殊字符类型的关键字段,按照所述关键字段若所述拼接后的字符串属于包含至少一个中文词类型,则从通过设定的语言模型对所述拼接后的字符串进行处理,确定出而确定所述拼接后的字符串是否符合所述关键字段的文本内容规通过设定的分词工具对所述拼接后的字符串进行分词处理,得到至少针对每个句子,通过所述设定的语言模型对所述句子中的各分3将所述至少一个句子的句子概率进行比对,确定出最大的句子P=a×Pw×(1-a)×Pc通过所述二元模型,对所述句子中各分词的词性进行统计处理,所确表示所述句子的第二子句子概率,a用于表示权重,Wi用于表示所述句子中的任一分词,count(Wi-1)用于表示分词Wi-1出现的次数,count(Wi-1,Wi)用于表示分词Wi-1相邻且出现在表示所述句子中任一分词的词性,count(Ci-1)用于表示分词词性Ci-1总共出现的次数,count(Ci-1,Ci)用于表示与分词词性Ci-1相邻且出现在分词词性Ci-1之后的分词词性出现的i-1)用于表示分词词性Ci-1针对分词词性Ci的转移7.如权利要求1至6任一项所述的方法,其针对所述有向无环图中的任一节点,在确定所述节点不为空节点时若是,则确定所述节点为第一关键字段节点,并沿着第一遍历4沿着第二遍历方向对与所述第一关键字段节点相邻的第二节点沿着所述第一遍历方向对与所述第二关键字段节点相邻的第5[0001]本发明实施例涉及金融科技(Fintech)领域,尤其涉及一种表格证件影像件的文要用户上传相关的证件影像件进行辅助审核,此时就需要用户上传自己相关的证件影像的单元格是不准确的,从而导致识别出的至少一个关键字段对应的文本内容也是不准确一类型的表格证件中的内容发生变更时需要重新设计并开发该类型的证件所对应的内容6[0007]在确定所述第一文本内容中第一文本行的字符串的数量与所述类型的表格证件[0008]在任一拼接后的字符串符合所述类型的表格证件中任一关键字段的文本内容规[0009]将所述各关键字段的文本内容确定为所述类型的表格证件影像件的第二文本内[0010]上述技术方案中,由于现有技术方案是通过为每种类型的表格证件(比如房屋产权证等)配置一个符合该类型的表格证件的内容格式要求的内容模板,一旦某一类型的表格证件中的内容发生变更,就需要重新设计并开发该类型的表格证件所对应的内容模板,的技术方案通过自动判断所识别出的某一类型的表格证件影像件中的文本内容是否存在有某一个或某几个文本行的字符串数量与该类型的表格证件所具有的各关键字段的数据只需将存在不相同的某一文本行中的每个字符串与位于该文本行之前的最近文本行中的每个字符串进行拼接,并确定某一拼接后的字符串是否符合某一关键字段的文本内容规7字类型的关键字段的文本内容规则对该拼接后的字符串进行长度校验和正则表达式校验省因将每个关键字段的内容规则都来校验一下该属于纯数字类型的拼接后的字符串所耗并可以提高表格证件影像件中文本内容属于纯数字类型的关键字段的文本内容的识别准[0016]若所述拼接后的字符串属于字母+至少一个特殊字符类型,则从所述各关键字段[0017]针对任一文本内容属于字母+至少一个特殊字符类型的关键字段,按照所述关键[0018]上述技术方案中,如果确定某一拼接后的字符串属于字母+至少一个特殊字符类型,则可以先从各关键字段中选择出文本内容属于字母+至少一个特殊字符类型的关键字段,并只需按照该文本内容属于字母+至少一个特殊字符类型的关键字段的文本内容规则像件中文本内容属于字母+至少一个特殊字符类型的关键字段的文本内容串符合任一文本内容属于包含至少一个中文词类型的关键字段的文本内容规则的句子概[0022]上述技术方案中,如果确定某一拼接后的字符串属于包串符合某一文本内容属于包含至少一个中文词类型的关键字段的文本内容规则的句子概8拼接后的字符串符合任一文本内容属于包含至少一个中文词类型的关键字段的文本内容用于表示所述句子的第二子句子概率,a用于表示权重,Wi用于表示所述句子中的任一分i用于表示所述句子中任一分词的词性。的字符串进行分词和词性处理后,即可通过引入分词相关的概率以及分词词性相关的概确定该拼接后的字符串是否为该文本内容属于包含至少一个中文词类型的关键字段的文9方案针对该文本内容中所存在的某一文本行中的字符串数量不符合该类型的表格证件所该节点是否为该类型的表格证件影像件中的键(即关键字段与关键字段的文本内容是以键于关键字段库中,则确定第二节点为第二关键字段节点(也即是某一类型的表格证件所具有的关键字段),如此即可沿着自上而下的遍历方向针对与该第二关键字段节点相邻的第的文本内容,并根据该第一关键字段节点的文本内容更新设定数据格式所对应的键值内[0056]若所述拼接后的字符串属于字母+至少一个特殊字符类型,则从所述各关键字段[0057]针对任一文本内容属于字母+至少一个特殊字符类型的关键字段,按照所述关键串符合任一文本内容属于包含至少一个中文词类型的关键字段的文本内容规则的句子概用于表示所述句子的第二子句子概率,a用于表示权重,Wi用于表示所述句子中的任一分i用于表示所述句子中任一分词的词性。[0075]在将所述各关键字段的文本内容确定为所述类型的表格证件影像件的第二文本处理器执行上述第一方面任意所述的表格证件影像件的文[0096]图1示例性的示出了本发明实施例提供的一种表格证件影像件的文本识别方法的[0099]本发明实施例中,针对用户提交的任一类型的表格证件影像件(比如房屋所有权实施例提供的一种表格证件影像件示意图,通过利用OCR工具针对该表格证件影像件进行[0101]步骤102,在确定所述第一文本内容中第一文本行的字符串的数量与所述类型的[0102]步骤103,在任一拼接后的字符串符合所述类型的表格证件中任一关键字段的文存在有某一文本行的字符串的数量与该类型的表格证件所具有的各关键字段的数量不相同(也即是存在某一文本行的字符串数量与关键字段文本行的各关键字段数量不相同,使二文本行为第一文本内容中位于第一文本行之前的段,按照该关键字段的文本内容规则对该拼接后的字符串进行长度校验和正则表达式校个文本内容属于纯数字类型的关键字段的文本内容规则针对该拼接后的字符串进行校验,该文本内容属于纯数字类型的关键字段的文本内容规则对该拼接后的字符串进行长度校表格证件影像件中文本内容属于纯数字类型的关键字段的文本内容的[0105]如果确定该拼接后的字符串属于字母+至少一个特殊字符类型,则可以先从各关键字段中选择出文本内容属于字母+至少一个特殊字符类型的关键字段,并针对任一文本内容属于字母+至少一个特殊字符类型的关键字段,按照该关键字段的文本内容规则对该的文本内容规则,则继续按照下一个文本内容属于字母+至少一个特殊字符类型的关键字母+至少一个特殊字符类型的关键字段的文本内容规则对该拼接后的字符串进行正则表达后的字符串所耗费的时间,并可以提高表格证件影像件中文本内容属于字母+至少一个特子概率即可准确地确定该拼接后的字符串是否为该文本内容属于包含至少一个中文词类以将该拼接后的字符串确定为该文本内容属于包含至少一个中文词类型的关键字段的文的字符串是否符合下一个文本内容属于包含至少一个中文词类型的关键字段的文本内容过设定的语言模型对该句子中各分词的词性进行处理,确定出该句子的第二子句子概率。文本内容属于包含至少一个中文词类型的关键字段的文本内容提供中各关键字段的数量不相同的第三行中各字符串进行相应的列对齐处理时,存在三种处理属于纯数字类型的字符串进行处理时,需要将该字符串与位于该字符串所在行之前的最近一行中的各字符串分别进行拼接处理,可以得到至少一个拼接后的字符串,并针对每个拼接后的字符串进行长度校验和正则表达式校验,以此确定该拼接后的字符串是否符合第一行中某一关键字段的内容格式要求,若是,则将该拼接后的字符串确定为第一行中该关键拼接,组成拼接后的字符串“张三12345678”或“12345678张三”,并分别针对“张三“12345678”与第二行中的字符串“1234567890”进行拼接,组成拼接后的字符串“123456781234567890”或“123456789012345678”,并针对“123456781234567890”和后的字符串进行正则表达式校验之前,会为每种类型的表格证件所具有的各关键字段对应的文本内容都配置一个相应的正则表达式,以便能够及时有效地针对各关键字段所对应的文本内容进行内容校验。之后也就不需要将“12345678”与第二行中的其它字符串(比如“zhangsan”或“深圳市南山区龙海家”)进行拼接,也就可以结束针对第三行中字符串的关键字段,并按照该关键字段的内容格式要求针对该拼接后的字符串进行长度校验和正内容格式要求符合纯数字类型,因此按照关键字段“身份证”的内容格式要求分别针对本内容。[0109]第二种处理方式为:被分割的字符串属于字母+至少一个特殊字符(不包含中文要将该字符串与位于该字符串所在行之前的最近一行中的各字符串分别进行拼接处理,可以得到至少一个拼接后的字符串,并针对每个拼接后的字符串进行正则表达式校验,以此确定该拼接后的字符串是否符合第一行中某一关键字段的内容格式要求,若是,则将该拼接后的字符串确定为第一行中该关键字段的文本内容。比如,将第三行中的字符串“@个拼接后的字符串均不符合第一行中任何关键字段的内容格式要求。之后,将第三行中的属于字母+至少一个特殊字符类型,则从第一行的各关键字段中确定出文本内容的格式要求属于字母+至少一个特殊字符类型的关键字段,并按照该关键字段的内容格式要求针对该拼接后的字符串进行正则表达式校验,如果校验成功,则确定该拼接后的字符串为该关区龙海家”以及“深圳市南山区龙海家@”。以“zhangsan@”和“@此按照关键字段“邮箱”的内容格式要求分别针对“zhangsan@”和“@比如结巴中文分词工具(即jieba中文分词工具),对该拼接后的字符串进行分词和词性处率,以及通过设定的语言模型(比如n-gram语言模型)对该句子中各分词的词性进行处理,该至少一个拼接后的字符串各自对应的句子概率进行比对,即可确定出最大的句子概率,并将最大的句子概率对应的拼接后的字符串确定为文本内容属于包含至少一个中文词的子中各分词的词性进行统计处理所计算出来的句子概率(即该句子的第二子句子概率),a[0116]n-gram语言模型通常用来描述一个随机分词序列属于一个正常语义语句的概那么通过针对这些分词进行组合处理,产生该正常二元模型来进行组成句子的概率计算。其中,针对一元模型,计算概率的公式为顺序关系;针对二元模型,计算概率的公式为P(W,W2,…,W)=TI分词Wi针对的转移概率分别为count(Wi,W1)/count(Wi),count(Wi,W2)/count(Wi),[0132]其中,通过二元模型计算产生正常语义字符串“深圳市南山区龙海家园8栋1818[0143]针对用于表示通过词性计算出来的句子概率Pc,同样使用二元模型+拉普拉斯平阵内第i行第j列的值等于分词词性Ci针对分词词性Cj的转移概率,即count(Ci,Cj)/count圳市南山区龙海家”进行拼接为例,假设拼接后的字符串为“深圳市南山区龙海家园8栋[0149]步骤104,将所述各关键字段的文本内容确定为所述类型的表格证件影像件的第该文本内容中所存在的某一文本行中的字符串数量不符合该类型的表格证件所具有的各出该类型的表格证件的有向无环图,再以有向无环图中位于起始位置的节点为遍历起点,点确定为该第一关键字段节点的文本内容,直至第一遍历方向上出现空节点时停止遍历。第二关键字段节点相邻的第四节点进行遍历,直至第二遍历方向上出现空节点时停止遍库中,则确定第二节点为第二关键字段节点(也即是某一类型的表格证件所具有的关键字段),如此即可沿着自上而下的遍历方向针对与该第二关键字段节点相邻的第三节点进行也即是用tableValue到keymap中的keyname进行匹配,比如,在遍历根节点时,也即是用字段映射数组,也即是将每种类型的表格证件所具有的各关键字段映射存储在关键字段[0154]Keymap=[遍历,确定该节点不是空节点且不存在于keymap中,则可以确定该节点为上一个节点的值“jsonkey”:“email”}。此时,可以将该节点所对应的json中的key(值为keymap中的为{“email”:Null}。接下来只需找到json中的key对应的value值即可。然后,对节点 如果不为空节点,则判断该节点是否存在于keymap中,也即是用“tableValue=家庭地址”进行遍历,确定该节点不是空节点且不存在于keymap中,则可以确定该节点为上一个节点“tableValue=家庭地址”的value值。此时可以更新json数据格式的数据内容为 此即可结束针对该有向无环图的遍历,同时可以得到映射的json数据格式的数据内容为: 证件影像件进行按照图2a所示的某一类型的表格证件影像件的处理过程进行处理后(具体据列对齐处理后所得到的各关键字段的内容构建出的另一种如图6所示的有向无环图。其中,针对该图6所示的有向无环图中各节点的遍历过程,可以参照上述针对图4所示的有向[0166]上述实施例表明,由于现有技术方案是通过为每种类型的表格证件(比如房屋产权证等)配置一个符合该类型的表格证件的内容格式要求的内容模板,一旦某一类型的表格证件中的内容发生变更,就需要重新设计并开发该类型的表格证件所对应的内容模板,的技术方案通过自动判断所识别出的某一类型的表格证件影像件中的文本内容是否存在有某一个或某几个文本行的字符串数量与该类型的表格证件所具有的各关键字段的数据只需将存在不相同的某一文本行中的每个字符串与位于该文本行之前的最近文本行中的每个字符串进行拼接,并确定某一拼接后的字符串是否符合某一关键字段的文本内容规[0167]基于相同的技术构思,图7示例性的示出了本发明实施例提供的一种表格证件影[0170]处理单元702,用于在确定所述第一文本内容中第一文本行的字符串的数量与所述类型的表格证件所具有的各关键字段的数量不相同时,将所述第一文本行的任一字符[0175]若所述拼接后的字符串属于字母+至少一个特殊字符类型,则从所述各关键字段[0176]针对任一文本内容属于字母+至少一个特殊字符类型的关键字段,按照所述关键串符合任一文本内容属于包含至少一个中文词类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026吉林大学白求恩第一医院门诊部(特需门诊)分导诊招聘参考题库附答案详解(巩固)
- 2026安徽安庆市中医医院劳务派遣工作人员招聘1人模拟试卷带答案详解(培优)
- 2026年张浦镇公开招聘编外工作人员11人简章笔试题库附参考答案详解【轻巧夺冠】
- 农村房屋地面拆除方案范本
- 锅炉安全整治方案范本
- 城市管接驳方案范本
- 小摊餐饮管理方案范本
- 微信基础开发及实战 4
- 2025年甘肃庆阳招聘公交大巴车司机50人笔试历年参考题库附带答案详解
- 2025年开封产城融合投资集团有限公司及下属子公司公开招聘18名笔试历年参考题库附带答案详解
- 部编版六年级语文上册基础知识默写单(1-8单元)含答案
- 护理专业的社区护理
- 婴幼儿卫生保健知识试题及答案
- 《道路运输企业主要负责人和安全生产管理人员安全考核道路普通货物运输》专业部分题库(附答案)
- 穿线分包合同范本
- 2025年应聘医院法务岗面试题及答案
- 工厂入职导师培训课件
- 复杂富水地层联络通道机械法施工技术研究及实践应用
- 暑期校园保安安全培训课件
- 2025-2026学年度武汉市部分学校高三年级九月调研考试 英语试卷(含答案)
- 2025年医学影像学专业招聘考试试题
评论
0/150
提交评论