CN113807158B 一种pdf内容提取方法、装置及设备 (四川医枢科技有限责任公司)_第1页
CN113807158B 一种pdf内容提取方法、装置及设备 (四川医枢科技有限责任公司)_第2页
CN113807158B 一种pdf内容提取方法、装置及设备 (四川医枢科技有限责任公司)_第3页
CN113807158B 一种pdf内容提取方法、装置及设备 (四川医枢科技有限责任公司)_第4页
CN113807158B 一种pdf内容提取方法、装置及设备 (四川医枢科技有限责任公司)_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

A,2019.10.29A,2019.10.15A,2011.03.16A,2020.10.02A,2020.04.10本发明公开了一种PDF内容提取方法,通过定PDF正文信息;根据所述PDF正文信息得到PDF内容提取信息。本发明通过对所述待处理PDF文码等位于PDF文件边缘的格式信息,仅留下所述具有上述有益效果的PDF内容提取装置、设备及2所述样品页面信息为用于提取页面信息特征的页面图片文件,由于同一PDF文件的页所述机器学习模型包括计算机深度学习模型或知识引擎计算机技术,将所述待处理PDF文件的每一页的图片文件依次与上述页面信息特征图相乘,得到page_attention_featpage_attention_feature_map的主要作用是将读入的页面原PDF的页面布局相关性生成了页面的区域注意力特征图,通过判断注意力分布,确定所述3从所述PDF正文信息提取所述PDF内容提取信息的方法,能够采用预训练的所述类别信息可看做对所述待识别区块信息的标注,将所述待识别区块S406:当所述类别信息为文字块类信息时,获取使用预训练好的OCR深度学习模型进行文字识别和区域定位,得到类别信息为正文文所述段落开始信息及所述段落结束信息,为匹配文字块的开头与结尾4S407:根据所述段落开始信息、所述段落结根据所述段落开始信息、所述段落结束信息、所述文字分割线信息若存在纵向有文档区域分割的情况,那么通过识别分割、前使用OCR识别文字这个task也能够放到所述页面布局模型中的head部分,让模型进行利用所述表格数据块信息,通过特征数为1的均值漂移算法,确定所述单列横坐标信5使用聚类算法求出表格列的标识点,根据聚类结果进行分根据中心点从原始数据中获取当前列的数据块,观察是否存表格中存在跨行数据块,若某个数据块与当前行没有对齐,但是6处理器,用于执行所述计算机程序时实现如权利要求1所述的PDF内容提取方法的步4.一种计算机可读存储介质,其特征在于,所述计算机7从规则引擎和深度学习的角度建立算法模型和解析系统,集中在对PDF页面的图像识别及[0014]利用所述PDF正文信息,通过预训练的页面布局模型得到待识别区块信息及与所89[0047]本发明的核心是提供一种PDF内容提取方法,其一种具体实施方式的流程示意图[0050]上述通过所述待处理PDF文件确定所述PDF正文信息,可通过机器学习的方法实用OCR相关的深度学习模型进行文字提取(包含文本在截图中的位置信息)。最后根据类别[0059]所述样品页面信息为用于提取页面信息特征的页面图片文件,由于同一PDF文件利用所述计算机深度学习模型的卷积神经网络通过所述样品页面信息获得所述页面信息page3、page4,让page1~page4都经过CNN(卷积神经网络)的处理并合并形成layout_[0063]将所述待处理PDF文件的每一页的图片文件依次与上述页面信息特征图相乘,得到page_attention_feature_map,page_attention_feature_map的主要作用是将读入的[0066]本具体实施方式中具体给出了一种所述PDF正文信息的获取方法,通过预训练的机器学习模型获得所述待处理PDF文件的页面信息特征图,进而确定哪里是PDF的正文内[0078]此模型的损失函数主要分为三部分:边框的损失、分类的损失、置信度的损[0082]本具体实施方式中通过所述页面布局模型对所述PDF正文信息进行提取,将所述PDF正文信息分为一个或多个待识别区块信息,每个待识别区块信息都对应一个对其类别[0083]在具体实施方式三的基础上,进一步对特定类型的PDF内容提取信息的获得方法[0090]可使用预训练好的OCR深度学习模型进行文字识别和区域定位,得到类别信息为程序可根据预设的书写顺序将多个文字块类信息按其在PDF页面上的位置分布排序,生成值的空白地带),则将deadline设置为分割的纵向中心线,匹配的下一个文字块必须是域内文本的排列顺序,举例说明如存在横向分割线将一页内的正文文本分为左右两部分,[0098]需要注意的是,使用OCR识别文字这个task也可以放到所述页面布局模型中的[0100]在具体实施方式三的基础上,进一步对讨论当所述PDF内容提取信息为表格时的两组数据的选择可以根据如下的规则进行选择:若有大量的文字块左边界对齐(边界使用[0110]如果你能知道有几列,使用K-means算法是很好的选择,但是对于一个非指定的[0117]本具体实施方式主要使用聚类算法求出表格列的标识点,根据聚类结果进行分[0118]根据中心点从原始数据中获取当前列的数据块,观察是[0119]S508:根据所述表格数据块坐标信息及所述单列横坐标信息获得单行纵坐标信就保持当前的列划分,若同一行存在多个数据块的出现次数大于设定的阈值时就拆分此[0126]图6为本发明实施例提供的PDF内容提取装置的结构框图,参照图6PDF内容提取除了PDF文件的页眉、页脚及页码等位于PDF文件边缘的格式信息,仅留下所述PDF正文信[0151]本实施例的PDF内容提取装置用于实现前述的PDF内容提取方法,因此PDF内容提取装置中的具体实施方式可见前文中的PDF内容提取方法的实施例部分,例如,接收模块除了起辅助阅读,但却不承载内容信息的页面边缘元素,仅留下与内容相关的PDF正文信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论