版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2021.01.12PCT/US2019/0375792019.06.18WO2020/013956EN2020.01.16WO2012017056A1,2012.02.09公开了用于电子表格中的改进的表标识的2接收包括多个电子表格的数据集,其中所述多个电子表格中的处理所述数据集以产生标注数据集,所述标注数据集包括具有标使用所述标注数据集训练神经网络模型,所述神经网络模型被配针对所接收的所述电子表格的每个单元,使用所述神经网络模型基于针对所接收的所述电子表格的每个单元所标识的所述一个或从所述标注数据集的每个表中提取所述表的拐角单元和所述表的预定数量的非拐角基于每个表的所提取的所述拐角单元和每个表的所述预定数3.根据权利要求2所述的方法,其中所述表的预定数量的非拐角单元包括来自所述表4.根据权利要求3所述的方法,其中所述表的非拐角单元的所述预定位置包括以下中5.根据权利要求2所述的方法,其中所述至少一种正则化技术包括以下中的一项或多iv)重新缩放所述标注数据集的权重,以提供与非拐角单元的总权重相匹配的拐角单元的构造包括多个神经元的所述神经网络模型,所述神布置在包括至少一个隐藏层的多个层中并且通过多个连接9.根据权利要求1所述的方法,其中所接收的所述电子表格的每个单元包括预定数量其中使用所述神经网络模型针对所接收的所述电子表格的每个单元标识所述多个类312.根据权利要求11所述的方法,其中使用所述概率图形模型导出所接收的所述电子13.根据权利要求12所述的方法,其中所述预定阈值是基于验证数据集而被优化的超接收包括多个电子表格的数据集,其中所述多个电子表格中的处理所述数据集以产生标注数据集,所述标注数据集包括具有标使用所述标注数据集训练神经网络模型,所述神经网络模型被配表格的每个单元输出多个类别中的一个或多个针对所接收的所述电子表格的每个单元,使用所述神经网络模型基于针对所接收的所述电子表格的每个单元所标识的所述一个或16.根据权利要求15所述的系统,其中针对基于所接收的所述电子表格的每个单元所417.一种存储指令的计算机可读存储设备,所述指令在由计算机执行时使所述计算机接收包括多个电子表格的数据集,其中所述多个电子表格中的处理所述数据集以产生标注数据集,所述标注数据集包括具有标使用所述标注数据集训练神经网络模型,所述神经网络模型被配表格的每个单元输出多个类别中的一个或多个针对所接收的所述电子表格的每个单元,使用所述神经网络模型基于针对所接收的所述电子表格的每个单元所标识的所述一个或5于接收到的电子表格的每个单元的一个或多个标识出的类别在接收到的电子表格中导出接收到的电子表格的每个单元的一个或多个标识出的类别在接收到的电子表格中导出至6其实施例的每个方面可以单独使用,或者与本公开和/或其实施例的一个或多个其他方面[0014]图2描绘了根据本公开的实施例的被分解为拐角标识和表导出的表标识的示例性[0017]图5描绘了根据本公开的实施例的具有至少一个表的另一示例性电子表格,该电[0019]图7描绘了根据本公开的实施例的作为电子表格大小的函数的表标识阶段的运行[0021]图9描绘了根据本公开的实施例的可以根据本文中公开的系统、方法和计算机可也不限于这样的方面和/或实施例的任何组合和/或排列。本公开和/或其实施例的每个方[0024]本领域的技术人员将认识到,本公开的各种实现和实施例可以根据说明书来实7[0026]为简洁起见,与系统和服务器有关的用于执行系统和服务器(以及系统的各个操的各个附图中所示的连接线旨在表示各个要素之间的示例性功能关系和/或物理耦合。应表的标题信息的数据类型分析可以用于类型推断和/或一致不限于卷积神经网络,并且本公开的实施例可以使用其他类型的神经网络来用于表标识。8卷积和/或对象检测快了几个数量级,并且能够从有限数目的电子表格(诸如1,638个电子件中使用的,诸如MicrosoftExcel和GoogleSheets)的常见启发式方法在很多电子表格论是本公开的实施例的示例性技术细节。用于训练神经网络的训练数据可以来自多个来[0038]例如,本公开的示例性实施例使用来自公开可用数据集的电子表格的集合来测据集可以是个人和/或商用电子表格的开源和/9[0042]通过服务自动标注的电子表格可以与通过其他方法(诸如专家标注者)标注的电这种量级的标注表标识数据集可能不存在。拐角标识可以应用CNN来检测电子表格中可能是表的标题或拐角的单元。表导出使用概率图形模型将拐角单元集合组合到候选表中。图2描绘了根据本公开的实施例的被分解为拐[0047]图3描绘了根据本公开的实施例的用于拐角标识的卷积神经网络的示例性架构。以使用获取关于类别的概率分布的任何CNN准表T,可以从表中的各个关键位置提取拐角块以及预定数量的NaC块样本,诸如N=30个2)1/4针对每个表的训练示例的权重进行重新缩放,使得拐角示例的总权重与NaC示例的总权重θθL[0054]如下所示的算法1提供了根据本公开的实施例的表导出算法。表导出算法可以开导出算法可以选择空间置信度得分高于预定阈值τ的[0060]可以在各种类型的计算机硬件上(诸如通过使用两个NVIDIAGTX1080TiGPU),使用开源软件库(诸如TensorFlow)通过预定时间量(诸如16个纪元(epoch)(每个模型10-12小时))来训练拐角标识神经网络模型。如下所示,本公开的实施例的实验在具有32GBRAM的IntelXeon3.60GHz6核CPU(用于特征提取和表导出)和单个NVIDIAGTX1080Ti[0061]对照基线评估根据本公开的示例性实施例的使用神经网络的表标识技术包括用Jaccard指标,本公开的示例性实施例的总体准确率为74.9召回率为93.6F值为[0064]表1总结了使用本公开的示例性实施例的来自我们的超参数扫描和消融测试的结[0069]DeExcelerator项目是另一种类型的数据驱动方法,其可以使用随机森林和支持[0071]如公式(2)所示,上述指标以及与其关联的数据可能与表的自由形式的真实世界[0072]图5描绘了根据本公开的实施例的具有至少一个表的另一示例性电子表格,该表有四(4)个表。本公开的实施例可以标识具有空行和空列的单个表。在这种有分歧的情况[0073]表2总结了针对如上所述的原始数据集和重新标记数据集的、本公开的示例性实施例与如上所述的其他类型的数据驱动方法的声称结果就公式(2)提供的指标以及上述指实施例的使用神经网络模型的拐角标识的结果评估为它们在验证数据集和测试数据集上和W=11可以根据其在验证集上所有拐角类别上[0078]基于本公开的示例性实施例,表标识对于在消费级硬件上的实时使用是可能图7描绘了根据本公开的实施例的作为电子表格大小的函数的表标识阶段的运行时间的集和/或验证数据集中提取特征,并且将这些提取的特征与由模型制作的预测标签进行比[0085]图8描绘了根据本公开的实施例的用于诸如通过使用包括神经网络的机器学习而到的电子表格的每个单元可以包括对单元的视觉和其他特征进行编码的预定数量的通道,[0087]在步骤806,可以从标注数据集的每个表中提取表的拐角单元和表的预定数量的的超参数,针对每个表对多个非拐角单元进行欠采样,ii)在神经网络模型的架构中应用络模型之前的任何时间发生,并且神经网络模型的构造可以不限于在至少上述步骤之前出被配置为针对接收到的电子表格的每个单元输出多个类别中的一个或多个类别的经训使用概率图形模型来导出接收到的电子表格中的至少一个表可以包括估计出现在对应边为由以上讨论的一个或多个组件执行的功能的指令或用于实现上述一种或多种方法的指[0095]计算设备900可以另外包括处理器902可以通过系统总线906访问的一个数据存储[0096]可以想到,经由输入接口910和输出接口912与计算设备900通信的外部设备可以计算设备1004(统称为服务器计算设备1002-1004)。服务器计算设备1002可以包括至少一现被描述为由以上讨论的一个或多个组件执行的功能的指令或用于实现上述一种或多种方法的指令。与服务器计算设备1002相似,除了服务器计算设备1002,服务器计算设备备1002-1004的至少子集可以包括相应数[0100]一个或多个服务器计算设备1002-1004的处理器可以是或可以包括诸如处理器多个数据存储库可以是或可以包括诸如数据存[0101]计算系统1000还可以包括在服务器计算设备1002-1004之间传输数据的各种网络[0102]计算系统1000的结构控制器1010可以管理服务器计算设备1002-1004的硬件资源则功能可以作为一个或多个指令或代码存储在计算机可读介质上和/或通过计算机可读介以指令或数据结构的形式存储期望的程序代码并且可以由计算机访问的任何其他硬件介质还可以包括通信介质,包括有助于将计算机程序从一个地方转移到另一地方的任何介[0105]替代地和/或另外地,本文中描述的功能可以至少部分由一个或多个硬件逻辑组件执行。例如而非限制,可以使用的示例性类型的硬件逻辑组件包括现场可编程门阵列而描述上述设备或方法的每个可能的修改和变更,但是本领域的普通技术人员可以认识
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026 专注力培养智能素材课件
- 建筑工程技术就业前景分析
- 2026 培养儿童专注力有效课件
- 安全管理培训的等级
- 脑血管意外症状分析与护理建议
- 肛瘘术后营养护理
- 表演训练苦与乐
- 膝关节骨关节炎症状识别与护理建议
- 甲状腺肿体征诊断及护理对策
- 麓山就业服务手册
- 吊顶拆除修复施工方案(3篇)
- 肉毒课件教学课件
- 头疗加盟合同协议书模板
- 产品硬件详细设计模板(18P)
- 2019机械震动除冰
- 湖南省房屋建筑和市政基础设施工程 施工图设计文件审查要点(2023年版) 第三册 岩土工程勘察文件、基坑和边坡支护 施工图设计文件审查要点
- 珠海广东珠海市市直机关事业单位招聘合同制职员笔试历年参考题库附带答案详解
- 混凝土检查井工程量计算
- 《食品新资源的开发》课件
- 马原汇报模板
- 《高效空调制冷机房工程技术标准》
评论
0/150
提交评论