CN114036914B 一种表格数据处理方法、装置、电子设备及存储介质 (珠海金山办公软件有限公司)_第1页
CN114036914B 一种表格数据处理方法、装置、电子设备及存储介质 (珠海金山办公软件有限公司)_第2页
CN114036914B 一种表格数据处理方法、装置、电子设备及存储介质 (珠海金山办公软件有限公司)_第3页
CN114036914B 一种表格数据处理方法、装置、电子设备及存储介质 (珠海金山办公软件有限公司)_第4页
CN114036914B 一种表格数据处理方法、装置、电子设备及存储介质 (珠海金山办公软件有限公司)_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

审查员熊钟铭表格;对所述子表格的数据内容进行规范化处和表格数据内容的相似度计算出是否需要拆分人的参与度的同时保证了拆分后的表格数据完2识别表格结构,根据所述表格结构和表格中数据内容的相似度遍历表格数据的每一列,基于合并单元格平铺的方式,将合并行类型根据字段名列表和合并行类型为内容的单元格,将表格数据以数据表形式进行重组,获取当前表格的第一字段构成和第一数据内容,以及在先表格的第根据所述第一字段构成和所述第一数据内容确定所述当前表格的第述第二字段构成和所述第二数据内容确定所述在先表格的第或者,确定子表列表中内容合并行每一列的类型;根据子表列表中将所述第一类型值和所述第二类型值的比值作为识别所述表格中的空白区域,若所述空白区域对应的空白行数/空白列数大于第二阈根据所述子表格的行标题的数据字段,遍历所述子表格的全部数据3遍历所述子表格的各个数据内容行,确定每个数据内容行的数或者,遍历所述子表格的各个数据内容列,确定每个数8.根据权利要求6或7所述的表格数据处理方法将不符合规范的数据内容标记为异常数据内容,并输出所述异常数据内容的提示信被处理器执行时实现如权利要求1至8任一项所述表格数据处理4术中只能通过人工对表格的数据内容进行格式统一据所述第二字段构成和所述第二数据内容确定所述在先[0018]识别所述表格中的空白区域,若所述空白区域对应的空白行数/空白列数大于第5数据内容以与所述子表格的列标题的数据字段对被处理器执行时实现如上述任一种所述表格数据处理67第二数据内容为表格中数据内容包含的全部个数据内容行的数据内容的显示格式的第一种类及对应显示格式的第一种类的第一数据容列的数据内容的显示格式的第二种类及对应显示格式的第二种类的第二数据内容个数,数据内容按照一致的显示格式显示,从而实现对表格的数据内容智能进行格式统一处理,8和在先横向表格每一字段对应的数据内容类型,确定当前横向表格数据内容的第二类型[0071]空白区域指单元格中没有任何数据内容的空白单元格构成的空白单元格行或者9[0081]将不符合规范的数据内容标记为异常数据内容,并输出异常数据内容的提示信确定子表列表中内容合并行每一列的类型后,根据子表列表中内容合并行每一列的类型,[0094]基于表格结构划分方式,确定表格数据的合并行区域行区间和合并行区域列区[0100]获取表格数据中的空白列,并根据空白列和合并行类型为行标题和内容的合并据子表列表包含的第一内容合并行和第二内容合并行的可对比列类型个数和不相似列类计子表列表包含的第一内容合并行和第二内容合并行的可对比列类型个数和不相似列类容合并行和第二内容合并行的可对比列类型个数和不相似行和第二内容合并行的可对比列类型个数和不相似列类型个数分的个数+第一内容合并行的对比列类型未出现在第二内容合并行的对比列类型的个数)/最[0119]遍历子表列表中内容合并行的每一行,统计每列中每个单元[0120]将每列中每个单元格类型出现的次数/内容合并行的行数大于0.2的单元格类型元格类型为英文出现了6次,行数为14,此时根据上述公式计算结果为0.28,[0124]根据子表列表包含的第一内容合并行和第二内容合并行的可对比列类型个数和[0128]若内容合并行之间的不相似度大于预设阈值,和/或内容合并行之间的间隔大于容合并行和第二内容合并行的可对比列类型个数和不相似[0146]3)若第一内容合并行和第二内容合并行的对比列类型相行和第二内容合并行的可对比列类型个数和不相似列类型个数分的个数+第一内容合并行的对比列类型未出现在第二内容合并行的对比列类型的个数)/最出现在内容合并行[2-4]的可对比列类型的个数+内容合并行[2-4]的可对比列类型未出现在内容合并行[5-8]的可对比列类型的个数)/可对比列类型长度的最大值,也即差异值=数分别+1。又例如,内容合并行[2-4]和[5-8]的第二列对比列类型分别为[Chinese]和容合并行[2-4]和[5-8]的第三列和第四列的对比列类型均不相同,同样采取上述方法3中[0154]第二处理模块2,用于对子表格的数据内容进行规范化处理,得到处理后的子表同数据内容之间的相似程度,从而根据判断相似值是否小于预设阈值来对表格进行拆分。每个数据内容行的数据内容的显示格式的第一种类及对应显示格式的第一种类的第一数内容列的数据内容的显示格式的第二种类及对应显示格式的第二种类的第二数据内容个题无直接对应关系的数据内容进行删除。在对各个子表格的数据内容进行规范化处理后,数据内容按照一致的显示格式显示,从而实现对表格的数据内容智能进行格式统一处理,了子表格的数据内容的规整性和可引用。据所述第二字段构成和所述第二数据内容确定所述在先[0170]识别所述表格中的空白区域,若所述空白区域对应的空白行数/空白列数大于第数据内容以与所述子表格的列标题的数据字段对应的格发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论