(模式识别与智能系统专业论文)通用文档格式输出系统.pdf_第1页
(模式识别与智能系统专业论文)通用文档格式输出系统.pdf_第2页
(模式识别与智能系统专业论文)通用文档格式输出系统.pdf_第3页
(模式识别与智能系统专业论文)通用文档格式输出系统.pdf_第4页
(模式识别与智能系统专业论文)通用文档格式输出系统.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(模式识别与智能系统专业论文)通用文档格式输出系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 文档图像处理系统就是把纸质介质上的信息转变为计算机能够理解和编辑 的信息,以方便保存和使用。随着文档图像处理系统的广泛使用,对于文档图 像处理系统的输出方式提出了更高的要求。 本文对现有文档图像处理系统的输出方式进行了分析,针对现有o r c 系统 输出的问题提出了相应的解决办法。并提出了文档图像处理系统的通用输出模 型。 本文以r t k 系统为例总结了现有文档图像处理系统的内部数据结构,根据 该结构提出了通用文档结构描述机制( c d s d ) ,该机制可以完整和便捷的保存 文档图像处理系统的处理结果。针对不同的文档格式,提出了公共输出格式描 述机制( c f f d ) ,该机制用于描述不同文档格式的结构,同时对文档的输出进 行控制。 本文以p d f 文档格式为例给出了具体的输出格式描述,并针对特殊情况进 行了分析。同时给出了整个输出模型的具体实现流程。 本文的研究成果可作为文档图像处理系统输出模式的原型,有助于各类 o c r 系统处理结果的保存与应用。同时可作为其它文档输出系统设计的有益参 考。 关键字v 文档图像处理通用文档结构描述公共文档输出格式描述输出模型版面 结构逻辑结构 a b s t r a c t a b s t r a c t d o c u m e n ti n l a g ep r o c e s s i n g ( d p ) t 瑚s f o 珊st h ei n f o m a 廿v ec o n t e n to f a d o c u m e n tf 而mp a p e ri n t 0a t le l e c t m n i cf 0 加a tf o rt 1 1 ec o n v e n i e n c eo ft h es t o r a g ea 1 怯 u s a g eo fm ei n f o n i l a t i o n a sd s y s t e mh a sb e e na p p l i e dw i d e l yi nn l ew o r l d ,e x p o 土1 m e t h o dn e c dt ob ei m p m v e dt of i tn e w 廿e n d : t h i sp 印e ra i l a l y z e s e x p o r tm o d eo fd o c 哪e n ti i n a g ep r o c e s s i n gs y s t e i :了: p r o p o s e st h em e t h o df o rd e f e c to fe x p o r 【o fo c rs y s t e m ,a t l dp r o p o s e sac o m m o 订 e x p o r tm o d e lf o rd ps y s t e m t 酞er t kf o re x 锄p l e ,n j sp a p e rs u m m a z c sd a c as 叫c t u r i ew h i c hs a v e p r o c e s s i n gr e s u l to fd 口s y s t e m ,p r o p o s e sc o i n i i l o nd o c u m e n ts t n l c t u r ed e s c 邱t i o n ( c d s d ) w h i c hc a i ls a v ep m c e s s i n gr e s u l to fd i ps y s t e mp e r f e c t ly - a i ma td e f e r e n t f i l ef b n n a t ,t h i s p a p e rp m p o s e sc o h 衄o nf i l ef o r r n a td e s c n p t i o n ( c f f d ) w h i c hi s u s e dt od e s c r i b es m l c t u r eo fd i f ! f b r e n tf i l ef o 皿a ta i l dc o n t r o ld r o c e s so fd o c u m e n t e x p o n t h i sp a p e rp m p o s e sw h o l ef i l ef o m a t d e s c 邱t i o no fp d f a 1 1 da l l a l y z e se s p e c i a l c a s e ,a n dp m p o s e sm a t i 喇a lp m c e s so fe x p o r tm o d e l 1 r h ep m d u c t i o no fm i sp 印e rc a i lb eu s e da sa i la r c h e t y p ei nd s y s t e m a 】s o ,i f c a np r o v i d eu s e f u lr e f e r e n c et ot h ed e s i g no fo t h e rd o c u m e n ts y s t e m 1 【e y w o r d d o c u m e n th n a g ep i d c e s s i n g ,c o 咖o nd o c 岫e n ts t n l c t u r ed e s c r i p t i o n , c o m m o nf i l ef o 册a td e s c r i p t i o n ,m o d e lo fe x p 叫jl a y o u ts t c t u r e ,l o 百c 址 s t m c t l h e 内容目录 图目录 图1 1 现有文档图像处理系统输出模型图2 图1 2 改进的文档图像处理系统输出模型图6 图2 1 文档图像处理系统输出模型图9 图2 2 文档图像处理系统内部数据结构图1 1 图2 3 d o c 结构描述图 图2 4p a g e 结构描述图 1 3 图2 5r e g i o n 结构描述图1 4 图2 6 文档逻辑结构说明图 图2 7 图域d t d 描述结构图 图2 8 纯文本域d 7 i d 描述结构图 图2 9 纯文本域说明图 图2 1 0 表格域d i d 描述结构图 1 5 1 6 图2 1 1 表格版面说明图1 8 图2 1 2 网格矩阵说明图 图2 1 3 通用文档描述机制结构图 v 1 9 内容目录 图2 1 4 p d f 物理结构图 图2 1 5 文档输出格式描述机制整体结构图 图2 1 6f m 砌t i n f o 结构描述图 图2 1 7o u t p i l t a t t 结构描述图 图2 1 8d o c 岫e n t 结构描述图 图2 1 9o u t p i l t s t n l c 结构描述图 图2 2 0l o 垂c a l s t r i l c t u 弛结构描述图 图3 1 输出系统结构图 图3 2 逻辑结构提取图 2 1 2 3 2 4 2 6 2 7 图3 3 内部转换流程图 图3 4 外部转换流程图 图3 5 外部转换流程图 。2 9 v l 3 1 3 7 第一章背景介绍与问题提出 第一章导论 第一节背景介绍与问题提出 1 1 1 文档图像处理系统背景介绍 长期以来,作为日常生活中基本信息载体的各类文档如报纸、政府文件、 技术文章、书籍、报刊、杂志、甚至银行取款单、个人信件一直是我们获取并 处理信息的主要来源。而随着信息时代的到来,如何自动准确的对大量的信息 进行分析,检索直至理解一直是迫切需要解决的一个重要问题。这就导致了文 档图像处理( d o c u m e n th n a g ep m c e s s i n g ) 这一研究领域的产生。该领域的主要 研究范围涉及将基于纸张的文档转换为计算机能够处理的各种形式并从中获取 信息的各种技术与理论【2 】。目前,该领域的研究在办公自动化,数字图书馆, 信息检索和获取,数据压缩等领域都具有应用价值。 目前,一个典型的文档处理系统由以下模块组成( 如图1 1 ) 预处理该模块的功能主要包括去除噪音,二值化,倾斜校正等。这些功能 主要通过图像处理的算法来实现,而且这一阶段的一些方法是可以与文档类型 无关的。不过,利用关于文档图像的知识可以极大地提高算法的性能。 文档图像分析该模块需要识别出图像中的不同对象并将其与图像其他部 分分割开。同时,该模块生成一个描述文档图像的层次结构;几何结构,它摇 述了组成文档图像的对象的属性、大小、位置等几何信息。通常,该结构以树 或链表的形式存在。该模块也称版面拆解。 文档理解它包括对文档图像中不同对象自身的理解,同时也包括对这些对 象之间的关系的理解。一般来讲包括文档版面结构理解和逻辑结构的理解。文 档版面结构主要是指文档中各元素之间( b l o c k 、行、列等等) 的结构关系。文 档逻辑结构主要是对文档标题、段落、章节等的理解。本文提出的文档结构描 述机制也是为了针对文档逻辑结构的表示。 o c r 模块该模块主要包括三个连续的模块:粘连字符切分,特征提取,字 符识别。 文件转换模块该模块综合文档的版面和逻辑两个层次结构,将文档中包括 第l 页 望二兰笪苎! ! 竺量塑里垄堂 的信息转换到指定的文件格式中去,如r i c ht e x tf 0 皿a t ( r t f ) ,p o r t a b - e d o c u m e n tf o m a t ( p d f ) ,h n 缸。或数据库文件。本文提出的文档结构描述机 制也是为了能够更好的进行格式输出和转换。 巴口巳口旺口 l nl nl n 匀凸睑 ,醪q 圈圈圈 妙 田田田 图1 1 现有文档图像处理系统输出模型图 随着网络的发展,越来越多的信息通过网络传播,为了适应这样的趋势土 部分文档都采用适合网络传播的方式进行保存,如通过v 几对文档进行描述。 在这种情况下文档图像处理系统的输出也要进行相应的发展,所以本文提出的 第2 页 当 第一章背景介绍与问题提出 文档结构描述机制是以儿为基础的。 1 1 2d i p 系统输出问题 随着文档图像处理系统的广泛使用,对于文档图像处理系统的输出方式提 出了更高的要求。由于新的文档格式不断出现,所以文档图像处理系统必须不 停的增加输出格式,目前的r t k ( r e c o g i l i t i o nt 0 0 1 t 是一种支持1 5 种语言、 2 0 0 0 多种字体的o c r 工具包) 中包含p d f ,h r m l ,e x c e l ,r t f 等多种输出 方式。目前随着o c r 系统的广泛应用,及r 1 k 的不断升级,我们发现现有的 输出方式存在如下闯题: 文档图像处理系统内部缺乏有效的版面逻辑结构描述机制 随着文档图像处理系统的广泛应用,对文档图像进行逻辑结构分析 已经成为未来发展的必然趋势,所以需要能够对逻辑结构分析的结果进 行标注并且符合逻辑结构输出要求的逻辑结构描述机制。由于所有的输 出都是从o c r 系统内部的数据结构直接输出,0 c r 系统中的数据结构 只描述了版面结构,没有描述文档的逻辑结构,造成部分输出格式有误。 输出格式兼容性问题 随着0 c r 人工智能系统的不断升级,输出格式兼容性差的问题越来 越明显。以r t k 为例,r t k 已经经过了1 0 年的发展,并且支持多种格 式的输出,但是随着系统的不断升级,输出方式也需要进行不断的修改j 这大大影响了0 c r 系统的升级和广泛使用。 有效性问题 由于所有的输出都是从r t k 内部的数据结构直接输出的,所以当内 部数据结构发生变化时,必须要修改所有的输出方式,增加了代码修改 的难度。 格式之间转换难度大 由于各个输出接口相互独立,所以如果需要进行格式转换必须通过 o c r 内部的数据结构,这样无形中增加了格式转换的难度。 针对以上这些问题,有必要在0 c r 系统的处理结果和输出之间加入中 间处理层,并且提出一种介于0 c r 系统内部数据和外部输出之问的通用文 档结构描述机制。 第3 页 第一章背景介绍与问题提出 该中间处理层必须就有如下功能: 将o c r 系统的处理结果转化为统一的描述结构,便于输出和格式转换。 分析o c r 系统的处理结果,抽取版面的逻辑结构,使用通用文档逻辑 结构进行描述,增加输出的有效性。 建立统一的输出接口。 为了对0 c r 系统的处理结果进行描述,必须提出通用文档逻辑结构描述机 制,该机制需要具有如下特点: 这个文档逻辑结构描述机制能够有效的兼容文档图像的版面信息,将各 种从图像中直接获取的信息转化为具有逻辑属性的结构。 这个文档逻辑结构具有良好的兼容性,能够非常方便的实现从该逻辑结 构向其他流行文档格式的转换。 针对r 1 k 而言,该文档逻辑结构为r t k 增加了重要的逻辑结构描述与 处理机制,使其能够进一步发展成为文档图像理解的处理平台。 第二节综述与论文重点内容说明 1 2 1 文档格式发展综述 + : 在人类文明长河中,有上千年的时间都是使用纸介质来承载信息的。计算 机的出现使这种情况出现了根本的变化,多种多样的信息承载方式出现( 如文 档、音频、视频等) 。目前信息基本上可以分为两个大类:结构化数据和非结构 化数据。结构化数据就是整型、布尔型、字符串型等数据类型;非结构化数据 主要包括书面文档( 如书报刊、文件资料) 和流媒体( 如音频、视频) 。随着n 技术的不断发展,非结构化数据信息的拥有量已经大量超越结构化信息,尤其 是书面文档首当其冲。随着文档拥有量的大量增加,文档的储存格式也不断的 在发展,文档存储格式的发展主要经历如下发展阶段: 1 ) 早期的文档形式比较单一:如盯汀文件,此格式的文件不能包容插图、 注释、排版格式等信息,因此文字处理比较单调。 2 ) 随着r r 技术的不断发展各个公司都推出了自己的文档格式:互l m i c m s o r 的d o c 文件,a d o b e 公司的开发的p d f 文档。这些文档格式 不仅包含文字信息,还包括超文本链接、声音和动态影像等。 第4 页 第一章背景介绍与问题提出 3 ) 早期的文档只适用于原生成软件阅读,随着信息发布方法的增多,局限 于某种格式会影响不同系统之间的信息交换和不同的应用。为了规范数 字化文献形式,提高其组织、检索、存储、显示、使用以及重复使用的 效率,s g m 吐( s t a i l d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ,标准通用标记语 言) 应运而生。s g m l 作为国际标准,利用通用方式和原标识语言对文 档内容和结构进行标记,实现对各类文档结构和内容的系统化标准化描 述,从而建立起通用数字化文档。 4 ) m 的出现。近年来,i n t e m e t 的发展和浏览器的支持,使h r m l 语言 得到广泛的应用,h r m l 是s g m l 的一个应用,但由于其只能应用于 一类文件结构,所以适用面受到限制。国际标准化组织w 3 c 于1 9 9 8 年 完成了可扩展置标语言) 0 v i i ( e x t e n s i b l em a r k u pl a i l g u a g e ) ,) 洲l 是 s g m l 的简化,它取消了s g m l 中比较繁琐却不常用的部分,比较容 易实现。) 。v 几具有自描述性,结构良好性,有效性,内容与形式结构 分离,结构性强等特性。 5 ) 随着) 几的发展,对数据保存方式及传输方式的研究又重新成为热点。 主要研究以沮。为基础对文档格式进行描述,同时以v 几为中间格 式对不同的文档格式进行转化。 1 2 2 本文重点内容说明 本文主要以文档图像处理系统为基础提出一种通用软件文档输出规范。之 所以选择文档图像处理系统,主要是由于文档图像处理系统的输出方式比较特 殊,需要把内部数据转化为不同的文档格式,所以针对文档图像处理系统提出 的输出规范具有一定的通用性。 现有的文档图像处理系统如图i 一1 ,该系统直接把处理结果通过不同的转换 引擎进行输出。针对前面所提出的问题本文提出了一种文档图像处理系统输出 模型,如图1 2 ,该模型与原有输出方式有如下不同: 1 提出了基于咀。的具有通用性的统一文档描述机制:该描述机制包括 文档的版面结构和逻辑结构描述,系统首先把处理结果转化为通用文档 描述机制。 2 提出基于x 啪l 的文档格式描述:该文档格式描述对不同的文档格式 第5 页 第一章背景介绍与问题提出 ( r t f ,d o c ,p d f ) 进行结构性描述,用于不同的文档格式输出。 3 建立统一转化机制:把用统一文档描述机制描述的处理结果转化为不同 的文档格式,根据所要转化的文档格式的不同调用不同的文档格式描 述,体现了输出控制。 圈圈圈 9媳 眨 囤团 囱酸 匡囹 硪臼酸凸轴。 田圈田 圜 图1 2 改进的文档图像处理系统输出模型图 第6 页 第一章背景介绍与问题提出 第三节本文内容组织 本文共分为五章: 第一章对文档处理系统的发展及其组成进行了简要介绍,着重介绍了输出 模块在整个系统中的地位及作用,并阐述了提出文档逻辑结构描述机制的重要 性及对整个文档图像处理系统的作用。最后描述了整个文档存储方式的发展流 程,阐述了为什么以) 0 v 几作为文档逻辑结构描述机制的基础。 第二章提出文档图像处理系统的输出整体模型,并且详细介绍了用于保存 内部处理结果的通用文档结构描述机制( c o m m o nd o c u m e n ts t r u c t u r e d e s c t i p t i o n ,下文简称c d s d 机制) 以及用于外部转换的公共文档输出格式描述 机制( c o 衄o nf i l e f o 肋a t d e s c r i p t i o n ,下文简称c f f d 机制) 。 第三章首先介绍了本文提出的输出系统的整体处理流程,然后根据输出为 通用文档结构描述机制的处理流程,最后根据公共文档输出格式描述机制介绍 了外部转换的处理流程。 第四章针对p e f 文件格式的结构,详细介绍了公共文档输出格式描述机制 的具体描述方法,并根据其中的特殊情况提出了相应的解决方法。 。 第五章对本文的研究内容进行了总结,对该模型尚未解决的问题进行了分 析并对未来的研究方向进行了展望。 第7 页 第二章文档图像处理系统输出模型 第二章文档图像处理系统输出模型 第一节模型总体描述 现有的文档图像处理系统输出是直接把内部处理结果经过不同的接口输出 为不同的文件,上一章已经讲了这样做的一些问题。为了解决这些问题,本文 提出了文档图像处理系统的新的输出模型,如图2 1 ,图像经过内部的处理后识 别结果保存在内部的数据结构中,但是内部的数据结构是为了进行图像的识别 而定义的,所以并不适合进行输出,所以本文提出在识别的内部结果和外部输 出之间建立一个中间处理层,这个处理层包括两个转换机制和一个文档描述机 制。 ( 黼黠瀚d 莎 统内部数据结构厶,一z 圉圈 图2 1 文档图像处理系统输出模型图 厂1 f 各类文鞘格式 ) 1j f p d f f r t fj l w o r d i l 内部输出: 用于把o c r 系统中的内部数据结构转换为通用的文档结构描述机制, 由于o c r 系统中的数据结构只保留识别后的版面结构,所以需要对版 面结构进行处理,根据版面结构抽取一定的逻辑结构( 由于本身0 c r 系统中没有逻辑结构的抽取,所以需要加入相应的处理流程,但是由于 第9 页 凸涝俞圈创 第二章文档图像处理系统输出模型 逻辑结构抽取比较复杂,所以只能抽取用于输出的一些逻辑结构) 。 通用文档结构描述机制: 是存在于文档图像处理系统内部数据结构和外部输出文件格式之间的 文档描述机制。为了适应不同的文件格式输出,该描述机制必须同时描 述文档的版面结构和逻辑结构,以及记录文档的其他信息。 公共文档输出格式描述机制: 对各种文档格式的结构及输出信息进行描述,用于文档的统一输出。 外部转换机制: 用于把通用文档描述转换成各种格式的文档,这个步骤要使用统一的接 口,所以需要公共文档输出格式描述机制的控制。 第二节通用文档结构描述机制( c d s d ) 2 2 1 文档图像处理系统数据存储机制 要建立通用文档描述机制保存文档图像处理系统的结果,就需要了解文档 图像处理系统的处理结果保存方式,图2 2 描述了文档图像处理系统内部保存娌 理结果的数据结构。 第l o 页 第二章文档图像处理系统输出模型 图2 2 文档图像处理系统内部数据结构图 文档图像处理系统内部的数据结构说明: d o c :包含多个p a g e ,每次r t k 识别的可能是多个i l a g e ,d o c 用于保 存这些h n a g e 。 p a g e :表示每个h n a g e ,保存了h n a g e 的信息,如大小,分辨率等信息。 r e 卸o n :表示图像中的区域,其中包括图区域和文本区域,文本区域又 分为纯文本区域和表格区域。 夺图区域:表示h a g c 中的图,保存了图的绝对位置和大小等信息。 夺纯文本区域:表示i l l l a g e 中的文本段,这些文本段只包含文本信息。 纯文本保存了文本段的绝对位置和大小信息。 令表格区域:表示i i i l a g e 中的表格,表格的表示相对较复杂,因为表 格中又保存了文本信息。表格区域保存了表格的绝对位置、大小等 信息。 l i n e :表示r e 西o n 中的一行文本。 w o r d :表示u n e 中的文本,保存了要输出的文字和文字的信息( 如字 体,字号,字的风格) 。 r u l e “n e :表示表格中的线条框架,保存了线条的长短宽度等信息。 c e l l :表示表格中的单元格,该区域又包含了文本块,c e l l 结构保存了 表格中单元格的信息,包括绝对位置和大小。 以上是以r t k 为例说明的文档图像处理系统中用于保存识别结果的内 部数据结构,通过图2 2 可以看到该数据结构比较简单,而且存在以下问题: 1 该结构主要用于内部处理及u i 显示,不便于文件的输出。 2 该结构只保存了文档的版面结构,没有抽取相应的逻辑结构,不便 于结果的输出。 3 该数据结构中以数组保存,不便于数据的读取。并且在要求选定图 像的一定区域或输出一定区域的识别结果时,是非常困难的。 针对以上问题本文提出了通用文档描述机制来保存r 1 l ( 中的识别结果。 2 2 2 通用文档结构描述机制 本文提出的通用文档描述机制使用沮。作为描述工具,v 几( e x t e n s i b 】e 第1 1 页 第二章文档图像处理系统输出模型 m a r k u pl a n g u a g e ) 是由w 3 c 设计并推荐的标记语言,随着互联网应用需求以及 相关支撑技术的发展,皿。已经成为数据描述和网上应用系统问数据交换事实 上的标准。沮。的元语言特性及本身良好的结构性使它成为互联网异构环境中 各种不同类型和不同领域数据互相交换的开放标准。支持互联网应用的传统数 据与沮。标记数据的互相转换也显得日益重要。总之,v 几是适合于描述文 件结构和内容的工具。 沮。文件由沮。声明、文件类型定义( d o c u m e n tt y p ed e f i t l i d o n ,d t d ) 和文件实例组成,d 1 d 是对文件结构和属性的定义,按照d 1 【d 的规范,对元素 加以标记( 即置标) 后的文件称为文件实例。本文以下内容将介绍从文档图像 处理结果内部数据结构入手,依据s g m 【语法设计文件类型定义( d t d ) , 以及以结构制导方法实现的符合d t d 的结构化文件输出机制。 该描述机制主要以文档版面结构描述为主,同时增加相应得属性用于描述 文档的逻辑结构。 1 d o c 的描述 d o c 是处理结果的最高结构,d o c 保存了所识别图像的基本属性,而且d o c 又有多个p a g e 组成,图2 3 是d o c 的d 【d 结构图: 图2 3 d 0 c 结构描述图 p a g e 保存了d o c 中包含的每幅图像,p a g e n u m 表示d o c 中包含的p a g e 数, d o c 的基本属性都包含在d o c i n f o 中,主要包括文件的基本信息( 如文档名字, 标题,作者,关键字等) 由于这些信息有可能无法获得所以d o c h l f o 是可选的。 2 p a g e 的描述 p a g e 是一幅图像的结构信息,保存了图像的基本信息,p a g c 又由多个r e g i o n 第1 2 贾 第二章文档图像处理系统输出模型 组成,图2 4 是p a g e 的啪结构: 图2 4 p a g e 结构描述图 r e 垂o n 包含了p a g e 中的所有区域信息,r g n n u m 表示p a g e 中包含的r e g i o n 个数,由于r e g i o n 又分为图像r e 百o n 、纯文本r e 百o n 、表格r e 百o n 所以分别 用i n l g r 掣l n u m 、t x t i 己g i l n u m 、t b l r g n n u m 来分别表示各种r e 舀0 n 在p a g e 中的 个数。 p a g e 的基本信息保存在p a g e i i l f o 中,包括:p a g e n a m e 图像名称或者i 蛩像 地址,s i z e 图像大小,r e s o l u t i o n 图像的分辨率。 3 r e 西o n 的描述 r e g i o n 是图像处理系统识别结果中最主要的数据结构,因为r e 垂o n 是文档 逻辑结构描述的最小单位,大部分对文档逻辑结构的抽取都是通过分析r e g i o n , 并且通过对r e 百o n 的处理来进行的。而r t k 、中的r e 百o n 又包含了i 訇像r e g i o n 、 表格r e 百o n 、纯文本r e 百o n ,所以对不同的r e g i o n 也要提出不同d t d 进行相 应得描述。 图2 5 是r e 西o n 的d t d 基本描述图: 第1 3 页 第二章文档图像处理系统输出模型 图2 5r e g i 结构描述图 h _ h h i m 蛐h h “岫o f m m 脚删削t m m “帅“皿h b i 0 r - o i 捌缸k 由h h 函叮衄如蛔o f 峨哪嘲岫呻嘶蜒虹嘶叫加d 啦哪r 妇吲缸d a l b b 曲啊触b d 蜘由删i 州酬,血住咄曲岫d 姒扣帕姆h 咖州 岫- 耐触蛐硫晌bo 甲_ 叫岫姆哪m 咖口t 嶂母如眦曲咖l1 碲h 协吼佛 m 岫咖k 喇e - m 竹啦口d h “m1 m i h 州耐”p 砷噼晰叩口融灯 日m 叫k 删h 船晴b b 曲嘣山自衄l b 群d 哪b 妇皿m m m 柚d 刚c d t m 毗舅试岫q d 岫郎d t h 吐如皿l 蜊b 蕾蛳 州蚰d 嘴帅喊螂咖如啊on _ 酬瓯佛m 蛾m 举曲酬m g 衄缸i 晒叭蛐 o r 恤雌即时她砒h 柙t 憾部i 如蝌时年咖d m e 眦1 k 删删n 曲帆r 盘啊y m 曲曲响日砌叽r 峨叩,懈缸她h 酬f 咖由晦“ 4 i h 如姒i 咖耐 卯0 - ,h h 嘟b 础h 由蛐耐血嘛l 懈缸她h 尊d 砸由啪 巴至回圈 k q 啊m 时期虎每r 晡o l 琳d 弘舢m 曲f - f 州刊“目蛳d 咖k 如m 曲啦蛔 咖删琳f 丑| l l 血d 眦目d 咖k 呻u “m * h m t m 沁“h 目d 口口l b d e d 耳 u q n t c 删裂n 也4 d 0 d h t 自脚t - 母 h _ g t h 。山咖d h - 衄d 口日女噜自血g 蹦 由a q 嘲o d 蜊c 煳b k o 叶岫“b , 目硼y f m 嗡d h 岫a l m 蚴q 口柚d n 峨 f 岫u u 鲥茁b 曲h - e h t i ,钿h f 岫如 b td q h 4 b d 晡岫c b i 呻_ 训劬 鼬睇口td 耐口蝌州a 日d a 薯hb 曲t 删 ”e 瑚她f 血目m 口nh 槲l 哪日啪h 匈自椰nm c 删m 础a 缸自r 删自一咖 h m h - h o t 岫_ 口md i m f n u 黼酬 “# 州忙h ,k b n 岫” r m h 口m m d j 啪一岫h 畸n o 舢血岫曲加 n c q 口i l l _ d d a 触b 札 l - “_ _ 西衄u 日叫i q m m r 帅i m 弘q 口堪e h q 咻f 啉眦舶曲q 坤挑曲。归k 峨刚 阳茹n _ d 帆m l 盟kn q 峋鲥删d t h 自e k ;咖内i t n e 柚m ,血o f t h c d a 印b t 咄 ihm od w t 嘲li en 吣n 呐 h h i _ q l h m h m 日 翻叫_ 豳叩删h 如霄衄t d 皿- o 时n 睇曲嘶一 q 睇”即i 蜘町时i q 眦曲衄船驰,【i h 礓 m m - - * l m 日日n d 哪n 目m m m “m 辟f 峨n 峨a f 叫h 删曲啪l 慨埘 图2 6 文档逻辑结构说明图 第1 4 页 第二章文档图像处理系统输出模型 由图2 6 可以看出每一个由矩形框标记的区域在版面结构上没有什么区别, 都是r e 垂o n 。但是每个r e 毋o n 在逻辑结构上又有不同的含义,为了体现其逻辑 含义的不同,本文提出的文档描述机制为不同的r e g i o n 赋予不同的逻辑属性。 由于目前的文档图像处理系统主要是抽取文档的版面结构,对文档的逻辑结构 的分析还很不完善,所以本文提出的描述机制主要还是以版面结构为主,而对 于逻辑结构的描述是通过r e 西o n 的属性进行标记的。这样做的好处是即使文档 图像处理系统没有成功的分析文档的逻辑结构,依然不影响对文档的描述,依 然可以对文档进行还原。当然如果以r e 画o n 作为逻辑结构描述的最小单元就需 要在内部转换机制中进行相应的处理来分析,对r e g i o n 进行相应的分析切分以 保证描述的准确。 由于r e 舀o n 分为三种不同的类型,而每种类型的差别较大,所以分别定义 了三种d t d 来分别进行描述,下面分别介绍对三种r 画o n 的d 描述。 1 ) i m g r e g i o n i i i l g r e 舀o n 是图像r e 舀o n ,包含了p a g e 中的图像,这种r e 舀o n 是最简单的 r e g i o n ,描述也比较容易,下面是相应的d t d 描述: 置。 图2 7 图域d t d 描述结构图 图像r e 百o n 的基本信息保存在i i l l 冰g t l i n f o 中,包括图像的大小,和绝对位 图像本身保存在h n a g e 中,主要以像素点的形式保存。 由于识别后可以通过分析图像的位置来获得一定的逻辑信息,所以为图像 第1 5 页 第二章文档图像处理系统输出模型 定义了相应的属性来进行相应的描述。其中包括:a l i g i l 属性描述图像的相对位 置,f r a m e 属性描述了图像是否包括边框。 2 ) t x 儇e 百o n t x 喂e 舀o n 是纯文本r e 百o n ,该类r e 百o n 只包含文本信息,结构并不复杂, 所以描述起来相对简单,图2 8 是相应的d 1 m 描述结构: 图2 纯文本域d 1 【d 描述结构图 a s 曲a w n i n r g l l 。t h e d o 叫姗ts 衄l c n 北m a 姒 n i i s 协o fd i 川m 0 4 c t i l q 画强l 跹咖蚓薯| j i i i 瞄r l 口噼 m m 曲玎亡删卿;l i 他m dt 曲i e 伸l 咖蚰啦缸nn 叫 t 删co fa l 锄bi se x 扛黜i vc d s e 蚰d 璐咖l n 租_ e :蜘lm ci o g i c a is 蜘眦= h to f b kd 阳啪l 瑚t l l 曲t 蚰yd h ,m c 蛐a l y 出o fo 蜘扭p b g 锄 p m v i d e 谢t h m c l a 窖i c 酊咖i d i 髓o f t h e h ,o lh o t h 酋 w o r d s 。m eu 站0 f t h c l 哪c “蛐m 曲耻o f m c 咖咖b 锄 g i v e 鸺am 雠嘶d v e h i c l cf b ri o g i c a ls 咖c t i i 蚰a l y s i s 图2 9 纯文本域说明图 l i n e 包含了r e 舀o n 内的所有文本行,n n e n u m 表示r e 垂o n 内文本的行数。 纯文本域的基本信息办含在t x 诹e 舀0 n h l f o 中,包括纯文本域的大小和绝对位置。 “n e 表示r e 百o n 内部的文本行,每一个l j n e 包含多个w o r d ,w o r d n u m 表 示行中包含的w o r d 的个数,u n e 的基本信息包含在u n e i l l f o 中,包括l i n e 的 大小和绝对位置。 w b r d 表示行中的词,w b r d 包含了r x t ,w o r d 的基本信息包含在w o r d i n f c 中,包括w b r d 的大小和绝对位置。 第1 6 页 第二章文档图像处理系统输出模型 t e x t 是包含在w b r d 中的文字即识别结果,由于在识别过程中要对所识别的 文字进行分析确定文字的显示风格,所以文字包含个文字风格属性用于文字的 现实,其中f o n t 表示字体,t e x t s i z e 表示字号,s t y l e 表示是否是斜体或粗体。 : 3 ) t b l r e 舀o n ,:t b l r e 痨o n 是图像中的表格区域,由于图像中的表格样式很多而且形式比较 复杂,所以表格的表示相对比较困难,在三种r e 百o n 中t b l r e g i o n 的描述也是 最复杂的。由于r t k 中的表格结构只描述了表格区域的版面结构,所以需要对 表格的版面结构进行分析才能抽取出表格的逻辑结构,而由于表格形式的复杂, 所以对于表格逻辑结构的描述更加困难。 由于表格描述的困难,所以表格的版面结构和逻辑结构分开进行描述,图 2 1 0 是其d t d 描述: 图2 1 0 表格域d t d 描述结构图 第1 7 页 第二章文档图像处理系统输出模型 r u l e “n e 和c e l l 用于描述表格的版面结构,r o w 用于描述表格的逻辑结构。 t b l h l f o 保存了表格的基本信息,其中r u l e n u m 表示表格中框架线的数量 n j n e n u m 表示垂直框架线的数量,h l j n e n u m 表示水平框架线的数量,s i z e 冠 示表格的大小,p o s i t i o n 表示表格在图像中的绝对位置。由于表格分为有线表和 无线表,所以为表格区域增加了属性l j n e 以区分有线表和无线表。 下面我们分别来分析表格的版面结构和逻辑结构。 表格的版面结构主要用于表格版面的重现,所以不需要有行和列的概念, 只需要根据表格每条直线的绝对位置和每个单元格的绝对位置就可以进:行循应 的处理,r t k 内部的处理结果就是保存了这个绝对位置。 r u l e “n e 表示表格中的所有框架线,r u l e l i n e 又包括垂直线n e 和水。 线h l i n e ,每一条框架线都包括相同的属性即框架线的大小和绝对位置。 c e l l 表示表格中的所有单元格,单元格是按照从上到下从左到右的顺序排j ;6 的,每个c e u 包含一个文本行( “n e ) ,该文本行与纯文本域中的文本行相同, 这里就不再重复解释。每个单元格还包含一个唯一的d ,该d 按照从上到下相 从左到右的顺序排列,该d 用于对表格逻辑结构的还原。c e l l 的基本信息包矗 在c e l l i n f o 中,包括单元格的大小和具体位置。 h c 硝牡i 嚣in m 曲 j q i a d 畸蛐n 由贯+ h c 蛐h 培li n i m 山凹n m t i 口m ,凹i h c a d i i + p a 孵n m b 目n 眦m 曲百+ n m b 苗 c h 叩t 育n 埘由e r + h e 赳i 衅+ l 细筘嘲瞻 n u m b 甘+ n o 珊瑚栅+ n i 如曲汀 图2 1 1 表格版面说明图 表格的逻辑结构主要是对表格行列信息的描述,主要用于e x c e l 、d o c 的输 出,由于图像中的表格结构复杂,所以不能够直接描述表格的行列信息,需要 通过版面结构与逻辑结构的映射关系来描述表格,即通过r o w 与版面结构中瞧 c e l l 的映射关系来完整的描述这个表格。本文对表格逻辑结构的描述使用了史广 顺博士的博士论文中的的网格矩阵的思想口j 。 首先,引入对网格矩阵的定义: 网格( g r i d ) :表格版面结构中的最小逻辑单位。两条相邻的水平线冬 第1 8 页 第二章文档图像处理系统输出模型 与两条相邻的竖直线条相交,形成四个线条交点,即确定了一个网格的 位置、大小。 网格矩阵( g 订dm a t r i x ) :对复合型表格,将所有线条延伸至表格的边 界,就能够重现行列特征。此时,形成二维网格矩阵。图2 7 显示了表 格的网格矩阵。其中虚线表示线条延伸部分。 m , 眦、卜哐司 。- 。 - - 。, j! r 5r 6 i醇 景7r 8 i :l ,r 9r l o 肆! 喇b l。t o g i c a l c e l l i r1 3 +础4 r 1 6 f h :g r z 仉 ,r 王5 :r 1 珂t r 圣_ _ i r 2 2 求i 电i r 缎。 r 2 4 图2 1 2 网格矩阵说明图 r o w 表示表格逻辑结构中的行,r o w 包含了l d 百c a l c e l l 列表,l o g i c a l c e l l 表示网格矩阵中的网格,而l o 百c a l c e l l 本身包含一个与每一个c e l l 一一对应的 值,d 值唯一的标识了该网格属于哪个c e l l 。b 百c a l c e l l 同时又包含一个 t 如e 值,用以表明该网格的类别( 由于线条边界的版面特征不同,实际存在或 虚拟延伸,从而将网格分成不同的类别) 。( 具体编码表参考附录1 ) 网格矩阵在表格的版面结构与逻辑结构间建立了良好的映射关系。实现了 表格版面结构与逻辑结构的独立描述,同时使得两者能够有机结合,对表格结 构的描述更加清晰。这种描述模型更易于工程实现,使得处理系统的复杂性大 大降低,而且性能更加稳定,便于文档图像表格结构自动处理的功能扩充和系 统升级。 以上就是对文档图像处理系统处理结果的通用描述,由于r t k 系统中还没 有公式识别,所以目前定义的通用描述机制没有包括公式( 数学公式、化学公 第1 9 页 第二章文档图像处理系统输出模型 式) 的定义,如有需要可参考m a t h m 【j 3 1 和 皿【4 】。 为了便于说明通用文档描述机制的整体结构,图2 1 3 画出了整个通用文档 描述机制的结构图,由于t x 墩e 百o n 和n l r e g i o n 的结构太复杂,所以没有详细 的进行描述。 图2 1 3 通用文档描述机制结构图 以上是本文设计的通用文档结构描述机制,为了便于解释,所以都采用了图的 形式进行描述,具体的d t d 描述请参见附录2 。 第三节公共文档输出格式描述机制( c f f d ) 上一节介绍了针对内部转换机制的通用文档描述机制,文档图像处理系绩 经过内部转换后转化为结构化的处理结果,我们已经完成了输出的第一步。结 构化的处理结果需要通过统一的输出接口进行输出,为了产生不同的输出格式 就需要引入文档输出格式描述机制,使用不同的文档格式描述机制描述各种格 式的文档( r t f ,p d f ,h r m l 等) 。所以本节提出文档描述机制。 第2 0 页 第二章文档图像处理系统输出模型 目前的r t k 系统支持r t f ,p d f ,h r m l 等格式的输出,这些文档在使用 领域和文档结构上都有很大的差别,这其中主要分为两大类:r t f 是面向编辑 的而p d f 是面向实现的,所以这里选取r r f 和p d f 的文档结构进行说明。 2 3 1 r t f 与p d f 的文档结构介绍 r t f 文档结构 r t f ( r i c ht e xtf 0 邢a t ) 作为一种多媒体文本文件结构,目前被很多种文 字编辑器所支持,r t f 的结构比较简单,很多中文档格式都可以转化为r t f 文档。 r t f 的基本元素是正文( t e x t ) 、控制字( c o n t r 0 1w o r d ) 、控制符号( c 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论