(计算机应用技术专业论文)pdf文档语义信息抽取研究.pdf_第1页
(计算机应用技术专业论文)pdf文档语义信息抽取研究.pdf_第2页
(计算机应用技术专业论文)pdf文档语义信息抽取研究.pdf_第3页
(计算机应用技术专业论文)pdf文档语义信息抽取研究.pdf_第4页
(计算机应用技术专业论文)pdf文档语义信息抽取研究.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 p d f 文档应用范围十分广泛,数量极其巨大,而且p d f 的应用仍然处于继续 发展的状态,它在不断地被更多的用户所接受和采纳。p d f 应用的广泛性和它继 续蓬勃发展的状态与对p d f 文档的有效管理的滞后性形成了一对十分尖锐的矛 盾,对p d f 基于语义的精确查询和管理势在必行。 本系统的将信息抽取技术和机器学习技术的思想相结合,实现了从p d f 文档 中按语义抽取出有用的数据,并包装成x m l 文档。本系统的实现主要分为两个过 程,一是通过样本学习生成抽取规则,即用户先在p d f 视图环境中根据对p d f 样 本文档理解,创建语义模式,对页面信息附加语义,然后通过用户标记p d f 样本 文档中的数据项,并在用户创建的语义模式中选择相应的语义项,在语义模式语 义项与p d f 样本文档中数据项之间建立映射关系;在创建语义模式、建立映射关 系的同时,用户将p d f 样本文档也提交到预处理模块,经过转化得到样本x m l 文档;系统针对前面建立的映射关系和样本x m l 文档进行自动地学习,生成抽取 规则;二是利用抽取规则从文档集中抽取出有用数据,并自动包装成包含语义的 数据,即用户将p d f 文档集及其领域信息一起提交给系统,系统自动地将文档集 通过预处理生成w e l l f o r m e dx m l 文档集,同时根据领域知识获取相应的抽取规 则,然后自动地将抽取规则应用于w e l l f o r m e dx m l 文档集,得到具有自描述陛 的包含语义的x m l 文档。本系统对于实现p d f 文档基于语义的精确查询和管理 具有十分重要的现实意义。 关键词p d f ;信息抽取;x m l ;语义 a b s t r a c t p d fd o c u m e n t sa r ew i d e l y u s e d ,t h en u m b e ro fp d fu s e di ss i g n i f i c a n t l yl a r g e ,a n d t h ea p p l i c a t i o no fp d f k e e p sd e v e l o p i n g ,m o r ea n dm o r ep e o p l eo ri n s t i t u t i o n sb e g i nt o a d o p t p d et h e u n i v e r s i t yo f p d f u s e da n dt h es t a t u so f t h ei t sr a p i dd e v e l o p m e n tf o r m as t r i k i n gc o n t r a s tt oi t sl o we f f i c i e n c yo fm a n a g e m e n t s e m a n t i c b a s e d q u e r ya n d m a n a g e m e n t f o rp d fm u s tb ed o n en o w t h i s s y s t e mc o m b i n e st h et e c h n o l o g yo fi n f o r m a t i o n e x t r a c t i o nw i t l lt h a to f m a c h i n el e a r n i n g v n u a b l ed a t ac a nb ee x 仃a c t e df r o mp d fd o c u m e n ta c c o r d i n gt o s e m a n t i c sa n di tt h e nw i l lb ew r a p p e di n t ox m l t h i ss y s t e mh a st w op r i n c i p l e p r o c e s s e s o n ei sf o r m i n ge x t r a c t i o nr u l e s u s e ru n d e r s t a n d st h es a m p l ed o c u m e n ti n p d fv i e w e ra tf i r s t ,t h e nc r e a t e ss e m a n t i c ss c h e m af o ri ta n de s t a b l i s h e st h em a p p i n g b e t w e e ns e m a n t i ci t e r no fs c h e m aa n dd a t ai t e mi np d ea tt h es a m et i m eo fu s e r l e a r n i n g ,t h es a m p l ep d f i sc o n v e r t e di n t ow e l l f o r m e dx m l a f t e rt h eu s e rl e a r n i n g a n dd o c u m e n tc o n v e r s i o n ,t h e s y s t e ma u t o m a t i c a l l yp r o d u c e s t h er u l e sf r o mt h e w e l l f o r m e dx m l a c c o r d i n gt ot h em a p p i n g t h eo t h e ri s i n f o r m a t i o ne x t r a c t i o nb y u s i n gt h er u l e sa n di n f o r m a t i o nw r a p p i n g u s e rs u b m i t st h ep d fd o c u m e n t sa n dt h e d o m a i ni n f o r m a t i o n t h es y s t e mp r e p r o e e s s e st h ep d fd o c u m e n t si n t ow e l l f o r m e d x m l d o c u m e n t s ,t h e ng e t st h ee x 仃a c t i o nr u l e sa c c o r d i n gt ot h ed o m a i ni n f o r m a t i o n , t h e n a p p l i e st h er u l e st ot h ew e l l f o r m e dx m ld o c u m e n t s ,s ow eg e tt h es e l f - d e s c r i b e d a n ds e m i s t r u c t u r e d x m l o u rs y s t e mh a sa i m p o r t a n tm e a n i n go n t h es e m a n t i c b a s e d q u e r y a n dm a n a g e m e n tf o rp d e k e y w o r d s p d f , i n f o r m a t i o ne x t r a c t i o n ,x m l ,s e m a n t i c s i i 第1 章绪论 随着i n t e m e t 的迅猛发展,信息网络化已成为现实。电子文档是目前正逐渐流 行的一种新兴网络传播方式。电子图书、电子期刊、电子报纸和电子公文等取代 纸张是当今社会发展的趋势,对大量的电子文档进行有效的管理和精确的查询是 当今急需解决的问题,为数据附加语义信息是解决问题的有效途径。 1 1 研究背景 随着i n t e m e t 的迅猛发展,w e b 成了最大的环球信息资源库 1 。对大量电子 文档的管理和查询是当今急需解决的问题,w e b 上的电子文档以各种复杂的数据 格式存在,其中包括:* e x e 、* h t m l 、* t x t 、d o c 、+ ,p d f 、 p s 等。对各种数据格 式进行有效的管理,现在一种通用的办法是将各种格式的数据都转换成一种公认 的标准格式,这种格式应该具有自描述的特性和跨平台的特性,那么选用什么格 式以及如何转换成这种格式是我们耍解决的问题。 在现有的各种系统中,每种数据格式都有其各自的特点: h t m l 2 】格式的文档是面向显示的。h t m l 通过在文档中添加预定义的t a g 来组织文档,通过浏览器来完成对h t m l 文档的解释。 w o r d 是微软开发的o f f i c e 套件之一,它是面向编辑的,目的是为了可视化编 辑修改文档,主要用于文字编辑。w o r d 在办公自动化及日常文字编辑方面的应 用日益广泛,已经成为事实上的标准。 p d f ( p o r t a b l ed o e u l t i e n tf o r m a t ) 3 是面向显示的。它是源于a d o b e a c r o b a t 产品家族文件格式。它的目的是使用户能够轻松地、可靠地并且独立于文档创建 环境地交换和浏览电子文档。p d f 依赖与p o s t s c r i p t 删言相同成像模型, 以独立于设备和独立于分辨率的方式来描述文本和图像。为了提高交互浏览的性 能,p d f 定义了比大多数p o s t s c r i p t 语言程序所使用的更结构化的格式。p d f 还包 括一些特殊的对象,如注释和超链接,它们不是页面的组成部分,但它们对于交 互浏览和文档交换十分有用。 涧北大学工学硕士论文 x m l ( e x t e n s i b l e m a r k u p l a n g u a g e ) 【4 是s g m l ( s t a n d a r d g e n e r a l i z e d m a r k u p l a n g u a g e ) 的一个应用侧面( p r o f i l e ) 或受限形式。在语法结构上,x m l 符合s g m l 。 由于其半结构化、包含语义等突出的优点,已经成为数据交换事实上的标准。 p d f ( p o r t a b l ed o c u m e n tf o r m a t ,便携文档格式) 格式是a d o b e 公司在其 p o s t s c r i p t 语言的基础上创建的一种主要应用于电子出版的文件规范系统。p d f 文 件可以将文字、字型、格式、颜色及与设备和分辨率独立的图形图像等封装在一 个文件中,该格式文件还可以包含超文本链接、声音和动态影像等电子信息,支 持特长文件,集成度和安全可靠性都较高。因此越来越多的电子图书、产品说明、 公司文告、网络资料、电子邮件等开始使用p d f 格式文件。 在世界各国的政府部门中,用p d f 取代纸张的成功实例越来越多。很多国家 和地区都将p d f 作为提交文档的官方标准格式,美国联邦政府率先实现了以电子 文档取代纸张,而a d o b ep d f 则成为公用的标准。印度和澳大利亚是p d f 的主要 用户,从选票登记表到家用表格,几乎什么都是用p d f 做的。香港特区政府在国 内已经率先使用a c r o b a t 来管理每日数以千计的政府公文以及档案,并通过 i n t r a n e t 向各机构分发p d f 格式的文件,实现无纸化办公,既保护环境,又提高 效率,为政府和企业树立了榜样。在学术界,无论是学术会议,还是电子期千u 以及 一些论文收录机构,他们在论文交流和发布时使用的文档格式几乎全部是p d f 。 目前p d f 格式已成为电子文档发行和数字化信息传播事实上的一个标准。 p d f 由于其拥有与平台无关性,精确的色彩还原度,丰富的图象显示,可靠 的安全功能等显著优点而广泛应用于编辑、出版、印刷、发行界。但p d f 是面向 显示的,p d f 文档本身缺乏语义信息,不适合基于语义的查询,也不适合应用程 序的自动处理。随着w e b 应用的发展,在出版、编辑、电子图书馆等领域,都需 要对p d f 文档基于语义的查询。因此,为p d f 文档中的数据添加语义信息( 语义 即数据的含义,相当于关系数据库表中的字段名) ,对p d f 文档迸行基于语义的信 息抽取,具有重要的应用意义。 第1 章绪论 1 2 研究现状 1 非基于语义的格式转换研究现状:现实中,格式转换的实例有: w o r d 、p d f 、p s 专h t l m , w o r d p d f ,p d f - - w o r d h t m l - - ) w e l l f o r m e dx m l 等, 前两项都是为了使文档能够在不同的软件下浏览或编辑,第三项只是使目标 文档符合x m l 的语法规范,但没有真正实现x m l 的自描述特性,它的标签( t a g ) 并不是表达语义的 5 】。 2 ,基于语义的格式转换研究现状: 为数据添加语义不但有助子用户理解数据,更有利于应用程序自动处理数据, 进而实现数据的高效管理和查询。 w o r d - - ) x m l :我们前届已经完成“从w o r d 到x m l 的格式转换系统” 6 】。 此系统采用了基于模板和基于学习的两种策略,利用自主开发的p q a g e n t 7 】 作为信息抽取引擎,从w o r d 文档中抽取出有用信息,弗为之添加用户语义, 实现基于用户语义的数据格式转换。此系统为转换p d f 文档提供了一个很好 的思路,具有较高的参考价值。我们借鉴这个系统,将信息抽取技术用于数据 格式转换中,针对p d f 文档实现到x m l 的基于语义的转化,即将p d f 文档 中的关键语义信息提取出来,以便对p d f 文档进行基于语义的查询和管理, 将是十分有意义的探索。 h t m l - - x m l :从h t m l 到x m l 的转换技术是当今的一个研究热点 8 】。典 型的系统有w 4 f 9 ,x w r a p 1 0 和l i x t o 1 1 】等。我们前届自主开发了p q a g e n t 系统,它实现了为h t m l 网页信息附加语义信息,并生成x m l 文档。p q a g e n t 系统的运行过程分为四个阶段:附加语义,样本学习,规则优化和信息抽取。 首先,用户根据自己对网页内容的理解,通过创建语义模式,将反映网页内容 的语义信息记录下来,作为样本学习阶段的输入;其次,计算机在用户的帮助 下理解网页内容所反映的语义信息,在语义模式和网页中的信息块之间建立映 射关系;然后,样本学习模块根据用户建立的映射关系,访问样本文档生成转 换规则,为了提高信息抽取的查准率和查全率,为了提高效率,系统需要优化 转换规则;最后,将w e b 页面的数据转换为x m l 格式,即根据该网页对应的 语义模式,系统自动从规则库中取出相应的x q u e r y 查询语句,输入到x q u e r y 查询引擎,对待抽取的网页进行查询,然后将查询结果合并到一个x m l 文档 作为抽取结果,放入和该语义模式对应的x m l 文档库中。 3 针对p d f 格式转换现状:将p d f 格式的文档转换为h t m l 格式实际上只 是由一种显示变换为是另一种显示;将p d f 文档转换成为w o r d 文档是为了对 p d f 进行编辑:a d o b ea c r o b a tr e a d e r 与m sw o r d 不同,它本身不具有将p d f 格 式文档转换为h t m l 或x m l 格式的功能,要实现上述转换,只能借助第三方软 件,这些都已有实用的系统。从p d f 中提取语义信息的工作正在研究,还没有实 用的系统。 s a v e a s x m l 1 2 】,p d f x p e r t 1 3 1 n 个软件实现了从p d f 到结构良好的x m l 的转换,但它们的结果x m l 文档都没有语义信息,它们没有解决数据的语义转换 问题,也就无法利用转换后的数据进行精确的基于语义的查询。 x b a s e 1 4 1 系统提出了先将p d f 文档转换为文本文档,再对文本文档进行抽取 信息的思路,x b a s e 对文本文档进行抽取信息的过程就是创建文本文档特征向量的 过程,即用文件描述符和内容向量表示文档的内容。对描述符和内容向量建立多 维索引,来支持对文档的查询和管理。x b a s e 转换的x m l 文档仍然缺乏语义信息。 4 p d f 按语义查询需求现状:p d f 格式的文档广泛应用于各行各业,电子图 书馆、政府部门、印刷部门都有大量的p d f 文档。p d f 文档本身是面向显示的, 是为了方便用户阅读,文档格式中不含有便于机器处理的语义信息。因此,对这 些文档的管理和查询在很大程度上依靠用户阅读文档抽取出语义信息,如果面对 大量的、不同领域的遗留文档,工作量极其巨大和烦琐,这时要针对文档内容基 于语义的精确查询几乎不可能,多数情况下不能实现。但是,p d f 文档取代纸张 是现代社会的发展趋势,p d f 文档数量的迅速增长使有效地管理p d f 文档势在必 行。提高工作效率,实现对p d f 文档基于语义的查询和管理成为人们的迫切要求。 数字图书馆领域的研究受到当今的广泛关注,它在添加语义方面主要采用 d a t a m i n i n g 或先将不易处理的文档转换成纯文本文件等方法 1 5 1 6 1 7 ,但它添 加语义的效果不理想。 1 3 研究目标 运用信息抽取的手段、基于语义的格式转换技术,从p d f 文件中抽取出有用数 据,自动附加语义,生成具有自描述性的x m l 文档,增强对大量p d f 文档可管理 性,使之更易于查询。 1 4 论文结构 本文共分五章,第一章为绪论,第二章概括介绍了其相关技术。第三章详细 描述了如何完成基于学习的语义信息抽取过程。第四章构建了实验环境,对信息 抽取方法进行了性能测试。第五章对本文的工作进行了总结,并对下一步的工作 进行展望。 河北大学工学硕士论文 第2 章相关技术介绍 本章首先介绍本系统的处理对象p d f 的文件结构以及p d f 中字体的组织和使 用,然后简述p d f 文档视图和选中文本的获取方法。最后提出x m l 是数据交换事 实上的标准,介绍其特点及其接口s a x ,在介绍s a x 时主要是它与d o m 相比较的 基本特点。 2 1 关于p d f p d f 的文件基本结构包括四部分: 头( h e a d e r ) :标识本p d f 文件所遵循的p d f 规范版本; 主体( b o d y ) :文件中包含的组成文档的对象; 交叉引用表( c r o s s r e f e r e n c et a b l e ) :包含文件中关于间接对象的信息; 尾( t r a i l e r ) :用于交叉引用表的定位和文件主体中某些特殊对象的定位。 在以后的更新可能会修改初始结构,更新操作会在文件末尾添加额外元素。 因为本文关心的是数据的显示特征,所以下面对p d f 中字体组织和使用做初步 的介绍。 字符是抽象符号,而字型是字符的特定图形表现。字体由字型组织而成,一种 字体为某一个字符集定义字型,例如,h e l v e t i c a 和t i m e s 字体为标准的拉丁 ( l a t i n ) 字符集定义字型。p d f 阅读器使用的字体以程序的形式存在。字体程序 的书写使用专用语言,如字体格式t y p e1 或t r u e t y p e ,这些语言需要由专门的字 体解释器来理解。 在p d f 中,术语“字体”是指字体字典( f o n td i c t i o n a r y ) ,字体字典是用来 识别字体程序和包含相关附加信息的p d f 对象。在字体字典中有几种不同的字体类 型,这几种不同的字体类型由字体字典中的子类型( s u b t y p e ) 项目来区别。 对大多数字体类型来说,字体程序本身在单独的字体文件中定义,字体程序或 者嵌在p d f 酐3 流( s t r e a m ) 对象中,或者需要从外部资源获得。字体程序包含生成 字型的字型描述。 内容流( c o n t e n ts t r e a m ) 在页面上通过指定字体字典和字符串对象来描述字 型,字符串对象被解释为在字体中识别字型的一个或多个字符码的序列。 下面的p d f 文档片段是一种关于字体的最直截了当的使用方法: b t f 1 31 2t f 2 8 87 2 0t d ( a b c ) t j e t 每一行执行如下步骤: 1 ) 开始一个文本对象; 2 ) 设置字体和字体大小( 由f 1 3 标识的字体资源指明外观上如人们所知道的字体 h e l v e t i c a ) ; 3 ) 指定在页面上的开始位置; 4 ) 为这里的字符串( a b c ) 描绘字型; 5 ) 结束文本对象。 下面是从资源字典中摘录的片段,它定义了被引用为f 1 3 的字体字典: r e s o u r c e s f o n t 2 30o b j e n d o b j 部分行的执行任务是: 第二行:把资源映射到字体字典( 间接对象2 30r 是子字典中的项目) ; 第五行:所描述的对象类型是字体( f o n t ) ; 洞北大学工学硕士论文 ! i ii l l 毫| 詈芒曼詈曼鼍- 曼曹暑詈曼置詈薯e 詈曼! 皇! 皇鲁詈詈詈暑皇量曼詈詈曼詈鼍- 日_ ! 兰曼皇! 鼍鼍量鼍鼍! 曼! ! ! ! ! ! 曼鲁皇矗| ! 竺皇皇! ! ! 第七行:所描述的字体的类型是t y p e l : 第八行:字体程序名是h e l v e z i c a 。 前面介绍了p d f 对字体的处理机制,这只是最基本的情况,但已经相对比较复 杂,而且p d f 的字符串一般都是经过编码的,因此如果直接对p d f 源文档进行语义 信息处理,实现起来比较困难,我们有必要考虑间接的途径,比如先将p d f 进行预 处理,转换成易于处理的格式。 2 2 对p d f 到) ( m l 和h n 以l 的转换技术 p d f 是应用最广泛的文档格式之一,它的最主要的优点就是跨平台、可移植、 忠实地保持文档显示原貌。但是它的不方便之处是它只能通过专门的程序来阅读, 相比较而言,h t m l 和x m l 文档可以被任何i n t e r n e t 用户阅读,可以被现有的任何 搜索工具检索。应用程序访问h t m l 和x m l 比访问p d f 更方便可靠。 在我们的p d f 语义信息抽取工作中,利用信息抽取技术抽取出语义项并自动 为之添加语义,这是我们的关键思想。而应用程序直接对p d f 进行信息抽取,困 难比较大,而我们前届同学已经在对h t m l 和x m l 的信息抽取方面有了较深入的探 索,包括对w o r d 文档进行基于语义的转换,为我们针对p d f 文档的基于语义的信 息抽取提供了十分有价值的参考。因此首先把p d f 文档转换为便于操作的h t m l 或 x m l ,是本系统进行信息抽取的前提。 下面介绍几种现有的关于格式转换的系统: p d f 2 h t m l :目前从p d f 到h t m l 的转化软件比较多,例如,由i n t r a p d f 开发 a d v a n c e dp d ft oh t m l 1 8 ,由v e r y p d f c o ni n c 开发的p d f 2 h t m lv 1 6 1 9 , 由l ds o f t w a r ei n c 开发的p d fc o n v e r t e r 1 2 0 ,由b u m pn e t w o r k s 开发的 p d f c o n v 2 1 等等,它们的转化效果参差不齐,对p d f 文档的适应性也不尽相同, 都有各自的局限性。 p d f x p e r t 的两个产品:h t m lc o n v e r t e r ,x m lc o n v e r t e r ,它们对p d f 文档分 栏的情况有较好的适应性,而且结果文档完整地保留了数据的显示信息( 字体、 字号、颜色、是否加粗) ,位置坐标,同前面p d f 到h t m l 的转化软件一样,它们 的标签都不表达语义,但这些信息都有助于进一步做信息抽取工作。 r , x b a s e :它的目的是为了实现对文档的有效查询和管理,它主要处理三种类型 的文件:平面化文本文件( 如文本文件、计算机程序) 、半结构化文件( h t m l 和 x m l ) 和能够被转化为文本文件的文件( 如p s 格式和p d f 格式文件) 。x b a s e 把文 件转化为与其相关的描述符和内容向量来支持高效的检索和浏览。文件的描述符 包括文件类型、长度、创建时间、标题和简短描述等文件属性;内容向量用来表 达文件的内容,它包括通过典型术语抽取过程从文件中抽取的术语。对描述符和 内容向量建立多维索引,来支持对文档的搜索和管理。x b a s e 提出了将其它格式的 文档转化为文本文件,然后抽取出其中的文件描述符和内容向量,通过对描述符 和内容向量的管理来实现对文件的管理。但是它没有解决数据的语义转换问题, 因此也就无法利用转换后的数据实现对文档进行精确的基于语义的查询。而且, 由于它把p d f 先转换成了文本文件,丢掉了其中的显示信息,也不利于语义转换。 s a v e a s x m l ,是a d o b e 公司专门为a d o b ea c r o b a t 定制开发的把p d f 转化为x m l 的插件。它扩展了s a v e a s 对话框的“s a v ea st y p e ”选项,可以把选定的p d f 文 档另存为x m l ( 类似于m sw o r d 可以把d o c 文档另存为h t m l 文档) 。但是这个插件 起作用的前提是:目标p d f 文档是被标记的p d f ( t a g g e dp d f ) 。所谓被标记的p d f 就是:通过定义一套标准的结构类型和属性,使得页面内容能够被抽取或用于其 他目的,它是建立在逻辑结构框架之上的按固定格式使用的p d f 。我们可以通过 a d o b e 开发的“m a k ea c c e s s i b l e ” 2 2 插件将文档转化为被标记的p d f ,然后再 利用插件s a v e a s x m l ,便可得到结构良好的x m l 文档。但是,这样得到的x m l 的优 点是具有一定的结构,但它丢弃了文档所有的显示信息,最关键的是文档的标签 不表达语义。 2 3p d f 文档视图和选中文本的获取 打开p d f 文件的方法只能是利用a c r o b a t ,a d o b e 推荐的a c r o b a tr e a d e r 是 a c r o b a t 的一个子集,如果直接与a c r o b a t 通信,十分复杂。a c r o b a t5 0 s d k 提 供了几种方法使得能够在外部程序窗口中利用a c r o b a t 显示p d f 文档 2 3 ,它们 是: o l ea u t o m a t i o n ,在w i n d o w s l 弼读器中使用o p e n i n w i n d o w e x 命令打开p d f 文档。 ? 可北大学工学硕士论文 它在o l e 应用程序窗口中显示了p d f 文件的一个活动视图。 o l ea u t o m a t i o n ,在w i n d o w s 阅读器中使用d r a w e x 命令打开p d f 文档。它在o l e 应用程序窗口中显示了当前页的一个静态位图。 在w i n d o w s 阅读器中使用a c t i v e x 。打开p d f 文档它显示t p d f 文件的一个活动 视图,但是a d o b e 不支持a c t i v e x 控制的开发。 e x t e r n a l w i n d o wp l u g i ns a m p l e ,它在p l u g i n 创建的窗口中显示了一个p d f 文件的活动视图。 根据每种方法的特点,第一种方法和第四种方法支持相关控制的开发,而第一种 方法比较简单,因此本系统选用了第一种方法。针对第一种方法,a d o b e 提供了一 个i a c ( i n t e r a p p li c a t i o nc o m m u n i c a t i o n ) 实例a c t i v e v i e w ,我们通过对它的扩 展来实现本系统的附加语义界面的开发,通过使用接口可以获得选中文本的内容。 2 4 关于v 皿及d o m 、s a x 2 4 1x m l x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 由于其自描述性、半结构化、与平台无 关等特性,已经成为数据交换事实上的标准。 x m l 具有自描述的特性,这可以帮助用户理解数据,尤其是在计算机理解和 处理数据方面有其突出的优势。x m l 有其自身的语法规范,如规范中所定义的, 如果一个数据对象是结构良好的( w e l l f o r m e d ) ,那么它就是一个x m l 文档。在 特定应用中,x m l 数据有含义上、类型上等限制,如果一个w e l l f o r m e d x m l 文 档进一步满足这些约束,它成为有效的( v a l i d ) x m l 文档。 x m l 和h t m l 的区别在于:x m l 支持用户自定义标签,而h t m l 只有固 定的、预先定义好的标签;x m c 标签用于描述数据内容,表达数据本身的语义 信息,而h t m l 的标签用于描述数据的显示信息。 元素是x m l 文档内容的基本单元,是x m l 的基本组成部分。所有的x m l 数据 ( 除了注释,处理指令和空白) 都必须包含在元素中。元素由起始标签、元素内 容、结束标签组成,其语法格式为: 元素内容叫标签 。标签的内容用于描 述元素内容的语义,用户把要描述的数据对象,即元素内容,放在起始标签和结 束标签之间,例如: j o h n 。x m l 元素中还可以再嵌套别的元素, 这样使相关信息构成层次结构,例如: j o h n m a l e u s a 1 2 3 s i n a e o m 属性用来将某些信息附加在元素上,而这些信息不同于元素本身所包含的信 息内容。属性通过一个名称一值组合,实现对元素的附加信息说明,例如: a n d y ,利用属性g e n d e r 说明a n a y 的性别是男性。 2 4 2 d o m & s a x s a x ( s i m p l ea p i f o rx m l ,x m l 简单应用程序接口) 【2 4 实际上是在 x m l d e v 邮件列表上协作产生的,并不是w 3 c 的标准,但实际上已和w 3 c 有 着同等地位。s a x 的a p i 是事件驱动的,又称“顺序访问”协议。 s a x 接口解析x m l 文件的基本原理为:首先获得一个实现了s a x 接口的解 析器,利用解析器把x m l 文件作为一个流读出来,然后再把文件流转换成一个事 件流,这个事件流中的内容包括“文档开始”、“文档结束”、“元素开始”、“元素 结束”等;根据事件调用注册到解析器里的处理器的相应方法。在解析器进行解 析x m l 文件的同时,应用程序可以调用解析器提供的方法,对解析器的行为进行 控制或获取解析器的状态。 由于s a x 提供的是一种顺序访问机制,因此它对x m l 文档的处理缺乏一定 的灵活性;然而,对于那些简单的应用来说,由于s a x 解析器实现简单、对内存 要求比较低,因此效率比较高。 d o m ( d o c u m e n t o b j e c tm o d e l ,文档对象模型) 2 5 1 将x m l 数据组织成为一 棵树的形式,d o m 就是对这棵树的一个对象描述。通俗地说,就是通过解析x m l 文档,为x m l 文档在逻辑上建立个称为d o m 树的树模型,d o m 树存放在内 存中,树的节点是一个个对象。应用程序可以随时对d o m 树中的任何对象进行访 问与操作,通过存取这些对象就能够存取x m l 文档的内容。应用程序完全可以通 过d o m 接口访问、修改、添加、删除、创建树中的节点和内容,同时可以访问和 更新文档的结构。这种访问方式给应用程序的开发带来了很大的灵活性,它可以 任意地控制整个x m l 文档中的内容。d o m 除了上面的优点,也有它自身的缺点, d o m 在内存中构造树涉及大量的开销,很容易出现大型文件完全占用系统内存的情 况:另外,事先创建一棵d o m 树也需要较大的系统开销。 第3 章p d f 文档语义信息抽取的原理和方法 本章依据现有的从p d f 到) ( m l 的转换技术和信息抽取技术的基本原理,提出对 p d f 文档进行基于语义的信息抽取的方法。并依据实际应用背景,详细介绍了对p d f 文档的基于学习的语义信息抽取方法。这种思想适用于除了扫描图像以外的p d f 文 档,具有较大的通用性及一般性。转换p d f 文档完成后,可以生成包含语义的x m l 文档数据。从而可以对大批量的p d f 文档进行基于语义的管理,进行基于语义的查 询操作。以下首先介绍本文提出的p d f 语义信息抽取方法的体系结构,然后说明信 息抽取时采用的语义模型;接着对基于学习的信息抽取原理进行详细阐述,最后 对本方法加以总结。 3 1 体系结构 我们的对p d f 文档基于语义的信息抽取系统的体系结构如下图: 图1 体系结构图 从上图可以看出,本系统主要分为三大模块,即预处理模块、样本学习模块、 信息抽取模块。其中样本学习模块和信息抽取模块是本系统的关键模块,样本学 习模块的任务是生成抽取规则,信息抽取模块的任务是运用抽取规则对批量p d f 文 档进行语义信息抽取,并组装成x m l 文档;预处理模块具备必要的辅助功能。 3 1 1 三大模块 1 、预处理模块 预处理模块的任务是接受用户提交的p d f 文档,经过自动处理,输出 w e l l f o r m e dx m l 文档。这主要是为了适应样本学习模块和信息抽取模块的输入要 求,它们要求提交的文档必须是w e l l f o r m e dx m l 文档。预处理模块接受的p d f 文 档分为两类,p d f 样本文档和p d f 文档集。样本文档在显示风格方面代表某个确定 的领域,它的格式在这个领域具有一般性,系统将参照样本文档为这个领域建立 语义模式,并通过扫描预处理后的样本文档生成相应语义项的抽取规则;p d f 文档 集是本系统将要进行语义信息抽取的批量文档,通过样本文档获取抽取规则后, 与样本文档属于同一个领域的p d f 文档集就可以利用这些规则进行基于语义的信 息抽取。样本文档经过预处理后的结果将作为样本学习模块的输入项,p d f 文档集 经过预处理后将作为信息抽取模块的输入项。预处理模块针对p d f 样本文档和p d f 文档集的处理过程完全相同,都是将p d f 文档转换为w e l l f o r m e dx m l 文档,并且 必须保留在后续的样本学习或信息抽取工作需要的有用信息,删除文档中影响样 本学习或信息抽取工作的干扰因素,唯一不同之处就是输出目标不同。 2 、样本学习模块 样本学习模块的任务是通过用户学习界面与用户交互,生成语义模式 2 8 2 9 ,在语义模式的语义项与样本文档数据项之间建立映射关系,然后通过 扫描样本x m l 文档( p d f 样本文档经过预处理后得到的w e l l f o r m e dy d 4 l 文档) ,获 取相应数据项的特征,再把语义模式语义项与样本文档数据项的映射关系转换成 为语义模式语义项与数据项特征的映射关系。因为样本文档具有代表性,所以其 数据项的特征也具有代表性。语义模式语义项与具有代表性的特征的映射关系就 是抽取规则。经过一次学习得到的规则称为初始规则,对多次学习得到的规则进 行优化便得到最终规则。总之,样本学习模块的根本任务是生成抽取规则,它的 输入是:语义模式语义项与样本文档数据项的映射关系和样本x m l 文档以及本次学 习之前生成的抽取规则( 如果本次学习是第一次学习,那么规则项为空) ,输出 是经过优化的抽取规则( 如果本次学习是第一次学习,那么得到的规则是初始规 第3 章p d f 文档语义信息抽取的原理和方法 则) 。 3 、信息抽取模块 信息抽取模块的任务是接受w e l l f o r m e dx m l 文档 集( p d f 文档集经过预处理得n l j w e l l f o r m e dx m l 文档 集) ,并根据领域自动到抽取规则库获取抽取规则,将 抽取规则运用于w e l 卜f o r m e dx m l 文档集,最终输出具 有自描述性的x m l 文档。在信息抽取模块中,实际是把 抽取规则中的语义项与数据项特征的映射关系转换为 语义项与数据项的映射关系。在从样本学习到信息抽取 的过程中,语义项、数据项和数据特征三者之间的映射 关系经历了如右图的变化,从映射关系转换的角度看, 从生成规则到信息抽取过程中映射关系的转换与从附 f附加语义 。 b 义一据项 + f生成规则 b 义椭据项特丐 + r信息抽取 、 l 语义项_ 瑚据项 图2 映射关系转换图 加语义到生成规则过程中映射关系的转换正好相反。虽然从附加语义到信息抽取 产生了相同的映射关系,但是并不是说处理过程又回到了开始。这是一个从特殊 到般的过程,因为,附加语义是对具有代表性的个别文档进行人工附加语义, 并由此生成具有代表性的规则;而信息抽取是把具有代表性的规则应用到与样本 文档具有相同特征( 即属于相同领域) 的文档集中,自动地为文档集中每一篇文 档找到相应语义项的数据项,实现批量自动附加语义的目的。 3 1 2 三个库 1 、p d f 文档库 p d f 文档库存放的是用户提交的原始的p d f 文档,它们是p d f 文档的集合。这 些p d f 文档根据他们所属领域按照目录树的形式组织存放。 2 、x m l 文档库 x m l 文档库存储的是用户提交的p d f 文档转换后的x i m l 结果,它们是x m l 文 档的集合。与p d f 文档库一样,x m l 文档根据领域按树形组织存放。 3 、抽取规则库 抽取规则库用于存放通过学习产生的抽取规则,用于对p d f 文档进行语义信 15 息抽取。为了方便、高效地完成对p d f 文档的抽取,抽取规则库仍按领域分类组织 成树状结构,相同领域的规则同该领域对应的p d f 文档库及) ( 】l 文档库一一对应。 在用户定义语义模式的同时,系统自动为其生成p d f 文档库,x m l 文档库和相应 的抽取规则库。 3 2 语义模型 p d f 自身的表示模型是为了便于有效的保持p d f 文档的物理结构和逻辑结 构。但是该表示模型不能反映p d f 文档数据潜在的语义信息。为了便于信息的集 成,实现语义化的处理,需要为p d f 文档数据定义合适的语义模型。用文档的语 义模型来表达某个领域文档中的数据含义以及数据之间的关系。因为我们对p d f 文档处理之前,都要预先转化为w e l l f o r m e dx m l 文档。通过对现有的p d f 到l 的转化软件进行比较分析,我们发现包括本预处理系统在内的大部分转化软件, 经过它们转化得到的x _ m l 文档都是平面化的,转化结果往往以p d f 文档中的一行 内容为一个对象( 也有时以一个字为一个对象) ,所有对象都是d o m 树中根元素 的直接孩子节点,对象之间的关系的兄弟关系,或者所有对象在x m l 文档中的 x p a t h 完全相同。根据预处理结果w e l l f o r m e dx m l 文档的结构特点,并且联系 本系统处理的p d f 文档案例一学术论文的实际需求,我们的语义模型选用x m l 语法表达,用d t d 2 6 来定义,d t d 表达如下: 例如下图是一篇p d f 文档的部分页面 a | ii n f o r r n a l l o n - t h e o r 蝴d ca p p r o a o ht on o r m a lf o r m sf o r r e l a t i o l s a ia n dx 麓ld a t a m s m p j o m 5l 砌l 、 ! = :黧:黧:裟麓篇慧= b 飘隅哺l 玎 j w f d 辫p 舢【 l 篁堋删删¥l 正- 呱如m d “d _ 粤q 酣艚吨d 抽m 睁尊吐砸“h t he l i m 涮嚣霉:蒜,黜鬻别:篙穗;啪器舔- 蹲2 姥黜:警黑 1 研删叫 皇埘l 崦删凶越址_ b h i ;hh h 卿c 哪 埘h f t l 啊w 辩曲t h 燃嗡口衅 m 岫耐矗i 口- 宣抽汕m d d d “_ 翻五州砷川i 虻 m 。, b t t t 删皿喇目# - 晦j 穗t 衄y 唑t 。h e 硇蛔j m n l d 如响d 争h l h 镕脚啤 。 瓣筘敞嚣黜勰瓣裔嚣器篇篇只慧盎箸翡瓣蹴 图3p d f 文档 针对图3 的p d f 文档可以用下面的x m l 文档片段来描述: a ni n f o r m a t i o n - t h e o r e t i ca p p r o a c ht on o r m a lf o r m sf o r r e l a t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论