(管理科学与工程专业论文)基于xml的文档处理技术的研究与实现.pdf_第1页
(管理科学与工程专业论文)基于xml的文档处理技术的研究与实现.pdf_第2页
(管理科学与工程专业论文)基于xml的文档处理技术的研究与实现.pdf_第3页
(管理科学与工程专业论文)基于xml的文档处理技术的研究与实现.pdf_第4页
(管理科学与工程专业论文)基于xml的文档处理技术的研究与实现.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(管理科学与工程专业论文)基于xml的文档处理技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 随着企业、组织的规模日益扩大,就需要对企业中流通的文档进行挖掘以求信息、 知识的共享和流通。企业中流通的文档基本上来自于异构数据源,因此,如何从这些异 构文档中抽取有效信息并加以保护成为一个研究热点。虽然目前对文本处理技术已经有 了很大的发展和应用,但是存在些问题有待研究:如何抽取有效的文本;如何抽取标 记文档中的数据信息;如何有针对性的对) 圆几文档的敏感数据进行加密。 针对以上三个问题,根据不同文本和舭文档的映射关系,本文在文档结构分析 的基础上提出了流处理模型。并结合元素树模型,提出了一种将w o r d 、e x c e l 以及 r n , 文档文件解析成为有语义的) a 订l 文档的方法。从文档处理的角度,提出一种有利于文 本挖掘的方法。在完成异构数据转换的基础上,来实现m 。文档的存储安全。 本文综合运用了j 眦编程技术、札编程技术、咀,安全规范以及安全访问策略。 通过继承和二次开发多个开源项目,例如a p a c h ep o i 、 r r m l p a 捂c r 、j e x c e l 、p d f b o x 等,来实现文档处理系统的两大功能:文档转换和文档保护。文中详细描述了系统的各 部分的分析、设计和实现。 本研究工作主要是为了满足宏观层次的知识挖掘项目的需要,为以后工作的开展积 累经验。随着研究的进展,和系统最终功能的集成,本系统的主要接口包可以作为网络 中间件填充到w e b 应用中去。 关键词:文档转换;数据抽取;l 安全 基于咀。的文档处理技术的研究与实现 r e s e a r c ha n dr e a l i z a t i o no fd o c u m e n tp r o c e s st e c h n o l o g yb a s e d o n x m l a b s t r a c t r e c e n t l y ,m 姐yc o o 肼粕t i o n s 锄do r g 眦i z a t i o n s ss c a l eb a m el a r g c ra n dl a g e r a tt h e s 锄et i i n e ,t 置i e ys h o t t l dm i l l et h e i rd o c 啪t sw i t l l i nt l l e mf b ri i i 【南删删a n dk n o w l e d g e s h 痂g d o c l m l e n t si nc o o p 剃o n so f t 啪c 锄e 矗o ma l lh n d so fh e t a d 霉跚1 1 8 加s o u r c e i tb e c 锄ea a 曲f o c u st l l 砒h o wt 0 四由t 蛆dp i d l h e c tt h ei n f 0 旧n a t i i n 也ed o c 啪e n t s t kr e a 曲a _ b o l i td o c 岫e n tp r o c s i n gh 嬲o b t a i l l e da 鲫e r a la i l de 丘如i v ea c q l l i s m o n ,b u t c u n 蜘yi ts t i l lh 嬲af e wp b l e m s :h o wt oa b s t r a ms 锄删ci n f o m a t i o n 舶mad o c u i l l e 吐 h o wt od i v i d ea b m a c td a t af 如mah n m d o c u m e ms o l e l y 髓dh a wt op r o 把c tm e 鸵i l s i t i v e d a _ t a i n a ) m 几d o c u 删:n t e x n y h l 础t 0 l v e 雠辩p 删e m s ,撕麒 e 础i n g 姗i p p i l l gr e l 撕b e t 眦蛆y l c i n d so f t e x t sa n dx m l ,t h c 伽e p m p o s e 也en o wp c c s s i n gm o d e lb a s e dm ca n a l y s i so fd 0 姗e n t s s 妣t u 佗蛆dam e n d 柚c hc o u l dp a r t l l ew o r d 、e x l 跚dh n 皿l d o c 皿l e r 临蛆dc o n v e r t t l l e mi 1 1 _ t 0w e l l - f o m e dx m ld o c 呦锄l 忸c o m p 盯甜t oa l g c d i h i ni i i l p m v 咄i 吐,t h ep a p e r 陀a r c haw a yo fd o c u m 锄tp m c e s s i l l gt oi i n p o v et l l ee 伍c i e n c yo ft h et e x tm i i i i i l g l 嬲t ,i t i r 印l 锄t s ld o c 啪e n t se n c 聊p t i 1 kp 印e ru dj a v ap r 0 割珊m i n gt e c h c l o n o g y ,) 踟lp r o 伊锄珊【i n gt e c h e l o g y ,x m l c u r i t ys t 甜l d a r d 锄ds e c u r i t ya c c e s sp o l i c y a n di m 璩r i t 蛆dd e v e l 叩m a n yo p e n - s o u r c e p 叫t st oi m p l e m tt l l es y s t 咖st w of i l n c t i o n s :d o c 啪e n te x 吐啦l g e 锄dd o c m n e n t c 删t y n ed e t a i lo f t l l es y s t 唧s 锄a l y s i s ,d e s 洒曲di m p l 锄e n ti sd e 踮r i b e di n 也ep a p e f t h ea i mo ft l l ep a p e ri st 0s o l v es 锄ea p p l i e dp r o b l e m s 趾da p p l yt ot l l e 删e c tw l l i c h n a m ei s l m o 、l e d g cm i i l i n gi nm a c r o l a y e r a t 也cs 啦et i l e ,i tc 眦c 啪l l l a 圭es o m e e x p 甜e n c ef b rt l l en e x tj o b a n c rw ei n t e g m t et l l ew h o l ep m j e c t ,t h em a i l lp a c k a g eo ft l l i s s y 咖m 谢l l t 弘j a v a b e 趴s 访血e l a s t w e b a p p l i c a t i o n k e yw o r d s :d o c u m 吼te k h a n g e ;d a 协e x t r - “i o n ;x m ls u r i t y 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他入已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文、口 作者签名:! 蔓! ! 竺! i : 导师签名: 媳 大连理工大学硕士学位论文 1 引言 1 1 问题的提出 ( 1 ) 研究背景 随着企业和组织的不断发展,对于企业信息进行有效挖掘和合理保护显的尤为重 要。只有通过对信息资源的合理处理,才能提高文档挖掘效率,保证数据的安全和有效 性在具体的企业或组织中,日常的交互数据通常分为w e b 数据和内部数据两种。w c b 数据表现为网页及其链接,内部数据表现为内部文档( 常见的就是w o f d 文档) 。这些 文档的格式只有编辑或者显示的功能。缺乏有效的语义信息,并不适合定义为企业信息 交互的数据源。 ) a 咀,语言是一种中介标示语言,可以提供描述结构化资料的格式,被设计用来描 述数据咀。已经成为数据表示的一种开放标准,独立于机器平台、提供商和编程语 言,从而能够在不同的系统、不同的数据库、不同的语言之间搭建交互平台。 企业的信息需要共享和交互,因此需要有切实可行的文档交互方案。) 湖l 作为一 种目前最适合的交互性语言,势必成为文档转换的主要载体。而目前,大多数企业和组 织的数据和文档都不是以l 文档来保存的。因此,如何将现有的w c b 信息和企业内 部信息转换为有意义的m 。文档,以便于进行文本挖掘,是一个急需解决的研究课题。 在) 跚l 文档成为企业信息、文档的表现形式后,其中必定含有比较敏感的信息需 要进行安全保护,即实现存储的安全性。存储的安全性是保证存放在计算机系统中v 儿 文档的安全性:使用加密技术实现数据的机密性;使用签名技术保证订l 文档的完整 性。同时保证存储的安全性还有一个重要的方法一访问控制,虽然在操作系统和数据 库中都有成熟的方法来实现各种访问控制策略【h 1 ,但是) 。咀。文档与文件或者关系的结 构是不一样的,如何实现粒度的访问控制,实现儿文档的有目的性的加密,也是企 业文档处理系统的一个重要研究课题。 基于上述分析,对文档处理的研究,集成文档转换和文档保护,具有一定的理论意 义和实用价值。 ( 2 ) 国内外研究现状 目前文档转换技术得到了长足的发展,也出现了一些了文档转换的软件,例如a b c a m b 叮t e x tc v e n e 一】,p d fr c a d d 6 嗨软件都能实现部分文档转换成为其它格式文档 的功能。 基于沮,的文档处理技术的研究与实现 虽然文档处理技术的研究和应用已经取得了较大的进步,但是从目前的实际的现状 来看,仍然存在一下问题有待迸一步研究: 如何将流结构文件转换成层次结构后保证其语义信息 当前的流结构文件,由于其结构特性,缺乏索引文件,对其进行局部的挖掘效率不 高。单纯的格式转换没有实际的意义,必须将文档中的有用数据转换为有语义的数据。 例如一篇m sw o r d 论文文档,里面包含标题、作者、摘要等等有用数据,但是在w o r d 文档中,这些数据只有编辑和显示信息,没有语义信息。因此,在格式转换的过程中, 需要根据目标文档的结构,对源文档进行信息抽取。 如何分离标记文件中的数据信息和模式信息 标记型文件中的模式信息和数据信息往往集成在一个文件中,而订l 文件仅仅需 要其数据信息,因此需要实现数据信息和模式信息的分离。在数据转换的过程中,容易 出现数据不完整的情况,因此需要分离出页面要描述的对象和分析出来的属性。进一步 将遗漏的模式信息补充进来,确定各对象的属性以及各对象之间的关系,从而形成一个 完整的数据模式 如何有针对性的对文档的敏感内容及进行加密 目前基于帆的安全技术已经取得了很大的发展,已经出现了相应的) 蹦l 安全 标准:咀。加密,订l 签名,捌l 加密管理规范( x 酬s ) 等,这些标准还没有充分实 现也没有得到广泛应用。虽然已经有一些解决方案已经开发且投入使用了,比如i 酬的 a l p h 胡o r k s ”1 等。但是对于判断加密程度、层次加密没有明确的指导思想,因此需要开 发相应的加密控制技术。 ( 3 ) 基于咀的文档处理技术的提出 针对上述l 转换技术和安全技术的分析,针对大连理工大学系统工程研究所关 于文本挖掘的研究为背景,集成文本转换技术和安全控制技术,提出了基于“l 的文 档处理技术的概念。 1 2 相关理论综述 1 2 1 数据交换技术的研究 可扩展标记语言x m l ( e x t e n s i b l em a r k u pl 叽g u a g e ) 是用来定义文档标记语言的框 架,以简洁统一的结构使数据,尤其是半结构化数据的描述规则化。在多用户协同环境 下,它定义了清晰的结构和存储机制并支持多种检索方法,为半结构化数据提供了有效 的通信、存储和检索的实现方法删。 大连理工大学硕士学位论文 煳l 通过文档类型定义( d t d ) 来定义某个特定领域的) 叽词汇和准则,然后基于这 个d t d 来开发x 扎文档。文档中的数据具有了实际意义,同一领域中的文档之间就可以 彼此理解,为数据的交换提供了保证。捌l 格式接口,也就是定义一套d t d 来完整描述 文档的各种样式、属性,只要符合这一格式接口的捌l 文件都能被正确的读取和解析。 如果某一种文档提供了x m l 的格式接口,那么把另一种文档的格式属性、样式一一对应 转为这一格式接口的属性、样式,就达到了格式转换的目的嗍。这种做法也是以前通过列l 格式兼容普遍采用的方法。 采用数据库转换、文档转换、图像转换等相关技术,从不同角度解决电子文件不同 格式转换成统一格式进行统一管理的问题,从而使电子文件管理不再依赖于原生成系 统,使电子文件的管理更加便捷和规范。为了实现将不同办公自动化系统产生的数据库 文件统一管理,避免信息管理中的重复劳动,设计数据采集器,通过数据采集接口实现 与不同数据库系统的自动连接,并根据信息交互的要求,统一转换成格式相同、捧列有 序的中间文件,经批量导入进行归档管理,最后生成标准的儿文件格式脱机保存。“” 由于包含在w o r d 文档中大量的有用的数据仅能在w o r d 环境中编辑与显示,没有语 义信息,不适合数据存储、查询及数据交换。因此,从霄o r d 到x m l 的转换有着重要的意 义。目前常用的从w o r d 到) 【m l 转换器被集成至眦s w o r d 中, l s w 0 r d 被扩充为一个类似于 x 札编辑器的集成编辑环境。典型的集成型转换器是y a w c 叫,系统首先由用户来附加语 义信息,定义) 【m l 元素名,保存语义模式。其次是样本w 0 r d 文档的学习阶段。m s w o r d 中 有很多预定义的样式来设定标题,段落及文本的格式,用户也可以自定义样式,这两种 样式均可作为启发性的辅助信息。用户在w o r d 环境中选定样式及对应的】【m l 元素名,还 需根据样式,定义) 【m l 的层次结构,这样在样式与x 儿元素之间建立映射关系,形成转换 规则。接着y a w c 遍历源w o r d 文档,根据已建立的映射关系,查找符合给定样式的w o r d 文 本,将定义的样式转换为) ( m l 元素的起始标记,并将符合样式的w o r d 文本内容转换为x 儿 元素的内容。待转换完成后,y a w c 产生结构良好的x 札文档。迸一步再利用x s l t 转换为 所需的捌l 文档。 从p d f 到x m l 典型的系统是x b a s e “”。它的部分功能是抽取p d f 文档中的元数据进行 存储。它利用p d f 的函数库,将p d f 文档中的显示与控制信息完全除掉,抽取出纯文本。 基于沮的文档处理技术的研究与实现 进一步利用自然语言理解技术,利用切词( 或分词) 提取出文本的语义特征信息。但这种 技术仅仅是提取p d f 文档中的元数据,无法将抽取出的文本转换为具有语义结构的x m l 文 档。 w e b 数据( h n m 文件) 向) 丑讧l 的转换,关键是给出h n l ,的内容数据及其关系的 一种组织方式,找出这种方式在订l 模式中相应的表达规则,建立h 聊l 标识到) 。讧l 模式的一种映射,从而实现从h t m l 内容到) a l 结构的转换。能表现h 蹦l 的内容 数据及其关系的组织方式以及这种方式在v i l 模式中的相应表达规则的方法主要有两 个: 基于对h 1 m l 的结构和语法分析 通过定义一套标记规则来提取h 伽l 文档中的含油特定的内容数据,利用这些规 则可以在h ,瞰l 的网页上对内容和呈现内容的格式进行分离,按照内容数据间本来的 关系组织这些数据,表姐规则也是咀。模式的直接构建依据。在标记规则的作用下, h m l 的源文件的标记分两个层次展开:一是根据页面不同部分的语义的组织关系,进 行区域逻辑上的划分,二是在区域内对各种不同类型数据进行划分。【1 4 】 这种方法在转换的过程中将h t 此文件加工为d 洲树的形式,在此基础上再作进一 步的转换“”。转换过程主要解决的是h t m l 文档及其集合要表达的模式信息,可以通过 程序自动抽取,并利用人工对h t i 乙文本进一步加工,把遗漏的模式信息加以补充:从 而形成一个完整的数据模式。根据抽取出来的模式,确定各对象的属性名和对象之间的 语义关系;指定h t m l 文档中待转换的信息的标记,并根据这些被转换的h t 札文档信息 与删l 的文档标记的对应关系,根据这些关系,扫描h n i l 文档并输出相应的) ( l l 结果。 利用智能代理进行转换 智能代理通常是指模拟人类行为,能够根据所感知的环境自主运行和提供相应服务 的程序。在网络范围内可以定义为在网络环境下代理用户或其他程序,以主动的方式完 成有关操作的软件实体。智能代理能创建与实现目的有段的计划,定时和交互的执行, 对网络环境变化做出反应。智能代理具有以代理性、自主性、智能型、交互性、机动性 和适应性等特点,能够在用户不需要干预的情况下自行获取、分析和处理数据。 美国的虚拟信息中心利用v 口e r 系统把网上的h t m l 新闻报纸转换成) 0 讧l 。通过 检索智能代理在网上的新闻信息资源中查找有关的r d f ( 资源描述框架r e s o u r c e d e s c 邱t i o nf r 锄e :表现万维网上各类资源的信息的一种语言) ,包括元数据、路径和结 构规则等,根据文章的结构用) 叫l 标签表示标题、作者等元素,把非结构的h t m l 自 大连理工大学硕士学位论文 动转换为包括很多计算机能够识别处理信息的结构化m 。并在此基础能够通过) ( 1 订l 标签进行检索。【l 州 1 2 2x 札安全的研究 同传统的数据一样,x m l 文档中的数据也需要多种手段保证安全性。传统认为的 安全性包括:保证数据不会受到非授权的检索、修改和删除;保证数据来源的真实可靠。 应用于存放在) 几文档中的数据,权威组织也定义了许多) 圆亿安全方面的规范,包 括咀,加密,咀。数字签名等。 帆加密【1 7 l 是为了保证咀,文档在存储和传输时的数据保密性。传统的加密方 法可以对文件为单位进行加密,应用于订l 文档,也就是把讧l 文档作为加密对象。 v 几文档包含的是层次结构的数据,很多时候只需要保护部分敏感数据,因此x m l 加 密规范提供了多种加密方法。 讧l 数字签名【l 和加密密切相关。在概念上和安全证书签名类似的d l 签名用 来确保翠d l 文档内的内容没有发生变化,即保证文档的完整性。为了弥补文件系统和 解析器的排版变化,讧l 签名非常依赖“规范化”。这让签名能够在) a 讧l 文档碰到的 各种环境起作用。在签名用于内容的时候,规范化会使用珈l 里的数据和标记来创建 一个唯一的签名,而忽略非至关重要的信息,例如标记空白等。在和舡。加密联合使 用时,订l 签名能保证所接受的数据就是所发送的数据。 【m s 9 i 是一个由w 3 c 维护的标准。它定义一种方法发布和注册x m l s i g 规范所 使用的公钥。【m s 由两部分构成:x m l 密钥注册服务规范( x k r s s ) 和订l 密钥信 息服务规范o ( s s ) 。x 疆s 是用来注册公钥的,而x - k i s s 用来获取恐他签名所用 的密钥。有几个生产商。例如v c r i s i 鲷,对这个协议投入很大,并且开发出来工具包和 其他应用程序来推动这个规范的实现。但这个规范的定义仍然是比较松散的,而且公布 的工作草案仍然局限在当前的需求。 x a 叫鼬i b l e a c c e s sc o 曲斌m 础a l pl 蛆g u a g e ) 【2 w 是由o a s i s ( o r g 蛆i 蒯o no f a d v a l l c e m e ts 仇l c t u r el n f o n n 撕o ns t a i l d a r d ) 制订的规范。这个语言和s a m l 联合使用, 提供了标准化x m l 文档访问控制方法。x a c m l 被用来定义是否容许对某个资源的访 问、这个资源是否是一个完整的文档、多个文档或者是部分文档。 x a c m l 接受一个s a m l 请求,以在规则集或者提供者所定义的策略基础上来确定 访问是否应该被赋予一个资源。与) 丑订l 加密数据不同的是,访问控制信息被保存在以 和物理隔绝的库中,这个库只有在有请求时才能被参照。o i n t e r s 【2 1 1 和x p a 也阱1 在咀。 资源的标签中进行定义,这些标签会告诉解析器检查x a c m l 的策略和能够找到他们的 基于) 函几的文档处理技术的研究与实现 地方。一个策略被评估并返回一个真伪值来指示访问是否被容许,那么一个s 朋l 授权 决定的判断提示就会被返回,并得到相应的处理。 s a m l ( s e c l l r i t ) ra s s e n i o nm 砌呷l 髓g i 珀喀e ) 吲是和x a c m l 想对应的,处理验证交 换以及授权请求和回应的语言。s a m l 请求包含的信息包括用户名和密码验证或者个人 做出请求的其他细节。然后这个信息被发送给设计用来处理它的应用程序,使用x a c m l 来容许或者拒绝对儿资源的访问。 s a 亿使用“判断提示结构描述”,包括三种一般的判断提示声明:验证、授权决 定和属性。这三个声明能够在一个应用程序里被多次使用,以确定谁是请求者,他们在 请求什么,以及请求是否获得许可。 1 3 本文的主要研究内容 本文通过文档解析和数据交换技术实现文本挖掘( 数据挖掘) 中前期的异构文本格 式化和安全性的工作。考虑到现实企业中流通文本的使用情况,对常用的几种数据格式 进行解析。在文本解析和信息抽取技术的基础上加以提高,提出不同文档的转换模型, 实现应用创新。 本文提出流处理模型应用于流文件:将流结构文档映射成为树形结构的文档,以提 高文档检索的效率;引入元素树模型应用于标记文件,分离数据信息与模式信息;最后 将转换后的帆文档实施安全保护,保证札文档的机密性。 基于以上理论,本文在j a v a 平台上开发相应的包。文档装换包,包含将w o f d 、e x c c l 、 m m l 以及p 工) f 文档转换成为m ,文档;文档保护包,以某种形式实现糊l 文档的 加密和解密。 一6 大连理工大学硕士学位论文 2 文档处理系统总体分析与设计 文档处理系统的设计目标:一是将异构文本转换成为标准的、结构良好的x m l 文 档;二是保证转换后x m l 文档的安全性,以便于以后进一步的文本挖掘和知识发现的 效率和正确性。在考虑算法效率之外,从文本处理方面提出种有利于文本挖掘的方法 和技术。 2 1 系统功能设计 2 1 1 功能模块 文档处理系统主要实现两大功能:文档转换和文档安全。基于这两大功能,将整个 系统5 个模块,描述如下: 文本输入接口,提供入机交互界面本系统目前是一个单机应用程序,因此文 档源为存储器中的文档,用户通过浏览存储器中的文件,作出选择,输入到预处理模块 中。此接口实现的是标定数据源的功能。 文本预处理模块,针对不同格式的文档,通过输入结构映射文件,按照源文档 处理模型将文本结构转换成为树型结构。 文档转换模块,实现异构文本的转换。通过解析经过预处理的文档,除去无用 节点,以树型结构加以保存,形成完整的咀,文档。 安全处理模块。实现v i i 。文件的加密。将订l 文档中的敏感数据转换成为明 文,以保证文档不受外来的攻击。同时由于咀。文档一般都有冗余,采用x p a t l l 指向 文本内容,文本的实际内容保存在存储器中的某个文件中。 文档输出接口,将加密的订l 文档输出,根据加密程度的不同,将) m l 文件 分别保存在存储器中。 系统结构如图2 1 : 基于几的文档处理技术的研究与实现 i 熏档输入接口j l 二二二。一 图2 1 文档处理系统结构图 f j g u 糟2 1s 仃1 | c t u 糟o f d o c 啪tp f o c e 船s y s t e m 2 1 2x 札解析技术 本系统在文档转换和文档保护的过程中,都需要对m 。文档进行解析。随着订l 文档的增长,高效解析x m l 文档也就越来越重要。不正确的解析会大量的消耗内存、 占用大量时间,导致系统速度变慢,效率低下。 大多数解析器都是按照以下步骤解析文档:首先检查m 。元素是否符合句法规则, 确保元素的有效性;随后根据d t d 和) ( 1 订ls c h e m a 进行验证,保证文档的内容和结构 与验证文件相符合;最后输出对) 。咀。文档内容的访问。 大连理工大学硕士学位论文 目前常用的基于j a v a 的x m l 解析技术有三种:文档对象模型( d o c u 蝴l to b j e c t m o d e l ,d o m ) ,应用于x m l 简单a p i ( s i l n p l ea p i 细x m l ,s a x ) ,一种纯粹为 ) a l 和j a v a 设计的j d o m 。 d o m 是基于树型的解析技术,是一个抽象的数据结构,将x m l 文档表示为由 节点构成的树。树的根是d o c u m e m 对象,表示完整的形式合理的文档。根元素有子节 点,子节点也可以有子节点,予节点以元素、文本、处理命令等类似的信息表示。因为 整个树都构建在内存中,当开发人员要在内存中跟踪整个文档,以便对整个树进行随机 访问,则d o m 的a p i 就非常有用。 但是d o m 在j a v a 应用方面存在一定的缺陷:d o m 是用l 定义的跨语言a p i , 因此只限于所有编程语言都提供的特性和类,包括不完全面向对象的脚本语言,如 j a v a s 面p t 与v 奴l a l b 鹪i c 。这样的a p i 既不能充分利用j a v a ,也不符合j a v a 的最佳做法、 命名规则与编码标准。另外,在内存中加载整个文档和创建完整树结构成本很高,尤其 在文档非常大的时候。 s a x 不是w 3 c 标准,只是一个得到广泛认可的a p i ,它采用事件驱动的模型。 s a x 解析器并不建立整个文档的树型表示,而是在读取时激活一系列事件,这些事件经 过处理器处理后提供文档内容的访问。由于s a x 解析器不必建立一个完整的树型结构, 也不必为所有节点建立对象,因此可以解析大于系统内存的文档。但是s a x 解析器没 有导航机制,而且只能进行单边分析,因此不支持随机访问。这样,在进行文档解析时 往往是同时填充一个或者几个数据结构,其复杂性大致和所要建立的数据结构的复杂性 成比例,文档也复杂,应用逻辑就越复杂。 s a x 解析器是j a v a 自然的、分析器无关的、基于事件的a p i ,适合用于处理仅需 单遍读取内容的超大文档和流式数据。 j d o m 是一个开放源代码的纯j a v a 树式a p i ,用于分析、建立、处理和序列化 v f i 。文档。j d o m 将l 文档表示为树,整个树可以随时提供,也可以随时访问树中 的任何部分。与d o m 不同的是,树中的所有不同类型节点表示为具体类,而不是表示 为接口。 j d o m 树的数据可以来自数据库之类的非忸库,来自j a v a 程序中的直接量或来 自计算。文档在装入内存后,树是可以任意读写的,树的所有部分都可以移动、删除和 增加。最后,在内存中完成文档工作后,j d o m 容许将其以字节序列形式序列化到磁盘 或流中。 基于上述三种订l 解析技术。结合本系统的j a v a 环境和需要进行随机访问文档的 某部分特点,选用j d o m 作为蛆。的解析技术。 基于孙他的文档处理技术的研究与实现 2 2 源文档处理模型 为了使转换得到的易于维护和检索的虹文档,在进行文档转换之前必须对源文 件进行预处理,根据源文件结构的不同建立不同的源文档模型。对d 盯、w o r d 格式的 流文件,开发流处理模型;针对m m l 、p d f 格式的标记型文档,开发了元素树模型。 两种模型描述如下: 2 2 1 流处理模型 定义2 1 :对于流中的片断p 可以看成元素,都具有起始点和结束点,同时都对应一 个输出片断( o u q ,u t 曲g 血榴哟,这些片断可以用一个三元组( c s t a f t ,p d a t 曩,c e n d ) 组成, 这三部分的串联就组成了对应元素的输出片断,流文档可以通过以下定义表示: 1 将流文档分成文本块1 ,文本块2 文本块n ,这样整个流文档就可以表示为: s n 瑚m = e 文本块i ( i = 1 n ) 。 2 文本块的长度分别是l e n g t h1 ,l e n g t h2 l e n g t hn 。则整个流文档的长度 为:1 e n g t h = 1 e n g t hi ( i = 1 n ) 。 通过上面的定义,整个文件就可以看作是具有内容的节点串联在一起。结构如图2 2 所示: c e n mh 。一 p d t t 葩“日d 2 c ,u l n i l e n g t h2 图2 2 流文件结构图 f i g u 2 2s t m c t u 陀o ff l o wd u m t 定义2 。2 :流结构文件在做全文检索时,平均检索长度a s l ( a v 嘲萨s r c hl 啦) 定义为: h a s l l 一p l c i m 其中,n 是结点个数;p l 是查找第i 个结点的概率;c i 是找到第i 个结点所需要对键 值进行比较的次数。 对流结构文件进行检索的时候,使用顺序查找、二分法查找或者是分块查找,其基 本的量纲都是整个文件的长度l e n g l h 。实际上在文本挖掘行为的分析中,大部分都是对 一l o 大连理工大学硕士学位论文 文档的某一部分或者是某几部分进行挖掘。在这个层次上,算法的优越性已经不占主要 地位了。 以顺序查找为例,其a s l = ( 1 g 吐i + 1 妮。如果单独将流文件中的某一部分( s t r e 锄i ) 提取出来,对其进行检索,此时a s l i l 鼬g m l + l y 2 由此可见,将流文件结构映射成为 有标识( 指针) 的结构能够大大提高检索效率树型结构作为一种最常用层次结构能够 符合将文件分解的要求,因此流处理模型的目标就是将流文件映射成为有序树型结构的 文件。 为了确定流文件中个部分的位置和层次关系,需要建立褶应的映射表。在结构的转 换时,流结构根据映射表中的标识,将流文件分块,填充到树型结构中去。当某一部分 还需要分层的时,也需要对应映射表中的节点关系,生成当前节点的子节点。映射表如 表2 1 所示: 表2 1 流处理模型映射表 t a b l e2 1m 印p j l 唱o f f l 洲m o d e l 文本块对象标识母显式标签文本 1 【s 仃i n g l 】 2 【s 缸n 9 2 】 表中每一横行表示生成树的一个节点, 射关系表,将裹中盼提示文本作为元素名, d 1 d 文件 同时包含了节点之间的关系。根据此映 自动生成对应的d 1 f d 。表示如下: s t r i n gc 吼氽 ) 图2 6 对象_ x m l 文档映射图 f i g u 糟2 。6m 印p i n gb e t 钾啪o b j e c ta l l dx 池 对于更加复杂的元素树,我们举一个稍微复杂的例子来进行阐述: 此元素树所表达的内容包括一份报告,里面包含标题、作者、正文以及附录。各元 素文本内容如下: 标题:基于讧l 的文档处理; 作者;s l i t l l 正文包括摘要,第一部分、第二部分结论。 摘要:摘要内容; 第一部分:第一部分内容; 第二部分:第二部分内容: 结论:结论内容; 附录:附录内容。 大连垂工大学硕士学位论文 根据对象除映射的类( 对象) : c l a 船r e p c i n ( s t r i n g 硎e = “基于订l 的文档处理”; s 仃如gw r i t e f “s m i 也”; c 0 n 咖cc _ c e m : s t r i n g a p p e n d 酶“附录内容”; ) c l 硒sc o 珏t c n t f s 缸i ga b s 昀睁“摘要内容”; s 蛐gf i 瑙t s e c t i o n _ “第一部分内容”: s 仃i 1 1 9 s d s e c t i 衅“第二部分内容” s t r i n gc o n c l 商o n _ “结论内容”; 映射而成的r 印o n 类代表r 印o n 元素是一个复杂元素,它包含标题( 们e ) ,作者, 正文,附录四个子元素,其中正文子元素包含了摘要,第一部分,第二部分结论等 属性,它也是一个复杂元素。在r e p 叫类中,包含一个名为c t e n t 的c o n t e m 对象。 通过d i d 映射而成的m 。文档: q k 缈 娟t l e 基于煳l 的文档处理州n e s 强由 结论内容 说明:在从类向忸。转换的过程中,必须经过d 1 d 文件的验证。d r d 文件描 述了一个咀,文档的构造,规定了它的框架。d ) 靠指明个元素或属性的名字以及 特性来描述此元素。d t d 靠指明一个元素或属性的名字及特性,来描述此元素。一个 基于札的文档处理袁术的研究与实现 沮。文档符合d t d 的描述,就是指它能从d i d 中找到一个元素,并且此元素及其子 元素和属性的所有描述都与此订l 文档现实的结构兼容。对l 文档结构的分析实 际上就是对它的d t d 文档结构的分析d 1 d 文档是一种层次结构,引入虚根( 实际上 并不存在) ,用来连接没有父节点的节点,就形成了一棵树。 当映射是根据d t d 文件的时候,由于d t d 语法中没有数据格式定义,因此需要 人为的加以调整将p c d a l a 转换成为什么类型的数据,如果这种映射是根据x m l s c h 咖a ,就可以不用人工控制,因为在ls c h e m 中有数据定义,将要转换成什么 样的数据类型是已知的 2 2 3 小结 这两个模型在匹配文档的过程中,都涉及到映射的问题,合理编制映射关系表,是 模型能否正确运行的关键。对某一具体的企业来讲,其内部文件格式往往是固定的,可 以据此建立映射关系表 2 3 系统接口 系统采用j a 语言开发,按照各功能需求开发了接口函数库,用于各自系统功能的 实现。 表2 2 系统接口包 1 a b l e2 2m a i np a c l 【a g e so f s y s t e m 系统接口功能 p r o c e 鹳i n g m i l通用数据结构 n o c e s s i n g s i i l g l e w b r d简单w o r d 文档解析 p r o c e s s i r l g c o 玎1 p l e x w o r d 复杂w o r d 文档解析 p m c c s s i n g e x c e l se x c d 文档解析 p r o c e s s i n g h t m l sh n 亿文档解析 p r o c e s s i n g p d f sp d f 文档解析 p m s s i n g s c c u r i 廿懿x m l 安全 p r o c e s s i n g e x c e p 廿o n异常处理 大连理工大学硕士学位论文 3 文档转换子系统的设计与实现 企业中最常用的文档格式为埘、m s w o r d 、p d f 和网页格式的数据,这些文档基 本上分为两类:流文档和标记文档。本系统实现w o r d 文档和删i ,文档的格式转换, 而p d f 文档和能文档的转换页是分别依循此原理,可以根据需要实现功能扩充。 3 1w o r d 文档的分析与转换 w o r d 是微软公司开发的文档编辑工具它使用流式语言记录数据。它将文字、格式、 颜色、图形图像、超文本链接、声音、动态图像等信息封装在一个文件当中,用来表示 文档和电子视图描述。由于它集数据与显示说明于一体,倾向于文档的编辑模式,文档 格式严格、规范非常适合人来进行处理,但是对于计算机来说,对文档进行内容提取、 全文检索、数据挖掘、信息过滤等操作,十分困难。需要对w o r d 文档加以分析并作相应 舳处理,以便于后续操作。 3 1 1w o r d 文档分析 w o r d 文档基本上是由流对象组成的,同时也是一种o l e 的复杂文档。就其具体的 构造来讲,可以将一份w o n d 文档分成主流( m a i ns 恤m ) ,表流( n b l e 啦) ,数 据流( d l i 诅s 船锄) ,摘要信息流( s 鼬皿a r yi n = f o m a i i o ns 船锄) 以及对象流( o b j e c l m e 锄) 。具体信息见表3 1 i s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论