(计算机应用技术专业论文)嵌入式多格式文档展示与标注系统研究与开发.pdf_第1页
(计算机应用技术专业论文)嵌入式多格式文档展示与标注系统研究与开发.pdf_第2页
(计算机应用技术专业论文)嵌入式多格式文档展示与标注系统研究与开发.pdf_第3页
(计算机应用技术专业论文)嵌入式多格式文档展示与标注系统研究与开发.pdf_第4页
(计算机应用技术专业论文)嵌入式多格式文档展示与标注系统研究与开发.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)嵌入式多格式文档展示与标注系统研究与开发.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文摘要 摘要 文档格式的多样化给文档阅读软件带来了挑战,特别是随着各类便携式电子 阅读器在市场上的竞争发展,与之相对应的电子文档格式也是互相对立,互不相 容。针对这一问题,本文在嵌入式阅读设备的基础上,研究并开发了一种能够兼 容多种电子文档格式的阅读系统,同时借鉴传统的纸笔式阅读标注方式,提供了 对多种文档标注的功能。 系统包括了多格式文档展示与多格式文档标注两种关键技术。展示技术主要 研究并实现了如何兼容打开多格式文档,支持动态添加对新格式文档的解析,并 在此基础上,采用缓存、动态更新等方式来快速展示文档页面。标注技术主要研 究调查了文档标注的分类,在此基础上,实现了各类标注及擦除标注的功能,并 在存储层面上,使用文档容器将原始文档和标注数据融合为一体进行保存。系统 在用户交互层面和数据存储层面将两种技术进行结合,在实现层面进行分离,不 仅实现了多格式文档的展示和标注功能,而且在操作上更为友好方便。 最后还对系统在阅读文档过程中的各类操作性能进行了测试,测试结果表明 该系统达到了应用的标准。 关键词:嵌入式设备,页面管理器,格式引擎组,标注引擎,文档容器 浙江大学硕士学位论文 a b s t r a c t a b s t r a c t t h e r ea r ev a r i o u sf o r m a t so fe l e c t r o n i cd o c u m e n ta n de b o o k sn o w a d a y s t or e a ds u c h k i n d so fd o c u m e n t sw en e e dd i f f e r e n ts p e c i f i cr e a d e r s b e s i d e s ,ac o n v e n i e n c e a n n o t a t i o nt o o lw h i c hd o e sn o tr e l yo nt h ee l e c t r o n i cd o c u m e n t sf o r m a ti sn e e d e d h o w e v e rt h e r el a c k ss u c har e a d e rw h i c hc a i lo p e nv a r i o u sk i n d so fd o c u m e n ta n dc a n m a k ea n n o t a t i o nf r e e l y t os o l v et h ep r o b l e m ,t h i s p a p e r i n t r o d u c e dau s e f u l m u l t i f o r m a td o c u m e n tp r e s e n t a t i o na n da n n o t a t i o ns y s t e mb a s e do ne m b e d d e d d e v i c e s i tw a sb a s e do ne m b e d d e ds y s t e m ,m u l t i f o r m a td o c u m e n t sc o u l db e c o m p a t i b l ew i t ht h er e a d i n gs y s t e m u s i n gt h es y s t e m ,u s e r sc a nr e a dt h ed o c u m e n t s w h i l el a b e lt h e mj u s tl i k eu s i n gp e n sd r a w i n go np a p e r r e s e a r c ha n di m p l e m e n t a t i o no ft h e s y s t e m i n c l u d e dt w ok e y t e c h n o l o g i e s 。 m u l t i f o r m a td o c u m e n tp r e s e n t a t i o nt e c h n o l o g ya n dm u l t i f o r m a td o c u m e n ta n n o t a t i o n t e c h n o l o g y p r e s e n t a t i o nt e c h n o l o g ym a i n l yc o n c e r n e do nh o wt ob ec o m p a t i b l ew i t h m u l t i f o r m a td o c u m e n t s 。a n da d dn e wp a r s e r sf o rn e wf o r m a t s 0 nt h i sb a s i s ,c a c h e a n dd y n a m i cr e p l a c es t r a t e g ya r eu s e dt os p e e dt h er e n d e r i n gp r o c e s so ft h ed o c u m e n t p a g e s a n n o t a t i o nt e c h n o l o g ym a i n l yf o c u s e do nt h ec l a s s i f i c a t i o no ft h ed o c u m e n t m a r k s ,a n di m p l e m e n t a t i o no ft h ea n n o t a t i o ne n g i n et os u p p o r ts u c hv a r i o u st y p e so f m a r k s t h ea n n o t a t i o ne n g i n ea l s os u p p o r t sm a r ke r a s e rf u n c t i o n a tl a s t ad o c u m e n t c o n t a i n e ri sp r e s e n t e d w h i c hc o m b i n e st h eo r i g i n a ld o c u m e n t sa n da n n o t a t i o nd a t aa s aw h o l e b a s e do nt h et w ok e yt e c h n o l o g y , ae m b e d d e de b o o ki sd e s i g n e d w h i c hn o t o n l ys u p p o r tm u l t i f o r m a td o c u m e n tp r e s e n t a t i o na n da n n o t a t i o nf u n c t i o n s ,b u ta l s o p r o v i d e da m o r ef r i e n d l ya n dc o n v e n i e n td o c u m e n t r e a d i n gm a n n e r f i n a l l ys o m et e s t sw e r ea p p l i e do nt h es y s t e mt ov e i l f yi n t e r a c t i v ep e r f o r m a n c e s t h e t e s tr e s u l t ss h o w e dt h a tt h es y s t e mf u l l ym e tt h ea p p l i c a t i o nc r i t e r i a k e y w o r d s e m b e d d e ds y s t e m ,d o c u m e n tp a g em a n a g e r , d o c u m e n tp a r s e r s , a n n o t a t i o np a r s e r , d o c u m e n tc o n t a i n e r 浙江大学硕士学位论文图目录 图目录 图1 1 嵌入式多格式文档展示系统研究内容总体框架示意图2 图2 。1 s o n yp o r t a b l er e a d e r 、k i n d l e 和翰林电子书7 图2 2 开放式文档同构引擎系统架构1 0 图2 3 跨平台多格式解析引擎架构图1 1 图3 1 嵌入式设备多格式文档展示子系统结构1 7 图3 2 页面管理器缓存结构2 0 图3 - 3 载入某一文档时缓冲区初始状态。2 1 图3 4 页面预处理过程2 2 图3 5 用户顺序翻页操作时缓冲区更新过程2 4 图3 6 页面动态更新流程图一2 5 图3 7 插件式程序基本结构2 6 图3 8 格式解析引擎组插件式设计图2 7 图3 9 嵌入式设备多格式文档标注子系统一2 8 图3 1 0 标注数据结构3 2 图3 1 1 坐标转换3 3 图3 1 2 擦除标注流程图3 6 图3 1 3 文档容器结构图3 7 图4 1 会议电子文档展示系统总体架构图一4 0 图4 2 文档快速安全分发流程图。4 2 图4 3 t r a c k e r 服务器结构图4 3 图4 4 快速安全分发客户端结构图4 3 图4 5 嵌入式设备多格式文档展示与标注系统架构4 4 图4 6 格式解析引擎组p d f 引擎实现类图4 9 图5 1 嵌入式阅读设备整体外观图5 1 图5 2 载入文档截图5 2 图5 3 载入完毕截图5 2 图5 4 放大操作后截图5 3 图5 5 随意标注操作后截图5 3 i i i 浙江大学硕上学位论文表目录 表目录 表5 1 对三个不同文档进行阅读操作所耗费的平均时间5 4 表5 2 对三个不同文档进行标注操作所耗费的平均时间。5 5 i v 浙江大学硕士学位论文第1 章绪论 第1 章绪论 1 1 课题背景 随着数字化时代的到来,电子信息与网络技术的飞速发展正在迅速地改变着 人们的生活。数字化时代也改变了信息的基本存储形式,同时信息获取与展示技 术、嵌入式技术的发展为人们改变传统的信息记录、保存、交换、重现等手段提 供了可能。电子技术的发展促使了纸质载体向磁盘、光盘等介质转变,电子书代 替传统的纸质文档也将是未来的趋势。 电子书一般由三要素构成:( 1 ) 电子书的数据内容,它主要是指以特殊格式 制作而成,可以在无线或现有网络上传播的电子文档;( 2 ) 电子书的阅读器,一 般是指用来阅读电子文档的一个电子显示终端,它可以包括桌面计算机、个人手 持式数字设备( p d a ) ,或专门的电子设备,如国外的亚马逊的k i 卜d l e 、国内 的翰林电子书;( 3 ) 电子书的阅读软件,如a d o b e 公司的a c r o b a tr e a d e r ,微软 的m i c r o s o f tr e a d e r ,超星的s s r e a d e r 等。 随着电子书技术的发展以及市场竞争,众多的电子书内容提供厂商提供的电 子书格式多种多样,主要格式有p d f 、t x t 、c h m 、p d g 、e x e 、j a r 、c e d 等。 这些不同的电子书格式一般需要安装不用的阅读软件才能打开阅读,例如p d f 格 式要用a c r o b a tr e a d e r 或其他第三方软件阅读,c e b 格式要用a p a b ir e a d e r 阅读。 电子书作为电子文档的载体,主要用于解析和显示电子文档。面对如此多种多样 的电子书格式,安装并维护不同版本的不同阅读软件是一件非常麻烦的事情。 此外,在使用电子书的过程中,伴随着积极的思考,读者对于书中的内容往 往会有进行标注的需求,例如圈出重点内容、写下一些笔记等。在目前的阅读软 件中,对于标注功能的支持往往各不相同,有些甚至不提供标注的功能。 本文提出一种嵌入式设备上的阅读软件系统嵌入式多格式文档阅读与 展示系统,它的目标是能够兼容多格式电子文档,不依赖具体的电子文档格式, 也不依赖特殊硬件,既能在传统的g u i 交互界面中使用,也能应用到更为自然的 浙江大学硕士学位论文第l 章绪论 笔式用户界面( p e n b a s e du s e ri n t e r f a c e s ,简称p u i ) 中,能够满足用户在阅读各类 电子文档时进行随意标注的需求,并且能够将标注数据和原始文档数据有机结合 为一体进行保存,能够使标注数据重现。 围绕上述基本目标,嵌入式多格式文档展示与标注系统研究开发工作的主要 内容包括:研究电子文档格式解析;研究多格式电子文档的快速展示方法;研究 多格式电子文档的交互标注方法;制定多格式电子文档的统一存储规范;最后对 系统进行全面测试,并进行示范应用。如图1 1 所示。 。1 。1 _ _ 。1 1 。- 。- - 。1 。- 1 - _ ,_ - 。_ 。- 。_ 。- _ - 。_ - _ _ 一 示范应用l 茎 羹; 二二二匾三二二器l ! ! ! ! ! 图1 1 嵌入式多格式文档展示系统研究内容总体框架示意图 电子文档格式解析研究是指分析调研当前常用电子文档格式结构及解析软 件,根据电子文档信息格式结构和解析软件来构建会议电子文档解析系统,支持 多格式文档,在此基础上采用合适的技术来支持添加新格式文档的解析,提高系 统的可扩展性; 操作模式研究是指主要面向用户,分析和设计电子文档阅读软件使用方式, 提高用户的使用感受。包括阅读器设备和软件功能研究和人机交互模式研究。功 能研究主要研究阅读器设备和软件的为电子文档阅读提供的主要功能及各功能 模块组成,人机交互模式研究主要研究阅读器设备和软件中负责人机交互部分的 2 浙江大学硕上学位论文 第1 章绪论 各种工具图标的位置排布、操作方式等。 多格式电子文档快速展示将经过解析后的会议电子文档的各部分内容以相应 的格式在屏幕上进行显示,并根据用户不同的显示要求对显示方式进行调整,而 且在用户阅读操作文档过程中,保证页面刷新速度够快: 多格式电子文档的交互标注提供一种便捷的文档标注方式,使用户在阅读电 子文档时能够对文档做出任意的标注。并将提供多种标注方式,例如下划线、圆 圈、文字标注等。用户完成标注后,也可以通过橡皮擦工具擦除标注。关闭文档 阅读时将标注数据进行保存。 交互式人机接口负责接收并解析用户在阅读器上的各种操作动作,如翻页、 标注等; 会议电子文档的统一存储涉及到电子文档和标注数据的共同存储,用户对电 子文档进行标注后,系统需要将标注数据和原始电子文档进行共同的保存,并支 持下次阅读文档时能够再次重现标注信息。 上述研究内容中,拟解决的关键技术包括多格式电子文档快速展示技术、多 格式电子文档标注技术以及电子文档统一存储规范。电子文档阅读软件的一个关 键性指标就是交互的响应时间,在用户操作过程中,如翻页、缩放等,系统响应 时间越短,可接受程度越高。因此,如何在支持多格式文档阅读的同时支持文档 的快速展示,是一个关键性的问题。有效的阅读包括阅读过程中带有思考的标注, 就像在传统的纸质文档阅读中使用笔做标记一样。在电子文档页面上支持随意标 注,涉及提供标注的种类、标注数据的转换存储等,如何在支持多种标注且有效 地对标注数据进行组织存储以及如何在用户交互以及算法层面实现擦除标注功 能,都是与标注相关的关键性问题。电子文档最终将存储到非易失存储介质中, 存储的形式决定了电子文档阅读系统的文档展示效果所支持的功能,因此,研究 并制定会议电子文档统一存储格式规范是一项技术关键。 1 2 课题意义 本系统来源于会议电子文档展示系统课题的研究和开发,可以专用于会议场 浙江人学硕士学位论文 第l 章绪论 景中。它可以会议召开过程中用以取代纸质文档,促进会议召开的信息化进程。 通过推广应用,可以促进会议改革的深化,有利于形成以人为本,求真务实的会 风。本项目在会议组织模式、会议文档分发和展示方式等方面进行了创新,将会 议的组织、召开过程网络化、电子化,从而有助于克服“文山会海的现象,凸 现会议的决策功能,提高会议效率,节约会议成本,实现“高效会议、“精简会 议 。 此外,本系统也有助于实现信息化建设重点由大规模信息基础设施建设向信 息技术普遍应用和信息资源深度开发转型,满足人民群众精神文化需求。随着人 们生活水平的提高,对精神文化生活的形式、内容与手段有了更多更高的期望, 对数字化、网络化技术条件下涌现的形式多样、内容丰富、手段灵活、实时互动 的数字内容服务需求强烈。本系统的应用可以延伸到电子图书网络出版、数字像 框等数字内容服务方式,将更大地满足人民群众的文化和精神需求。 1 3 论文主要工作 本文主要完成了以下几个方面的工作: 首先回顾了当前国内外在嵌入式设备中文档格式解析、标注等方面所做的工 作,包括为了完成更好的用户体验所提供的笔试交互技术和电子文档的高效解 析、显示、标注技术;也关注研究了当前市场上的电子阅读器发展情况。 针对当前电子文档格式多种多样没有统一标准,目前却没有专门适合在嵌入 式设备上解析各类文档的系统的现状,本文致力于分析用户对电子文档进行操作 的普遍模式,提出了一种适用于解析各类文档的解析标注框架,该框架提供了统 一的文档操作功能,屏蔽各类格式文档的解析绘制过程。同时,也可以动态地添 加对新的格式文档的支持功能。当需要解析打开新的文档格式时,只需要用户以 插件形式动态地添加新解析引擎,即可实现对新的文档格式的支持。对于任何形 式的文档都是读取原文数据,除去了在不同设备上进行“中间格式 转换的步骤。 此外,在展示文档的过程中,也提供了一种自由标注( f r e e f o r ma n n o t a t i o n s ) 【l 】 的功能,使得用户在阅读文档过程中能够随意地对文档作出勾画、标注,达到类 4 浙江大学硕上学位论文第l 章绪论 似于传统的纸笔式阅读互动的效果。相对应于原文档,文档的标注操作将产生新 的数据。考虑到标注数据与源文档的映射关系、标注数据的存储重现等,在系统 框架中提出了标注引擎以及文档容器的概念。标注引擎包括标准属性的设定、标 注数据的计算采集、标注数据的擦除等;文档容器在不对原文档数据进行破坏的 基础上,提供了一种高效存储、再现标注数据的方法。 接着,阐述了系统在一个应用实例中的具体实现,在具体的应用场景中证明 了系统的可行性。最后,对系统实现后的一些指标进行了测试,展示了系统的运 行效果和数据分析结果,表明系统能够很好地进行应用。 最后,对所做的工作进行了概括性的归纳总结,并提出可以进一步完善提高 的地方。 1 4 论文的组织结构 本文的组织结构如下: 第l 章绪论:阐述了本文的研究背景、研究意义和所做的主要工作。 第2 章介绍嵌入式设备多格式文档展示与标注系统中涉及的相关技术现状, 包括电子文档阅读器、电子文档格式、多格式文档解析、文档标注等研究发展现 状以及当前系统所存着的一些问题。 第3 章阐述系统涉及的两项关键技术嵌入式设备多格式电子文档展示 技术和标注技术。展示技术主要有文档页面的优化管理模块、格式解析引擎组等 核心模块,它们共同构成了嵌入式设备多格式文档展示子系统;标注技术包括了 用户输入事件规范化描述、标注引擎、文档容器等部分,它们共同构成嵌入式设 备多格式文档标注子系统 第4 章在介绍了整个系统的总体架构基础上,详细阐述了系统各功能模块 的实现。 第5 章介绍系统的应用背景、系统展示和系统测试。 第6 章总结与展望:对本论文的研究工作做了总结,并提出了系统当前存 在的一些问题以及下一步可以研究工作的重点。 浙江大学硕:l 学位论文第2 章国内外研究现状 第2 章国内外研究现状 2 1 电子文档阅读器发展现状 2 1 1 电子文档阅读器的发展和分类 电子文档阅读器作为电子文档的载体,用于负责解析和显示电子文档。电子 文档阅读器一般是指用来阅读电子文档的一个电子显示终端,用户可以在该硬件 设备上进行阅读操作,目前常用的电子文档阅读器可以分成p c 端型阅读设备和 专用型阅读设备两大类。 基于通用计算机的阅读系统 在专用电子文档阅读器设备出现之前,电子文档阅读器通常是指用来阅读电 子文档的软件,读者在p c 等硬件设备上运行该软件阅读电子文档,如使用p c 或笔记本电脑作为电子文档阅读器,著名的a c r o b a tr e a d e r 就是a d o b e 公司开发 的p c 端文档阅读器,m i c r o s o f tr e a d e r 是由微软公司开发的p c 端文档阅读器等 等。由微软公司开发的p o c k e tp c 平台支持m i c r o s o f tr e a d e r ,使得运行p o c k e tp c 的p d a 可以成为一个电子文档阅读器。 虽然p c 或是笔记本电脑容量大,可存储的信息量能够满足阅读者的需求, 很多人也已习惯直接在p c 上阅读新闻邮件等文档信息,然而阅读的需求却并没 有伴随信息载体的改进而得到满足。p c 或是笔记本电脑体积相对较大,成本较 高;作为以移动、便捷为目的的使用,p c 或是笔记本电脑的操作方式难以符合 使用者的阅读习惯。p d a 虽然一般具备触摸屏显示,但其显示区域要比其他阅读 设备小很多,用来阅读及增加批示显然非常吃力。因此,使用专用型文档阅读器 是一个必然的趋势。 专用型阅读设备 近年来,电子读物大量涌现,便携式的专用电子文档阅读器硬件作为一种新 兴的产品也在国内外开始出现,许多大公司也都投入大量的资金和技术力量来开 发和研制专用的电子书阅读器。目前,包括惠普、戴尔、联想、华为、长城、方正、 长虹、华硕、清华同方、纽曼、华旗、明基在内的近1 0 0 个品牌都计划推出自己 6 晰江,、学预上学位论文 第2 章目内外w 兜娥状 的电子书阅读器产品。比较常见的有s o n y 的s o n yp o r t a b l er e a d e r 、亚马逊的 k i n d l e 、天津津科的翰林电子书等,如图11 所示。 口? 萋臼 囤21 s o n yp o r t a b l er e a d e r 、k i n d l e 和翰林电于书 专用电子文档阅读器一般同书本太小相似,其显示效果比较符合人们的习惯, 能够满足读者的阅读需求。阅读器可阻使用内置或外置的存储设备存储大量的书 籍文档。现有的阅读器一般采用电子纸或l c d 触摸显示屏,可使用触笔进行操 作。整个屏幕采用和传统纸张书籍相似的页显示,通过专用的翻页按钮实现韶动 书页,使用者可随时随地的以各种姿势阅读。作为电子设备,使用者可用其对文 档资料实现快速归类,查询,检索,或“跳转”至自己感兴趣的某页文本;使用 者还可以随时翻查电子字典,方便了各类读者的使用;也可以根据个人的爱好设 置诸如字体缩放,选择背景色以及加书签,记笔记,画线,高亮显示等操作功能; 使用者也能够随时在屏幕书页上写下注释,过后可以将它们修改或擦去。整个使 用基本和传统书籍相似。另外,电子文档阅读器可以在黑暗环境中阅读,这是传 统纸质材料无法实现的。 专用型阅读设备具备体积小,重量轻,便于携带的特性使用者可以实现随 时随地阅读,就像携带一本书一样的方便,基本上满足了读者的需求,而且由于 电子书的特性,可以存储阅读大容量的电子文档。来取代传统厚重的纸质资抖, 前景广阔。但目前市面上现有的专用阅读器虽然符合人们体闲阅读的习惯,但却 存在网络化、系统化水平不足,价格昂贵、文档格式不通用等缺陷使用并不方 便,也不能满足某些的特殊场合的应用需求。 浙江人学硕士学位论文第2 章国内外研究现状 2 1 2 电子文档格式相关发展情况 目前存在多种电子文档格式,国外的主流格式有m i c r o s o f t 的r t f 格式、h t m l 格式、d o c 格式和a d o b e 的p d f 格式等,国内的主要有北大方正的c e b 格式、 华康公司的w d l 格式、超星公司p d g 格式等。尽管电子文档格式多种多样,但 它们的基本结构主要是基于p d f 格式或是基于x m l 的类h t m l 结构这两类。事 实上,这也是a d o b e 和微软两大巨头在电子文档格式上的竞争。 p d f ( p o r t a b l ed o c u m e n tf o r m a t ,可移植文档格式) ,是a d o b e 公司开发的电 子文档格式。a d o b ep d f 是全世界电子版文档分发的公开实用标准。p d f 是一种 通用文件格式,能够保存任何源文档的所有字体、格式、颜色和图形,而不管创 建该文档所使用的应用程序和平台。这种文档格式与操作系统平台无关,这一特 点使它成为在i n t e m e t 上进行电子文档发行和数字化信息传播的理想文档格式。 p d f 格式文件目前已成为数字化信息事实上的一个工业标准。与其他电子文档格 式相比,p d f 文件格式的优势在于可以将文字、字型、格式、颜色及独立于设备 和分辨率的图形图像等封装在一个文件中,还可以包含超文本链接、声音和动态 影像等电子信息,支持特长文件,集成度和安全可靠性都较高。p d f 文件使用了 工业标准的压缩算法,通常比p o s t s c r i p t 文件小,易于传输与储存。它还是页独 立的,一个p d f 文件包含一个或多个“页 ,可以单独处理各页,特别适合多处 理器系统的工作。此外,一个p d f 文件还包含文件中所使用的p d f 格式版本, 以及文件中一些重要结构的定位信息。 目前,微软等公司则倾向于o e b 格式标准。o e b 是o p e ne b o o k 的缩写,用 于格式化和包装电子书的一种行业标准,目的是要统一e b o o k 的文件格式。o e b 基于x m l 的标准,是面向电子书( e b o o k ) 的文档结构说明,定义了电子文档的 文本如何被标记,以及各部分( 封面、目录、正文、说明、索引等等) 应如何包 裹在一起。不同于p d f 一旦被创立,就不能作修改,o e b 使用标志语言( m l ) ,便于 浏览器对文本重新格式化,以适应其屏幕最佳显示配置。 目前,嵌入式系统上的电子书市场也受到了越来越多的关注。各大厂商也纷 纷推出了嵌入式系统中的电子书格式及阅读器。比如d y n o p l e x 公司则针对p d f 浙江大学硕士学位论文第2 章国内外研究现状 和d o c 推出了自己的e p d f 和e d o c 格式,北大方正的x e b 文件格式则是符合 o e b 规范的专为嵌入式系统设计的电子书文件格式。但是,由于嵌入式系统的性 能相较传统的p c 仍然较为低下,而在操作的便捷性方面有更高的要求,因此, 嵌入式系统中的电子文档格式需要满足简洁、实用、灵活的要求。 目前,大多数电子文档格式是为了满足在基于计算机的阅读设备上阅读电子 文档而设计的。因此,并不适合专用电子文档阅读器使用,主要表现在支持的操 作方式与专用阅读器操作方式不匹配,很多功能对于专用阅读器而言并无必要性 世 寸o 2 2 多格式文档解析技术 多格式文档的解析是文本信息提取的前提,因此对于内容检索以及文本内容 安全产品非常重要,也对基于文本信息的内容检索和语义理解造成了巨大的挑 战。随着信息量的与日俱增,互联网上充满了大量各种格式的文档,如常见的 p d f 、t x t 、d o c 等。杨金升等在国家自然科学基金项目“开放式文档同构引擎 ( o d i e ) 研究基础上,提出了一种多格式文档的文本提取和分析所需要的一系 列的功能模块,来满足多格式文档内容的提取、自动分类、邮件安全过滤和网络 内容监控等需要【2 】。该系统的整体架构如图2 2 所示。 9 浙江大学硕十学位论文 第2 章国内外研究现状 文档 上 t l 普通文档 压缩文档 v 一 p d fd o cp p tx l slc h m i 。i z ,r a r 多格式文档叫解压到临时文件夹 信息提取模块 乡 l 纯文本流 | 弋夕 信息分析模块 图2 2 开放式文档同构引擎系统架构 具体来说,首先他们对当前文档一般性结构进行了分析,粗略地将文档结构 分为文件头、文件主体、文件尾;接着,对于几种常见的文档格式p d f 、h t m l 、 d o c 、x l s 、p p t 、c h m 、r a r 、z i p 等进行了详细的格式分析,根据各自的文 档格式编程开发出能够解析相对应文档的解析引擎,该解析引擎能够将文档中的 文本信息内容按照要求提取出来,形成纯文本流;最后根据提取的文档内容进行 后续信息分析处理。按照他们的思路,如果需要解析所有格式的文档,需要对所 有的格式进行分析,并且以此开发出相应的文档提取模块加入到“开放式文档同 构引擎 中。这种做法给多文档格式解析提供了一种思路,但它的缺点是显而易 见的,它只能针对有限的几类格式的文档进行解析提取,对于新出现的文档格式 或者较为少见的文档格式无能为力。 在嵌入式设备上,多文档格式的解析也面临同样的问题。李庆诚等提出了一 种在跨平台嵌入式多格式解析引擎【3 】,系统架构如图2 3 所示。类似于“开放式 文档同构引擎”,他们设计了一个格式解析引擎组,该引擎组中集成了十余种格 式的解析引擎,可以解析目前常用的格式,用户也可以通过插件的将自主开发的 l o 浙江大学硕士学位论文第2 章国内外研究现状 文档格式引擎加入到其中,解析自定义的文档格式。除此,还引入了“中间格式” 的概念,引擎组运行在计算能力更强的p c 机上,通过引擎组解析各类格式的文 档生成自定义的“中间格式 ,该中间格式再加载到嵌入式设备上,通过设备上 的中间格式解析软件打开文档。“中间格式的引入,使得文档的解析和文档的 最终生成显示可以分离,可以在不同的平台上进行,也可以提高文档解析显示速 度。但这种方法也存在操作复杂、数据有损等不足之处。在我们的系统中,借鉴 了其中的格式解析引擎组的思想,使得可以动态添加对于新格式引擎的解析,但 格式解析引擎组直接支持原始的文档数据渲染,不经过中间格式的转换,可以更 为直接简单。 物理显示模块 位图数据i 中间格式解析引擎 书架 列l 表i 显l 示 各种格式源文件 列表显示 调用 调入 格式解析引擎组 式l 式 引l 引 擎i 擎 1i2 式 引 擎 n 图2 3 跨平台多格式解析引擎架构图 2 3 基于笔交互的人机交互技术 自古以来,用笔在各种书写材料上进行信息记录是人类学习过程中一直没有 改变的。虽然当今网络时代使用键盘鼠标进行信息记录大量增加,笔纸书写已经 有所减少,但是笔纸交互的概念始终无法被替代。手写始终是人与人、人与计算 机之间重要的交流工具。随着计算机技术的发展,传统的桌面计算逐渐被无处不 在的移动计算所逐渐取代,这也是一个大的趋势。在这样的环境下,人机交互将 发生重大的变革。键盘鼠标式的人机交互还是最终逐渐还原到纸笔式的交互方式 端积 显一 一格一 游鼾 浙江大学硕七学位论文第2 章国内外研究现状 上,只不过纸笔将是电子化的输入工具。 与其他交互设备相比较,笔的最大优势是方便快捷,易于控制,可以进行自 然高效的勾画动作。从人类通过笔和纸的交互隐喻出发,在电子文档上进行阅读、 标注也应该类似于日常生活中的使用纸作为阅读载体、笔作为标注载体那样方便 自然。从这个角度出发,国内外开始了大量的笔式用户界面的研究和开发。在这 个过程中出现了许多的商用产品,这些商业系统基本上市基于图形用户界面中嵌 入式笔交互操作,提供了较为低级的支持;也有研究领域中更为智能化的笔试用 户界面系统【4 】,这类系统致力于提供给用户更为自然便捷的交互手段。无论是商 业的系统还是研究领域中的原型系统,笔式界面的开发研究给基于笔交互的应用 提供了很大的便利,使得基于嵌入式设备的交互应用更加广泛,如基于笔交互的 白板系统【5 1 、基于笔交互的教学系统【6 】、笔式编辑系统【7 1 等。这类系统有个很突出 的,但它们不涉及到其他的文档格式问题,在基于简单独立的文字内容基础上, 做一些勾画、手势等交互。 基于笔交互的人机交互技术的研究与发展,为嵌入式设备上文档阅读标注创 造了良好的基本条件,使得软件开发人员可以更为方便地开发出用户体验良好、 功能齐全的阅读系统,使得人们在阅读使用电子文档时比现在阅读纸质文档更为 便利高效。 2 4 文档标注技术 标注是指对原文文档增加新的数据,这些数据一般是笔记、符号,也可以是 图片、语音等。标注根据被标注的文档类型不同,可以分为纸质形式标注和数字 形式标注。纸质文档标注主要是传统的标注方式,古已有之;在本文中主要讨论 的是数字形式标注。数字形式的标注根据标注数据的存储形式,也可以分为两种: 种是原文档与标注分开存储的标注,这类标注一般用于网页标注系统中,为的 是方便多用户协同、共享标注数据;一种是原文档与标注数据不分离的文档标注, 如p d f 、w o r d 等阅读软件提供的标注功能都是属于这种类型,它模拟了纸质标 注的特点,将原文和标注融为一体。 由于远程教育等网上协同系统的发展需要,第一种数据分离型网页标注技术 1 2 浙江大学硕士学位论文第2 章国内外研究现状 在国内外得到了广泛的研究和开发。这些网页标注系统都基于各种类型的浏览 器,例如南加利福尼亚大学的a n n o t a t e r 8 】采用基于代理的标注技术,支持n e t s c a p e 浏览器并需要安装j a v a 插件;w 3 c 的a n n o t e a 【9 】项目是基于多功能开放性元数据 架构体系设计的标注项目,它应用于支持多种开放式源技术的a m a y a 浏览器。国 内李新研究并提出了一套适合正浏览器的页面标注系纠1 0 】。它给i e 用户提供了 标注工具,该工具能自动收集选定文本、标注作者、标注当前网页u r l ,在此基 础上,用户可以对选定的文本进行颜色、标注内容等设置和填写,完成后可以通 过网络保存至数据库。另外用户也能将数据库中的标注信息提取显示出来。总体 来说就是实现了标注的创建、修改、保存、删除、查看和检索等功能。 对于第二类的标注数据与原文档不分离的形式,国内用户使用较多的p d f 阅 读器、微软w o r d 、超星阅读器等软件都是采用这种方式实现标注功能。在p d f 阅读器中,提供了便贴、高亮、下划线、删除线、箭头工具等一系列的标注工具, 使用方便,可以满足各种标注需要,并将标注数据更新到原始文档中;在微软的 w o r d 中,支持一定程度的标记功能,主要是面向文档内容的批注,但缺乏像p d f 阅读软件那样全面的标注功能;专用型的电子图书阅读器如超星也支持类似p d f 阅读软件那样的标注功能,在阅读特定格式的电子书时使用方便。对于特定格式 的电子文档,可以由特定的阅读软件提供标注功能,但对于大多数支持h t m l 、 c h m 、t x t 等格式文档的阅读器都不提供页面标注功能。 本文所探讨的标注技术是嵌入式设备上结合了多格式文档解析展示和标注技 术,它能传统的g u i 交互界面中使用,也能应用到更为自然的p u i 中,能够满足 用户在阅读各种类型格式的电子文档基础上,进行随意标注的需求,并且能够将 标注数据和原始文档数据有机结合为一体进行保存,使得再次打开文档时能再现 标注。它属于上面提及的原文档与标注数据不分离的文档标注技术。 目前,国内外也有人在嵌入式设备上基于笔交互的特殊硬件作了类似的标注 系统的研究与开发。 m a r c e lg o t z e 等提出了一种基于智能笔的标注系统【l l 】,它详细阐述了各种标 注类型,并使用基于特定硬件交互的智能笔来实现了这些类型的标注。这支智能 浙江大学硕士学位论文第2 章国内外研究现状 笔是虚拟笔,它只是交互界面工具栏上可以选择的不同标注符合而已。用户可以 使用智能笔来控制各种阅读标注交互,完成下划线、高亮、圆圈等标注操作。但 该系统对文档本身的内容也有特殊的定义和存储格式,此外脱离了特定的硬件环 境以及无法自组织文档内容时,它就不能使用了。 m o r g a n n p r i c e 等提出了一种“积极阅读机( a c t i v er e a d i n gm a c h i n e ) x l i b r i s 系统【1 2 】。该系统采用笔式平板电脑作为硬件设备,笔式交互界面可以像纸笔那样 方便使用。它可以读入扫描的图片作为文档页,用户在阅读过程中可以对这些图 片作标记,它还支持标记的审阅、分类、搜索等功能。但该系统建立在特殊的平 板电脑硬件基础上,而且也缺乏对于不同类型的标注笔的选择支持。 国内吴宗明等则在基于中文之星声位笔以及对特定格式文档( d o c p p t ) 相关 接口分析理解的基础上,提出了一种标注工具【1 3 j 。该标注工具也是基于特定硬件 设备的基础上开发的,它能够在上述两种格式的文档上进行任意的标注,并将标 注数据存储为独立的文件。将标注数据单独存储需要引入额外的管理功能,否则 容易导致文档和标注的无法对应,无法再次载入、再现标注内容。 2 5 本章小结 本章对于系统中涉及到的关键技术多格式文档解析以及标注技术的研究现 状进行了较为详细的调研和分析。 目前专用型电子文档阅读器发展很快,各大厂商纷纷推出不同品牌的电子阅 读器。同时,电子文档格式也越来越多种多样。为了兼容格式差异,在嵌入式设 备上开发多格式电子文档的解析引擎,有人提出以“中间格式【3 j 的形式,来解 决跨平台性和可移植性。也有人以类似的方式,对p d f 格式文档进行试验,提取 其中的文字和图片内容,生成自定义文档格式,在嵌入式设备上进行阅读解析【1 4 】。 以上提到的做法具有一些显著的缺点:第一,原始文档在转换成“中间格式” 过程中数据有所丢失,无法保证在嵌入式设备上重现原始文档内容;第二,整个 阅读过程步骤复杂,虽然利用了p c 机等的较强计算能力,但文档的转换、转移 拷贝等过程增加了用户体验的不友好度:第三,自定义格式进一步增加了文档格 1 4 浙江大学硕上学位论文第2 章国内外研究现状 式的复杂度,对于各类不同格式的文档数据,需要定义出一种全部兼容的新文档 格式,也需要很大的代价;第四,这些方法虽然都重点考虑了文档的解析功能, 但却忽略了文档的标注功能,用户在阅读文档过程中通过笔和纸的交互隐喻出 发,也有边阅读边做记录标注的需求。 因此,在借鉴当前这些技术和系统的基础上,本文提出了嵌入式设备多格式 文档展示与标注系统,旨在提供一种多文档阅读展示以及在文档阅读过程中随意 标注的解决方案,随着基于笔交互的用户界面的不断发展,更具有应用的价值和 意义。 浙江大学硕士学位论文第3 章系统关键技术研究 第3 章系统关键技术研究 系统设计的基本思想就是不试图去理解原有的电子文档格式内容,把它当做 黑盒,由特定的解析引擎对电子文档进行解析,获得相应的位图数据,在嵌入式 设备上进行显示,而所做的标注操作是在电子文档内容显示的基础上再绘制勾画 等图形。由于当前文档格式有成千上万,相应的也有众多文档解析引擎存在。因 此,多文档展示与标注系统首先定义一套统一的文档阅读显示接口,不同类型的 文档格式解析引擎只要实现统一的接口,就能使用该框架在文档的阅读过程中进 行随意的标注操作。这就好比是定义了数据库操作的统一标准接口,不同类型的 数据库只要提供实现这些接口的驱动程序,就能通过接口透明地访问操作各类不 同数据库。标注后的内容数据可以根据需要进行独立保存,以便下次打开阅读时 能够显示以前所做的标注,也可以将该标注共享给拥有相同文件的人。 3 1 多格式文档展示技术 前一章的系统架构中,多格式文档的展示技术是非常重要的一部分。它包括 了文档操作模块、页面管理器和格式引擎组。文档操作模块主要是定义了一系列 的文档操作原语,将通用的文档操作进行规范化描述,以便统一接口;页面管理 器包括了各种优化页面显示速度以及效果的方法,在支持多格式文档解析的基础 上优化用户体验;格式引擎组则以一种动态管理的方式提供各种格式文档的解析 引擎,将原始的文档数据转换为可以显示的页面位图数据,提供给页面管理器进 行管理显示。从独立子系统的角度来看,嵌入式设备多格式文档展示子系统结构 如图3 1 所示。 1 6 浙江大学硕:仁学位论文第3 章系统关键技术研究 区巫 多页面缓存 页向坝处理贞回动态替换 1 k, y 数据 格式解析引擎组 引引引 擎擎擎 12n 伞调入 各种格式源文档 图3 1 嵌入式设备多格式文档展示子系统结构 3 1 1 页面管理器 页面管理器对通过格式引擎解析获得的显示位图进行管理,目的是优化显示 的速度。用户在使用嵌入式文档阅读器时总是希望反应速度越快越好,但是受到 嵌入式系统主频较低、内存较小的限制,对于一些计算量比较大的文档解析工作, 没有办法做到像主流p c 机那样的性能和效果。例如对于一些比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论