数字出版信息组织研.ppt_第1页
数字出版信息组织研.ppt_第2页
数字出版信息组织研.ppt_第3页
数字出版信息组织研.ppt_第4页
数字出版信息组织研.ppt_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

n电子书(数字图书) n光盘、互联网、无线网等渠道获得 n计算机、PDA、电子阅读器、移动电话上阅 读 n特点 n直接由计算机或其他电子设备存储、检索、 显示和处理 n制作非常简单,可使用专用工具 n载体多样化 n经由互联网、无线网等通道非常快速地传播 n方便检索和永久保存 问题:为什么没有普及?问题:为什么没有普及? 第二章 数字出版信息组织 n21 数字文档方式 n数字出版中所用到的文稿形式,在实际中最典 型有四种:图像方式公司自有格式、PDF标 准格式和标记语言方式 n图像方式 n图像方式指对印刷稿直接用扫描仪扫描成图像,阅 读时原样显示图像 n实现简单,占存储容量大,不能用于全文检索和超 文本链接 n只出现在早期,现在基本不再使用 n观点:图像方式并不是合适的数字文档形式 数字文档方式 n公司自有阅读格式 n微软(LIT)、Adobe(PDF),国内超星( PDG)、方正(CEB)、书生等,全部拥有自 有格式和浏览工具 n用户使用不同阅读器,一定程度上增加用户 阅读成本,可能无形中造成数字图书用户流 失 n竞争后的事实标准 数字文档方式 nPDF格式 n与印刷密切相关 n继PostScript(解决了符号字型描述的标准化)之 后的一项重要技术,解决排版格式上的标准化问题 n印刷制作的文稿可以直接制作或上网使用,数字文 稿完全体现了印刷文稿的形式,用户可以原样打印 输出,复杂的公式图表也可以很好的描述。现在一 些报刊上网仍然提供PDF格式,以便读者了解版面 情况,出版社也用其存档保存图书信息 nPDF是可加密文档:可给用户不同等级的权限,可 附数字签名,做批注、审批加印等 数字文档方式 nPDF格式不主要针对电子阅读 n在相对很小的屏幕上看大的印刷版面不方便 nPDF检索功能相对较弱 n对文章的检索不很方便,超文本链接功能不够强 ,这些功能是数字文档突出的特点 n观点:PDF格式实际上是印刷出版的数字化 延伸,建立了印刷出版和数字出版的桥梁, 是对传统出版的数字化兼容,而非全新意义 上的数字出版格式 数字文档方式 n标记语言方式 n以HTML为主的数字文档标识方式 n标记语言 n文稿可以在浏览器在上直接识读 n专门为计算机描述文档,用户可以方便的浏览 和检索信息 n网络功能能够将Internet上的信息资源联结起 来,因而成为今天网络环境中最主要的数字文 本描述方式 在数字出版领域? 22 数字出版中的数据 方正博思内容管理平台 数字化产品(书+内容)业务流程 内容选题 脚本与媒 体设计 素材准备 总集成与 测试 试用与调 整 销售推广 跟踪服务 与反馈 改进与再 版 教学审查 二审 内容创作 模板准备( 选择) 交稿 规范化 初标 媒体制作 一审 内容编辑 版式调整 与集成 媒体集成 三审 媒体审查 在线发布 印制生产 在线检查 质量控制 内容检查 整体检测 批准发布 交稿审查 发稿 生产加工的对象: 关键控制点: 工种: 实体书收 货 内容创作(图书多媒体) 结构化 内容加工和标注 数学数学物理物理 机械机械 高等教育出版社内容资产高等教育出版社内容资产 内容管理平台逻辑架构图 图书网动图书 Online First X M L 模板1模板2模板3 高等教育出版社基于内容管理的业务流程 n在数字出版中,需要一种描述出版行为结构框 架的工具 n组织不同类型、格式的数据,以形成产品 n方便联结不同阶段的加工过程 n方便流程管理 n方便知识(不仅是数据)保存 n便于数据转换 n便于以各种形态发布 n 文本与文献 n文本是知识交流的主要方式 n文献单一的信息单元 n文本是文献的典型数据形式,文献也可以包含其他 媒体 n可以是一个完整的逻辑单元,如研究报告、书、手 册;也可以大型文本的一部分,如一个或多个自然 段,词典的一个条目,一个汽车零部件的描述等 n可以是任意物理单元,如一个文件、一封电子邮件 或一个网页 文献的特征 n语法用于定义结构、表现样式、语义甚至是外部行为 n结构,文献生产者指定,如章、节 n语义,文献作者说明 n样式,如何打印或显示 文本+结构+其他媒体语法结构 表现样式 语义 文献 文献的特征 文献的处理 n人的理解通过内容 n计算机理解自然语言? n格式转化专用/开放 n 文献自身的信息(与内容无关) 元数据 元数据 n元数据关于数据组织、不同数据域及 其相互关系的信息。简言之,元数据就 是“关于数据的数据” n数据库中的关系名、每个关系的字段和属性 、属性区域 n文本相关的元数据包括作者、出版日期、出 版商、文献长度(如页数、字数、字节数) 以及文献的类型(如书、文章、备忘录等) 23 SGML通用标记语言 n231 SGML概述 n80年代初IBM公司为世界的计算机和信息系统制订标准 ,通过在文档中附加标签,标志文档中的各种元素, 这种将纯文本及格式化文本混合在一起的伪计算机语 言称标记语言。IBM把这种语言叫做GML(Generalized Markup Language) n1986年世界标准化组织在GML的基础上制订了ISO8897 标准,即SGML(Standard Generalized Markup Language) nSGML作为一个国际标准语言,主要用于电子排版。其 目的是为了不同系统之间文档信息的交换及文档信息 的再利用 nSGML主要是面向正文的,但也可以描述 图形图像声音等。SGML是元语言, 它主要是用来定义其他语言,而不对原 始文档的表达方式做太细的规定与限制 232 SGML的作用与特点 nSGML的作用 n主要是对文档做结构上的规定 n规定了表述文档结构及属性信息的方法,即抽象文 档结构 n规定了从抽象文档结构到具体应用所需要的特定字 符及定义方法 n规定了适用于这一具体文档结构的文档表达方式 n对具有处理SGML标准文档并且可查找出文档中的标 记错误等能力的文档处理系统做了规定 n规定了将图像等多种形式的信息嵌入SGML的表达方 式 SGML nSGML的特点 nSGML做为通用标记语言要考虑适合各种不同 类型的软硬件平台,做到与具体系统的无关 性 n文档信息的转换和处理与具体设备无关。 n文档的理解和转换与具体的处理系统无关 nSGML与具体的应用无关。 n与所用的语种无关 233 SGML的组成 nSGML在逻辑上将文件组织成树形元素结构。 SGML文件一般由三部分组成:SGML声明文件 类型定义(DTD)和文件实例 nSGML声明用于定义字符信息具体语言规则容量 要求及使用SGML的哪些特性 n文件类型定义(DTD)定义文件的结构及在文件信 息中的标记规则。DTD遵照SGML声明中规定的字符 信息及语言规则,对一类文件的结构用一组标记声 明作严格定义 n文件实例包含文件信息及标记,是SGML的主体 SGML元素 n元素是一个可标记的逻辑体,以“book”为例 ,视book为一类元素,将它可分为若干 Chapter, Chapter还可分为Title和若干 Section。Chapter, Title和Section也是元 素。它们都是含有一定结构的逻辑体 n一个元素的标记实例 元素名 数据 /元素名 起始标签 结束标签 SGML元素 BOOK类的元素实例 SGML DTDs n在SGML中,用DTD(Document Type Definition)来定义文献(元素)类型, 描述其 内部的一般逻辑结构。如下DTDs: !ELEMENT Book-(chapter +) !ELEMENT Chapter-(Title,Section+) !ELEMENT Title|Section-CDATA 其中+表示一个或多个 24 超文本标记语言HTML nHTML的起源 n89年,欧洲核能研究中心的Tim Berners Lee nSGML的应用实例 n面向信息表示(Tim原意为面向数据组织) nHTML文件的构成 nHTML由元素组成,结构上由HEAD元素和BODY元素组 成,其他元素都包含在两者中 n超文本标记语言用来规定文档的逻辑结构,其扩充 允许行间图片填充表格嵌入对象和程序以及资 源超文本链接 n其大部分标记具有如下形式 n标记名称 属性名属性域 内容 HTML nHTML的目的( Tim Berners-Lee ):“ 万维网是人们相互交流的一种媒介:通 过共享知识来交流。为了达到这个目的 ,计算机、网络、操作系统和命令都要 成为无形的,留给我们一个尽可能直接 获得信息的界面”(释放万维网的全 部潜能) HTML格式页 n格式页 nHTML的问题 nHTML设计的初衷是描述文档中各部分内容的结构 ,而不是文档内容在页面或显示器上出现的具体 形式。这一点使HTML文档可以跨平台使用。但在 表示具体文档时,文本格式细节如何显示也需要 描述。HTML采用的方法是:将内容描述和显示描 述信息混合在一起。 n使用标记语言同时表述结构和格式信息是不可取 的,这将使文档难于维护 格式页 n解决问题的思路 n把格式化指令作为一个整体与文本标记完全分离 ,使用专门为格式细节而设计的语言来编写格式 化指令,即格式页法 n格式页法把设计文档分为两个步骤 n(1)标记文档自身(内容) n(2)设计格式化指令(显示) 格式页例 n!- 格式化指令 - nP left margin:5cm nfont-family: nfont-style:italic ncolor:black n n!- 标记文档 - nH2/H2 nP n n/P n表示段落P按 内格式显示 格式页 n格式页的优点 n相同文档可利用不同格式页 n文档维护方便。同一文档集可采用同一格式 ,修改时统一改变。这一点非常适合出版 n一致性好。便于管理和更新。适用于栏目化 表示 n简化标记与格式。格式从文本内容中分离出 来 格式页 n实现格式页的方法 n规则型,指令以语句或声明列表形式出现, 指定文档某一元素或一组元素的格式。其优 点是简单,缺点是受格式限制。现在Web中 主要是这种形式,称为CSS(Cascading Style Sheets) n过程型,格式化指令以函数形式出现,相当 于小程序。其优点是功能强,缺点是复杂。 典型的如专为SGML设计的DSSSL(Document Style Semantics and Specification Language) 25 可扩展标记语言XML n251 HTML面临的问题 nHTML的特点 n语法简单,容易学习 n开发应用简单,广泛应用 n直观 n影响:使Web技术从计算机界走向全世界并深入影 响每个人的生活 nHTML的问题 n过于简单,影响复杂文档(多媒体、数学公式 ) n面向表示(远离面向结构的初衷) n内部条理越来越差 XML n需求的发展 nW3C XML工作组主席Jon Bosak指出,以下四类应用在 HTML中无法实现,必须依靠XML才能完成: n1需要Web客户在两个或多个异种数据库间操作的应用 n2试图由Web客户分担相当比例的Web服务器处理任务 的应用 n3需要向Web客户呈现同一数据对不同用户的不同显示 (view)的应用 n4智能Web代理(agent)试图使发现的信息与个人用 户的需求相符 252 XML概述 n定义 n可扩展标记语言XML(eXtensible Markup Language)描述了一类称为XML文档的数据对象, 且部分地描述了处理这些数据对象的计算机程序的 行为 nXML文档结构 n序言 nXML声明 n文档类型定义DTD n文档实例 n按DTD对具体文档的描述 n例 n n n n n n n n n n n n n nXML3.0技术内幕 n微软公司 n东方人华 n n2001 n8 n n 72.00 n n XML验证 n语法检查过程 n通过某种DTD进行了验证的XML是合法的XML n一个“形式良好“的XML文档遵守XML语法规则 nXML文档必须有根元素 nXML文档必须有关闭标签 nXML标签对大小写敏感 nXML元素必须被正确的嵌套 nXML属性必须加引号 n验证器 XSL nXML标准体系 nXML文档描述(DTD及对具体文档的描述) nXML文档使用 n可扩展样式表语言(eXtensible Stylesheet Language XSL) XSL nXSL是表达样式的语言,样式包括两方面的含 义 n首先是内容的重新组织,对应XSL信息转换语言( XSL Transformation Language,XSLT),用于对 XML文档进行处理,如挑选信息、改变信息顺序、 对信息处理后得到新信息等 n然后是内容的呈现格式,对应XSL对象(XSL Formatting Object),类似于CSS,但功能更强 XML中的超链接 nXML超链接 n可以多向链接(HTML单向),用于多个文件 协同工作 n文件内部定位功能 n链接库分离文件与链接 nXML链接规范分为 nXlink语言、Xpointer语言、Base XML中的其它技术 nXML体系中的其它技术 nXML Schema:模式,比DTD方式更容易编程 处理 nDOM:文档对象模型,XML文档的应用程序接 口 nJDOM、SAX 253 XML的特点与影响 nXML的特点 n信息描述与信息处理分离,标记只是描述数 据本身 nXML文档具有自我描述能力 nXML具有开放性和可扩展性 n文档可验证 XML的应用领域 n设计标记语言 n根据本领域需求设计,如化学领域的CML、数学的 MathML、移动通信领域的WML等 n数据交换和数据整合 n数据交换的核心是信息描述的标准化,主要解决信 息的可理解性问题,XML具有描述数据的非凡能力 和对数据描述格式的一致性,正在成为数据交换的 事实上的标准 n不同用户的不同数据源(不同格式的数据库)可以 只通过XML进行数据交互,XML成为统一接口语言( XML没有定义数据的具体规范,而是通过数据中附 加标记来表达数据的逻辑机构和含义) XML的应用领域 n媒体无关的数据发布 n同一数据可用不同方式发布 n尽量完善的表示数据本身,然后用XSL的转换发布到各种媒体 (显示器、打印机、无线设备、盲文设备) n真正可以实现“一次制作,多种复制”(“一次制作,多次 出版”) n智能代理和本地计算 nXML具有自描述属性,智能数据库可以根据已有知识库理解数 据,然后做出具体处理 n服务器只需仅可能完善、准确的将要处理的数据封装进XML文 件中,传给客户机,客户机可本地处理(XML的自描述性), 使分布计算成为可能 XML的应用领域 n精确搜索 n标记描述数据信息(内容与结构),可根据 结构检索内容 n文件保值 n自描述性使多年之后文档仍然是可以理解的 XML的影响 n通用的信息描述 nASCII码使计算机内部编码统一 nTCP/IP通过通用的链接协议,使任何支持TCP/IP的 设备之间可以互通 nXML具有开放性和描述复杂数据的能力(元语言) ,可以建立任何复杂层次的数据模型,现有信息也 可转化为XML,形成统一的信息描述平台 n独立的信息发布 n信息描述与信息处理分离(数据库和SQL) n一次描述,到处使用(JAVA的“一次编译,到处运 行”) XML的影响 n数据交换独立 n数据独立于供应商和平台,遵从共同的DTD就可以 交换,与硬件、软件、数据库、语言无关 n搜索符合用户意图 n自描述使信息不拘泥于具体的数据库格式(用户不 关心格式,只关心内容) n信息分布处理 n客户端只根据XML文档按照本地的要求处理 254 XML的应用OEB n电子图书格式的标准问题 n国际开放式电子书籍论坛OeB(Open eBook Forum), 网址,制定出了开放式电 子书籍推荐格式(Open eBook Publication Structure Recommended Specification) n开放式电子书籍论坛是电子书籍的国际标准化组织, 它的成员包括Microsoft、Adobe、方正电子、Sony等 厂商和McGraw-Hill、Pearson Education、Oxford University Press等著名出版公司 nOeB推荐的电子书籍格式是基于XML的开放格式,它有 望成为未来电子书的标准格式 Op

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论