




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
是XML可扩展标记语言XML将数据与显示分开格式要求开始标签要和结束标签配对使用在HTML文档中,可以直接使用,等标签,而不用加结束标签,在XML中,开始标签和结束标签必须配套使用,也就是必须写成,.空元素标签必须被关闭在HTML文档中,可以使用,等单标签,而在XML中,空元素标签必须被关闭,空元素标签采用斜杠(/)来关闭,例如,所有的标签都区分大小写在HTML文档中,标签是不区分大小写的,和是tr元素的开始标签和结束标签,但是在XML中,和是两个不同的标签,开始标签和结束的大小写形式必须一致所有的标签都必须合理嵌套在HTML文档中,是允许的,但是在XML中,这是错误的。在XML中,所有的标签都要成对出现,合理嵌套,正确的形式是:所有标签的属性值必须用双引号或者单引号括起来在HTML文档中,属性值可以加引号,也可以不加,例如:和都是合法的。在XML中,即使是数字符号,必须加双引号或者单引号,例如: 若要在属性值中继续使用引号,那么要和属性值外部使用的引号相异XML有且只能有一个根元素在HTML中,可以有多个根元素,如下:但在XML中,有且只能有一个根元素,如下:XML的编辑工具NotpadUltarEditXMLSpyXML文档每一个XML文档都有一个逻辑和物理结构。物理上而言,文档由称为实体(entities)的存储单元组成,实体都是具有内容并且通过实体的名字进行标识(文档实体和外部DTD子集除外)。实体可以是一段文本,一个文件,一个数据库记录或者其他包含数据的项目。一个实体可以引用其他的实体,从而将它们包含在文档个中。文档开始于”根(root)”或文档实体(document entity)。格式良好的XML文档形成了一种层级树结构,而这个树的树根就是文档实体,与其他实体不同,文档实体没有名字,只是用于表示文档树的根。XML文档的根元素被称为文档元素(document element),它和在其外部出现的处理指令,注释等作为温大是那个实体的子节点,而根元素本身和其内部的子元素也是一棵树。实体可以包含已分析(parsed)的或未分析(unparsed)数据。已分析的数据由字符组成,其中一些字符组成字符数据,另一些字符组成标记。已分析的实体(parsed entity)内容被称为它的替换文本,这个文本被看成是文档整体的一部分。在XML处理器分析XML文档时,凡是文档中出现引用已分析实体的地方,都将被该实体的内容所替换。未分析的实体(unparsed entity)是一种资源,它的内容可以是也可以不是文本,并且,如果是文本的话,可以不是XML文本。每一个未分析的尸体有一个相关联的用名字标识的记号(notation)。除了要求XML处理器能向应用程序提供可用的实体和记号的标志符之外,XML对未分析的实体内容不作任何限制。已分析的实体以实体引用的方式通过名字来调用;未分析的实体通过ENTITY或者ENTITES属性中给出的名字来调用。逻辑上而言,文档由声明,元素,注释,字符引用和处理指令组成,在文档中,所有这些都是通过显示的标记(markup)来指明的。XML标记(markup)包括开始标签(tag),结束标签,空元素标签,实体引用,字符引用,注释,CDATA段定界符,文档类型声明,处理指令,XML声明,文本声明以及任何在文档实体顶层的空白(即,在文档元素之外,且不在任何其他的标记内部)。其他所有非标记的文本组成文档的字符数据。XML文档在逻辑上主要由以下五个部分组成。-XML声明-文档类型声明-元素-注释-处理指令XML声明XML文档总是以一个XML声明开始,其中指明所用的XML版本,文档的编码,文档的独立性信息,其格式如下:一对中括号()中的部分表示是可选信息版本声明:文档编码声明:在XML声明中还可以加上文档编码信息,默认是UTF-8,如果要使用中文,我们可以在声明中加上encoding=”gb2312”,如下所示独立文档声明如果我们的文档不依赖于外部文档,在XML声明中,我们可以通过standalone=”yes”来声明这个文档是独立文档,如果文档依赖于外部,可以通过standalone=”no”来声明,完整的XML声明如下所示:XML声明必须位于文档的第一行,前面不能有任何字符文档类型声明DTD 文档类型定义XML从SGML继承了用于定义语法规则的DTD机制,但DTD本身并不要求遵循XML规则,几乎所有的XML应用都是使用DTD来定义的,HTML就有一个标准的DTD文件,所以其组织结构和所有的标签都是固定的。DTD文件也是一个文本文件,通常用“.dtd“作为其扩展名通过文档类型声明,指出XML文档所用的DTD,文档类型声明有两种形式,一种是声明DTD在一个外部文件中,如下:一种是直接在XML文档中各处DTD,如下:!DOCTYPE greeting -标记的声明注:greeting是该XML文档根源树的名称 SYSTEM指明是私有的DTD文件元素在XML中,元素由开始标签,元素内容和结束标签构成,对于空元素,由空元素标签构成每一个元素有一个用名字标识的类型,同时它可以有一个属性说明集,每一个属性说明有一个名字和一个值在给元素命名的时候要注意,以“xml”或其他任何匹配(“X”|”x”)(“M”|”m”)(“L”|”l”)的字符串开头的名字,被保留用于XML规范的当前版本或后续版本的标准化。此外,在给元素命名时,还要遵守下列规范:1 名称只能以字母,下划线(_)或者冒号(:)开头;2 名称中可以包含字母,数字,下划线以及其他在XML标准中允许的字符;3 名称中不能包含空格;4 名称中竟可能不要使用冒号,因为冒号在名称空间中被用于分隔名称空间前缀和本地部分元素-元素的四种形式空元素带有属性的空元素带有内容的元素student 这是一个学生的信息张三18带有内容和属性的元素18提示:“元素”和“标签”这两个词具有不同的含义。元素是指开始标签,结束标签以及两者之间的一切内容,包括属性,文本,注释以及子元素。标签是一对尖括号()和两者之间的内容,包括元素名和所有属性。例如:是一个标签,也是一个标签;而Hello World则是一个元素。元素-元素内容的构成元素的内容可以包含子元素,字符数据,字符引用和实体引用,CDATA段。元素-子元素子元素本身也是元素,被嵌套在上层元素之内。子元素是相对于父元素而言的,如果子元素还嵌套了其他元素,那么它同时也是父元素张三18元素-字符数据在一个元素的内容中,字符数据可以是不包括任何标记的起始定界符和CDATA段的结束定界符的任意字符串,也就是说在元素的内容中,字符数据不能有和号(&)和小于号(”注:&号是字符引用和实体引用的起始定界符”是CDATA段的结束定界符在CDATA段中,字符数据可以是不包括CDATA段的结束定界符的任意字符串判断下列元素的内容是否合法-& 错-/ 对-/ 对- 错- 错 元素-字符引用和实体引用在字符数据中,不能有和号(&)和小于号(),因为未经处理的小于号与和号在XML文本中往往被解释为标记的起始定界符(例外的情况见下面要介绍的CDATA段)在XML中,提供了5个预定义的实体引用,分别引用XML文档中的5个特殊字符;小于号(),双引号(“),单引号(),和号(&),这5个特殊字符也可以通过字符引用的方式去引用字符引用和预定义实体引用都是以一个和号(&)开始并以一个分号(;)结束。如果用的是字符引用,需要在和号(&)之后加上一个井号(#),之后是所需字符的十进制代码或十六进制代码(ISO/IEC 10646字符集中字符的编码)。如果用的是预定义实体引用,在和号(&)之后写上字符的助记符字符 字符引用(十进制代码) 字符引用(十六进制代码) 预定义实体引用 > “ " ' & &注:什么时候要使用字符引用和预定义实体应用?在一些会与定界符混淆的地方,而需要使用上述符号的时候,就使用字符引用和预定义引用来表示上述符号字符引用:可以引用各种存在于ISO/IEC10646字符集中编码的字符元素-CDATA段CDATA段中包含的都是纯字符数据,在字符数据可以出现的任何地方都可以使用CDATA段CDATA段主要用于需要将整个文本解释为字符数据而不是标记的情况下。CDATA段中的内容不被XML处理器分析,所以可以在其中包含任意的字符。例如,在XML文档中,我需要包含JAVA代码,而JAVA代码中可能存在着小于号(),双引号(“),单引号(),和号(&)这些特殊字符,这个时候,CDATA段就派上用场了。CDATA段以字符串“”结束。 注:CDATA段无法直接将”字符串解释为文本,这是因为”字符串表示CDATA段本身的结束定界符,要解决CDATA段中出现”字符串并要将其翻译成文本,有两种解决方法:第一,在”字符串中非首尾位置添加空格。第二,将”字符串分开写到两个CDATA段中。注:CDATA段和字符引用(预定义实体引用)的区别使用:当元素中特殊字符出现频率低,数量少的时候,建议使用字符引用(预定义实体引用)。当元素中特殊字符出现频率高,数量多的时候,建议使用CDATA段。注释在XML文档中,注释可以出现在文档中其他标记之外的任何位置,另外,他们还可以在文档类型声明中语法(grammar)允许的地方出现XML的注释和HTML的注释累死,都是以结束。位于之间的数据将被XML处理器忽略。如注释用于对文档中的内容起一个说明作用。使用注释时,要注意以下五点:1 注释不能出现在XML声明之前,XML声明必须是文档最前面的部分。下面情况是不允许的:2 注释不能出现在标记中,下面例子是非法的:greetingHello,world!3 注释可以包围和隐藏标记,但要注意的是,在注释掉标记之后,要保证剩余的文本仍然是一个结构完整的XML文档。例如:!-This is a greeting example- Hello,world!当我们将注释部分去掉的时候,文档结构仍然完整Hello,world!4 字符串”-”(双连字符)不能在注释中出现。下面的例子是非法的:这意味着,我们在注释中书写程序代码的时候,不能出现类似i-或-i这样的代码。5 在XML中,不允许注释以-结尾。下面的例子是非法的:处理指令处理指令(Processing Instructions,简称Pis)允许文档中包含由应用程序来处理的指令。在XML文档中,有可能会包含一些非XML格式的数据,这些数据XML处理器无法处理,我们就可以通过处理指令来通知其他应用程序来处理这些数据。处理指令(PI)的语法和XML声明类似,以结束。一个常见的使用样式表单的处理指令如下所示:在开始标记?后的第一个字符串”xml-stylesheet”叫做处理指令的目标,它必须标识要用到的应用程序,要注意的是对于其他的非W3C定义的处理指令不能以字符串”XML”和”xml”开头;其余的部分是传递给应用程序的字符数据。应用程序从处理指令中取得目标和数据,执行要求的动作。处理指令的目标可以是要用时的程序的名字,或者是一个类似于xml-stylesheet这样的很多程序可以识别的通用标识符。不同的应用程序支持不同的处理指令,对于不认识的处理指令,大多数应用程序采用忽略的方式进行处理。xml-stylesheet处理指令总是放在XML声明之后,第一个元素之前。其他的处理指令可以放在除标记的内部和XML声明之前的任何位置。要注意,虽然XML声明和处理指令的语法形式相似,但XML声明并不是处理指令,XML处理程序对XML声明和处理指令采取的是不同的处理方式。空白处理在XML规范中,空白包括空格,指标符合空行。XML处理器总是将文档中不是标记的所有字符都传递给应用程序,一个进行有效性验证的XML处理器会通知应用程序这些字符中的哪一些组成了出现在元素内容中的空白。在XML文档中,可以在元素中使用一个特殊的属性xml:space,来通知应用程序保留此元素中的空白。在有效的文档中,这个属性和其他属性一样,在使用时必须声明。xml:space属性必须被声明为Enumerated(枚举)类型,它的值必须是”default”和”preserve”两者之一,也可以两个都取,例如:“default”表示对此元素使用应用程序的缺省空白处理模式,”preserve”指示应用程序保留所有的空白。如果一个元素使用了xml:space属性,将适用于该元素内容中的所有元素,除非被另一个xml:space属性的实例所覆盖。行尾处理XML数据经常以文本的方式保存在计算机文件中,以行来分隔,然而,不同的计算机系统采用的行分隔符是不同的,在XML空白字符中,有两个是标准ASCII码行尾控制字符:回车(CR,#xA)和换行(LF,#xD)。在Windows平台下,采用#xD#xA的组合作为行分隔符,而Linux,Unix系统则采用#xA作为行分隔符,在MacOS下,采用#xD作为行分隔符。为了简化应用程序的工作,XML处理器在解析前,要将所有的两字符序列#xD#xA,以及单独的#xD字符转换成单个的#xA字符。语言标识在文档处理中,标识出其内容所使用的自然或人工语言常常是很有用的。可以在文档中插入一个特殊的属性xml:lang,来指出XML文档中任何元素的内容和属性的值所使用的语言。在有效的文档中,这个属性和其他任何属性一样,在使用时必须声明。xml:lang属性的值是在IETF RFC 3066(Tags for the Identification of Languages)或它的后继版本中定义的语言标识符,另外,也可以为其制定空字符串。例如:This is English en表明元素内容中所使用的语言是英文 zh表明元素内容中所使用的语言是中文床前明月光疑是地上霜举头望明月低头思故乡属性xml:lang所指定的语言适用于它所在的元素的所有属性及元素的内容,除非被该元素内容中的另一个元素的xml:lang的实例所覆盖。我们可以为一个子元素的xml:lang属性赋一个空值,来覆盖其父元素上的xml:lang属性设置。在该子元素内,将没有可用的语言信息,就好像在它自身及其祖先元素(父元素,父元素的父元素等等)上没有指定xml:lang属性一样。xml:lang的一个简单声明可以采用如下形式:xml:lang NMTOKEN #IMPLIED不过,如果合适的话,也可以给出指定的缺省值。在一本供英国学生使用的法文诗歌集中,注解(gloss)和笔记(note)使用英语,xml:lang属性可以声明如下:格式良好的XML如果一个XML文档有且只有一个根元素,符合XML元素的嵌套规则,满足XML规范中定义的所有格式正确性约束,并且在文档中直接或间接引用的每一个已分析实体都是格式正确的,我们称这个文档是一个格式良好(well-formed)的XML文档。为什么格式良好的XML是如此重要呢?主要是因为:1 可以创建没有DTD的XML文档,便于利用XML文档做数据的交换。2 XML的处理器可以做的很小很快,从而应用于手持设备。例如:PDA,手机等存储容量较小的设备中。DTDDTD(Document Type Definition),文档类型定义在XML标准中,描述了如何创建DTD,以及如何将她与根据它的规则所编写的XML文档相关联,并且还定义了XML处理器应该如何对DTD进行处理。有了DTD就可以检测XML文档的结构是否正确。DTD为XML文档的编写者和处理者提供了共同遵循的原则,使得与文档相关的各种工作有了统一的标准。在XML文档中引入DTD通过在XML文档中包含文档类型声明,来建立当前文档和DTD的关联。当进行有效性验证的的XML处理器读到该指令时,它获取DTD,并根据其中定义的规则对文档进行检验。文档类型声明必须位于XML声明之后,且在根元素(文档元素)之前。不过在XML声明和文档类型声明之间可以插入注释和处理指令。我们可以直接在XML文档中定义DTD,也可以通过URI引用外部的DTD文件,或者同时采用这两种方式。内部DTD!DOCTYEP greeting 标记声明块文档类型声明由结束。在DTD中,所有的关键字都是大写的。不过,在DTD中定义的元素和属性的大小写是可以任意指定的,但是要注意,因为XML文档是大小写相关的,所以一旦给一个元素命名,那么在整个文档中要使用相同的大小写。例如:greeting和Greeting是两个不同的元素名。在XML文档中定义DTD,比较直观,修改也比较方便,而且不用担心XML处理器找不到DTD,但是它也有一些缺点:(1) 在文档中定义DTD会导致文档本身的长度增加,在传输数据时,即使不需要验证文档的有效性,这些声明也会随着文档一起传输;(2) 如果多个XML文档要共用同一个DTD,我们就需要在每一个文档中加入DTD,这是相当繁琐的。外部DTD在文档类型声明时,用关键字SYSTEM或PUBLIC来指出外部DTD文件的位置。使用SYSTEM关键字的声明语法如下:SYSTEM 关键字表示文档使用的是私有的DTD文件,“外部DTD文件的URI”可以是相对URI或者绝对URI,相对URI是相对于文档类型声明所在的位置。“外部DTD文件的URI”这部分也被称为系统标识符(system identifier)。下面是使用一个外部DTD文件的例子:如果位于不同位置的多个XML文档要使用同一个DTD,我们可以使用绝对URI来指明DTD文件的地址。假定hello.dtd位于/xml/dtds/hello.dtd,可以在文档类型声明中使用此URI:如果引用DTD的XML文档与DTD文件在同一个Web服务器上,我们也可以使用相对URL:上面的三种形式都是允许的。使用PUBLIC关键字的声明语法如下:PUBLIC 关键字用于声明公共的DTD,并且这个DTD还有一个名称,”DTD的名称”也称为公共标识符(public identifier)。这个DTD可以存放在某个公共的地方,XML处理程序会根据名称按照某种方式去检索DTD,如果XML处理器不能根据名称检索到DTD,就会使用”外部DTD文件的URI”(系统标识符)来查找该DTD。DTD名称与XML名称略有不同,它们只能包含ASCII字母和数字字符,空格,回车符,换行符,和一些标点符号:-()+,./:=?;!*#$_%。公共DTD名称要遵守一些约定。如果一项DTD是ISO标准,它的名称要以字符串”ISO”开始。如果是一个非ISO的标准组织批准的DTD,它的名称以加号(+)开始。如果不是标准组织批准的DTD,它的名称以连字符(-)开始。这些开始字符或字符串后接双斜杠(/)和DTD所有者的名字,之后是另一个双斜杠和DTD描述的文档类型,接着又是一个双斜杠后接ISO 639语言标识符,如EN表示英语,ZH表示中文。在/pub/ietf/http/related/iso639.txt 处列有完整的ISO639标识符。例如我们定义的人力资源DTD可以采用下面的命名:-/xin sun/DTD HR 1.0/ZH连字符(-)表示这个DTD不是由任何标准组织批准的,为xin sun所有,描述的是人力资源管理,用中文缩写。完整的文档类型声明如下:HTML网页的文档类型声明,如下:W3C公布的在Web文档中使用的有效的文档类型声明列表可以在Http://QA/2002/04/valid-dtd-list.html 上找到注意:文档类型声明与文档类型定义不是一个概念,DTD是文档类型定义(Document Type Definition)的英文缩写。是文档类型声明,这种语法是文档类型定义文档类型声明可以包含(内部DTD子集)或引用(外部DTD子集)一个文档类型定义,但文档类型定义从不包含文档类型声明。在前面我们提到,如果我们的文档不依赖于外部文档,在XML声明中,可以通过standalone=”yes”来声明这个文档是独立的文档。如果文档依赖于外部文档,可以通过standalone=”no”来声明。当我们使用外部DTD文件时,就需要将属性standalone的值设置为”no”。、在实际应用中,很少使用standalone属性,它的主要用途是作为XML处理器和其他应用程序的标志,表示是否需要获取外部内容。如果文档依赖于外部文档,即使我们不适用standalone属性,XML处理器也能够很好地进行处理。DTD结构DTD的结构一般由元素类型声明,属性表声明,实体声明,记号(notation)声明等构成。一个典型的文档类型定义文件会把将来所要创建的XML文档的元素结构,属性类型,实体引用等预先进行定义。实体声明有两种类型的实体:一般实体(general entity)和参数实体(parameter entity)。一般实体是在文档内容中使用的实体,而参数实体则是在DTD中使用的已分析实体。不管是一般实体,还是参数实体都是用ENTITY关键字来声明。一般实体和参数实体一般实体的声明语法如下:引用实体的方式为:”&实体名;”参数实体只能在DTD中使用,它的声明语法如下:注意在声明时,ENTITY,%和实体名之间各有一个空格,引用实体的方式为:”%实体名;”。注:内部DTD子集而言,不允许在标记声明的内部出现对参数实体的引用,但是可以出现在标记声明允许出现的地方。外部DTD子集则没有这个限制。在DTD中,所有的参数实体必须在引用之前进行声明。这意味着内部DTD子集不能引用在外部DTD中声明的参数实体,这是因为XML处理器将首先读取内部子集,也就是说,内部子集中的实体和属性表声明的优先级要比在外部子集中的高。内部实体在XML文档内部定义,实体的内容在声明中给出,内部实体都是已分析的实体,他们没有单独的物理存储对象。外部实体在单独的(外部)文件中定义,外部实体可以是已分析的实体,也可以是未分析的实体,外部一般实体的声明形式如下:关键字SYSTEM表明这是一个私有的外部一般实体,后面的URL称为该实体的系统标识符,用于给出外部文件的位置。Copyright.xml文件的内容为:2004,程序员之家,All Right Reserved称为文本声明,文本声明类似于XML声明,不过文本声明没有standalone属性,并且version属性也是可选的,外部已分析实体可以使用不同于”UTF-8”的编码,使用文本声明来指明实体内部的编码方式。 每个外部已分析实体都应该以文本声明开始,文本声明只能在外部已分析实体的开头出现,不能出现在其它任何位置,在外部已分析实体中的文本声明不会作为替换文本的一部分而出现。也可以使用PUBLIC关键字来声明公共的外部一般实体,其声明形式和使用了关键字PUBLIC的外部DTD声明类似。如下:“-/Textuality/TEXT Standard open-hatch boilerplate/EN”称为该实体的公共标识符,后面的URI部分为该实体的系统标识符。下面的例子声明了一个外部一般未分析实体。!ENTITY hatch-pic SYSTEM “./grafix/OpenHatch.gif” NDATA gif注:NDATA表示是一个未分析的实体gif是一个记号名称与一般实体类似,参数实体的替换文本也可以位于外部文件中,其声明形式和一般实体类似。属性表声明属性用于将名字-值对于元素进行关联。属性说明只能在开始标签和空元素标签中出现。属性表声明详细说明了与给定元素类型相关联的每一个属性的名字,数据类型和缺省值(如果有的话)。属性表声明的语法如下:元素名是属性所属的元素的名字,属性名是属性的命名,属性类型则用来指定该属性是属于哪种类型,共有十种类型,缺省声明用于说明在元素中该属性是否必须出现,如果不是必须出现,那么当该属性没有出现,那么当该属性没有出现时,XML处理器应该如何处理。缺省声明缺省声明可以有四种缺省设置,#REQUIRED,#IMPLIED,#FIXED+缺省值,只有缺省值。#REQUIRED关键字REQUIRED说明必须为元素提供该属性。#IMPLIED关键字IMPLIED说明元素可以包含该属性,也可以不包含该属性。#FIXED+缺省值关键字FIXED+缺省值,说明一个固定的属性缺省值,文档的编写者不能修改该属性的值。如果元素中不包含这个属性,XML处理器将以声明的缺省值向应用程序报告该属性。例:注:如果文档中article元素没有给出copyright属性 XML处理器就会以缺省值给出copyright属性。当然,也可以在文档中使用copyright属性,但FIXED给出的是固定缺省值,我们在使用copyright属性的时候不能将其修改,只能使用该缺省值。只有缺省值与FIXED+缺省值一样,如果元素不包括该属性,XML处理器将以声明的缺省值向应用程序报告该属性。不同的是,这种声明方式属性的值是可以改变的。注:可以将多个缺省声明合为一个,只需在上一个缺省声明后加空格,然后继续添加缺省声明。属性类型在属性表声明时,总共有十种属性类型可以选择,分别是:CDATA,Enumerated,ID,IDREF,IDREFS,ENTITY,ENTITIES,NMTOKEN,NMTOKENS,NOTATION。CDATA这是最常用的一种属性类型,表明属性值为字符数据,与元素内容说明中的#PCDATA相同,如果属性值需要出现小于号()和双引号(“),可以通过预定义实体引用或字符引用的方式插入小于号和双引号。如果包含的和号(&)不是字符或实体引用的起始定界符,也必须使用预定义实体引用或者字符引用的方式插入。Enumerated在声明属性时,可以限制属性的取值只能从一个列表中选择,这类属性属于枚举类型。枚举类型的属性有时候是很有用的,例如:person元素有一个sex属性,我们希望这个属性的取值只能是male或female,在声明属性时,将这两个值放到圆括号中,并用竖线(|)分隔,如下所示:列表中的可选属性值,不用加双引号(“)或单引号(),但是在给属性赋值时,需要带上双引号或单引号,另外要注意的是,在给属性赋值时,不仅必须使用枚举类型声明中的可选值,而且还要注意属性值的大小写,Male,MALE,Female,FEMALE等都是无效的。ID,IDREF,IDREFS一个ID类型的属性值唯一标识XML文档中的一个元素。一个ID类型的属性必须遵守XML名称定义的规则,以字母,下划线或冒号开头,名称中可以包含字母,数字,下划线以及其他在XML标准中允许的字符,名称中不能带有空格。一个元素只能有一个ID类型的属性,ID类型的属性必须设置为#IMPLIED或者#REQUIRED,因为ID类型属性的每一个取值都是用来标识一个特定的元素,为ID类型的属性提供缺省值,特别是固定的缺省值是毫无意义的。IDREF类型的属性值为同一个文档中另一个元素的ID类型的属性值,而这另一个元素的ID类型的属性值必须是已经存在的。利用ID和IDREF这两种类型的属性,我们可以在两个对象之间建立一种关联关系。如果一个属性需要引用文档中多个ID类型的属性值,那么可以把它声明为具有IDREFS类型。IDREFS类型的属性值是一系列以空格分隔的ID类型的属性值,而且必须与文档中已有的ID类型属性值相匹配。ENTITY,ENTITIESENTITY类型的属性把外部的二进制ishuju链接到文档。ENTITY类型的属性值是在DTD中声明的未分析的一般实体的名称。例如:我想在文档中包含一幅外部的图像,可以声明一个ENTITY类型的属性来引入图像,如下: 在DTD中,还需要声明一个外部的一般实体: 关键字NDATA表示该实体是一般未分析的实体,后面的gif是记号名称(notation name),说明实体的数据格式或指定一个外部的处理程序,记号gif的声明如下: 在XML文档中,可以在src属性中引用图像: 这句代码将/logo.gif文件与image元素关联在一起。ENTITIES类型和IDREFS类型的使用是类似的,它的值是多个以空格分隔的ENTITY类型的属性值。例如:我们可以再添加一个实体声明:然后将元素image的属性声明改为:在XML文档中,通过src属性引用两幅图像:NMTOKEN,NMTOKENSNMTOKEN(name token),名称标记是任何命名字符的混合体。NOTOKEN类型的属性值是受限制的文本,只能包含名称字符,不能包含空白字符。XML名称不能以除字母,下划线和冒号之外的其他字符开头,而名称标记没有这个限制。所有的XML名称都是名称标记,但不是所有的名称标记都是XML名称。为了限制文件名属性的取值不能有空格,我们可以采取如下的属性声明方式:在文档中,可以按如下方式使用name属性: NMTOKENS类型与IDREFS和ENTITIES类似,它的值由多个名称标记构成,每个名称必须是有效的名称标记,它们之间以空格分隔。例如在DTD中声明:在文档中使用:有时候,你可能会用NMTOKEN类型的属性来让用户输入特定的值,但是要注意的是:在使用NMTOKEN类型的属性时,其值是否有效,需要文档的作者自己去保证,XML处理器只能确保名称是否合法的(也就是检查名称中有没有空格),而不会检查值的有效性。NOTATIONNOTATION类型属性的值就是在记号声明中的名称。记号声明在现实用,有很多数据都是无法用XML来表示的,例如:声音,图像,影像等,对于这些数据,XML处理器通常都不支持。通过DTD的记号声明(notation declaration),为非XML数据描述一种可能的格式,或者指定一个外部的处理程序。记号声明有两种形式,一般是使用MIME类型,形式如下:另一种是使用URI路径,指出外部处理程序的位置,如下:对于记号的声明,也可以使用PUBLIC关键字来代替SYSTEM关键字,并添加公共的名称和URI(用法类似于使用了关键字PUBLIC的外部DTD声明)。有效的XML一个遵循XML语法规则,并遵守相应的DTD文件约束的XML文档称为有效的XML文档。注意区分格式良好的XML和有效的XML,一个只要求遵循XML规范,一个不但要遵循XML规范,还要遵循相应的DTD约束。将XML文档和它的DTD文件进行比较分析,看是否符合DTD规则的过程叫做验证(validation),这个过程通常是通过一个支持有效性检查的XML处理器来完成的。XML处理器/解析器合乎规范的XML处理器可分为两类:进行验证的和不进行验证的。不支持有效性检查的处理器这一类处理器只负责检查XML文档和它的内部的DTD自己是否满足”格式良好的”语法规定。这类处理器不会对XML文档所引用的外部DTD文档进行分析,进而检查XML文档的有效性,但对于出现在文档内部的DTD子集,仍旧需要处理在内部DTD子集和参数实体中读取到的所有声明,知道发现第一个对他们没有读取到的参数实体的引用。也就是说,这类处理器必须使用DTD声明中的信息来规范属性的值,包含内部实体的替换文本,以及提供缺省的属性值。支持有效性检查的处理器这一类处理器在检查文档是否符合”格式良好的”基本要求的基础上,进一步结合DTD检察文档是否符合DTD中对文档结构的规定,判定这个文档是否是”有效的”,处理器必须读取和处理整个DTD和文档中引用的所有外部已分析实体,并报告出文档与DTD声明相冲突的地方,以及不满足DTD有效性约束的地方。无论是哪一类处理器,都要报告文档实体的内容和其它读取到的已分析实体中与XML标准的”格式良好的”文档定义相冲突的地方。支持对XML文档进行有效性检查的XML处理器有:Appache的XercesXerces是Apache的XML项目的一部分,它分别使用JAVA,C+和Per编写了XML的处理器,支持有效性检查。Xerces是一个开放源代码的XML处理器,有关处理器的详细介绍请参看网页:/xerces-j/index.html。Oracle XML ParserOracle XML Parser是在Oracle XDK(XML Developers Kit)中提供的。XDK是Oracle公司提供的基于XML的工具包,可以用于JAVA,C+和PL/SQL。Oracle XDK一个商业化软件,并非开放源代码产品。Oracle公司发布了只用于发开的许可证,允许你将此软件用于开发的目的。可以从下面的网页查看XDK的信息:ht
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年华东地区市场营销经理劳动合同书
- 电大几何基础试题及答案
- 城区综合管网建设项目施工方案
- 中医基础多选试题及答案
- 工业厂房租赁押金及设施维护合同范本
- 《离婚协议书:特殊疾病治疗费用及财产分割协议》
- 高级管理人员双合同制综合比较及优劣分析
- 竞业限制协议中的竞业禁止期限及范围
- 绿色纺织新材料生产线项目商业计划书
- 煤矿专业基本知识考试题库及答案
- 运输行业特殊作业安全管理制度
- 品管圈PDCA案例-中医医院减少住院患者艾灸烫伤率医院改善成果汇报
- 《土地变更调查讲义》课件
- 财务整账合同模板
- 2020年水利水电工程标准施工招标文件
- 《农产品安全与质量检测》课件-3.2.食品中的灰分的测定
- 钢结构厂房排水系统安装方案
- 对新员工保密基本培训
- 口耳目手足课件
- 2024-2025学年湖北省武汉二中广雅中学九年级上学期9月月考数学试题及答案
- 箱式变电站技术规范应答
评论
0/150
提交评论