




已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二十二章:使用Java解析XML ITjob就业培训第二十二章:使用Java解析XML学习目标n 解析器的介绍n 文档对象模型(DOM)解析实例n SAX解析实例n DOM4J解析实例n JDOM解析实例 n JAVA操纵XML 实例讲解解析器的介绍XML解析器是读取XML文档并分析其结构的代码。这一部分将介绍XML解析器是如何工作的。将讨论不同类型的XML解析器及何时使用它。一般而言使用解析器需要以下步骤:n 创建一个解析器对象n 使解析器指向您的XML文档n 处理结果显然第三步最为复杂。一旦知道了XML文档的内容,比方说,您可能希望生成一个Web页面,创建一个订单或者做一个饼图。这里讨论的常见XML解析工具使这项工作大大简化。解析器有不同的分类方法:n 验证和非验证解析器n 支持一种或多种XML Schema语言的解析器n 支持Document Object Model (DOM)的解析器n 支持Simple API for XML (SAX)的解析器我们已知有三种不同类型的XML文档:n 结构良好的文档:这类文档符合XML基本规则(属性必须放在引号中,标签必须正确嵌套等)。n 有效文档:这些结构良好的文档同时还符合文档类型定义(DTD)或XML Schema所定义的规则。n 无效文档:除以上两种文档外的所有其他文档。如果您有一个XML文档符合XML的基本规则,那么它就是一个结构良好的文档。如果该文档还满足您的公司所定义的支出帐目文档规则,那么它也是有效的。如果XML解析器发现XML文档不是结构良好的,XML Specification要求解析器报告一个致命错误。验证解析器:在解析时验证XML文档,而非验证解析器:不验证文档。换句话说,如果一个XML文档是结构良好的,那么非验证解析器并不关心文档是否符合DTD或模式中定义的规则,甚至不关心该文档是否符合DTD或模式中定义的规则,甚至不关心该文档是否有这样的规则。(多数验证解析器都默认关闭验证功能。)那么为什么要使用非验证解析器呢?有两个很好的理由:速度和效率。XML解析器读取DTD或者模式,建立规则引擎保证XML文档中的每个元素和属性都遵循这些规则,需要做大量的工作。如果您确信一个XML文档是有效的,那么就可以完全跳过验证。根据文档规则复杂程度的不同,这样可以节约相当可观的时间和内存。如果您的代码不够健壮,它从XML文档中得到输入数据,并且该代码要求文档遵循特定的DTD或者模式,那么您可能就不得不验证所有的内容,不论代价多么高,多么浪费时间。DOM是W3C推荐的正式标准。它定义了一个接口,程序能够访问和更新XML文档的结构。如果一个XML解析器声称支持DOM,就意味着它实现了该标准中定义的接口。目前,有三个级别的DOM是正式的推荐标准,被命名为DOM Level 1,DOM Level 2 和DOM Level 3。本章中所讨论的DOM功能都是DOM Level 2的一部分。DOM解析器:当你使用DOM解析器解析一个XML文档时,您得到一棵结构树,它表示XML文档的内容。所有的文本,元素和属性,都在这个树结构中 解析的过程:解析后的XML文档。goudan28 studentagenamegoudan28DOM还提供各种不同的功能,可用于分析和操作树的内容和结构。DOM是处理XML数据的传统方法。使用DOM时,数据以树状结构的形式被加载到内存中,所以,DOM解析是一个比较耗费内存的操作。如上图所示,矩形框表示元素节点,椭圆表示文本节点。DOM使用父子关系。例如,在这个例子中,student是具有五个孩子的根元素:三个文本节点(空白),以及两个元素节点name和age。要认识到的一件重要事情是,name 和 age节点实际上具有null值。相反,它们具有文本节点(goudan 和 28)作为孩子。DOM以及广义的基于树的处理具有几个优点首先,由于树在内存中是持久的,因此可以修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下导航,而不是像SAX那样是一次性的处理。DOM使用起来也要简单得多。另一方面,在内存中构造这样的树涉及大量的开销。大型文件完全占用系统内存容量的情况并不鲜见。此外,创建一棵DOM树可能是一个缓慢的过程。为了满足该缺点,我们使用SAX(Simple API for XML)API处理XML文档内容。它的设计目标是占用更少的内存,把更多的工作交给程序员。SAX和DOM是互补的,有各自的适用环境。请看下图解析过程:当使用SAX解析器解析一个XML文档时,解析器在读取文档的过程中会生成一系列的事件。至于如何处理这些事件则取决于您的需求。下面列出了一小部分您在XML文档时可能遇到的事件:n startDocument事件n 对于每个元素,在元素开始时有startElement事件,元素结束时有endElement事件n 如果元素包含内容,对于文本将出现characters事件,对于子元素将出现startElement和endElement事件,依此类推n endDocument事件如下代码及过程:goudan28分析这个代码片段的SAX处理器,一般情况下将产生以下事件:startDocumentstartElement (person)characters (white space)startElement (name)characters (goudan)endElement (name)characters (white space)startElement (age)characters (28)endElement (age)characters (white space)endElement (person)endDocument这种处理的优点非常类似于流媒体的优点。分析能够立即开始,而不是等待所有的数据被处理。而且,由于应用程序只是在读取数据时检查数据,因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上,应用程序甚至不必解析整个文档;它可以在某个条件得到满足时停止解析。一般来说,SAX还比它的替代者DOM快许多。另一方面,由于应用程序没有以任何方式存储数据,使用SAX来更改数据或在数据流中往后移是不可能的。尽管SAX和DOM提供了许多有用的功能,对于程序员而言有些任务还是太复杂了。延续开源社群有需要就创建工具的历史传统,Java技术专家Jason Hunter 和Brett McLaughlin缔造了JDOM,这个Java库极大简化了XML文档的处理。和DOM类似,JDOM也提供一个对象树表示XML文档,但是这些对象工作的方式对Java程序员更直观。要记住,JDOM在背后包含使用普通SAX或DOM 解析器的适配器; JDOM对所有主要的(和几个次要的)Java XML解析器都提供了适配器,因此不必担心您的Java XML解析器是否支持JDOM,JDOM在幕后使用的解析器不需要您的干涉。一般来说以下情况应使用DOM解析器:n 需要详细了解文档的结构n 需要改变文档的结构(也许您需要对元素排序,增加新的元素等等)n 需要多次引用解析的信息进一步推广,在以下情况中应使用SAX解析器:n 内存少n 只需要XML文档中少量元素或属性n 解析的信息只使用一次JDOM的内存使用比DOM少,但是不如SAX好。此外,如果您希望进行验证,JDOM要求您设置底层的解析器,JDOM本身不进行验证。就是说,如果JDOM能够完成您所需要的所有功能,而且速度满足您的需要,它可以简化您的编码工作。文档对象模型(DOM)解析实例DOM主要包含下列内容:DOM文档是以层次结构组织的节点或信息片段的集合。这个层次结构允许开发人员从树中导航寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何工作。由于它是基于信息层次的,因而DOM被认为是基于树或基于对象的。DOM解析过程(下图):利用JAXP把xml文档的内容解析到一个个的Java对象中,只需几行代码就能做到这一点。首先,我们需要建立一个解析器工厂,以利用这个工厂来获得一个具体的解析器对象: DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();我们在这里使用DocumentBuilderFacotry的目的是为了创建与具体解析器无关的程序,当DocumentBuilderFactory类的静态方法newInstance()被调用时,它根据一个系统变量来决定具体使用哪一个解析器。又因为所有的解析器都服从于JAXP所定义的接口,所以无论具体使用哪一个解析器,代码都是一样的。所以当在不同的解析器之间进行切换时,只需要更改系统变量的值,而不用更改任何代码。这就是工厂所带来的好处。这个工厂模式的具体实现,可以参看下面的类图DocumentBuilder db = dbf.newDocumentBuilder(); 当获得一个工厂对象后,使用它的静态方法newDocumentBuilder()方法可以获得一个DocumentBuilder对象,这个对象代表了具体的DOM解析器。但具体是哪一种解析器,微软的或者IBM的,对于程序而言并不重要。 然后,我们就可以利用这个解析器来对XML文档进行解析了: Document doc = db.parse(d:/xml/message.xml); DocumentBuilder的parse()方法接受一个XML文档名作为输入参数,返回一个Document对象,这个Document对象就代表了一个XML文档的树模型。以后所有的对XML文档的操作,都与解析器无关,直接在这个Document对象上进行操作就可以了。而具体对Document操作的方法,就是由DOM所定义。使用Document对象的getElementsByTagName()方法,我们可以得到一个NodeList对象,一个Node对象代表了一个XML文档中的一个标签元素,而NodeList对象,所代表的是一个Node对象的列表: NodeList nl = doc.getElementsByTagName(message); 我们通过这样一条语句所得到的是XML文档中所有标签对应的Node对象的一个列表。然后,我们可以使用NodeList对象的item()方法来得到列表中的每一个Node对象: Node my_node = nl.item(0); 当一个Node对象被建立之后,保存在XML文档中的数据就被提取出来并封装在这个Node中了。在这个例子中,要提取Message标签内的内容,我们通常会使用Node对象的getNodeValue()方法:String message = my_node.getFirstChild().getNodeValue(); 请注意,这里还使用了一个getFirstChild()方法来获得message下面的第一个子Node对象。虽然在message标签下面除了文本外并没有其它子标签或者属性,但是我们坚持在这里使用getFirseChild()方法,这主要和W3C对DOM的定义有关。W3C把标签内的文本部分也定义成一个Node,所以先要得到代表文本的那个Node,我们才能够使用getNodeValue()来获取文本的内容。 DOM对象DOM的基本对象有5个:Document,Node,NodeList,Element和Attr。下图表示了基本对象间的关系Document对象代表了整个XML的文档,所有其它的Node,都以一定的顺序包含在Document对象之内,排列成一个树形的结构,程序员可以通过遍历这颗树来得到XML文档的所有的内容,这也是对XML文档操作的起点。我们总是先通过解析XML源文件而得到一个Document对象,然后再来执行后续的操作。此外,Document还包含了创建其它节点的方法,比如createAttribute()用来创建一个Attr对象。它所包含的主要的方法有: createAttribute(String):用给定的属性名创建一个Attr对象,并可在其后使用setAttributeNode方法来放置在某一个Element对象上面。createElement(String):用给定的标签名创建一个Element对象,代表XML文档中的一个标签,然后就可以在这个Element对象上添加属性或进行其它的操作。createTextNode(String):用给定的字符串创建一个Text对象,Text对象代表了标签或者属性中所包含的纯文本字符串。如果在一个标签内没有其它的标签,那么标签内的文本所代表的Text对象是这个Element对象的唯一子对象。getElementsByTagName(String):返回一个NodeList对象,它包含了所有给定标签名字的标签。getDocumentElement():返回一个代表这个DOM树的根节点的Element对象,也就是代表XML文档根元素的那个对象。 Node对象是DOM结构中最为基本的对象,代表了文档树中的一个抽象的节点。在实际使用的时候,很少会真正的用到Node这个对象,而是用到诸如Element、Attr、Text等Node对象的子对象来操作文档。Node对象为这些对象提供了一个抽象的、公共的根。虽然在Node对象中定义了对其子节点进行存取的方法,但是有一些Node子对象,比如Text对象,它并不存在子节点。Node对象所包含的主要的方法有: appendChild(org.w3c.dom.Node):为这个节点添加一个子节点,并放在所有子节点的最后,如果这个子节点已经存在,则先把它删掉再添加进去。 getFirstChild():如果节点存在子节点,则返回第一个子节点,对等的,还有getLastChild()方法返回最后一个子节点。 getNextSibling():返回在DOM树中这个节点的下一个兄弟节点,对等的,还有getPreviousSibling()方法返回其前一个兄弟节点。getNodeName():根据节点的类型返回节点的名称。 getNodeType():返回节点的类型。 getNodeValue():返回节点的值。hasChildNodes():判断是不是存在有子节点。hasAttributes():判断这个节点是否存在有属性。getOwnerDocument():返回节点所处的Document对象。insertBefore(org.w3c.dom.Node new,org.w3c.dom.Node ref):在给定的一个子对象前再插入一个子对象。removeChild(org.w3c.dom.Node):删除给定的子节点对象。 replaceChild(org.w3c.dom.Node new,org.w3c.dom.Nodeold):用一个新的Node对象代替给定的子节点对象。NodeList对象,代表了一个包含一个或者多个Node的列表。可以简单的把它看成一个Node的数组,我们可以通过方法来获得列表中的元素: getLength():返回列表的长度。 item(int):返回指定位置的Node对象。Element对象代表的是XML文档中的标签元素,继承于Node,亦是Node的最主要的子对象。在标签中可以包含有属性,因而Element对象中有存取其属性的方法,而任何Node中定义的方法,也可以用在Element对象上面。getElementsByTagName(String):返回一个NodeList对象,它包含了在这个标签中其下的子孙节点中具有给定标签名字的标签。 getTagName():返回一个代表这个标签名字的字符串。getAttribute(String):返回标签中给定属性名称的属性的值。在这儿需要主要的是,应为XML文档中允许有实体属性出现,而这个方法对这些实体属性并不适用。这时候需要用到getAttributeNodes()方法来得到一个Attr对象来进行进一步的操作。getAttributeNode(String):返回一个代表给定属性名称的Attr对象。Attr对象代表了某个标签中的属性。Attr继承于Node,但是因为Attr实际上是包含在Element中的,它并不能被看作是Element的子对象,因而在DOM中Attr并不是DOM树的一部分,所以Node中的getparentNode(),getpreviousSibling()和getnextSibling()返回的都将是null。也就是说,Attr其实是被看作包含它的Element对象的一部分,它并不作为DOM树中单独的一个节点出现。这一点在使用的时候要同其它的Node子对象相区别。请看下面例子:(message.xml)sohuzhangzhaoyang212004zhangzhaoyangs websiteJavaSun Microsystems312001Sun Microsystems website.microsoftbill gates412000bills websiteDOM解析的例子:下面代码使用DOM解析XML文件package com.app;import javax.xml.parsers.DocumentBuilder;import javax.xml.parsers.DocumentBuilderFactory;import org.w3c.dom.Document;import org.w3c.dom.Element;import org.w3c.dom.NodeList;public class DOMXMLReader public static void main(String args) try DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();DocumentBuilder builder = factory.newDocumentBuilder();Document doc = builder.parse(url.xml);doc.normalize();NodeList links = doc.getElementsByTagName(link);for (int i = 0; i links.getLength(); i+) Element link = (Element) links.item(i);System.out.print(Content: );System.out.println(link.getElementsByTagName(text).item(0).getFirstChild().getNodeValue();System.out.print(URL: );System.out.println(link.getElementsByTagName(url).item(0).getFirstChild().getNodeValue();System.out.print(Author: );System.out.println(link.getElementsByTagName(author).item(0).getFirstChild().getNodeValue();System.out.print(Date: );Element linkdate = (Element) link.getElementsByTagName(date).item(0);String day = linkdate.getElementsByTagName(day).item(0).getFirstChild().getNodeValue();String month = linkdate.getElementsByTagName(month).item(0).getFirstChild().getNodeValue();String year = linkdate.getElementsByTagName(year).item(0).getFirstChild().getNodeValue();System.out.println(day + - + month + - + year);System.out.print(Description: );System.out.println(link.getElementsByTagName(description).item(0).getFirstChild().getNodeValue();System.out.println(); catch (Exception e) e.printStackTrace();下面代码修改XML文件:package com.app;import javax.xml.parsers.DocumentBuilder;import javax.xml.parsers.DocumentBuilderFactory;import javax.xml.transform.Transformer;import javax.xml.transform.TransformerFactory;import javax.xml.transform.dom.DOMSource;import javax.xml.transform.stream.StreamResult;import org.w3c.dom.Document;import org.w3c.dom.Element;import org.w3c.dom.Text;public class DOMXMLWriter public static void main(String args) try DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();DocumentBuilder builder = factory.newDocumentBuilder();Document doc = builder.parse(url.xml);doc.normalize();/ -取得变量-String text = itjob;String url = ;String author = xsw;String discription = a good website for it job!;/ -Text textseg;Element link = doc.createElement(link);Element linktext = doc.createElement(text);textseg = doc.createTextNode(text);linktext.appendChild(textseg);link.appendChild(linktext);Element linkurl = doc.createElement(url);textseg = doc.createTextNode(url);linkurl.appendChild(textseg);link.appendChild(linkurl);Element linkauthor = doc.createElement(author);textseg = doc.createTextNode(author);linkauthor.appendChild(textseg);link.appendChild(linkauthor);java.util.Calendar rightNow = java.util.Calendar.getInstance();String day = Integer.toString(rightNow.get(java.util.Calendar.DAY_OF_MONTH);String month = Integer.toString(rightNow.get(java.util.Calendar.MONTH);String year = Integer.toString(rightNow.get(java.util.Calendar.YEAR);Element linkdate = doc.createElement(date);Element linkdateday = doc.createElement(day);textseg = doc.createTextNode(day);linkdateday.appendChild(textseg);Element linkdatemonth = doc.createElement(month);textseg = doc.createTextNode(month);linkdatemonth.appendChild(textseg);Element linkdateyear = doc.createElement(year);textseg = doc.createTextNode(year);linkdateyear.appendChild(textseg);linkdate.appendChild(linkdateday);linkdate.appendChild(linkdatemonth);linkdate.appendChild(linkdateyear);link.appendChild(linkdate);Element linkdiscription = doc.createElement(description);textseg = doc.createTextNode(discription);linkdiscription.appendChild(textseg);link.appendChild(linkdiscription);doc.getDocumentElement().appendChild(link);TransformerFactory tFactory = TransformerFactory.newInstance();Transformer transformer = tFactory.newTransformer();DOMSource source = new DOMSource(doc);StreamResult result = new StreamResult(new java.io.File(url.xml);transformer.transform(source, result);System.out.println(write complete!); catch (Exception e) e.printStackTrace();SAX解析实例/以下代码统计url.xml文件中每个标签出现的次数package com.app;import java.io.File;import java.util.Enumeration;import java.util.Hashtable;import javax.xml.parsers.SAXParser;import javax.xml.parsers.SAXParserFactory;import org.xml.sax.Attributes;import org.xml.sax.SAXException;import org.xml.sax.helpers.DefaultHandler;public class TagCounter extends DefaultHandler / Hashtable用来记录tag出现的次数private Hashtable tags;public void startDocument() throws SAXException tags = new Hashtable();/ 解析完成后的工作public void endDocument() throws SAXException Enumeration e = tags.keys();while (e.hasMoreElements() String tag = (String) e.nextElement();int count = (Integer) tags.get(tag).intValue();System.out.println(Tag occurs + count + times);/ 对每一个开始元属进行处理public void startElement(String namespaceURI, String localName,String rawName, Attributes atts) throws SAXException String key = rawName;Object value = tags.get(key);if (value = null) / 如果是新标签,把它添加在Hastable中tags.put(key, new Integer(1); else / 如果以前碰到过,得到其计数值,并加1int count = (Integer) value).intValue();count+;tags.put(key, new Integer(count);static public void main(String args) String filename = null;filename = url.xml;SAXParserFactory spf = SAXParserFactory.newInstance();SAXParser saxParser = null;try / 创建解析器SAXParser对象saxParser = spf.newSAXParser();saxParser.parse(new File(filename), new TagCounter(); catch (Exception ex) ex.printStackTrace();/以下程序解析url.xmlpackage com.app;import java.io.File;import java.io.IOException;import java.util.Stack;import javax.xml.parsers.SAXParser;import javax.xml.parsers.SAXParserFactory;import org.xml.sax.Attributes;import org.xml.sax.SAXException;import org.xml.sax.helpers.DefaultHandler;public class SAXXMLReader extends DefaultHandler Stack tags = new Stack();/ 用于保存解析出来的信息String text = null;String url = null;String author = null;String description = null;String day = null;String year = null;String month = null;public void endDocument() throws SAXException System.out.println(-解析结束-);public void startDocument() throws SAXException System.out.println(-解析开始-);public void startElement(String p0, String p1, String p2, Attributes p3)throws SAXException tags.push(p2);public void endElement(String p0, String p1, String p2) throws SAXException tags.pop();if (p2.equals(link)parser();public void characters(char p0, int p1, int p2) throws SAXException / 察看栈顶元素,根据元素名称给对应的变量赋值String tag = (String) tags.peek();if (tag.equals(text)text = new String(p0, p1, p2);else if (tag.equals(url)url = new String(p0, p1, p2);else if (tag.equals(author)author = new String(p0, p1, p2);else if (tag.equals(day)day = new String(p0, p1, p2);else if (tag.equals(month)month = new String(p0, p1, p2);else if (tag.equals(year)year = new String(p0, p1, p2);else if (tag.equals(description)description = new String(p0, p1, p2);private void parser() System.out.print(Content: );System.out.println(text);System.out.print(URL: );System.out.println(url);System.out.print(Author: );System.out.println(author);System.out.print(Date: );System.out.println(day + - + month + - + year);System.out.print(Description: );System.out.println(description);System.out.println();static public void main(String args) String filename = url.xml;SAXParserFactory spf = SAXParserFactory.newInstance();SAXParser saxParser = null;try saxParser = spf.newSAXParser();saxParser.parse(new File(filename), new SAXXMLReader(); catch (Exception ex) ex.printStackTrace();DOM4J解析实例D:wuhantest.xmlA1234A1234aaaaaaaaaa深圳罗湖 B1234
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 签定朝鲜停战协议书模板
- 测绘业务分包协议书范本
- 燃气安全合同协议书模板
- 深圳农民房交易协议合同
- 活动承包合同协议书范本
- 汽柴油沥青销售合同范本
- 村委秸秆清运协议书范本
- 稠州银行资金托管协议书
- 第三方委托装修协议合同
- 江苏商标申请代理协议书
- 国家重点研发计划“公共安全风险防控与应急技术装备”2023年立项项目
- YS/T 320-2014锌精矿
- 09S304 卫生设备安装图集
- 酸雾抑制剂化学品安全技术说明书
- 重点监管的危险化学品名录(完整版)
- 解三角形专题 - (解析版)
- 高等教育心理学学习提纲整理
- 桩基施工安全检查表
- 水玻璃有机酯自硬砂工艺简介
- 2022年公司管理制度发布流程
- XXX医院管道护理工作总结
评论
0/150
提交评论