Java中的XPath学习笔记.docx_第1页
Java中的XPath学习笔记.docx_第2页
Java中的XPath学习笔记.docx_第3页
Java中的XPath学习笔记.docx_第4页
Java中的XPath学习笔记.docx_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Java中的XPathXPath简介XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此,对 XPath 的理解是很多高级 XML 应用的基础。什么是 XPath? XPath 使用路径表达式在 XML 文档中进行导航XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。 XPath 包含一个标准函数库XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等。 XPath 是 XSLT 中的主要元素XPath 是 XSLT 标准中的主要元素。如果没有 XPath 方面的知识,您就无法创建 XSLT 文档 XPath 是一个 W3C 标准XPath 于 1999 年 11 月 16 日 成为 W3C 标准。XPath 被设计为供 XSLT、XPointer 以及其他 XML 解析软件使用。XPath 术语节点(Node)在 XPath 中,有七种类型的节点:元素(elemnet)、属性(attribute)、文本(text)、命名空间(namespace)、处理指令(processing-instruction)、注释(comment)以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。请看下面这个 XML 文档: Harry Potter J K. Rowling 2005 29.99上面的XML文档中的节点例子: (文档节点)J K. Rowling (元素节点)lang=en (属性节点) 基本值(或称原子值,Atomic value)基本值是无父或无子的节点。基本值的例子:J K. Rowlingen项目(Item)项目是基本值或者节点。节点关系父(Parent)每个元素以及属性都有一个父。在下面的例子中,book 元素是 title、author、year 以及 price 元素的父: Harry Potter J K. Rowling 2005 29.99子(Children)元素节点可有零个、一个或多个子。在下面的例子中,title、author、year 以及 price 元素都是 book 元素的子: Harry Potter J K. Rowling 2005 29.99同胞(Sibling)拥有相同的父的节点在下面的例子中,title、author、year 以及 price 元素都是同胞: Harry Potter J K. Rowling 2005 29.99先辈(Ancestor)某节点的父、父的父,等等。在下面的例子中,title 元素的先辈是 book 元素和 bookstore 元素: Harry Potter J K. Rowling 2005 29.99后代(Descendant)某个节点的子,子的子,等等。在下面的例子中,bookstore 的后代是 book、title、author、year 以及 price 元素: Harry Potter J K. Rowling 2005 29.99XPath 语法XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。我们将在下面的例子中使用这个 XML 文档。 Harry Potter 29.99 Learning XML 39.95选取节点XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式:表达式描述nodename选取此节点的所有子节点。/从根节点选取。/从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。.选取当前节点的父节点。选取属性。实例在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:路径表达式结果bookstore选取 bookstore 元素的所有子节点。/bookstore选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!bookstore/book选取属于 bookstore 的子元素的所有 book 元素。/book选取所有 book 子元素,而不管它们在文档中的位置。bookstore/book选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。/lang选取名为 lang 的所有属性。谓语(Predicates)谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中。实例在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:路径表达式结果/bookstore/book1选取属于 bookstore 子元素的第一个 book 元素。/bookstore/booklast()选取属于 bookstore 子元素的最后一个 book 元素。/bookstore/booklast()-1选取属于 bookstore 子元素的倒数第二个 book 元素。/bookstore/bookposition()35.00选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。/bookstore/bookprice35.00/title选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。选取未知节点XPath 通配符可用来选取未知的 XML 元素。通配符描述*匹配任何元素节点。*匹配任何属性节点。node()匹配任何类型的节点。实例在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:路径表达式结果/bookstore/*选取 bookstore 元素的所有子元素。/*选取文档中的所有元素。/title*选取所有带有属性的 title 元素。选取若干路径通过在路径表达式中使用“|”运算符,您可以选取若干个路径。实例在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:路径表达式结果/book/title | /book/price选取 book 元素的所有 title 和 price 元素。/title | /price选取文档中的所有 title 和 price 元素。/bookstore/book/title | /price选取属于 bookstore 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。位置路径表达式XPath通过“路径表达式”(Path Expression)来选择节点,在形式上,“路径表达式”与传统的文件系统非常类似。正斜杠( / )作为路径内部的分割符,同一节点有绝对路径和相对路径两种写法。绝对路径起始于正斜杠( / ),而相对路径不会这样。在两种情况中,位置路径均包括一个或多个步,每个步均被斜杠分割:绝对位置路径:绝对路径必须用“/”起首,后面紧跟根节点,例如:/step/step/.相对位置路径:相对路径则是除了绝对路径以外的写法(即不使用“/”起首),例如step/step/.每个步均根据当前节点集之中的节点来进行计算。其中的每一步又可以是一个表达式,包括:轴(axis)定义所选节点与当前节点之间的树关系节点测试(node-test)识别某个轴内部的节点零个或者更多谓语(predicate)更深入地提炼所选的节点集步的语法:轴名称:节点测试谓语实例例子结果child:book选取所有属于当前节点的子元素的 book 节点。attribute:lang选取当前节点的 lang 属性。child:*选取当前节点的所有子元素。attribute:*选取当前节点的所有属性。child:text()选取当前节点的所有文本子节点。child:node()选取当前节点的所有子节点。descendant:book选取当前节点的所有 book 后代。ancestor:book选择当前节点的所有 book 先辈。ancestor-or-self:book选取当前节点的所有 book 先辈以及当前节点(如果此节点是 book 节点)child:*/child:price选取当前节点的所有 price 孙节点。XPath Axes(轴)我们将在下面的例子中使用此 XML 文档: Harry Potter 29.99 Learning XML 39.95XPath 轴轴可定义相对于当前节点的节点集。轴名称结果ancestor选取当前节点的所有先辈(父、祖父等)。ancestor-or-self选取当前节点的所有先辈(父、祖父等)以及当前节点本身。attribute选取当前节点的所有属性。child选取当前节点的所有子元素。descendant选取当前节点的所有后代元素(子、孙等)。descendant-or-self选取当前节点的所有后代元素(子、孙等)以及当前节点本身。following选取文档中当前节点的结束标签之后的所有节点。namespace选取当前节点的所有命名空间节点。parent选取当前节点的父节点。preceding选取文档中当前节点的开始标签之前的所有节点。preceding-sibling选取当前节点之前的所有同级节点。self选取当前节点。XPath 运算符XPath 表达式可返回节点集、字符串、逻辑值以及数字。下面列出了可用在 XPath 表达式中的运算符:运算符描述实例返回值|计算两个节点集/book | /cd返回所有拥有 book 和 cd 元素的节点集+加法6 + 410-减法6 - 42*乘法6 * 424div除法8 div 42=等于price=9.80如果 price 是 9.80,则返回 true。如果 price 是 9.90,则返回 false。!=不等于price!=9.80如果 price 是 9.90,则返回 true。如果 price 是 9.80,则返回 false。小于price9.80如果 price 是 9.00,则返回 true。如果 price 是 9.90,则返回 false。=小于或等于price大于price9.80如果 price 是 9.90,则返回 true。如果 price 是 9.80,则返回 false。=大于或等于price=9.80如果 price 是 9.90,则返回 true。如果 price 是 9.70,则返回 false。or或price=9.80 or price=9.70如果 price 是 9.80,则返回 true。如果 price 是 9.50,则返回 false。and与price9.00 and price9.90如果 price 是 9.80,则返回 true。如果 price 是 8.50,则返回 false。mod计算除法的余数5 mod 21XPath 实例在本节,让我们通过实例来学习一些基础的 XPath 语法。我们将在下面的例子中使用这个 XML 文档:实例文档books.xml : Everyday Italian Giada De Laurentiis 2005 30.00 Harry Potter J K. Rowling 2005 29.99 XQuery Kick Start James McGovern Per Bothner Kurt Cagle James Linn Vaidyanathan Nagarajan 2003 49.99 Learning XML Erik T. Ray 2003 39.95加载 XML 文档所有现代浏览器都支持使用 XMLHttpRequest 来加载 XML 文档的方法。针对大多数现代浏览器的代码:var xmlhttp=new XMLHttpRequest()针对古老的微软浏览器(IE 5 和 6)的代码:var xmlhttp=new ActiveXObject(Microsoft.XMLHTTP)选取节点不幸的是,Internet Explorer 和其他处理 XPath 的方式不同。在我们的例子中,包含适用于大多数主流浏览器的代码。Internet Explorer 使用 selectNodes() 方法从 XML 文档中的选取节点:xmlDoc.selectNodes(xpath);Firefox、Chrome、Opera 以及 Safari 使用 evaluate() 方法从 XML 文档中选取节点:xmlDoc.evaluate(xpath, xmlDoc, null, XPathResult.ANY_TYPE,null);选取所有 title下面的例子选取所有 title 节点:/bookstore/book/title选取第一个 book 的 title下面的例子选取 bookstore 元素下面的第一个 book 节点的 title:/bookstore/book1/title这里有一个问题。上面的例子在 IE 和其他浏览器中输出不同的结果。IE5 以及更高版本将 0 视为第一个节点,而根据 W3C 的标准,应该是 1。为了解决 IE5+ 中 0 和 1 的问题,可以为 XPath 设置语言选择(SelectionLanguage)。下面的例子选取 bookstore 元素下面的第一个 book 节点的 title:xml.setProperty(SelectionLanguage,XPath);xml.selectNodes(/bookstore/book1/title);选取所有价格下面的例子选取 price 节点中的所有文本:/bookstore/book/price/text()选取价格高于 35 的 price 节点下面的例子选取价格高于 35 的所有 price 节点:/bookstore/bookprice35/price选取价格高于 35 的 title 节点下面的例子选取价格高于 35 的所有 title 节点:/bookstore/bookprice35/titleJava中使用XPath在java1.5中推出了一个javax.xml.xpath包专门用来在java中使用Xpath表达式来读取xml。1. 数据类型在学习之前首先需要注意的是:Xpath的数据并不与Java有一一对应关系,Xpath1.0只声明了四种数据类型: number string boolean node-set对应到java就是: number 映射为java.lang.Double string 映射为java.lang.String boolean 映射为java.lang.Boolean node-set 映射为org.w3c.dom.NodeList因此,在使用java的xpathAPI时,需要注意返回类型。不指定返回类型时,缺省返回类型为String。指定返回类型时,需要把返回值由Object类型强制转换成对应的返回类型。 在Java中计算XPath表达式时,第二个参数指定需要的返回类型。有五种可能,都是在javax.xml.xpath.XPathConstants类中命名的常量:XPathConstants.NODESETXPathConstants.BOOLEANXPathConstants.NUMBERXPathConstants.STRINGXPathConstants.NODE最后一个XPathConstants.NODE实际上没有匹配的XPath类型。只有知道XPath表达式只返回一个节点或者只需要一个节点时才使用它。如果XPath表达式返回了多个节点并且指定了XPathConstants.NODE,则evaluate()按照文档顺序返回第一个节点。如果XPath表达式选择了一个空集并指定了XPathConstants.NODE,则evaluate()返回null。如果不能完成要求的转换,evaluate()将抛出XPathException。2. API的使用还是以之前的xml文档为例。要得到这个表达式的结果,我们先要得到一个输入对象,例如一个document:DocumentBuilderFactory builderFactory = DocumentBuilderFactory.newInstance(); DocumentBuilder documentBuilder = builderFactory.newDocumentBuilder(); Document document = documentBuilder.parse(new File(books.xml); NodeList list = (NodeList) expression.evaluate(document,XPathConstants.NODESET);这里可以看出,在使用Xpath的时候,我们好像需要很清楚的知道返回结果是什么。否则就不能得到意想的结果。最后,我们得到一个title的list值:for(int i = 0;ilist.getLength();i+) System.out.println(list.item(i).getNodeValue(); 3. 处理命令空间若XML文档中的元素在名称空间中,查询该文档的XPath表达式必须使用相同的名称空间。XPath表达式不一定要使用相同的前缀,只需要名称空间URI相同即可。事实上,如果XML文档使用默认名称空间,那么尽管目标文档没有使用前缀,XPath表达式也必须使用前缀。但是,Java程序不是XML文档,因此不能用一般的名称空间解析。必须提供一个对象将前缀映射到名称空间URI。该对象是space.NamespaceContext接口的实例。比如,假设图书文档放在/books名称空间中使用默认名称空间的XML文档:SnowCrashNealStephensonSpectra055338095814.95查找NealStephenson全部著作标题的XPath表达式就要改为/pre:bookpre:author=NealStephenson/pre:title/text()。但是,必须将前缀pre映射到URI/books。NamespaceContext接口在Java软件开发工具箱(JDK)或JAXP中没有默认实现似乎有点笨,但确实如此。不过,自己实现也不难。下面是对一个名称空间给出了简单的实现。还需要映射xml前缀。importjava.util.Iterator;importjavax.xml.*;space.NamespaceContext;publicclassPersonalNamespaceContextimplementsNamespaceContextpublicStringgetNamespaceURI(Stringprefix)if(prefix=null)thrownewNullPointerException(Nullprefix);elseif(pre.equals(prefix)return/books;elseif(xml.equals(prefix)returnXMLConstants.XML_NS_URI;returnXMLConstants.NULL_NS_URI;/ThismethodisntnecessaryforXPathprocessing.publicStringgetPrefix(Stringuri)thrownewUnsupportedOperationException();/ThismethodisntnecessaryforXPathprocessingeither.publicIteratorgetPrefixes(Stringuri)thrownewUnsupportedOperationException();使用映射存储绑定和增加setter方法实现名称空间上下文的重用也不难。创建NamespaceContext对象后,在编译表达式之前将其安装到XPath对象上。以后就可以像以前一样是用这些前缀查询了。比如:使用名称空间的XPath查询:XPathFactoryfactory=XPathFactory.newInstance();XPathxpath=factory.newXPath();xpath.setNamespaceContext(newPersonalNamespaceContext();XPathExpressionexpr=pile(/pre:bookpre:author=NealStephenson/pre:title/text();Objectresult=expr.evaluate(doc,XPathConstants.NODESET);NodeListnodes=(NodeList)result;for(inti=0;inodes.getLength();i+)System.out.println(nodes.item(i).getNodeValue();xpath中定义了与节点名和命名空间有关的三个函数: local-name() namespace-uri() name()如果元素定义了命名空间,则使用xpath查找时也必须指定在同一个命名空间中,即便元素使用的是缺省的命名空间,刚查找也需要定义缺省的命名空间。例如文档: Hello ElsIOIELdslke-1233 定义了三个命名空间:缺省的;xmlns:tg;xmlns:ns。要使用命名空间,我们需要设置XPath的命名空间上下文:NamespaceContext。这是一个接口类型,我们需要自定义去实现它。例如对应于上文档的三个命名空间,可以如下实现:class CustomNamespaceContext implements NamespaceContext public String getNamespaceURI(String prefix) if(prefix.equals(ns) return /cdc/liugang/ns; else if(prefix.equals(tg) return /cdc/liugang/tg; else if(prefix.equals(df) return /cdc/liugang; return XMLConstants.NULL_NS_URI; public String getPrefix(String namespaceURI) return null; public Iterator getPrefixes(String namespaceURI) return null; 方法名都非常直观。这里只实现第一个方法。这样,如果要查找命名空间是缺省,元素名为computer的所有元素,可以如下实现:XPathFactory xPathFactory = XPathFactory.newInstance(); XPath xpath = xPathFactory.newXPath(); xpath.setNamespaceContext(new CustomNamespaceContext(); XPathExpression compile = pile(/df:computer); NodeList list = (NodeList) compile.evaluate(document,XPathConstants.NODESET); for(int i = 0;i Node item = list.item(i); System.out.println(item.getNodeName()+ +item.getNodeValue(); 4. 函数求解器有时候,在Java语言中定义用于XPath表达式的扩展函数很有用。这些函数可以执行用纯XPath很难或者无法执行的任务。不过必须是真正的函数,而不是随意的方法。就是说不能有副作用。(XPath函数可以按照任意的顺序求值任意多次。)通过JavaXPathAPI访问的扩展函数必须实现javax.xml.xpath.XPathFunction接口。这个接口只声明了一个方法evaluate: public Object evaluate (List args ) throws XPathFunctionException 该方法必须返回Java语言能够转换到XPath的五种类型之一:String、Double、Boolean、Nodelist、Node下面显示了一个扩展函数,它检查ISBN的校验和并返回Boolean。这个校验和的基本规则是前九位数的每一位乘上它的位置(即第一位数乘上1,第二位数乘上2,依次类推)。将这些数加起来然后取除以11的余数。如果余数是10,那么最后一位数就是X。检查ISBN的XPath扩展函数importjava.util.List;importjavax.xml.xpath.*;importorg.w3c.dom.*;publicclassISBNValidatorimplementsXPathFunction/ThisclasscouldeasilybeimplementedasaSingleton.publicObjectevaluate(Listargs)throwsXPathFunctionExceptionif(args.size()!=1)thrownewXPathFunctionException(Wrongnumberofargumentstovalid-isbn();Stringisbn;Objecto=args.get(0);/performconversionsif(oinstanceofString)isbn=(String)args.get(0);elseif(oinstanceofBoolean)isbn=o.toString();elseif(oinstanceofDouble)isbn=o.toString();elseif(oinstanceofNodeList)NodeListlist=(NodeList)o;Nodenode=list.item(0);/getTextContentisavailableinJava5andDOM3./InJava1.4andDOM2,youdneedtorecursively/accumulatethecontent.isbn=node.getTextContent();elsethrownewXPathFunctionException(Couldnotconvertargumenttype);chardata=isbn.toCharArray();if(data.length!=10)returnBoolean.FALSE;intchecksum=0;for(inti=0;i9;i+)checksum+=(i+1)*(datai-0);intcheckdigit=checksum%11;if(checkdigit+0=data9|(data9=X&checkdigit=10)returnBoolean.TRUE;returnBoolean.FALSE;下一步让这个扩展函数能够在Java程序中使用。为此,需要在编译表达式之前向XPath对象安装javax.xml.xpath.XPathFunctionResolver。函数求解器将函数的XPath名称和名称空间URI映射到实现该函数的Java类。下面是一个简单的函数求解器,将扩展函数valid-isbn和名称空间/books映射到上面的类。比如,XPath表达式/booknot(pre:valid-isbn(isbn)可以找到ISBN校验和不匹配的所有图书。识别valid-isbn扩展函数的上下文space.QName;importjavax.xml.xpath.*;publicclassISBNFunctionContextimplementsXPathFunctionResolverprivatestaticfinalQNamename=newQName(/books,valid-isbn);publicXPathFunctionresolveFunction(QNamename,intarity)if(name.equals(ISBNFunctionC)&arity=1)returnnewISBNValidator();returnnull;由于扩展函数必须有名称空间,所以计算包含扩展函数的表达式时必须使用NamespaceResolver,即便查询的文档没有使用任何名称空间。由于XPathFunctionResolver、XPathFunction和NamespaceResolver都是接口,如果方便的话可以将它们放在所有的类中。5. 基础的JAXP工作流使用XPath处理XML需要以下5个基本步骤:1.获得一个XPath工厂类,以提供特定于供应商的XPath实现的一个实例。2.从工厂获得一个XPath解析器或转换器。3.创建一个新的XPath表达式。4.构建XML文档的一个DOM树,用于计算XPath表达式。5.计算XPath表达式。代码示例:构建DOM树,异常捕获代码省略/获取实例工厂,标准的JAXP和DOMDocumentBuilderFactory factory = DocumentBuilderFactory.newInstance(); factory.setNamespaceAware(true); / never forget this! DocumentBuilder builder = factory.newDocumentBuilder(); Document doc = builder.parse(books.xml);/创建XPathFactory,XPathFactory是一个抽象工厂。抽象工厂设计模式使得这一种API能够/支持不同的对象模型,如DOM、JDOM和XOM。为了选择不同的模型,需要向/XPathFactory.newInstance()方法传递标识对象模型的统一资源标识符(URI)。XPathFactory factory = XPathFactory.newInstance(); /创建XPath实例工厂 XPath xpath = factory.newXPath(); /创建XPath对象/XPath对象编译表达式XPathExpression expr = pile(/bookauthor=Neal Stephenson/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论