第7章java对文件的解析_第1页
第7章java对文件的解析_第2页
第7章java对文件的解析_第3页
第7章java对文件的解析_第4页
第7章java对文件的解析_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第7 7章章 javajava对文件的解析对文件的解析目录目录n 7.1 Java对XML文件的解析n 7.2 Java对Excel文件的导入导出n 7.3 Java对Word文件的导入导出n 7.4 Java对Text文件的导入导出n 7.5 Java对PDF文件的导出7.1 Java7.1 Java对对XMLXML文件的解析文件的解析XMLXML( E Ex xtensible tensible M Markup arkup L Languageanguage)n XML是扩展性标识语言的简写n 特点:自定义标签n 作用:一种通用数据交换格式,系统配置文件一般采用XML格式书写,用来记录

2、应用程序的配置信息。n 优点: 结构严谨规范性强 标准的数据交换文件,已用于通用的配置信息文件 结构简单,清晰,便于书写,增强阅读性 将数据结构化,让数据间具有明确的层次关系XMLXML与与HTMLHTML区别区别n 语言标记 html标记是固定标记集合 xml提供的是一个定义标记的标准,其中的标记是可以自由定义n 代码的书写 html语言编写相对随意,要求松散。 xml语言编写有非常严格的规范n 描述内容 html将数据和显示结合在一起 xml将数据和显示相分离,记录数据和数据间关系,只对数据进行描述,不考虑显示效果。XMLXML举例举例张三20李四23 XMLXML文档的组成部分文档的组成

3、部分n XML声明(declaration)n DOCTYPE声明n 处理指令(processing Instruction)n 注释(comment)n 元素(element)n CDATA并不是每一个XML都需要所有的组成部分。XMLXML文档的组成部分文档的组成部分n 文档声明( xml文档首行): 格式: encoding定义文档字符编码集合,“gb2312” Standalone定义文档是否独立,“yes”no”n 文档类型定义: 指定xml文档定义文档类型所用的dtd来源n 处理指令 为处理XML文档的应用程序提供提示信息, XMLXML文档的组成部分文档的组成部分n 文档注释 注

4、释不可以嵌套n 文档主体内容自定义标记对数据进行结构描述,通过树形结构体现文档结构 文档中只能有一个顶层元素(根元素) 顶层元素中包含: 元素属性 元素文本内容 CDATA(character data字符数据区) 各种子元素XMLXML语法规则语法规则n所有XML标记都严格区分大小写nXML只能有一个顶层元素,其他元素都包含在顶层元素中n所有的标记都必须要要有开始和结束标签,如果没有单独的结束标签,则在开始标签的内部直接添加结束“/”n所有标记的属性值必须用“ ”或 括起来XMLXML命名规则命名规则n名字中可以包含字母、数字及一些可见字符和中文n名字不以数字和下划线开头,不以“xml”开头

5、,n名称中不可以包含空格,冒号(:)n命名尽量简短,一个文件中大小写尽量统一标准n所有的XML标记都必须合理嵌套,不允许出现交叉嵌套CDATACDATA区域区域( (字符数据区域字符数据区域) )n 存放不想被解析的原始数据n 格式:中n 示例:!CDATAif( 2 XMLXML中的特殊字符中的特殊字符n 在元素的文本中有些符号不可以直接出现,因为会出现解析错误。比如:“”n 对于这些符号可以使用转义字符来标识特殊字符转义字符&>“"'XMLXML文档的约束模式文档的约束模式 什么是约束模式? 定义:定义XML文档中允许出现的

6、元素名,元素中的属性,元素中的内容类型及元素间的嵌套关系和出现顺序,为文档指定XML约束模式后,就必须遵循该约束模式。 XML约束模式语言: 用作XML约束模式的内容也需要遵循一定的语法规则,这些规则形成XML约束模式语言,像这种创造XML标记语言的语言称为元语言。 模式文档:定义约束模式的文档 实例文档:根据模式文档编写的文档 常见的约束模式文件:DTD、XMLSchemaDTDDTD文件文件(Document Type Definition)(Document Type Definition)n 文档类型定义(DTD)可定义合法的XML文档构建模块。它使用一系列合法的元素来定义文档的结构。

7、n DTD文件的好处: 让每一个 XML 文件都可以具备单独的格式描述。 也可以让一个组织都使用同一种格式描述。 还可以直接引用一个权威机构指定的格式描述。DTDDTD文件示例文件示例n n n n n n 定义一个元素 格式: PCDATA(Parsed Character DATA)(被解析的字符数据)DTDDTD文件与文件与XMLXML文档的结合文档的结合n 如何给XML文档加上约束呢? 将DTD约束直接嵌套在xml文档中。 格式: 引入外部的DTD文件到XML文档中 将将DTDDTD约束直接嵌套在约束直接嵌套在xmlxml文档中文档中!DOCTYPE students !DOCTYPE

8、 students mikemike2929bjbj 引入外部的引入外部的DTDDTD文件到文件到XMLXML文档中文档中n 文档类型名称:可以自定义,通常使用根节点名称 SYSTEM:表明XML遵循的是一个组织内部的约束。 示例:n PUBLIC:表示XML遵循的是权威机构或特定行业提供的DTD文件。 DTD名称:用于标识该DTD文件,只有在PUBLIC声明时才用到。DTD DTD 文档文档元素定义元素定义n 元素是 XML 文档的基本组成部分,在 XML 文档中使用的每个元素及其属性都要在 DTD 文件中进行定义n 语法格式: n 示例: DTD DTD 文档文档元素使用规则元素使用规则n

9、 元素的使用规则定义了: 元素中包含的组成部分 每种组成部分出现的次数 各组成部分间的次序n (#PCDATA)表示元素中嵌套的内容是普通文本字符串。n EMPTY:元素中不包含任何子元素和普通文本字符串,这种情况用于定义 XML 文件中的空元素:例如,定义的元素形式为 DTD DTD 文档文档元素使用规则元素使用规则+一次或多次 (书+)?0 次或一次 (书?)*0次或多次(书*)不使用规则只一次(书)每条元素定义语句的顺序是无关紧要的 具有不同用途的元素不能使用相同的元素名 在元素的使用规则中可以通过正则表达式定义子元素出现的次数: 圆括号可将括在其中的内容组合成一个可统一操作的分组,分组

10、中可以嵌套更小的分组。DTD DTD 文档文档元素使用规则元素使用规则n 元素的各个组成成份的特点 元素的使用规则中的各个组成成分用空白符分隔,他们的出现顺序没有严格要求:? 用逗号分隔,出现顺序必须与排列顺序一致: 用竖杠 | 分隔,它们在 XML 文档中只能出现它们之中的任何一个: DTD DTD 文档文档属性定义属性定义 n 语法格式:语法格式:n 示例:示例: #REQUIRED:必须设置该属性 #IMPLIED:可以设置也可以不设置 #FIXED:说明该属性的取值固定为一个默认值,n 属性类型 CDATA:指的是纯文本,即由字符、符号组成的字符串属性类型属性类型 n Enumerat

11、ed:属性也可以被描述为一组可接受的取值的列表,XML文件中对属性的赋值将从这个列表中选取一个值。这类属性属于枚举类型ENUMERATED,不过关键字ENUMERATED是不出现在Dtd定义中的。n ID:是用属性值的方式为文件中的某个元素定义唯一标识的方法,由处理文件的程序或脚本语言使用。 n ENTITY:将多内容文本或者一个文件用一个简称来标识。ENUMERATEDENUMERATED?xml version = 1.0 encoding=GB2312 standalone=yes?!DOCTYPE students !DOCTYPE students !ATTLIST student

12、sex ( male | female ) male“ lisilisi预览结果:学生元素的id属性会自动加载male值。XMLXML解析解析n XML解析器是读取XML文档并分析其结构的代码。n 一般而言使用解析器需要以下步骤: 创建一个解析器对象 使解析器指向您的XML文档 处理结果n 常见的解析模式 DOM(Document Object Model) 文档对象模型,w3c的标准,DOM处理XML文档是基于将XML文档解析成树状模型,放入内存进行处理 XMLXML常见解析方式常见解析方式n SAX(Simple Api for Xml) SAX则是采用基于事件驱动的处理模式,它将XML文

13、档转化成一系列的事件,由单独的事件处理器来决定如何处理 n JDOM基于Java语言的解析工具。 JAXP(Java API for XML Processing) SUN推出的一套处理XML文档的工具包。n DOM4J 基于Java语言的优秀的XML文档解析工具,也应用在JAXM(Java API for XML Messaging )中。 DOMDOM(Document Object ModelDocument Object Model)DOM: Java 读入 XML 文档并分析其结构,将其转化为内存中的对象n 如果XML看成一颗数据树,那么DOM就是对这颗树的一个对象描叙,是为XML文

14、档在逻辑上建立一个树,树的节点是一个个对象,通过存取这些对象就能够存取XML文档的内容。n 解析的过程:n 节点:XML文档中的所有节点组成了一个节点树。n XML文档中的每个元素、属性、文本等都代表着树中的一个节点。n 树起始于文档节点,并由此继续伸出枝条,直到处于这棵树最低级别的所有文本节点为止。n 常用节点类型如下表所示:节点类型附加说明实例元素节点(Element)XML标记元素属性节点(Attribute)XML标记元素的属性name=”ntcsoft”文本节点(Text)XML标记中的文本段jim文档类型节点文档类型声明(DocumentType)!DOCTYPE注释节点Comme

15、ntXm注释节点!文档注释n节点关系:下面我们从一个XML文档实例中了解一下各个节点之间的关系:nn n 工程师A n n n文档根元素节点元素节点元素节点元素节点属性节点name文本节点工程师A属性节点position属性节点name根节点父到子子到父下一节点上一节点firstChildlastChild通过上面的XML文档,我们构建出如下树状文档对象模型,如下图所示常用节点属性如下表所示:常用节点属性如下表所示:属性属性描述描述nodeName结点名称nodeValue结点内部值,通常只应用于文本结点nodeType节点类型对应的数字parentNode如果存在,指向当前结点的父亲结点ch

16、ildNodes子结点列表firstChild如果存在,指向当前元素的第一个子结点lastChild如果存在,指向当前元素的最后一个子结点previousSibling指向当前结点的前一个兄弟结点nextSibling指向当前结点的后一个兄弟结点attributes元素的属性列表节点编号:节点编号:节点名称:节点名称:1Element2Attribute3Text4CDATA Section5Entity Reference6Entity7Processing Instrucion8Comment9Document10Document Type11Document Fragment12Nota

17、tionDOM DOM 基本基本 APIAPI注释载入文档载入文档n XML 文件只有载入内存才能被操作,对于xml文件,载入内存之后成为Document 对象n 载入文档的过程如下: 实例化 javax.xml.parsers.DocumentBuilderFactory,并通过 DocumentBuilderFactory实例化 javax.xml.parsers.DocumentBuilder对象: DocumentBuilderFactory dbf =DocumentBuilderFactory.newInstance(); DocumentBuilder db = dbf.newD

18、ocumentBuilder(); 载入文档载入文档n 通过 DocumentBuilder 的 parse(String)方法传入文件路径,载入文档,并返回由文档在内存生成的 文件树Document对象: Document doc = db.parse(流);n 使用 Document 对象获取XML文档的根节点rootn Element el = doc.getDocumentElement();Element el = doc.getDocumentElement();利用利用 Document Document 读取数据读取数据n org.w3c.dom.Document:表示整个 X

19、ML 文档;同时也是 Node 的子接口,除了拥有Node 的功能以外,还提供了面向整个文档一些特殊操作,如创建节点、获取某个名称的节点等n Document常见方法: Element getDocumentElement():获取文档根节点;实际上,该方法的应用等价于: Node Document.getFirstChild() 返回类型不同,不过可以将返回的 Node 强制转换为Element 类型(Element 是 Node 的子接口)利用利用 DOM DOM 读取数据读取数据n 利用 Node 读取数据 org.w3c.dom.Node:是 XML 中所有 API 的父接口,Elem

20、ent,text等都是它的子类,提供了对节点的基本操作,如获取节点信息、获取子节点、添加节点等,这些操作可以通过 Node 对象的各个 API 来实现n 常见的 方法: NodeList getChildNodes():以 NodeList 形式存放当前节点的子节点,若无,则返回空集合 Node getFirstChild():以 Node 形式返回当前节点的第一个子节点,若无,则返回 null Node getLastChild():以 Node 形式返回当前节点的最后一个子节点,若无,则返回null利用利用 DOM DOM 读取数据读取数据 Node getNextSibling():以

21、Node 形式返回当前节点的下一个兄弟节点,若无,则返回null Node getPreviousSibling:以 Node 形式返回当前节点的下一个兄弟节点,若无,则返回 null Node getParentNode():以 Node 形式返回当前节点的父节点,若无,则返回 null String getNodeName():得到节点名称 String getTextContent():得到节点中的文本内容 boolean hasChildNodes():返回当前节点是否存在子节点 short nodeType:获取节点类型,节点类型见前图 NodeList getElementsByT

22、agName(String name):输入标签名称,以 NodeList 形式返回 指定标记的元素,若无,则返回空集合;该方法适用于文档中的所有元素,不需确定该元素的位置利用利用 Element Element 读取数据读取数据n org.w3c.dom.Element:在 DOM 中,使用最多的不是普通文本,也不是注释,而是一些标签,它们含有属性,可能含有子标签n Element特有的 API: String getAttribute(String name):通过属性名称获得属性值 NodeList getElementsByTagName(String name):输入标签名称,以 N

23、odeList 形式返回 String getTagName():得到元素的名称 boolean hasAttribute(String name):判断该元素是否存在某个名称的属性实例实例n 建立xml文件文件,在其中放置数据库连接需要的数据,然后建立JSP文件和servlet文件,对xml文件中的数据进行解析及显示。利用利用 Node Node 修改数据修改数据n 最常见的 API 包括以下几个: void setTextContent(String textContent):设置此节点的文本内容 Node removeChild(Node oldChild):从子节点列表中移除oldCh

24、ild所指示的子节点并将其返回 Node insertBefore(Node new, Node ref):在现有子节点 ref之前插入节点 new Node replaceChild(Node new, Node old):将子节点列表中的子节点 oldChild 替换为 newChild,并返回 oldChild 节点 Node appendChild(Node newChild):将节点 newChild 添加到此节点的子节点列表的末尾利用利用 DOM DOM 持久化数据持久化数据n XML 文件保存,利用javax.xml.transform包中的类来进行文档的保存,过程如下: 实例化

25、TransformerFactory, 并通过该工厂类实例化Transformer, 利用 Transformer 的 transform 方法将源输出到目标: transformer.transform(source, result); 利用利用 DOM DOM 持久化数据持久化数据n 通过 javax.xml.transform.dom.DOMSource 将 Document 对象封装为 DOM 源: DOMSource source = new DOMSource(doc);n 通过 javax.xml.transform.stream. StreamResult 包装 java.io

26、.File 对象,确定输出的目标: File file = new File(newFile.xml); StreamResult result = new StreamResult(file);7.2 Java7.2 Java对对ExcelExcel文件的导入导出文件的导入导出前言前言n 用Java操作Excel文档,目前有以下方法:n JXLn POIn JXL(Java Excel API)是一个韩国人写的java操作excel的工具,利用它可以在任何支持Java的操作系统上动态读写Excel文件。JXL的主页是:http:/ POI是Apache的Jakata项目,POI 代表 Poo

27、r Obfuscation Implementation,即不良模糊化实现。POI 的目标就是提供一组 Java API 来使得基于 Microsoft OLE 2 Compound Document 格式的 Microsoft Office 文件易于操作。一些 POI API 仅仅是为最常用的 Microsoft Office 文件 Word 和 Excel 而开发的;而其他的 API 则是用于通用的 OLE 2 Compound Document 和属性文件。POI可以到下载到。编译好的jar主要有这样4个:poi包,poi Browser包,poi hdf包,

28、poi hssf例程包。实际运行时,需要有poi包就可以了。n JXL和POI的区别n POI Project 与 Java Excel API 在开源世界中可以说是并驾齐驱,但是也各有优劣,poi在某些细节有些小Bug并且不支持写入图片(poi其实可以写入图片,不过没有jxl来的方便,比较麻烦),其他方面都挺不错的;而JXL提供了对图片的支持(但是仅仅支持png格式的图片),问题就是对公式支持不是很好,但还是提供了简单的公式读取支持。因此你的项目中要选用什么样的第三方插件为完全由你的应用来决定。如果你的软件是跟财务有相当的关系的话,建议采用 POI Project。n 主要介绍主要介绍JXL

29、JXL1、创建或读取一个工作薄 创建一个工作薄,就是整个Excel文档, WritableWorkbook wwb = Workbook.createWorkbook(os);其中os为一个文件输出流。当然还有很多其他的入参,比如File等。Workbook不但能用来创建工作薄,也可以读取现有的工作薄,比如: Workbook.getWorkbook(java.io.File file);Workbook是一个很重要工具类,里面方法基本上都是static的,使用方便。 2、创建工作表 Sheet 创建工作表的方式是通过上面创建的WritableWorkbook对象来操作。创建一个工作表: cr

30、eateSheet(java.lang.String name, int index),两个参数分别是工作表名字和插入位置,这个位置从0开始,比如: WritableSheet sheet = wwb.createSheet(演员表, 0);3、创建标签 Label 实际上标签这里的意思就是工作表的单元格,这个单元格多种,分别对应不同的类,比如jxl.write.Boolean、jxl.write.Boolean等。 Label label = new Label(col, row, title); 三个参数分别表示col+1列,row+1行,标题内容是title。将标签加入到工作表中 she

31、et.addCell(label);4、填充数据 数据填充这块稍微复杂点,涉及到数据单元格的格式问题。 a)、填充数字 jxl.write.Number numb = new jxl.write.Number(1, 1, 250); sheet.addCell(numb);b)、填充格式化的数字 jxl.write.NumberFormat nf = new jxl.write.NumberFormat(#.#); jxl.write.WritableCellFormat wcf = new jxl.write.WritableCellFormat(nf); jxl.write.Number

32、n = new jxl.write.Number(2, 1, 2.451, wcf); sheet.addCell(n);c)、填充日期 SimpleDateFormat sdf = new SimpleDateFormat(yyyy-MM-dd hh:mm:ss); String newdate = sdf.format(new Date(); label = new Label(2, 2, newdate); sheet.addCell(label);d)、填充文本 label = new Label(3, 3, 周星驰); sheet.addCell(label);e)、填充boolea

33、n值 jxl.write.Boolean bool = new jxl.write.Boolean(4, 1, true); sheet.addCell(bool);5、合并单元格 通过writablesheet.mergeCells(int x,int y,int m,int n);来实现的。 表示将从第x+1列,y+1行到m+1列,n+1行合并 (四个点定义了两个坐标,左上角和右下角) 结果是合并了m-x+1行,n-y+1列,两者乘积就是合并的单元格数量。 sheet.mergeCells(0, 6, 3, 8); label = new Label(0, 6, 合并了12个单元格); s

34、heet.addCell(label);6、添加单元格的式样主要是改变单元格背景、字体、颜色等等。 WritableCellFormat wc = new WritableCellFormat(); / 设置居中 wc.setAlignment(Alignment.CENTRE); / 设置边框线 wc.setBorder(Border.ALL, BorderLineStyle.THIN); / 设置单元格的背景颜色 wc.setBackground(jxl.format.Colour.RED); label = new Label(1, 5, 字体, wc); sheet.addCell(l

35、abel);7、设置单元格字体 / 设置字体 jxl.write.WritableFont wfont = new jxl.write.WritableFont(WritableFont.createFont(楷书), 20); WritableCellFormat font = new WritableCellFormat(wfont); label = new Label(2, 6, 楷书, font); sheet.addCell(label);8、将工作写成文件 / 写入数据 wwb.write(); / 关闭文件 wwb.close(); 9、行列的批量操 /获取所有的工作表 jxl

36、.write.WritableSheet sheetList = wwb.getSheets(); /获取第1列所有的单元格 jxl.Cell cellc = sheet.getColumn(0); /获取第1行所有的单元格 jxl.Cell cellr = sheet.getRow(0); /获取第1行第1列的单元格 Cell c = sheet.getCell(0, 0);10、获取单元格的值 /获取单元格的值,不管什么单元格,返回都是字符串 String value = c.getContents();7.3 Java7.3 Java对对WordWord文件的导入导出文件的导入导出n M

37、icrosoft Word是微软公司的一个文字处理器。由于一份Word文档中可以包含图片、表格以及各种各样的格式,因此Java操作Word是比较麻烦的。目前网上比较流行的解决方案有POI、Jacob、Java2Word以及iText等等,不同方式之间个有优劣。本章将介绍使用iText动态生成Word文档以及使用POI实现Word数据导入。 iText iText与与RTFRTF简介简介n RTF(Rich Text Format),也称富文本格式,以纯文本描述内容,是由微软公司开放的跨平台文档格式,几乎所有文字处理软件均能读取和保存RTF文档。因此,RTF格式是一个很好的文件格式转换工具,用于

38、在不同的应用程序之间进行格式化文本文档的传送,例如doc,pdfn iText是著名的开放源码站点sourceforge的一个项目,是用于生成RTF文档的一个Java类库。本项目采用iText-2.1.7.jar这个库文件,以及iTextAsian.jar(用于处理中文)和itext-rtf-2.1.7.jar。iTextiText主要对象主要对象序号序号iText对象名称对象名称对应的对应的RTF对象对象1com.lowagie.text.Document;文档2com.lowagie.text.Paragraph;段落3com.lowagie.text.PageSize页面大小4com.lowagie.text.Table表格5com.lowagie.text.Cell单元格6com.lowagie.text.Element元素7com.lowagie.text.Font字体格式8com.lowagie.text.pdf.BaseFont字体类别9com.lowagie.text.rtf.RtfWriter2书写器WordWord导出流程导出流程n 在进行Word数据导出处理时,首先在服务器创建Word文件,接着通过iText将数据库表中的数据写入到Word文件中,最后将该Word文件下载到本地,以下列出处理流程中的一些主要步骤:n 1、建立Document对象。n Do

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论