数据采集技术 课件 项目2 数据采集 - xpath_第1页
数据采集技术 课件 项目2 数据采集 - xpath_第2页
数据采集技术 课件 项目2 数据采集 - xpath_第3页
数据采集技术 课件 项目2 数据采集 - xpath_第4页
数据采集技术 课件 项目2 数据采集 - xpath_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据采集——数据采集技术Beautifulsouplxml库中的xpath010203知识点正则表达式re

介绍lxml库中的xpath02

lxml库中的xpath--安装和使用在Python中,常用lxml库来使用XPath进行HTML和XML文档的解析。使用pip安装lxml:这是最常用的安装方式,适用于大多数Python环境。打开命令行终端,输入以下命令:pipinstalllxml或pipinstalllxml-i/simple安装完成后,可以在Python代码中导入lxml库进行测试。例如:fromlxmlimportetree

lxml库中的xpath--案例一etree.HTML()可以用来解析字符串格式的HTML文档对象,将传进去的字符串转变_Element对象。例:h1标签是未闭合的,etree.HTML()不仅构造了一个XPath解析对象_Element,h1标签也被补全,如下所示:

lxml库中的xpath--之基本路径表示/表示:从根节点选取。//表示:从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.表示:选取当前节点。…表示:选取当前节点的父节点。@表示:选取属性。

lxml库中的xpath--之基本路径表示XML示例:<bookstore><bookcategory="COOKING">

<titlelang="en">EverydayItalian</title>

<author>GiadaDeLaurentiis</author>

<year>2005</year>

<price>30.00</price></book><computercategory="CHILDREN">

<titlelang="en">HarryPotter</title>

<author>JK.Rowling</author>

<year>2005</year>

<price>29.99</price></computer><bookcategory="WEB">

<titlelang="en">LearningXML</title>

<author>ErikT.Ray</author>

<year>2003</year>

<price>39.95</price></book></bookstore>

lxml库中的xpath--之基本路径表示按照XML示例,列出一些路径表达式以及表达式的结果如下:bookstore表示:选取当前位置下bookstore元素的所有子节点。/bookstore表示:选取根元素bookstore。注释:假如路径起始于正斜杠(/),则此路径始终代表到某元素的绝对路径!bookstore/book表示:选取当前位置下属于bookstore的子元素的所有book元素。//book表示:选取所有book子元素,而不管它们在文档中的位置。bookstore//book表示:选取当前位置下属于bookstore元素的后代的所有book元素,而不管它们位于bookstore之下的什么位置。//@lang表示:选取名为lang的所有属性。

lxml库中的xpath--案例二

lxml库中的xpath--之谓语按照xml示例,列出一些路径表达式以及表达式的结果如下:/bookstore/book[1]表示:选取根路径下属于bookstore子元素的第一个book元素。/bookstore/book[last()]表示:选取根路径下属于bookstore子元素的最后一个book元素。/bookstore/book[last()-1]表示:选取根路径下属于bookstore子元素的倒数第二个book元素。/bookstore/book[position()<=2]表示:选取根路径下最前面的两个属于bookstore元素的子元素的book元素。//title[@lang]表示:选取文档任意位置所有拥有名为lang的属性的title元素。//title[@lang=‘en’]/text()表示:选取文档任意位置所有title元素,且这些元素拥有lang属性值为en的文本数据

。/bookstore/book[price>35.00]表示:选取根路径下bookstore元素的所有book元素,且其中的price元素的值须大于35.00。/bookstore/book[price>35.00]/title表示:选取根路径下bookstore元素中的book元素的所有title元素,且其中的price元素的值须大于35.00。

lxml库中的xpath--案例三

lxml库中的xpath--之模糊匹配XPath通配符可用来选取未知的XML元素。*表示:匹配任何元素节点。@*表示:匹配任何属性节点。按照XML示例,列出一些路径表达式以及表达式的结果如下:/bookstore

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论