版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据采集——数据采集技术Beautifulsouplxml库中的xpath010203知识点正则表达式re
介绍lxml库中的xpath02
lxml库中的xpath--安装和使用在Python中,常用lxml库来使用XPath进行HTML和XML文档的解析。使用pip安装lxml:这是最常用的安装方式,适用于大多数Python环境。打开命令行终端,输入以下命令:pipinstalllxml或pipinstalllxml-i/simple安装完成后,可以在Python代码中导入lxml库进行测试。例如:fromlxmlimportetree
lxml库中的xpath--案例一etree.HTML()可以用来解析字符串格式的HTML文档对象,将传进去的字符串转变_Element对象。例:h1标签是未闭合的,etree.HTML()不仅构造了一个XPath解析对象_Element,h1标签也被补全,如下所示:
lxml库中的xpath--之基本路径表示/表示:从根节点选取。//表示:从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.表示:选取当前节点。…表示:选取当前节点的父节点。@表示:选取属性。
lxml库中的xpath--之基本路径表示XML示例:<bookstore><bookcategory="COOKING">
<titlelang="en">EverydayItalian</title>
<author>GiadaDeLaurentiis</author>
<year>2005</year>
<price>30.00</price></book><computercategory="CHILDREN">
<titlelang="en">HarryPotter</title>
<author>JK.Rowling</author>
<year>2005</year>
<price>29.99</price></computer><bookcategory="WEB">
<titlelang="en">LearningXML</title>
<author>ErikT.Ray</author>
<year>2003</year>
<price>39.95</price></book></bookstore>
lxml库中的xpath--之基本路径表示按照XML示例,列出一些路径表达式以及表达式的结果如下:bookstore表示:选取当前位置下bookstore元素的所有子节点。/bookstore表示:选取根元素bookstore。注释:假如路径起始于正斜杠(/),则此路径始终代表到某元素的绝对路径!bookstore/book表示:选取当前位置下属于bookstore的子元素的所有book元素。//book表示:选取所有book子元素,而不管它们在文档中的位置。bookstore//book表示:选取当前位置下属于bookstore元素的后代的所有book元素,而不管它们位于bookstore之下的什么位置。//@lang表示:选取名为lang的所有属性。
lxml库中的xpath--案例二
lxml库中的xpath--之谓语按照xml示例,列出一些路径表达式以及表达式的结果如下:/bookstore/book[1]表示:选取根路径下属于bookstore子元素的第一个book元素。/bookstore/book[last()]表示:选取根路径下属于bookstore子元素的最后一个book元素。/bookstore/book[last()-1]表示:选取根路径下属于bookstore子元素的倒数第二个book元素。/bookstore/book[position()<=2]表示:选取根路径下最前面的两个属于bookstore元素的子元素的book元素。//title[@lang]表示:选取文档任意位置所有拥有名为lang的属性的title元素。//title[@lang=‘en’]/text()表示:选取文档任意位置所有title元素,且这些元素拥有lang属性值为en的文本数据
。/bookstore/book[price>35.00]表示:选取根路径下bookstore元素的所有book元素,且其中的price元素的值须大于35.00。/bookstore/book[price>35.00]/title表示:选取根路径下bookstore元素中的book元素的所有title元素,且其中的price元素的值须大于35.00。
lxml库中的xpath--案例三
lxml库中的xpath--之模糊匹配XPath通配符可用来选取未知的XML元素。*表示:匹配任何元素节点。@*表示:匹配任何属性节点。按照XML示例,列出一些路径表达式以及表达式的结果如下:/bookstore
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年宁夏葡萄酒与防沙治沙职业技术学院单招职业技能考试题库及答案详细解析
- 2026年石家庄工商职业学院单招职业技能考试题库及答案详细解析
- 2026年宁德职业技术学院单招综合素质考试题库及答案详细解析
- 2025年决策树策略开发服务合同
- 2025年空调维修保养合同
- 2025-2026学年设计头像教案
- 保险合同评析报告
- 2025-2026学年天窗第二课时的教学设计
- 保安工作服采购合同
- 2024-2025学年高中历史 第四单元 雅尔塔体制下的“冷战”与和平 第15课“冷战”的形成教学教学设计 岳麓版选修3
- 上交所2026校招笔试题
- 2026延安志丹县人力资源和社会保障局公益性岗位招聘(50人)笔试备考题库及答案解析
- 车间内部转运车管理制度
- 2026年山东省立第三医院初级岗位公开招聘人员(27人)笔试参考题库及答案解析
- 2026湖北武汉市江汉城市更新有限公司及其下属子公司招聘11人笔试备考题库及答案解析
- 2026年温州永嘉县国有企业面向社会公开招聘工作人员12人笔试备考题库及答案解析
- 2026年广东省辅警笔试题库及1套参考答案
- 2026年高考数学二轮复习:专题13 数列的综合大题(含知识融合)9大题型(专题专练)(全国适用)(原卷版)
- 《机械制图》电子教材
- JJF 1458-2014磁轭式磁粉探伤机校准规范
- 常州注射器项目可行性研究报告范文参考
评论
0/150
提交评论