Python解析库lxml与xpath用法总结 本文主要围绕以xpath和lxml库进行展开: 一、xpath 概念、xpath节点、xpath语法、xpath轴、xpath运算符 二、lxml的安装、lxml的使用、lxml案例 一、xpath 1.xpath概念 XPath 是一门在 XML 文档中查找信息的语言。XPath 使用路径表达式在 XML 文档中进行导航 。XPath 包含一个标准函数库 。XPath 是 XSLT 中的主要素 。XPath 是一个 W3C 标准 。 2.xpath节点 xpath有七种类型的节点:素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。 节点关系:父、子、兄弟、先辈、后辈。 3.xpath语法 xpath语法在W3c网站上有详细的介绍,这里截取部分知识,供大家学习。 XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式: 在下面的表格中,我们已列出了一些路径表达式以及表达式的结果: 谓语(Predicates) 谓语用来查找某个特定的节点或者包含某个指定的值的节点。 谓语被嵌在方括号中。 在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果: 选取未知节点 XPath 通配符可用来选取未知的 XML 素。 在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果: 选取若干路径 通过在路径表达式中使用”|”运算符,您可以选取若干个路径。 在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果: 4.xpath 轴 轴可定义相对于当前节点的节点集。 5.xpath运算符 下面列出了可用在 XPath 表达式中的运算符: 好了,xpath的内容就这么多了。接下来我们要介绍一个神器lxml,他的速度很快,曾经一直是我使用beautifulsoup时最钟爱的解析器,没有之一,因为他的速度的确比其他的html.parser 和html5lib快了许多。 二、lxml 1.lxml安装 lxml 是一个xpath格式解析模块,安装很方便,直接pip install lxml 或者easy_install lxml即可。 2.lxml 使用 lxml提供了两种解析网页的方式,一种是你解析自己写的离线网页时,另一种 则是解析线上网页。 导入包: 1.解析离线网页: 2.解析在线网页: 那么我们怎么这些标签和标签对应的属性值了,很简单,首先标签只需你这样做:
然后我们可以,比方说,你要a标签内的文本和它的属性href所对应的值,有两种方法, 1.表达式内 2.表达式外 这样就完成了,怎么样,是不是很简单了,哈哈哈。 下面再来lxml的解析规则: 3.lxml案例 为了偷懒,小编决定还是采用urllib那篇文章的代码,哈哈哈,机智如我。
好了,今天就讲这么多,大家感兴趣的话可以多多哦,精彩不停息!!!! 本文参考文献: 想学习更多前端、Python爬虫、大数据等计算机知识,请前往:http://pdcfighting.com/ 想学习更多Python网络爬虫与数据挖掘知识,可前往专业网站:http://pdcfighting.com/
2024最新激活全家桶教程,稳定运行到2099年,请移步至置顶文章:https://sigusoft.com/99576.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。 文章由激活谷谷主-小谷整理,转载请注明出处:https://sigusoft.com/67277.html