python爬虫怎么取标签的文字_python解析html标签

激活谷笔记 • 2025-03-13 19:04 • 阅读 153

在Python中，你可以使用`lxml`库来爬取HTML文档中的`li`标签。以下是一个简单的示例，展示了如何使用`lxml`库爬取`li`标签：

 from lxml import etree HTML或XML文档的示例字符串 html = """  
 
   
  
  
    
   
  
    
  Item 1 
  
    
   
  
    
  Item 2 
  
    
   
  
    
  Item 3 
  
    
   
 
   
 
 """ 创建一个XPath解析器 parser = etree.HTMLParser（） 将字符串解析为一个XPath可解析的对象 tree = etree.fromstring（html, parser） 使用XPath表达式获取li标签 li_tags = tree.xpath（'//li'） 遍历获取到的li标签 for li in li_tags: print（li.text）

运行上述代码会输出：

 Item 1 Item 2 Item 3

在XPath表达式`//li`中，`//`表示选择文档中的所有`li`标签，而`li`表示选择`li`标签。因此，`tree.xpath（'//li'）`会返回一个包含所有`li`标签的列表。你可以对这个列表进行遍历来获取每个`li`标签的内容。

如果你需要从网页上爬取`li`标签，你可以使用`requests`库来获取网页内容，然后使用`lxml`进行解析。例如：

 import requests from lxml import etree 获取网页内容 url = 'http://example.com' 替换为你想爬取的网页URL response = requests.get（url） html = response.text 使用XPath表达式获取li标签 li_list = response.xpath（'//*[@id="main"]/div/div/ul/li'） 遍历获取到的li标签并打印内容 for li in li_list: print（li.text）

请确保在爬取网页内容时遵守网站的`robots.txt`规则，并尊重网站的版权和使用条款。

python爬虫怎么取标签的文字_python解析html标签

相关推荐