python爬虫淘宝_python爬虫教程

激活谷笔记 • 2026-04-28 08:02 • 阅读 32

抓取淘宝信息通常需要使用Selenium库模拟浏览器操作，因为淘宝的一些页面使用JavaScript异步加载数据。以下是使用Selenium抓取淘宝商品信息的基本步骤和示例代码：

1. 安装Selenium库和Chrome浏览器驱动程序（如chromedriver）。

2. 使用Selenium打开淘宝首页。

3. 使用Selenium模拟用户操作，如输入搜索关键词并搜索按钮。

4. 获取搜索结果页面，解析HTML获取所需信息，如商品名称、价格、销量等。

5. 重复步骤3和4，遍历多页获取所有商品信息。

下面是一个简单的示例代码，展示了如何使用Selenium抓取淘宝商品信息：

python

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

from time import sleep

from lxml import etree

实例化浏览器对象

options = webdriver.ChromeOptions（）

options.add_experimental_option（'excludeSwitches', ['enable-automation']）

driver = webdriver.Chrome（options=options）

访问淘宝首页

driver.get（'https://www.taobao.com/'）

定位搜索框并输入关键词

search_box = driver.find_element_by_id（'q'）

search_box.send_keys（'裤子'）

定位到搜索按钮并

search_button = driver.find_element_by_class_name（'search-button'）

search_button.click（）

等待页面跳转

sleep（1）

获取搜索结果页面源代码

html = driver.page_source

解析HTML获取商品信息

tree = etree.HTML（html）

items = tree.xpath（'//div[@]'）根据实际情况修改XPath

for item in items:

name = item.xpath（'.//div[@]/text（）'）

price = item.xpath（'.//div[@]/strong/text（）'）

sales = item.xpath（'.//div[@]/text（）'）

print（f'商品名称：{name}\n价格：{price}\n销量：{sales}\n'）

关闭浏览器

driver.quit（）

请注意，淘宝的页面结构可能会更新，因此XPath选择器需要根据实际情况进行调整。另外，抓取网站数据时应遵守网站的使用条款，并考虑到用户隐私和网站的安全性。