python爬取页面表格内容_爬虫怎么爬取数据

激活谷笔记 • 2026-03-29 12:04 • 阅读 37

爬取网页上的表格数据通常涉及以下步骤：

确定目标网站：

首先，你需要确定你想要抓取数据的目标网站。

分析目标页面：

使用浏览器的开发者工具查看目标网站的HTML结构，了解表格的位置和结构。

安装必要的库：

确保你已经安装了`requests`和`BeautifulSoup`库，这些库用于发送HTTP请求和解析HTML内容。

发送请求：

使用`requests`库发送HTTP请求，获取网页的HTML内容。

解析HTML：

利用`BeautifulSoup`库解析HTML，定位到表格数据。

提取表格：

使用`pandas`库读取解析后的HTML中的表格数据。

数据清洗：

对抓取到的数据进行清洗，去除无用信息，保留所需字段。

保存数据：

将清洗后的数据保存到文件或数据库中，如JSON格式或Excel文件。

下面是一个简单的示例代码，展示了如何使用Python爬取网页上的表格数据，并将其保存为JSON格式：

python

import requests

from bs4 import BeautifulSoup

import json

发送HTTP请求获取网页内容

url = 'http://example.com/data-table'

response = requests.get（url）

使用BeautifulSoup解析HTML内容

soup = BeautifulSoup（response.text, 'html.parser'）

查找表格并提取数据

table = soup.find（'table', id='my-table'）

if table:

rows = table.find_all（'tr'）

跳过表头，从第二行开始提取数据

for row in rows[1:]:

cols = row.find_all（'td'）

if cols:

name = cols.text.strip（）

age = cols.text.strip（）

country = cols.text.strip（）

print（f'Name: {name}, Age: {age}, Country: {country}'）

保存数据到JSON文件

data = [

{'Name': 'John', 'Age': '28', 'Country': 'US'},

{'Name': 'Jane', 'Age': '25', 'Country': 'Canada'},

{'Name': 'David', 'Age': '32', 'Country': 'UK'}

]

with open（'data.json', 'w', encoding='utf-8'） as f:

json.dump（data, f, ensure_ascii=False, indent=4）

请注意，这只是一个简单的示例，实际应用中可能需要根据目标网站的具体结构进行相应的调整。如果你需要处理翻页表格数据或更复杂的表格结构，可能需要使用更高级的方法，如使用`lxml`库进行XPath查询，或使用`scrapy`框架进行更复杂的爬取任务。