python编写爬虫_做一个简单的python爬虫

激活谷笔记 • 2026-04-18 12:10 • 阅读 1

使用Python制作爬虫的基本步骤如下：

安装必要的库

`requests`：用于发送HTTP请求。

`BeautifulSoup`：用于解析HTML内容。

`lxml`（可选）：用于加速BeautifulSoup解析速度。

`pandas`（可选）：用于存储抓取的数据。

使用`pip`安装这些库：

bash

pip install requests beautifulsoup4 lxml pandas

创建爬虫

创建一个Python文件并导入必要的库。

发送HTTP请求

使用`requests.get（）`函数发送HTTP请求并获取网页内容。

解析HTML内容

使用`BeautifulSoup`解析获取到的HTML内容。

提取数据

使用`find（）`和`find_all（）`方法从HTML中提取所需数据。

处理数据

对提取的数据进行处理，如清洗、格式化等。

保存数据

将处理后的数据保存到文件、数据库或其他存储介质。

python

import requests

from bs4 import BeautifulSoup

发送HTTP请求获取网页内容

url = 'https://example.com'

response = requests.get（url）

判断请求是否成功

if response.status_code == 200:

print（'网页请求成功!'）

获取网页的HTML内容

html_content = response.text

解析HTML页面

soup = BeautifulSoup（html_content, 'html.parser'）

提取标题（例如提取所有h1标签）

titles = soup.find_all（'h1'）

输出抓取到的标题

for title in titles:

print（title.text）

else:

print（'网页请求失败，状态码：', response.status_code）

请根据实际需要修改上述代码中的URL和提取数据的逻辑。如果目标网站使用了JavaScript动态加载内容，可能需要使用如`Selenium`等工具来模拟浏览器行为。