如何利用python爬取网页内容_python有什么用

激活谷笔记 • 2026-03-25 07:32 • 阅读 46

要使用Python爬虫爬取网站的所有链接，你可以按照以下步骤进行：

1. 安装必要的库：

bash

pip install requests beautifulsoup4

2. 导入库并发送HTTP请求获取网页内容：

python

import requests

from bs4 import BeautifulSoup

def get_all_links（url）:

response = requests.get（url）

response.raise_for_status（）检查请求是否成功

soup = BeautifulSoup（response.text, 'html.parser'）

return soup.find_all（'a'）找到所有的a标签

3. 遍历所有链接并提取`href`属性：

python

def extract_links（soup）:

links = []

for link in soup.find_all（'a'）:

href = link.get（'href'）

if href and href.startswith（'http'）: 确保链接是完整的URL

links.append（href）

return links

4. 递归爬取所有链接（可选，适用于深度爬取）：

python

def crawl_recursive（start_url, visited_links）:

if start_url in visited_links:

return

visited_links.add（start_url）

print（f"Crawling: {start_url}"）

soup = BeautifulSoup（requests.get（start_url）.text, 'html.parser'）

links = extract_links（soup）

for link in links:

crawl_recursive（link, visited_links）

5. 调用函数并传入目标网站的URL：

python

start_url = 'https://www.example.com'

visited_links = set（）

crawl_recursive（start_url, visited_links）

请注意，爬虫可能会受到目标网站的服务条款限制，并且应当遵循`robots.txt`文件的爬取规则。此外，考虑到网站的大小和层级结构，以及避免陷入无限循环或重复爬取相同页面的问题，你可能需要设置爬取深度限制或合理的延迟时间。