怎么用python爬取网站上的数据_Python爬虫下载

激活谷笔记 • 2025-06-12 09:14 • 阅读 133

要使用Python爬虫爬取网站的所有链接，你可以按照以下步骤进行：

1. 安装必要的库：

 pip install requests beautifulsoup4

2. 导入库并发送HTTP请求获取网页内容：

 import requests from bs4 import BeautifulSoup def get_all_links（url）: response = requests.get（url） response.raise_for_status（） 检查请求是否成功 soup = BeautifulSoup（response.text, 'html.parser'） return soup.find_all（'a'） 找到所有的a标签

3. 遍历所有链接并提取`href`属性：

 def extract_links（soup）: links = [] for link in soup.find_all（'a'）: href = link.get（'href'） if href and href.startswith（'http'）: 确保链接是完整的URL links.append（href） return links

4. 递归爬取所有链接（可选，适用于深度爬取）：

 def crawl_recursive（start_url, visited_links）: if start_url in visited_links: return visited_links.add（start_url） print（f"Crawling: {start_url}"） soup = BeautifulSoup（requests.get（start_url）.text, 'html.parser'） links = extract_links（soup） for link in links: crawl_recursive（link, visited_links）

5. 调用函数并传入目标网站的URL：

 start_url = 'https://www.example.com' visited_links = set（） crawl_recursive（start_url, visited_links）

请注意，爬虫可能会受到目标网站的服务条款限制，并且应当遵循`robots.txt`文件的爬取规则。此外，考虑到网站的大小和层级结构，以及避免陷入无限循环或重复爬取相同页面的问题，你可能需要设置爬取深度限制或合理的延迟时间。

怎么用python爬取网站上的数据_Python爬虫下载

相关推荐