怎么用python爬取数据_爬虫python的爬取步骤

激活谷笔记 • 2025-03-15 20:02 • 阅读 119

爬取文件通常指的是从网络上下载文件，例如图片、文档等。在Python中，你可以使用`requests`库来下载文件。以下是一个简单的示例，展示了如何使用`requests`库下载文件：

 import requests 指定要下载的文件的URL url = 'https://example.com/path/to/your/file.ext' 发送GET请求 response = requests.get（url） 检查请求是否成功 if response.status_code == 200: 获取文件名 filename = url.split（'/'）[-1] 将文件内容写入到本地文件 with open（filename, 'wb'） as file: file.write（response.content） else: print（f"Failed to download file. Status code: {response.status_code}"）

如果你需要下载的是网页上的图片或其他二进制文件，上面的方法同样适用。只需确保`url`指向的是正确的文件位置即可。

如果你需要下载的是文档，比如Word文档（.docx），你可以使用`python-docx`库。以下是一个示例，展示了如何使用`python-docx`库下载并保存Word文档：

 from docx import Document import requests 指定要下载的Word文档的URL url = 'https://example.com/path/to/your/document.docx' 发送GET请求 response = requests.get（url） 检查请求是否成功 if response.status_code == 200: 创建一个新的文档对象 doc = Document（） 将下载的内容写入文档 doc.add_paragraph（response.text） 保存文档到本地 doc.save（'downloaded_document.docx'） else: print（f"Failed to download document. Status code: {response.status_code}"）

请注意，下载文件时要考虑到版权和合法性问题，确保下载的内容是合法可用的。

怎么用python爬取数据_爬虫python的爬取步骤

相关推荐