爬虫爬取微博_爬虫爬取微博用户的所有微博

激活谷笔记 • 2026-05-02 11:20 • 阅读 4

爬取微博数据通常需要考虑微博的反爬虫机制，以下是一个基本的流程和代码示例，帮助你理解如何使用Python进行微博爬虫：

步骤概述

1. 获取微博用户的Cookie。

2. 获取目标微博用户的ID。

3. 使用获取的Cookie和用户ID构造请求头。

4. 构造请求URL，发起请求获取微博数据。

5. 解析返回的数据，提取所需信息。

6. 保存提取的数据。

代码示例

python

import requests

import re

import pandas as pd

获取微博用户的Cookie和用户ID

你可以使用Chrome浏览器开发者工具查看请求头获取Cookie

例如：https://m.weibo.cn/api/container/getIndex？containerid=YOUR_USER_ID

以及用户的User_id

替换下面的YOUR_USER_ID和YOUR_COOKIE为实际值

YOUR_USER_ID = "01701"

YOUR_COOKIE = "你的微博Cookie值"

构造请求头

headers = {

"Cookie": YOUR_COOKIE,

"User-Agent": "Mozilla/5.0 （Windows NT 10.0； Win64； x64） AppleWebKit/537.36 （KHTML, like Gecko） Chrome/58.0.3029.110 Safari/537.3"

}

构造请求URL

base_url = "https://m.weibo.cn/api/container/getIndex"

params = {

"containerid": YOUR_USER_ID,

"page_type": "03",

"page": "1"

}

发起请求

response = requests.get（base_url, headers=headers, params=params）

data_text = response.text

解析数据

data_num = re.findall（r"mid:（\d{16}）", data_text）

num = len（data_num）

保存数据到CSV

df = pd.DataFrame（data_num, columns=["mid"]）

df.to_csv（"weibo_data.csv", index=False）

注意事项

微博有反爬虫机制，可能需要使用代理或模拟登录来绕过。

请确保遵守微博的使用条款和当地法律法规。

爬取数据时要注意保护用户隐私。

以上代码仅供参考，实际使用时可能需要根据微博的页面结构进行调整。如果你需要爬取更复杂的数据，比如微博图片，你可能需要使用Selenium等工具来模拟浏览器行为。

爬虫爬取微博_爬虫爬取微博用户的所有微博

相关推荐