python爬虫验证码登录_pycharm激活码

激活谷笔记 • 2026-04-14 17:47 • 阅读 25

爬取验证码通常涉及以下步骤：

模拟登录：

使用Selenium或其他工具模拟用户登录网页。

等待验证码加载：

使用WebDriverWait等待验证码图片加载完成。

下载验证码：

将验证码图片下载到本地。

图像处理：

对验证码图片进行处理，如灰度化、二值化等，以提高识别率。

验证码识别：

使用OCR（光学字符识别）工具，如Tesseract，识别验证码中的文字。

提交验证码：

将识别出的验证码文字输入到登录表单并提交。

python

from selenium import webdriver

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.common.by import By

from PIL import Image

import pytesseract

设置Chrome浏览器驱动路径

chrome_driver_path = "path/to/chromedriver"

初始化浏览器

browser = webdriver.Chrome（executable_path=chrome_driver_path）

打开登录页面

url = "http://graduate.buct.edu.cn"

browser.get（url）

等待验证码图片加载完成

wait = WebDriverWait（browser, 10）

captcha_element = wait.until（EC.presence_of_element_located（（By.ID, "captcha-image"）））

获取验证码图片

captcha_image = captcha_element.get_attribute（"src"）

下载验证码图片到本地

with open（"captcha.png", "wb"） as f:

f.write（browser.get_screenshot_as_png（））

使用Tesseract识别验证码

captcha_text = pytesseract.image_to_string（Image.open（"captcha.png"））

清理图片

captcha_image.close（）

提交验证码

username = "test"

password = "test"

data = {

"username": username,

"password": password,

"captcha": captcha_text

}

browser.find_element_by_id（"username"）.send_keys（username）

browser.find_element_by_id（"password"）.send_keys（password）

browser.find_element_by_id（"captcha"）.send_keys（captcha_text）

browser.find_element_by_id（"login-button"）.click（）

请注意，验证码的识别准确率可能受多种因素影响，包括验证码的类型、复杂度以及OCR工具的性能。对于复杂的验证码，可能需要结合人工干预或使用更高级的图像处理技术。

另外，请确保在使用爬虫时遵守网站的使用条款和条件，以及相关的法律法规。有些网站可能禁止爬虫访问，或者对频繁访问的网站采取限制措施。