批量提取图片中的文字_wps如何批量提取图片中的文字

批量提取图片中的文字_wps如何批量提取图片中的文字要使用 Python 批量提取图片中的文字 你可以按照以下步骤操作 1 安装必要的库 Pillow 用于图像处理 pytesseract 用于 OCR 识别 OpenCV 可选 用于指定图片中文字的区域 你可以使用以下命令安装这些库 bashpip install Pillow pytesseract 2 配置 Tesseract OCR 引擎

要使用Python批量提取图片中的文字,你可以按照以下步骤操作:

1. 安装必要的库:

`Pillow`:用于图像处理。

`pytesseract`:用于OCR识别。

`OpenCV`(可选):用于指定图片中文字的区域。

你可以使用以下命令安装这些库:

 pip install Pillow pytesseract 

2. 配置Tesseract OCR引擎:

确保Tesseract-OCR引擎已安装,并将其添加到系统的PATH环境变量中,或者在代码中指定其路径。

3. 编写Python脚本:

 import os from PIL import Image import pytesseract 设置输入和输出文件夹路径 input_folder = "input" output_folder = "output" 确保输出文件夹存在 if not os.path.exists(output_folder): os.makedirs(output_folder) 遍历输入文件夹中的所有图片文件 for filename in os.listdir(input_folder): 检查是否为图片文件 if filename.endswith(('.png', '.jpg', '.jpeg', '.bmp', '.gif')): 打开图片文件 img_path = os.path.join(input_folder, filename) img = Image.open(img_path)  使用pytesseract提取图片中的文字 text = pytesseract.image_to_string(img, lang='eng') 可以指定语言,如'chi_sim'表示简体中文  保存提取的文字到输出文件夹 output_file = os.path.join(output_folder, f"{filename.split('.')}_text.txt") with open(output_file, 'w', encoding='utf-8') as f: f.write(text) 

4. 运行脚本:

将上述代码保存为一个`.py`文件,例如`extract_text.py`,然后在命令行中运行:

 python extract_text.py 

脚本将遍历`input`文件夹中的所有图片,并使用`pytesseract`提取图片中的文字,然后将提取的文字保存到`output`文件夹中,文件名格式为` <原图片文件名> _text.txt`。

请确保在运行脚本之前,你已经正确配置了Tesseract-OCR引擎的路径。如果需要识别特定区域的文字,可以使用OpenCV来指定区域。

编程小号
上一篇 2024-12-23 12:51
下一篇 2024-12-23 12:43

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://sigusoft.com/bj/145946.html