python提取pdf数据到excel_python pdf转文本

激活谷笔记 • 2026-04-28 13:02 • 阅读 31

在Python中提取PDF中的文字，你可以使用`PyPDF2`或`pdfminer`库。以下是使用这两个库的示例代码：

使用PyPDF2库

python

import PyPDF2

def extract_text_from_pdf（file_path）:

with open（file_path, 'rb'） as file:

pdf_reader = PyPDF2.PdfFileReader（file）

num_pages = pdf_reader.numPages

text = ''

for page_num in range（num_pages）:

page = pdf_reader.getPage（page_num）

text += page.extractText（）

return text

file_path = 'path_to_your_pdf_file.pdf'

text = extract_text_from_pdf（file_path）

print（text）

使用pdfminer库

python

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.pdfpage import PDFPage

from io import StringIO

def extract_text_from_pdf（file_path）:

resource_manager = PDFResourceManager（）

fake_file_handle = StringIO（）

laparams = LAParams（）

converter = TextConverter（resource_manager, fake_file_handle, laparams=laparams）

page_interpreter = PDFPageInterpreter（resource_manager, converter）

with open（file_path, 'rb'） as file:

for page in PDFPage.create_pages（PDFPage.get_pages（file））:

page_interpreter.process_page（page）

text = fake_file_handle.getvalue（）

Close streams and free resources

converter.close（）

fake_file_handle.close（）

return text

file_path = 'path_to_your_pdf_file.pdf'

text = extract_text_from_pdf（file_path）

print（text）

请确保在运行代码之前已经安装了相应的库。你可以使用以下命令进行安装：

bash

pip install PyPDF2

或者

bash

pip install pdfminer.six

这些代码片段将帮助你从PDF文件中提取文本内容。

python提取pdf数据到excel_python pdf转文本

相关推荐