python提取文件夹下指定文件_python用pip下载模块

激活谷笔记 • 2026-05-06 09:51 • 阅读 14

在Python中提取文件内容通常有以下几种方法：

1. 使用`open（）`函数打开文件，然后使用`read（）`方法读取文件的全部内容：

python

with open（'file.txt', 'r'） as file:

content = file.read（）

print（content）

2. 使用`open（）`函数打开文件，然后使用`readline（）`方法逐行读取文件内容：

python

with open（'file.txt', 'r'） as file:

line = file.readline（）

while line:

print（line）

line = file.readline（）

3. 使用`open（）`函数打开文件，然后使用`readlines（）`方法一次性提取文件所有行数据：

python

with open（'file.txt', 'r'） as file:

lines = file.readlines（）

for line in lines:

print（line）

4. 使用`with`语句打开文件，可以自动关闭文件，然后使用`read（）`方法读取文件内容：

python

with open（'file.txt', 'r'） as file:

content = file.read（）

print（content）

5. 如果需要提取文件名中的某个字段，可以使用`split（）`方法或者正则表达式：

python

filename = 'example_file_2021.txt'

name = filename.split（'_'）[-1] 使用split方法提取最后一个字段

print（name）输出：file

6. 如果需要从文本文件中提取数据，可以根据文件内容的格式来提取所需的数据，例如使用`split（）`方法或者正则表达式：

python

with open（'data.txt', 'r'） as file:

for line in file:

data = line.split（','）假设数据以逗号分隔

print（data）

7. 如果需要提取PDF文本，可以使用`Spire.PDF`库中的`PdfPageBase.ExtractText（）`方法：

python

from spire.pdf import *

创建PdfDocument类的实例

pdf = PdfDocument（）

加载PDF文档

pdf.LoadFromFile（'大数据.pdf'）

创建一个TXT文件来保存提取的文本

with open（'Output/提取文本.txt', 'w', encoding='utf-8'） as extractedText:

遍历文档的每一页

for i in range（pdf.Pages.Count）:

获取页面

page = pdf.Pages.get_Item（i）

从页面提取文本

text = page.ExtractText（）

将文本写入TXT文件

extractedText.write（text + '\n'）

pdf.Close（）

请根据你的具体需求选择合适的方法来提取文件内容

python提取文件夹下指定文件_python用pip下载模块

相关推荐