python读取数据文件csv_python打开csv文件

激活谷笔记 • 2025-01-26 14:36 • 阅读 125

在Python中，读取大容量CSV文件通常需要考虑内存效率，因为直接读取整个文件可能会导致内存不足。以下是一些有效的方法来读取大型CSV文件：

1. 使用`pandas`库的`read_csv`函数，并设置`chunksize`参数。`chunksize`参数允许你指定每次读取的行数，从而避免一次性加载整个文件到内存中。

 import pandas as pd 读取CSV文件，每次读取1000行 chunksize = 1000 for chunk in pd.read_csv（'file.csv', chunksize=chunksize）: 处理每个chunk print（chunk.head（10））

2. 使用Python内置的`csv`模块，通过`csv.reader`逐行读取文件内容。

 import csv with open（'file.csv', 'r', encoding='GB2312'） as csvfile: reader = csv.reader（csvfile） for row in reader: 处理每一行数据 print（row, row, row）

3. 使用`csv.DictReader`，它可以将CSV文件的每一行作为一个字典返回，便于按列名访问数据。

 import csv with open（'file.csv', 'r', encoding='GB2312'） as csvfile: reader = csv.DictReader（csvfile） for row in reader: 处理每一行数据 print（row['column1'], row['column2']）

4. 使用`pandas`的`read_csv`函数，并设置`iterator=True`参数，这样`read_csv`会返回一个迭代器，可以按需获取数据块。

 import pandas as pd 读取CSV文件，每次读取1000行 chunksize = 1000 file = pd.read_csv（'file.csv', iterator=True, chunksize=chunksize） for chunk in file: 处理每个chunk print（chunk.head（10））

选择合适的方法取决于你的具体需求，包括文件的大小、列的数量以及你希望如何处理数据。使用`chunksize`参数是处理大型CSV文件时内存管理的一个有效策略

python读取数据文件csv_python打开csv文件

相关推荐