如何用python数据清洗_爬虫爬取数据是否合法

激活谷笔记 • 2026-03-11 21:26 • 阅读 21

在Python中处理脏数据通常涉及以下几个步骤：

导入数据

使用Pandas库中的`read_csv（）`或`read_excel（）`方法将数据导入到Python环境中。

```python

import pandas as pd

导入CSV文件

df = pd.read_csv（'data.csv'）

导入Excel文件

df = pd.read_excel（'data.xlsx'）

处理缺失值
删除缺失值：使用`dropna（）`方法删除包含缺失值的行。```pythondf_cleaned = df.dropna（）

填充缺失值：使用`fillna（）`方法，可以填充特定值或列的平均值、中位数等。

```python

使用平均值填充

df_filled = df.fillna（df.mean（））

处理重复值
使用`duplicated（）`方法查找重复记录，并使用`drop_duplicates（）`方法删除它们。```python 查看重复值
print（df.duplicated（）.sum（））
 删除重复值
df_no_duplicates = df.drop_duplicates（）

处理异常值

使用IQR（四分位距）方法识别并过滤异常值。

```python

Q1 = df['Salary'].quantile（0.25）

Q3 = df['Salary'].quantile（0.75）

IQR = Q3 - Q1

定义异常值范围

lower_bound = Q1 - 1.5 * IQR

upper_bound = Q3 + 1.5 * IQR

过滤异常值

df_no_outliers = df[~（（df['Salary'] < lower_bound） | （df['Salary'] > upper_bound））]

数据类型转换
确保所有数据列类型一致，例如将字符串转换为日期时间对象。```pythondf['Date'] = pd.to_datetime（df['Date']）

数据清理后的保存

清洗后的数据可以保存到新的CSV或Excel文件中。

```python

保存到新的CSV文件

df_cleaned.to_csv（'cleaned_data.csv', index=False）

保存到新的Excel文件

df_cleaned.to_excel（'cleaned_data.xlsx', index=False）

以上步骤可以帮助你清洗数据，提高数据质量和准确性。

如何用python数据清洗_爬虫爬取数据是否合法

导入数据

处理缺失值

处理重复值

处理异常值

数据类型转换

数据清理后的保存

相关推荐