python找出数据异常值_判断一组数据异常值的方法

激活谷笔记 • 2025-02-03 14:49 • 阅读 182

在Python中，可以通过多种方法来识别异常值。以下是一些常用的方法：

使用`describe（）`函数:

 import pandas as pd data = pd.Series（[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100]） print（data.describe（））

绘制箱线图:

 import matplotlib.pyplot as plt import seaborn as sns data = pd.Series（[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100]） sns.boxplot（data=data） plt.show（）

使用Z-score方法:

 from scipy import stats data = pd.Series（[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100]） z_scores = stats.zscore（data） outliers = data[np.abs（z_scores） > 3] print（outliers）

使用IQR方法:

 Q1 = data.quantile（0.25） Q3 = data.quantile（0.75） IQR = Q3 - Q1 outliers = data[（data < Q1 - 1.5 * IQR） | （data > Q3 + 1.5 * IQR）] print（outliers）

使用孤立森林（Isolation Forest）:

 from sklearn.ensemble import IsolationForest data = pd.Series（[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100]） model = IsolationForest（） model.fit（data.values.reshape（-1, 1）） outliers = data[model.predict（data.values.reshape（-1, 1）） == -1] print（outliers）

使用DBSCAN聚类算法:

 from sklearn.cluster import DBSCAN data = pd.Series（[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100]） dbscan = DBSCAN（eps=10, min_samples=2） outliers = data[dbscan.fit_predict（data.values.reshape（-1, 1）） == -1] print（outliers）

以上方法可以帮助您识别数据集中的异常值。您可以根据数据的特点和需求选择合适的方法

python找出数据异常值_判断一组数据异常值的方法

相关推荐