Python缺失值处理完全指南

1. 缺失值概述与影响

缺失值在真实世界数据集中普遍存在，指数据集中某些观测值或变量的缺失情况。在Python中通常表示为NaN（Not a Number）或None。

缺失值的主要影响：

导致统计分析偏差
降低机器学习模型性能
造成算法执行错误
减少可用数据量

正确处理缺失值是数据预处理的关键步骤，直接影响后续分析和建模的质量。

2. 缺失值检测方法

使用Pandas可以高效检测数据集中的缺失值：

基本检测方法

import pandas as pd
import numpy as np

# 创建示例数据集
data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, np.nan, 8],
        'C': [10, 20, 30, 40]}
df = pd.DataFrame(data)

# 检测缺失值
print("缺失值统计:")
print(df.isnull().sum())

print("\n数据集摘要:")
print(df.info())

print("\n可视化缺失值:")
import missingno as msno
msno.matrix(df)

输出结果:

缺失值统计:
A: 1
B: 2
C: 0

可视化效果:

缺失值矩阵图

3. 删除缺失值

当缺失数据量较少或对分析影响不大时，可考虑删除缺失值。

删除行或列

# 删除包含任何缺失值的行
df_dropped = df.dropna()

# 删除缺失值超过阈值的行
df_threshold = df.dropna(thresh=2)  # 保留至少2个非空值的行

# 删除缺失值严重的列
df_drop_col = df.dropna(axis=1, thresh=3)  # 保留至少3个非空值的列

注意事项：

删除行会减少样本量，可能影响统计分析
删除列会丢失特征信息，需谨慎评估
当缺失值比例超过15%时，删除法通常不可取

4. 填充缺失值

填充是处理缺失值最常用的方法，有多种策略可供选择。

简单填充方法

# 用固定值填充
df_filled = df.fillna(0)

# 用列均值填充
df['A'].fillna(df['A'].mean(), inplace=True)

# 用列中位数填充
df['B'].fillna(df['B'].median(), inplace=True)

# 用众数填充（分类变量）
df['Category'].fillna(df['Category'].mode()[0], inplace=True)

高级填充技术

# 前向填充（ffill）
df_ffill = df.fillna(method='ffill')

# 后向填充（bfill）
df_bfill = df.fillna(method='bfill')

# 插值法（线性插值）
df_interpolate = df.interpolate(method='linear')

# 使用KNN填充
from sklearn.impute import KNNImputer
imputer = KNNImputer(n_neighbors=2)
df_knn = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)

方法选择建议：

时间序列数据： 前向/后向填充或插值法
连续变量： 均值、中位数或KNN填充
分类变量： 众数填充或创建新类别
高维数据： 使用机器学习模型预测填充

5. 高级处理技术

模型预测填充

from sklearn.ensemble import RandomForestRegressor

# 分离有缺失值和完整的数据
missing = df[df['A'].isnull()]
complete = df[~df['A'].isnull()]

# 准备训练数据
X_train = complete.drop('A', axis=1)
y_train = complete['A']

# 训练模型
model = RandomForestRegressor()
model.fit(X_train, y_train)

# 预测缺失值
X_missing = missing.drop('A', axis=1)
predicted = model.predict(X_missing)

# 填充回数据集
df.loc[df['A'].isnull(), 'A'] = predicted

多重插值法（MICE）

from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

# 创建MICE插值器
mice_imputer = IterativeImputer(
    max_iter=10, 
    random_state=42,
    estimator=BayesianRidge()
)

# 应用多重插值
df_mice = pd.DataFrame(
    mice_imputer.fit_transform(df),
    columns=df.columns
)

多重插值法通过多次迭代产生多个填充数据集，能更好地处理缺失值的不确定性。

6. 最佳实践总结

缺失值处理策略选择

缺失值比例 < 5%

直接删除或使用简单填充

5% ≤ 比例 ≤ 15%

使用插值法或KNN填充

比例 > 15%

使用模型预测或多重插值法

通用最佳实践

始终从理解缺失机制开始（MCAR、MAR、MNAR）
可视化缺失模式后再决定处理策略
对训练集和测试集使用相同的处理方法
考虑创建"缺失指标"特征作为模型输入
记录处理过程以便结果复现
比较不同方法对最终模型的影响

关键要点总结

缺失值处理没有万能方案，最佳方法取决于：

数据类型缺失比例缺失机制分析目标

Python缺失值处理完全指南 - 数据清洗必备技巧

1. 缺失值概述与影响

缺失值的主要影响：

2. 缺失值检测方法

基本检测方法

输出结果:

可视化效果:

3. 删除缺失值

删除行或列

注意事项：

4. 填充缺失值

简单填充方法

高级填充技术

方法选择建议：

5. 高级处理技术

模型预测填充

多重插值法（MICE）

6. 最佳实践总结

缺失值处理策略选择

缺失值比例 < 5%

5% ≤ 比例 ≤ 15%

比例 > 15%

通用最佳实践

关键要点总结

参考资料

相关主题

Python输入输出与格式化字符串方法详解 - 一看就懂的教程

Python字符保存教程 - 如何高效保存字符串数据 | Python编程指南

发表评论取消回复

Python缺失值处理完全指南 - 数据清洗必备技巧

1. 缺失值概述与影响

缺失值的主要影响：

2. 缺失值检测方法

基本检测方法

输出结果:

可视化效果:

3. 删除缺失值

删除行或列

注意事项：

4. 填充缺失值

简单填充方法

高级填充技术

方法选择建议：

5. 高级处理技术

模型预测填充

多重插值法（MICE）

6. 最佳实践总结

缺失值处理策略选择

缺失值比例 < 5%

5% ≤ 比例 ≤ 15%

比例 > 15%

通用最佳实践

关键要点总结

参考资料

相关主题

Python输入输出与格式化字符串方法详解 - 一看就懂的教程

Python字符保存教程 - 如何高效保存字符串数据 | Python编程指南

相关文章

发表评论取消回复