持续更新中……
本文记录机器学习中常见的处理数据的方法,作为一个速查手册。包含了Pandas
,Numpy
,Matplotlib
等各种库的实用方法。
Pandas
1. 查看某列的唯一取值
data['column'].unique()
2. 统计数据集的空值列
data.isna().sum()
或
data.isnull().sum()
3. 统计指定列包含空值的行数
data['column'].isnull().sum()
4. 统计每列值不为空的行数
data.count()
5. 删除某列
data.pop('column')
6. 获取某列的值为空的所有数据
tmp = data[data['column'].isnull()]
7. 获取某列的值等于指定值的所有数据
tmp = data[data['column'] == 'value']
8. 获取空值行,即任意列包含空值的行
tmp = data[data.isnull().T.any()]
或
tmp = data[data.isnull().values == True]
9. 获取指定列的空值行
tmp = data[data['column'].isnull().values == True]
10. 为某列的空值填补数据
data['column']=data['column'].fillna('value')
11. 删除空值行
data = data.dropna()