数据预处理的10个小技能，附Pandas实现

发布时间：2020-12-15 20:00:43 所属栏目：优化来源：Python与算法社区

导读：数据预处理常用的处理步骤，包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category转数值等，下面使用 pandas 解决这些最常见的预处理任务。找出异常值常用两种方法：标准差法：异常值平均值上下1.96个标准差区间以外的值

In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} )) In [53]: df['a'].rank(ascending=False) Out[53]: 0 4.0 1 2.0 2 1.0 3 3.0 4 5.0

技能10：category列转数值

某列取值只可能为有限个枚举值，往往需要转为数值，使用get_dummies，或自己定义函数：

pd.get_dummies(df['a'])

自定义函数，结合 apply:

def c2n(x): if x=='A': return 95 if x=='B': return 80 df['a'].apply(c2n)

以上结合数据预处理的十个小任务，分别找到对应pandas中的实现。

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

选择短网址的好处是可	解决百度显示移动端快
为了提高网站的安全加	关于网站权重优化难题