数据预处理的10个小技能,附Pandas实现
发布时间:2020-12-15 20:00:43 所属栏目:优化 来源:Python与算法社区
导读:数据预处理常用的处理步骤,包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category转数值等,下面使用 pandas 解决这些最常见的预处理任务。 找出异常值常用两种方法: 标准差法:异常值平均值上下1.96个标准差区间以外的值
In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} )) In [53]: df['a'].rank(ascending=False) Out[53]: 0 4.0 1 2.0 2 1.0 3 3.0 4 5.0 技能10:category列转数值 某列取值只可能为有限个枚举值,往往需要转为数值,使用get_dummies,或自己定义函数: pd.get_dummies(df['a']) 自定义函数,结合 apply: def c2n(x): if x=='A': return 95 if x=='B': return 80 df['a'].apply(c2n) 以上结合数据预处理的十个小任务,分别找到对应pandas中的实现。
(编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐