Python数据处理的坑
今天用 Pandas 处理数据,踩了好几个坑,记录一下。
第一个坑:编码问题
读取 CSV 文件的时候一直报错,后来发现是编码问题。Windows 上保存的 CSV 默认是 GBK 编码,得指定一下:
第二个坑:SettingWithCopyWarning
这个警告看得我一脸懵,查了半天才知道是因为直接在切片上修改数据。
错误写法:
正确写法:
第三个坑:空值处理
Pandas 里空值是 NaN,但有时候数据里会有 None、空字符串、’null’ 这种,得先统一处理一下。
今天就这样,数据处理真的很费时间,感觉 80% 的时间都在清洗数据…
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 PFZ7Z7 的学习笔记!