今天用 Pandas 处理数据,踩了好几个坑,记录一下。

第一个坑:编码问题

读取 CSV 文件的时候一直报错,后来发现是编码问题。Windows 上保存的 CSV 默认是 GBK 编码,得指定一下:

第二个坑:SettingWithCopyWarning

这个警告看得我一脸懵,查了半天才知道是因为直接在切片上修改数据。

错误写法:

正确写法:

第三个坑:空值处理

Pandas 里空值是 NaN,但有时候数据里会有 None、空字符串、’null’ 这种,得先统一处理一下。


今天就这样,数据处理真的很费时间,感觉 80% 的时间都在清洗数据…