我有一个熊猫的数据帧,我正在从csv中读取。
我的一篇专栏文章的值包括NaN
、floats
和科学记数法,即5.3e-23
我的问题是,正如我在csv中读到的那样,熊猫将这些数据视为object dtype
,而不是它应该是的float32
。我猜是因为它认为科学记数法条目是字符串。
在读入之后,我尝试使用df['speed'].astype(float)
转换数据类型,并尝试在使用df = pd.read_csv('path/test.csv', dtype={'speed': np.float64}, na_values=['n/a'])
读入数据类型时指定数据类型。这将抛出错误ValueError: cannot safely convert passed user dtype of <f4 for object dtyped data in column ...
到目前为止,这两种方法都不起作用。我是不是遗漏了一些非常容易修复的东西?
this question似乎建议我可以指定可能抛出错误的已知数字,但如果可能的话,我更喜欢将科学记数法转换回浮点数。
编辑以根据注释中的请求显示CSV中的数据
7425616,12375,28,2015-08-09 11:07:56,0,-8.18644,118.21463,2,0,2
7425615,12375,28,2015-08-09 11:04:15,0,-8.18644,118.21463,2,NaN,2
7425617,12375,28,2015-08-09 11:09:38,0,-8.18644,118.2145,2,0.14,2
7425592,12375,28,2015-08-09 10:36:34,0,-8.18663,118.2157,2,0.05,2
65999,1021,29,2015-01-30 21:43:26,0,-8.36728,118.29235,1,0.206836151554794,2
204958,1160,30,2015-02-03 17:53:37,2,-8.36247,118.28664,1,9.49242000872744e-05,7
384739,,32,2015-01-14 16:07:02,1,-8.36778,118.29206,2,Infinity,4
275929,1160,30,2015-02-17 03:13:51,1,-8.36248,118.28656,1,113.318511172611,5
发布于 2015-12-01 17:35:58
我意识到是infinity
语句导致了我的数据中的问题。使用查找和替换来删除它是有效的。
@Anton Protopopov的回答和@DSM关于我没有输入df['speed'] = df['speed'].astype(float)
的评论一样有效。
谢谢你的帮助。
发布于 2015-12-01 06:40:35
发布于 2020-10-15 17:05:09
在我的例子中,使用pandas.round()是可行的。
df['column'] = df['column'].round(2)
https://stackoverflow.com/questions/34013790
复制相似问题