我有一个非常大的csv文件(5GB),所以我不想将整个文件加载到内存中,我想删除它的一个或多个列。我尝试在blaze中使用以下代码,但它所做的只是将结果列附加到现有的csv文件中:
from blaze import Data, odo
d = Data("myfile.csv")
d = d[columns_I_want_to_keep]
odo(d, "myfile.csv")
有没有办法用熊猫或烈火只保留我想要的栏目,删除其他栏目呢?
假设我有一张汽车表格。我有品牌栏目,还有栏目模型。标记可以重复。我所做的是一个查询,它在模型中的一列和另一列中显示标记,并在另一列中为每个汽车品牌生成一个数字,该数字必须向上移动。在下面的示例中,显示我的查询结果应该是怎样的。
Brand Model Brand Number
--------------- ----------------------- ---------------------
Ford Ranger 1
Ford
我有一个dataframe,df,列的名称不是单词,就是日期。我只想保留列的名字,或一些特定的日期。特别是“数据”中有“价格”、“原产地”、“公司”和1980至2008年的栏目,我只想保留1996年至2008年这几年,以及那些以文字作为列名的栏目。
这是我编写的代码,但我确信有一种更简短、更优雅的方法可以做到这一点:
columns_to_keep = list()
for c in df.columns.values:
if c.isdigit():
if int(c) > 1995:
columns_to_keep.append
我想从SQL表中删除前导零。我加入了3个栏目作为一个栏目。示例 col1 col2 col3
00000 S Gaskin Road
N Broad Street
00001 John Rolfe Road 我想要的结果是: 1 0 S Gaskin Road or just S Gaskin Road
2 N Broad Street
3 1 John Rolfe Road 这是我加入的脚本3列 ,COALESCE(CASE