我有一个熊猫数据帧"df“。在这个数据帧中,我有多个列,其中一列必须是子字符串。假设列名是"col“。我可以像下面这样运行"for“循环并子串该列:
for i in range(0,len(df)):
df.iloc[i].col = df.iloc[i].col[:9]
但我想知道,如果有一个选项,我不需要使用"for“循环,而是直接使用属性,我有大量的数据,如果我这样做,数据将需要非常长的时间处理。
我还是个R的新手,我想不通。我有一个数据帧,看起来像这样: Age State Diagnosis
12 Texas Lung Cancer
67 California Colon Cancer
45 Wyoming Lung Cancer
36 New Mex. Leukemia
58 Arizona Colon Cancer
35 Colorado Leukemia 我需要一个程序,以某种方式打印或添加到另一个数据帧中的所有不同的字符串,位于每一列。所以我
我有几个数据帧,其中包含单列。假设我有4个这样的数据帧,都有一列。如何通过组合所有数据帧来形成单个数据帧?
val df = xmldf.select(col("UserData.UserValue._valueRef"))
val df2 = xmldf.select(col("UserData.UserValue._title"))
val df3 = xmldf.select(col("author"))
val df4 = xmldf.select(col("price"))
为了结合起来,我尝试这样做,但它不起作用:
v
我想使用pandas数据帧中的第一列作为行索引,所以我尝试使用来实现,但这样做的副作用是添加了额外的列索引。
(运行选项InteractiveShell.ast_node_interactivity = "all"的jupyter notebook代码):
import pandas as pd
df = pd.DataFrame([[l+r*10 for l in range(1, 5)] for r in range(1, 5)])
df # before
df.set_index(0, inplace=True)
df # after
set_index()之前的
使用apply系列中的函数可以很容易地加速R中的循环。如何在下面的代码中使用apply函数来加快速度?注意,在循环内,在每次迭代中,一列被置换,并且函数被应用于新数据帧(即,具有一列置换的初始数据帧)。我似乎不能让apply工作,因为新的数据帧必须在循环中构建。
#x <- data.frame(a=1:10,b=11:20,c=21:30) #small example
x <- data.frame(matrix(runif(50*100),nrow=50,ncol=100)) #larger example
y <- rowMeans(x)
start <- S
我希望将具有相似数据的大量列合并为一列。dataframe中的行有很多空单元格,因为每行都有自己的列来存储这些相似的数据。例如:
Name Weight Addressw Addressx Addressy Addressz
A 10 11 g place
B 15 6, corner
C 24 15, lane garbage
D 33 51, str
有办法系统地选择数据帧的最后一列吗?我希望能够将最后一列移动为第一列,但在它们被移动时保持它们的顺序。我需要一种不使用子集( data,select =c(在新顺序中列出的所有列)列出所有列的方法),因为我将使用许多不同的数据框架。
下面是一个示例,我想将最后2列移到数据帧的前面。很管用,但很难看。
A = rep("A", 5)
B = rep("B", 5)
num1 = c(1:5)
num2 = c(36:40)
mydata2 = data.frame(num1, num2, A, B)
# Move A and B to the front of