我尝试根据第四列中的值填充另两列中的一列中的值。
我有一个包含四列的pandas数据帧: A、B、C、D
df_copy = df.copy()
for i, row in df.iterrows():
if 'Test' in row.D:
df_copy.loc[i, 'A'] = row.B
elif 'Other' in row.D:
df_copy.loc[i, 'A'] = row.C
这是可行的,但速度非常慢。有没有更有效的方法?
我有下面的python列表。
lst=['name','age','country‘
火花数据帧在下面。
column_a
name Xxxx, age 23, country aaaa
name yyyy, age 25, country bbbb
我必须将列表与列进行比较,并从该列中删除列表中的值。
预期产出如下:
column_a
Xxxx, 23, aaaa
yyyy, 25, bbbb
我有一个大约2M字符串的列表和一个大约800个单词的列表。我已经创建了一个数据帧,其中字符串作为行,单词作为列。除了字符串变量之外,所有其他变量都是true或false值,与单词是否在字符串中相对应。不存在缺失值。 即 import pandas as pd
df = pd.DataFrame({'strings':['a string with california',
'a string with lobster',
我正在尝试在充满组织名称的PANDAS列中寻找潜在的匹配项。我目前正在使用iterrows(),但它在大约有70,000行的数据帧上非常慢。在查看了StackOverflow之后,我尝试实现了一个lambda row (apply)方法,但这似乎几乎不能加快速度。
数据帧的前四行如下所示:
index org_name
0 cliftonlarsonallen llp minneapolis MN
1 loeb and troper llp newyork NY
2 dauby o'connor and zaleski llc carmel IN
3 wegner c
我正在尝试做一些相对简单的事情,即对包含特定字符串的pandas数据帧中的所有列求和。然后使其成为数据帧中来自sum的新列。这些列都是数值浮点值... 我可以获取包含所需字符串的列的列表 StmCol = [col for col in cdf.columns if 'Stm_Rate' in col] 但是当我尝试对它们求和时:cdf['PadStm'] = cdf[StmCol].sum() 我得到了一个充满"nan“值的新列。
我有一个数据帧,其中的列遵循一定的命名约定。我只想保留那些在标题中有'out‘和'agg’作为前缀的内容。 我已经起草了以下代码来实现这一点。我创建了一个列表,这样我就可以让它成为一个小函数,并为我想要提取的col前缀的任何组合调用它。 prefix = ['out', 'agg']
cols = []
for pref in prefix:
cols = cols + [col for col in df.columns if pref in col]
df = df[cols].dropna(how='all', a
我想在excel数据帧中创建一个新的列"HQ_LOC",它接受来自wharton['conm']的字符串j作为值
xls = excel[(excel['prowess_compustat_h1b'] == 1) | (excel['compustat_h1b'] == 1)]
excel['HQ_LOC'] = pd.Series([])
for name in xls["coname"]:
for j in wharton['conm']:
if nam
我在python中有以下数据帧,它们是列表的一部分。 dataframe_list= []## CREATE AN EMPTY LIST
import pandas as pd
A=pd.DataFrame()
A["name"]=["A", "A", "A"]
A["att"]=["New World", "Hello", "Big Day now"]
B=pd.DataFrame()
B["name"]=["A2", "A
pandas drop_duplicates函数非常适合用来“唯一”一个数据帧。但是,要传递的关键字参数之一是take_last=True或take_last=False,而我希望删除列的子集上重复的所有行。这个是可能的吗?
A B C
0 foo 0 A
1 foo 1 A
2 foo 1 B
3 bar 1 A
例如,我想删除与列A和C匹配的行,因此应该删除第0行和第1行。
假设我在Pandas中有一个数据帧:
import pandas as pd
import numpy as np
df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),
'B': 'one one two three two two one three'.split(),
'C': '0 1 2 3 4 5 6 7'.split(),
使用此示例pandas df: ColA ColB ColC
Apple Fruit Food
Apple Fruit Pie
Apple Arrow Story 我正在尝试滚动数据帧,如果当前行中的ColA和ColB中的值与前一行中的值相同,则只删除这两列的当前行值。 预期的结果将是: ColA ColB ColC
Apple Fruit Food
Pie
Apple Arrow Story 我尝试使用iloc执行各种循环,获取这两列的当前行值,将它们存储在一个变量中,然后检查后续行是否相同。然而,在我的5行测试数据中,不断收
我正在尝试合并两个都有'product_desc‘列的数据帧。我使用的是Pandas 0.13和Python 2.7。
small_df = pd.merge(small_df, linregress_df, on = 'product_desc', how = 'left')
但是,我得到以下错误:
pandas.core.index.InvalidIndexError: Reindexing only valid with uniquely valued Index objects
我将两个数据帧导出到平面文件中,其中的索引或其他列都没有重复值。我需