我对Pythonand还比较陌生,完全是Pandas的新手,所以我很抱歉,如果这真的很简单的话。我有一个dataframe,我想对特定列中的所有元素进行操作,但前提是具有相同索引的不同列满足特定条件。
float_col int_col str_col
0 0.1 1 a
1 0.2 2 b
2 0.2 6 None
3 10.1 8 c
4 NaN -1 a
例如,如果float_col中的值大于
我有两个熊猫数据帧:
数据帧1:
ITEM ID TEXT
1 some random words
2 another word
3 blah
4 random words
数据帧2:
INDEX INFO
1 random
3 blah
我想要将( dataframe 2的) INFO列的值与dataframe 1的TEXT列进行匹配。如果匹配,我希望看到一个新的列带有"1“。
如下所示:
ITEM ID TEXT MATCH
1 some random words
我有一个R DataFrame,我想用它再做一个DF,但是只有在一个确定列中出现超过X次的值。
>DataFrame
Value Column
1 a
4 a
2 b
6 c
3 c
4 c
9 a
1 d
例如,只有列中的值出现超过2次的新DataFrame才能得到如下内容:
>NewDataFrame
Value Column
1 a
4 a
6
我有一个简单的熊猫DataFrame,在这里我需要添加一个新的列,该列显示“current_price”在一系列其他列“价格表”中出现的“计数”,与current_price列匹配:
import pandas as pd
import numpy as np
# my data
data = {'Item':['Bananas', 'Apples', 'Pears', 'Avocados','Grapes','Melons'],
'Jan':[1,
下面是我的数据的一个例子:
import pandas as pd
data = {'Text':['This is an example,',
'Another sentence is here.',
'Lets have fun.',
'this happened weeks ago.',
'I am not sure what to put here.',
我想要做的是为11410个字符串创建一个单词包,然后在单词列的末尾追加我存储在另一个dataframe中的结果。我有一个带有“结果”列的dataframe,我试图将它作为一个新列附加到我现有的单词包数据框旁边。但是,我得到了一个列,其中充满了'NaN‘值。
我的dataframe维度是11410 x 111,我想在末尾添加我的dataframe列作为新列。我的代码如下
bow = vectorizer.fit_transform(df_train['text']) #creates the vectorizer with the bag of words
bow_df
这里有个新手。我有一个dataframe genes,它包含两列:Index和Name,例如:
Index Name 1 A 2 B 3 C 4 D
另一个dataframe similarity包含6-7列,其中一个列是Members,它包含由空格分隔的不同Index值,如:
Members 1 3 5 7 3 7 6 9 2
我想要做的是通过匹配dataframe Names中的index列来替换索引到genes。如果在genes上找不到索引,我只想把N
我正在从数据库中生成一个会议名称列表,并试图将它们填充到另一个dataframe的列中。由于某些原因,它无法工作并返回NaN。有人能帮我解释一下为什么会这样吗?为什么最后一行不做它应该做的事?
df_conf = pd.read_sql("select distinct Conference from publications where year>=1991 and length(conference)>1 order by conference", db)
df_if= pd.DataFrame(index=df_conf['Conference
我有两个数据流,每个都有一个名为Song的列。然而,有时歌曲的拼写是不同的。我如何使用difflib (或类似的东西)在另一个dataframe的新列中获得一个dataframe的歌曲拼写?
例:
Dataframe1
Song Artist
like a virgi madonna
Dataframe2
Song Rank
like a virgin 2
Result
Song Artist SongAlt
like a virgin Madonna like a virgi
我有两只熊猫,A和B。
数据格式具有相同的索引和列,只是不同的数据。我有一个额外的数组X,它是索引的子集。
我想要实现的是:生成的矩阵C,它也具有与A、和B相同的索引和列。对于其数据,它从dataframe A获取行条目,如果索引在X中,则从B获取行条目。
我以为会有一种仿生的方法来实现这一点,但他们不编译。例如,我用A的索引创建了一个C数据格式,然后尝试如下:
C = C.apply(lambda i: A.ix[i.index] if i in X else B.ix[i.index])
我有一些东西正在起作用,我基本上是用数学来解决它的。因此,我创建了两个基于X的布尔数组,分别指定A、和
寻找一些帮助从文本中提取关键字。我有两个数据帧。第一个dataframe有description列,而另一个数据帧只有一个带有关键字的列。
我希望在description字段上搜索dataframe2中的关键字,并在dataframe1中创建一个具有匹配关键字的新列。如果有多个关键字,我需要新添加的列,所有关键字都用逗号分隔,如下所述。
Dataframe2
Keywords
New
FUND
EVENT
Author
book
Dataframe1
ID NAME Month DESCRIPTION Keywords
12 x1 Jan
我想检查一个dataframe中的列中的值是否存在于另一个dataframe的列中。如果存在,则将该值添加到第二个dataframe中同一行的新列中。所有值都是字符串值。两个数据帧的大小不同。第二个数据帧也有大约70万条记录。因此,我拥有的数据帧:
DF1
THINGS
book+pen
CAR
chair
laptop
DF2
Description
I want a new book.
I will pen down this things
A quick ride in my new car.
Cars are awesome.
My laptop's memory is b
我正在尝试从pandas dataframe中列的行中的字符串数据中仅提取文本部分到新列中。 当我尝试这样的东西时: import pandas as pd
import re
df = pd.DataFrame({"Id": [1,2] , "Text" : ["This is 20/06/2019; 00:13:45; Time stamp", "This is another 23/04/2019 11:23:35 Time stamp"]})
print(df) 我得到了一个数据帧,如下: Id
当日期介于2015-01-01和2015-03-01之间时如何获取列值,或者为2015-01-01和2015-03-01之间的日期创建所有列的新DataFrame
这是我当前的代码:
from datetime import date
from nsepy import get_history
sbin = get_history(symbol='SBIN',
start=date(2015,1,1),
end=date(2015,1,10))
这是输入数据:
Symbol Ser
假设,
有一个dataframedf_acc由columnsAccount_No,Phone_No组成
另一个dataframedf_addr,由Account_No、City、State、Phone列组成
在这里,我想从columnPhone_no获取电话号码到dataframe df_addr,列‘Phone’使用Account_No作为参考。
我试过这样做,它成功地提取了值。
我的守则:
if (len(df_addr>0)):
for i in df_addr['Account_No'].index:
v_acc_no =