我在Pandas DataFrame的一个列(COL_NAME)中获得了一些数据。我想提取“(”和“)”之间的一些文本(这些数据要么存在,要么根本不存在,尽管数据中可能有多组括号)。然后,我想将paren中的数据写入另一列,然后从原始字符串中删除'(XXX)‘。
也就是说。
COL_NAME
========
(info) text (yay!)
I love text
Text is fun
(more info) more text
lotsa text (boo!)
转换为:
COL_NAME NEW_COL
======== =======
我有一个数据框架,在一列中,我有一个全文,其中有多个非常长的句子。我使用NLTK对文本进行标记化,但现在我需要确保只从给定的完整单词的长列表中提取包含任意单词的句子。我写了下面的代码,但它的问题是,它不是作为一个整体检查文本中的单词,而是例如在搜索列表中找出一个给定的单词,比如'tic',它选择一个包含单词‘统计’的句子。
symptoms = [long list of words ~ about 100]
new_df = df[df['Sentence'].str.contains('|'.join(symptoms))]
就在这段代码之上
我有两个数据帧: longdf和shortdf。longdf是‘master’列表,我需要基本上匹配从shortdf到Longdf的值,那些匹配的值,替换其他列中的值。longdf和shortdf都需要大量的数据清理。
我们的目标是达到df的“目标”。我正在尝试使用for循环,其中我希望1)提取df单元格中的所有数字,以及2)从单元格中去掉空白/单元格空间。首先:为什么这个for循环不能工作?第二:有没有更好的方法呢?
import pandas as pd
a = pd.Series(['EY', 'BAIN', 'KPMG', 'E
我的输入数据:
df=pd.DataFrame({'A':['adam','monica','joe doe','michael mo'], 'B':['david','valenti',np.nan,np.nan]})
print(df)
A B
0 adam david
1 monica valenti
2 joe doe NaN
3 michael mo NaN
我在python中有以下数据帧,它们是列表的一部分。 dataframe_list= []## CREATE AN EMPTY LIST
import pandas as pd
A=pd.DataFrame()
A["name"]=["A", "A", "A"]
A["att"]=["New World", "Hello", "Big Day now"]
B=pd.DataFrame()
B["name"]=["A2", "A
我知道如何从单列(' from ') DataFrame中删除行,其中行包含一个字符串,例如给定的df和somestring。
df = df[~df.From.str.contains(someString)]
现在,我希望做一些类似的事情,但这一次我希望删除包含在另一个list的任何元素中的字符串的任何行。如果我不使用熊猫,我会使用for和if ... not ... in方法。但我如何利用熊猫自身的功能来实现这一点呢?给定要删除的项列表(从逗号分隔的字符串EMAILS_TO_IGNORE文件中提取),我尝试:
with open(EMAILS_TO_IGNORE) as
我有两个问题。Q1:如何通过从主数据帧中提取一些列来子集数据。例如,我使用dfac作为数据格式。
ac<-c("a","b","c","d")
dc<-c(1,4,4,3)
bc<-c(1,1,0,0)
dfac<-data.frame(ac,dc,bc)
我需要一个名为subdf的子集df,方法是从主dataframe "dfac"中提取列"ac", and "bc"。我怎么能在R里做到这一点?输出应
subdf ac bc
a 1
我正在尝试从pandas dataframe中列的行中的字符串数据中仅提取文本部分到新列中。 当我尝试这样的东西时: import pandas as pd
import re
df = pd.DataFrame({"Id": [1,2] , "Text" : ["This is 20/06/2019; 00:13:45; Time stamp", "This is another 23/04/2019 11:23:35 Time stamp"]})
print(df) 我得到了一个数据帧,如下: Id
我已经将一整列从excel表格中读取到了数据框架中。该列中的每个单元格都有一串带数字的单词(如电话号码)。如何使用正则表达式循环数据帧并使用特定模式提取数字。
我已经尝试了以下代码
for i in (df):
df.str.contains('(4[0-9]{12}([0-9]{3})|[25][1-7][0-9]{14}|6(011|5[0-9][0-9])[0-9]{12}|3[47][0-9]{13}')
我知道我的正则表达式是错误的,但我得到了以下错误。
编辑:我已经更新了我的正则表达式。单元格的数据如下
“你好,我想订点东西……我的卡号是45621……”我想
我有很多文档文件需要转换成Dataframe。我的文档文件无法直接转换,因为我收到一条错误消息:Test.doc' is not a Word file, content type is 'application/vnd.openxmlformats-officedocument.themeManager+xml。如果我将我的doc文件转换成docx,我就可以将数据提取到dataframe中。 问题是我正在使用的函数需要一个docx文件(output_file)的路径来进行转换,并且我必须在最后通过代码删除docx文件。我更喜欢将docx数据存储在内存中,并从中提取数据到da
我是一个编码新手,我通常使用R来实现这一点(stringr),但我开始学习Python的语法。
我有一个数据框架,其中一个列是从导入的excel文件中生成的。该列中的值同时包含大写字符和小写字符、符号和数字。
我想根据regex模式在数据框架中生成第二列,其中只包含第一列中的一些单词。
df = pd.DataFrame(["THIS IS A TEST 123123. s.m.", "THIS IS A Test test 123 .s.c.e", "TESTING T'TEST 123 da."],columns=['Test
我已经提取了用户的tweet和位置以及其他重要的tweet信息。下一步是提取水位数据(即,如果tweet有一个'number‘后跟'm’或‘m’,则可以将其视为水位数据。 数据集示例如下('text‘是提取的tweet的列名,'df’是可以找到'text‘列的数据框的名称): text
there is 12m water here
I saw a 5m wave height 我尝试使用以下代码: length = len(df['text'])
for i in range(length):
if df.loc[df[
假设我有两个数据帧:
sub = pd.DataFrame(['Little Red', 'Grow Your', 'James Bond', 'Tom Brady'])
text = pd.DataFrame(['Little Red Corvette must Grow Your ego', 'Grow Your Beans', 'James Dean and his Little Red coat', 'I love pasta'])
一个包含各种主题,另一个文
我有一个包含财务数据的pandas数据框,并希望从特定列的每个单元格中提取任意10位数字。单元格可以看起来像这样:'RECLASS 1239875309823 APPLE 0123456789 INV‘。10位数字可以位于字符串的开头,恰好在结尾之前,也可以位于字符串之间的任意位置。有没有办法我可以写一个函数,它不需要永远运行?(Dataframe有超过100k的行)
我有下面这组代码,在这些代码中,我在从名为df的源数据帧中提取一些数据后,执行一些基于操作的操作。 Customer_data = []
for i in range(0, len(df)):
try:
Customer = (re.search(r'(Customer"=>).*?(,)', df[i]).group(0).split('=>')[1].replace('"','').replace(',',''))
except:
我是Python/Pandas的新手,正在努力从pd.Dataframe中提取正确的数据。我实际拥有的是一个包含3列的Dataframe:
data =
Position Letter Value
1 a TRUE
2 f FALSE
3 c TRUE
4 d TRUE
5 k FALSE
我想要做的是将所有真正的行放入一个新的Dataframe中,这样答案将是:
answer =
Position Letter Value
1 a TRUE
3