我有一个简历数据集,我想从每一份简历中提取数据,我将给出一个示例来说明我需要什么。
String test= "Worked in Innovision Information System Private Limited as Project Trainee-Content Writing from Date to Date.";
我想提取company name、role (designation)和Date (From-to)
我是新手,所以如果我错了,请纠正我
我第一件事就是试着把它们分别提取出来
String regexStr5="Worked in:? \\
我有几行像这样的行作为文件的一部分
the jdbc:mondrian:DataSource=abcd_datasource
the jdbc:mondrian:DataSource=efgh_datasource
the jdbc:mondrian:DataSource=hijk_datasource
the jdbc:mondrian:DataSource=lmno_datasource
我想提取字符串'abcd','efgh','hijk','lmno‘
怎么把它们提取出来?到目前为止,我尝试过的是:-
datasource_de
我有台词
var=2 (0 (1 "a" "b")) (1 (2 "a" "b")) (2)
我想把两个a都提取出来,放到一个字符串x里,把b都提取出来,放到另一个字符串y里,这只是个例子,但是引号里的字符串可以是任意长度的。我还有一个想法,那就是做一个数组,
array[0] = a
array [1] = b
array[2] = a
array[3] = b
执行此操作所需的代码是什么?
helpful
'[2, 4]'
'[0, 0]'
'[0, 1]'
'[7, 13]'
'[4, 6]'
列名helpful在字符串中有一个列表。我想把2和4分割成不同的列。
[int(each) for each in df['helpful'][0].strip('[]').split(',')]
这是第一行,但是如果我这样做的话
[int(each) for each in df['helpful'].strip('[]').s