我试图使用regex从内容中提取字符序列,示例如下:
(类似于社交媒体帖子中的用户标签):
1.(这里有一个空位)@Mark Twain
@Mark Adam Twain
马克·亚当·吐温比尔·亨利
我使用了以下正则表达式:(\s)@(\w+)?\s?(\w+)?\s?(\w+)?
问题是,如果我键入以下字符序列,则不会检测到奇异子字符串:
For Example: @mark @sdshdg (@mark is detected but @sdshdg is not)
It detects both of them when @mark
不知何故,我无法在网上找到任何关于如何将模式设置为double \n的内容。我的特殊情况如下。我有一根绳子:
"1 Matt\n00:00:00,100 --> 00:00:01,500\nThis is said \nby Matt.\n\n2 Lucas\n00:00:01,700 --> 00:00:02,300\nWhile this is said by Lucas"
我只想提取digit\n和\n\n之间的文本。所以,就我来说,我想
This is said \nby Matt.
While this is said by Lucas
虽然我对RegEx
我需要提取双Male-Cat
a = "Male-Cat Male-Cat Male-Cat-Female"
b = re.findall(r'(?:\s|^)Male-Cat(?:\s|$)', a)
print (b)
['Male-Cat ']
c = re.findall(r'\bMale-Cat\b', a)
print (c)
['Male-Cat', 'Male-Cat', 'Male-Cat']
我需要提取树次数Male-Cat
a = "Male-Cat
我有一个URL列表,我想提取主URL来查看每个URL被使用了多少次。正如你可以想象的那样,有那么多的URL具有不同的符号。我尝试并编写了以下代码来提取主URL:
library(stringr)
library(rebus)
# Step 2: creating a pattern for URL extraction
pat<- "//" %R% capture(one_or_more(char_class(WRD,DOT)))
#step 3: Creating a new variable from URL column of df
#(it should be
我有一个很长的字符串,它有嵌套循环。我想从中提取一个模式。
String_Text:
some random texts......
........................
........................
{{info .................
.....texts..............
...{{ some text }}...... // nested parenthesis 1
........................
...{{ some text }}...... // nested parenthesis 2
..........
我有一些字符串,我试图提取其中出现的第三个数字(在R中)。这是一个示例字符串,它们都有相同的模式:
string = "Speaks 2 times (1%) for a total of 34 words (1%)."
我已经能够在str_extract(string, "[0-9]+")中得到第一个数字,但我不知道如何只取第三个数字(单词数)。任何帮助都将不胜感激!
请帮助我编写一个正则表达式来提取*之间的整个内容。
注意,*字符的数量可能会有所不同。
我尝试了(\*\n)([\s\S]*)(\n\*),但是它将所有东西分组为1块,而不是2块。
预期输出
1.
Thanks for contacting us
Regards,
XXX
2.
It wAS a pleasure talking with you
Good to see you today
测试字符串:
*******
Thanks for contacting us
Regards,
XXX
************
It wAS a pleasur
对于这个例子,下面的查询是如何工作的?
select regexp_substr('1,2,3','[^,]+', 1, level) abc
from dual
connect by regex
regexp_substr('1,2,3', '[^,]+', 1, level) is not null
查询是在找到的
另一个问题是,这个查询的效率有多高,例如3000个逗号分隔元素?
我正在努力提取字符串中的第一个单词"like“(如果"like”是第一个单词)中现有的和缺少的左搭配词:
test_string = c("like like like lucy she likes it and she's always liked it.")
使用str_extract_all和负字符类\\S,我得到了接近-但不够接近(奇怪地忽略了第二个搭配的"l“):
library(stringr)
unlist(str_extract_all(test_string, "(^|\\S+)(?=\\s?\\blike\\b)
我有这样的字符串模式:
Beginning through June 18, 2022 at Noon standard time\n
Jan 20, 2022
Beginning through April 26, 2022 at 12:01 a.m. standard time
我希望使用python提取数据部分预设在“通过”之后和"at“之前。
June 18, 2022
Jan 20, 2022
April 26, 2022
我可以使用re组提取长文本。
s ="Beginning through June 18, 2022 at Noon standard time&
我想提取两个由符号=连接的单词列表。regex代码适用于单独的列表,但不能组合使用。
示例字符串: bla word1="word2“blabla abc="xyz”bla bla
一个输出应该包含直接左边的=,即word1,abc,而另一个输出应该包含直接右的=,即没有引号的word2,xyz。
\w+(?==\"(?:(?!\").)*\")提取=的左边单词,即word1,abc
=\"(?:(?!\").)*\"提取词权=包含引号和=,即="word2",="xyz“
如何将这两个查询组合成一个输出两
我将以下内容存储在mysql数据库中:
%URL% https://google.com
%TEXT% Hello world!
%LARGETEXT% Hello
My name is ...
I am from ...
我的目标是使字符串封装在%到PHP数组键中,并且字符串是值。
问题是,我的regex不提取多行字符串。
以下是代码:
preg_match_all ("/%(\w+)%(.*)/", $msg, $matches);
它的产出如下:
[1]=>
array(3) {
[0]=>
string(5) "BASIC
我有一个向量
a <- seq(from =1, to = 25, by = 2)
[1] 1 3 5 7 9 11 13 15 17 19 21 23 25
我想提取与向量中11的值/s相一致的位置数(坐标),我要做什么呢?match指出了它在向量中的位置,但没有提供坐标。
match(a, 11)
[1] NA NA NA NA NA 1 NA NA NA NA NA NA NA
此外,我希望使用从前面的示例中提取的坐标从另一个向量(类似的坐标)中提取值。
我有一根绳子:
this is a test
在这个字符串的末尾,我有一个空格和新行。我想提取(用于计数)字符串中的所有空间组,从中提取最后一个空格。用我的简单准则
/\s+/g
我得到这些团体:
this(1)is(2)a(3)test(4)
我想从组中排除第四个空间,因为如果字符串以空格结尾,我只想得到3个组。正确的regexp是什么?