我正在尝试为Rapidminer中的Tokenizer操作符找到一个正则表达式。
现在,我要做的是把文本分成两部分,比如说,两个单词。
例如,That was a good movie.应为That was、was a、a good、good movie。
记号赋予器中的正则表达式的特殊之处在于,它扮演着分隔符的角色,因此您可以匹配拆分点,而不是您试图保留的内容。
因此,第一个想法是使用\s,以便在空格上拆分,但这将导致每个单词分开。
所以,我的问题是,我如何强制表达式以某种方式跳过两个空白中的一个?
我需要从Lua字符串变量中的URL (four.five)中提取域(one.two.three.four.five)。
在Lua我似乎找不到一个函数来做这件事。
编辑:
到URL到达我的时候,http的内容已经被删除了。因此,有些例子是:
a) safebrowsing.google.com
b) i2.cdn.turner.com
c) powerdns.13854.n7.nabble.com
所以我的结果应该是:
a) google.com
b) turner.com
c) nabble.com
我们在Unix中使用的一些环境变量如下(仅举个例子):
VAR1=variable1
VAR2=variable2
VAR3=variable3
# and so on
现在,我有了一个perl脚本(我们称它为test.pl) ),它读取制表符分隔的文本文件(我们称它为test.txt),并以单独的方式按列推送它的内容。例如,test.txt的第一列包含以下信息(第一列中的字符串由/分隔,但我不知道/字符串将如何包含以及环境变量将出现在什么位置):
$VAR1/$VAR2/$VAR3
$VAR3/some_string/SOME_OTHER_STRING/and_so_on/$VAR2
$VA
my text has $1 per Lap to someone.
我有上面这样的文字,我需要选择per Lap部分,它是在$1 amount.Can之后,你告诉我怎么做的?
我可以使用new Regex(@"\$\d+(?:\.\d+)?").Match(s.Comment1).Groups[0].ToString().But选择一个$部件,我需要per Lap部分吗?提前谢谢。
我试图维护其他人的代码,并希望将它们整理好,并确定数据库中的文件和表之间的关系。我有很多ASP文件,其中大多数使用VB脚本。我想从文件中提取SQL查询。我的想法是使用正则表达式,但我似乎找不到正确的模式来使用。(或者我只是没有找到正确的关键词?)
例如,我有以下代码:
sql="select id from employee where no='"&no&"'"
rs.Open sql,smoothconn,adOpenStatic,adLockReadOnly
if not rs.EOF then
if sql1 <
with open("test.234.txt", 'r') as f:
a=f.read()
with open("test234(double space replaced by singleones)" ,"w+") as f:
for i in range(len(a)-1):
if( a[i]+a[i+1] == " "):
a[i].replace(a[i],"")
a[i+1].replace(a[i
我试图使用正则表达式来拆分标点符号上的文本,只有当标点符号跟随一个单词并继续一个空格或字符串的末尾时。
我试过([a-zA-Z])([,;.-])(\s|$)
但是,当我想在Python中拆分时,它包含了单词的最后一个字符。
我想像这样分开:
text = 'Mr.Smith is a professor at Harvard, and is a great guy.'
splits = ['Mr.Smith', 'is', 'a', 'professor', 'at', 'Harvard&
我会有一条类似于以下内容的字符串:
"This is a string. $This is a word that has to be split. There could be $more than one in a string."
我想把它分割成一个数组,这样它就像这样结束了:
["This is a string. ", "$This", " is a word that has to be split. There could be ", "$more", " than one in a stri
使用C#,我将这样的字符串分解成令牌:
Sum(Table.Fieldname) As Alias
Table2.Fieldname2 As Alias
我把它说成是:
var c = "Sum(Table.Fieldname) As Alias";
string[] Tokens = Regex.Split(c, @"\b")
\b很好地给出了所有的标记,但问题是,我需要将结束括号后面的空格视为单独的标记,此时它们处于相同的元素中:
?System.text.RegularExpressions.Regex.split("Sum(Table.Fiel
我想把一个字符串转换成一个数组。
请查看下面的js代码,我也写了一些评论。
var string = "d-M-[Year] g:i:s a e";
// I can convert this string into Array with two methods "string.split" and "Array.from(string"
string.split(""); // output ['d', '-', 'M', '-', '[', &
我需要计算输入链中指定模式的出现次数,并为每个模式生成一个报告。输入字符串将包含1个AA AATTCGAA结尾,1表示要搜索的一个模式,AA是该模式,下一个是您要在其中搜索AA的部分。
My idea is to :
public static void main(String[] args){
Scanner s = new Scanner(System.in);
System.out.println("How many patterns do you want and enter patterns and DNA Sequence(ty
我是Python的新手,我正在尝试使用re拆分字符串。我做了一些研究,我遇到了几个例子,我尝试了一下。它们看起来很有效,但也有局限性。
我正在使用一个字典,它有一个与整数值关联的字符串键。我正在尝试对每个单词应用一个权重,该权重取决于与键字符串相关联的整数值。我的问题是字符串的格式不是很好,我需要用下划线(_)以及空格和其他各种分隔符来拆分它。据我所知,这需要使用正则表达式来完成。我的代码如下:
for key, value in sorted_articles.items():
wordList = print(re.split(r'(_|\s|:|)',key))
我正在编写java代码,其中我想删除重复的单词。如果我在任何单词(例如:1298 Anthony 1298 Anthony )中获得空间,下面的代码可以很好地删除它们,它将使其类似于:1298 Anthony
但对于任何其他特殊字符,如:1298 Anthony.ef 1298 Anthony.ef,它将显示为:ef. 1298 Anthony。
下面给出了我的方法,我想让它适用于每一个特殊的字符,特别是:昏迷(,),丰满(.),破折号(-),下划线(_)。请帮我解决这个问题。
public static void removeString(){
String name1 =
我有一个代表一系列按键和释放的字符串。在此模式中,CTRL+C将表示为:
P CTRL P C R C R CTRL
也就是说,P代表'press‘,'R’代表释放,再加上一些键名。我想要一个正则表达式,它可以将所有这些标记提取到一个数组中:
['P CTRL', 'P C', 'R C', 'R CTRL']
我该怎么做呢?
我现在要做的是计算空格数,然后再加1
但是如果用户输入类似于"heres a big space______amazing right?"的内容呢?
这个程序会计算所有的6个空格,然后说,当它实际上是6的时候,有10个单词。
phrase = raw_input("Enter a phrase: ")
space_total = 0
for ch in phrase:
if ch == " ":
space_total += 1
words = space_total + 1
print "there are
我试着用这两种密码:
Dim splitQuery() As String = Regex.Split(TextBoxQuery.Text, "\s+")
和
Dim splitQuery() As String = TextBoxQuery.Text.Split(New Char() {" "c})
我的示例查询是a dog .,注意dog和.之间只有一个空格。当我检查splitQuery的长度时,它给了我3,拆分的单词是a、dog和.。
怎样才能阻止它将.和其他符号计数为word?我希望单词/术语(字母数字)只存储在我的splitQuery数组中。谢谢。