使用apache pig和文本
hahahah. my brother just didnt do anything wrong. He cheated on a test? no way!我试着去匹配“我的兄弟没有做错任何事”。
理想情况下,我希望匹配以"my brother just“开头的任何内容,并以标点符号(句子结束)或EOL结尾。
看一下猪的文档,然后沿着java.util.regex.Pattern的链接,我想我应该能够使用
extrctd = FOREACH fltr GENERATE FLATTEN(EXTRACT(txt,'(my brother just .*\\p{Punct})')) as (txt:chararray);但这似乎是匹配的,直到最后一行。对这场比赛有什么建议吗?我已经准备好拔出我的头发,我的意思是切换到python流媒体
发布于 2010-07-20 05:07:07
你试过了吗:.*(my brother just .*\\p{Punct})
看起来您的表达式希望my brother部分作为字符串的开头,但在您的示例中,它位于字符串的中间,因此您必须考虑my brother之前的所有内容。
发布于 2010-07-20 05:09:34
您正在匹配.*,它是...一切..。尝试az*仅匹配字母
https://stackoverflow.com/questions/3285082
复制相似问题