首先我回答了一个学员的提问,
有些GEO平台的探针转换比较麻烦
然后我为了使代码更加简洁,问了洲更一个问题,
如何获取括号中的内容,但不要返回括号。
我为什么这么问,因为我知道perl语言里面的正则表达式是可以实现这个功能的,而我曾经学过两个星期的perl语言。
看了回答,深刻的理解了这句话,
正则表达式是我们认识世界的哲学
决定把代码再精简一点。
观察之后总结模式
string = "Homo sapiens intraflagellar transport 80 homolog (Chlamydomonas) (IFT80), mRNA"
以这个为例,他里面有两个括号,我们要观察他,然后再把它抽象模式化。
我们必须到找到一对括号,而且这个括号需要在逗号之前。
因为括号是元字符,需要斜杠来转译,而斜杠也是元字符,需要另外一个斜杠来转译。
现在这个模式可以写成这个样子
那么找到了括号,这个括号里面是要有东西的,内容就是大小写字母和数字的结合,而且数量不限,所以,这个模式就变成了这样, 符号代表是0或者多个
其中,我们想要把括号中的内容单独提取出来,那么需要给他增加一对括号,我们的模式就定型了
测试结果
现在可以测试一下stringr包中的str_view函数可以可视化匹配的结果
使用str_match函数来匹配
我们需要的括号内的内容在第二列,如果str_match中没有额外的括号,结果只会是一列
[1] "IFT80"
既然我们明确地定义了做一件事情的步骤,那么我们就可以批量做。
现在这个代码足够简洁,更重要的是,我们升级了匹配模式,正则表达式就像眼睛一样,戴不戴世界就在那里,不增不减,但是戴上后,细节更多了,此时我们获得了跟多的结果,总共11399行。
既然开始接触字符串的处理以及正则表达式,我会系统地学习一下R语言的爬虫,把这两者更好地结合起来。
领取专属 10元无门槛券
私享最新 技术干货