月初公众号上给大家送了10本书,有5本是用抽奖助手抽的,大家可以在抽奖助手上查看。
另外5本是在赞赏区抽的,我写了个随机函数随机从赞赏的63人中抽取的,这5个人的名单如下:
.
微笑心情真好
方木南土川
李超
念桥边红药
请这5位同学稍后加我微信:build_wheels,告诉我地址和联系方式,截止到今天晚上9点。
好了,下面进入今天的主题:如何大规模高效拼接python字符串?
稍微有python编程基础的同学都会想到“+”拼接:
实际上,字符串“+”运算符是方法__add__重载的,str1+str2即str.__add__(str1, str2):
但是,如果需要大规模拼接字符串?使用“+”还合适吗?
核心问题:如何将列表中的字符串合并为一个字符串?
例如:如何将[“a”,”bc”,”d”,….]拼接为一个字符串?
当然,使用“+”也是完全可行的,常规思路即可:
此方法虽然可以得到正确的结果,但是在实际应用中这样做是非常浪费计算资源的,在for循环中,每一次迭代得到s都是拼接过程中的一个临时变量,s与sl拷贝给__add__后返回得到新的s后,上一次迭代中的s就被释放掉了,因此每一次迭代都伴随着字符串的拷贝与变量的释放。倘若实际项目中列表规模很大,那么这种方法就会变得很低效甚至无法使用。
核心方法:str.join()
此时,使用python提供的join方法会比较合适。我们可以看一下python对str.join方法的说明:
使用时,通过分隔符调用join方法,传入参数需要是一个可迭代对象,如列表,集合,字典等,返回由分隔符连接的字符串。例如:
如图,使用‘-’调用join,将列表作为参数传入,就可以得到字符串拼接结果。我们在编程中生成的任何列表,集合,字典,如若有需求都可以使用str.join方法拼接为一个字符串。
好,回到我们的问题,解决方法如下:
如上图,当不需要分隔符时,使用空字符串调用join方法即可。
我们可以对比一下两种方法的时间:
首先生成一个10w长度的列表:
(其中,第二行的意义为在10w次迭代中,生成10w个-10到10之间的随机整数,且将整数转化为字符串,这10w个字符串构成一个列表。)
比较时间:
如图,join方法比‘+’快了一个数量级。可见join方法不仅更简洁,而且更高效!
我们再补充一个应用:
倘若待拼接的列表中,不仅仅含有字符串,同时含有其他类型的数据,这是要怎么做呢?
核心问题:如何将列表中的字符串与非字符串合并为一个字符串?
其实按照上文思路,我们可以使用join轻松解决。
(第二行意义:对strlist进行迭代,对其每一个元素x,将x转化为字符串,构成一个新的列表)
但是上图第二行运行时,join函数参数中生成新列表时,基于strlist中元素的个数,append了3次,内存中额外生成了3个列表。倘若实际项目中strlist元素个数为10w,则运行过程中内存就会额外生成10w个列表,十分浪费空间!
这种场合可以使用生成器对象。
核心方法:生成器对象
生成器与列表形式上差别就在于一个是[]括起来的,一个是()括起来的,如上图第2行,生成器每迭代一次都会抛出一个值,而不需要额外生成新的对象,生成器方法与列表方法虽然运行时间差不多,但是前者能节省相当多的空间。
此外,生成器做参数时,是不需要()的,如下图写法依然合法: