首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Python支持tabstop的len()和填充函数

Python支持tabstop的len()和填充函数
EN

Stack Overflow用户
提问于 2009-11-17 09:54:08
回答 4查看 965关注 0票数 4

Python的len()和string.ljust()等填充函数不支持tabstop,即它们将'\t‘视为任何其他单角字符,并且不会将len向上舍入为tabstop的最接近倍数。示例:

代码语言:javascript
运行
复制
len('Bear\tnecessities\t')

是17而不是24 (即4+(8-4)+11+(8-3) )

并假设我还想要一个函数pad_with_tabs(s),以便

代码语言:javascript
运行
复制
pad_with_tabs('Bear', 15) = 'Bear\t\t'

寻找这些的简单实现-紧凑和可读性第一,效率第二。这是一个基本但令人恼火的问题。@gnibbler -你能展示一个纯粹的Pythonic解决方案吗,即使它的效率降低了20倍?

当然,您可以使用str.expandtabs(TABWIDTH)来回转换,但这很笨拙。导入数学来获取TABWIDTH * int( math.ceil(len(s)*1.0/TABWIDTH) )似乎也是一种巨大的杀伤力。

我不能做比下面更优雅的事情了:

代码语言:javascript
运行
复制
TABWIDTH = 8

def pad_with_tabs(s,maxlen):
  s_len = len(s)
  while s_len < maxlen:
    s += '\t'
    s_len += TABWIDTH - (s_len % TABWIDTH)
  return s

由于Python字符串是不可变的,除非我们想将函数修补到string模块中以将其作为方法添加,否则我们还必须为函数的结果赋值:

代码语言:javascript
运行
复制
s = pad_with_tabs(s, ...)

特别是,我无法使用列表理解或string.join(...)获得清晰的方法。

代码语言:javascript
运行
复制
''.join([s, '\t' * ntabs])

没有特殊的外壳,其中len(s)已经是TABWIDTH或len(s)>=maxlen的整数倍。

有没有人能展示更好的len()和pad_with_tabs()函数呢?

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2009-11-17 10:34:15

代码语言:javascript
运行
复制
TABWIDTH=8
def my_len(s):
    return len(s.expandtabs(TABWIDTH))

def pad_with_tabs(s,maxlen):
    return s+"\t"*((maxlen-len(s)-1)/TABWIDTH+1)

我为什么要使用expandtabs()

嗯,很快。

代码语言:javascript
运行
复制
$ python -m timeit '"Bear\tnecessities\t".expandtabs()'
1000000 loops, best of 3: 0.602 usec per loop
$ python -m timeit 'for c in "Bear\tnecessities\t":pass'
100000 loops, best of 3: 2.32 usec per loop
$ python -m timeit '[c for c in "Bear\tnecessities\t"]'
100000 loops, best of 3: 4.17 usec per loop
$ python -m timeit 'map(None,"Bear\tnecessities\t")'
100000 loops, best of 3: 2.25 usec per loop

任何遍历字符串的操作都将变慢,因为即使在循环中什么都不做,迭代速度也要比expandtabs慢大约4倍。

代码语言:javascript
运行
复制
$ python -m timeit '"Bear\tnecessities\t".split("\t")'
1000000 loops, best of 3: 0.868 usec per loop

即使只是在选项卡上拆分也需要更长的时间。您仍然需要遍历拆分并将每一项填充到tabstop

票数 8
EN

Stack Overflow用户

发布于 2009-11-17 22:46:06

我相信gnibbler的对于大多数实际情况来说是最好的。但不管怎样,这里有一个简单的解决方案(不考虑CR,LF等)来计算字符串的长度,而不创建扩展的副本:

代码语言:javascript
运行
复制
def tab_aware_len(s, tabstop=8):
    pos = -1
    extra_length = 0
    while True:
        pos = s.find('\t', pos+1)
        if pos<0:
            return len(s) + extra_length
        extra_length += tabstop - (pos+extra_length) % tabstop - 1

它可能对一些巨大的字符串甚至内存映射文件有用。下面是对填充函数进行了一些优化:

代码语言:javascript
运行
复制
def pad_with_tabs(s, max_len, tabstop=8):
    length = tab_aware_len(s, tabstop)
    if length<max_len:
        s += '\t' * ((max_len-1)//tabstop + 1 - length//tabstop)
    return s
票数 1
EN

Stack Overflow用户

发布于 2009-11-17 22:37:37

TABWIDTH * int( math.ceil(len(s)*1.0/TABWIDTH) )确实是一个巨大的过度杀伤力;您可以更简单地获得相同的结果。对于正in,请使用:

代码语言:javascript
运行
复制
def round_up_positive_int(i, n):
    return ((i + n - 1) // n) * n

经过适当的翻译后,这个过程几乎可以在我使用过的任何语言中工作。

然后就可以执行next_pos = round_up_positive_int(len(s), TABWIDTH)

代码的优雅程度略有提高,而不是

代码语言:javascript
运行
复制
while(s_len < maxlen):

使用以下命令:

代码语言:javascript
运行
复制
while s_len < maxlen:
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1746116

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档