我正在尝试使用漂亮的汤来解析html,并找到所有带有特定锚点标签的href。
<a href="http://example.com">TEXT</a>
<a href="http://example.com/link">TEXT</a>
<a href="http://example.com/page">TEXT</a>
我正在寻找的所有链接都有完全相同的锚文本,在这种情况下文本。我不是在找TEXT这个词,我想用TEXT这个词来找出所有不同的HREF
编辑:
对于查找类似于使用类解析链接的内容的说明
<a href="http://example.com" class="visible">TEXT</a>
<a href="http://example.com/link" class="visible">TEXT</a>
<a href="http://example.com/page" class="visible">TEXT</a>
然后使用
findAll('a', 'visible')
除了我正在解析的HTML没有类,但始终具有相同的锚文本
发布于 2012-11-05 21:35:31
像这样的东西可以工作吗?
In [39]: from bs4 import BeautifulSoup
In [40]: s = """\
....: <a href="http://example.com">TEXT</a>
....: <a href="http://example.com/link">TEXT</a>
....: <a href="http://example.com/page">TEXT</a>
....: <a href="http://dontmatchme.com/page">WRONGTEXT</a>"""
In [41]: soup = BeautifulSoup(s)
In [42]: for link in soup.findAll('a', href=True, text='TEXT'):
....: print link['href']
....:
....:
http://example.com
http://example.com/link
http://example.com/page
https://stackoverflow.com/questions/13240700
复制相似问题