首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >使用Python抓取代码中的第一个链接

使用Python抓取代码中的第一个链接
EN

Stack Overflow用户
提问于 2019-03-28 03:56:35
回答 4查看 99关注 0票数 0

你好,这是我想要从使用BeautifulSoup抓取第一个链接的代码。

视图-来源:https://www.binance.com/en/blog

我想要抓取这里的第一篇文章,所以它应该是"Trust Wallet Now Supports Lumens,4 More Tokens“

我正在尝试使用Python来实现这一点。

我使用这个代码,但是它抓取了所有的链接,我只想抓取第一个链接

代码语言:javascript
运行
复制
with open('binanceblog1.html', 'w') as article:
    before13 = requests.get("https://www.binance.com/en/blog", headers=headers2)    
    data1b = before13.text

    xsoup2 = BeautifulSoup(data1b, "lxml")      
    for div in xsoup2.findAll('div', attrs={'class':'title sc-0 iaymVT'}):
        before_set13 = div.find('a')['href']

我该怎么做呢?

EN

回答 4

Stack Overflow用户

发布于 2019-03-28 04:23:03

当您找到满意的结果时,您可以评估循环和break中的情况。

代码语言:javascript
运行
复制
for div in xsoup2.findAll('div', attrs={'class':'title sc-62mpio-0 iIymVT'}):
    before_set13 = div.find('a')['href']
    if before_set13 != '/en/blog':
         break
    print('skipping ' + before_set13)
print('grab ' + before_set13)

具有以下更改的代码的输出:

代码语言:javascript
运行
复制
skipping /en/blog  
grab /en/blog/317619349105270784/Trust-Wallet-Now-Supports-Stellar-Lumens-4-More-Tokens
票数 0
EN

Stack Overflow用户

发布于 2019-03-28 04:32:24

目前我能想到的最简单的解决方案就是使用break,这是因为findAll

代码语言:javascript
运行
复制
for div in xsoup2.findAll('div', attrs={'class':'title sc-62mpio-0 iIymVT'}):
    before_set13 = div.find('a')['href']
    break

对于第一个元素,您可以使用find

before_set13 = soup.find('div', attrs={'class':'title sc-62mpio-0 iIymVT'}).find('a')['href']

票数 0
EN

Stack Overflow用户

发布于 2019-03-28 04:35:49

尝试(从“阅读更多”按钮中提取href )

代码语言:javascript
运行
复制
import requests
from bs4 import BeautifulSoup

r = requests.get('https://www.binance.com/en/blog')
soup = BeautifulSoup(r.text, "html.parser")
div = soup.find('div', attrs={'class': 'read-btn sc-62mpio-0 iIymVT'})
print(div.find('a')['href'])
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55385481

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档