开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >使用Python抓取代码中的第一个链接

问使用Python抓取代码中的第一个链接
EN

Stack Overflow用户

提问于 2019-03-27 19:56:35

回答 4查看 99关注 0票数 0

你好，这是我想要从使用BeautifulSoup抓取第一个链接的代码。

视图-来源：https://www.binance.com/en/blog

我想要抓取这里的第一篇文章，所以它应该是"Trust Wallet Now Supports Lumens，4 More Tokens“

我正在尝试使用Python来实现这一点。

我使用这个代码，但是它抓取了所有的链接，我只想抓取第一个链接

with open('binanceblog1.html', 'w') as article:
    before13 = requests.get("https://www.binance.com/en/blog", headers=headers2)    
    data1b = before13.text

    xsoup2 = BeautifulSoup(data1b, "lxml")      
    for div in xsoup2.findAll('div', attrs={'class':'title sc-0 iaymVT'}):
        before_set13 = div.find('a')['href']

我该怎么做呢？

EN

回答 4

Stack Overflow用户

发布于 2019-03-27 20:23:03

当您找到满意的结果时，您可以评估循环和break中的情况。

for div in xsoup2.findAll('div', attrs={'class':'title sc-62mpio-0 iIymVT'}):
    before_set13 = div.find('a')['href']
    if before_set13 != '/en/blog':
         break
    print('skipping ' + before_set13)
print('grab ' + before_set13)

具有以下更改的代码的输出：

skipping /en/blog  
grab /en/blog/317619349105270784/Trust-Wallet-Now-Supports-Stellar-Lumens-4-More-Tokens

票数 0

EN

Stack Overflow用户

发布于 2019-03-27 20:32:24

目前我能想到的最简单的解决方案就是使用break，这是因为findAll

for div in xsoup2.findAll('div', attrs={'class':'title sc-62mpio-0 iIymVT'}):
    before_set13 = div.find('a')['href']
    break

对于第一个元素，您可以使用find

before_set13 = soup.find('div', attrs={'class':'title sc-62mpio-0 iIymVT'}).find('a')['href']

票数 0

EN

Stack Overflow用户

发布于 2019-03-27 20:35:49

尝试(从“阅读更多”按钮中提取href )

import requests
from bs4 import BeautifulSoup

r = requests.get('https://www.binance.com/en/blog')
soup = BeautifulSoup(r.text, "html.parser")
div = soup.find('div', attrs={'class': 'read-btn sc-62mpio-0 iIymVT'})
print(div.find('a')['href'])

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55385481

复制

相关文章

python - 抓取页面上的链接

python java http 爬虫

除了C/C++以外，我也接触过不少流行的语言，PHP、java、javascript、python，其中python可以说是操作起来最方便，缺点最少的语言了。

phith0n

2020/10/15

2.9K0

python使用urllib2抓取防爬取链接

python 爬虫网站

写了那么多篇找工作的文章，再写几篇就完了，也算是对自己一段时间的一个总结。近来发现自己博客上python技术点的文章有点少，为了防止自己总是遗忘，还是写出来的好。

the5fire

2019/02/28

8210

html中超链接使用_HTML超链接代码

java https 网络安全 html

html超链接的写法是e69da5e6ba903231313335323631343130323136353331333431353431使用a标签，如：百度一下，你就知道。

全栈程序员站长

2022/09/18

1.3K0

C代码中如何使用链接脚本中定义的变量？

c 语言编程算法

https://sourceware.org/ml/binutils/2007-07/msg00154.html

韦东山

2020/09/30

4.1K0

如何抓取页面中可能存在 SQL 注入的链接

php https github git 开源

自动化寻找网站的注入漏洞，需要先将目标网站的所有带参数的 URL 提取出来，然后针对每个参数进行测试，对于批量化检测的目标，首先要提取大量网站带参数的 URL，针对 GET 请求的链接是可以通过自动化获取的，而 POST 型参数提交的方式，则需要手工点击，然后代理抓取数据包再进行提交测试。

信安之路

2021/08/25

2.5K0

html中超链接使用_html中的a标签，超链接代码的详细介绍「建议收藏」

https java 网络安全

欢迎关注支持，谢谢！今天为大家介绍的是超链接代码a标签的用法，大家有兴趣的话可以看看哟！

全栈程序员站长

2022/09/14

3.1K0

分享一个使用Python网络爬虫抓取百度关键词和链接的代码(xpath篇)

python 爬虫正则表达式 xslt & xpath

关于某度关键词和链接的提取，上面两篇文章已经分别使用正则表达式和bs4分别进行提取，分享一个使用Python网络爬虫抓取百度关键词和链接的代码(bs4篇)，分享一个使用Python网络爬虫抓取百度关键词和链接的代码(正则表达式篇)，这篇文章将使用xpath来提取，一起来看看吧！

前端皮皮

2022/08/17

9120

分享一个使用Python网络爬虫抓取百度关键词和链接的代码(xpath篇)

使用scrapy抓取股票代码

源码地址：https://github.com/geeeeeeeek/scrapy_stock

西门吹雪1997

2023/07/12

2200

使用scrapy抓取股票代码

爬虫 http scrapy https 网络安全

源码地址：https://github.com/geeeeeeeek/scrapy_stock

西门吹雪1997

2019/02/26

9500

Python爬虫实战-抓取《盗墓笔记》所有章节及链接

本次以一个盗墓笔记的小说阅读网（http://seputu.com）为例，抓取盗墓笔记的标题、章节名和链接，如下图前提：这是一个静态网站，标题、章节都不是由JavaScript动态加载的，无代理，

爱吃西瓜的番茄酱

2018/04/04

1.8K0

Python爬虫实战-抓取《盗墓笔记》所有章节及链接

HTML超链接使用代码

html css java https 网络安全

HTML 超链接（链接） HTML使用标签来设置超文本链接。在标签中使用了href属性来描述链接的地址。超链接可以是一个字，一个词，或者一组词，也可以是一幅图像，您可以点击这些内容来跳转到新的文档或者当前文档中的某个部分。当您把鼠标指针移动到网页中的某个链接上时，箭头会变为一只小手。

全栈程序员站长

2022/09/14

2.4K0

使用Python轻松抓取网页

python selenium

抓取网页入门其实挺简单的。在之前的文章中我们介绍了怎么用C#和JAVA两种方法来抓取网页，这一期给大家介绍一种更容易，也是使用最广泛的一种抓取方法，那就是Python。

用户7850017

2021/09/24

14K0

WordPress 技巧：获取日志中的第一个链接

wordpress format post 技巧日志

我们知道 WordPress 日志格式（Post format）中有个 link 的格式，如果你的主题启用了 Post format 功能并且使用了 Link 这个格式，那么你想这篇日志直接链接到日志中的第一个链接。

Denis

2023/04/15

3920

分享一个使用Python网络爬虫抓取百度关键词和链接的代码(bs4篇)

python 正则表达式爬虫

前几天在Python白银交流群有个叫【꯭】的粉丝分享了一份Python网络爬虫代码，用来获取某度关键词和链接的。当时他使用正则表达式的提取方式获取标题和链接，分享一个使用Python网络爬虫抓取百度关键词和链接的代码(正则表达式篇)，今天这篇文章我们将使用bs4来进行实现。

前端皮皮

2022/08/17

1.5K0

分享一个使用Python网络爬虫抓取百度关键词和链接的代码(bs4篇)

使用Python爬取给定网页的所有链接（附完整代码）

python beautifulsoup 遍历变量对象

这是一个简单的网络爬虫示例，使用了 requests 库来发送 HTTP 请求并获取网页内容，使用 BeautifulSoup 库来解析网页内容。

海拥

2023/05/23

2.3K0

使用Python爬取给定网页的所有链接（附完整代码）

解决 mklink 使用中的各种坑（硬链接，软链接/符号链接，目录链接）

2018-03-08 12:23

walterlv

2018/09/18

32.7K0

Blazor 如何使用代码跳转链接

网络安全 apache 网站

可以通过在页面注入 NavigationManager 调用 NavigateTo 方法进行跳转

林德熙

2022/08/12

2.2K0

如何使用python进行web抓取？

本文摘要自Web Scraping with Python – 2015 书籍下载地址：https：//bitbucket.org/xurongzhong/python-chinese-library/downloads 源码地址：https：//bitbucket.org/wswp/code 演示站点：http：//example.webscraping.com/ 演示站点代码：http：//bitbucket.org/wswp/places 推荐的python基础教程： http：//www.divei

CDA数据分析师

2018/02/05

5.6K0

如何使用python进行web抓取？

使用PHP的正则抓取页面中的网址

php 正则表达式

最近有一个任务，从页面中抓取页面中所有的链接，当然使用PHP正则表达式是最方便的办法。要写出正则表达式，就要先总结出模式，那么页面中的链接会有几种形式呢？

大江小浪

2018/07/24

3.1K0

独家｜使用Python进行机器学习的假设检验（附链接&代码）

https 网络安全腾讯云测试服务 python

也许所有机器学习的初学者，或者中级水平的学生，或者统计专业的学生，都听说过这个术语，假设检验。

数据派THU

2019/08/30

1.1K0

独家｜使用Python进行机器学习的假设检验（附链接&代码）

相似问题

抓取已用python抓取的链接中的链接

212

使用Python抓取URL链接

341

使用Python抓取图像链接

216

python web抓取代码无法打开链接

01

Python 2.7.13 -抓取链接-跟随链接-抓取内容

12

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

社区富文本编辑器全新改版！诚邀体验～

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验