在BeautifulSoup中排除不需要的base64链接_在Python中使用Beautifulsoup时如何排除不需要的标签_Python中的BeautifulSoup链接属性 - 腾讯云开发者社区

、

我写了一个简单的图像刮板脚本，在大多数情况下都可以工作。我偶然发现了一个网站，上面有一些不错的jpg壁纸，我想抓取链接。该脚本运行良好，但也会打印不需要的base64数据图像链接。如何排除这些base64链接？/') for link in soup.find_

浏览 14提问于2017-12-17得票数 0

回答已采纳

1回答

在wiki中爬行第一段链接

如何在wiki中抓取第一段链接？。在这个页面上，我想要爬行的第一个链接是"qualitative“(href=”/wiki/质押属性“)。我的代码排除了所有特殊的链接，如脚注和发音，但不能排除括号中的正常链接

浏览 0提问于2019-01-13得票数 1

回答已采纳

2回答

排除Beautifulsoup中的图片链接

、

寻找一种方法来排除图像链接/不包含任何锚文本的链接。下面的代码完成了编译我想要的数据的工作，但它也从页面上的一些缩略图/图像链接中拾取了不需要的URL browser.get(url) soup= BeautifulSoup(browser.page_source,"html.parser&q

浏览 0提问于2020-01-14得票数 0

2回答

在Beautifulsoup* Python上排除不需要的标签*

、、、

 to punch 如何打印“我喜欢你的脸”而不是“我喜欢打你的脸

浏览 0提问于2016-11-23得票数 16

回答已采纳

1回答

在BeautifulSoup中替换文本而不转义

、、、

我想用BeautifulSoup中的锚链接包装一些还没有链接的单词。我用它来实现它：import re 鉴于我正在寻找： <html><body>&

浏览 1提问于2015-06-07得票数 6

回答已采纳

2回答

我试图解析一个网站上的图片链接。当我检查网站上的链接时，它是这样的:https://static.nike.com/a/images/c_limit,w_592,f_auto/t_product_v1/df7c2668-f714-4ced-9f8f-1f0024f945a9/chaussure-de-basketball-zoom-freak-3-MZpJZF.png，但当我用我的代码解析它时，输出是data

浏览 74提问于2021-10-31得票数 1

回答已采纳

1回答

不想要的链接匹配

、、、、

我编写了一个库，通过从Wikipedia中提取href链接并保存它们来创建持久层。我意识到我有一个我不关心的链接，它被标记为/wiki/Cookbook:Table_of_Contents。if link =~ %r{^/wiki/Cookbook} && link !~ /Table_of_C

浏览 4提问于2014-10-06得票数 1

回答已采纳

2回答

BeautifulSoup img src获取base64而不是实际链接。

、、、、

我刚开始使用bs4进行网络抓取，我想从蛋白质数据库中获取一个蛋白质的图像： src="https://cdn.rcsb.org/images/rutgers/a6/1a69/1a69.pdb1-500.jpg"> 然而，当我运行我的</em

浏览 4提问于2020-05-06得票数 2

回答已采纳

1回答

Python urlopener不检索表和列表

、

我正在试着做一个简单的网络爬行器，在那里我从一个HTML页面上获取信息。这很简单，但我有一个问题我似乎无法解决:当我自己下载超文本标记语言页面并使用BeautifulSoup解析它时，它会解析所有内容并给我所有数据，这是可以的，但我不需要这样做。相反，我正在尝试使用一个链接，而这似乎不起作用。每当我使用"urlopen“函数使用链接并使用BeautifulSoup解析页面时，它似乎总是完全忽略/排除HTML文件中<

浏览 5提问于2020-07-13得票数 0

2回答

Python只提取带有字符串的链接，并跟随大写字母的链接。

、

这是一个多部分的问题，所以我很抱歉，我会尽量保持直截了当。我使用BeautifulSoup从网页中提取链接，下面是代码和结果问题：然后，我想跟随airportname=XXX的链接，在下面的页面上搜索一个文本字符串感谢您的耐心和帮助！

浏览 2提问于2017-01-31得票数 0

2回答

在Python中使用Beautifulsoup时如何排除不需要的标签

、、、

我正在用美人汤在indeed.com上练习蟒蛇抓取。在使用div类companyLocation提取'job location‘时，我想要的是获取紧跟在'div class=“companyLocation’之后的位置字符串。(在下面的html中，“美国”) 但在某些情况下，有额外的'a aria-label‘或'span’子句，其中包含不需要的字符串，如"+1 location“等。我想不出怎么摆脱

浏览 75提问于2021-09-26得票数 1

1回答

排除findAll结果集

、

我正在尝试排除美丽汤中的findAll中的某些结果。我正在尝试排除具有media=print属性的样式表链接from bs4 import BeautifulSoupopener = urllib2.build_opener() f

浏览 3提问于2013-06-04得票数 0

回答已采纳

3回答

一个漂亮的汤循环，返回没有特定单词的链接。

、

我试图写一个刮板，随机选择一个wiki文章链接从一个网页，去那里，抓住另一个，并循环。我想排除与href中的“类别：”、“文件：”、“列表”的链接。我很确定我想要的链接都在p标签中，但是当我在find_all中包含"p“时，我得到了"int对象是不可订阅的”错误。下面的代码返回wiki页面，但不排除我想要过滤的内容。这对我来

浏览 8提问于2021-03-16得票数 0

回答已采纳

1回答

BeautifulSoup如何移除文本具有特定值的标签

、

我正在尝试从维基百科上抓取一些文章，发现有一些条目我希望排除掉。在下面的例子中，我想排除两个内容等于Archived或Wayback Machine的a标记。没有必要将文本作为因素。我看到href值也可以用作url、archive.org或/wiki/Wayback_Machine上的排除项。但是我发现这会返回一个错误'str' object has no attribute 'descendants' removeWayba

浏览 11提问于2020-09-25得票数 0

回答已采纳

1回答

在acumatica报告上使用base64编码的图像在PictureBox中？

我有一个字符串，它是一个base64编码的位图，我从签名垫中捕获了它，并将它存储在Acumatica数据库中的自定义表中。对于表，我有一个DAC，我可以从报表设计器访问它。我面临的问题是如何将这个base64编码的映像放到Acumatica中的报表上。我试过：将Source设置为"Database"，将Mime设置为image/bmp，将值设置为

浏览 1提问于2018-09-12得票数 1

回答已采纳

2回答

如何使用Beautiful soup从HTML锚标记返回目的地

、

我正在使用python2和Beautiful soup来解析通过requests模块检索到的HTMLfrom bs4 import BeautifulSoup HTML = site.text返回一个包含输出的列表，该列表看起来像&

浏览 0提问于2014-10-10得票数 0

1回答

ipython笔记本电脑.png数字转换后未被最新的chrome/firefox加载

、、、、

在本地运行$ipython3 notebook --pylab=inline时，我使用pylab和python3.3保存了一个带有小png图形的简单笔记本。src="data:image/png;base64,b'iVBO...ZUmwk\n..." > 在最新的chrome或firefox中，图像数据uri在本地打开file:///...在加载图像并使用imshow()显示图

浏览 2提问于2013-09-06得票数 1

回答已采纳

1回答

如何排除某些链接被刮掉？

、、

我试图只刮从网页的主体链接，但我也收到从这个维基页面的边栏链接，我不想。我目前只想获得div id="bodyContent“class=”mw-body内容“下的链接，但我也从div id="mw-panel”下获得链接。是否有任何方法可以将href从div id="mw-panel“中排除，以便只从div获得链接？from bs4 import BeautifulSoup import request

浏览 6提问于2022-03-29得票数 0

1回答

Python戴尔驱动程序下载

、、、

我一直在尽力为使用Beautifulsoup4的驱动程序获取所有的dl。但是，它会返回我不需要的链接。我想它们不知何故被藏起来了，我无论如何都不能把它们弄出来。是我想要销毁的页面：import urllib2 resp = urllib2.urlopen("http://www.gpsbasecamp.com/national-parks"

浏览 11提问于2018-01-13得票数 1

回答已采纳

2回答

如何解码document.write在BeautifulSoup中编码的字符串？

、、、

正如title说的，我在这里呆了几个小时，没有任何文档或任何解决方案。 </script> 我设法得到了如下所示的编码代码根据我在

浏览 2提问于2022-10-02得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云