Python - Beautifulsoup -仅来自最终抓取的链接的数据被输出到文本文件 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

Python - Beautifulsoup -仅来自最终抓取的链接的数据被输出到文本文件

、、、

我试图从一个网站上的多个链接刮体育时间表。已正确找到并打印了URL，但只有来自上一次抓取的URL的数据才会输出到控制台和文本文件。我的代码如下：这为我提供了以下输出<code>B1</code>我有下面的旧代码，它的工作正常，并输出所有的数据从每个抓取

浏览 24提问于2020-08-01得票数 0

回答已采纳

1回答

尝试使用python解析html时重定向到主页

、、、、

from urllib.request import urlopenimport requests page = requests.get(url)soup = BeautifulSoup(data, "html.parser") print我试图抓取的页

浏览 0提问于2016-11-02得票数 0

1回答

使用Python、Urllib从FTP站点解析/抓取表

、、、、

我正在尝试解析/抓取来自FTP站点的一些数据。具体来说：import urllib2 from bs4 import Beauti

浏览 15提问于2016-07-30得票数 0

2回答

如何只将股票名称和实时价格导出到.txt文件，中间不会有任何额外的行或不需要的数据？

、

我从一个网站上抓取实时股票价格使用BeautifulSoup，并使用Python导出到一个文本文件。该代码返回价格以及其他行和信息。如何只选择要导出到.txt文件的特定信息？我对python还不是很精通。尝试搜索stackoverflow，但找不到任何对我有用的东西。from bs4 import BeautifulSoupimport time

浏览 13提问于2019-10-11得票数 0

回答已采纳

2回答

Python BeautifulSoup解析

、、

我正在尝试抓取一些内容(我是Python的新手)，但我遇到了一个障碍。我想要抓取的代码是：soup.h2.a.con

浏览 0提问于2011-12-23得票数 2

回答已采纳

4回答

屏幕抓取窗体结果

、、

我最近被一个客户要求为他们的保险业务建立一个网站。作为这项工作的一部分，他们想要对他们的一个供应商的报价站点进行一些屏幕抓取。他们询问他们的API是否可以做到这一点，并被告知没有，但如果他们可以从他们的引擎中获得数据，他们可以随心所欲地使用它。我的问题是:是否可以对表单提交到另一个站点的响应执行屏幕抓取？如果是这样，我应该注意的陷阱是什么？抛开明显的</

浏览 1提问于2009-08-03得票数 3

回答已采纳

1回答

使用Python和BeautifulSoup抓取多个页面-网站url不起作用

、、、

我的python代码成功地从https://www.groupeactual.eu/offre-emploi中抓取文本并将其保存到csv文件中。例如，使用上面的url，当我单击指向"page 2“的链接时，整个url会发生变化，但当我在代码中使用该url时，我会得到来自page 1的结果。如何更改我的代码以从所有列出的可用页面中抓取数据？我的</em

浏览 16提问于2020-07-17得票数 1

1回答

如果BeautifulSoup无法到达一个站点，如何跳到下一个链接？

、、

我目前正在编写一个Python项目，它需要执行以下操作：-the脚本从这些站点抓取信息，并将输出写入.txt文件中。我遇到的问题是，如果一个站点无法到达(例如，一个随机链接: oflexertzue.com)，那么整个脚本就会停止，我必须重新启动它。，并将' exception‘输出到文本文件中。以下是我目前为脚本编写的代码：import

浏览 3提问于2022-07-18得票数 0

回答已采纳

2回答

请求响应中没有数据

、、

我刚接触python、数据抓取和自动化。我正在尝试抓取URL中给出的网站。当我在浏览器中打开URL链接时，所有的数据都会显示出来，但是requests.get()方法的响应并没有给出这些数据。如果有人能告诉我出了什么问题，那将是非常有帮助的。import requestsfrom bs4 import BeautifulSoup URL = "https:

浏览 1提问于2016-07-04得票数 1

3回答

用漂亮的汤和python* 3.x刮桌子*

、、

所以我是python的新手，现在我还在尝试弄清楚所有东西是如何工作的，现在我正在用漂亮的汤抓取表中的数据。我可以使用美汤导航到我想要的特定表，但提取实际数据让我感到困惑，我尝试的所有操作都失败了。/40665')tables = soup.findChildren

浏览 4提问于2017-08-05得票数 3

回答已采纳

1回答

如何保存显示原始超链接文本的电子邮件

、

我们收到了来自第三方的自动电子邮件，其中包含了掩码形式的超链接(链接上写的是其他文本而不是地址)。Sub ShowAllHyperlinkAddresses(objMail As Outlook.MailItem) Dim iC

浏览 6提问于2020-05-18得票数 0

回答已采纳

1回答

Web抓取新文章

、

在过去的几个月里，我一直在学习python和BeautifulSoup函数，试图将其主要用于网络抓取新闻文章，以供我自己研究之用。然而，我一直在尝试从中文网站上打印出漂亮的文本内容。我应该使用哪个标签来获取文章的内容？

浏览 29提问于2017-12-20得票数 1

1回答

将网站URL从文本文件迭代到BeautifulSoup w/ Python

、、

我有一个.txt文件，在每一行上都有一个不同的链接，我想迭代，然后解析成.txt "html.parser")。不过我有几个问题。我可以看到从文本文件中迭代的行，但是当我将它们分配给我的requests.get(websitelink)时，我以前工作过的代码(没有迭代)就不再打印我刮过的任何数据了。我收到的结果只有几行空白行。我对Python和BeautifulSoup并不熟悉

浏览 2提问于2019-06-08得票数 0

回答已采纳

1回答

使用python从javascript变量JSON.parse中提取数据

、、

对于python来说非常陌生，并且尝试在web上搜索网站表，但我认为表数据似乎来自带有JSON.parse的Javascript变量。但是，解析并不是我所习惯的，也不确定如何在python中使用它。代码来自，特别是var playersData = JSON.parse('\x5B\x7B\x22id\x3A,... (大约25万个字符)嵌套在一个脚本标记中。到目前为止，我已经成功地使用bs4抓取了网站，找到了特定的脚本，并

浏览 1提问于2018-11-07得票数 0

回答已采纳

1回答

使用单个URL在多个页面上刮取表

、、、

我正试着从Fangraphs中抓取数据。表格被分成21个页面，但所有页面都使用相同的url。我对webscraping (或者一般的python )非常陌生，但是Fangraphs没有公共API，所以抓取页面似乎是我唯一的选择。我目前正在使用BeautifulSoup来解析超文本标记语言代码，我能够抓取初始表，但那只包含前30个球员，但我想要整个球员池。两天的网络搜索，我被卡住了。

浏览 21提问于2020-04-18得票数 1

回答已采纳

1回答

屏幕刮擦提示:交互式图形

、、、、

最近，我学习了一些关于如何将BeautifulSoup与Python结合使用的教程，并学习了如何简单地从网页中刮取文本和urls。我现在试着从下面的链接中抓取数据，在页面底部有一个交互式的图形生成器，我想从它中抓取所有的数据，而不必花费很多时间从所有可能生成的图形中缓慢地写下值。我尝试过使用我卑微的初学者技术，但在HTML中图形数据来自何处并不明显-此外，HT

浏览 0提问于2014-08-08得票数 3

回答已采纳

2回答

Python:打印特定href中的数据(带有ID标签)

、、

我是Python的新手，正在尝试构建我的第一个网络摩天大楼。我想转到一个页面，打开一系列子页面，在页面上找到一个特定的链接(带有ID)，然后打印链接数据。我真正不确定的是，我需要做什么来抓取和解析来自特定链接的href数据-因为我认为，其余的都在工作(加载子页面)。抓取器(假定)获取丹麦公社的所有urls并打印

浏览 2提问于2012-07-30得票数 0

3回答

抓取urls的抓取顺序

、

我有个关于scrapy和python的问题。我有几个链接。我使用循环在一个脚本中抓取每个脚本中的数据。但抓取数据的顺序是随机的，或者至少与链接不匹配。所以我不能将每个子页面的url与输出的数据进行匹配。喜欢:抓取的网址，data1，data2，data3。Data 1，data2，data3 =>这是可以的</e

浏览 0提问于2018-04-18得票数 0

1回答

Python编码问题:学位符号和其他

、、

我正在使用BeautifulSoup从网页上抓取数据。我想将网站数据与.txt文档中的文本进行比较。然而，我似乎遇到了编码问题。，该文本文档被编码为“在没有BOM的情况下以UTF-8编码”。文本文件被读取为当我比较这两个字符串时，它们不相等，但我希望它们相等。看看发生了什么:在Eclipse中，我拆

浏览 0提问于2012-01-30得票数 4

回答已采纳

1回答

如何在docker容器中使用selenium设置python应用程序

、、

我目前正在做一个项目，用python构建一个web scraper，然后将其停靠，这样应用程序就可以在任何机器上运行。我已经构建了python应用程序，使用selenium加载我正在处理的网页。我是否需要使用应用程序创建一个容器，并将其链接到另一个selenium容器？谢谢你的帮助！我的代码从我编译的文本文件中获取邮政编码列表，并使用这些代码在地图上的特定位置抓取。抓取数据后，它

浏览 14提问于2019-05-06得票数 9

回答已采纳

点击加载更多