不确定为什么漂亮的代码不能抓取网站

漂亮的代码不能抓取网站可能有以下几个原因：

网站反爬虫机制：很多网站为了保护自身的数据安全和防止恶意抓取，会设置反爬虫机制，例如验证码、IP封禁、请求频率限制等。如果没有正确处理这些机制，即使代码写得再漂亮，也无法成功抓取网站。
动态网页内容：一些网站使用了动态网页技术，即通过JavaScript等前端技术动态生成页面内容。如果只是简单地使用静态代码抓取网页，无法获取到动态生成的内容。
登录和会话管理：如果目标网站需要登录或者有会话管理机制，需要在代码中模拟登录和管理会话，才能获取到登录后才能访问的页面内容。

针对以上问题，可以采取以下解决方案：

使用模拟浏览器技术：可以使用一些第三方库或工具，如Selenium、Puppeteer等，模拟浏览器行为，包括处理验证码、动态内容等，从而实现对网站的抓取。
分析网站接口：有些网站提供了API接口，可以直接通过接口获取数据，而不需要抓取整个网页。可以通过浏览器开发者工具或者抓包工具分析网站的接口请求，然后编写代码调用接口获取数据。
使用专业的爬虫框架：有一些成熟的爬虫框架，如Scrapy、BeautifulSoup等，提供了丰富的功能和工具，可以帮助开发者更方便地进行网站抓取。

总结起来，要解决漂亮的代码不能抓取网站的问题，需要综合考虑网站的反爬虫机制、动态内容、登录和会话管理等因素，并选择合适的技术和工具进行处理。

不确定为什么漂亮的代码不能抓取网站

、、、、

我经常使用BS，但我不确定为什么它不能像我为Kodi制作的其他插件那样工作得很好。有没有人可以看看标签之间的代码，也许能找到我遗漏的部分？addon/python不会抛出任何错误，它只提供一个空的GUI屏幕。如果标题或图像抓取是正常的，而链接不是，那么它将显示标题/图像，但当单击链接时，链接将不起作用。所以这显然是标题/图像部分。被抓取的链接：http

浏览 14提问于2019-09-08得票数 1

1回答

如何从这个html中提取链接

、、

我是HTML的新手，我正在尝试用漂亮的汤抓取一些web数据。我能得到这样的标题value.find('div').ge

浏览 1提问于2020-08-13得票数 0

1回答

使用BeautifulSoup抓取的数据与源代码不匹配

、、、

我是网络抓取的新手。我已经看过一些关于如何使用漂亮的汤来抓取网站的教程。作为练习，我想从一个房地产网站上提取数据。我想要抓取的特定页面是这个：我遇到的第一个问题是，使用经典的漂亮<

浏览 4提问于2021-05-02得票数 1

1回答

如何使用AJAX测试我在Google上的爬虫能力？

、

我创建了我的网站，所以映射到使用PHP，所以我的网站将显然是谷歌爬虫。我已经用Google Fetch测试过了，它似乎可以工作。然而，我尝试过测试我的网站的所有其他非谷歌蜘蛛都不能使用使用_escape

浏览 0提问于2011-07-30得票数 1

回答已采纳

2回答

谷歌爬虫域名只能通过Gmail邮件内容知道吗？

一个从未有人链接过，也从未提交给谷歌或DMOZ的域名出现在了谷歌搜索结果中。有人知道他们有没有索引电子邮件的网址？

浏览 0提问于2011-11-21得票数 1

回答已采纳

1回答

有没有可能用Python在pygame窗口中运行Firefox或Chrome？

、、、

我有一个Pygame程序，我在互联网上找到了一个网站，里面有一个活动的html对象，我想在我的pygame窗口中找到它。我已经尝试了很多模块，但我没有找到我想要的。有没有可能拥有Firefox或Chrome的整个window/onglet，或者只有一个(div) html对象。下面是我的pygame代码：import pyperclipimport mathimport tk

浏览 14提问于2020-05-27得票数 1

1回答

有没有可能用漂亮的汤刮出一个“动态网页”？

、、、

我现在开始用漂亮的汤来抓取网站，我想我已经掌握了基本的知识，虽然我缺乏网页的理论知识，但我会尽我最大的努力来表达我的问题。我所说的动态网页是这样的:一个网站，它的HTML会根据用户的动作而改变，在我的例子中，它是可折叠的表格。我想获得一些"div“标签中的数据，但是当你加载页面时，数据在html<em

浏览 1提问于2016-11-22得票数 4

3回答

无法从网站获取数据，因为URL在获取数据时不会更改，因此数据表为空

、、、

我刚刚开始使用python进行网络抓取。我使用了两个库来抓取:请求和漂亮的汤。我打开给定的URL，并在该页面上传递所需数据的日期间隔。当我按submit时，URL不会改变，但是数据在页面上。")all = soup.find_all("table", {"class":"table table-responsive

浏览 3提问于2017-02-20得票数 1

回答已采纳

5回答

自动生成HTTP屏幕抓取Java代码

、、、

我需要从网站上抓取一些数据，因为这些数据不能通过他们的web服务获得。当我之前需要这样做时，我已经使用Apache的HTTP客户端库自己编写了Java代码，以便进行相关的HTTP调用来下载数据。通过在浏览器中单击相关屏幕，同时使用记录相应的HTTP调用，我找出了需要进行的相关调用。正如您可以想象的那样，这是一个相当单调乏味的过程，我想知道是否有工具可以实际生成与浏览器会话相对应的J

浏览 0提问于2009-01-08得票数 6

1回答

为什么python抓取结果与浏览器中的结果不同

、、、、

我可以在浏览器中浏览页面https://www.xiami.com/artist/O9fc383，但是当我用chrome驱动解析它时，我得到了不同的源代码，如下所示，所以我不能刮掉那个页面，我该怎么办？浏览器中没有源代码的此表单。 ...

浏览 2提问于2018-08-31得票数 0

1回答

如何从web页面的源中获取字符串，但这并不存在于漂亮的汤中

、

我是一个网络抓取的初学者。我正试图从这个网站上抓取。除了当我试图在下面的td元素中获取一些信息时，缺少一个文本字段，但当我查看它的源代码时，它就在网站上。下面是从漂亮的soup解析器返回的代码。text/javascript">document.write(Base64.decode(str_rot13("ZGL3Ywx5YwR1YwR2AN=="))

浏览 9提问于2018-08-12得票数 0

回答已采纳

1回答

美丽的汤刮不出所有的东西

、

当我用漂亮的汤抓取站点时，没有img标签(如图2所示)。我不明白为什么每个网站都有一个img标签，但美丽的汤却没有。

浏览 1提问于2020-03-02得票数 1

1回答

在iOS上用TFHpple解析超文本标记语言

、、、

我正在做一个iOS项目，我的目标是创建一个特定网站的“漂亮”应用程序版本。为此，我正在使用TFHpple解析来自上述网站的所有数据，以便在我的应用程序中使用。它将产品拆分到一个网站页面内的3个页面上，因此您必须单击网站上的“下一页”按钮，这将运行一些javascript代码并添加"?foo“部分，使浏览器中的URL为"”。我读到这个"

浏览 1提问于2013-12-28得票数 0

2回答

接受单词开头的漂亮汤find.all()

、

我正在抓取一个网站，里面有一个漂亮的汤，它的类名如下： <a class="Component-headline-0-2-109" data-key="card-headline" href="/article当我使用美丽汤的soup.find_all('class','Component-headline')时，它无法抓取任何东西，因为它的编号是

浏览 29提问于2020-12-18得票数 0

回答已采纳

1回答

使用python的Webscraping元素

、、、、

我目前正在使用漂亮的汤尝试和网络刮一个网站的数据，但是python模块正在阅读该页面的源代码。但是，在页面的源代码中，我所需要的信息并不存在，但是，如果我在chrome中右键单击页面并检查元素，它就是。我想知道python模块是否可以从网页中抓取元素，而不是源代码。在“美丽的汤”中，我试图搜索像这样的元素，但是它们没有出现或出现，因为它在源代码中搜索。我也不知道为什么</

浏览 2提问于2020-08-28得票数 0

回答已采纳

2回答

调用Twitch时BeautifulSoup不返回html

、、

我正在尝试为Twitch做一个网络抓取器，它将获得流的标题和流信息。我可以从其他网站中取出页面的特定部分，但当我放入一个流时，它看起来不像inspect元素中的html。它看起来就像一团乱麻。

浏览 20提问于2021-01-08得票数 0

2回答

解析多篇新闻文章

、、、

我已经建立了一个摘要程序，它利用一个解析器一次解析多个网站。我在每篇文章中只提取<p>。这抛出了许多与文章无关的随机内容。我见过几个人可以完美地解析任何文章。我该怎么做呢？我用的是美汤

浏览 3提问于2014-05-04得票数 0

1回答

我如何设计我的正则表达式脚本来抓取一个非常特定的属性，比如颜色？

我的方法是修改我以前使用过的刮刀，从抓取股票“价格”到抓取一个属性:网站中使用的颜色。我研究了一些库和工具，比如lxml和漂亮的汤，并尝试了一些调试，但我不能完全理解。目标:返回网站上使用的所有颜色的列表import urllib url="https://cloud.google.com

浏览 2提问于2017-06-19得票数 1

1回答

如何从android应用程序站点获取任何数据

、、

我正在尝试创建android应用程序，其中用户将收到通知，每小时与他的选择一些简短的字符串信息，如一些随机的单词从城市字典，或一些随机的语法规则。但问题是，我找不到任何关于如何获得随机信息并将其解析到我的应用程序中的提示。例如，城市词典只有通过词查询来获取结果的api。也许有任何网站有有用的信息，有api，在我的应用程序中更容易使用，或者我应该使用任何其他解决方案？

浏览 0提问于2018-09-22得票数 0

1回答

python刮刀，响应[403]

、、、、

我正在尝试在上刮一个网站，但我得到了以下错误：<body style="margin:0"><p id="cmsg">Please我使用的代码：import requestsimport requests_cache

浏览 4提问于2021-06-07得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

不确定为什么漂亮的代码不能抓取网站

相关·内容

不确定为什么漂亮的代码不能抓取网站

如何从这个html中提取链接

使用BeautifulSoup抓取的数据与源代码不匹配

如何使用AJAX测试我在Google上的爬虫能力？

谷歌爬虫域名只能通过Gmail邮件内容知道吗？

有没有可能用Python在pygame窗口中运行Firefox或Chrome？

有没有可能用漂亮的汤刮出一个“动态网页”？

无法从网站获取数据，因为URL在获取数据时不会更改，因此数据表为空

自动生成HTTP屏幕抓取Java代码

为什么python抓取结果与浏览器中的结果不同

如何从web页面的源中获取字符串，但这并不存在于漂亮的汤中

美丽的汤刮不出所有的东西

在iOS上用TFHpple解析超文本标记语言

接受单词开头的漂亮汤find.all()

使用python的Webscraping元素

调用Twitch时BeautifulSoup不返回html

解析多篇新闻文章

我如何设计我的正则表达式脚本来抓取一个非常特定的属性，比如颜色？

如何从android应用程序站点获取任何数据

python刮刀，响应[403]

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐