服务器错误爬虫抓取_java爬虫抓取_图片抓取爬虫 - 腾讯云开发者社区

服务器错误：爬虫发起抓取，httpcode返回码是5XX ====我的好几个站都这样了，以前百度能正常抓取的，但是最近突然不行了，是什么问题啊？大家的腾讯云服务器有这个问题吗？

浏览 193提问于2016-04-26

1回答

Twitter Card API -通过javascript打开twitter对话框，并动态设置元标签

、、、

如何调用/创建Twitter Card并动态设置元值，而不是从head部分获取或声明元数据。就像下面的代码实现一样。 method: 'share_open_graph', action_properties: JSON.stringify({ 'og-image':'image-url'

浏览 3提问于2018-08-18得票数 1

2回答

浏览器限制会影响网页爬虫吗？

、、

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

1回答

我有一个用例，在这个用例中，我需要创建一个AWS Glue crawler来抓取存储在S3中的一些数据，启动爬虫，然后在完成抓取数据后删除爬虫。我遇到的难题是，爬虫可能需要很长时间才能完成，有时需要20-30分钟来完成对实际数据的爬行，然后才能将其删除。最初我打算用AWSGlueAsyncClient来解决这个问题，这样就不会阻塞调用线程20-30分钟，我只需要写一个回调，这样当爬虫完成时，它就会立即被删除。这样做的问题是，如果服务器在爬虫完成所需的2

浏览 27提问于2021-05-26得票数 0

回答已采纳

2回答

AWS:动态分配和关联新的IP地址到EC2实例？

、、、

我在一个AWS托管服务器上运行一些web爬行作业。爬虫从eCommerce网站抓取数据，但最近爬虫从网站中获得“超时错误”。根据我的IP地址，该网站可能限制了我的访问频率。

浏览 4提问于2014-04-08得票数 9

回答已采纳

1回答

爬行Anywhere+Solr+ Tomcat:无法访问爬虫管理

、、、

我正在尝试在任何地方实现爬行，以抓取文档文件文件夹。安装了tomcat和Apache web服务器。 <error> <errno>1</er

浏览 2提问于2013-12-02得票数 0

回答已采纳

2回答

为什么我在使用Pandas时收到HTTP 403错误？

、

希望从特定esport网站的表中获取数据，但我似乎在苦苦挣扎。import pandas as pd 我试着编辑它，使我的工作，但我没有成功。 req = Request('http

浏览 2提问于2019-02-06得票数 2

1回答

如何通过url参数更改开放图形meta标签内容

、、、

我正在尝试使用url参数和打开的图形meta标签来制作一个自定义的嵌入生成器，但是每当我将链接发布到诸如Discord之类的站点时，它都会使用我为其设置的默认标签，而不是url参数。有人知道怎么解决这个问题吗？我已经发布了代码和下面发生的事情的示例图像。 ? <html prefix="og: https://ogp.me/ns#"> <meta property="og:title" content="Title"> <meta property="

浏览 24提问于2021-02-03得票数 1

回答已采纳

1回答

Stormcrawler删除螺栓配置的正确方法

我不想因为输入了错误的信息而不小心删除了索引中的所有内容。?

浏览 32提问于2019-09-13得票数 0

回答已采纳

3回答

如何重定向特定IP地址

、、、

比如说javascript，爬虫的IP地址，以及爬虫的引用url，这是可能的吗？

浏览 0提问于2013-12-13得票数 0

3回答

Facebook爬虫机器人崩溃网站

、、

Facebook是不是刚刚实现了一些网络爬虫？在过去的几天里，我的网站已经崩溃了几次，严重超载了我追踪到的Facebook的I地址。我试着用谷歌搜索，但找不到任何关于通过robots.txt控制Facebook的爬虫机器人的权威资源。根据更早的消息来源，Facebook“不会抓取你的网站”。但这绝对是错误的，因为我的服务器日志显示，他们以每秒许多页面的速度从69.171.237.0/24到69.171.229.115/24的dozen+ IP抓取我的站点。我找不到任

浏览 2提问于2012-10-14得票数 7

2回答

使用javascript导入外部页面

、、

我想做一个java脚本爬虫，从php服务器获得一个分配，然后索引页面。但是我想抓取的网站是外部的，我不能用javascript访问它们，有没有人有其他赋值语言或javascript的解决方案。我想过在加载新站点时使用greasemonkey抓取页面。

浏览 1提问于2012-03-06得票数 0

1回答

混合JavaScript码

、、、

我目前正试图弄清楚这段代码是做什么的。据我所知，它将URL中的一个单词转换为一些未知的散列。下面是一个示例：-Transformed单词: KYtLWBcfunction decode_string(in_str) { } var f = document.forms[0]; if (f.attributes['action'] !

浏览 0提问于2018-04-05得票数 0

回答已采纳

1回答

Web Crawler - Windows应用程序

、、、

我想建立一个网络爬虫与用户界面，允许用户输入一系列的零件编号，然后爬虫将挖掘约6网址的(制造商/供应商网站)，并拉回该零件的库存值和警报，如果它更新到1+ (通常情况下，我们正在寻找的零件坐在0库存数周) 我查看了Scrapy，并试图在我们的服务器上实现它，直到意识到它永远不会在我们通过HostGator使用的共享服务器上工作，因为他们不允许Python install或GCC。下一个选择是使用Scrapy Cloud，但从我的阅读来看，每次需要抓取不同的部件号时，我都必须手动更新爬行器。有没有

浏览 2提问于2019-03-21得票数 2

2回答

我需要为特定的用户代理编写一个网络爬虫

、

我需要编写一个网络爬虫，并希望能够爬行使用一个已知的用户代理。例如，我希望我的爬虫程序充当iphone来抓取网站的移动站点，然后使用Mozilla PC代理再次抓取，等等。这样，我将能够抓取每一个“类型”的网站(移动和个人电脑)。然而，我也希望能够设置我的爬虫的用户代理，这样网站管理员也可以在他们的统计数据中看到访问整个网站的是一个爬虫，而不是真正的用户。所以我的问题是，你们知道如何在PHP中同时设置一个移动代理和一个爬虫代理吗？这有可能吗？

浏览 1提问于2011-05-14得票数 3

回答已采纳

2回答

有没有可以下载整个网站的网络爬虫？

、

需要知道是否有一个爬虫/下载器，可以抓取和下载和整个网站的链接深度至少为4页。我正在尝试下载的站点有java script超链接，这些超链接只能由浏览器呈现，因此爬虫程序无法抓取这些超链接，除非爬虫程序自己呈现它们！

浏览 4提问于2010-09-30得票数 0

回答已采纳

1回答

PHP网络爬虫

、

我正在寻找一个PHP的网络爬虫收集一个大型网站的所有链接，并告诉我，如果链接被打破。问题不是抓取链接，而是规模问题我不确定我修改的脚本是否足以抓取可能有数千个URL，因为我尝试将搜索链接的深度设置为4，但爬虫在浏览器中超时。其他人提到了一些关于杀死进程的事情，以避免服务器过载，有人可以详细说明一下这个问题吗？

浏览 0提问于2011-04-12得票数 0

1回答