腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
谷歌
抓取
同一页面上的数千个
链接
我已经创建了一个有数千个
链接
的页面,谷歌可以
抓取
它并索引那些通过单个页面上的
链接
访问的数千个页面中的所有数据。我甚至在google上搜索的时候放上了这个
网站
: filter。 有没有人知道为什么会这样。。
浏览 0
提问于2011-05-09
得票数 0
1
回答
如何使用AJAX测试我在Google上的爬虫能力?
、
我创建了我的
网站
,所以映射到使用PHP,所以我的
网站
将显然是谷歌爬虫。我已经用Google Fetch测试过了,它似乎可以工作。然而,我尝试过测试我的
网站
的所有其他非谷歌蜘蛛都不能使用使用_escaped_fragment_的谷歌技术。我想要确保当谷歌蜘蛛访问site.com时,它会看到x,
浏览 0
提问于2011-07-30
得票数 1
回答已采纳
2
回答
在
网站
中搜索特定的URL
链接
?
哪种语言或方法最容易输入
网站
的URL并接收该
网站
上与给定URL相
链接
的每个URL。例如,如果我想要查看在我的
网站
上有多少次有一个名为oranges的页面的
链接
,我就会使用它。作为回报,我会得到一个文本文件或其他一些文件,其中所有的URL都包含到"“的
链接
。
浏览 1
提问于2012-03-08
得票数 1
1
回答
为什么scrapy在这个例子中不能工作?
、
我试图从一个
网站
抓取
数据,如文章枚举,定价和股票,并将其导出到excel工作表。 以下脚本成功登录。未登录时,仅可见articl枚举器。我测试了刮刀,它成功地
抓取
了文章编号。在下面的示例中,我尝试将登录和
抓取
数据结合起来,但它不起作用。 我做错了什么?
浏览 15
提问于2021-11-05
得票数 0
1
回答
什么时候谷歌会停止显示一个
网站
的网页后,一个robots.txt已被放置在其中?
、
、
、
我的搜索引擎优化知识很少,我觉得答案可能会有所不同,取决于
网站
流量和其他搜索引擎优化相关的因素,但从总体上说,这将需要多长时间?
浏览 2
提问于2015-08-13
得票数 1
回答已采纳
2
回答
如何通过输入域名递归
抓取
所有站点
链接
?
如何在PHP中通过输入域名递归
抓取
所有站点
链接
?请给我一些想法。
浏览 16
提问于2014-11-12
得票数 0
1
回答
如何上报GoogleBot的bug?
在过去的几天里,Google Bot试图一次又一次地读取我们主站点的一个URL,导致DDOS攻击:)由于Google Crawler的大量请求,我们的
网站
变得非常慢。+%204*(1/user/user/tag/tag/~plot~%204x%5E2;%204*x%5E2%20+%204*(1/badges HTTP/1.0" 200 32587 导致此问题的错误
链接
浏览 4
提问于2019-05-28
得票数 1
2
回答
为什么nutch不
抓取
所有没有英文
网站
的
链接
?
、
我用nutch 1.4
抓取
一个站点,我知道nutch不会
抓取
这个站点中的所有
链接
。我没有过滤器,也没有爬行的限制规则。例如,nutch从不
抓取
此
链接
:如果我把这个
链接
给nutch
抓取
,nutch永远不会
抓取
这个
链接
。这个
网站
是波斯语,而不是英语
浏览 0
提问于2012-01-31
得票数 0
1
回答
抓取
不能
抓取
链接
-- vnexpress
网站
评论
、
我是Scrapy & Python的新手。我尝试从以下URL获取注释,但结果始终为null:from scrapy.spiders import Spiderfrom tutorial.items import TutorialItem name = "vnexpress"
浏览 4
提问于2016-05-12
得票数 0
回答已采纳
2
回答
网络爬虫程序C# .Net
、
--下午12:16编辑--我只知道子页面是存在的,但是除了提供确切的urls之外,我没有办法
链接
到它。
浏览 0
提问于2013-06-27
得票数 1
回答已采纳
1
回答
如何在booking.com上使用scrapy而不被阻止?
、
、
、
我正在尝试用python插件scrapy从booking.com上
抓取
酒店评论。这是我的蜘蛛: name = 'feedbacktest
浏览 12
提问于2021-03-07
得票数 1
3
回答
搜索引擎从哪里开始爬行?
搜索引擎机器人使用什么作为起点?是DNS查找,还是从一些固定的知名站点列表开始?有什么猜测或建议吗?
浏览 1
提问于2008-09-03
得票数 12
回答已采纳
1
回答
如何使用SwiftSoup
抓取
重定向的特定
网站
?
、
、
、
、
我正在尝试让Swift
抓取
网站
使用SwiftSoup。然而,像https://apple.news/AQZXxg8mUQfKrEaM9MRBpxw这样的
网站
,它会使用JavaScript自动重定向,这会导致SwiftSoup
抓取
打开的页面,而不是我想要的实际文章我应该如何
抓取
这个
链接
,这样它才能
抓取
实际的文章,而不是重定向的封面网页? 我尝试使用状态码,但这个
网站
没有给出301或302的状态码,而是200的状态码。我试着<
浏览 52
提问于2019-06-19
得票数 4
3
回答
如何让谷歌在我的服务器上读取每个站点?
、
我如何让谷歌不提交一个
网站
地图到谷歌为每个
网站
抓取
每个
网站
?
浏览 0
提问于2011-11-08
得票数 4
回答已采纳
1
回答
获取所有给定url整页的参考资料。
、
我想得到所有的超
链接
在给定的
网站
。所以我写了这段代码。但它不能正常工作。它只显示给定url的所有超
链接
。但我想得到所有的超级
链接
的给定
网站
。 <a href="index.php">Homepage</a></body>这里首先将显示
浏览 3
提问于2016-06-15
得票数 0
1
回答
如何根据在Google上搜索的术语对自定义url进行索引
、
、
有时我会在Google上看到一些
链接
,上面有我在Google上搜索的关键词作为参数。
浏览 2
提问于2015-07-17
得票数 0
3
回答
什么是好工具,自动
抓取
网站
,检查某些
链接
,并提取数据?
、
我想自动
抓取
大约100万个URL(在一个CSV文件上),并检查这些站点是否提供了Facebook登录按钮(即用户可以通过将他们的Facebook帐户连接到站点来创建帐户)。然后,我想记录这些按钮是为哪些
网站
找到的。什么是好工具?
浏览 0
提问于2015-05-18
得票数 3
回答已采纳
6
回答
网络
抓取
和网络
抓取
有什么不同?
、
、
爬行和网络
抓取
有区别吗? 如果有不同之处,为了收集一些网络数据来提供一个数据库,以便在定制的搜索引擎中使用,最好的方法是什么?
浏览 2
提问于2010-12-02
得票数 96
回答已采纳
1
回答
当下一页的后续
链接
在当前页面源代码中不可用时,
抓取
网站
的所有页面
、
嗨,我已经成功地通过使用Python和正则表达式
抓取
了一些购物
网站
的所有页面。但现在我遇到了麻烦,要
抓取
某个特定
网站
的所有页面,该
网站
的下一页后续
链接
不存在于当前页面中,就像这里的我没有办法获得这些类型的
网站
的所有网页的源代码,其中下一页的后续
浏览 0
提问于2013-05-28
得票数 0
2
回答
有没有办法在python中
抓取
网页,让爬虫只
抓取
新的
链接
。
、
、
我想
抓取
一个网页(新闻),只获得最新的
链接
。我有一个爬虫代码,从一个
网站
获得所有的
链接
,需要2-3个小时来获得大约30000个
链接
,并在数据库中存储。如果下次运行爬虫程序时,我只想插入新的
链接
,该怎么办?我知道我可以在插入数据库之前做一个过滤器,但我希望爬虫只
抓取
新的
链接
,而不是再次
抓取
旧
链接
(基本上是整个
网站
)。有没有可能做这样的事情?
浏览 1
提问于2018-04-18
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python数据抓取(3)—抓取标题、时间及链接
抓取整个网站-免费抓取整个网站数据信息软件
什么是网站数据抓取
网站链接调整通知
24 小时抓取百万次,Anthropic AI 公司被指过度抓取网站数据
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券