爬取网站需要授权 - 腾讯云开发者社区

是否可以编写代码来检测网站是否正在爬取内容？

浏览 1提问于2009-04-08得票数 1

2回答

Scrapy没有拿起我的url

、、

我有一个破烂的代码，应该能够采取电话和地址从一个网页中的表格： name="People" 'http://canada411.yellowpages.ca/search/si/1/519-896-7080/', def parse(self,response): yield

浏览 0提问于2017-02-16得票数 0

4回答

将asp.net动态站点转换为静态站点的工具

、

有没有什么工具可以爬取asp.net网站并创建一个静态站点？

浏览 2提问于2008-09-04得票数 0

回答已采纳

1回答

为什么谷歌机器人不能抓取这个robots.txt？

、、

我不明白为什么谷歌机器人不能抓取和索引我创建的WordPress网站。

浏览 1提问于2014-11-24得票数 0

2回答

如何使用Python在需要Google帐户登录的网站上进行web爬行？

、

我是Python的新手，我想使用Python来抓取几个需要Google帐号登录的网站。例如，我想爬一个网站xxx.appspot.com，我需要登录我的谷歌帐户访问它，因为这个数据库需要验证，我是授权人员。

浏览 1提问于2013-12-18得票数 2

回答已采纳

2回答

我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API？

、、、、

我需要这个数据库半定期更新(大约每周)，以包括新开的酒吧。 yelp api的问题是他们只返回20个结果。在我周围5英里的范围内有800多家酒吧。我如何才能现实地实现我的目标？

浏览 0提问于2011-01-18得票数 1

2回答

HTML爬行到ePub的转换工具

、、

目前似乎还没有工具可用于爬取站点并将内容转换为ePub格式。我认为，在没有得到网站所有者明确同意的情况下，在网站上执行这一行动是有法律含义的。

浏览 2提问于2011-05-08得票数 1

回答已采纳

1回答

如何隐藏我的IP在python中进行网络抓取？

、、、

我正在用python在一些页面上做web抓取，我已经被其中的一些阻止了。当我试图通过TOR浏览器检查它时，我已经看到我无法访问页面，所以我认为这些页面已经能够跟踪我所有的IP或我没有很好地配置TOR (我认为不是因为我用Chrome和TOR检查了我的IP地址和TOR是不同的)，所以，有人知道为什么吗？谢谢!

浏览 19提问于2020-05-21得票数 2

回答已采纳

2回答

使用机械化来检索网站的所有链接

、、、

如何使用Mechanize库查找网站上的所有链接？我喜欢递归地解析内部链接，以便抓取一个网站的所有链接。

浏览 0提问于2012-07-23得票数 2

回答已采纳

1回答

RSS提要安全性

我们正在考虑在我工作的公司实现RSS，作为向用户发送银行/transaction警报的一种形式。

浏览 0提问于2010-09-20得票数 1

1回答

IE 8的问题

我的网站在mozila上工作正常，但当我们转到IE 8时，它在状态栏上显示错误User Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows

浏览 0提问于2011-04-04得票数 0

1回答

rails中的自定义类

这是一个爬取网站并返回结果的类。我发现我需要将它放在lib文件夹中，我已经将autoload路径指向lib文件夹。

浏览 0提问于2011-06-09得票数 7

回答已采纳

1回答

雅虎管道合法性

、、

如果一个网站声明不抓取他们的网站，那么使用Yahoo Pipes或YQL这样的工具来创建mash up还合法吗？谢谢。

浏览 2提问于2013-09-26得票数 0

3回答

网站质量保证测试

、、

它主要是爬行一个网站，并显示对死链接、页面等的引用：。我发现这对我们发布的网站的质量保证非常有用。我想知道是否有人使用应用程序来爬取这样的站点，但也会检查诸如缺少ALT标记、可访问性问题和有效的xHtml代码。

浏览 1提问于2009-08-28得票数 0

1回答

php dom xpath从站点中的所有文件夹中提取所有链接

、、

如果你把最长的链接放在网站的前面就会一直走到网站的前面。我不确定我错过了什么任何指针将是伟大的。该网站是一个joomla网站，我正试图废止。 <?

浏览 0提问于2013-02-19得票数 0

3回答

网络爬虫的更新间隔是多少？

、

我目前正在做我自己的网络爬虫，我想知道…你应该每天重温一次吗？每小时一次？我真的不know...has任何人在这件事上的一些经验？也许有人能给我指个方向？

浏览 0提问于2010-07-10得票数 1

回答已采纳

2回答

通过爬取网站来构建网站的结构

、

当我重构一个网站时，我喜欢弄清楚现有的结构，以确保在将其移植到新的导航/菜单系统时不会遗漏任何东西。有没有自动化的工具可以在一个页面上生成网站的视觉结构？

浏览 0提问于2015-02-04得票数 0

1回答

Nutch API建议

、、

我正在做一个项目，我需要一个成熟的爬虫来做一些工作，我正在为这个目的评估Nutch。我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫程序，并且我需要它能够仅重新爬取站点的更新资源，并跳过已经爬取的部分。有没有人有在Java中直接使用Nutch代码的经验，而不是通过命令行。在不需要索引和搜索的情况下，Nutch爬行模块的可用性如何？任何帮助都是非常感谢的。谢谢。

浏览 0提问于2010-12-03得票数 6

回答已采纳

1回答

使用ManifoldCF进行Apache身份验证

、

apache连接器为wiki api提供了用户名和密码字段，但是，在我的公司中，需要用户名和密码才能连接到运行wiki站点的ManifoldCF服务器，在进行身份验证之后，这些凭据将传递给wiki api因此，本质上，我需要一种方法来让ManifoldCF在尝试建立连接时传递我的windows凭据。使用api登录字段不起作用。有什么建议吗？

浏览 4提问于2013-05-11得票数 1

1回答