php 爬取网站所有链接 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

使用机械化来检索网站的所有链接

、、、

如何使用Mechanize库查找网站上的所有链接？我喜欢递归地解析内部链接，以便抓取一个网站的所有链接。

浏览 0提问于2012-07-23得票数 2

回答已采纳

1回答

php dom xpath从站点中的所有文件夹中提取所有链接

、、

也许它叫别的什么..我有下面的代码，它将抓取第一个文件夹中的所有内容，但不会从其他文件夹中抓取其他项目。例如，它会抓取第一个/前面的所有内容，但如果你有一个站点mysite.com/ folder2 /，它就不会抓取folder2。一切都是联系在一起的。它也会向后移动。如果你把最长的链接放在网站的前面就会一直走到网站的前面。我不确定我错过了什么任何指针将是伟大的。该网站是一个joomla网站，我正试图废止。 <?php</em

浏览 0提问于2013-02-19得票数 0

2回答

我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API？

、、、、

我要做的是创建一个美国所有酒吧的数据库。我需要这个数据库半定期更新(大约每周)，以包括新开的酒吧。 yelp api的问题是他们只返回20个结果。在我周围5英里的范围内有800多家酒吧。

浏览 0提问于2011-01-18得票数 1

4回答

网站爬行自动检测

是否可以编写代码来检测网站是否正在爬取内容？

浏览 1提问于2009-04-08得票数 1

1回答

JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程

、、

我目前正在构建这个网络爬虫来获取起始url的所有链接，并从这些链接中爬取所有链接，等等。我还注意到，一旦我运行我的爬虫，我的互联网开始崩溃，这意味着网站不会加载，直到我打开我的网络爬虫。我想我发送了太多的http请求。

浏览 1提问于2012-05-02得票数 0

回答已采纳

4回答

将asp.net动态站点转换为静态站点的工具

、

有没有什么工具可以爬取asp.net网站并创建一个静态站点？

浏览 2提问于2008-09-04得票数 0

回答已采纳

3回答

网站质量保证测试

、、

它主要是爬行一个网站，并显示对死链接、页面等的引用：。我发现这对我们发布的网站的质量保证非常有用。我想知道是否有人使用应用程序来爬取这样的站点，但也会检查诸如缺少ALT标记、可访问性问题和有效的xHtml代码。

浏览 1提问于2009-08-28得票数 0

1回答

转换浏览器cookies并在cURL爬网中使用

、、

首先，这样做的目的是爬取我们的一个登录应用程序，并获取有关作业运行的数据，而我可能无法通过任何其他方式获取这些数据。我可以通过浏览器登录，也可以检查我的cookie；那么我如何(及时地)将这些信息添加到cURL调用中，以便我可以使用PHP来解析返回页面(和链接)？

浏览 3提问于2015-11-18得票数 0

2回答

网站内容清理工具？

我正在与一个客户合作，将一个网站从现有的生产硬件迁移到新的硬件环境中。现在似乎是执行审计并删除任何旧的或过时的内容而不是盲目复制它的绝佳时机。有没有什么好的免费工具或脚本可以用来将服务器上的web可访问内容与服务器上的实际文件进行比较，以查看实际链接和使用的内容是什么？提前感谢您的帮助！

浏览 1提问于2009-07-07得票数 2

2回答

HTML爬行到ePub的转换工具

、、

目前似乎还没有工具可用于爬取站点并将内容转换为ePub格式。我认为，在没有得到网站所有者明确同意的情况下，在网站上执行这一行动是有法律含义的。

浏览 2提问于2011-05-08得票数 1

回答已采纳

1回答

为什么谷歌机器人不能抓取这个robots.txt？

、、

我不明白为什么谷歌机器人不能抓取和索引我创建的WordPress网站。这就是我的robots.txt：Disallow: /wp-admin/Disallow: /wp-login.php Disallow

浏览 1提问于2014-11-24得票数 0

3回答

Wordpress网站似乎没有恶意软件，但点击谷歌搜索结果会重定向到垃圾网站

、、、、

当我在Google中搜索该品牌并点击相应的链接时，我被重定向到一个第三方垃圾网站。其他详细信息：我找到并删除了一些可疑的PHP eval()函数，然后在我的页面和数据库中搜索并替换了所有剩余的代码。在该网站被谷歌清理为非黑名单状态后，我认为一切都结束了，我运行了更新，并采取了许多措施来保护该网站

浏览 1提问于2012-03-16得票数 2

回答已采纳

2回答

Scrapy没有拿起我的url

、、

我有一个破烂的代码，应该能够采取电话和地址从一个网页中的表格： name="People" 'http://canada411.yellowpages.ca/search/si/1/519-896-7080/', def parse(self,response): yield

浏览 0提问于2017-02-16得票数 0

1回答

SQL全文索引，ASCII控制字符

、、、

我找不到一个可以证实这种行为的链接。我可以从数据库中删除这些字符，但如果能确认并了解原因会更好。任何帮助都将不胜感激。

浏览 0提问于2013-09-02得票数 0

1回答

检查网站是否有搜索引擎友好的URL的Ruby代码

、、、、

我正在开发一个在rails中的应用程序，它需要检查输入的网站是否有搜索引擎友好的URL生成。我想到的一个解决方案是使用nokogiri来解析网站的超文本标记语言，并在链接标签中查找URL，看看它们是否是搜索引擎friendly.Is，还有其他方法可以做到吗?任何帮助都会非常好。

浏览 1提问于2012-07-03得票数 6

回答已采纳

0回答

新浪微博搜索是否禁用了huginn，有什么解决办法吗？

比如，用huginn爬网这个链接： https://s.weibo.com/weibo?换了其他地方的机器，电脑和ip不同，huginn照样无法正常爬取。而在同一台机器上用下载工具甚至简单的脚本下载这个链接的网页内容，却可以实现，不知道是什么情况。

浏览 163提问于2021-09-28

1回答

simple_html_dom爬行整个网站

、、

我想爬整个网站。我正在使用Simple_html_dom进行解析，但问题是一次只需要一个网页链接。我只想提供开始(主页)链接，它应该爬行和解析该网站的所有网页自动。有什么建议吗？

浏览 1提问于2014-06-07得票数 0

回答已采纳

1回答

如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

、、

我想在其中爬行一些网站，并将其索引和信息存储在Hadoop中。然后使用Solr搜索就可以了。但我面临着很多问题。5)请解释我一个步骤，如果可能的话，我如何爬行一些网站，并将其信息保存到数据库(Hadoop或任何其他)，然后做搜索。提前说一声非常感谢。

浏览 2提问于2012-09-06得票数 3

1回答

htaccess语言检测高效代码

、

在我的网站上，我希望将会说意大利语的访问者(他们的语言浏览器是意大利语)重定向到/it/，并将所有其他语言重定向到/en/#redirect to /it for italian/admin/ [NC] #we are not in the admin panel这样，所有的条件都会被检查我猜所有

浏览 3提问于2015-05-15得票数 0

1回答

系统自动更新SQL Server全文索引会导致阻塞和超时

、

自动更新目录中的全文索引的内部系统进程(change tracking = on)需要很长时间才能完成，从而锁定了希望同时访问同一个表的其他查询。除了将更改跟踪设置为关闭之外，是否可以采取其他措施来避免这些影响？保持较小的目录大小是否有帮助，即每个目录一个表？全文目录目前有34 GB大小，其中包含一些包含大量记录的非常大的表。

浏览 22提问于2019-02-22得票数 0

回答已采纳

点击加载更多

使用机械化来检索网站的所有链接

php dom xpath从站点中的所有文件夹中提取所有链接

我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API？

网站爬行自动检测

JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程

将asp.net动态站点转换为静态站点的工具

网站质量保证测试

转换浏览器cookies并在cURL爬网中使用

网站内容清理工具？

HTML爬行到ePub的转换工具

为什么谷歌机器人不能抓取这个robots.txt？

Wordpress网站似乎没有恶意软件，但点击谷歌搜索结果会重定向到垃圾网站

Scrapy没有拿起我的url

SQL全文索引，ASCII控制字符

检查网站是否有搜索引擎友好的URL的Ruby代码

新浪微博搜索是否禁用了huginn，有什么解决办法吗？

simple_html_dom爬行整个网站

如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

htaccess语言检测高效代码

系统自动更新SQL Server全文索引会导致阻塞和超时

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐