腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用机械化来检索
网站
的
所有
链接
、
、
、
如何使用Mechanize库查找
网站
上的
所有
链接
? 我喜欢递归地解析内部
链接
,以便抓取一个
网站
的
所有
链接
。
浏览 0
提问于2012-07-23
得票数 2
回答已采纳
1
回答
php
dom xpath从站点中的
所有
文件夹中提取
所有
链接
、
、
也许它叫别的什么..我有下面的代码,它将抓取第一个文件夹中的
所有
内容,但不会从其他文件夹中抓取其他项目。例如,它会抓取第一个/前面的
所有
内容,但如果你有一个站点mysite.com/ folder2 /,它就不会抓取folder2。一切都是联系在一起的。它也会向后移动。如果你把最长的
链接
放在
网站
的前面就会一直走到
网站
的前面。我不确定我错过了什么任何指针将是伟大的。该
网站
是一个joomla
网站
,我正试图废止。 <?
php</em
浏览 0
提问于2013-02-19
得票数 0
2
回答
我如何“获得”数据的
所有
酒吧/俱乐部在美国的数据库。Yelp API?
、
、
、
、
我要做的是创建一个美国
所有
酒吧的数据库。我需要这个数据库半定期更新(大约每周),以包括新开的酒吧。 yelp api的问题是他们只返回20个结果。在我周围5英里的范围内有800多家酒吧。
浏览 0
提问于2011-01-18
得票数 1
4
回答
网站
爬行自动检测
是否可以编写代码来检测
网站
是否正在
爬
取
内容?
浏览 1
提问于2009-04-08
得票数 1
1
回答
JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程
、
、
我目前正在构建这个网络爬虫来获取起始url的
所有
链接
,并从这些
链接
中
爬
取
所有
链接
,等等。我还注意到,一旦我运行我的爬虫,我的互联网开始崩溃,这意味着
网站
不会加载,直到我打开我的网络爬虫。我想我发送了太多的http请求。
浏览 1
提问于2012-05-02
得票数 0
回答已采纳
4
回答
将asp.net动态站点转换为静态站点的工具
、
有没有什么工具可以
爬
取
asp.net
网站
并创建一个静态站点?
浏览 2
提问于2008-09-04
得票数 0
回答已采纳
3
回答
网站
质量保证测试
、
、
它主要是爬行一个
网站
,并显示对死
链接
、页面等的引用:。 我发现这对我们发布的
网站
的质量保证非常有用。我想知道是否有人使用应用程序来
爬
取
这样的站点,但也会检查诸如缺少ALT标记、可访问性问题和有效的xHtml代码。
浏览 1
提问于2009-08-28
得票数 0
1
回答
转换浏览器cookies并在cURL
爬
网中使用
、
、
首先,这样做的目的是
爬
取
我们的一个登录应用程序,并获取有关作业运行的数据,而我可能无法通过任何其他方式获取这些数据。我可以通过浏览器登录,也可以检查我的cookie;那么我如何(及时地)将这些信息添加到cURL调用中,以便我可以使用
PHP
来解析返回页面(和
链接
)?
浏览 3
提问于2015-11-18
得票数 0
2
回答
网站
内容清理工具?
我正在与一个客户合作,将一个
网站
从现有的生产硬件迁移到新的硬件环境中。现在似乎是执行审计并删除任何旧的或过时的内容而不是盲目复制它的绝佳时机。有没有什么好的免费工具或脚本可以用来将服务器上的web可访问内容与服务器上的实际文件进行比较,以查看实际
链接
和使用的内容是什么? 提前感谢您的帮助!
浏览 1
提问于2009-07-07
得票数 2
2
回答
HTML爬行到ePub的转换工具
、
、
目前似乎还没有工具可用于
爬
取
站点并将内容转换为ePub格式。我认为,在没有得到
网站
所有
者明确同意的情况下,在
网站
上执行这一行动是有法律含义的。
浏览 2
提问于2011-05-08
得票数 1
回答已采纳
1
回答
为什么谷歌机器人不能抓取这个robots.txt?
、
、
我不明白为什么谷歌机器人不能抓取和索引我创建的WordPress
网站
。这就是我的robots.txt:Disallow: /wp-admin/Disallow: /wp-login.
php
Disallow
浏览 1
提问于2014-11-24
得票数 0
3
回答
Wordpress
网站
似乎没有恶意软件,但点击谷歌搜索结果会重定向到垃圾
网站
、
、
、
、
当我在Google中搜索该品牌并点击相应的
链接
时,我被重定向到一个第三方垃圾
网站
。其他详细信息: 我找到并删除了一些可疑的
PHP
eval()函数,然后在我的页面和数据库中搜索并替换了
所有
剩余的代码。在该
网站
被谷歌清理为非黑名单状态后,我认为一切都结束了,我运行了更新,并采取了许多措施来保护该
网站
浏览 1
提问于2012-03-16
得票数 2
回答已采纳
2
回答
Scrapy没有拿起我的url
、
、
我有一个破烂的代码,应该能够采取电话和地址从一个网页中的表格: name="People" 'http://canada411.yellowpages.ca/search/si/1/519-896-7080/', def parse(self,response): yield
浏览 0
提问于2017-02-16
得票数 0
1
回答
SQL全文索引,ASCII控制字符
、
、
、
我找不到一个可以证实这种行为的
链接
。我可以从数据库中删除这些字符,但如果能确认并了解原因会更好。任何帮助都将不胜感激。
浏览 0
提问于2013-09-02
得票数 0
1
回答
检查
网站
是否有搜索引擎友好的URL的Ruby代码
、
、
、
、
我正在开发一个在rails中的应用程序,它需要检查输入的
网站
是否有搜索引擎友好的URL生成。我想到的一个解决方案是使用nokogiri来解析
网站
的超文本标记语言,并在
链接
标签中查找URL,看看它们是否是搜索引擎friendly.Is,还有其他方法可以做到吗?任何帮助都会非常好。
浏览 1
提问于2012-07-03
得票数 6
回答已采纳
0
回答
新浪微博搜索是否禁用了huginn,有什么解决办法吗?
比如,用huginn
爬
网这个
链接
: https://s.weibo.com/weibo?换了其他地方的机器,电脑和ip不同,huginn照样无法正常
爬
取
。而在同一台机器上用 下载工具甚至简单的脚本下载这个
链接
的网页内容,却可以实现,不知道是什么情况。
浏览 110
提问于2021-09-28
1
回答
simple_html_dom爬行整个
网站
、
、
我想
爬
整个
网站
。我正在使用Simple_html_dom进行解析,但问题是一次只需要一个网页
链接
。我只想提供开始(主页)
链接
,它应该爬行和解析该
网站
的
所有
网页自动。有什么建议吗?
浏览 1
提问于2014-06-07
得票数 0
回答已采纳
1
回答
如果我们要用Hadoop和Solr做一个搜索引擎,NUTCH的作用是什么?
、
、
我想在其中爬行一些
网站
,并将其索引和信息存储在Hadoop中。然后使用Solr搜索就可以了。但我面临着很多问题。5)请解释我一个步骤,如果可能的话,我如何爬行一些
网站
,并将其信息保存到数据库(Hadoop或任何其他),然后做搜索。提前说一声非常感谢。
浏览 2
提问于2012-09-06
得票数 3
1
回答
htaccess语言检测高效代码
、
在我的
网站
上,我希望将会说意大利语的访问者(他们的语言浏览器是意大利语)重定向到/it/,并将
所有
其他语言重定向到/en/#redirect to /it for italian/admin/ [NC] #we are not in the admin panel这样,
所有
的条件都会被检查我猜
所有
浏览 3
提问于2015-05-15
得票数 0
1
回答
系统自动更新SQL Server全文索引会导致阻塞和超时
、
自动更新目录中的全文索引的内部系统进程(change tracking = on)需要很长时间才能完成,从而锁定了希望同时访问同一个表的其他查询。 除了将更改跟踪设置为关闭之外,是否可以采取其他措施来避免这些影响?保持较小的目录大小是否有帮助,即每个目录一个表?全文目录目前有34 GB大小,其中包含一些包含大量记录的非常大的表。
浏览 22
提问于2019-02-22
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫:“追新番”网站资源链接爬取
爬虫初体验:爬取学校网站所有图片
如何爬取一个网站上的所有资源?——彼岸图网爬取记
简单代码爬取图片网站的所有图片
这个网站,可以一键爬取网页上的所有图片!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券