腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
基于
PHP
的Web
爬虫
或基于JAVA的Web
爬虫
、
、
我对基于
PHP
的网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为
PHP
有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于
PHP
的
爬虫
还是基于Java的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
使用
php
爬虫
将数据索引到ElasticSearch
、
、
我想索引爬行网站到ElasticSearch,但我不知道,我可以索引爬行信息到ElasticSearch与
php
爬虫
。我知道Apache可以将爬行网站索引到ElasticSearch,但是我对
php
爬虫
一无所知!我可以在
php
web应用程序中使用Apache吗?
浏览 4
提问于2013-05-12
得票数 3
1
回答
如何阻止Web
爬虫
下载文件
、
、
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个
PHP
脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是nginx和drupa
浏览 0
提问于2013-07-27
得票数 1
1
回答
有没有免费的
php
爬虫
?
、
过去我用过自己的
爬虫
,但现在我需要更健壮的
爬虫
,我想知道有没有什么好的免费的
php
爬虫
?
浏览 0
提问于2010-11-21
得票数 3
4
回答
PHP
警告: exec()无法分叉
、
使用apache和
php
5.2.17运行Centos。我有一个网站,列出了许多不同零售商网站的产品。我有
爬虫
脚本,运行从每个网站抓取产品。由于每个网站是不同的,每个
爬虫
脚本必须定制,以抓取特定的零售商网站。所以基本上每个零售商我有一个
爬虫
。在这个时候,我有21个
爬虫
不断运行,以收集和更新这些网站的产品。每个
爬虫
都是一个
php
文件,一旦完成了
php
脚本,它就会检查,以确保它是唯一运行的实例,并且在脚本的最末端,它使用exec再次启动自己,而原始实例关闭
浏览 7
提问于2013-12-18
得票数 13
回答已采纳
3
回答
重定向爬行器
、
、
我想添加一个脚本来检查代理信息,如果它匹配其中一个
爬虫
的一部分,我想轻轻地将其重定向到另一个页面。在页面级别重定向,而不是在.htaccess文件中重定向的最好方法是什么?
浏览 1
提问于2011-06-25
得票数 0
2
回答
如何修复facebook的循环重定向?
、
、
我在一个网站上做了4个登陆页面,和一个
php
脚本随机化了不同的登陆页面。 但我的问题是修复facebook的开放图形。他返回:无法跟随重定向路径-使用来自的数据,因为在重定向路径之后有一个错误。
浏览 4
提问于2015-06-03
得票数 3
回答已采纳
3
回答
将数据从
PHP
脚本传递到Python Web Crawler
、
、
、
、
我有一个python
爬虫
,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的数据。我将使用
php
/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从
php
脚本发送到正在运行的python脚本?然后我在考虑使用一个共享文件,
php
在其中写入数据,python从中读取数据。但是,我需要一些方法来让python脚本知道,新数据已经写入文件,以
浏览 1
提问于2011-03-31
得票数 1
1
回答
如何使用
php
获取HTML页面的标题?
、
、
如何使用
php
获取HTML页面的标题?我已经做了一个
php
网络
爬虫
,我想在我的
爬虫
中实现这一功能,这样它就会有页面的名称和url。提前谢谢。可能使用preg_match。
浏览 0
提问于2011-02-07
得票数 3
回答已采纳
3
回答
如何防止昂贵的API被
爬虫
和
爬虫
吃掉?
我注意到,来自蜘蛛和
爬虫
的访问产生了对该API的数千次调用,而我正在为这些调用收费。有没有办法阻止显示由API生成的内容的网页部分,即只有实际的访问者才能看到它,并且在抓取网页时不会生成API调用?
浏览 1
提问于2016-10-23
得票数 2
1
回答
Robots.txt文件,允许除一个以外的所有根
php
文件,并且不允许所有子文件夹内容。
我希望所有根文件夹*.
php
文件都被索引,除了一个(exception.
php
),并且希望根文件夹的所有子目录中的所有内容都不被索引。我已经尝试过以下方法,但是它允许访问子目录中的
php
文件,即使子目录一般没有索引吗?……User-agent: *disallow: /*…… 有人能帮忙吗?
浏览 5
提问于2019-10-03
得票数 1
回答已采纳
5
回答
如何阻止
爬虫
(如spyder/Nutch-2 )访问特定的页面?
、
、
、
、
我有一个Windows客户端应用程序,它使用托管在共享商业
php
服务器中的
php
页面。我应该使用.htaccess文件来配置它吗?
浏览 7
提问于2014-04-15
得票数 1
2
回答
php
爬虫
检测
、
我正在尝试编写一个sitemap.
php
,它根据查看对象的不同而执行不同的操作。我想将
爬虫
重定向到我的sitemap.xml,因为这将是最新的页面,并将包含他们需要的所有信息,但我希望我的老读者在
php
页面上显示一个html站点地图。这一切都是在
php
头中控制的,我在网上发现了,从外观上看,它应该可以工作,但事实并非如此。有人能帮我破解这个吗?
浏览 0
提问于2009-07-24
得票数 2
回答已采纳
1
回答
PHP
网络
爬虫
、
我正在寻找一个
PHP
的网络
爬虫
收集一个大型网站的所有链接,并告诉我,如果链接被打破。问题不是抓取链接,而是规模问题我不确定我修改的脚本是否足以抓取可能有数千个URL,因为我尝试将搜索链接的深度设置为4,但
爬虫
在浏览器中超时。
浏览 0
提问于2011-04-12
得票数 0
1
回答
/和index.
php
.如何消除这个重复的页面问题?
、
在我的网站根目录中,我有一个index.
php
,当然还有其他的页面。问题是,当我用
爬虫
或站点地图
爬虫
等爬行我的网站时,它会报告两个重复的链接。www.domain.com/ 如何强制告诉我的
爬虫
没有相同页面的两个实例?我是否使用301合并它们?一个规范?.htaccess重定向?
浏览 0
提问于2014-09-12
得票数 0
回答已采纳
1
回答
爬虫
脚本
php
、
php
{ if/' . ltrim($href, '/'); crawl_page($href, $depth - 1); echo "URL:",$url,
PHP
_EOL
浏览 0
提问于2011-04-11
得票数 1
回答已采纳
1
回答
网络
爬虫
会遇到什么危险?
我刚写完一个
爬虫
,一直在想为什么爬行某个网站会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此,我的问题是,web
爬虫
(用
PHP
或Java编写)是否能够刮起可能会对
爬虫
造成损害的站点?
浏览 3
提问于2014-11-08
得票数 1
1
回答
是什么阻碍了我的
PHP
脚本?
、
、
、
我们有一个
PHP
爬虫
运行在我们的web服务器上。crawler运行时,没有cpu、内存或网络带宽峰值。一切都很正常。但是我们的网站(也是
PHP
),托管在同一台服务器上,停止响应。基本上,
爬虫
会阻止任何其他
php
脚本运行。** fsockopen用于将文件下载到crawler!**
浏览 3
提问于2010-05-11
得票数 0
1
回答
php
- google
爬虫
能检测if语句中的元标记吗?
、
在谷歌搜索之后,我了解到google
爬虫
不会运行任何javascript代码,也不会在页面中读取
php
变量。如果是的话,google
爬虫
会不会忽略If语句来检测到下面的元标记? <meta ...> <meta ...> <?
php
} else if(contact page) { ?
php
} and so on... ?>
浏览 0
提问于2014-04-27
得票数 0
回答已采纳
1
回答
基于
PHP
crawler的IP切换
、
、
、
、
我正在寻找一个解决方案,以切换IP时自动运行
PHP
爬虫
。我有一个自定义的
爬虫
,它运行100个线程,但由于油门限制,我经常被阻塞。因为
PHP
不支持多线程,所以我设置了windows调度程序来并行运行
PHP
应用程序。 我想为每个线程分配一个不同的IP地址,并欢迎任何建议来克服这个问题。
浏览 1
提问于2014-04-14
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PHP爬虫
php爬虫
php 网站爬虫入门
PHP爬虫技术知识点总结
PHP爬虫-正方教务系统爬取成绩绩点
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券