腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
让Facebook crawler以经过身份验证的用户身份查看页面?
、
、
、
Facebook的
爬虫
没有得到我的og元数据,因为
php
首先需要FB身份验证。有没有办法让FB的
爬虫
以执行自定义
操作
(分享等)的用户的身份查看网页?或者,作为替代,有没有其他方法可以在仍然使用自定义
操作
的情况下为FB提供元数据?
浏览 4
提问于2012-07-03
得票数 1
4
回答
用
php
编写客户端重定向服务器端
、
、
、
我正在寻找一个客户端重定向到另一个领域的
PHP
。window.location.href = "http://yourURL.com"; 然而,
爬虫
很难找到
PHP
,所以我想
浏览 0
提问于2015-07-29
得票数 0
6
回答
Tor网络
爬虫
、
、
、
、
我有一个基于
PHP
的网络
爬虫
。它可以在这里访问:现在,我的问题是我的
爬虫
需要在SOCKS端口9050上抓取页面。问题是,我必须通过Tor隧道它的连接,这样它才能解析.onion域,这就是我要索引的。我使用
php
crawl.
php
从命令行调用此脚本,并添加适当的参数来抓取页面。我的想法是:有没有办法强迫它使用Tor?或者我可以强制我的整个机器通过Tor进行隧道
操作
,以及如何实现?(比如强制所有流量通过127.0.0.1:9050)也许如果我设置了全局代理设置,
php
会尊
浏览 7
提问于2012-02-11
得票数 10
3
回答
Cassandra、Hadoop Hive或MYSQL?
、
、
、
我正在开发一个网络
爬虫
,它对存储数据有好处吗?我在我的MySQL数据库中有1TB的过去6个月的数据,我需要索引它们,我需要尽快在我的搜索中输出数据,我认为,它将存储更多的数据,比如10Peta Byes,因为我的
爬虫
运行得很快,我需要快速获得读/写
操作
,我需要将其集成到我的
PHP
中
浏览 0
提问于2010-08-18
得票数 3
回答已采纳
2
回答
基于
PHP
的Web
爬虫
或基于JAVA的Web
爬虫
、
、
我对基于
PHP
的网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为
PHP
有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于
PHP
的
爬虫
还是基于Java的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
使用
php
爬虫
将数据索引到ElasticSearch
、
、
我想索引爬行网站到ElasticSearch,但我不知道,我可以索引爬行信息到ElasticSearch与
php
爬虫
。我知道Apache可以将爬行网站索引到ElasticSearch,但是我对
php
爬虫
一无所知!我可以在
php
web应用程序中使用Apache吗?
浏览 4
提问于2013-05-12
得票数 3
1
回答
如何阻止Web
爬虫
下载文件
、
、
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个
PHP
脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是nginx和drupa
浏览 0
提问于2013-07-27
得票数 1
1
回答
有没有免费的
php
爬虫
?
、
过去我用过自己的
爬虫
,但现在我需要更健壮的
爬虫
,我想知道有没有什么好的免费的
php
爬虫
?
浏览 0
提问于2010-11-21
得票数 3
4
回答
PHP
警告: exec()无法分叉
、
使用apache和
php
5.2.17运行Centos。我有一个网站,列出了许多不同零售商网站的产品。我有
爬虫
脚本,运行从每个网站抓取产品。由于每个网站是不同的,每个
爬虫
脚本必须定制,以抓取特定的零售商网站。所以基本上每个零售商我有一个
爬虫
。在这个时候,我有21个
爬虫
不断运行,以收集和更新这些网站的产品。每个
爬虫
都是一个
php
文件,一旦完成了
php
脚本,它就会检查,以确保它是唯一运行的实例,并且在脚本的最末端,它使用exec再次启动自己,而原始实例关闭
浏览 7
提问于2013-12-18
得票数 13
回答已采纳
3
回答
使用Javascript更改网页标题
可能重复:
浏览 4
提问于2011-12-28
得票数 9
3
回答
重定向爬行器
、
、
我想添加一个脚本来检查代理信息,如果它匹配其中一个
爬虫
的一部分,我想轻轻地将其重定向到另一个页面。在页面级别重定向,而不是在.htaccess文件中重定向的最好方法是什么?
浏览 1
提问于2011-06-25
得票数 0
4
回答
如何通过
爬虫
php
获取悬停数据(Ajax)
、
、
、
有没有可能用任何
爬虫
。 我使用
PHP
和来解析/抓取页面。
浏览 3
提问于2012-03-30
得票数 3
回答已采纳
2
回答
如何修复facebook的循环重定向?
、
、
我在一个网站上做了4个登陆页面,和一个
php
脚本随机化了不同的登陆页面。 但我的问题是修复facebook的开放图形。他返回:无法跟随重定向路径-使用来自的数据,因为在重定向路径之后有一个错误。
浏览 4
提问于2015-06-03
得票数 3
回答已采纳
3
回答
我需要从
PHP
脚本执行C程序
、
、
、
好的,我想用我的
PHP
脚本创建一个
爬虫
。我的
爬虫
程序的某些部分需要真正快速的字符串
操作
,这就是为什么我决定使用C/C++程序来帮助我的
PHP
脚本完成那个特定的工作。在上面的
操作
中,我只是编写了一个简单的C程序,它接受来自
PHP
的2个值,并返回这两个值的总和。当我像这样在
php
脚本中输入它们时,$b=1;echo $op; 它没有像预期的那样工作,所以任何想法,
浏览 0
提问于2012-06-17
得票数 2
1
回答
如何读取自定义页面位置
嗨,我想用
php
读取一个网站的一部分,并保存到其他网站的新页面。(如weather.com)我想这个
操作
是服务器端。这就像一个网络
爬虫
或机器人!这个是可能的吗?一天更新几次get?例如cornjob
浏览 2
提问于2011-04-23
得票数 0
3
回答
将数据从
PHP
脚本传递到Python Web Crawler
、
、
、
、
我有一个python
爬虫
,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的数据。我将使用
php
/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从
php
脚本发送到正在运行的python脚本?然后我在考虑使用一个共享文件,
php
在其中写入数据,python从中读取数据。但是,我需要一些方法来让python脚本知道,新数据已经写入文件,以
浏览 1
提问于2011-03-31
得票数 1
1
回答
如何使用
php
获取HTML页面的标题?
、
、
如何使用
php
获取HTML页面的标题?我已经做了一个
php
网络
爬虫
,我想在我的
爬虫
中实现这一功能,这样它就会有页面的名称和url。提前谢谢。可能使用preg_match。
浏览 0
提问于2011-02-07
得票数 3
回答已采纳
3
回答
如何防止昂贵的API被
爬虫
和
爬虫
吃掉?
我注意到,来自蜘蛛和
爬虫
的访问产生了对该API的数千次调用,而我正在为这些调用收费。有没有办法阻止显示由API生成的内容的网页部分,即只有实际的访问者才能看到它,并且在抓取网页时不会生成API调用?
浏览 1
提问于2016-10-23
得票数 2
1
回答
Robots.txt文件,允许除一个以外的所有根
php
文件,并且不允许所有子文件夹内容。
我希望所有根文件夹*.
php
文件都被索引,除了一个(exception.
php
),并且希望根文件夹的所有子目录中的所有内容都不被索引。我已经尝试过以下方法,但是它允许访问子目录中的
php
文件,即使子目录一般没有索引吗?……User-agent: *disallow: /*…… 有人能帮忙吗?
浏览 5
提问于2019-10-03
得票数 1
回答已采纳
5
回答
如何阻止
爬虫
(如spyder/Nutch-2 )访问特定的页面?
、
、
、
、
我有一个Windows客户端应用程序,它使用托管在共享商业
php
服务器中的
php
页面。我应该使用.htaccess文件来配置它吗?
浏览 7
提问于2014-04-15
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PHP爬虫
php爬虫
php 网站爬虫入门
php学习之php操作MySQL的库操作
php学习之php操作MySQL的表的操作
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券