腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
将
数据
从
PHP
脚本传递到Python Web Crawler
、
、
、
、
我有一个python
爬虫
,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的
数据
。我将使用
php
/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将
数据
从
php
脚本发送到正在运行的python脚本?然后我在考虑使用一个共享文件,
php
在其中写入
数据
,python从中读取
数据</em
浏览 1
提问于2011-03-31
得票数 1
3
回答
如何防止昂贵的API被
爬虫
和
爬虫
吃掉?
我注意到,来自蜘蛛和
爬虫
的访问产生了对该API的数千次调用,而我正在为这些调用收费。有没有办法阻止显示由API生成的内容的网页部分,即只有实际的访问者才能看到它,并且在抓取网页时不会生成API调用?
浏览 1
提问于2016-10-23
得票数 2
2
回答
基于
PHP
的Web
爬虫
或基于JAVA的Web
爬虫
、
、
我对基于
PHP
的网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为
PHP
有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于
PHP
的
爬虫
还是基于Java的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
使用
php
爬虫
将
数据
索引到ElasticSearch
、
、
我想索引爬行网站到ElasticSearch,但我不知道,我可以索引爬行信息到ElasticSearch与
php
爬虫
。我知道Apache可以将爬行网站索引到ElasticSearch,但是我对
php
爬虫
一无所知!我可以在
php
web应用程序中使用Apache吗?
浏览 4
提问于2013-05-12
得票数 3
1
回答
让Facebook crawler以经过身份验证的用户身份查看页面?
、
、
、
Facebook的
爬虫
没有得到我的og元
数据
,因为
php
首先需要FB身份验证。有没有办法让FB的
爬虫
以执行自定义操作(分享等)的用户的身份查看网页?或者,作为替代,有没有其他方法可以在仍然使用自定义操作的情况下为FB提供元
数据
?
浏览 4
提问于2012-07-03
得票数 1
2
回答
我需要为特定的用户代理编写一个网络
爬虫
、
我需要编写一个网络
爬虫
,并希望能够爬行使用一个已知的用户代理。例如,我希望我的
爬虫
程序充当iphone来抓取网站的移动站点,然后使用Mozilla PC代理再次抓取,等等。然而,我也希望能够设置我的
爬虫
的用户代理,这样网站管理员也可以在他们的统计
数据
中看到访问整个网站的是一个
爬虫
,而不是真正的用户。所以我的问题是,你们知道如何在
PHP
中同时设置一个移动代理和一个
爬虫
代理吗?这有可能吗?
浏览 1
提问于2011-05-14
得票数 3
回答已采纳
3
回答
Cassandra、Hadoop Hive或MYSQL?
、
、
、
我正在开发一个网络
爬虫
,它对存储
数据
有好处吗?我在我的MySQL
数据
库中有1TB的过去6个月的
数据
,我需要索引它们,我需要尽快在我的搜索中输出
数据
,我认为,它将存储更多的
数据
,比如10Peta Byes,因为我的
爬虫
运行得很快,我需要快速获得读/写操作,我需要将其集成到我的
PHP
中
浏览 0
提问于2010-08-18
得票数 3
回答已采纳
1
回答
用于提取和解析
数据
并将其保存到
数据
库的Web
爬虫
、
我希望将一些网站的内容复制到本地
数据
库中,以便进一步进行个性化搜索。我知道我必须使用
爬虫
,我找到了一些关于scrapy的很好的参考资料。 我的问题是,你知道有没有用
PHP
写的好的
爬虫
。
浏览 0
提问于2013-04-16
得票数 0
回答已采纳
1
回答
如何阻止Web
爬虫
下载文件
、
、
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个
PHP
脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是nginx和drupa
浏览 0
提问于2013-07-27
得票数 1
1
回答
用于facebook的网络蜘蛛
、
、
、
我想将这些链接和描述保存到本地
数据
库。谢谢!
浏览 0
提问于2013-08-24
得票数 -1
回答已采纳
1
回答
遍历远程
数据
、
、
我正在尝试从一个网站(一个电影列表)中抓取一些
数据
--但是这个网站一次只能显示大约50个
数据
,并且需要用户点击一个按钮才能加载更多。有没有一种方法可以让我编写单击按钮的脚本,或者以某种方式遍历
数据
?
浏览 0
提问于2014-05-09
得票数 0
5
回答
URL中的^符号是什么意思?
、
、
我需要从网页中抓取一些链接
数据
,我使用了一个简单的手写
PHP
爬虫
。
爬虫
通常工作得很好;然后我找到了一个URL,如下所示:此URL在浏览器中键入时工作正常,但我的
爬虫
程序无法检索此页面
浏览 1
提问于2010-02-25
得票数 5
回答已采纳
2
回答
php
网络
爬虫
中断,运行时间限制?
、
、
、
我正在编写一个
PHP
Web应用程序来对多个(实际上是一长串) Facebook页面进行统计。我将
爬虫
设置为每天从Facebook获取所有页面的
数据
,以便
数据
始终在本地
数据
库中更新。问题是,有时
爬虫
会意外中断。我猜测的原因是: 1)耗尽服务器的时间限制2)等待太长时间的
数据
没有任何响应,并被杀死 你有什么建议来解决这个问题吗?非常感谢!
浏览 1
提问于2012-07-03
得票数 0
1
回答
有没有免费的
php
爬虫
?
、
过去我用过自己的
爬虫
,但现在我需要更健壮的
爬虫
,我想知道有没有什么好的免费的
php
爬虫
?
浏览 0
提问于2010-11-21
得票数 3
1
回答
Php
单击
、
、
、
php
$veri = file_get_html("http://apps.istanbulsaglik.gov.tr我想要做的是在我的网络
爬虫
中获得这些元素。主要的问题是如何让我的
爬虫
点击?如果不点击,我就看不到任何
数据
。如果我可以让它点击,那么我可以从html源获取
数据
。否则我的
爬虫
就会一直空着回来。
浏览 1
提问于2017-11-06
得票数 1
回答已采纳
4
回答
如何通过
爬虫
php
获取悬停
数据
(Ajax)
、
、
、
我正在抓取一个网站的
数据
。我能够在一个页面上显示完整的内容。但页面上的一些
数据
是在一些图标上悬停并显示为工具提示后出现的。所以我也需要这些
数据
。有没有可能用任何
爬虫
。我使用
PHP
和来解析/抓取页面。
浏览 3
提问于2012-03-30
得票数 3
回答已采纳
1
回答
PHP
OOP :在
数据
库中存储方法
、
、
每个站点使用的$crawler方法都不同,所以我希望有这样的内容其中筛选器包含这样我就可以在每个站点的
数据
库中存储过滤器
浏览 0
提问于2016-02-26
得票数 2
1
回答
无需通过index.
php
即可在Cakephp中包含模型
、
、
我正在使用CakePHP建立一个网站,其中有一个从不同网站挖掘
数据
的
爬虫
。问题是,我希望能够从命令行调用
爬虫
(因为它可能需要几个小时的芬兰语),我希望在保存
数据
时使用CakePHP中的模型。如果我只包含index.
php
,它会调度我不想要的调用。 关于Nicklas
浏览 0
提问于2010-06-05
得票数 0
回答已采纳
4
回答
PHP
警告: exec()无法分叉
、
使用apache和
php
5.2.17运行Centos。我有一个网站,列出了许多不同零售商网站的产品。我有
爬虫
脚本,运行从每个网站抓取产品。由于每个网站是不同的,每个
爬虫
脚本必须定制,以抓取特定的零售商网站。所以基本上每个零售商我有一个
爬虫
。在这个时候,我有21个
爬虫
不断运行,以收集和更新这些网站的产品。每个
爬虫
都是一个
php
文件,一旦完成了
php
脚本,它就会检查,以确保它是唯一运行的实例,并且在脚本的最末端,它使用exec再次启动自己,而原始实例关闭
浏览 7
提问于2013-12-18
得票数 13
回答已采纳
2
回答
在网站和独立应用程序中使用Django框架
、
我计划为它写一个网络
爬虫
和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络
爬虫
使用与网站相同的MySQL后端(而不是让网络
爬虫
本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PHP爬虫
php爬虫
php 网站爬虫入门
PHP爬虫技术知识点总结
数据采集之爬虫、反爬虫、反反爬虫
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券