腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Facebook共享者,显示拇指而不是大图
、
、
window.open(this.href, \'Facebook\', \'width=1200,height=300\')" href="https://www.facebook.com/sharer/sharer.
php
u=http%3A%2F%2Fwww.***.com%2Fallstars&picture=http%3A%2F%2Fwww.***.com%2Ftypo.
php
?id='.$makeUniq.'typo.<e
浏览 14
提问于2017-02-03
得票数 0
2
回答
抓取
图像、整个Web页面并缓存它们
我想
抓取
一些图像和他们的网页。我需要将
抓取
结果保存在本地磁盘中以供进一步分析。我想知道这个问题有没有开源的?
浏览 0
提问于2010-06-16
得票数 0
2
回答
我不能使用python selenium下载google
图片
、
、
嗨,我正在使用selenium
抓取
一张谷歌
图片
。但它的效果并不好。我怎样才能让这段代码工作呢?我的代码如下所示。 之前,我用的是google_images_download,突然卡住了。
浏览 1
提问于2020-02-11
得票数 0
2
回答
我需要为特定的用户代理编写一个网络
爬虫
、
我需要编写一个网络
爬虫
,并希望能够爬行使用一个已知的用户代理。例如,我希望我的
爬虫
程序充当iphone来
抓取
网站的移动站点,然后使用Mozilla PC代理再次
抓取
,等等。这样,我将能够
抓取
每一个“类型”的网站(移动和个人电脑)。然而,我也希望能够设置我的
爬虫
的用户代理,这样网站管理员也可以在他们的统计数据中看到访问整个网站的是一个
爬虫
,而不是真正的用户。所以我的问题是,你们知道如何在
PHP
中同时设置一个移动代理和一个
爬虫
代理吗?这有
浏览 1
提问于2011-05-14
得票数 3
回答已采纳
1
回答
如何为web
爬虫
设置有效的cron作业
、
、
我已经写了一个
php
网络
爬虫
来索引只有180个特定来源的内容,但它平均每页需要2秒来分析,
抓取
和保存我想要的内容:
图片
,网址,标题,完整内容,摘录,标签。(有几种算法可以分析所有元标签以获得正确的数据)lynx -auth用户名:密码website.com/crawler.
php
?group=1 lynx -auth用户名:密码website.com/crawler.
php</
浏览 0
提问于2012-09-26
得票数 1
3
回答
将数据从
PHP
脚本传递到Python Web Crawler
、
、
、
、
我有一个python
爬虫
,每隔几分钟就
抓取
几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的数据。我将使用
php
/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即
抓取
特定的网站(而不是等待下一次
抓取
迭代)。 现在,有没有一种方法可以将数据从
php
脚本发送到正在运行的python脚本?然后我在考虑使用一个共享文件,
php
在其中写入数据,python从中读取数据。但是,我需要一
浏览 1
提问于2011-03-31
得票数 1
1
回答
Web
爬虫
更新策略
、
我想
抓取
有用的资源(比如背景
图片
)。)从某些网站。这不是一项艰苦的工作,特别是在一些出色的项目,如刮刮的帮助下。这是我想过的一个粗略的算法。我把爬行过程分成了几个回合。每一轮URL存储库都会为
爬虫
提供一定数量(比如,10000)的URL来进行
抓取
。具体步骤如下:
爬虫</e
浏览 1
提问于2010-04-05
得票数 4
2
回答
PHPCrawl可以用于
抓取
网站吗?与Scrapy有何不同?
、
、
、
、
它是基于Python的,因为我非常熟悉
PHP
,所以我寻找了替代方案。它怎么能和Python上的Scrapy相比呢?谢谢
浏览 0
提问于2012-11-22
得票数 0
回答已采纳
2
回答
简单的网络
爬虫
速度问题
、
我用
PHP
创建了一个非常简单的网络
爬虫
,用来
抓取
一些足球网站的比赛结果。$doc = new DOMDocument(); $doc->loadHTMLFile("http://resultater.dai-sport.dk/tms/Turneringer-og-resultater
浏览 2
提问于2015-04-20
得票数 3
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
3
回答
如何重定向特定IP地址
、
、
、
比如说javascript,
爬虫
的IP地址,以及
爬虫
的引用url,这是可能的吗?
浏览 0
提问于2013-12-13
得票数 0
1
回答
Facebook分享错误的
图片
、
该网站是建立与
PHP
和使用Smarty。我们生成一个唯一的URL (去掉了/news/headline-of- the -the-文章)并定义了meta属性。当他上传一张新闻
图片
,将其插入到文章中并分享时,Facebook会拍摄另一张照片,这是它在源代码中最先找到的照片。尽管如此,在发布之前的预览框中,它会显示正确的图像。一旦被放置,它就是错误的。image show> domain/UserFiles/images/news/bosuil_1.jpg时 所以og:image标签做了这件事并生
浏览 0
提问于2017-08-08
得票数 2
6
回答
Tor网络
爬虫
、
、
、
、
我有一个基于
PHP
的网络
爬虫
。它可以在这里访问:现在,我的问题是我的
爬虫
需要在SOCKS端口9050上
抓取
页面。问题是,我必须通过Tor隧道它的连接,这样它才能解析.onion域,这就是我要索引的。我使用
php
crawl.
php
从命令行调用此脚本,并添加适当的参数来
抓取
页面。我的想法是:有没有办法强迫它使用Tor?或者我可以强制我的整个机器通过Tor进行隧道操作,以及如何实现?(比如强制所有流量通过127.0.0.1:9050)也许如果我设置了全局代理设置,
p
浏览 7
提问于2012-02-11
得票数 10
2
回答
PHP
scraper脚本中的Useragent
我有一个
PHP
刮板脚本,我用它来刮我的网站上的一个页面。然后,该脚本将内容解析为HTML并将其输出给用户。我遇到过在
PHP
中使用useragent函数来假装你是一个
爬虫
,例如GoogleBot。我如何将我的两个脚本组合在一起,这样我
抓取
的页面就会认为我是一个
爬虫
?我的
抓取
器
PHP
代码是:我
浏览 0
提问于2011-06-19
得票数 3
回答已采纳
4
回答
PHP
警告: exec()无法分叉
、
使用apache和
php
5.2.17运行Centos。我有一个网站,列出了许多不同零售商网站的产品。我有
爬虫
脚本,运行从每个网站
抓取
产品。由于每个网站是不同的,每个
爬虫
脚本必须定制,以
抓取
特定的零售商网站。所以基本上每个零售商我有一个
爬虫
。在这个时候,我有21个
爬虫
不断运行,以收集和更新这些网站的产品。每个
爬虫
都是一个
php
文件,一旦完成了
php
脚本,它就会检查,以确保它是唯一运行的实例,并且在脚本的最末端,它使用
浏览 7
提问于2013-12-18
得票数 13
回答已采纳
1
回答
php
爬虫
(
抓取
单个网站)
、
、
、
我在
爬虫
项目上工作,我需要你的一些帮助,这是我的第一个项目。任务是从'‘获取数据。例如,我想获取城市名称(班加罗尔)、类别(酒店)、酒店名称、地址和电话号码。
php
$original_file = file_get_contents("$url"); $
浏览 1
提问于2012-10-03
得票数 0
2
回答
如何建立一个基于Scrapy的网络
爬虫
来永久运行?
、
、
我想建立一个基于Scrapy的网络
爬虫
,从几个新闻门户网站
抓取
新闻
图片
。我想让这个
爬虫
: 这意味着它将定期重新访问一些门户页面,以获得更新。 安排优先次序。
浏览 8
提问于2010-02-28
得票数 11
回答已采纳
1
回答
构建网络刮板,我已经瞄准了容器,但在获取tweet的ID时遇到了问题
、
、
、
嘿,我正试着在python用bs4建立一个推特网络
爬虫
。它工作得非常好,但是我刚刚发现我还需要
抓取
我正在
抓取
的tweet的id。 我似乎无法获得检索"data-item-id“的代码。有谁有关于如何获得它的提示吗?
浏览 1
提问于2019-05-03
得票数 0
1
回答
遍历远程数据
、
、
我正在尝试从一个网站(一个电影列表)中
抓取
一些数据--但是这个网站一次只能显示大约50个数据,并且需要用户点击一个按钮才能加载更多。有没有一种方法可以让我编写单击按钮的脚本,或者以某种方式遍历数据?
浏览 0
提问于2014-05-09
得票数 0
1
回答
向特定URL添加noindex标记
、
、
我有按钮和链接在我的注册页面,允许我登录到gmail和linkedIn。为了使这些链接不被索引,即使我在robot.txt文件中阻止了它们,它们也已经被索引了。我如何给这些链接一个noindex标签?注意事项:我不想阻止我的注册页面被索引,所以我不在<meta>标签中使用noindex。我正在用Symfony框架开发我的网站。
浏览 6
提问于2022-08-31
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬虫抓取页面图片
爬虫抓取页面图片 update
Python之多线程爬虫抓取网页图片
PHP实现远程抓取网站图片并保存在文件中
PHP远程抓取网站图片并保存在文件中,实践过
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券