腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Elasticsearch HTTP API或
python
API
、
、
、
、
我是一个
实时
分布式搜索引擎elasticsearch的新手,但我想问一个技术问题。真正的问题如下所示。哪种技术更适合我的场合?elasticsearch
python
API还是用于弹性搜索的RESTful API (elasticsearch-py)?
浏览 4
提问于2015-12-01
得票数 1
1
回答
import.io如何将爬行的数据
实时
写入文件
、
目前,我在import.io中设置了一个
爬虫
,它可以通过非常多的页面(数万页)进行爬行。一旦这个
爬虫
完成,我试图查看数据,但只看到它已经全部丢失,我认为这是由于纯粹的量。是否有一种方法来设置我的
爬虫
,以便在收集数据时
实时
地将数据写入我的硬盘上的文件?
浏览 0
提问于2015-07-23
得票数 2
回答已采纳
1
回答
谷歌如何频繁地抓取更新的网页?
我试图建立一个非常小的,利基搜索引擎,使用Nutch来抓取特定的网站。有些网站是新闻/博客网站。如果我爬行,比方说,techcrunch.com,并存储和索引他们的首页,那么在几个小时内,我的索引该页将过时。另外,如何在我自己的索引中处理这个问题?
浏览 0
提问于2012-04-26
得票数 2
1
回答
爬行时刮擦CrawlSpider输出
、
我正在努力学习Scrapy框架,我能够编写一个蜘蛛,并在网络上爬行等等。我还可以保存所需的数据,但不是以我想要的方式保存。 import scrapy from scrapy.linkextractors import LinkExtractor class ExampleSpider(CrawlSpider): allowed_domains = [
浏览 1
提问于2020-09-22
得票数 0
1
回答
如何抓取所有wordpress页面
、
、
、
我想抓取所有的wordpress博客。有没有快速列出wordpress.com下所有二级域名的方法?例如所以我们可以通过1) dns查找一个网站的所有二级域名。2)还是通过其他黑客技术?
浏览 4
提问于2012-10-20
得票数 1
3
回答
如何将抓取的数据存储到数据库中
、
我对
python
和我将要在这个问题中讨论的其他所有东西都是相当陌生的,但我想开始一个我已经考虑了一段时间的项目。基本上我想抓取网页和显示的网址,因为和当他们被抓取的时候-在网页上
实时
。我编写了一个简单的
爬虫
,它将urls存储在一个列表中。我想知道如何将这个列表放入数据库中,并让数据库每隔x秒更新一次,这样我就可以访问数据库并定期输出网页上的链接列表。我对
实时
web开发知之甚少,但这是另一天的话题。但现在,我更关心的是如何将列表放入数据库。简而言之,我是个新手:
Python
,数据库,
实时
浏览 1
提问于2012-06-22
得票数 0
1
回答
向远程MySQL提供数据的模式
、
、
我有一个“无所不包”的服务器,它是were服务器,mysql,
爬虫
服务器。由于使用监视工具的两三周时间,我发现当我的
爬虫
运行时,我的平均负载总是超过5(一个4核心服务器,可以一直使用到4.00作为负载)。所以,我有另一台服务器,我想把我的
爬虫
移到那里。我的问题是。一旦我在我的
爬虫
服务器中爬行数据,我必须插入我的数据库。我不想打开远程连接并将其插入数据库中,因为我更喜欢使用Rails框架,顺便说一句,我使用rails,以便更容易地创建所有关系,等等。想法: 将csv从
爬虫
移除到删除服务器(ssh,rsync
浏览 2
提问于2011-05-01
得票数 0
1
回答
如何用robots.txt(Live domain)隐藏我们的开发和舞台环境?
如何在
实时
环境中禁用robots.txt文件中的开发域环境。开发环境url - www1.dev.com Live - www.Live.com 谢谢,Sekhar
浏览 8
提问于2020-08-24
得票数 0
1
回答
使用Elasticsearch的Nutch以外的
爬虫
程序
、
、
我知道Nutch并且用过Nutch,但是我想知道其他人是否知道比Nutch更好的
爬虫
。 我还使用了Elasticsearch作为索引器,很难让Nutch与更新版本的ES一起工作。
浏览 10
提问于2018-02-01
得票数 1
回答已采纳
1
回答
弹性豆杆不运行的克隆约伯
、
、
、
、
我在一个弹力豆茎应用程序上有一个抓取器,我可以像这样运行SSH: 我想帮我安排一个任务来处理这个问题。Cron won't r
浏览 0
提问于2015-04-13
得票数 0
2
回答
防止恶意
爬虫
/刮板和DDoS攻击的方法
、
、
基本上,
爬虫
在网站上运行的频率很高,导致负载增加。这会导致带宽消耗,从而给其他人带来糟糕的用户体验。我想知道像谷歌、亚马逊和电子海湾这样的网站是如何防止这些事情的:不能设置诸如连接或数据包/时间/ip之类的阈值,因为这将导致站点上的适当客户的用户体验较差。
浏览 0
提问于2011-10-14
得票数 0
2
回答
风暴
爬虫
-技术栈和Apache Nutch
、
、
、
我想抓取一个特定的论坛,接近
实时
,并将数据转储到HDFS,如果不是Hbase。 我听说Apache可以解决这个问题,但遗憾的是,它所需要的技术栈已经相当陈旧了。我不想把hadoop从2.6降到更早的版本,Elasticsearch降到1.7/1.4,所以我把注意力转移到了风暴
爬虫
上。由于我使用Hadoop2.6、ElasticSearch2.0和Hbase 1.1.3,有人能告诉我是否可以使用风暴
爬虫
0.9吗?
浏览 3
提问于2016-04-06
得票数 1
回答已采纳
3
回答
让SQLite3与多个线程一起工作
、
、
、
我正在用
Python
制作一个web
爬虫
,它收集重定向/链接,将它们添加到数据库中,并在链接不存在的情况下作为新行输入它们。我想要使用多线程,但有麻烦,因为我必须
实时
签入,如果有一个条目与给定的URL。 我最初使用的是sqlite3,但意识到我不能在不同的线程上同时使用它。
浏览 5
提问于2017-05-22
得票数 3
回答已采纳
1
回答
使用Codeigniter创建站点地图
、
、
、
、
我想从别人的经验中了解用Codeigniter创建站点地图的最好方法。我看过一些插件/库,但都会检查数据库中的页面。如果站点上的一些页面是静态的而不是动态的,会发生什么?我以前在项目中使用过的一个工具是我的下一步是什么?我如何才能做到这一点?
浏览 2
提问于2011-11-22
得票数 0
回答已采纳
1
回答
如何在谷歌搜索结果顶部的旋转木马上播放一段直播视频?
、
、
、
、
我想当一个直播流内容在我的网站上提供,就像一场体育比赛,然后我想谷歌显示一个
实时
流预览,其结果从视频标签。📷如何在google搜索中显示
实时
流徽章? 如何立即通知谷歌的
实时
蒸汽视频或改变?
浏览 0
提问于2018-05-03
得票数 1
回答已采纳
1
回答
将具有动态生成名称的DynamoDB表导出到S3
、
、
我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 ",其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么?我在看AWS Glue,但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好?DynamoDB表的大小不大,存储了几百个数字。
浏览 4
提问于2019-12-21
得票数 0
回答已采纳
1
回答
删除网页时,SEO的最佳实践是什么?我应该使用什么返回代码?
、
在一个
实时
网站上,假设有一个页面已经过时了,旧的信息。 就把它删除可以吗?或者,我是否必须设置Apache重定向,或者为web
爬虫
做404或其他特殊的操作?
浏览 0
提问于2013-08-21
得票数 0
回答已采纳
2
回答
使用scrapy
python
的.net框架
、
、
、
可以在
Python
框架中使用.NET框架从不同的站点抓取数据吗?我正在做我的最后一年的项目,在这个项目中,我想使用C#作为前端语言,并使用
Python
来抓取数据。
浏览 0
提问于2014-05-07
得票数 4
3
回答
将数据从PHP脚本传递到
Python
Web Crawler
、
、
、
、
我有一个
python
爬虫
,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的
python
脚本?然后我在考虑使用一个共享文件,php在其中写入数据,
python
从中读取数据。但是,我需要一些方法来让
python
脚本知道,新数
浏览 1
提问于2011-03-31
得票数 1
1
回答
如何轻松地在远程github分支和本地分支/文件夹之间切换?
、
、
、
我用
Python
2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持
Python
3,这种转换必须在1 go内完成。我只能在
Python
3
爬虫
做好部署准备之后才能开始使用。现在,由于“所有操作都必须保持活动状态”,我需要一个单独的
Python
3
爬虫
的远程分支。这个分支可以称为Remote-B。我手动创建了这个分支,所以整个存储库现在有两个分支: Master(Remote-A)和
Python
3
爬虫
(Remote-B),后者是主分支的一个
浏览 3
提问于2019-09-10
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python 爬虫监控女神的QQ空间实时说说,实现邮箱发送
Python爬虫之撩妹篇—微信实时爬取电影咨询
用python做一个邮件通知管理:实时通知爬虫异常状况
Python爬虫入门3 爬虫必备Python知识
Python爬虫
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
腾讯会议
活动推荐
运营活动
广告
关闭
领券