腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
有效地搜索大量URL列表
、
、
、
我正在建立一个网络
爬虫
,它必须爬行数百个网站。我的
爬虫
保存了一个已经爬行的urls列表。每当
爬虫
要爬行一个新页面时,它首先搜索已经爬行的url列表,如果已经列出了,则
爬虫
跳到下一个url,以此类推。因此,我的问题是,我可以使用什么样的
算法
来搜索一个urls列表(列表的大小每天增长到20到100 k)。
爬虫
目前是用
Python
编写的。但我将把它移植到C++或其他更好的语言中。
浏览 5
提问于2016-06-23
得票数 0
回答已采纳
3
回答
谷歌机器人信息?
、
、
有没有人知道更多关于谷歌网络
爬虫
(又称GoogleBot)的细节?我很好奇它是用什么写的(我自己做了几个
爬虫
,现在正准备做另一个),以及它是否能解析图像之类的东西。如果它都是用
Python
编写的,如果他们使用自己的库来做大多数事情,包括html/image/pdf解析,我也不会感到惊讶。也许他们不会这样做。也许它们都是用C/C++编写的。提前谢谢你-
浏览 1
提问于2010-04-14
得票数 0
回答已采纳
1
回答
如何在
python
中从Web页面获取POST和参数
、
、
、
我的
算法
是这样的: get <input> fields and construct request我的目的是编写
爬虫
来获取所有的链接我的
算法
很简单,所以我想知道有没有其他方法(在
python
中)?你能推荐一些
python
库吗?
浏览 0
提问于2012-05-16
得票数 0
回答已采纳
1
回答
如何让
爬虫
每天在CSV文档中添加发现?
、
每24小时,链接更新/更改基于一种
算法
。我想知道一个特定的链接在组件中的时间(因为,根据
算法
,有时某个特定的链接可能在组件中停留几天,或者有时它只存在一天)。我正在构建
Python
爬行器,以爬行这个新组件所在的网站的前端,我希望在CSV文件中有一个包含两列的简单输出: 列2:#/days显示(
Python
爬虫
查看该如果它每天都在爬行,这可以简单地看作是
爬虫
看到这个特定URL的#/days。因此,这个数字将在每次爬行
浏览 0
提问于2019-08-22
得票数 0
回答已采纳
3
回答
非常简单的C++网络
爬虫
/蜘蛛?
、
我试图在C++中做一个非常简单的网页
爬虫
/蜘蛛应用程序。我一直在使用谷歌搜索一个简单的,以了解这个概念。我发现了这个: 然而,这是复杂的理解对我来说,因为我开始学习C++大约一个月前。
浏览 15
提问于2010-11-25
得票数 22
回答已采纳
2
回答
塔防御:重叠的塔范围
、
我想要发生的是,当一个有“主动护盾增益”的海浪中的
爬虫
进入杀伤区时,
爬虫
会激活他的技能来保护附近的
爬虫
。 有没有一种
算法
可以帮助我做到这一点?
浏览 2
提问于2016-11-23
得票数 0
1
回答
弹性豆杆不运行的克隆约伯
、
、
、
、
我在一个弹力豆茎应用程序上有一个抓取器,我可以像这样运行SSH: 我想帮我安排一个任务来处理这个问题。Cron won't r
浏览 0
提问于2015-04-13
得票数 0
3
回答
高效网络
爬虫
的语言建议
、
、
、
我正在寻找一种语言来编写一个高效的网络
爬虫
。
浏览 6
提问于2010-12-03
得票数 2
6
回答
我在哪里可以找到好的在线
Python
课程?
谁知道我在哪里可以找到一门高质量的在线
Python
课程,既适合有数学/工程背景的人,又不适合软件?
浏览 2
提问于2010-12-17
得票数 12
1
回答
将具有动态生成名称的DynamoDB表导出到S3
、
、
我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 ",其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么?我在看AWS Glue,但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好?DynamoDB表的大小不大,存储了几百个数字。
浏览 4
提问于2019-12-21
得票数 0
回答已采纳
2
回答
在MySQL中存储大量文本的最有效的空间方法是什么?
、
、
、
、
我正在用
Python
编写一个set
爬虫
,它将在MySQL数据库中存储大量页面的HTML代码。在开始处理数据之前,我想确保我的存储和处理方法是最优的。我想保持全文搜索字段的可能性--我不知道像Huffman编码这样的压缩
算法
是否允许这样做。 有没有人在这个或类似的问题上有任何建议或经验?考虑到
Python
需要大量的HTTP请求和正则表达式,再加上任何最优压缩,
Python
是否是实现这一目标的最佳语言呢?
浏览 3
提问于2011-11-13
得票数 1
回答已采纳
1
回答
使用美丽汤的
Python
网络
爬虫
的BFS
算法
?
、
、
、
我必须创建我自己的网络
爬虫
(出于教育目的),它通过每个(或尽可能多的)保加利亚网站(Linux域)爬行,并使用.bg shell或requests库中的curl -I命令返回运行它的服务器。所以我的想法是,我必须使用BFS
算法
,将访问过的网站保存在一个列表中,并添加我还没有访问过的每个链接。我也只对基本的URL感兴趣,而不是站点内的相关网页,因为我对运行该站点的服务器感兴趣。我真的不知道从哪里开始,所以我对使用Beautiful Soup和requests解决这个问题的通用
算法
感兴趣。
浏览 4
提问于2016-02-13
得票数 0
2
回答
使用scrapy
python
的.net框架
、
、
、
可以在
Python
框架中使用.NET框架从不同的站点抓取数据吗?我正在做我的最后一年的项目,在这个项目中,我想使用C#作为前端语言,并使用
Python
来抓取数据。
浏览 0
提问于2014-05-07
得票数 4
3
回答
将数据从PHP脚本传递到
Python
Web Crawler
、
、
、
、
我有一个
python
爬虫
,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的
python
脚本?然后我在考虑使用一个共享文件,php在其中写入数据,
python
从中读取数据。但是,我需要一些方法来让
python
脚本知道,新数
浏览 1
提问于2011-03-31
得票数 1
1
回答
如果我为我的
python
脚本做了一个简单的gui,它会影响它的效率吗?
、
、
嗨,我想做一个网页
爬虫
,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络
爬虫
效率降低吗? 我需要
爬虫
尽可能高效,能够尽可能快地处理数据。为这个
Python
脚本制作一个gui,会不会妨碍web
爬虫
的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
1
回答
如何轻松地在远程github分支和本地分支/文件夹之间切换?
、
、
、
我用
Python
2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持
Python
3,这种转换必须在1 go内完成。我只能在
Python
3
爬虫
做好部署准备之后才能开始使用。现在,由于“所有操作都必须保持活动状态”,我需要一个单独的
Python
3
爬虫
的远程分支。这个分支可以称为Remote-B。我手动创建了这个分支,所以整个存储库现在有两个分支: Master(Remote-A)和
Python
3
爬虫
(Remote-B),后者是主分支的一个
浏览 3
提问于2019-09-10
得票数 0
回答已采纳
1
回答
我怎么能强制停止我的
爬虫
得到一个特定的网址抓取最后一次?
、
、
、
、
我正在制作一个
爬虫
来找出最近添加的youtube视频,当我的
爬虫
到达旧视频(在前一个转弯中爬行)时,我想停止
爬虫
。我使用的不是scrapy和漂亮的汤,我使用的是
python
库。请给我推荐任何选项
浏览 9
提问于2017-06-27
得票数 0
1
回答
我在哪里可以从instagram的回复页面找到rhx_gis?
、
我一直在使用自己的instagram
爬虫
,在类似无限滚动的
算法
中使用post请求,使用 md5("{}:{}".format(rhxGis,LOADS.replace('TAG_STRING', targethash但是从2019/5/16开始,rhx_gis值不再绑定到_sharedData,所以我不能使用
爬虫
。 我一直在寻找与响应一起出现的所有脚本中的rhx_gis,但除了一个丑化的函数之外什么也看不到。有没有人找到一种方法来获得gis值或新的x-instagram-gis散列
浏览 12
提问于2019-05-16
得票数 4
回答已采纳
1
回答
在ubuntu的后台运行时,
爬虫
停止。
、
我使用具有无限循环的
python
制作了一个简单的
爬虫
,所以它不能停止。随机延迟17 ~ 30,这个
爬虫
爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。因为我使用了Linux命令这个
爬虫
是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但
爬虫
突然停止了。第二天我再试一次。
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
2
回答
PHP与
、
、
我计划制作的网络
爬虫
,可以抓取200+领域,哪一种语言将适合它。我非常熟悉PHP,但我是
Python
的业余爱好者。
浏览 2
提问于2014-11-21
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
python爬虫神经网络深度学习算法.ZIP
Python爬虫入门3 爬虫必备Python知识
Python爬虫
python爬虫
Python 爬虫(五)
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券