腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
3
回答
网络爬虫与Django前端的接口
、
、
我试着做三件事。 第一:抓取和存档,至少每天,一组预定义的站点。 第二:对此数据运行通宵批处理python脚本(文本分类)。 第三:向用户公开一个基于Django的前端,让他们搜索抓取的数据。 我一直在使用Apache Nutch/Lucene,但当我可以使用另一个爬虫引擎时,让它与Django很好地配合似乎太难了。 about 建议我可以只用Django本身编写爬虫,但我不确定该怎么做。 基本上--对于用Django或现有的python爬虫编写我可以适应的爬虫有什么建议吗?或者我是否应该在第二步中加入“变成Django友好的东西”,并编写一些胶水代码?或者,最后,我应该完全放弃Django吗
浏览 0
提问于2009-06-09
得票数 2
5
回答
Python中的多线程爬虫真的可以提高速度吗?
、
、
我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本,一个线程下载池和一个池处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络爬虫有什么影响?会不会每个线程从套接字中提取一些数据,然后转到下一个线程,让它从套接字中提取一些数据,等等? 基本上我想问的是,用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
2
回答
对于蟒蛇爬虫,我应该使用无限循环还是cron作业?
、
、
我用python编写了一个爬虫,它可以访问60多个网站,解析HTML,并将数据保存到数据库。 现在,我正在使用cron作业,每15分钟运行一次爬虫。问题是,我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟),如果已经在运行,我不想再运行另一个爬虫。 我一直在想,我是否最好使用一个无限循环,并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢?以及如何在每次退出时重新启动?)。 哪一个更有效率?无限循环还是cron作业?
浏览 7
提问于2021-05-14
得票数 0
5
回答
如何在Python中从HTML页面中提取URL
、
、
我必须用Python写一个网络爬虫。我不知道如何解析页面并从HTML中提取URL。我应该去哪里学习来编写这样的程序呢? 换句话说,有没有一个简单的python程序可以作为通用网络爬虫的模板?理想情况下,它应该使用相对简单的模块,并且应该包括大量的注释来描述每一行代码所做的事情。
浏览 2
提问于2013-03-20
得票数 17
1
回答
与VB.Net HTTPWebRequest相比,Python URLOpen的速度很慢
、
、
、
嗨,我正在编写一个网络爬虫,这将爬行网站,并有选择地解析网站的不同部分。 我是一个.Net开发人员,所以我选择用.Net做这件事是显而易见的,但是速度非常慢,包括下载和解析HTMLPages 然后,我尝试先使用.Net下载内容,然后使用python下载相同的域名,但python在下载数据方面给人留下了深刻的印象。我已经使用python实现了下载,但是后面的部分并不容易用python编写,这显然不是我想要做的。 同一批域名在Python中需要100秒,而在基于.Net爬虫中需要20分钟 我尝试下载,在Python语言中用了8秒,在.Net crawler中用了100秒 有人知道为什么这在.Net
浏览 0
提问于2011-02-12
得票数 0
回答已采纳
1
回答
web爬虫如何构建URL目录以抓取所需内容
、
、
、
我在试着了解网络爬行是如何工作的。有三个问题: 我们是否必须有一个初始的URL目录来构建一个更大的URL目录?这是怎么回事? 有没有用python编写的开源web爬虫? 哪里是学习更多关于网络爬虫的最好的地方?
浏览 2
提问于2018-10-11
得票数 1
2
回答
Elasticsearch HTTP API或python API
、
、
、
、
我是一个实时分布式搜索引擎elasticsearch的新手,但我想问一个技术问题。 我已经编写了一个python模块爬虫,它可以解析网页并使用本机信息创建JSON对象。我的模块爬虫的下一步是使用elasticsearch存储本机信息。 真正的问题如下所示。哪种技术更适合我的场合?elasticsearch python API还是用于弹性搜索的RESTful API (elasticsearch-py)?
浏览 4
提问于2015-12-01
得票数 1
1
回答
使用多个EC2实例爬行
、
我用python编写了一个爬行过程,它运行在亚马逊上的一个ec2实例上。我已经编写了这个爬虫,这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果,爬虫可以自由地继续爬行。我在这个爬行实例中想到的是,克隆爬虫的几个实例很容易,每个实例都要向中心报告以便处理。 因此,在这一点上,我有一个集线器和8个单独的爬行器(都在它们自己的实例上)不断地爬行和报告等等。 我在想用小的,分开的爬行器: 有冗余,所以如果一个爬虫被挂断,其余的爬虫可以继续工作。 (这是一个假设)如果每个爬虫都有自己独立的ip,我就有更好的网络利用率。 我可以旋转几个爬虫或缩小规模取决于我目
浏览 2
提问于2015-01-08
得票数 0
回答已采纳
8
回答
python中的网络爬虫。我应该从哪里开始,我应该遵循什么?-需要帮助
、
我对python有一定的中级水平。如果我必须用python编写一个网络爬虫,我应该遵循什么以及从哪里开始。有什么特别的tut吗?任何建议都会很有帮助。谢谢
浏览 3
提问于2010-07-29
得票数 6
1
回答
如何轻松地在远程github分支和本地分支/文件夹之间切换?
、
、
、
会发生什么事? 我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3,这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。我不能一次部署一个爬虫。 我做了什么/我有什么? 我目前有一个远程分支,它是主分支。让我们称之为遥控器-A。这就是容纳所有爬行器的分支,它们每天都会被执行。这个分支必须继续运作。 对于远程分支,我有本地文件夹/分支,修复错误并创建新的。让我们把它叫做Local.,从主人那里,我推拉。 现在,由于“所有操作都必须保持活动状态”,我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Rem
浏览 3
提问于2019-09-10
得票数 0
回答已采纳
2
回答
如何在风暴爬虫中使用蟒蛇螺栓?
、
、
我有一些图像分类器是用python编写的。网站上有很多例子,描述了在stdin/stdout的风暴螺栓中使用python的方法。我想集成我的python图像分类器和风暴爬虫拓扑。有可能吗? 谢谢
浏览 2
提问于2020-01-04
得票数 0
回答已采纳
5
回答
简单唯一非优先级排队系统
、
我正在用python编写一个简单的网络爬虫,我不想创建一个简单的queue类,但我不太确定最好的开始方法。我想要的东西,只持有唯一的项目来处理,这样爬虫将只抓取每一页每次脚本运行一次(只是为了避免无限循环)。有没有人能给我一个简单的队列示例?
浏览 0
提问于2009-02-14
得票数 1
回答已采纳
2
回答
有效地搜索大量URL列表
、
、
、
我正在建立一个网络爬虫,它必须爬行数百个网站。我的爬虫保存了一个已经爬行的urls列表。每当爬虫要爬行一个新页面时,它首先搜索已经爬行的url列表,如果已经列出了,则爬虫跳到下一个url,以此类推。一旦url被爬行,它就会被添加到列表中。 目前,我正在使用二进制搜索来搜索url列表,但是问题是,一旦列表变大,搜索就会变得非常慢。因此,我的问题是,我可以使用什么样的算法来搜索一个urls列表(列表的大小每天增长到20到100 k)。 爬虫目前是用Python编写的。但我将把它移植到C++或其他更好的语言中。
浏览 5
提问于2016-06-23
得票数 0
回答已采纳
2
回答
与多个小脚本相比,使用一个大脚本更好吗?
、
、
我在学习爬行着巨蟒的网络。我有一个有很多URL的CSV文件。使用python2.7和selenium,我目前正在抓取这些网站的数据,如:车身宽度(以像素为单位)、HTTP响应、页面加载速度和meta name="viewport"标记。 然后,我将脚本的结果导出到CSV文件中,每个列都包含提取的数据类型(参见下面)。我计划通过编写新的爬虫来提取更多类型的数据。 我的当前脚本如何将数据导出到CSV文件-> CSV文件,如下所示: Website | body width | HTTP response | load speed (in secs)
浏览 2
提问于2017-03-10
得票数 1
回答已采纳
2
回答
如何处理python爬虫的urlopen错误?
、
、
当我编写python爬虫时,我经常使用urlopen。有时它无法打开url (所以我得到一个错误),但当我重新尝试打开这个url时,它成功了。因此,我通过这样编写爬虫来处理这种情况: def url_open(url): '''open the url and return its content''' req = urllib.request.Request(headers=header, url=url) while True: try: response = urllib.request.urlopen(req)
浏览 3
提问于2016-05-03
得票数 0
2
回答
在两个共享数据库的独立程序中使用ORM
、
我有一个应用程序,分为两个主要部分: 用Python编写的网络爬虫 用Golang编写的REST 他们共享一个MySQL数据库,该数据库主要由web爬虫填充/更新,然后通过REST读取。 我想在双方都使用ORM,以使与数据库的交互更容易,但现在我不确定这是否是一种好方法。 在Python方面,我考虑使用小淘气,而对于Golang,我将使用戈姆。 维护两组ORM模型文件似乎不是个好主意,每当我想要更改数据库的某些属性时,都必须更改每组文件。此外,我担心两个or在争夺数据库的结构时,可能会出现冲突,或者模型可能与实际的db结构不同步。 在这种情况下,使用ORM会带来比其价值更大的麻烦吗?或者我应该
浏览 0
提问于2015-10-13
得票数 2
1
回答
crawler抓取chrome扩展id
、
、
我该如何为谷歌chrome扩展网站编写一个爬虫呢? 我正在做一些关于chrome扩展的安全研究。每个类别大约有100个扩展,我现在遇到的问题是编写一个爬虫来至少抓取UID。这个网站似乎是用javascript更新的。如果我抓取html,我将什么也得不到,因为该站点似乎会在稍后阶段加载页面的其余部分。换句话说,我需要的核心内容(即包含所有扩展元素的DOM )似乎是在我使用python抓取HTML之后加载的。有什么想法吗?
浏览 2
提问于2012-04-21
得票数 1
回答已采纳
3
回答
Python web crawler与MySQL数据库
、
、
、
、
我想创建或找到一个用Python编写的开源网络爬虫(爬虫/机器人)。它必须找到并跟踪链接,收集元标签和元描述,网页的标题和网页的网址,并将所有的数据放入一个MySQL数据库。 有谁知道可以帮助我的开源脚本吗?此外,如果有人能给我一些关于我应该做什么的建议,那么他们将非常受欢迎。
浏览 4
提问于2011-08-11
得票数 6
回答已采纳
3
回答
谷歌机器人信息?
、
、
有没有人知道更多关于谷歌网络爬虫(又称GoogleBot)的细节?我很好奇它是用什么写的(我自己做了几个爬虫,现在正准备做另一个),以及它是否能解析图像之类的东西。我假设它是这样做的,b/c images.google.com中的图像都被调整了大小。如果它都是用Python编写的,如果他们使用自己的库来做大多数事情,包括html/image/pdf解析,我也不会感到惊讶。也许他们不会这样做。也许它们都是用C/C++编写的。提前谢谢你-
浏览 1
提问于2010-04-14
得票数 0
回答已采纳
1
回答
连接到多个TOR出口节点
、
我想开发一个使用TOR的分布式网络爬虫。我如何通过TOR实现20种不同的连接?我想用20个外部ips同时浏览网站。请用Python编写代码示例。
浏览 1
提问于2012-08-23
得票数 2
回答已采纳
2
回答
在Python中解码UTF-8字符串
、
我正在用python编写一个网络爬虫,它涉及到从网站上获取标题。 其中一个标题应该是:Hip也要来了 但它却说:“™也要来了。” 这里出了什么问题?
浏览 0
提问于2012-10-29
得票数 23
回答已采纳
5
回答
快速网络爬虫
、
、
、
我想进行大规模的数据挖掘。为此,我需要一个快速爬虫。所有我需要的是下载一个网页,提取链接和递归跟随他们,但不访问相同的网址两次。基本上,我想避免循环。 我已经用python写了一个爬虫,但是太慢了。我不能用它来饱和100Mbit线。最高速度约为40个urls/秒。由于某些原因,很难得到更好的结果。这似乎是python的多线程/套接字的问题。我也遇到了python的gargabe收集器的问题,但这是可以解决的。顺便说一句,CPU不是瓶颈。 那么,我应该使用什么来编写一个尽可能快的爬虫,以及在爬行时避免循环的最佳解决方案是什么? 编辑:解决方案是组合multiprocessing和threadin
浏览 4
提问于2011-10-05
得票数 8
回答已采纳
4
回答
python中的网络爬虫数据库?
、
、
嗨,我用python编写了一个网络爬虫,从nytimes.com这样的新闻网站上提取新闻文章。我想知道什么是一个好的数据库作为这个项目的后端? 提前感谢!
浏览 3
提问于2010-01-27
得票数 1
回答已采纳
4
回答
从Ruby到Python :爬虫
、
、
在过去的几天里我开始学习蟒蛇。我想知道用python编写爬虫的等效方法。 所以在红宝石里我用: nokogiri,用于爬行html并通过css标记获取内容。 用于从url获取JSON数据的Net::HTTP和Net::HTTP::Get.new(uri.request_uri).body 在python中,它们的等价物是什么?
浏览 6
提问于2012-10-15
得票数 2
回答已采纳
1
回答
什么是最好的服务器语言来编程一个网络爬虫?
、
、
、
我想问一下哪种语言: ASP.NET / Ruby / CGI / Perl / Python /ColdFusion. 将是编写bes爬虫程序所需的be。 以及处理包含的信息? (它应该用于数据挖掘) 在运行时最快?最容易写?最容易maintain?<< 谢谢
浏览 0
提问于2012-01-01
得票数 -2
回答已采纳
0
回答
基于Python的股票数据爬取?
、
、
、
使用Python语言编写爬虫程序,使用正则表达式将指定日期时段内的全部上市公司股票数据爬取下来,并按照股票代码保存到相应的Excel文件中。 有偿联系微信:15527440125
浏览 203
提问于2020-05-23
2
回答
从带有刮擦参数的脚本中运行Scrapy蜘蛛
、
我用scrapy编写了一个蜘蛛&我可以通过python脚本成功地运行它。问题是,当我们通过scrapy提示符运行蜘蛛时,我们提供了诸如“-o ScrapedData.json -t json”这样的工具,我想通过python脚本运行"scrapy爬虫-o ScrapedData.json -t json“。任何帮助都是非常感谢的。提前感谢!
浏览 2
提问于2014-02-18
得票数 0
1
回答
解释URL中的相对路径
、
我正在用python编写一个“网络爬虫”,它接受一个URL,并根据链接到有限的深度进行深度优先搜索。我遇到的问题是如何解释URLS中的相对路径。 在页面上,可以看到"Starting“链接;它看起来像<a href="starting-out" class="nxtlink">Starting Out</a>。如何根据我的浏览器判断这个链接是指向"“还是"”? 然而,在页面上有一个链接<a href="Finalprojects.pdf">here</a>,它解析为"
浏览 1
提问于2011-03-03
得票数 1
回答已采纳
1
回答
使用Qt作为纯终端应用的Web爬虫
、
、
我在GUI环境中使用Qt创建了一个用于特定任务的简单web爬虫。现在,我想将它自动化(使用cron),并使用纯非GUI环境所必需的。我试图将代码移植到一个非GUI应用程序,但没有成功。 我有一些问题: 在纯非GUI环境中使用QWebPage是可能的吗?( Linux终端)。我读过一些类似的问题,我认为这是不可能的,但我仍然有一些疑问。 如果不可能,如何使用Qt为非GUI应用程序编写web爬虫程序?我熟悉Qt (当然不是专家),如果可能的话,我想使用它 如果仍然不可能,您建议获得和解析HTML页面的库是什么?(多平台和C++,也是Python,但这意味着我还要做很多工作) 编
浏览 0
提问于2012-09-20
得票数 1
2
回答
如何用Python编写一个简单的爬虫?
、
、
我已经试着写这个爬虫几个星期了,但是没有成功。对我来说,用Python编写代码的最佳方式是什么: 1)初始url:http://www.whitecase.com/Attorneys/List.aspx?LastName=A 2)从初始url中选取以下正则表达式的url: hxs.select('//td[@class="altRow"][1]/a/@href').re('/.a\w+') [u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler'
浏览 0
提问于2009-11-27
得票数 1
回答已采纳
1
回答
Python: urlopen()与CURL
、
、
我正在用Python编写一个网页爬虫,并且非常喜欢它!但是,我注意到urlopen(url).read()在Python上生成的结果与终端上的curl生成的结果有一些不同。我试着,但没有成功。有一种简单的方法可以在Python上生成卷曲结果吗? 更新 在本例中,我解析了 URL。我在两个请求User-Agent: Mozilla/5.0上传递了相同的头。以下是产出: cURL输出: urlopen输出:
浏览 2
提问于2015-11-01
得票数 2
回答已采纳
1
回答
Python Scrapy -解析最近更新日期的URL内容
、
、
、
我有一个用Python编写的、使用scrapy框架的网络爬虫/爬行器。我一直在尝试使用“最后修改”日期来标识每个页面的最新更新-但我也会收集被抓取的页面的每个HTML文件。有没有更准确的方法来收集每个页面最近更新的日期?
浏览 0
提问于2021-01-13
得票数 0
5
回答
Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)?
、
有人知道谷歌机器人是用哪种编程语言编写的吗? 或者,更普遍的是,高效的网络爬虫是用哪种语言编写的? 我见过很多Java语言,但在我看来,它不是最适合开发网络爬虫的语言,因为它产生了太多的开销(尝试使用Heritrix网络爬虫,它非常重)。
浏览 0
提问于2009-10-29
得票数 1
回答已采纳
1
回答
建立与web应用程序的会话以进行爬网
、
、
、
我计划用Python语言编写一个使用Requests和PyQuery的网站爬虫。 然而,我的目标网站需要我登录到我的帐户。使用请求,我是否可以与服务器建立会话(使用我的站点凭据),并使用此会话爬行我只有在登录时才能访问的站点? 我希望这个问题是清楚的,谢谢。
浏览 2
提问于2013-05-02
得票数 1
3
回答
将数据从PHP脚本传递到Python Web Crawler
、
、
、
、
我有一个python爬虫,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示爬虫获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的python脚本?我在考虑标准输入/输出,但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件,php在其中写入数据,python从中读取数据。但是,我需要一些方法来让python脚本知道,新数据已经写入文件,以及让php脚本知道爬虫何
浏览 1
提问于2011-03-31
得票数 1
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
、
、
嗨,我想做一个网页爬虫,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络爬虫效率降低吗? 我需要爬虫尽可能高效,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web爬虫的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
4
回答
自动网络爬虫
、
我正在编写一个爬虫,需要从许多网站获取数据。问题是每个网站都有不同的结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)数据的爬虫?如果网站的结构发生变化,我是否需要重写爬虫,或者是否有其他方法? 什么逻辑和实现的工具可以用来提高自动网络爬虫挖掘的数据的质量(许多网站涉及不同的结构)? 谢谢!
浏览 0
提问于2012-07-20
得票数 1
1
回答
我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次?
、
、
、
、
我正在制作一个爬虫来找出最近添加的youtube视频,当我的爬虫到达旧视频(在前一个转弯中爬行)时,我想停止爬虫。我使用的不是scrapy和漂亮的汤,我使用的是python库。请给我推荐任何选项
浏览 9
提问于2017-06-27
得票数 0
1
回答
在ubuntu的后台运行时,爬虫停止。
、
我使用具有无限循环的python制作了一个简单的爬虫,所以它不能停止。随机延迟17 ~ 30,这个爬虫爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。我使用了Ubuntu服务器。因为我使用了Linux命令 $ nohup python crawer.py & 这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。而且效果很好!有什么问题吗?这是关于网页的块吗?或者nohup命令有限制时间?非常感谢。
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
11
回答
如何使用Python发出urllib2请求?
、
我正在尝试使用用Python编写的爬虫来抓取网站。我想将Tor与Python集成,这意味着我想使用Tor匿名地抓取站点。 我试过这样做。似乎不起作用。我检查了我的IP,它仍然和我使用tor之前的一样。我是通过蟒蛇检查的。 import urllib2 proxy_handler = urllib2.ProxyHandler({"tcp":"http://127.0.0.1:9050"}) opener = urllib2.build_opener(proxy_handler) urllib2.install_opener(opener)
浏览 8
提问于2009-07-08
得票数 55
2
回答
在Scrapy >= 0.14中编程启动爬虫最简单的方法是什么?
、
、
我想从Python模块在Scrapy中启动一个爬虫。我想从本质上模仿$ scrapy crawl my_crawler -a some_arg=value -L DEBUG的本质 我有以下几点准备: 项目的settings.py文件 物品和管道 扩展BaseSpider并在初始化时需要参数的爬虫类。 我可以很高兴地使用上面指定的scrapy命令运行我的项目,但是我正在编写集成测试,我想通过编程: 使用settings.py中的设置和具有my_crawler名称属性的爬虫启动爬行(我可以轻松地从测试模块实例化这个类。 我希望按照settings.py中的规范使用所有管
浏览 1
提问于2012-06-26
得票数 9
6
回答
编写更快的Python爬行器
、
我正在用Python编写一个爬虫来抓取一个站点。问题是,我需要检查大约250万个页面,所以我真的需要一些帮助来优化它的速度。 我需要做的是检查页面的一定数量,如果它被发现,记录到该页面的链接。爬行器非常简单,它只需要对大量页面进行排序。 我对Python完全陌生,但以前用过Java和C++。我还没有开始编写代码,所以任何关于要包含的库或框架的建议都会很棒。我们也非常感谢任何优化技巧。
浏览 0
提问于2009-12-06
得票数 6
回答已采纳
1
回答
如何提取我的爬虫目前所站的网址?
、
、
我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是,爬虫从页面中提取一些数据,如果数据符合某些条件,爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL? 谢谢。
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
2
回答
在Python中转换为&;
、
、
、
我正在用Python编写一个简单的爬虫程序。目标是创建一个sitemap.xml。我注意到,如果我用包含非实体(比如&)的URL生成xml,xml就不会进行验证,也不会被Google Webmaster工具接受。有没有一种快速的方法来编码URL的查询字符串部分? 谢谢! 马泰奥
浏览 6
提问于2009-10-30
得票数 2
回答已采纳
1
回答
客户端操作系统上的DNS查询是否序列化?
、
、
即使您在Linux或windows上发出多个并行异步DNS解析请求(以编程方式),操作系统是否会序列化这些请求,并且不会将它们全部并行发送出去? 当我在一些地方读到gethostbyname或DNS APIs在最低层序列化时,甚至有人编写了这个async-dns python库来戏剧性地加速DnsResolve解析。 那么,是否有任何.NET应用程序接口或一般情况下,它可以并行工作,根据我的程序给出的请求数量? 想象一下一个网络爬虫场景,我需要每秒大量的dns查询,在一些早期的网络爬虫出版物中,提到dns成为瓶颈。
浏览 1
提问于2010-12-10
得票数 2
回答已采纳
1
回答
爬行url \如何在node.js中获取动态链接
、
我正在使用js爬虫来抓取网站,现在我遇到了CNN,的那一部分(基于某种原因动态生成的urls)。事情是爬虫,不要真正接触脚本-我应该如何解决它?除了我的node.js爬虫之外,我还应该编写自己的代码吗?是否有先进的爬虫知道如何处理这种动态行为?
浏览 1
提问于2016-07-23
得票数 2
回答已采纳
1
回答
分布在不同地理位置的爬虫
、
、
我在不同的地理位置有几台台式机。我需要创建一个爬虫与客户端在每个台式机和一个中央服务器,其中的数据是索引。有没有可能在Nutch中创建这样的爬虫?还有没有别的选择。基于Python的爬虫会更好。
浏览 2
提问于2011-07-04
得票数 0
回答已采纳
1
回答
Web Crawler的常用输出格式
需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么?它会是XML,JSON吗?或者它会根据爬虫的不同而不同,例如: Python,Java?
浏览 0
提问于2012-08-20
得票数 0
回答已采纳
2
回答
网络爬虫-忽略Robots.txt文件?
、
、
、
一些服务器具有robots.txt文件,以阻止web爬虫在其网站中爬行。有没有办法让网络爬虫忽略robots.txt文件?我正在为python使用Mechanize。
浏览 1
提问于2011-12-05
得票数 14
回答已采纳
1
回答
将我的Python电子邮件爬行器转换为Web应用程序的框架
在Python方面经历了几年之后,我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数),它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序,这样其他员工就可以通过我来抓取电子邮件,这样我就可以在更重要的事情上工作。 是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序?制作网络应用程序所需的时间范围是什么? 我非常开放和渴望学习web应用程序开发,因此,任何帮助或建议将不胜感激。谢谢。
浏览 5
提问于2015-07-08
得票数 0
回答已采纳
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python如何编写爬虫程序,附高级爬虫实现思路
利用 Python 编写简单网络爬虫实例 2
利用 Python 编写简单网络爬虫实例 1
利用 Python 编写简单网络爬虫实例 3
如何用Python 编写知乎爬虫?So easy!
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券