腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
1
回答
如何在我的CF模板中设置胶水爬行器RecrawlPolicy
、
、
我希望将glue爬虫程序设置为仅爬行s3存储桶中的新文件夹。根据文档,看起来我想将RecrawlBehavior设置为CRAWL_NEW_FOLDERS_ONLY。但是我找不到任何关于如何在CloudFormation模板中做到这一点的指导。 这现在是我的爬虫程序的配置属性,但是我对RecrawlBehavior的使用是无效的: Configuration: "{\"Version\":1.0,\"RecrawlBehavior\":\"CRAWL_NEW_FOLDERS_ONLY\",\"CrawlerOutput\"
浏览 59
提问于2020-11-07
得票数 2
回答已采纳
1
回答
AWS :如何确保胶水爬虫总是从S3获取最新的文件
、
、
我有一个ETL管道,它每15分钟将一个.csv文件输出到S3。我如何配置胶水爬虫,使它只获取最新的文件,而不是使用所有的文件。
浏览 11
提问于2022-10-05
得票数 0
2
回答
使用sklearn和Python进行大型应用程序分类/抓取练习
、
、
、
我正在研究一个相对较大的基于文本的web分类问题,我计划在python中的sklearn中使用多项式朴素贝叶斯分类器,并使用scrapy框架进行爬行。然而,我有点担心sklearn/python对于一个可能涉及数百万网站分类的问题来说可能太慢了。我已经在DMOZ的数千个网站上训练了分类器。研究框架如下: 1)爬虫登陆一个域名,抓取网站上20个链接的文本(深度不超过1个)。(对于爬虫的示例运行,这里的标记化单词数量似乎在几千到150K之间变化) 2)运行具有大约50,000个特征的sklearn多项NB分类器,并根据结果记录域名 我的问题是,对于如此大规模的应用程序,基于Python的分类器是否
浏览 0
提问于2013-04-13
得票数 5
1
回答
S3上连续到达数据的AWS增量爬行
、
、
、
、
我正在寻找一种为S3数据设置增量Glue爬虫的方法,其中数据连续到达并按捕获日期进行分区(因此包含路径中的S3路径包含日期=yyyy)。我担心的是,如果我在一天内运行这个爬虫,它的分区将被创建,并且不会在后续的爬行中被重新访问。是否有一种方法可以强制某个给定的分区(我知道该分区可能仍在接收更新),在逐步运行爬虫时进行爬行,而不将资源浪费在历史数据上?
浏览 3
提问于2021-06-07
得票数 0
回答已采纳
2
回答
Glue Crawler可以抓取deltalake文件来创建aws胶水目录中的表吗?
、
、
、
、
我们有一个现有的基础设施,可以通过aws爬虫爬行S3目录。这些S3目录是作为AWS的一部分创建的,并通过spark作业转储。为了实现增量功能,我们在deltalake上做了一个POC。因此,当我通过星火三角洲作业在S3中编写这些deltalake文件时,我的爬虫程序无法从这些爬虫器中创建表。 我们能用AWS爬虫来抓取三角洲湖的文件吗?
浏览 5
提问于2020-09-05
得票数 2
回答已采纳
1
回答
支持windows增量爬行的Web爬虫
、
、
、
、
我需要一个开源的web爬虫在java开发的增量爬行支持。 Web爬虫应该易于定制,并与solr或elasticsearch集成。 它应该是一个积极的,正在进一步发展,更多的特点。 孔径是一个很好的爬虫,它有我提到的所有功能,但它不是一个活动的爬虫,由于许可(如果我使用它的商业目的),他们的依赖性,我忽略了。 Nutch -一个网络爬虫,有更多的hadoop支持功能。但是我浏览了很多网站和教程,没有合适的文档,api可以在windows中通过编程方式定制它。我可以在eclipse中编辑代码,但它在运行map时会导致许多错误,减少作业。nutch没有java来实现类似孔径的功能
浏览 4
提问于2014-09-22
得票数 1
回答已采纳
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
、
、
嗨,我想做一个网页爬虫,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络爬虫效率降低吗? 我需要爬虫尽可能高效,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web爬虫的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
3
回答
将数据从PHP脚本传递到Python Web Crawler
、
、
、
、
我有一个python爬虫,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示爬虫获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的python脚本?我在考虑标准输入/输出,但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件,php在其中写入数据,python从中读取数据。但是,我需要一些方法来让python脚本知道,新数据已经写入文件,以及让php脚本知道爬虫何
浏览 1
提问于2011-03-31
得票数 1
1
回答
如何轻松地在远程github分支和本地分支/文件夹之间切换?
、
、
、
会发生什么事? 我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3,这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。我不能一次部署一个爬虫。 我做了什么/我有什么? 我目前有一个远程分支,它是主分支。让我们称之为遥控器-A。这就是容纳所有爬行器的分支,它们每天都会被执行。这个分支必须继续运作。 对于远程分支,我有本地文件夹/分支,修复错误并创建新的。让我们把它叫做Local.,从主人那里,我推拉。 现在,由于“所有操作都必须保持活动状态”,我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Rem
浏览 3
提问于2019-09-10
得票数 0
回答已采纳
1
回答
我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次?
、
、
、
、
我正在制作一个爬虫来找出最近添加的youtube视频,当我的爬虫到达旧视频(在前一个转弯中爬行)时,我想停止爬虫。我使用的不是scrapy和漂亮的汤,我使用的是python库。请给我推荐任何选项
浏览 9
提问于2017-06-27
得票数 0
1
回答
在ubuntu的后台运行时,爬虫停止。
、
我使用具有无限循环的python制作了一个简单的爬虫,所以它不能停止。随机延迟17 ~ 30,这个爬虫爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。我使用了Ubuntu服务器。因为我使用了Linux命令 $ nohup python crawer.py & 这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。而且效果很好!有什么问题吗?这是关于网页的块吗?或者nohup命令有限制时间?非常感谢。
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
2
回答
做一个好公民,抓取网络
、
、
我有一个两部分的问题。 首先,我正在使用Scrapy编写一个基于爬行器的网络爬行器。我的目标是抓取一个有数千条(可能是数十万条)记录的网站。这些记录从起始页往下埋了2-3层。所以基本上我让爬虫从某个页面开始,爬行直到它找到特定类型的记录,然后解析html。我想知道的是,有什么方法可以防止我的爬行器使站点过载?有没有可能在不同的请求之间增加或暂停? 其次,与之相关的是,有没有一种使用Scrapy的方法可以在不对网站施加过多压力的情况下测试爬虫?我知道你可以在程序运行的时候杀死它,但是有没有办法让脚本在遇到像第一页这样的页面时停止呢? 任何建议或资源都将非常感谢。
浏览 0
提问于2011-12-17
得票数 6
回答已采纳
1
回答
如何提取我的爬虫目前所站的网址?
、
、
我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是,爬虫从页面中提取一些数据,如果数据符合某些条件,爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL? 谢谢。
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
1
回答
Web爬虫更新策略
、
我想抓取有用的资源(比如背景图片)。)从某些网站。这不是一项艰苦的工作,特别是在一些出色的项目,如刮刮的帮助下。 这里的问题是,我不仅要爬这个网站一次。我还想让我的爬行长时间运行,并抓取更新的资源。因此,我想知道,有什么好的策略,一个网页爬虫得到更新的网页? 这是我想过的一个粗略的算法。我把爬行过程分成了几个回合。每一轮URL存储库都会为爬虫提供一定数量(比如,10000)的URL来进行抓取。然后下一轮。具体步骤如下: 爬虫将启动URL添加到URL存储库 爬虫要求URL存储库最多抓取N个URL 爬虫获取URL,并更新URL存储库中的某些信息,如页面内容、获取时间和内容是否已更改。
浏览 1
提问于2010-04-05
得票数 4
1
回答
分布在不同地理位置的爬虫
、
、
我在不同的地理位置有几台台式机。我需要创建一个爬虫与客户端在每个台式机和一个中央服务器,其中的数据是索引。有没有可能在Nutch中创建这样的爬虫?还有没有别的选择。基于Python的爬虫会更好。
浏览 2
提问于2011-07-04
得票数 0
回答已采纳
1
回答
Web Crawler的常用输出格式
需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么?它会是XML,JSON吗?或者它会根据爬虫的不同而不同,例如: Python,Java?
浏览 0
提问于2012-08-20
得票数 0
回答已采纳
2
回答
网络爬虫-忽略Robots.txt文件?
、
、
、
一些服务器具有robots.txt文件,以阻止web爬虫在其网站中爬行。有没有办法让网络爬虫忽略robots.txt文件?我正在为python使用Mechanize。
浏览 1
提问于2011-12-05
得票数 14
回答已采纳
2
回答
对于蟒蛇爬虫,我应该使用无限循环还是cron作业?
、
、
我用python编写了一个爬虫,它可以访问60多个网站,解析HTML,并将数据保存到数据库。 现在,我正在使用cron作业,每15分钟运行一次爬虫。问题是,我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟),如果已经在运行,我不想再运行另一个爬虫。 我一直在想,我是否最好使用一个无限循环,并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢?以及如何在每次退出时重新启动?)。 哪一个更有效率?无限循环还是cron作业?
浏览 7
提问于2021-05-14
得票数 0
1
回答
将我的Python电子邮件爬行器转换为Web应用程序的框架
在Python方面经历了几年之后,我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数),它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序,这样其他员工就可以通过我来抓取电子邮件,这样我就可以在更重要的事情上工作。 是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序?制作网络应用程序所需的时间范围是什么? 我非常开放和渴望学习web应用程序开发,因此,任何帮助或建议将不胜感激。谢谢。
浏览 5
提问于2015-07-08
得票数 0
回答已采纳
2
回答
如何将新的URL传递给Scrapy Crawler
、
、
、
、
我想让一个抓取爬虫在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用爬虫程序来查询返回XML响应的外部API。我希望将我想要查询的URL (或查询参数并让crawler构建URL)传递给crawler,crawler将进行URL调用,并将提取的项返回给我。一旦爬虫程序开始运行,我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫,而是希望爬虫无所事事地等待URL爬行。 我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时,都必须派生和拆卸一个新的进程,因
浏览 0
提问于2013-05-23
得票数 2
5
回答
Python中的多线程爬虫真的可以提高速度吗?
、
、
我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本,一个线程下载池和一个池处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络爬虫有什么影响?会不会每个线程从套接字中提取一些数据,然后转到下一个线程,让它从套接字中提取一些数据,等等? 基本上我想问的是,用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
1
回答
如何有效地运行python web爬虫
、
、
、
我有一个python爬虫,它获取信息并将其放入SQL中。现在我也有了php页面,它从SQL读取这个信息,并表示它。问题是:为了让爬虫程序工作,我的电脑必须全天候工作。我有一台简单的家用电脑--所以这是个问题。是否有一种不同的方式运行网络爬虫?还是我必须在我的电脑上运行?
浏览 1
提问于2015-12-08
得票数 0
回答已采纳
1
回答
Python-Selenium爬虫冻结,特别是在无头模式下(不可复制的bug)
、
、
、
、
我构建了一个爬虫,它获取用户输入的产品列表的产品信息。有时,爬虫会结冰,特别是如果产品列表很长,如果爬虫在无头模式下运行的话。 这个bug似乎是随机的,也是不可复制的,这让我认为它是由被爬行的网站的资源利用引起的。 因为这是一个不可复制的错误,我不认为我能修复它,但有没有办法检测爬虫已经冻结,然后再试一次? 下面是关于爬虫和bug的一些信息: 爬虫是使用Selenium和Python构建的。 这个错误发生在不同的网站和产品上。 该错误发生在“正常”模式,但更多发生在无头模式。 谢谢! 费利佩
浏览 2
提问于2019-05-21
得票数 1
3
回答
如何在Scrapy中的同一进程中运行多个爬行器
、
、
我是Python & Scrapy的初学者。我刚刚创建了一个带有多个爬虫的Scrapy项目,在运行"scrapy crawl ..“它只运行第一个爬虫。 如何在同一进程中运行所有爬行器? 提前谢谢。
浏览 0
提问于2014-04-11
得票数 2
1
回答
将默认表属性分配给爬虫创建的表
我试图将表属性分配给用爬虫创建的表。 这样做的目的是让所有使用爬虫创建的表具有相同的默认属性(加上它们通常拥有的属性)。 我检查了爬虫创建界面中的选项,但没有看到这样的选项。在创建表之后创建一个python boto3脚本来修改表属性值,这是我唯一想到的事情。 如果这在默认的爬虫功能中是不可能的,那么将表属性附加到使用某个爬虫创建的每个表上的可行方法是什么? 编辑:一个可能的解决方案是创建一个lambda函数,检查胶水表中是否存在自定义参数,如果没有创建它们。
浏览 2
提问于2021-01-20
得票数 0
回答已采纳
1
回答
sharepoint 2007搜索爬网
我的问题是:我有sharepoint 2007 web应用程序和windows server 2008操作系统。我在SharePoint2007中做搜索,它工作得很好。最近我添加了一个新的网站页面,但它没有出现在搜索结果中。我也在爬虫日志中查找了它,但我没有找到页面的url。 新信息当我切换到windows身份验证时,一切都很好,页面是在搜索process.but中找到的,切换回表单身份验证不会使网页出现在搜索结果中。 我的问题是:如何让新页面出现在搜索结果中?
浏览 1
提问于2013-01-31
得票数 0
2
回答
Elasticsearch HTTP API或python API
、
、
、
、
我是一个实时分布式搜索引擎elasticsearch的新手,但我想问一个技术问题。 我已经编写了一个python模块爬虫,它可以解析网页并使用本机信息创建JSON对象。我的模块爬虫的下一步是使用elasticsearch存储本机信息。 真正的问题如下所示。哪种技术更适合我的场合?elasticsearch python API还是用于弹性搜索的RESTful API (elasticsearch-py)?
浏览 4
提问于2015-12-01
得票数 1
3
回答
网络爬虫与Django前端的接口
、
、
我试着做三件事。 第一:抓取和存档,至少每天,一组预定义的站点。 第二:对此数据运行通宵批处理python脚本(文本分类)。 第三:向用户公开一个基于Django的前端,让他们搜索抓取的数据。 我一直在使用Apache Nutch/Lucene,但当我可以使用另一个爬虫引擎时,让它与Django很好地配合似乎太难了。 about 建议我可以只用Django本身编写爬虫,但我不确定该怎么做。 基本上--对于用Django或现有的python爬虫编写我可以适应的爬虫有什么建议吗?或者我是否应该在第二步中加入“变成Django友好的东西”,并编写一些胶水代码?或者,最后,我应该完全放弃Django吗
浏览 0
提问于2009-06-09
得票数 2
5
回答
如何在Python中从HTML页面中提取URL
、
、
我必须用Python写一个网络爬虫。我不知道如何解析页面并从HTML中提取URL。我应该去哪里学习来编写这样的程序呢? 换句话说,有没有一个简单的python程序可以作为通用网络爬虫的模板?理想情况下,它应该使用相对简单的模块,并且应该包括大量的注释来描述每一行代码所做的事情。
浏览 2
提问于2013-03-20
得票数 17
2
回答
使用python提取网页上的URL列表的简单方法是什么?
、
我想创建一个简单的网络爬虫为乐趣。我需要网络爬虫来获得一个网页上的所有链接的列表。python库中有没有内置的函数可以让这一切变得更容易?感谢您提供的任何知识。
浏览 5
提问于2010-11-10
得票数 1
1
回答
在某个时间运行Python程序
、
我已经建立了一个爬虫使用Scrapy爬行到一个网站并提取链接。我想让爬虫在每天的某个时间运行。我找到了python的来执行调度,但是我找不到从哪里开始。任何帮助都是非常有用的。
浏览 0
提问于2014-04-08
得票数 0
1
回答
使用多个EC2实例爬行
、
我用python编写了一个爬行过程,它运行在亚马逊上的一个ec2实例上。我已经编写了这个爬虫,这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果,爬虫可以自由地继续爬行。我在这个爬行实例中想到的是,克隆爬虫的几个实例很容易,每个实例都要向中心报告以便处理。 因此,在这一点上,我有一个集线器和8个单独的爬行器(都在它们自己的实例上)不断地爬行和报告等等。 我在想用小的,分开的爬行器: 有冗余,所以如果一个爬虫被挂断,其余的爬虫可以继续工作。 (这是一个假设)如果每个爬虫都有自己独立的ip,我就有更好的网络利用率。 我可以旋转几个爬虫或缩小规模取决于我目
浏览 2
提问于2015-01-08
得票数 0
回答已采纳
1
回答
定期运行python程序作为防火墙中的后台服务。
、
、
只要开始使用firebase + react就可以建立一个网站。我的网站的一个设计特点是爬行和显示从另一个网站分析的数据(例如,股票价格的变化)。我已经有了负责解析数据的python爬虫,但是我不知道如何(在后台)在firebase中执行服务器的这个python爬虫(或者根本不可能)? 下面是我的系统的示例用法 用户登录和订阅网站/数据他们很感兴趣 我的爬虫将每1小时解析该网站并将数据更新到数据库。 用户可以从数据库中看到网站变更的摘要。 我想到的一个选择是在本地机器上运行爬虫,并使用REST将解析的数据更新到firebase数据库。然而,这似乎是一种非常低效/天真的方法,
浏览 0
提问于2018-01-25
得票数 3
1
回答
从单个MongoDB队列获取信息的多个工作人员
、
、
、
、
我正在用Python构建一个web爬虫,使用MongoDB来存储一个队列,其中包含所有要爬行的URL。我将有几个独立的工人,将抓取URL。每当工作人员完成URL抓取时,它将在MongoDB集合"queue“中发出请求,以获得要爬行的新URL。 我的问题是,既然会有多个爬虫,我如何确保两个爬虫器不会同时查询数据库并获得相同的URL来抓取? 非常感谢你的帮助
浏览 0
提问于2014-03-29
得票数 0
回答已采纳
1
回答
如何用基于Python的Crawler机器连接Django?
、
、
好日子,朋友们 最近,我制作了一个基于python的网络爬虫机,它可以scrapes_一些新闻网站和django网页,收集用户的搜索标题和url。 但是我不知道如何将基于python的爬虫机和django网页连接在一起,所以我正在寻找任何我可以参考的好资源。 如果有人知道我可以参考的资源,你们能分享一下吗? 谢谢
浏览 2
提问于2019-10-11
得票数 0
回答已采纳
2
回答
PHPCrawl可以用于抓取网站吗?与Scrapy有何不同?
、
、
、
、
我想刮几个网站,很多人建议使用Scrapy。它是基于Python的,因为我非常熟悉PHP,所以我寻找了替代方案。 我得到了一个爬虫PHPCrawl。我不确定它是否只是一个爬虫,或者它也会提供抓取功能。如果它可以用于抓取-它将支持XPath或正则表达式。 它怎么能和Python上的Scrapy相比呢? 请建议我哪一个是最好的用来抓取网站。 谢谢
浏览 0
提问于2012-11-22
得票数 0
回答已采纳
1
回答
可能的反爬行者
、
对于一个教育NLP项目,我需要一个所有意大利语单词的列表。我想我会写一个爬虫,从www.wordreference.com获取单词。我在机械化爬虫框架中使用Python。但当我使用代码时: br = mechanize.Browser() br.open("http://www.wordreference.com/iten/abaco") html = br.response().get_data() print html 我从"yahoo.com“那里得到了一些页面。这个网站有没有可能有防爬虫机制?
浏览 5
提问于2011-04-07
得票数 1
回答已采纳
1
回答
web爬虫如何构建URL目录以抓取所需内容
、
、
、
我在试着了解网络爬行是如何工作的。有三个问题: 我们是否必须有一个初始的URL目录来构建一个更大的URL目录?这是怎么回事? 有没有用python编写的开源web爬虫? 哪里是学习更多关于网络爬虫的最好的地方?
浏览 2
提问于2018-10-11
得票数 1
2
回答
有效地搜索大量URL列表
、
、
、
我正在建立一个网络爬虫,它必须爬行数百个网站。我的爬虫保存了一个已经爬行的urls列表。每当爬虫要爬行一个新页面时,它首先搜索已经爬行的url列表,如果已经列出了,则爬虫跳到下一个url,以此类推。一旦url被爬行,它就会被添加到列表中。 目前,我正在使用二进制搜索来搜索url列表,但是问题是,一旦列表变大,搜索就会变得非常慢。因此,我的问题是,我可以使用什么样的算法来搜索一个urls列表(列表的大小每天增长到20到100 k)。 爬虫目前是用Python编写的。但我将把它移植到C++或其他更好的语言中。
浏览 5
提问于2016-06-23
得票数 0
回答已采纳
1
回答
如何解决“没有模块名为proxy”的错误?
、
我正在学习爬虫,在一些基本的爬虫之后,我尝试从github下载谷歌学者爬虫大师,看看它是如何运行的,在几个我可以修复的错误之后,我遇到了一个ModuleNotFoundError: No module named 'proxy'错误(middleware.py文件,from proxy import PROXIES行是问题)。 这段代码有一些问题,其中包含python 3.x版本中不再支持/建议的解决方案,包括后来被重命名/移动的模块,但我无法确定这是否也是这种情况,希望能得到帮助。
浏览 3
提问于2018-03-07
得票数 0
1
回答
用于下载邮件列表归档的开源项目,最好使用Python
、
我想知道是否有任何开源项目(最好是Python)可以用来下载(crawl?)Lucene/Hadoop等开源项目的邮件列表归档(如)。我特别寻找一个(Apache)邮件列表档案定制的爬虫/下载器(不是一个通用的爬虫,如Scrappy)。任何指点都是非常感谢的。谢谢。
浏览 2
提问于2012-10-27
得票数 4
回答已采纳
1
回答
请问爬虫的教程在哪 ?
、
爬虫新手, 以后想学习基于Python 的各种新的知识和方向. : )
浏览 401
提问于2020-12-29
1
回答
与VB.Net HTTPWebRequest相比,Python URLOpen的速度很慢
、
、
、
嗨,我正在编写一个网络爬虫,这将爬行网站,并有选择地解析网站的不同部分。 我是一个.Net开发人员,所以我选择用.Net做这件事是显而易见的,但是速度非常慢,包括下载和解析HTMLPages 然后,我尝试先使用.Net下载内容,然后使用python下载相同的域名,但python在下载数据方面给人留下了深刻的印象。我已经使用python实现了下载,但是后面的部分并不容易用python编写,这显然不是我想要做的。 同一批域名在Python中需要100秒,而在基于.Net爬虫中需要20分钟 我尝试下载,在Python语言中用了8秒,在.Net crawler中用了100秒 有人知道为什么这在.Net
浏览 0
提问于2011-02-12
得票数 0
回答已采纳
1
回答
如何从playstore中的应用程序获取权限信息?
、
、
我正在开发一个python爬虫,从Play Store中的应用程序中检索一些信息。我的爬虫检索应用程序评级、开发人员等等,但不检索权限。这是因为谷歌使用的是假链接,而且没有html可以捕捉到。有人知道如何获取这些信息吗?欢迎任何帮助! 提前谢谢。
浏览 4
提问于2015-02-27
得票数 2
1
回答
linux上的shell脚本
、
、
这是我的shell脚本 #!/bin/bash crawlers(){ nohup scrapy crawl a & nohup scrapy crawl b & wait $! nohup scrapy crawl f & nohup scrapy crawl g & wait $! nohup scrapy crawl h & nohup scrapy crawl i & wait $! nohup scrapy crawl i & nohup
浏览 2
提问于2012-11-03
得票数 2
回答已采纳
1
回答
胶水爬行器太慢
、
、
胶水爬虫是否只有在s3下爬行某些文件夹的功能?目前,我们的管道变得越来越慢,因为我们不断地有新的数据进入。我们当然知道哪些文件夹是新的,哪种模式。
浏览 6
提问于2022-03-09
得票数 0
2
回答
Python -单元测试
、
、
对不起,如果这是一个很愚蠢的问题,但我已经找了很久了,只是无法弄清楚。 因此,我有一个关于单元测试的问题,不一定是关于Python的,但是由于我目前正在使用Python,所以我选择以它作为我的问题的基础。 我知道单元测试的概念,但我在互联网上唯一能找到的就是非常简单的单元测试。就像测试方法sum(a,b)是否返回a+ b的和一样。 但是,在处理更复杂的程序时,如何应用单元测试?举个例子,我写了一个爬虫。我不知道它还会有什么,否则我就不需要爬虫了。那么,在不知道该方法将返回的情况下,如何测试爬虫是否正常工作呢? 提前感谢!
浏览 1
提问于2014-01-18
得票数 3
回答已采纳
1
回答
在网站上使用Scrapy Spider结果
我已经尝试了一些爬虫程序来从我本地机器上的Python环境中提取web数据。理想情况下,我想主办一个网站,可以启动爬虫聚合内容,并显示在网站上。 我的问题是,有没有可能在web环境而不是我的本地机器上做到这一点?
浏览 40
提问于2019-07-24
得票数 0
1
回答
自动将抓取的数据提交到Github?
、
、
我有一个Python Scrapy爬虫,我想在Heroku或类似的平台上定期运行它。
浏览 2
提问于2014-08-07
得票数 0
5
回答
快速网络爬虫
、
、
、
我想进行大规模的数据挖掘。为此,我需要一个快速爬虫。所有我需要的是下载一个网页,提取链接和递归跟随他们,但不访问相同的网址两次。基本上,我想避免循环。 我已经用python写了一个爬虫,但是太慢了。我不能用它来饱和100Mbit线。最高速度约为40个urls/秒。由于某些原因,很难得到更好的结果。这似乎是python的多线程/套接字的问题。我也遇到了python的gargabe收集器的问题,但这是可以解决的。顺便说一句,CPU不是瓶颈。 那么,我应该使用什么来编写一个尽可能快的爬虫,以及在爬行时避免循环的最佳解决方案是什么? 编辑:解决方案是组合multiprocessing和threadin
浏览 4
提问于2011-10-05
得票数 8
回答已采纳
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
公众号+增量爬虫开发分享
Python爬虫入门3 爬虫必备Python知识
Python爬虫
python爬虫
Python 爬虫(五)
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券