腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
1
回答
如何在docker中使用此文件?
我想使用爬虫实验室仪表板与我的爬虫代码。爬虫实验室是爬虫仪表板。链接为 我要安装(?)docker(?)中的chromedriver。 这是文件树 如何在其中使用“install-chromedriver.sh”?
浏览 44
提问于2021-03-11
得票数 0
1
回答
我怎么能在robots.txt中只允许一个代理?
、
、
、
、
我目前在我的robots.txt中使用以下代码来禁止任何爬虫访问我的网站。但我只想有一个例外,那就是Google AdSense的爬虫。 下面是我的代码: User-agent: * Disallow: / 谷歌的AdSense爬虫名为“Mediapartners Google”。 我如何才能将其添加为异常,并继续阻止所有其他爬虫? 谢谢,各位!
浏览 18
提问于2021-05-18
得票数 1
1
回答
爬行url \如何在node.js中获取动态链接
、
我正在使用js爬虫来抓取网站,现在我遇到了CNN,的那一部分(基于某种原因动态生成的urls)。事情是爬虫,不要真正接触脚本-我应该如何解决它?除了我的node.js爬虫之外,我还应该编写自己的代码吗?是否有先进的爬虫知道如何处理这种动态行为?
浏览 1
提问于2016-07-23
得票数 2
回答已采纳
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
、
、
嗨,我想做一个网页爬虫,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络爬虫效率降低吗? 我需要爬虫尽可能高效,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web爬虫的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
1
回答
基于Crawler输出的触发Lambda
、
、
、
我有一个设置,在我的胶水爬虫运行和数据准备红移时,我需要触发lambda函数。有办法制造这样的触发器吗? 编辑: 我为爬虫状态更改添加了一个事件桥规则,它可以工作并触发lambda函数,但是当我的任何爬虫程序运行时它都会触发。我想隔离它,只有在运行了特定的爬虫之后才触发。我用下面的代码进行了测试,但它似乎没有选择我的爬虫名称。是否有其他方法在规则中指定爬虫名称,或者我是否犯了语法错误? { "source": ["aws.glue"], "detail-type": ["Glue Crawler State Change"
浏览 6
提问于2022-10-04
得票数 0
回答已采纳
1
回答
Solr将数据从“爬行器”核心复制到“搜索”核心
、
我们正在寻找一个Solr 4.9设置,其中我们有一个非常简单的爬虫清除和加载一个“爬虫”核心,然后触发一个数据副本到“搜索”核心时,爬行完成。这样做的目的是,我们的爬虫非常简单,不真正跟踪文档的方式,将有助于进行更新和删除。基本上,爬虫将清除整个“爬虫”核心,撕毁大约50k个文档(提交1000多个文档),然后触发一些东西将数据复制到另一个“搜索”核心。 假设我们必须重新启动搜索核心,如何通过命令行或代码实现这一点?
浏览 9
提问于2014-08-25
得票数 0
回答已采纳
1
回答
支持windows增量爬行的Web爬虫
、
、
、
、
我需要一个开源的web爬虫在java开发的增量爬行支持。 Web爬虫应该易于定制,并与solr或elasticsearch集成。 它应该是一个积极的,正在进一步发展,更多的特点。 孔径是一个很好的爬虫,它有我提到的所有功能,但它不是一个活动的爬虫,由于许可(如果我使用它的商业目的),他们的依赖性,我忽略了。 Nutch -一个网络爬虫,有更多的hadoop支持功能。但是我浏览了很多网站和教程,没有合适的文档,api可以在windows中通过编程方式定制它。我可以在eclipse中编辑代码,但它在运行map时会导致许多错误,减少作业。nutch没有java来实现类似孔径的功能
浏览 4
提问于2014-09-22
得票数 1
回答已采纳
2
回答
使用noscript优化SEO
、
、
我有使用ajax加载帖子的新闻门户,以获得更好的用户体验。Web爬虫看不到javascript生成的链接和文本,所以我读到了关于为爬虫使用noscript标记的文章。在noscript部分中,我以正确的方式(在我的php代码中)使用标题标记来呈现标题、字幕、描述和链接到post。许多SEO分析器网站现在看到了这些内容,但我不知道真正的爬虫像谷歌和其他。他的这是一个很好的方式,使我的内容可见的爬虫?我知道这很容易..。
浏览 0
提问于2015-04-22
得票数 3
2
回答
检查网站每个链接的最佳方式是什么?
、
、
我想创建一个爬虫,跟踪网站的每个链接,并检查网址,看看它是否工作。现在,我的代码使用url.openStream()打开URL。 那么创建爬虫的最好方法是什么呢?
浏览 1
提问于2011-09-02
得票数 2
回答已采纳
2
回答
带有最佳可定制爬虫和抓取器的建议
、
、
、
我有一个网站,这是相当好,但与非常少的信息。所以我想添加一些信息,比如关于特定领域的新闻(比如政治、好莱坞等)。我相信爬虫是最好的方法吗?如果我的理解是正确的,请建议您是否有任何其他方法来获取信息,而不使用来自各种来源的爬虫。 其次,我正在做过去两天的研究,但我找不到一个特定的来源能够做到这一点。现在我希望爬虫找到信息,规范化并存储在mysql数据库中。听起来很简单哈。但这不适合我。 因为这非常耗费资源和时间。在选择爬虫之前,我应该考虑哪些因素。我也希望定制它,所以任何工具,这是开源的,很好地被定制将是伟大的。 任何提供信息和研究因素的来源在创建爬虫或教育爬虫时都需要考虑,这将是很棒的。我更喜
浏览 0
提问于2010-11-11
得票数 0
1
回答
为什么我的Crawler会得到错误的HTML代码?
、
我想用java写一个爬虫来做一些学校练习。实际上,用jsoup库实现的爬虫代码可以工作,因为我的请求的结果是一些HTML代码,但是当我搜索一个明确写在网站上的单词时,没有找到它,因为一些div的来自于空的爬虫。 然后我意识到,当您导航到网站并右键单击‘查看页面源’时,我得到了与相同的代码。当我将代码与进行比较时,右键单击“->”检查“”时,代码与“查看页面源”中的不同。 我能做些什么来获得包含全部内容的HTML代码吗? 请求网址:
浏览 0
提问于2019-09-12
得票数 1
回答已采纳
1
回答
Symfony DomCrawler如何单击执行js代码的链接
、
、
、
、
如何使用爬虫来点击执行js代码的链接,这个链接没有HREF属性。爬虫可以通过客户端在页面上执行js代码吗? 我试着这样做,但不起作用 $link = $crawler->filter('#list-65544856 div[class = "DJt7 DJuf"]')->link();
浏览 82
提问于2021-02-03
得票数 0
1
回答
crawler JMeter中出错
、
我在JMeter中有一个爬虫测试(爬虫)的问题,我在java中也有本机代码,它不能工作,因为我需要在POST中发送一个名为javax.faces.ViewState的参数 我只需要绕过这个参数,然后我将我的代码留在Java中,根据您的意见,爬虫(爬虫)会更可行。 在此处输入图像描述 public static void main(String[] args) { try { Connection.Response loginForm = Jsoup.connect("http://appware-sst.com/elegancia-ejecutiva"
浏览 2
提问于2017-04-06
得票数 0
1
回答
如何在您自己的ami中管理应用程序?
我们有一些从互联网上收集数据的爬虫。对于我们的应用程序来说,EC2 spot是一个非常便宜的解决方案。 在我们的例子中,我们可以通过以下步骤来设置爬虫: 从AMAZON快速启动模板启动ami 安装依赖库 将爬虫应用程序发送到实例 为我们的爬行器设置发射器,让它在启动完成后工作。 将实例设置为ami 但是当爬虫需要更新时,我们需要重复步骤3。它会影响其他设置,如自动缩放中的“ami-id”或其他spot实例请求脚本。 “ami”中的应用程序管理是一个部署问题,因此我们需要建议使它尽可能简单。现在,还有另一种方法来管理它。我们使用源代码管理工具,部署步骤如下: 3
浏览 2
提问于2012-07-09
得票数 0
回答已采纳
1
回答
用于特定web爬虫的机器人元标记
、
、
、
、
网络爬虫列表 我想要什么 noimageindex (指数化-控制参数)只适用于googlebot (以下两个元标记代码)。 其他所有爬虫(例如YandexBot,Baiduspider)都可以工作(下面是1:一个元标记代码)。 的问题是: 下面的代码对每个爬虫都有效吗?如果没有,最简单的方法是什么?是否需要我为每个爬行者分别写上mea标签? 在编程方法中,有一个术语是覆盖性的,这就是为什么我要以这种方式细化(想要编写元标记),但我不确定它是否有效? 示例代码 1: <meta name="robots" content="index, follow" &
浏览 0
提问于2021-02-25
得票数 2
回答已采纳
1
回答
C#.net中两种超文本标记语言文件的比较
、
有谁能帮我解决这个问题吗?我实际上正在制作一个爬虫,它可以从网站上获取单词,并将整个页面存储为html文件,但现在我想比较新的爬虫与旧的爬虫,即旧的html文件与新的,找出它们之间的差异,有多少单词被删除或插入?因此,基本上我需要c#代码或示例,它们可以帮助我找出两个html文件是如何比较的? 我已经用过XmlDiff了 但它对我不起作用
浏览 1
提问于2011-12-23
得票数 0
回答已采纳
1
回答
使用多线程改进网络爬虫/爬虫
、
我已经开始学习网络爬虫,在一篇文章的帮助下,我构建了下面这个简单的爬虫。 它建议使用多线程来改进和提高网络爬虫的速度。 我想知道是否有人可以帮助我学习更多关于多线程的知识,甚至可以将其应用到下面的爬虫中。 此外,如果您有任何其他建议或改进,请随时分享这个爬虫。 代码如下: error_reporting( E_ERROR ); define( "CRAWL_LIMIT_PER_DOMAIN", 50 ); $domains = array(); $urls = array(); function crawl( $url ) { global $domains,
浏览 3
提问于2013-03-10
得票数 0
回答已采纳
1
回答
可能的反爬行者
、
对于一个教育NLP项目,我需要一个所有意大利语单词的列表。我想我会写一个爬虫,从www.wordreference.com获取单词。我在机械化爬虫框架中使用Python。但当我使用代码时: br = mechanize.Browser() br.open("http://www.wordreference.com/iten/abaco") html = br.response().get_data() print html 我从"yahoo.com“那里得到了一些页面。这个网站有没有可能有防爬虫机制?
浏览 5
提问于2011-04-07
得票数 1
回答已采纳
1
回答
HTML流的SEO/爬行性影响
、
、
随着HTML流(例如反应18流)的兴起,我想知道爬虫是如何处理HTML的。 最重要的是,爬虫会等到溪流结束吗? 谷歌爬虫是如何处理这个问题的?谷歌确实提到了流这里,但它没有说明谷歌爬虫如何处理HTML。 其他爬虫(DuckDuckGo,Bing,Facebook,Twitter等)怎么样?我假设爬虫会等到HTML流结束时,这个假设安全吗? HTML可能会导致搜索引擎优化优化页面的快速TTFB。这可是件大事。
浏览 0
提问于2021-07-27
得票数 7
3
回答
如何停止云主机上的爬虫?
我在云主机上运行了一个scrapy爬虫,这个爬虫可以一直运行,假如我没有停止爬虫就和主机断开了连接,是不是除了关机就没有办法停止爬虫了?
浏览 391
提问于2018-01-27
1
回答
如何解决“没有模块名为proxy”的错误?
、
我正在学习爬虫,在一些基本的爬虫之后,我尝试从github下载谷歌学者爬虫大师,看看它是如何运行的,在几个我可以修复的错误之后,我遇到了一个ModuleNotFoundError: No module named 'proxy'错误(middleware.py文件,from proxy import PROXIES行是问题)。 这段代码有一些问题,其中包含python 3.x版本中不再支持/建议的解决方案,包括后来被重命名/移动的模块,但我无法确定这是否也是这种情况,希望能得到帮助。
浏览 3
提问于2018-03-07
得票数 0
2
回答
如何将新的URL传递给Scrapy Crawler
、
、
、
、
我想让一个抓取爬虫在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用爬虫程序来查询返回XML响应的外部API。我希望将我想要查询的URL (或查询参数并让crawler构建URL)传递给crawler,crawler将进行URL调用,并将提取的项返回给我。一旦爬虫程序开始运行,我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫,而是希望爬虫无所事事地等待URL爬行。 我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时,都必须派生和拆卸一个新的进程,因
浏览 0
提问于2013-05-23
得票数 2
2
回答
有没有办法在python中抓取网页,让爬虫只抓取新的链接。
、
、
我想抓取一个网页(新闻),只获得最新的链接。我有一个爬虫代码,从一个网站获得所有的链接,需要2-3个小时来获得大约30000个链接,并在数据库中存储。如果下次运行爬虫程序时,我只想插入新的链接,该怎么办?我知道我可以在插入数据库之前做一个过滤器,但我希望爬虫只抓取新的链接,而不是再次抓取旧链接(基本上是整个网站)。有没有可能做这样的事情?
浏览 1
提问于2018-04-18
得票数 0
1
回答
Web Crawler -找不到对象
、
、
、
我正在用asp.net开发一个网络爬虫。 我的网络爬虫有一个主页,它从HREF标签打开其他HTML页面,下载HTML页面并获取数据。 现在的问题是,有时我会得到一个对象引用找不到的异常,有时代码运行得很好。
浏览 1
提问于2014-01-06
得票数 0
2
回答
基于PHP的Web爬虫或基于JAVA的Web爬虫
、
、
我对基于PHP的网络爬虫有些怀疑,它能像基于java线程的爬虫一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
2
回答
与多个小脚本相比,使用一个大脚本更好吗?
、
、
我在学习爬行着巨蟒的网络。我有一个有很多URL的CSV文件。使用python2.7和selenium,我目前正在抓取这些网站的数据,如:车身宽度(以像素为单位)、HTTP响应、页面加载速度和meta name="viewport"标记。 然后,我将脚本的结果导出到CSV文件中,每个列都包含提取的数据类型(参见下面)。我计划通过编写新的爬虫来提取更多类型的数据。 我的当前脚本如何将数据导出到CSV文件-> CSV文件,如下所示: Website | body width | HTTP response | load speed (in secs)
浏览 2
提问于2017-03-10
得票数 1
回答已采纳
1
回答
如何阻止Web爬虫下载文件
、
、
是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)? 我应该创建一个PHP脚本,使用cookie跟踪访问者,特别是在下载3个文件后登录/注册的web爬虫。但我发现网络爬虫可以绕过cookie。 有可能阻止网络爬虫吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web爬虫上? 我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web爬虫呢? 顺便说一下,我用的是nginx和drupal CMS。如果这能帮上忙的话就给我这个信息。
浏览 0
提问于2013-07-27
得票数 1
1
回答
是否可以使用Googlebot的用户代理令牌来检测它,而不是使用完整的用户代理字符串?
、
、
来自: 下表显示了Google各种产品和服务使用的爬虫: User代理令牌在robots.txt中的用户代理:行中使用,以便在为站点编写爬行规则时匹配爬虫类型。有些爬虫有多个令牌,如表中所示;要应用规则,只需匹配一个爬虫令牌即可。此列表尚未完成,但涵盖了您可能在website.Full用户代理上看到的大多数爬虫字符串是对爬虫的完整描述,并显示在请求和web日志中。 问题 从上面的节选中我们可以看到,可以在robots.txt文件中使用用户代理令牌进行匹配,从而检测爬虫。 我想使用我的服务器上的用户代理令牌来检测Googlebot爬虫请求。因此,我不必硬编码完全用户代理字符串。 但是,
浏览 3
提问于2019-10-28
得票数 0
回答已采纳
1
回答
在性能方面,为什么facebook不一次加载所有的JS文件?
、
登录后,我查看了facebook中的html代码,他们似乎对JS文件做了很多请求(根据firebug,多达20个)。 所以,虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件),但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗? 我想提高性能,加载“稍后需要”的内容(text/js/css)似乎是个好主意,但如果爬虫不能使用(当然是内容),就不是一个好主意。 谢谢!
浏览 2
提问于2013-03-18
得票数 3
2
回答
如何将代理池实现为多个抓取程序?
、
、
、
我必须在具有多个使用scrapy的爬虫的服务器中实现一个代理池。 假设我已经有一个数据库,其中有多个代理一直在更新,我该如何实现代理池。 我不想直接在代码中添加代理,主要是因为很多代理死得很快,有些爬虫需要很长时间才能完成。 有没有一种方法可以使用中间件或其他东西来实现这一点,而不需要更改我获得的每个爬虫? 谢谢。
浏览 9
提问于2019-03-19
得票数 0
1
回答
加载settings.py之前先运行代码
、
、
、
我有一个利用代理的网络爬虫。我有一个脚本,它生成一个包含100个有效代理的列表,然后在settings.py中将该列表设置为代理源。我的问题是,目前我手动运行一个生成该文件的脚本,然后运行爬虫。 如果我想让代码在settings.py被“处理”之前运行,有人知道我会把它放在哪里吗?我不想在运行爬虫之前手动运行这个脚本,因为我希望它是独立包含的。ROTATING_PROXY_LIST_PATH = 'C:\\Users\\cmdan\\Desktop\\Spiders\\Michael Mitarotonda\\proxies.txt' 提前感谢!
浏览 3
提问于2021-03-23
得票数 0
回答已采纳
1
回答
运行Android Marketplace Crawler ('hg‘目录?)
、
、
、
我在弄清楚如何运行Android Marketplace Crawler时遇到了麻烦: 我想我只是不明白爬虫程序应该如何操作--首先,源代码-- --说我可以用下面的命令创建爬虫程序的本地副本 hg clone https://code.google.com/p/android-marketplace-crawler/ 我该如何运行这个命令呢? 谢谢。
浏览 1
提问于2012-06-08
得票数 1
回答已采纳
6
回答
如何锁定对MySQL表的读/写,以便在没有其他程序读写数据库的情况下选择并插入?
、
、
、
我正在并行运行许多many爬虫实例。 每个爬虫从表中选择一个域,将url和启动时间插入到日志表中,然后开始对域进行爬行。 其他并行爬虫在选择自己的域之前检查日志表以查看哪些域已经被爬行。 我需要阻止其他爬虫选择刚刚被另一个爬虫选择但还没有日志条目的域。我对如何做到这一点的最佳猜测是,当一个爬虫选择一个域并在日志表中插入一行(两个查询)时,锁定来自所有其他读/写的数据库。 一个人是怎么做到的?恐怕这是非常复杂的,而且依赖于许多其他的东西。请帮我开始。 这段代码似乎是一个很好的解决方案(但是,请参阅下面的错误): INSERT INTO crawlLog (companyId, timeStar
浏览 10
提问于2011-07-08
得票数 38
回答已采纳
1
回答
爬虫不从网站根目录获取Robots.txt文件,而是从web根目录获取
、
我已经用robots.txt阻止了爬虫爬行我的web根目录(在我的例子中是/var/www/)。我在/var/www/中禁用了robots.txt,其中包含以下代码行: 现在,我需要web根目录(/var/www/mysite.com)的一个子目录被爬虫爬行。我已经在该目录中添加了robots.txt,并在apache中添加了虚拟主机,以允许对此mysite.com进行爬行。但是爬虫仍然从我的web根目录(/var/www)而不是(/var/www/mysite.com)获取robots.txt。 提前感谢您的帮助。
浏览 3
提问于2013-05-10
得票数 0
回答已采纳
1
回答
关联内容& SEO,带有外部链接的站点地图,使用CNAME将外部链接作为我自己的链接包含在站点地图中
、
、
是否有任何HTML代码或页面参数或metaname可以告诉搜索引擎一个页面的内容与另一个域上的另一个页面紧密链接。我保持更新的内容元数据库和关键字元数据库。我不想把这些链接给我的访客看。 1)我需要知道是否有专门与爬虫通信相关链接的协议,以提高我的排名 我是否可以通过代码告诉爬虫(爬虫,特别是爬虫,比如没有跟踪地址给爬虫),mydomain.com/Porduct.php是紧密相连的 http://ebay.com/sameProduct http://wikipedia.com/GenericProduct or http://google.com?q=someKeywords 我
浏览 6
提问于2012-12-08
得票数 1
1
回答
您如何设置风暴爬行器来运行色驱动程序而不是phantomJS?
、
描述了如何设置使用phantomJS运行的风暴爬虫,但是phantomJS似乎无法获取和执行外部链接的javascript页面(例如,链接到直接页面上下文之外的javascript代码)。不过,Chromedriver似乎能够处理这一案件。我如何设置风暴爬虫来运行铬驱动器而不是phantomJS?
浏览 2
提问于2021-04-29
得票数 0
回答已采纳
2
回答
对于蟒蛇爬虫,我应该使用无限循环还是cron作业?
、
、
我用python编写了一个爬虫,它可以访问60多个网站,解析HTML,并将数据保存到数据库。 现在,我正在使用cron作业,每15分钟运行一次爬虫。问题是,我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟),如果已经在运行,我不想再运行另一个爬虫。 我一直在想,我是否最好使用一个无限循环,并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢?以及如何在每次退出时重新启动?)。 哪一个更有效率?无限循环还是cron作业?
浏览 7
提问于2021-05-14
得票数 0
1
回答
无法在Lambda中创建AWS胶水爬行器,Lambda由Step函数触发
、
、
、
、
这是我的场景: API网关/Lambda触发Step函数。step函数的有效负载是在现有雅典娜表上运行的SQL查询。 Task-1的Step函数调用雅典娜上的StartQueryExecution API。该查询成功运行,并在给定的S桶中生成结果 Task-2调用Lambda,该Lambda根据任务-2的结果创建AWS爬虫(任务-2从任务-1)获取S3文件位置。 Task-3调用运行在Task-2中创建的爬虫的Lambda 要在Lambda中创建AWS爬虫,下面是我在Lambda (NodeJS)中的代码: exports.handler = async(event) =>
浏览 2
提问于2021-08-14
得票数 1
1
回答
如何阻止facebook爬虫导致CPU使用率过高
、
、
、
嗨,我最近在Apache使用率、Apache内存使用率和MySQL内存使用率方面都得到了很高的峰值。事实证明,爬虫以极高的速度访问我的网站,特别是Facebook。我试图将facebook爬虫的爬行延迟添加到robot.txt文件中,如下所示: User-agent: Facebot Disallow: Crawl-delay: 5 但我还是看到了高使用率的尖峰。这是由于错误的代码,还是有更好的方法来完全停止爬虫使用我的服务器的资源这么多? 任何帮助都是非常感谢的。
浏览 0
提问于2018-05-02
得票数 1
回答已采纳
1
回答
perl中的Web Crawler问题
、
、
我用Perl构建了一个网络爬虫。 我在用 HTML::ContentExtractor LWP::UserAgent HTML::LinkExtor 从网页中提取文本。 示例代码的参考链接 发行: 问题是,它不会从具有.aspx扩展名的网页中获取文本。它非常适合其他网页,我不知道为什么这个爬虫在aspx页面上会失败。
浏览 8
提问于2014-04-25
得票数 0
1
回答
在多台计算机上运行crawler4j
、
我正在尝试使用实现一个爬虫。一切都很好直到: 我只运行了一份。 我不重新启动就连续运行它。 如果我重新启动爬虫,url的收集并不是唯一的。这是因为爬虫锁定根文件夹(存储中间爬虫数据并作为参数传递)。当爬虫重新启动时,它将删除根数据文件夹.的内容。 是否可以: 防止根数据文件夹锁定。(因此,我可以同时运行多个爬虫副本。) 重新启动后,根数据文件夹的内容不会删除。(这样我就可以在停下来后恢复爬行器了。)
浏览 3
提问于2014-05-11
得票数 0
2
回答
仅搜索动态数据
、
我正在尝试抓取当地一家报纸的档案,并得到了想要的结果。有没有办法让我编程的爬虫,使静态按钮,如主页,按钮及其页脚是相同的,每个页面都不包括在爬虫中 这是我用来显示爬网数据的代码 System.out.println(Jsoup.parse(html).body().text_mod());
浏览 3
提问于2013-02-12
得票数 2
回答已采纳
1
回答
捕获父进程中的子进程异常
、
我正在创建多个进程,它们分别运行爬虫程序。我想确保如果爬虫进程中有一些异常,我能够在父进程中捕获它。下面是进程创建代码: try: caching_process = Process(target=run_crawler_process, args=(Config.CRAWLER_NAME, locations, city_payloads_map, cycle_count)) caching_process.start() except Excepti
浏览 17
提问于2020-03-10
得票数 1
回答已采纳
1
回答
Python -无法导入本地库
、
我有一个刮擦的爬虫,我想在我的爬虫中使用当地的图书馆。 下面是我的目录模型: 有两个重要文件db/base.py和/爬虫/蜘蛛/adilisik.py 这是base.py from sqlalchemy import create_engine from sqlalchemy.ext.declarative import declarative_base from sqlalchemy.orm import sessionmaker Base = declarative_base() engine = create_engine("mysql+pymysql://xxx:
浏览 1
提问于2017-01-28
得票数 1
2
回答
爬行时管理URL的常见方法是什么?
我正在尝试编写一个网络爬虫程序,但现在我想知道:存储所有urls的最佳方法是什么,这样爬虫就可以一起工作,但不会干扰。 示例: 爬虫1找到一个包含100个URL的页面。 爬虫2找到一个没有任何URL的页面。 爬虫1和2共享爬虫1发现的100个URL 我的想法(两种不同的方法) 让Crawler扫描页面寻找新的URL 将所有已找到的URL保存在由所有Queue实例共享的PriorityQueue( Crawler )中 一旦Queue变得太大(例如,最大大小的80% ),就将URL外包给数据库 让Crawler保存Analyzer,并在之后
浏览 5
提问于2011-12-28
得票数 0
回答已采纳
1
回答
有没有免费的php爬虫?
、
过去我用过自己的爬虫,但现在我需要更健壮的爬虫,我想知道有没有什么好的免费的php爬虫?
浏览 0
提问于2010-11-21
得票数 3
2
回答
PhantomJS传递HTML字符串并返回页面源代码
、
、
、
、
对于C#中的网络爬虫项目,我尝试执行Javascript和Ajax来检索爬行页面的完整页面源代码。 我正在使用一个现有的网络爬虫(Abot),需要一个有效的HttpWebResponse对象。因此,我不能简单地使用driver.Navigate().GoToUrl()方法来检索页面源代码。 爬虫下载页面源代码,我想在源代码中执行现有的Javascript/Ajax。 在一个示例项目中,我尝试了以下操作,但没有成功: WebClient wc = new WebClient(); string content = wc.DownloadString("ht
浏览 0
提问于2014-04-03
得票数 2
1
回答
编写可与任何服务器保持登录状态的crawler
、
、
、
、
我正在写一个爬虫。一旦爬虫登录到一个网站,我想使爬虫“停留-始终登录”。我该怎么做呢?客户端(如浏览器、爬虫等)使服务器遵守此规则吗?当服务器在一天内允许有限的登录时,可能会出现这种情况。
浏览 0
提问于2009-11-26
得票数 0
回答已采纳
1
回答
Apache获取和更新b阶段
、
、
、
、
我有一个问题,关于Nutch如何获得链接来更新爬行数据库。 所讨论的命令是bin/nutch updatedb crawl/crawldb $s1 我需要编写一个自定义解析器,在这样做之前,我已经检查了Nutch的源代码,就我而言,我负责提供更新爬虫数据库的链接,方法是从文档中提取它并在ParseData中以ParseData的形式插入它。至少这是我从了解到的。 如果我错了,请纠正我,因为我不希望我的爬虫在第一次迭代之后停止,因为它没有链接来更新爬虫数据库。
浏览 1
提问于2017-07-06
得票数 0
回答已采纳
5
回答
如何阻止爬虫(如spyder/Nutch-2 )访问特定的页面?
、
、
、
、
我有一个Windows客户端应用程序,它使用托管在共享商业php服务器中的php页面。 在这个php页面中,我将返回一个加密的json。同样在这个页面中,我有一段代码来跟踪哪个in正在访问这个php页面,并且我注意到有一个spyder/Nutch-2爬虫正在访问这个页面。 我在想,一个爬虫怎么可能找到一个没有在任何搜索引擎中发布的页面。我有办法阻止爬虫访问这个特定的页面吗? 我应该使用.htaccess文件来配置它吗?
浏览 7
提问于2014-04-15
得票数 1
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
学习分享Java爬虫伪代码
这个Python网络爬虫代码怎么解决乱码?
反爬虫的极致手段,几行代码直接炸了爬虫服务器
Python网络爬虫:request库中的常见异常以及爬虫基本代码框架
简单爬虫代码抓取票交所每日价格
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券