豆瓣java爬虫_Java豆瓣电影爬虫_豆瓣爬虫python - 腾讯云开发者社区

、、

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

1回答

如何用python爬取数据并保存到excel？

利用python爬取豆瓣电影排行榜（https://movie.douban.com/chart)的数据并保存到excel中。用相同代码爬取网页豆瓣top250的数据可以爬取到excel中，但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法爬取，也找不出问题所在。以下图片为完整代码。 590859A8-9A1A-4E52-8E60-AD292B16B4A8.png 655C6D0E-4901-4369-AA98-452F9FEFB852.png 4E73A31E-C9C4-45C0-A34E-8EA9AE335A98.jpeg 91321020-9B32-4C77-910A-FA

浏览 335提问于2021-01-09

1回答

学习多线程Java爬虫的良好开端

、、

我正在用Java开发一个网络爬虫。我正在寻找一个很好的项目开发这个爬虫的基础上。然而，实际上有超过几百个用Java编写的爬虫程序。我要找的是一个相当简单的爬虫，它有：基于最新的Java构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot许多不必要的特性(bloats)Ability很容易集成到我的项目中。

浏览 1提问于2012-04-16得票数 0

回答已采纳

1回答

支持windows增量爬行的Web爬虫

、、、、

我需要一个开源的web爬虫在java开发的增量爬行支持。 Web爬虫应该易于定制，并与solr或elasticsearch集成。它应该是一个积极的，正在进一步发展，更多的特点。孔径是一个很好的爬虫，它有我提到的所有功能，但它不是一个活动的爬虫，由于许可(如果我使用它的商业目的)，他们的依赖性，我忽略了。 Nutch -一个网络爬虫，有更多的hadoop支持功能。但是我浏览了很多网站和教程，没有合适的文档，api可以在windows中通过编程方式定制它。我可以在eclipse中编辑代码，但它在运行map时会导致许多错误，减少作业。nutch没有java来实现类似孔径的功能

浏览 4提问于2014-09-22得票数 1

回答已采纳

1回答

识别搜索爬行器

、、、

我有一个网站，统计有多少人访问了这个特定的网页，但我不想计数什么时候搜索爬虫访问他们。java是否有任何方法来识别它是爬虫还是真正的用户？使用Java7和tomcat 谢谢

浏览 2提问于2015-10-21得票数 1

回答已采纳

1回答

Web Crawler的功能

、、

网络爬虫是否只从网页中返回提取的文本？例如，如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬行它们并返回它们的内容吗？不管怎样，对于一个好的开源Java网络爬虫有什么建议呢？谢谢!

浏览 2提问于2011-06-26得票数 0

回答已采纳

2回答

有没有可以下载整个网站的网络爬虫？

、

需要知道是否有一个爬虫/下载器，可以抓取和下载和整个网站的链接深度至少为4页。我正在尝试下载的站点有java script超链接，这些超链接只能由浏览器呈现，因此爬虫程序无法抓取这些超链接，除非爬虫程序自己呈现它们！

浏览 4提问于2010-09-30得票数 0

回答已采纳

5回答

Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)？

、

有人知道谷歌机器人是用哪种编程语言编写的吗？或者，更普遍的是，高效的网络爬虫是用哪种语言编写的？我见过很多Java语言，但在我看来，它不是最适合开发网络爬虫的语言，因为它产生了太多的开销(尝试使用Heritrix网络爬虫，它非常重)。

浏览 0提问于2009-10-29得票数 1

回答已采纳

1回答

网络爬虫会遇到什么危险？

我刚写完一个爬虫，一直在想为什么爬行某个网站会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此，我的问题是，web爬虫(用PHP或Java编写)是否能够刮起可能会对爬虫造成损害的站点？

浏览 3提问于2014-11-08得票数 1

2回答

Lucene爬虫(它需要建立lucene索引)

、、

我正在寻找Apache Lucene网络爬虫写在java，如果可能的话，或在任何其他语言。爬虫必须使用lucene并创建有效的lucene索引和文档文件，因此这就是nutch被排除的原因。有没有人知道这样的网络爬虫是否存在，如果答案是肯定的，我可以找到它。Tnx..。

浏览 0提问于2009-10-16得票数 1

回答已采纳

1回答

Web Crawler的常用输出格式

需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么？它会是XML，JSON吗？或者它会根据爬虫的不同而不同，例如: Python，Java？

浏览 0提问于2012-08-20得票数 0

回答已采纳

1回答

crawler JMeter中出错

、

我在JMeter中有一个爬虫测试(爬虫)的问题，我在java中也有本机代码，它不能工作，因为我需要在POST中发送一个名为javax.faces.ViewState的参数我只需要绕过这个参数，然后我将我的代码留在Java中，根据您的意见，爬虫(爬虫)会更可行。在此处输入图像描述 public static void main(String[] args) { try { Connection.Response loginForm = Jsoup.connect("http://appware-sst.com/elegancia-ejecutiva"

浏览 2提问于2017-04-06得票数 0

4回答

Java -销毁正在执行某些操作的对象

、

我看过Java中关于析构函数的帖子，了解到Java没有析构函数，但我很困惑，如果没有析构函数，我的应用程序需要做什么。我的应用程序允许用户创建一系列的网络爬虫，这些爬虫保存在一个数组列表中。每个crawler都有一个进度面板gui，显示已爬行的页面等，并允许用户暂停该爬虫。但是，用户可能还想“终止”该爬虫程序。应该注意的是，Crawler类的每个实例都有一个Scraper类的实例，而Scraper类又有一个DatabaseConnection类的实例。我需要做什么才能让用户按下"Terminate“，对于那个爬行器，它的抓取器，以及抓取器的DatabaseConnection，都被

浏览 4提问于2011-07-08得票数 0

回答已采纳

2回答

如何将.java和html结合起来？

、、、

我试图创建一个web应用程序，用户可以选择一个电影的名称(前)。(“空中坠落”)从下拉列表。然后，我想执行一个爬虫到rottentomatoes.com并获取与这部电影相关的所有html页面。我已经使用Tomcat在Eclipse中创建了我的web应用程序( GUI)。我有一个web爬虫: crawler4j，如果我选择将主.java文件作为应用程序运行，它就会运行。我怎么才能把这两者结合起来？是否可以使用html中的参数(电影名称)调用java类文件？为了在我的html中执行它，我必须用爬虫创建一个单独的Applet吗？我可以这样做并用它发送字符串( html中的电影名称，所以我

浏览 3提问于2012-12-10得票数 0

回答已采纳

7回答

对使用Lucene或Solr的爬虫工具的建议？

、、

对于HTML和XML文档(本地或基于web)，什么是一个好的爬虫(爬虫)，并且在Lucene / Solr解决方案空间中工作得很好？可以是基于Java的，但不一定是。

浏览 13提问于2008-11-12得票数 16

回答已采纳

1回答

用于爬虫应用的数据库系统

、

我在一个基于java的爬虫上工作。我想在我的爬虫恢复功能，用户可以在任何时候暂停爬虫，在他想要的情况下，爬虫崩溃的情况下，他应该能够开始从爬虫停止的点上一次爬行。为此，我必须在数据库中存储所有outlink (在任何页面找到的链接)。我不确定哪个数据库是最好的这类系统，因为它需要非常快的插入和检索的链接从数据库和频率插入和检索将非常高。很少有人建议我像mongodb那样使用no-sql，但我只想确保它是这类系统的最佳选择。

浏览 2提问于2012-01-06得票数 1

回答已采纳

1回答

如何在.log文件中查找所有网络爬虫

、

我需要帮助。我需要找出如何找到.log文件中的所有网络爬虫。我不知道该找什么。我知道网络爬虫会做一些特定的事情，但是我找不到用java编程的好方法。谢谢

浏览 0提问于2014-01-20得票数 0

1回答

HtmlUnit与HttpUnit的性能比较

、

我想写爬虫，支持cookie存储操作和会话。java无头浏览器有两种不同的实现方式。HtmlUnit对javascript和html解析有更好的支持。但是，有什么理由使用HttpUnit来提高爬虫的性能呢？

浏览 1提问于2011-08-28得票数 2

1回答

java--跟踪运行java应用程序时所使用的带宽和其他参数的库/方法

、

我正在努力创建一个Java的网络爬虫。爬虫访问网站，使用JDBC访问/存储数据库中的数据，还将文件存储在本地或云存储上。作为爬行的一部分，我想记录爬虫使用的确切细节-- 参数，如-- Number of sites visited (HTTP+HTTPS) Number of bytes of data received over one run of the crawler Number of bytes of data sent over one run of the crawler Number of rows updated/inserted/deleted/selected via

浏览 1提问于2012-06-28得票数 0

回答已采纳

3回答

网络爬虫反馈？

、、、

嘿，伙计们，偶尔我需要自动从网站收集数据。有时我需要一个目录中的一堆URL，有时我需要一个XML站点地图(是的，我知道有很多软件用于这个和在线服务)。无论如何，作为对我上一个问题的跟进，我写了一个小的网络爬虫，可以访问网站。基本的爬虫类，方便和快速地与一个网站交互。重写"doAction(String，String )“以进一步处理内容(例如存储、解析内容)。概念允许爬虫的多线程.所有类实例共享已处理和排队的链接列表。可以建立JDBC连接，以将链接存储在数据库中，而不是跟踪对象中已处理的链接和排队链接。但是，目前一次只限于一个网站，可以通过添加一

浏览 12提问于2010-05-29得票数 2

回答已采纳

1回答

Crawler登录到gmail电子邮件帐户

、

我想写一个爬虫在Java中自动登录到gmail帐户。我的爬虫将获得登录Id和密码，并将登录到电子邮件帐户，并显示输出页面。我不清楚该怎么做。我曾尝试使用HTTP客户端将一些数据发布到博客，因此我熟悉它的基本GET和post方法。谁能告诉我如何编写爬虫登录到gmail电子邮件帐户？任何回应都将不胜感激。提前谢谢。

浏览 2提问于2010-08-27得票数 1

1回答

Mysql编码不一致

、、

我是葡萄牙人，我正在制作一个有蔬菜名称的网站。然而，编码并不一致。例如，单词Agrião (豆瓣菜)有时会正确出现，但有时它会像Agri it o一样出现。当我刷新页面时，它会随机选择其中的一个。有时是正确的，有时是不正确的。

浏览 1提问于2012-05-31得票数 1

回答已采纳

1回答

运行网站爬虫

、

我正在用java编写一个网站爬虫，我想知道运行它最明智的方式是什么？换句话说，我是走标准的web应用程序路线，放入web服务器并使用某种类型的消息队列，还是忘记容器而将其作为独立的java应用程序运行？这不是一个真正的网络爬虫，因为它只关心x个网站，但我想不断循环通过这些网站(24小时)，以确保我有最新的内容。

浏览 0提问于2012-01-10得票数 0

回答已采纳

2回答

使用Web Crawler爬行Web数据

、

我想使用一个网络爬虫和抓取一个特定的网站。该网站是一个学习管理系统，许多学生在这里上传他们的作业，项目演示文稿等。我的问题是，我可以使用网络爬虫下载已经上传到学习管理系统中的文件吗？下载它们之后，我想为它们创建一个索引，以便查询文档集。用户可以使用我的应用程序作为搜索引擎。爬虫能做到这点吗？我知道webeater (用Java编写的Crawler )

浏览 1提问于2011-03-30得票数 1

回答已采纳

2回答

Web Crawler与Html解析器

、、、

web爬虫和解析器有什么区别？在java中，有一些用于获取库的名称。例如，他们将nutch命名为一个爬虫，而jsoup命名为一个解析器。他们的目的是一样的吗？他们在这份工作上完全相似吗？谢谢

浏览 3提问于2018-11-14得票数 2

回答已采纳

2回答

用Java编写的最好的开源Web爬虫工具是什么？

、

用Java编写的最好的开源Web爬虫工具是什么？

浏览 0提问于2011-12-12得票数 13

回答已采纳

5回答

如何使jar文件在启动时运行&以及何时退出？

、、、

我不知道从哪里开始找。我读过关于守护进程的文章，不理解这个概念。更多详情：我一直在写一个爬虫，从来没有停止和爬虫通过RSS在互联网上。爬虫是用java编写的，因此现在它是一个jar。我是一台拥有Ubuntu11.04的机器的管理员。这台机器有一些崩溃的机会，所以我希望每次你启动机器时，爬虫都能运行。此外，我希望它继续运行，即使当我注销。我不确定这是可能的，但大多数时候我都是注销的，而且我仍然希望它能够爬行。有什么想法吗？有人能给我指明正确的方向吗？只是在寻找最简单的解决方案。

浏览 0提问于2012-01-28得票数 29

回答已采纳

2回答

带有最佳可定制爬虫和抓取器的建议

、、、

我有一个网站，这是相当好，但与非常少的信息。所以我想添加一些信息，比如关于特定领域的新闻(比如政治、好莱坞等)。我相信爬虫是最好的方法吗？如果我的理解是正确的，请建议您是否有任何其他方法来获取信息，而不使用来自各种来源的爬虫。其次，我正在做过去两天的研究，但我找不到一个特定的来源能够做到这一点。现在我希望爬虫找到信息，规范化并存储在mysql数据库中。听起来很简单哈。但这不适合我。因为这非常耗费资源和时间。在选择爬虫之前，我应该考虑哪些因素。我也希望定制它，所以任何工具，这是开源的，很好地被定制将是伟大的。任何提供信息和研究因素的来源在创建爬虫或教育爬虫时都需要考虑，这将是很棒的。我更喜

浏览 0提问于2010-11-11得票数 0

2回答

一个数组能容纳多少个字符串？

、、、

我正试着写一个网络爬虫。当我浏览一个大页面时，我的arraylist变量无法保存所有数据。它被抛到了异常之下。线程java.lang.StackOverflowError".中的异常" thread -0“ 保存这些urls的最佳方法是什么，因为我需要访问那些urls和子urls等等。我想保存到数据库或写入文件，但这些机制可能会减慢爬虫性能。

浏览 0提问于2015-11-19得票数 0

5回答

C#中任何好的开源网络爬行框架

、、、

我正在构建一个购物比较引擎，我需要构建一个爬行引擎来执行日常数据收集过程。我已经决定在C#中构建爬虫。我对HttpWebRequest/HttpWebResponse类有很多不好的体验，众所周知，它们对于大型爬虫来说是高度错误和不稳定的。因此，我决定不在它们的基础上进行构建。即使在框架4.0中，它们也是有缺陷的。我是根据自己的亲身经历说的。如果他们知道有什么好的开源爬虫框架，比如java有nutch和apache commons，它们是非常稳定和高度健壮的库，我想要这里的专家们的意见，他们已经编码爬虫程序。如果C#中已经存在一些爬行框架，我将继续在它们之上构建我的应用程序。如果没有，

浏览 2提问于2010-12-06得票数 9

回答已采纳

1回答

如何编写java程序以在远程计算机中启动程序？

、、、

我正在同一网络上的3台Windows机器上运行三个web爬虫(Java程序)实例。我想编写一个主java程序来监视所有的3个web爬虫程序，如果有任何程序被终止，就会重新启动那个特定的程序。。我能够将客户端机器上的java程序绑定到套接字上，并从服务器监视套接字，但如果程序终止，我不知道如何重新启动程序。我一点也不知道，我应该如何做到这一点。如有任何指导，将不胜感激。如何远程重新启动客户端应用程序？

浏览 2提问于2015-05-28得票数 1

回答已采纳

1回答

为什么我的Crawler会得到错误的HTML代码？

、

我想用java写一个爬虫来做一些学校练习。实际上，用jsoup库实现的爬虫代码可以工作，因为我的请求的结果是一些HTML代码，但是当我搜索一个明确写在网站上的单词时，没有找到它，因为一些div的来自于空的爬虫。然后我意识到，当您导航到网站并右键单击‘查看页面源’时，我得到了与相同的代码。当我将代码与进行比较时，右键单击“->”检查“”时，代码与“查看页面源”中的不同。我能做些什么来获得包含全部内容的HTML代码吗？请求网址：

浏览 0提问于2019-09-12得票数 1

回答已采纳

1回答

调试Glue Crawler EOFException

我第一次使用AWS在S3桶中爬行一个大型json文件来创建一个新的表模式。我创建了一个新的爬虫并手动运行它。爬虫作业运行时没有出错，但是当我检查日志时，我会收到下面的EOF异常通知。 ERROR : Error java.io.EOFException retrieving file at s3://insurance-transparency-data/2022-09-05_796b7d27-c275-4e37-b4c8-be2e4c0c6eda_Aetna-Life-Insurance-Company.json.gz. Tables created did not infer schema

浏览 9提问于2022-09-16得票数 0

回答已采纳

1回答

如何在java程序运行时访问内存中的变量？

、、

我在eclipse中运行一个java爬虫程序。我没有启用调试器。在爬行完成后，我正在打印一些变量。但是爬行器需要很多时间来完成，所以我不知道这些变量何时会被打印出来。我想在爬虫运行时访问这些变量，我不想停止它，因为它已经运行了一段时间。如何访问这些变量？谢谢

浏览 3提问于2013-02-03得票数 0

回答已采纳

2回答

使用Java的web索引器

、、、

当用Java开发时，并行系统和分布式系统哪个更适合网站爬虫和web索引器？可用的框架有哪些？

浏览 3提问于2010-08-01得票数 2

回答已采纳

1回答

如何修复纳奇爬虫中已经存在的.locked？

我是nutch的初学者。当我使用bin/nutch爬行命令重新搜索时，已经存在一个.locked错误。以下是我的例外。链路反演 /home/crawler_user/apache-nutch-1.14/bin/nutch反向链接/数据/爬虫_user/nutch/crawler data/LinkDb /data/crawler_user/nutch/crawled-data/segments/20190423100709 LinkDb: java.io.IOException: lock file /data/crawler_user/nutch/crawled-data/linkdb/

浏览 1提问于2019-04-23得票数 0

2回答

在GUI中显示另一个线程的状态

、

我有一个GUI，GUI正在启动另一个线程(Java)。此线程正在启动一个正在爬行许多网站的类。现在，我想在GUI中显示抓取了多少网站以及还剩下多少网站。我想知道对此最好的解决方案是什么。第一个想法是在GUI中启动一个计时器，并定期询问爬虫还剩下多少。但我想这是很脏的..。然后，可以将GUI传递给爬虫程序，并且每当准备好的网站数量发生变化时，爬虫程序都会调用GUI方法。但我不认为这样会好很多？做这样的事情最好的方法是什么？

浏览 0提问于2013-07-12得票数 0

回答已采纳

2回答

启动作业，但在另一个作业启动并运行后有延迟

、、、、

我第一次尝试使用upstart。我有两个要启动的java程序。第一个是在jetty上运行的solr搜索服务器，第二个是应该在solr服务器启动后启动的自定义爬虫。我的爬虫初始化脚本如下所示： description "crawler" author "" start on runlevel [2345] stop on runlevel [!2345] respawn script cd /home/crawler java -Duser.timezone=Europe/Berlin -jar crawler.jar end s

浏览 1提问于2012-08-23得票数 2

回答已采纳

1回答

Crawler4j在爬行后一直阻塞

、、

我使用Crawler4j只是从爬行的页面中获取HTML。它成功地为我的测试站点存储了大约50页的检索HTML。它使用我实现的shoudVisit方法，它使用我实现的visit方法。这两件事都没有问题。文件的编写也没有任何问题。但是，在访问和存储了所有页面之后，它并没有停止阻塞： System.out.println("Starting Crawl"); controller.start(ExperimentCrawler.class, numberOfCrawlers); System.out.println("finished crawl"); 第二个prin

浏览 4提问于2015-04-15得票数 1

3回答

Java设计问题-类、函数、访问修饰符

、、

我是Java的新手。我有一些设计问题。假设我有一个爬虫应用程序，它执行以下操作: 1.抓取一个url并获取其内容2。解析内容3。显示内容。如何决定是实现函数还是类？--解析器是爬虫类的函数，还是它本身应该是类，以便其他应用程序也可以使用它？--如果应该是类，是保护类还是公共类？，如何在实现公共类还是受保护类之间作出决定？--如果我必须创建一个类来从解析的内容生成统计信息，例如，应该保护这个类(所以只有爬虫类才能访问它)还是应该是公共的？谢谢罗恩

浏览 1提问于2010-05-04得票数 1

1回答

如何使用网络抓取从谷歌地图获取链接？

、、

我用java创建了网络爬虫程序，它运行得很好，问题是我如何才能得到这些图片中的链接？

浏览 9提问于2016-09-11得票数 0

回答已采纳

2回答

使用crawler4j库实现Java crwaler中模式匹配的一些信息

、、、

我想用Java实现一个非常简单的web爬虫，我已经找到了这个库: crawler4j：我需要一个爬虫来做以下事情：从URL开始(由我指定)，并识别当前页面中是否有一个特定的单词，比如自己的名称或公司名称(这个词也是由我指定的) 如果找到这个单词，则必须将当前页面URL保存在数据库中。因此，没有语义分析，只有语法分析(爬虫必须尝试将网页内容与我指定的标记匹配)。我会知道这个令牌研究(如果在当前页面中包含一个单词)是由抽象类WebCrawler of crawler4j实现的，还是我必须自己实现它？

浏览 4提问于2013-02-21得票数 0

回答已采纳

1回答

JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程

、、

我目前正在构建这个网络爬虫来获取起始url的所有链接，并从这些链接中爬取所有链接，等等。我使用线程，所以每次完成这个过程时，都会调用一个新的线程，我加载了大约1000个线程，我使用了thread.interrupt函数，但它仍然没有删除和创建线程。我尝试每次只使用一个线程，或者最多使用两个线程。我还注意到，一旦我运行我的爬虫，我的互联网开始崩溃，这意味着网站不会加载，直到我打开我的网络爬虫。我想我发送了太多的http请求。如果有人知道如何限制线程或修复以下错误： java.lang.outOfMemory :无法创建本机线程

浏览 1提问于2012-05-02得票数 0

回答已采纳

2回答

Java线程-等待所有子线程以继续执行

、、

所以有一点背景；我正在进行一个项目，在这个项目中，servlet将在文件系统中发布大量文本文件上的爬虫。我正在考虑将负载划分为多个线程，例如：一个爬虫进入一个目录，找到3个文件和6个目录。它将开始处理文件，并为其他目录启动一个带有新爬虫的线程。因此，在我的创建者类中，我将在一个基本目录上创建一个爬虫。爬虫将评估工作负载，如果认为需要，它将在另一个线程下生成另一个爬虫。我的爬虫课看起来像这样 package com.fujitsu.spider; import java.io.BufferedReader; import java.io.File; import java.io.File

浏览 2提问于2015-08-18得票数 0

回答已采纳

3回答

web爬虫性能

、、

我有兴趣知道在一个非常一般的情况下(一个自制的业余网络爬虫)会有什么样的表现。更具体地说，一个爬虫程序可以处理多少个页面。当我说自制酿造在所有意义上，2.4 say核心2处理器，java编写，50mbit网速，等等。我们将非常感谢您在这方面分享的任何资源。非常感谢, 卡洛斯

浏览 3提问于2010-09-13得票数 1

回答已采纳

2回答

使用Crawljax也可以从网页下载文件。

、、

我正在尝试用Java编写我自己的爬虫3.6插件。它应该告诉爬虫，这是一个非常著名的网络爬虫也下载文件，他发现在网页上。(PDF、图片等)。我不想要HTML或者真正的DOM树。我想访问他找到的文件(PDF，jpg)。如何告诉爬虫下载PDF文件、图像等？谢谢你的帮助！到目前为止，使用默认插件(CrawlOverview)的-a新类是这样的： import java.io.File; import java.io.IOException; import java.util.concurrent.TimeUnit; import org.apache.commons.io.FileUtils;

浏览 3提问于2015-01-11得票数 0

回答已采纳

1回答

使用javascript URL数组的网络爬虫？

、、

我让用户输入他们想要抓取最新更新的URL列表。我对Java很熟悉，所以我试着用Java做一个网络爬虫，但我不太明白如何把这个数组从javascript转换成Java。为了能够抓取数组中的每个URL，最兼容的语言是什么？

浏览 3提问于2016-01-17得票数 0

1回答

用Java开发自动web爬虫

你好，我想抓取多个电子商务网站，并获得所有可用的产品被抓取和显示在我的网站。我已经使用Java开发了爬虫，但在这方面，我们必须通过提供URL和HTML标记来手动抓取网站，并通过连接URL和解析URL来抓取站点，并在相应的HTML标记中获取产品。在这个例子中，我使用JSoup (“doc.getElementsByTagName”)；在名为“爬行”的标签中获取产品但我想让爬行完全自动化。如果我在我的网站上搜索一个产品，那么相应的产品应该自动从电子商务网站上爬行。如果我想爬行佳能相机，爬虫应该自动完成。有可能使爬虫自动化吗？如果是，请帮助我做这件事。

浏览 1提问于2014-01-20得票数 1

1回答

在结构中使用爬行器生成器(Minecaft forge mod 1.7.10)

、、、

我试着做一个内部有爬虫产卵的结构，但我还没有找到任何东西告诉我该怎么做。我尝试使用元数据(爬虫生成器52:50)来生成块，但是我没有找到使用块元数据的任何东西，我还尝试了一个转换为java的逻辑示意图，但是1.7.10版本中不存在有没有人能帮帮我，告诉我怎么做？谢谢

浏览 4提问于2021-03-10得票数 0

2回答

web爬行工具，支持在开始爬行之前与目标站点进行交互

、

我正在寻找一个爬虫，它能够处理与Ajax的页面，并能够在开始爬行网站之前与目标网站执行某些用户交互(例如，点击某些菜单项，填写一些表格等).I尝试webdriver/selenium (这是真正的网络抓取工具)，现在我想知道是否有任何爬虫程序，支持模拟某些用户交互之前开始爬行？(用Java、Python或Ruby ...) 谢谢如果是，我很感谢任何描述这一点的链接。

浏览 1提问于2011-06-28得票数 0