如何在crawler4j中将参数传递给shouldVisit()方法？

在crawler4j中，要将参数传递给shouldVisit()方法，可以通过重写CrawlController类中的shouldVisit(Page referringPage, WebURL url)方法来实现。在重写方法时，我们可以在调用shouldVisit()方法之前，将参数传递给CrawlController类的对象，并将其保存在该对象中。然后在shouldVisit()方法中，可以通过该对象获取到传递的参数。

以下是一个示例代码：

import edu.uci.ics.crawler4j.crawler.Page;
import edu.uci.ics.crawler4j.parser.HtmlParseData;
import edu.uci.ics.crawler4j.url.WebURL;
import edu.uci.ics.crawler4j.crawler.CrawlController;
import java.util.List;

public class MyCrawler extends WebCrawler {

    private String parameter;

    public MyCrawler(String parameter) {
        this.parameter = parameter;
    }

    @Override
    public boolean shouldVisit(Page referringPage, WebURL url) {
        // 在这里可以使用传递的参数
        System.out.println("传递的参数为：" + parameter);

        // 根据需求编写shouldVisit()的逻辑判断
        return true;
    }

    @Override
    public void visit(Page page) {
        // 实现visit()方法的逻辑
        if (page.getParseData() instanceof HtmlParseData) {
            HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
            String text = htmlParseData.getText();
            String html = htmlParseData.getHtml();
            List<WebURL> links = htmlParseData.getOutgoingUrls();

            // 处理页面数据
        }
    }

    public static void main(String[] args) throws Exception {
        String parameter = "参数值";

        // 创建CrawlController对象，并传递参数
        CrawlController crawlController = new CrawlController();
        crawlController.addSeed("https://www.example.com");
        crawlController.setPolitenessDelay(1000);
        crawlController.startNonBlocking(MyCrawler.class, 1);

        // 启动爬虫
        crawlController.waitUntilFinish();
    }
}

在以上示例代码中，我们通过自定义的MyCrawler类继承WebCrawler类，并在构造方法中接收传递的参数。然后在shouldVisit()方法中使用该参数进行相应的处理。在main()方法中，创建CrawlController对象并传递参数，启动爬虫。

这里要注意的是，以上示例代码只是演示如何在crawler4j中将参数传递给shouldVisit()方法，并不包含完整的爬虫逻辑。具体的爬虫实现需要根据实际需求进行编写。另外，关于crawler4j的更多详细使用方式和相关信息，请参考腾讯云官方文档和相关资源。

Crawler4j在shouldVisit()和and ()方法中显示不同的URL名

、

我正在使用crawler4j抓取一个网站。该网站有某些参数在一些网址的末尾，例如当这样的url的shouldVisit()方法被调用时，我得到的webURL是，但是当同一个url上的as方法被调用时，我得到的URL是。如何在最后访问某些参数的页面？

浏览 0提问于2014-03-03得票数 1

1回答

如何在crawler4j中将参数传递给shouldVisit()方法？

、

我想要将参数传递给crawler4j中的should ()方法。我在github上看到了使用Factory方式的文档库页面的示例，但我不能理解它。请有人提供一个示例来实现这一点

浏览 22提问于2019-02-18得票数 0

3回答

如何将参数传递回匿名回调函数？

(如:回调、回传等)以匿名函数作为参数的FunctionCall在下面 console.log(variableThatIWantToAccess

浏览 5提问于2014-04-25得票数 1

回答已采纳

3回答

将参数传递给回调

、、

如何在此特定场景中将参数传递给回调函数。我有一个函数，它获取一个具有回调的对象，如如何将参数传递给myFunction或myOtherFunction？比如，如果myOtherFunction获得这样的msg参数

浏览 5提问于2013-09-04得票数 0

回答已采纳

1回答

将src/groovy类的值设置为域类属性

、、、、

我正在使用groovy和grails开发crawler4j。我希望在爬行过程中将这些值传递给域类，从而将这些值持久化到数据库。之后我又尝试了另一种方法class BasicCrawler extends WebCrawler { S

浏览 5提问于2014-06-30得票数 3

2回答

评估批处理脚本参数

、

是否有方法将整个命令传递给批处理脚本参数，如：my_script.bat "my_command -do_x=5 do_y=56 ...etc"如何在批处理脚本中这样做？

浏览 3提问于2022-04-08得票数 0

1回答

如何处理名称为标志的文件

、、

我想知道如何处理文件名是标志的文件，如'-a'，'-f‘等。我不能将它们作为参数传递给rm或ls等程序，因为它们被解释为标志，而执行rm *或ls *只是运行带有文件名标志的程序(原因很明显)。如何在程序参数中将标志作为普通文件名传递？

浏览 2提问于2013-05-23得票数 1

回答已采纳

1回答

如何在ColdFusion中访问Java Enum？

、、、

如何在ColdFusion中将类似枚举的作为参数传递给Java方法？谢谢。

浏览 0提问于2012-01-10得票数 5

回答已采纳

10回答

如何在线程中将参数传递给ThreadStart方法？

、、

如何在Thread.ThreadStart()中将参数传递给C#方法？假设我有一个叫做“下载”的方法{}Threadthread = new Thread(new ThreadStart(download(filename)); 错误方法类型期望。如何使用带有参数<

浏览 10提问于2010-07-29得票数 316

回答已采纳

1回答

多值参数

、、

谁能向我解释一下如何在objective-c中将多个值传递给一个参数或变量，如下所示，以及如何在方法中处理它： view.autoresizingMask = UIViewAutoresizingFlexibleBottomMargin

浏览 0提问于2011-06-02得票数 1

回答已采纳

1回答

将序列化的对象作为参数传递给Java中的HTTPServer

、、

如何在GET请求中将序列化的对象作为参数传递给HTTPServer？请让我知道，因为我一直找不到这样做的方法。

浏览 1提问于2013-06-03得票数 0

回答已采纳

1回答

如何将引用类型传递到Url.Action

、

我想把我的模型传递给Url.Action@Url.Action("Index", "Home", new { filter = @Model })如何在Url.Action中将模型作为参数传递？

浏览 1提问于2016-08-09得票数 0

回答已采纳

1回答

弹簧批EnableBatchProcessing JobParameters

、、

全,@Configurationpublic class MyConfiguration { protected Job myJob() { return <the-job>; } protected JobParameters params() { return <parameters>; } 我曾假设这将使用我指定的JobParameters bean，但它不使用。如何同时使用@EnableBatchProcessing和JobParame

浏览 3提问于2017-05-10得票数 1

回答已采纳

1回答

使用android将两个参数传递给webservice

、

所以在我的web方法中有两个参数"StartIndex“和"EndIndex”，所以现在我如何在android中将一个参数传递给Web。

浏览 3提问于2015-03-03得票数 1

回答已采纳

1回答

我想在单击复选框时传递一个id参数

、、

我搞不懂如何在javascript中将Id参数传递给onClick函数 if(e.target.checked===true){ }这是正常工作的，但我还想向checkboxClick()方法传递一个id参数，如果为e.tar

浏览 15提问于2019-11-30得票数 1

回答已采纳

1回答

使用crawler4j在类之间传输一个对象

、、

我是一个简单的网络爬虫，是使用crawler4j的构建块构建的。我试图在爬虫爬行时构建一个字典，然后在构建和解析文本时将其传递给我的主(控制器)。既然我的MyCrawler对象不是在我的主类中创建的(使用MyCrawler.class作为第一个参数)，我该怎么做呢？此外，我无法更改controller.start方法。我认为最好的方法是让controller.start获取一个预定义并创建的MyCrawler对象，但我看不到这样做的方法。

浏览 12提问于2016-03-09得票数 1

6回答

在XML视图中将参数传递给i18n模型

、

我们如何从XML视图中将参数传递给i18n模型？<Label text="{i18n>myKey}"/>到目前为止，我发现的唯一一条信息是。我真的希望这不是正确的方法，因为这看上去更像是(丑陋的)黑客。

浏览 1提问于2014-12-04得票数 6

回答已采纳

5回答

如何将.net代码中的表值参数传递给存储过程

、、、、

在一些过程中，我将表参数作为nvarchar (用逗号分隔)传递给存储的proc，并在内部分成单个值。我将它添加到SQL命令参数列表中，如下所示： cmd.Parameters.Add("@Logins", SqlDbType.NVarchar).Value = "jim18,jenny1975,cosmo我知道有一些表值参数，也知道如何在存储过程中使用它们。但是我不知道如何在SQL命令中将一个参数传递给

浏览 0提问于2011-04-08得票数 181

1回答

在C#中用指针参数封送方法指针

、、

我需要使用指针参数来封送方法指针，如C中的那样：如何在C#中将其写入struct字段？注意：，我不介意让CLR取消对我的指针。

浏览 2提问于2011-05-02得票数 3

回答已采纳

1回答

SOLR/Lucene 4.5.1中TokenizerFactory类的更改

、

现在，TokenizerFactory没有setLuceneMatchVersion和init方法，而且也希望通过它的构造函数映射。我一直在使用TokenizerFactory的newInstance方法创建ResourceLoader实例，然后通过init方法传递Map参数，如下所示： tokenizerFactory = (TokenizerFactory如何在此语法中将参数传递给构造函数？还有别的办法吗？

浏览 0提问于2013-11-27得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在crawler4j中将参数传递给shouldVisit()方法？

相关·内容

Crawler4j在shouldVisit()和and ()方法中显示不同的URL名

如何在crawler4j中将参数传递给shouldVisit()方法？

如何将参数传递回匿名回调函数？

将参数传递给回调

将src/groovy类的值设置为域类属性

评估批处理脚本参数

如何处理名称为标志的文件

如何在ColdFusion中访问Java Enum？

如何在线程中将参数传递给ThreadStart方法？

多值参数

将序列化的对象作为参数传递给Java中的HTTPServer

如何将引用类型传递到Url.Action

弹簧批EnableBatchProcessing JobParameters

使用android将两个参数传递给webservice

我想在单击复选框时传递一个id参数

使用crawler4j在类之间传输一个对象

在XML视图中将参数传递给i18n模型

如何将.net代码中的表值参数传递给存储过程

在C#中用指针参数封送方法指针

SOLR/Lucene 4.5.1中TokenizerFactory类的更改

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐