我想实现一个多步爬虫使用我现在拥有的单线程爬虫代码。基本上,我从文本文件中读取urls,获取每个urls,并对其进行爬行和解析。我知道如何创建线程和为其分配进程的线程基础知识,但不太确定如何实现以下方式:
我需要至少3个线程,需要分配一个网址列表中的每个线程的网址,然后每个需要去获取它和解析它之前,添加到数据库的内容。
Dim gthread, tthread, ithread As Thread
gthread = New Thread(AddressOf processUrl)
gthread.Start(url)
tthread = N
我的团队一直在使用Sharepoint 2010抓取大量外部网站。
Sharepoint web爬虫没有提供足够的可配置性,因此我们一直使用快速web爬虫来运行爬虫。
但是,在Sharepoint 2013中,FAST web crawler似乎已被弃用/与Sharepoint web crawler合并。
我找不到关于如何配置2013 Web Crawler组件的重要文档。它比2010年的Sharepoint爬虫更强大吗?