我正在努力创建一个Java的网络爬虫。爬虫访问网站,使用JDBC访问/存储数据库中的数据,还将文件存储在本地或云存储上。
作为爬行的一部分,我想记录爬虫使用的确切细节--
参数,如--
Number of sites visited (HTTP+HTTPS)
Number of bytes of data received over one run of the crawler
Number of bytes of data sent over one run of the crawler
Number of rows updated/inserted/deleted/selected via
我正在试着做一个rest全红宝石服务。我的程序分解的方式是两个应用程序。一个是web服务爬虫,另一个是web应用程序(尚未开发),web应用程序将使用get post和常规内容向爬虫程序发出请求。
下面是一个使用curl的post请求示例
curl -d 'url=www.whatever.com&depth=10' http://127.0.0.1:8080/requests/new
工作正常,似乎发布了一个请求。
下面是删除部分
curl -x DELETE http://127.0.0.1:8080/requests/1 where 1 is id of
我第一次尝试使用upstart。我有两个要启动的java程序。第一个是在jetty上运行的solr搜索服务器,第二个是应该在solr服务器启动后启动的自定义爬虫。
我的爬虫初始化脚本如下所示:
description "crawler"
author ""
start on runlevel [2345]
stop on runlevel [!2345]
respawn
script
cd /home/crawler
java -Duser.timezone=Europe/Berlin -jar crawler.jar
end s