我正在努力创建一个Java的网络爬虫。爬虫访问网站,使用JDBC访问/存储数据库中的数据,还将文件存储在本地或云存储上。
作为爬行的一部分,我想记录爬虫使用的确切细节--
参数,如--
Number of sites visited (HTTP+HTTPS)
Number of bytes of data received over one run of the crawler
Number of bytes of data sent over one run of the crawler
Number of rows updated/inserted/deleted/selected via
我第一次使用AWS在S3桶中爬行一个大型json文件来创建一个新的表模式。我创建了一个新的爬虫并手动运行它。爬虫作业运行时没有出错,但是当我检查日志时,我会收到下面的EOF异常通知。
ERROR : Error java.io.EOFException retrieving file at s3://insurance-transparency-data/2022-09-05_796b7d27-c275-4e37-b4c8-be2e4c0c6eda_Aetna-Life-Insurance-Company.json.gz. Tables created did not infer schema
我第一次尝试使用upstart。我有两个要启动的java程序。第一个是在jetty上运行的solr搜索服务器,第二个是应该在solr服务器启动后启动的自定义爬虫。
我的爬虫初始化脚本如下所示:
description "crawler"
author ""
start on runlevel [2345]
stop on runlevel [!2345]
respawn
script
cd /home/crawler
java -Duser.timezone=Europe/Berlin -jar crawler.jar
end s