我想知道,当排名页面不是主页时,是否有一种方法可以将来自Google搜索的用户重定向到我的主页,而不影响该页面的良好排名。
我需要的是一个php条件,以了解网页是否来自来自Google搜索的用户,而不是Google爬虫。我需要谷歌爬虫继续索引该网页,同时,用户要重定向到主页。这是我的意思的伪代码片段:
if ($_SERVER['HTTP_REFERER'] == 'only users from a Google search')
header('location','index.php');
我正在编写一个网络爬虫,最终目标是创建爬虫所走路径的地图。虽然我不知道其他爬虫以多快的速度抓取页面,但我的爬虫每分钟大约有2000页。
爬虫使用递归回溯算法,我将其深度限制为15。此外,为了防止爬虫无休止地修改页面,它将访问过的每个页面的url存储在一个列表中,并检查该列表中是否有下一个候选url。
for href in tempUrl:
...
if href not in urls:
collect(href,parent,depth+1)
当这种方法被拉下大约300,000页时,它似乎成了一个问题。在这一点上,爬虫的平均速度是每分钟500页。
所以我的
我正在努力创建一个Java的网络爬虫。爬虫访问网站,使用JDBC访问/存储数据库中的数据,还将文件存储在本地或云存储上。
作为爬行的一部分,我想记录爬虫使用的确切细节--
参数,如--
Number of sites visited (HTTP+HTTPS)
Number of bytes of data received over one run of the crawler
Number of bytes of data sent over one run of the crawler
Number of rows updated/inserted/deleted/selected via