我被分配了一项任务,列出25k个网站,并删除那些关闭/无响应的网站。我想最简单的方法就是: with website in websites:
try:
req = Request(test, headers={"User-Agent": "Mozilla/5.0 (Linux i686)"})
with contextlib.closing(urlopen(req)) as response:
new_list.add(response.geturl())
except:
我有一个项目,必须从一个网站每天获得100页的数据。我使用一个有登录详细信息的付费代理,我在请求之间等待5秒,这样我就不会敲击他们的网站并传递一个referer,user-agent,这是一个简单的GET请求。
然而,我试着做了一个小的C#控制台脚本来测试添加代理的各种方式,例如有或没有凭据,并获得了一个有效的IP:Port from the web > 来测试它,因为我在这个测试中的详细信息不起作用。我不明白为什么这个测试脚本不能工作,而我的主项目是。
我正在访问一个我拥有的旧网站,所以我不会阻挡我自己的家庭IP,因为我可以在浏览器中轻松地在web (或任何其他页面或网站)上访问它。