我想刮掉一个网页,所以我试着下载所有的:图片,.js元素和.css元素。要下载.cc脚本,我编写了一个函数:
for item in self.soup.findAll('link', {'type':'text/css','href':True}):
print item['href']
# do some things
它通常工作得很好,但我发现一些页面,它不能工作,我不明白为什么。例如,页面:http://www.nasa.gov。如果我将在浏览器中打开此页面并另存为文件,我可以注意到,在源代码中,我有