首页
学习
活动
专区
圈层
工具
发布
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【爬虫】(一)fossies.org

    效果 观察 进入网站,看到的是比较简洁的首页: 随便点进去一个,进一步观察一下情况,发现点击之后可以直接下载,是相对比较简单的网站了; 那接下来就是开始动手写脚本了;   分析 1、先请求一下,...fossies.org/windows/misc/' html = etree.HTML(requests.get(url).text) trs = html.xpath('//*[@id="archlist"]/table...>] 注意,这里有个很坑爹的地方,浏览器上看到的网页内容有部分是通过 JS 动态渲染过的,因此 requests 时是没有的,比如说 tbody; 4、接下来就是从单个 tr> 里去获取到 标签的属性了...,因为 href 和文件的名字是一样的,因此只要获取一个就行; for tr in trs: href = tr.xpath('td/a')[0].get('href') WinSCP-5.21.3...down_urls.append(url+href) 运行 可以自行加上日志,进度条等,也可以使用协程,线程,进程来提升速度,以下是全部代码: 国外的网站,不用代理就挺慢的; 这板块现在有版权风险,不能贴全部的代码

    32020
    领券