首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    网页下载

    爬虫的第一步是向网页发起模拟请求,一般来说模拟请求的可以借助Python中的urllib模块以及requests模块,其中requests模块是对urllib模块的一个封装,从实用性的角度出发,一般来说我们更建议使用...requests模块 request.get发起网页请求 requests库调用是requests.get方法传入url和参数,返回的对象是Response对象,打印出来是显示响应状态码。...Response对象比较重要的三个属性: text:unicode 型的数据,一般是在网页的header中定义的编码形式, content返回的是bytes,二进制型的数据。...headers=headers, proxies=proxies) #加一个proxies参数 print(r.status_code) print(r.text) urllib.request请求返回网页...getcode()函数返回response的状态代码, 最常见的代码是200服务器成功返回网页, 404请求的网页不存在, 503服务器暂时不可用。

    98410
    领券