随着我们不断地深入学习,手上的资料已经满足不了我们的时候,我们就需要在发达的网络里寻找帮助,而爬虫就是帮我们在网络众多信息中筛选出我们所需要的。
首先您需要在您的电脑上安装 Python,然后下载安装 Pycharm IDE,最后在Pycharm下载requests模块。
通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。
而https就是安全的超文本传输协议
User-Agent:请求载体的身份标识
Connection:请求完毕后,是断开连接还是保持连接
Content-Type:服务器响应回客服端的数据类型
1.对称密钥加密
2.非对称秘钥加密
3.证书秘钥加密
代码如下:
import requests
if __name__='__main__':
url='https://www.sogou.com/'
import requests
if __name__=="__main__":
url='https://www.sogou.com/'
response=requests.get(url=url)
import requests
if __name__=="__main__":
url='https://www.sogou.com/'
response=requests.get(url=url)
page_text=response.text
print(page_text)
若想长久保存还需要新建文件,存入文件里
import requests
if __name__=="__main__":
url='https://www.sogou.com/'
response=requests.get(url=url)
page_text=response.text
print(page_text)
with open('./sogou.html','w',encoding='utf-8') as fp:
fp.write(page_text)
会生成一个名为sougou的html文件以及以下结果:
import requests
import json
word=input("input a word:")
if __name__=="__main__":
post_url="https://fanyi.baidu.com/sug"
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70'
}
data={
'kw':word
}
response=requests.post(url=post_url,headers=headers,data=data)
dic_obj=response.json()
print(dic_obj)
效果图如下: