有道翻译是存在反爬措施的,如果我们直接去爬取的话,会发现获取不到我们想要的内容,因此我们最主要的工作也就是如何破解反爬。
1.分析网络请求,Google浏览器F12,查看network所有的网络请求,在输入框输入想要翻译的内容之后,可以看到我们需要的浏览器的请求信息:
很显然这是一个Post请求,并且需要我们传入参数,然后浏览器向服务器发送请求。服务器返回响应结果
几个关键参数:
2.破解加密字符串
分析js请求,找到下面的js请求
在preview视图中查找salt关键字:
可以发现,需要处理的也就是salt和sign
salt就是当前时间的时间戳加上一个随机数字字符串;
sign是多个变量组合起来的md5值;
3.开始爬虫
通过以上的分析,就可以开始构建我们的爬虫了,完整代码如下:
结果展示:
领取专属 10元无门槛券
私享最新 技术干货