首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >爬虫案例-实现翻译功能

爬虫案例-实现翻译功能

作者头像
天寒雨落
发布2022-11-20 10:26:11
发布2022-11-20 10:26:11
33800
代码可运行
举报
文章被收录于专栏:编程学习之路编程学习之路
运行总次数:0
代码可运行

文章目录


前言

随着我们不断地深入学习,手上的资料已经满足不了我们的时候,我们就需要在发达的网络里寻找帮助,而爬虫就是帮我们在网络众多信息中筛选出我们所需要的。

一、学前准备

首先您需要在您的电脑上安装 Python,然后下载安装 Pycharm IDE,最后在Pycharm下载requests模块。

二、爬虫是什么?

通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。

三、补充概念

1.http协议

就是服务器和客服端进行数据交互的一种形式。

而https就是安全的超文本传输协议

2.常用请求头信息

User-Agent:请求载体的身份标识

Connection:请求完毕后,是断开连接还是保持连接

3.常用响应头信息

Content-Type:服务器响应回客服端的数据类型

4.加密方式

1.对称密钥加密

2.非对称秘钥加密

3.证书秘钥加密

四、原理步骤

1.指定url

代码如下:

代码语言:javascript
代码运行次数:0
运行
复制
import requests
if __name__='__main__':
    url='https://www.sogou.com/'

2.发起请求

代码语言:javascript
代码运行次数:0
运行
复制
import requests
if __name__=="__main__":
    url='https://www.sogou.com/'
    response=requests.get(url=url)

3.获取响应数据,text返回的是字符串形式的响应数据

代码语言:javascript
代码运行次数:0
运行
复制
import requests
if __name__=="__main__":
    url='https://www.sogou.com/'
    response=requests.get(url=url)
    page_text=response.text
    print(page_text)

4.持久化储存

若想长久保存还需要新建文件,存入文件里

代码语言:javascript
代码运行次数:0
运行
复制
import requests
if __name__=="__main__":
    url='https://www.sogou.com/'
    response=requests.get(url=url)
    page_text=response.text
    print(page_text)
    with open('./sogou.html','w',encoding='utf-8') as fp:
        fp.write(page_text)

5.执行结果

会生成一个名为sougou的html文件以及以下结果:


五、爬取一个百度翻译的功能

import requests

import json

word=input("input a word:")

if __name__=="__main__":

post_url="https://fanyi.baidu.com/sug"

headers={

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70'

}

data={

'kw':word

}

response=requests.post(url=post_url,headers=headers,data=data)

dic_obj=response.json()

print(dic_obj)

效果图如下:​​​​​​​

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-09-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • 前言
  • 一、学前准备
  • 二、爬虫是什么?
  • 三、补充概念
    • 1.http协议
    • 就是服务器和客服端进行数据交互的一种形式。
    • 2.常用请求头信息
    • 3.常用响应头信息
    • 4.加密方式
  • 四、原理步骤
    • 1.指定url
    • 2.发起请求
    • 3.获取响应数据,text返回的是字符串形式的响应数据
    • 4.持久化储存
    • 5.执行结果
  • 五、爬取一个百度翻译的功能
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档