前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【经验总结】Python3 Requests 模块请求内容包含中文报错的解决办法

【经验总结】Python3 Requests 模块请求内容包含中文报错的解决办法

作者头像
TeamsSix
发布2020-02-18 16:55:35
1.3K0
发布2020-02-18 16:55:35
举报
文章被收录于专栏:TeamsSix的网络空间安全专栏

0x00 前言

最近在写一个爬虫代码,里面需要使用 get 传参中文,但是如果直接使用中文而不对其编码的话,程序将会报错。

代码语言:javascript
复制
UnicodeEncodeError: 'latin-1' codec can't encode characters in position 38-39: ordinal not in range(256)

0x01 网上的一些解决办法

参考网上的解决办法,比如下面的几种办法。

代码语言:javascript
复制
1、在中文后加上".encode('GBK')"
2、在文件头部加上"#coding = utf-8"
3、在中文后加上".encode('utf-8')"

这几种方法在我这里都行不通,抓包也可以看到数据包里的中文并不是我们想象的经过 URL 编码的字符。

代码语言:javascript
复制
GET /test=b'%5Cxe6%5Cxb5%5Cx8b%5Cxe8%5Cxaf%5Cx95' HTTP/1.1

0x02 可行的办法

最后才意识到,其实并不需要对中文进行 GBK、UTF-8 转码,而应该对其进行 URL 编码。

代码语言:javascript
复制
from urllib.parse import quote
text = quote("测试", 'utf-8')

利用 quote 函数对 “测试” 进行 URL 编码后,再次抓包可以看到中文部分已经是 URL 格式了。

代码语言:javascript
复制
GET /test=%E6%B5%8B%E8%AF%95 HTTP/1.1

此时,程序也不再报错,可以顺利执行了。

本文原文地址:https://www.teamssix.com/year/200206-202951.html 参考文章:https://blog.csdn.net/qq_33876553/article/details/79730246

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 TeamsSix 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0x00 前言
  • 0x01 网上的一些解决办法
  • 0x02 可行的办法
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档