首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >python json 编码_python乱码转中文

python json 编码_python乱码转中文

作者头像
全栈程序员站长
发布于 2022-09-16 09:32:20
发布于 2022-09-16 09:32:20
1.9K00
代码可运行
举报
运行总次数:0
代码可运行

python2.x版本的字符编码有时让人很头疼,遇到问题,网上方法可以解决错误,但对原理还是一知半解,本文主要介绍 python 中字符串处理的原理,附带解决 json 文件输出时,显示中文而非 unicode 问题。首先简要介绍字符串编码的历史,其次,讲解 python 对于字符串的处理,及编码的检测与转换,最后,介绍 python 爬虫采取的 json 数据存入文件时中文输出的问题。 参考书籍:Python网络爬虫从入门到实践 by唐松

在python 2或者3 ,字符串编码只有两类 :

(1)通用的Unicode编码; (2)将Unicode转化为某种类型的编码,如UTF-8,GBK;

1、计算机历史:

计算机只处理数字,因此处理文本时,必须转换成数字才行。 8位(bit)=1字节(byte)=256种不同状态=从000000到111111; 1GB=1024M=1024(1024kb)=1024(1024(1024b));

ASCII编码 是对应英文字符与二进制数字之间的关系;ASCII一共规定了128种,如大写字母A是65,即01000001;可见一字母一字节;

GB2312编码 简体中文常见的编码,两个字节代表一个中文汉字 ,理论上256*256个编码,即可表示65536种中文字;

各国编码不同,为了各国能扩平台进行文本的转换与处理,Unicode就被作为统一码或者单一码。Unicode编码通常是两个字节,unicode与ASCII编码的区别,在于unicode在ASCII编码前加了一个0,即字母A的ASCII编码为01000001,unicode编码即为0000000001000001;但英文字母其实只用一个字节就够了,unicode编码写英文时多了一个字节,浪费存储空间。因而unicode开发了通用转换格式(Unicode Transformation Format(UTF)),常见的有utf-8或者utf-16;

2、python字符编码

参考地址:https://www.jb51.net/article/139878.htm

(1)encode的作用是,将unicode对象编码成其他编码的字符串,str.encode(‘utf-8’),编码成UTF-8;(2)decode的作用是将其他编码的字符串转换成Unicode编码,str.decode(‘UTF-8’);

  • import chardet 查阅具体的编码类型,chardet.detect(str),但是str不能是unicode编码类型,但是该方法 不接受 本来已经是unicode的编码的 参数,会有TypeError: Expected object of type bytes or bytearray, got: <type ‘unicode’>错误;
  • 作为统一标准,unicode不能再被解码,如果UTF-8想转至其他非unicode,则必须(2)先decode 到unicode,在encode到其他非unicode的编码。

爬取网页时,可在F12 elements meta中查看网页编码方式,如图:

(2)中文,Python中的字典能够被序列化到json文件中存入json

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
with open("anjuke_salehouse.json","w",encoding='utf-8') as f:
    json.dump(all_house,f,ensure_ascii=False,sort_keys=True, indent=4);
    print(u'加载入文件完成...');

存储数据如图:

  • dump()的第一个参数是要序列化的对象,第二个参数是打开的文件句柄,注意文件打开open()时加上以UTF-8编码打开,在dump()的时候也加上ensure_ascii=False,不然会变成ascii码写到json文件中json.dump(all_house,f,ensure_ascii=False,sort_keys=True, indent=4)

json.dumps()/json.loads()等用法

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
json_str = json.dumps(all_house,ensure_ascii=False); #all——books 为列表、字典等python自带的数据结构,将其写成json
#print json_str; #[{"brokername": "王东宇"},{},{}]
new_dict = json.loads(json_str);#主要是读json文件时,需要用到
#print new_dict; #{u'house_area': u'95', u'build_year': u'2005'}
  • json.dumps() 是将一个Python数据结构转换为一个JSON编码的字符串, {“name”: “xiaoming”}

json.loads() 是将一个JSON编码的字符串(字典形式)转换为一个Python数据结构,{u’name’: u’xiaoming’}

dumps转化后键与值都变成了双引号,而在loads后变成python变量时,元素都变成了单引号,并且字符串前加多了个u。 一般要求当要字符串通过loads转为python数据类型时,得外层用单引号,里面元素key和value用双引号。

  • sort_keys:根据key排序

dump与dumps的区别

  • dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, encoding='utf-8', default=None, sort_keys=False, **kw);dump将一个对象序列化存入文件,dump需要一个类似于文件指针的参数(并不是真的指针,可称之为类文件对象),可以与文件操作结合,也就是说可以将dict转成str存入文件中,如json.dump(all_house,f,ensure_ascii=False,sort_keys=True, indent=4)中的f表示一个数据待写入的json文件句柄;
  • dump(obj, fp, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, encoding='utf-8', default=None, sort_keys=False, **kw);而dumps(str)直接给的是str,也就是直接将字典转成str,无需写入文件,类似一个数据格式的转换方法,将python字符串转成json字典。
  • 所以dumps是将dict转化成str格式,loads是将str转化成dict格式。 dump和load也是类似的功能,只是与文件操作结合起来了。

(3)中文存入txt

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
f=open('net_saving_data.txt','w',encoding='utf-8');
for item in all_house:
    # house_area=item['house_area'];
    # price=item['price'];
    output='\t'.join([str(item['house_area']),str(item['price']),str(item['build_year']),str(item['house_title'])]);
    f.write(output);
    f.write('\n');
f.close();
  • 在2.7.15版本的python中,提示错误TypeError: 'encoding' is an invalid keyword argument for this function,无法传入encoding的参数,但是在3.7版本可传入encoding=’utf-8’参数,即可对 txt进行中文写入。

!!NOTE

  • 中文写入txt、json文件是无非就是open()文件时,需要添加utf-8dump()时,需要添加ensure_ascii=False,防止ascii编码,但是刚开始因为python版本是2.7.15,不是3.7,导致存储不成功的时候,一直以为是代码的问题。所以最后发现就是版本的问题,也挺伤的。网上关于中文这个编码问题有很多,但是他们都没有强调python版本的问题!!!其他3.xx的版本没有试过。
  • 读取网页数据的时候,查看网页的charset,及chardet库对编码类型的查询,及时进行decode和encode的编码转化,应该就能避免很多编码问题了。其他的坑以后踩了再补吧。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/166773.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python 进阶(九):JSON 基本操作
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,它具有简洁、清晰的层次结构,易于阅读和编写,还可以有效的提升网络传输效率。Python 标准库的 json 模块可以用来处理 JSON 格式数据的基本操作。
Python小二
2020/08/18
6230
json介绍
skipkeys默认为False,如果为True,当字典的key不是str, int, float, bool, None类型时,将会跳过,而不会抱错。否则,为False时,key不是基本类型就会抱错。
努力在北京混出人样
2019/07/02
5150
Python json中一直搞不清的load、loads、dump、dumps、eval
做接口测试的时候,有时候需要对字符串、json串进行一些转换,可是总是得花费一些时间,本质来说还是有可能是这几个方法的使用没有弄清楚。
虫无涯
2023/01/31
1.4K0
Python JSON大全
使用 JSON 函数需要导入 json 库:import json。
Python知识大全
2020/02/13
7740
你真的会用Python中的JSON吗,超级详细的JSON常用方法讲解,一文搞定JSON!
Python对象:通常是字典(对应于JSON对象)或列表(对应于JSON数组)。如果JSON字符串表示的是其他类型(如字符串、数字、布尔值、null),则返回相应的Python类型。
小白的大数据之旅
2024/11/20
1.1K0
pytest文档80 - cache 写入中文显示\u4e2d\u6587问题(打补丁解决)
pytest 内置 fixtures 之 cache 写入中文的时候会在文件中写入\u4e2d\u6587 这种unicode编码格式。 如果想在文件中显示正常的中文,需重新Cache类的set方法来解决
上海-悠悠
2022/01/10
5230
pytest文档80 - cache 写入中文显示\u4e2d\u6587问题(打补丁解决)
15.python json模块
JSON 的全称是 JavaScript Object Notation,即 JavaScript 对象符号,它是一种轻量级、跨平台、跨语言的数据交换格式,其设计意图是把所有事情都用设计的字符串来表示,这样既方便在互联网上传递信息,也方便人进行阅读。
猿说编程[Python和C]
2020/03/12
5180
15.python json模块
python对json的操作总结
Json简介:Json,全名 JavaScript Object Notation,是一种轻量级的数据交换格式。Json最广泛的应用是作为AJAX中web服务器和客户端的通讯的数据格式。现在也常用于h
周小董
2019/03/25
1.3K0
python对json的操作总结
Python 如何操作 Json?
在 json 中,遵循“键值对”的这样一种方式,比如:“{“name”:“tom”}”, 就是一个 json 格式的数据,json 的格式归纳下来,一般有以下几点:
Cell
2022/02/25
8550
Python 如何操作 Json?
Python 操作json
Json语法规则: 数据在名称/值对中 数据由逗号分隔 花括号保存对象 方括号保存数组 Json字符串本质上是一个字符串,用单引号表示 Json数据的书写格式 名称--值对,包括名称字段(在双引号中),后面跟一个冒号,然后是值: “name”: ”zhangsan” 等价于name = “zhangsan” Json值 值可以是 数字(整数或浮点数) 字符串(双引号括起来) 逻辑值(true或false) 数组(在方括号中) 对象(在花括号中) null Json对象 Json的对象是在大括号中的,
py3study
2020/01/15
1.6K0
Python的json库常用方法
json.load()用来将读取json文件,json.dump()用来将数据写入json文件
Python学习者
2023/09/04
2670
超详细JSON教程!那些Python中JSON的使用方式都在这里
Python对象:通常是字典(对应于JSON对象)或列表(对应于JSON数组)。如果JSON字符串表示的是其他类型(如字符串、数字、布尔值、null),则返回相应的Python类型。
小白的大数据之旅
2024/11/20
4.6K0
Python 中怎样做数据交换格式
JSON 格式采用键值对的方式表达信息。它的值可以是对象、数组、字符串、整数、浮点数、布尔型或空值。下面是一个 JSON 数据的例子:
程序猿川子
2024/06/17
2190
Python 中怎样做数据交换格式
假期玩得开心也不忘充电,学习Python操作JSON,网络数据交换不用愁
国庆长假即将结束了,虽然不上班是很开心,但是假期里走走走、挤挤挤、等等等,也是挺辛苦哒。
Python猫
2019/04/10
6850
Python中JSON的基本使用
JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。Python3 中可以使用 json 模块来对 JSON 数据进行编解码,它主要提供了四个方法: dumps、dump、loads、load。
py3study
2020/01/06
4.1K0
利用Python搞定json数据<建议收藏>
在实际工作中,尤其是web数据的传输,我们经常会遇到json数据。它不像常见的文本数据、数值数据那样友好,而且它和Python中的字典类型数据又很相像,给很多人造成了困扰。
皮大大
2021/02/27
2.8K0
技术学习:Python(03)|欲先善其事,必先利其器(JSON)一
🎈1.2类型转换对照表 python 中类型向 json 类型的转化对照表,先记住这张表哈:
艾特
2023/10/10
3080
Python dict 转换为 JSON 字符串的方法
在 Python 中,将字典(dict)转换为 JSON 字符串非常简单,主要使用内置的 json 模块。以下是几种常见的方法:
HoneyMoose
2025/03/21
4270
Python dict 转换为 JSON 字符串的方法
python模块之json
JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。JSON的数据格式其实就是python里面的字典格式,里面可以包含方括号括起来的数组,也就是python里面的列表。
菲宇
2019/06/13
7550
python模块之json
json美化输出
有时候,我们拿到手的json文件就是一整行,连在一起:十分的不美观,很难观察到里面的具体信息。本文介绍的是如何利用Python内的json包进行美化输出。
皮大大
2023/08/23
8720
相关推荐
Python 进阶(九):JSON 基本操作
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档