开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

用于utf8编码的字节串的unicode()与str.decode()(python 2.x)

您好！您的问题是关于Python中的unicode()和str.decode()函数。这两个函数在Python 2.x版本中用于将字节串转换为Unicode字符串。

在Python 2.x中，字符串类型有两种：字节串（byte strings）和Unicode字符串（Unicode strings）。字节串是由字节组成的，而Unicode字符串是由Unicode字符组成的。unicode()函数用于将字节串转换为Unicode字符串，而str.decode()方法也可以实现同样的功能。

例如，假设我们有一个包含中文字符的字节串：

s = '你好，世界！'

我们可以使用unicode()函数将其转换为Unicode字符串：

u = unicode(s, 'utf-8')

或者使用str.decode()方法：

u = s.decode('utf-8')

在这两种情况下，u的值都是u'你好，世界！'。

需要注意的是，在Python 3.x版本中，字节串和Unicode字符串的概念已经合并，字符串默认就是Unicode字符串，而unicode()函数和str.decode()方法已经被废弃。如果您使用的是Python 3.x版本，请使用str()函数将字节串转换为字符串，或者使用bytes()函数将字符串转换为字节串。

相关搜索:用于编码“UTF8”的字节序列无效用于编码utf8 0xbf的PostgreSQL字节序列无效 python将unicode字符串拆分为3个字节的utf8字符 ActiveRecord::StatementInvalid - PG::CharacterNotInRepertoire: ERROR:用于编码"UTF8“的字节序列无效如何在Python中表示Unicode编码的字符串？Python将编码的字符串转换为utf8？如何从使用Python2编码的Python3文件中检索UTF8编码(从unicode)字符串的正确值？不支持Arduino错误communicating...unicode字符串，请编码为字节的PySerial 比较utf-8编码字符串的两个字节[]与比较两个unicode字符串相同吗？Python 3.6包含Unicode字符和字节的乱七八糟的字符串在Python中将字符串编码为固定宽度的unicode UCS-2 如何在使用Python的Unicode编码的*.txt文件中查找和替换字符串？Python3如何在不编码的情况下获取原始字节串？Python :将编码为字节字符串的浮点型(来自PyTorch)转换为整型仅从具有十六进制字符的字节编码的python字符串中获取ASCII值错误:加载备份时，编码"WIN1252“中字节序列为0x9d的字符与编码"UTF8”中的字符没有等效项 Python，编写XML文件- 'charmap‘编解码器无法对字符进行编码。当包含要修复的编码时，get必须是字符串，而不是字节如何在Javascript中生成与在Python3中相同的SHA256编码字符串？在JAVA中解码(通过python类型转换将类型转换为字符串的Base64编码数据)到字节数组

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

字符串实践常见问题总结

1 ASCII,Unicode,GBK和utf8 ASCII (American Standard Code for Information Interchange，美国信息交换标准代码）是基于拉丁字母的一套电脑编码系统...UTF-8（8-bit Unicode Transformation Format）：是针对 Unicode 的一种可变长度字符编码，包含全世界所有国家需要用到的字符，且与 ASCII 相容。...这两种类型的字符串不能拼接在-起使用，str 在计算机内存中需要以 Unicode 字符表示，一个字符对应若干个字节。...\xd2\xd3\xc3python\xa3\xa1' str1=str.decode('GBK') print(str1) 3.字符串前缀 f、r、u 的作用： 3.1 字符串前缀 f 字符串前缀...注意和字符串前缀 b 的区别，以及 2.x 和 3.x 中 python 版本的不同注：不是仅仅是针对中文, 可以针对任何的字符串，代表是对字符串进行。

1.5K3 0

python encode和decode函数说明

python中，我们使用decode()和encode()来进行解码和编码在python中，使用unicode类型作为编码的基础类型。...('utf-8') #以utf-8编码对unicode对像进行编码 u1 = str.decode('gb2312')#以gb2312编码对字符串str进行解码，以获取unicode u2 = str.decode...好消息来了，那就是python3，在新版本的python3中，取消了unicode类型，代替它的是使用unicode字符的字符串类型(str),字符串类型（str）成为基础类型如下所示，而编码后的变为了字节类型...解码，encode英文原意编码字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode...总得意思:想要将其他的编码转换成utf-8必须先将其解码成unicode然后重新编码成utf-8,它是以unicode为转换媒介的如： s='中文' 如果是在utf8的文件中，该字符串就是utf8编码

2.4K2 0

python中的编码与解码

，还是要显示'a'，但计算机怎么知道00110101是'a'呢，这就需要解码，当选择用ascii解码时，当计算机读到00110101时就到对应的ascii表里一查发现是'a'，就显示为'a' 编码：真实字符与二进制串的对应关系...，真实字符→二进制串解码：二进制串与真实字符的对应关系，二进制串→真实字符 ASCII & UTF-8 大家熟知的ASCII以1字节8个bit位表示一个字符，首位全是0，表示的字符集明显不够 unicode...python中的解码和编码在python中，编码解码其实是不同编码系统间的转换，默认情况下，转换目标是Unicode，即编码unicode→str，解码str→unicode，其中str指的是字节流...而str.decode是将字节流str按给定的解码方式解码，并转换成utf-8形式，u.encode是将unicode类按给定的编码方式转换成字节流str 注意调用encode方法的是unicode对象生成的是字节流...) 只要记住fstr是字节流，其他的操作参看上面即可注：以上操作均在cmd或powershell下完成，在python自带的解释器下会有问题，s=u'你好'，然后s，显示的虽然是unicode对象，但是编码却是

1.3K1 0

Python中的编码

Python处理字符串，写文件时会碰到许多的编码问题，特别是涉及到中文的时候，非常烦人，但又不得不学。下面主要记录工作过程中碰到的Python编码问题。 1....字符串编码 Python的字符串类型为str，可以通过type函数查看返回的类型。...Python中字符串默认的编码方式需要通过sys.getfilesystemencoding()查看，通常是utf-8。u'中文'构造出来的是unicode类型，不是str类型。...str.decode用来将str转为unicode，unicode.encode用来将unicdoe转为str。...代码文件编码 py文件默认的编码是ASCII编码，中文显示时会进行ASCII编码到系统默认编码的转换，在运行Python文件时经常会报错。因此需要设置py文件的编码为utf-8。

9976 0

python decode encode

字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode...因此，转码的时候一定要先搞明白，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码代码中字符串的默认编码与代码文件本身的编码一致。...如果字符串是这样定义：s=u'中文' 则该字符串的编码就被指定为unicode了，即python的内部编码，而与代码文件本身的编码无关。...unicode(str,'gb2312')与str.decode('gb2312')是一样的，都是将gb2312编码的str转为unicode编码使用str....字符编码方案：这个更加与计算机密切相关。具体是与操作系统密切相关。主要是解决大小字节序的问题。

2.5K1 0

decode和encode函数_python lstrip

字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode...因此，转码的时候一定要先搞明白，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码代码中字符串的默认编码与代码文件本身的编码一致。...如：s=‘中文’ 如果是在utf8的文件中，该字符串就是utf8编码，如果是在gb2312的文件中，则其编码为gb2312。...如果字符串是这样定义：s=u’中文’ 则该字符串的编码就被指定为unicode了，即python的内部编码，而与代码文件本身的编码无关。...unicode(str,‘gb2312’)与str.decode(‘gb2312’)是一样的，都是将gb2312编码的str转为unicode编码使用str.

5321 0

一文搞懂 Python 2 字符编码

GB13080是兼容GBK与GB2312的，能容纳更多的字符，与GBK与GB2312不同的是，GB18030采用单字节、双字节和四字节三种方式对字符编码因此，就我们关心的汉字而言，三种编码方式的表示范围是...unicode 与 str 区别在python2.7中，有两种“字符串”类型，分别是str 与 unicode，他们有同一个基类basestring。...str是plain string，其实应该称之为字节串，因为是每一个字节换一个单位长度。而unicode就是unicode string，这才是真正的字符串，一个字符（可能多个字节）算一个单位长度。...，而且映射后的二进制是可以用于存储和传输的），即utf-8负责把unicode转换成可存储和传输的二进制字符串即str类型，我们称这个转换过程为编码。...这里有点晕，留作第一个问题，后面解释 unicode与utf8之间的相互转换可以计算得知，但unicode与gbk之间的相互转换没有计算公式，就只能靠查表了，就是说有一张映射表，有某一个汉字对应的unicode

1.2K6 0

unicode和utf8 —— 从一个

而带编码的字符串则由bytes类型来处理。但也不能简单地理解为3.x的str和bytes分别对应2.x的unicode和str。...所以2.x处理字符串原则其实也很简单，就是把str当成bytes，内部只用unicode，外部进的和出的都编码成str。...这里要理解清楚所谓实现，其实多的就是一个字节数的信息，unicode和utf8本质上都是一串0和1，只是缺一个字节数量的区分，即，从信息量上来说： unicode + 自身长度 = utf8。...# 记住原则，在python内处理文本字符串，永远保证是unicode类型，所以这里要进行解码。...f.write(("%s\n" % each).encode('utf8')) else: # Python3, 可以用w打开然后不编码直接写string(即unicode)，也是可以成功写的

8251 0

python encode和decode函数说明

python中，我们使用decode()和encode()来进行解码和编码在python中，使用unicode类型作为编码的基础类型。...-8') #以utf-8编码对unicode对像进行编码 u1 = str.decode('gb2312')#以gb2312编码对字符串str进行解码，以获取unicode u2 = str.decode...好消息来了，对，那就是python3，在新版本的python3中，取消了unicode类型，代替它的是使用unicode字符的字符串类型(str),字符串类型（str）成为基础类型如下所示，而编码后的变为了字节类型...进行解码，获得字符串类型对象u1 u2 = str.decode('utf-8')#如果以utf-8的编码对str进行解码得到的结果，将无法还原原来的字符串内容避免不了的是，文件读取问题：假如我们读取一个文件...而Unicode只与ASCII兼容（更准确地说，是与ISO-8859-1兼容），与GB码不兼容。例如“汉”字的Unicode编码是6C49，而GB码是BABA。

1.3K3 0

Python 操作文件

文本文件的编码格式文本文件存储的内容是基于字符编码的文件，常见的编码有 ASCII 编码，UNICODE 编码等 Python 2.x 默认使用 ASCII 编码格式 Python 3.x 默认使用...UTF-8 编码格式计算机中使用 1~6 个字节来表示一个 UTF-8 字符，涵盖了地球上几乎所有地区的文字大多数汉字会使用 3 个字节表示 UTF-8 是 UNICODE 编码的一种编码格式...4.2 Ptyhon 2.x 中如何使用中文 Python 2.x 默认使用 ASCII 编码格式 Python 3.x 默认使用 UTF-8 编码格式在 Python 2.x 文件的...也可以使用 # coding=utf8 unicode 字符串在 Python 2.x 中，即使指定了文件使用 UTF-8 的编码格式，但是在遍历字符串时，仍然会以字节为单位遍历字符串要能够正确的遍历字符串...，在定义字符串时，需要在字符串的引号前，增加一个小写字母 u，告诉解释器这是一个 unicode 字符串（使用 UTF-8 编码格式的字符串） # *-* coding:utf8 *-* # 在字符串前

1.1K2 0

Python 操作文件 - hello，you are fen chang

文本文件的编码格式文本文件存储的内容是基于字符编码的文件，常见的编码有 ASCII 编码，UNICODE编码等 Python 2.x 默认使用 ASCII 编码格式 Python 3.x 默认使用...表示 UTF-8 是 UNICODE 编码的一种编码格式 4.2 Ptyhon 2.x 中如何使用中文 Python 2.x 默认使用 ASCII 编码格式 Python 3.x 默认使用 UTF-8...编码格式在 Python 2.x 文件的第一行增加以下代码，解释器会以 utf-8 编码来处理 python 文件 # *-* coding:utf8 *-* 这方式是官方推荐使用的！...也可以使用 # coding=utf8 unicode 字符串在 Python 2.x 中，即使指定了文件使用 UTF-8 的编码格式，但是在遍历字符串时，仍然会以字节为单位遍历字符串要能够正确的遍历字符串...，在定义字符串时，需要在字符串的引号前，增加一个小写字母 u，告诉解释器这是一个 unicode 字符串（使用 UTF-8 编码格式的字符串） # *-* coding:utf8 *-*# 在字符串前

5371 0

python字符串与url编码的转换

主要应用的场景爬虫生成带搜索词语的网址 1.字符串转为url编码 import urllib poet_name = "李白" url_code_name = urllib.quote(poet_name...) print url_code_name #输出 #%E6%9D%8E%E7%99%BD 2.url编码转为字符串 import urllib url_code_name = "%E6%9D%8E%E7%

3.3K3 0

html解析中遇到的&#开头的unicode编码字符串的处理和转换 - Python

用lxml库处理网页时遇到的，写个转换程序用用。...注：ASCII转unicode和中文转unicode是两个东西（起码在unicode在线转换网站上这两个不同），虽然说是中文，其实输入英文字母也没问题（表述可能不够准确，但大概是那么个意思）。...原理常见的unicode编码格式如下： \u670d\u52a1\u5668 如果换成&#开头的格式如下：服务器其实这两个是同一个东西，只是开头和进制不同...编码字符串 # 输入中文，输出str类型的&#开头的unicode编码数据 def zh2uni(zhDat): rDat = "" for n in zhDat: rDat...编码字符串转中文 def uni2zh(uniDat): rDat = '' while True: if len(uniDat) == 0: break

10.2K1 0

如何在 Python 中使用 unidecode

在 Python 中使用 unidecode 库可以将 Unicode 文本转换为 ASCII。这对于需要处理非英文字符的文本并且希望保持可读性时非常有用。...我找到一个程序包应该可以做到这一点，https://pypi.python.org/pypi/Unidecode。它应该接受一个字符串并将所有非 ASCII 字符转换为最接近的可用 ASCII 字符。...问题可能更多地与我缺乏编码知识和错误处理字符串有关，而不是模块，但希望有人可以解释一下原因。到目前为止，我已经尝试了我所知道的一切，没有随机插入代码并搜索我遇到的错误。...2、解决方案unidecode 模块接受 unicode 字符串值并返回 Python 3 中的 unicode 字符串。你给它的是二进制数据。...引用模块文档：该模块导出一个函数，该函数采用 Unicode 对象（Python 2.x）或字符串（Python 3.x）并返回一个字符串（可以在 Python 3.x 中编码为 ASCII 字节）重点是我的

1651 0

python--AES加密

24位字节或者32位字节（因为python3的字符串是unicode编码，需要 encode才可以转换成字节型数据） text = 'wo is liming' #需要加密的内容 while len...key = '1234567890123456'.encode('utf-8') #秘钥 ##秘钥：必须是16位字节或者24位字节或者32位字节（因为python3的字符串是unicode编码，需要 encode...24位字节或者32位字节（因为python3的字符串是unicode编码，需要 encode才可以转换成字节型数据） iv = b'abcdabcdabcdabcd' #偏移量--必须16字节 cryptos...24位字节或者32位字节（因为python3的字符串是unicode编码，需要 encode才可以转换成字节型数据） iv = b'abcdabcdabcdabcd' #偏移量--必须16字节 aes...24位字节或者32位字节（因为python3的字符串是unicode编码，需要 encode才可以转换成字节型数据） iv = b'abcdabcdabcdabcd' #偏移量--必须16字节 aes

9712 0

Python中GBK, UTF-8和Unicode的编码问题

有时稀里糊涂地用一坨encode()，decode()之类的函数让程序能跑对了，可是下次遇到非ASCII编码时又悲剧了。那么Python 2.x中的字符串究竟是个什么呢？...我们知道，任何字符串都是一串二进制字节的序列，而ASCII码是最经典的编码方式，它将序列中的每个字节理解为一个字符，可表示阿拉伯数字、字母在内的128个不同字符。...它们的区别如下：字符串类型常量子串表示内存中表示 len() len含义 str S=“呵呵” 与源码文件完全一致，一坨二进制编码若源码文件为UTF-8编码， len(S)=6 字节数 unicode...这也就解释了为什么我们需要在python文件的开头标定该文件的编码是什么，如： # encoding: utf-8 也解释了为什么len()一个str类型的字符串，只会返回它在内存中占用的字节数，而非文字数...相比于str，unicode是真正的字符串。Python明确地知道它的编码，所以可以很自信地获得一个字符串的实际字数。

4K1 0

python中文编码&json中文输出问

python2.x版本的字符编码有时让人很头疼，遇到问题，网上方法可以解决错误，但对原理还是一知半解，本文主要介绍 python 中字符串处理的原理，附带解决 json 文件输出时，显示中文而非 unicode...首先简要介绍字符串编码的历史，其次，讲解 python 对于字符串的处理，及编码的检测与转换，最后，介绍 python 爬虫采取的 json 数据存入文件时中文输出的问题。...参考书籍：Python网络爬虫从入门到实践 by唐松在python 2或者3 ，字符串编码只有两类：（1）通用的Unicode编码；（2）将Unicode转化为某种类型的编码，如UTF-8，GBK...Unicode编码通常是两个字节，unicode与ASCII编码的区别，在于unicode在ASCII编码前加了一个0，即字母A的ASCII编码为01000001，unicode编码即为0000000001000001...Unicode编码，str.decode('UTF-8')； import chardet 查阅具体的编码类型，chardet.detect(str)，但是str不能是unicode编码类型，但是该方法

6.8K2 0

字符编码实战

它可以用一至四个字节对Unicode字符集中的所有有效编码点进行编码，属于Unicode标准的一部。...即兼容 ASCII UTF-8 和 UTF-16 都是可扩展标记语言文档（XML）的标准编码。所有其它编码都必须通过显式或文本声明来指定。任何面向字节的字符串搜索算法都可以用于UTF-8的数据。...就是，一个字符串在任何其它编码中表现为合法的UTF-8的可能性很低更多细节可以参考这里 UTF8 与 python 在 python 中，尤其是 python2 中，字符串的处理一直是很令人头疼的问题...根本原因是 python2 的字符串是 ASCII 编码的，也就是说 python 中的一个 string，它只能表示一个 ASCII 编码的字符串，如果要表示 unicode 字符串怎么办呢，python2...in position 0: ordinal not in range(128) UTF8 与 go golang 中的字符串和 python3 中比较类似，形式上都是简单的字节数组。

1.8K7 0

python字符串编码及乱码解决方案

皮皮Blog Python源码的编码方式 str与字节码 s = "人生苦短" s是个字符串，它本身存储的就是字节码(这个s定义在文件中的一行，或者命令行中的一行)。...unicode与str 我们知道unicode是一种编码标准，具体的实现标准可能是utf-8，utf-16，gbk …… python 在内部使用两个字节来存储一个unicode，使用...unicode，直接s = “人生苦短” Note: py3定义bytes使用sb = b’dfja’ python 2.x和3.x中的字符串编码区别 2.x中字符串有...3.x中将字符串和字节序列做了区别，字符串str是字符串标准形式与2.x中unicode类似，bytes类似2.x中的str有各种编码区别。...UTF-8是一种将字符编码成字节序列的方式。如果需要将字符串转换成特定编码的字节序列，Python 3可以为你做到。如果需要将一个字节序列转换成字符串，Python 3也能为你做到。

2K2 0

python 2.x和3.x中maketrans和translate函数的使用

参考链接： Python | maketrans和translate maketrans和translate函数是进行字符串字符编码的常用方法。本文着重点在于演示其基本用法和在不同版本下操作的差异。...2.X版本把字符串基本分为两种：unicode字符串和8位字符串str，后者包含字节数据和我们常见的ASCII码数据；而3.X版本则重新对字符串进行了划分，分为了字节字符串bytes和文本字符串str，...两者都是不可变的，所以添加了一个可变的字节字符串类型bytearray。 ...2.X版本中string类型和str、unicode类型大量方法是重复的，所以3.X版本不提倡使用string模块中与str重复的方法。...上面讨论的例子用的字符串是ASCII字符组成的，如果是字节类型，2.X版本中操作是一样的，3.X中调用bytes或bytearray的函数；若是unicode类型的，2.X需要用unicode的translate

8671 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭