开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

我想将中文文本转换为Unicode代码点

中文文本转换为Unicode代码点是将中文字符转换为其对应的Unicode编码值。Unicode是一种字符编码标准，它为世界上几乎所有的字符都分配了一个唯一的数字代码点。

中文字符的Unicode代码点通常是4位十六进制数，例如汉字"中"的Unicode代码点是U+4E2D。其中，U+表示Unicode代码点的前缀，后面的4E2D是对应字符的十六进制编码。

中文文本转换为Unicode代码点可以通过编程语言的字符串处理函数来实现。以下是一个示例代码，使用Python语言实现中文文本转换为Unicode代码点：

text = "中文"
unicode_points = [ord(char) for char in text]
print(unicode_points)

输出结果为：

[20013, 25991]

上述代码中，使用ord()函数将字符串中的每个字符转换为其对应的Unicode代码点，并将结果存储在一个列表中。

中文文本转换为Unicode代码点的应用场景包括文本处理、字符编码转换、国际化等。在云计算领域，可以将中文文本转换为Unicode代码点后进行存储、分析、处理等操作。

腾讯云提供了多个与文本处理相关的产品和服务，例如腾讯云自然语言处理（NLP）服务。该服务提供了中文分词、词性标注、命名实体识别等功能，可以帮助用户进行中文文本的处理和分析。更多关于腾讯云自然语言处理服务的信息可以参考腾讯云自然语言处理。

请注意，本回答中没有提及亚马逊AWS、Azure、阿里云、华为云、天翼云、GoDaddy、Namecheap、Google等流行的云计算品牌商。

相关搜索:PHP:将unicode代码点转换为UTF-8 在Python中将unicode代码点转换为字母字符串如何将unicode代码点转换为十六进制HTML实体？将UTF-8八位字节转换为unicode代码点我想在WPF中将语音转换为文本.我怎样才能做到这一点？？在Go中使用UTF-8字节字符串将命令行输出转换为Unicode代码点 Vb.net错误:我的列表视图正在将文本框上的点转换为逗号我有一个很大的中文文本文件，我想将它重新格式化为单独的行，每行都以一个句点结尾我想做一个文本转换器到unicode转换器。代码运行得很好，但是我一直在修改，因为'\‘显示为无效我使用了这个代码通过pyttx3将文本转换为语音，得到了这个错误，我不知道如何解决它我希望消除精确范围(G1)，并将此文本设置为动态的列代码，以便将列值转换为日期

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

UTF-8编码规则_库德巴码编码规则字符编码笔记：ASCII，Unicode和UTF-8

UTF-8是Unicode的一种实现方式，也就是它的字节结构有特殊要求，所以我们说一个汉

03

彻底搞懂 python 中文乱码问题(深入分析)

前言曾几何时 Python 中文乱码的问题困扰了我很多很多年，每次出现中文乱码都要去网上搜索答案，虽然解决了当时遇到的问题但下次出现乱码的时候又会懵逼，究其原因还是知其然不知其所以然。现在有的小伙伴为了躲避中文乱码的问题甚至代码中不使用中文，注释和提示都用英文，我曾经也这样干过，但这并不是解决问题，而是逃避问题，今天我们一起彻底解决 Python 中文乱码的问题。

03

AI智能分析开发中采用c++中文编码出现乱码是什么导致的？

EasyCVR的AI智能分析版本在做研发的时候，就受到了很多朋友的关注，EasyCVR的人脸识别功能采用了Go语言，使用c/c++ 的头文件和dll文件。在C++ 中如果出现中文，会出现乱码的问题，使用notepad++打开保存的二进制文件，出现乱码。

02

计算机是如何存储数据的？

理清ASCII、Unicode、GBK、UTF-8编码之间的关系 - 织梦笔记 (dedenotes.com)

04

中文文本挖掘预处理流程总结

在对文本做数据分析时，我们一大半的时间都会花在文本预处理上，而中文和英文的预处理流程稍有不同，本文就对中文文本挖掘的预处理流程做一个总结。

03

一文读懂数据库的文本数据类型：CHAR，VARCHAR，TEXT，BLOG，NCHAR、NVARCHAR、NTEXT

CHAR 用于存储固定长度的数据，CHAR字段上的索引效率级高，但是不适用于字符长度不确定的数据。比如定义char(10)，那么不论你存储的数据是否达到了10个字节，都要占去10个字节的空间。

02

你还在为Python中文乱码而感到烦恼？今天老司机给你讲讲！

有没有遇到过这样的问题，读取文件被提示“UnicodeDecodeError”、爬取网页得到一堆乱码，其实这些都是编码惹的祸，如果不能真正理解编码的问题所在，就像开车没有带导航，游泳没有带有度数的眼镜。如果你正在为此而头疼，不妨来看看这篇文章，里面或许有你要的答案。

03

Python2中的中文字符编解码浅析

自动化测试过程中，输入文本、读取文件、解析网络请求、字符串断言、正则匹配这些步骤都是必不可少的。而Python是测试过程中最为常用的语言之一，很多测试团队的自动化代码和用例都是使用Python语言开发和维护的。由于Python在最初发布时，Unicode标准还没有完成，所以一直以来Python对Unicode的支持并不完全，而ASCII编码支持的字符有限。因此在涉及到中文的自动化用例中，经常会遇到中文字符编解码的各种各样的异常。本文从文字编码的历史讲起，抛砖引玉，浅析了Python2.x版本中文字处理的原

06

有趣的面试题：Go语言字符串的字节长度和字符个数

其实这并不是一道面试题，是我在日常开发中遇到的一个问题，当时场景是这样的：后端要对前端传来的字符串做字符校验，产品的需求是限制为200字符，然后我在后端做校验时直接使用len(str) > 200来做判断，结果出现了bug，前端字符校验没有超过200字符，调用后端接口确一直是参数错误，改成使用len([]rune(str)) > 200成功解决了这个问题。具体原因我们在文中揭晓。

01

关于词云可视化笔记五（tf-idf可视化之河流图）

河流图能够动态的直观的反映出多个指标随着时序的变化而变化。其实在pyecharts中也提供了ThemeRiver图表，后文会继续讲解；seaborn中也提供了类似的river图，不过效果不是很理想；matplotlib中提供了stackplot图表，baseline要指定为“wiggle”，不过是点与点的直线，比较生硬；后查询了很多材料，需要通过scipy的spline进行插值法处理，经过几天的反复测试，今天终于完全搞定了。

02

英文文本挖掘预处理流程总结

在中文文本挖掘预处理流程总结中，我们总结了中文文本挖掘的预处理流程，这里我们再对英文文本挖掘的预处理流程做一个总结。

02

你真的理解数码技术吗？（二）

1.2 文字是如何用数字来记录的在人类创造的各种信息当中，文字信息一直被我们认为是知识和智慧的重要载体，古代无数僧侣和学者，终身都献身于书籍文字的保存和传达。很多书籍靠着一代代人手工抄写而流传下来。然而这种抄写费时费力不算，还常常会导致抄写错误，导致信息的“失真”。也有很多藏书因为保管不善而毁于腐朽或者战火。在所有需要表达的信息当中，文字是最早被纳入“数字化”的信息种类之一。摩斯电码（Morse Code）是人们发明出来用电信号表达文字的最早方法之一，也是最早的数字化通信形式。通过断的电流，产生一种一

08

爬虫里面的字符串编码的坑

初学Python写爬虫程序，上手很快，但字符串的编码问题却一直困扰着我，我相信每一个学习爬虫的人都有过和我一样的困惑。一旦走上了编程之路，如果你不把编码问题搞清楚，那么它就像幽灵一般纠缠你整个职业生涯，所以，今天就谈谈Python的字符串编码。

04

干货 | 自然语言处理（5）之英文文本挖掘预处理流程

前言自然语言处理(4)之中文文本挖掘流程详解（小白入门必读）干货 | 自然语言处理(3)之词频-逆文本词频（TF-IDF）详解干货 | 自然语言处理(2)之浅谈向量化与Hash-Trick 干货 | 自然语言处理(1)之聊一聊分词原理干货 | 自然语言处理入门资料推荐原文链接：http://www.cnblogs.com/pinard/p/6756534.html 在中文文本挖掘预处理流程总结中，我们总结了中文文本挖掘的预处理流程，这里我们再对英文文本挖掘（English text mi

Python处理中文标点符号

中文文本中可能出现的标点符号来源比较复杂，通过匹配等手段对他们处理的时候需要格外小心，防止遗漏。以下为在下处理中文标点的时候采用的两种方法: 中文标点集合比较常见标点有这些： 1 ！？｡＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏. 调用zhon包的zhon.hanzi.punctuation函数即可得到这些中文标点。如果想用英文的标点，则可调用string包的string.punctuation函数可得到

04

python 字符编码与转换

比如一款游戏《大话西游》用的是gbk编码开发的。出口到欧美国家，是无法直接运行的。

02

自然语言处理(4)之中文文本挖掘流程详解（小白入门必读）

关键字全网搜索最新排名【机器学习算法】：排名第一【机器学习】：排名第一【Python】：排名第三【算法】：排名第四前言在对文本做数据分析时，一大半的时间都会花在文本预处理上，而中文和英文的预处理流程稍有不同，本文对中文文本挖掘的预处理流程做一个总结。中文文本挖掘预处理特点首先看中文文本挖掘预处理与英文文本挖掘预处理的不同点。首先，中文文本是没有像英文的单词空格那样隔开的，因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般需要用分词算法来完成分词，在（干货 | 自然语言

05

字符编码

字符编码知识：Unicode、UTF-8、ASCII、GB2312等编码之间是如何转换的？

02

个人永久性免费-Excel催化剂功能第108波-批量转换文本文件编码

不同计算机、不同程序对字符编码的识别都不一，容易因为不同国家、电脑系统、语言等因素，引起文件交换过程中出现编码不对的乱码现象。

01

对python3编码那些事的小小总结

一、了解一下编码的发展。 1、计算机只能处理数字，如果需要处理文本，需要先将文本转换为数字。因为计算机是美国梆子发明的，所以他们发明了最早的编码--ASCII编码，也就是将他们的大小写字符数字和一些符号编码得到计算机中。比如A的编码是65。 2、随着计算机在中国发展起来，拿ASCII去处理中文，显然是不够的，因为英文需要一个字节处理，而中文是需要两个字节。为了满足需求我们中国发明了自己的编码GB2312。将中文编进去。 3、我们中国如此，世界上那么多语言岂不是每种语言都需要一种编码标准，如果一个文本中有多种语言，到时候产生的结果就是出现乱码。 4、为顺应发展，比较叼的Unicode编码出生了，这个东西将所有的语言都统一到一套编码中。这样就不会再出现乱码的问题。虽然这个东西够强大，但是却有一个不能小觑的缺点。相比于ASCII编码要多出一倍的储存空间。例如：A ascii:65 二进制：01000001 unicode:00000000 01000001 5、所以秉承着节约的原则，UTF-8应运而生，好处编码可变长。例如A的UTF-8：01000001，可以将unicode编码中的前面的零节约掉。二、在计算机系统中通用编码的工作方式 1、当我们编辑文档的时候，读取文档内容将UTF-8字符转换为unicode字符到内存中。因为这里需要显示，为了避免乱码，使用通用的Unicode编码。 2、当编码编辑完成后，再将Unicode的编码转换为UTF-8保存到文件中。因为这里是需要存入磁盘中的，为节约储存空间，使用可变编码长度的UTF-8编码。三、 python3字符编码 python的字符串类型是str，在内存中以Unicode表示。 1、如果需要在网络上传输，或者保存到存储设备上，就需要将str变成以字节为单位的bytes。可以使用encode()方法。通过第一大点的了解，我们知道Unicode表示的str可以通过ASCII和utf-8编码转换。但是转换中文的时候，一定使用utf-8，因为含有中文的str无法用ASCII编码，超出了ASCII编码的范围。例如：

02

Python - 编码问题

Mitchell Python 编码问题以下是关于 python 编码规则的一些介绍： Python 内部所有编码统一是 Unicode，unicode 是一种中转码；中文是 gbk 格式；正常输出为 utf-8 格式。当出现乱码的情况时，我们需要通过一系列的转码过程表述：原文件编码格式 --> unicode 中转码 --> 转为我们需要的编码格式。代码实现： decode() --> unicode --> encode()转换为我们需要的编码格式。 Exp：用 Pyth

04

java基础学习_IO流03_字符流、IO流小结、案例_day21总结

java基础学习_IO流03_字符流、IO流小结、案例_day21总结 ============================================================================= ============================================================================= 涉及到的知识点有： 1:字符流(掌握) (1)转换流出现的原因及作用

02

字符编码笔记：ASCII，Unicode 和 UTF-8

今天中午，我突然想搞清楚 Unicode 和 UTF-8 之间的关系，就开始查资料。这个问题比我想象的复杂，午饭后一直看到晚上9点，才算初步搞清楚。下面就是我的笔记，主要用来整理自己的思路。我尽量写得通俗易懂，希望能对其他朋友有用。毕竟，字符编码是计算机技术的基石，想要熟练使用计算机，就必须懂得一点字符编码的知识。一、ASCII 码我们知道，计算机内部，所有信息最终都是一个二进制值。每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出256种状态，这被称为一个字节（byte）。也就

04

vim 乱码问题解决及原理全面分析

Vim有四个跟字符编码方式有关的选项，encoding、fileencoding、fileencodings、termencoding(这些选项设置请参考Vim文档中encoding-names章节)，它们的意义如下:

01

字符编码笔记：ASCII，Unicode和UTF-8

今天中午，我突然想搞清楚Unicode和UTF-8之间的关系，于是就开始在网上查资料。

01

开发小技巧之:unicode的排序和正则匹配

我们知道计算机最先兴起是在国外，出于当时计算机性能的考虑和外国常用字符的考虑，最开始计算机使用的是ASCII，ASCII编码能够表示的字符毕竟是有限的，随着计算机的发展和全世界范围的流行，需要更多的能够表示世界各地字符的编码方式，这种编码方式就是unicode。

04

开发小技巧之:unicode的排序和正则匹配

我们知道计算机最先兴起是在国外，出于当时计算机性能的考虑和外国常用字符的考虑，最开始计算机使用的是ASCII，ASCII编码能够表示的字符毕竟是有限的，随着计算机的发展和全世界范围的流行，需要更多的能够表示世界各地字符的编码方式，这种编码方式就是unicode。

03

深度学习|中文文本的分类（处理篇）

之前我们通过朴素贝叶斯方法，做过英文文档的分类（传送门）。那使用中文文本，如何使用深度学习方法来进行分类了？这就是本文所讲的。首先我们来看看中文文本和英文文本的不同。在处理英文文本时，我们使用的是TF-IDF方法，该方法当然也可以使用在中文文本中，但是我们都知道，中文的分词不像英文那样，每个词都是通过空格分开的，中文我们通过jieba来进行分词。

02

java获取文件名乱码_java导出文件名中文乱码

web应用想通过Java读取linux系统文件显示到web页面上，结果中文文件名出现乱码？

02

字符编码技术专题(一)：快速理解ASCII、Unicode、GBK和UTF-8

今天中午，我突然想搞清楚 Unicode 和 UTF-8 之间的关系，就开始查资料。

05

appium+python自动化39-adb输入中文(ADBKeyBoard)

上一篇提到“adb shell input textyoyo“ 可以通过adb 输入英文的文本，由于不支持unicode编码，所以无法输入中文，github上有个国外的大神写了个ADBKeyBoard输入法的apk,完美支持unicode编码，也能输入中文和其它字符了

01

ASCII，Unicode和UTF-8

一、ASCII码我们知道，计算机内部，所有信息最终都是一个二进制值。每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出256种状态，这被称为一个字节（byte）。也就是说，一个字节一共可以用来表示256种不同的状态，每一个状态对应一个符号，就是256个符号，从00000000到11111111。上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为 ASCII 码，一直沿用至今。 ASCII 码一共规定了128个字符的编码，比如空格SPACE

字符编码那点事：快速理解ASCII、Unicode、GBK和UTF-8

原作者：阮一峰(ruanyifeng.com），现重新整理发布，感谢原作者的无私分享。

02

字符集及其存储方式（解决乱码问题）

阅读大概需要4分钟在我们进行文本挖掘或处理文档时，都要面临一个最最基本的问题->就是解决乱码问题。在此，介绍最本质的字符编码。我们熟悉的有三种：ASCII字符集，中文字符集(GBK)，Unicode字符集 ASCII字符集故事：美国信息交换标准代码，这是计算机上最早使用的通用的编码方案。那个时候计算机还只是拉丁文字的专利，根本没有想到现在计算机的发展势头，如果想到了，可能一开始就会使用unicode了。当时绝大部分专家都认为，要用计算机，必须熟练掌握英文。这种编码占用7个Bit，在计算机中占

03

字符编码详解及由来

真空管时代的计算机尽管已经步入了现代计算机的范畴，但其体积之大、能耗之高、故障之多、价格之贵大大制约了它的普及应用。直到1947年，由Bell实验室的William B. Shockley、 John Bardeen和Walter H. Brattain.发明了晶体管，开辟了电子时代新纪元，电子计算机也找到了腾飞的起点，一发而不可收……

02

CFStringTransform处理语言的强大工具：智能地处理用户的输入内容，经典应用场景【索引】

通过对用户输入内容，利用CFStringTransform变换，可以轻松实现实现一个通用的搜索index

02

python编码的意义

当你用python打开一篇中文文档，准备读取里面的数据开始实验... 当你处理好你的数据，打算打印出易于阅读的结果给boss检查... 甚至当你刚刚开始编写自己的代码，就写了一句话...

02

python正则表达式匹配中文(Excel如何根据名字匹配编码)

###字符串的编码乱码问题由来已久，真的是令人头疼。这不是在做正则匹配中文时候，编码又一次成了拦路虎，在这儿记录两点。第一，字符串编码。第二，正则匹配中文。

03

你真的会用wordcloud制作词云图吗？

对于文本分析而言，大家都绕不开词云图，而python中制作词云图，又绕不开wordcloud，但我想说的是，你真的会用吗？你可能已经按照网上的教程，做出来了一张好看的词云图，但是我想今天这篇文章，绝对让你明白wordcloud背后的原理。

02

Python27中Json对中文的处理

应用场景如下：从api下载数据，json解析，存入字典，定期保存。重启程序需要加载保存的文本。问题1：json中都是unicode串，存到文本里都是些\u*** 解决：关闭ensure_ascii开关 json.dump(pub.listData,fp,ensure_ascii=False) 问题2：字典关键字用的数字，从文本load后变为unicode串解决：走了一点弯路，网上的解决方法，都是转换，把串转回utf-8，方法是 def byteify(input): if isinsta

中文NLP的福音，TensorFlow支持Unicode了！(附教程)

什么是 Unicode？Unicode 是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

02

UTF8最好不要带BOM，附许多经典评论

UTF-8 不需要 BOM，尽管 Unicode 标准允许在 UTF-8 中使用 BOM。所以不含 BOM 的 UTF-8 才是标准形式，在 UTF-8 文件中放置 BOM 主要是微软的习惯（顺便提一下：把带有 BOM 的小端序 UTF-16 称作「Unicode」而又不详细说明，这也是微软的习惯）。 BOM（byte order mark）是为 UTF-16 和 UTF-32 准备的，用于标记字节序（byte order）。微软在 UTF-8 中使用 BOM 是因为这样可以把 UTF-8 和 ASCII 等编码明确区分开，但这样的文件在 Windows 之外的操作系统里会带来问题。

02

python编码问题

我们已经讲过了，字符串也是一种数据类型，但是，字符串比较特殊的是还有一个编码问题。

01

关于词云可视化笔记四（tf-idf分析及可视化）

TF-IDF（term frequency–inversedocument frequency）是一种用于信息检索与数据挖掘的常用加权技术。

02

python基础-字符串与编码

转载于：廖雪峰的官方网站-python教程字符编码我们已经讲过了，字符串也是一种数据类型，但是，字符串比较特殊的是还有一个编码问题。因为计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是65535，4个字节可以表示的最大整数是4294967295。由于计算机

python 爬虫资源包汇总

做一个知识的索引网络通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库（基于pycurl）。 pycurl – 网络库（绑定libcurl）。 urllib3 – Python HTTP库，安全连接池、支持文件post、可用性高。 httplib2 – 网络库。 RoboBrowser – 一个简单的、极具Python风格的Python库，无需独立的浏览器即可浏览网页。 MechanicalSoup -一个与网站自动交互Python库。 mechaniz

03

字符编码笔记：ASCII，Unicode和UTF-8

很久很久以前，有一群人，他们决定用8个可以开合的晶体管来组合成不同的状态，以表示世界上的万物。他们看到8个开关状态是好的，于是他们把这称为"字节"。再后来，他们又做了一些可以处理这些字节的机器，机器开动了，可以用字节来组合出很多状态，状态开始变来变去。他们看到这样是好的，于是它们就这机器称为"计算机"。开始计算机只在美国用。八位的字节一共可以组合出256(2的8次方)种不同的状态。他们把其中的编号从0开始的32种状态分别规定了特殊的用途，一但终端、打印机遇上约定好的这些字节被传过来时，就要做一些约定的动作。遇上00x10，终端就换行，遇上0x07，终端就向人们嘟嘟叫，例如遇上0x1b，打印机就打印反白的字，或者终端就用彩色显示字母。他们看到这样很好，于是就把这些0x20以下的字节状态称为"控制码"。他们又把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这样计算机就可以用不同字节来存储英语的文字了。大家看到这样，都感觉很好，于是大家都把这个方案叫做 ANSI 的"ASCII"编码（American Standard Code for Information Interchange，美国信息互换标准代码）。当时世界上所有的计算机都用同样的ASCII方案来保存英文文字。后来，就像建造巴比伦塔一样，世界各地的都开始使用计算机，但是很多国家用的不是英文，他们的字母里有许多是ASCII里没有的，为了可以在计算机保存他们的文字，他们决定采用127号之后的空位来表示这些新的字母、符号，还加入了很多画表格时需要用下到的横线、竖线、交叉等形状，一直把序号编到了最后一个状态255。从128到255这一页的字符集被称"扩展字符集"。从此之后，贪婪的人类再没有新的状态可以用了，美帝国主义可能没有想到还有第三世界国家的人们也希望可以用到计算机吧！等中国人们得到计算机时，已经没有可以利用的字节状态来表示汉字，况且有6000多个常用汉字需要保存呢。但是这难不倒智慧的中国人民，我们不客气地把那些127号之后的奇异符号们直接取消掉，规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（他称之为高字节）从0xA1用到0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的"全角"字符，而原来在127号以下的那些就叫"半角"字符了。中国人民看到这样很不错，于是就把这种汉字方案叫做 "GB2312"。GB2312 是对 ASCII 的中文扩展。但是中国的汉字太多了，我们很快就就发现有许多人的人名没有办法在这里打出来，特别是某些很会麻烦别人的国家领导人。于是我们不得不继续把 GB2312 没有用到的码位找出来老实不客气地用上。后来还是不够用，于是干脆不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准，GBK 包括了 GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。后来少数民族也要用电脑了，于是我们再扩展，又加了几千个新的少数民族的字，GBK 扩成了 GB18030。从此之后，中华民族的文化就可以在计算机时代中传承了。中国的程序员们看到这一系列汉字编码的标准是好的，于是通称他们叫做 "DBCS"（Double Byte Charecter Set 双字节字符集）。在DBCS系列标准里，最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里，因此他们写的程序为了支持中文处理，必须要注意字串里的每一个字节的值，如果这个值是大于127的，那么就认为一个双字节字符集里的字符出现了。那时候凡是受过加持，会编程的计算机僧侣们都要每天念下面这个咒语数百遍： "一个汉字算两个英文字符！一个汉字算两个英文字符......" 因为当时各个国家都像中国这样搞出一套自己的编码标准，结果互相之间谁也不懂谁的编码，谁也不支持别人的编码，连大陆和台湾这样只相隔了150海里，使用着同一种语言的兄弟地区，也分别采用了不同的 DBCS 编码方案——当时的中国人想让电脑显示汉字，就必须装上一个"汉字系统"，专门用来处理汉字的显示、输入的问题，但是那个台湾的愚昧封建人士写的算命程序就必须加装另一套支持 BIG5 编码的什么"倚天汉字系统"才可以用，装错了字符系统，显示就会乱了套！这怎么办？而且世界民族之林中还有那些一时用不上电脑的穷苦人民，他们的文字又怎么办？真是计算机的巴比伦塔命

01

NLP系列学习:文本聚类

最近一段时间在文本聚类的工作,一路也遇到了不少坑,自己也写一篇文章记录了一下自己的过程.

00

字符编码笔记

字符编码笔记：ASCII，Unicode和 UTF-8 1. ASCII码我们知道，在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出 256种状态，这被称为一个字节（byte）。也就是说，一个字节一共可以用来表示256种不同的状态，每一个状态对应一个符号，就是256个符号，从 0000000到11111111。上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，

09

字符编码笔记：ASCII，Unicode和 UTF-8

1. ASCII码我们知道，在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出 256种状态，这被称为一个字节（byte）。也就是说，一个字节一共可以用来表示256种不同的状态，每一个状态对应一个符号，就是256个符号，从 0000000到11111111。上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，一直沿用至今。 ASCII码一共规定了128个字符的编码

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭