前文我们提到过ASCII码-计算机中最通用的信息交换标准,它包含了基本的英文字母、数字和符号,是计算机中最基础的字符集。在ASCII编码中,每个字符都有一个对应的数字编码,最多可以表示128个字符。
那么在中文信息处理领域有没有常用的编码字符集呢?答案自然是有的,中文常见的编码字符集有GB2312、GBK、GB18030、Unicode等,本文带你详细了解下常见的中文编码字符集。
GB2312是1980 年,由中国发布了第一个汉字编码标准,全称 《信息交换用汉字编码字符集·基本集》,它包含了6763个汉字字符,这些汉字覆盖了现代汉语的常用词汇和短语。该编码标准将汉字分为两级,第一级包含1300个常用汉字,第二级包含5400个较为罕见的汉字。可满足日常绝大多数场景的汉字使用。
GBK编码,全称《汉字内码扩展规范》,于1995年12月1日制订,是在GB2312-80标准基础上的内码扩展规范,它包含了更多的汉字和符号,共收录了21003个汉字,完全兼容GB2312-80标准,不过它只是 "技术规范指导性文件",并不属于国家标准。
GB18030,全称《信息技术中文编码字符集》,是中国国家标准的最新汉字编码字符集,GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,于2000年发布,GB18030-2005则是于2005年发布,其主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充。
它们之间的关系是:GB18030兼容GBK,GBK兼容GB2312,GB2312兼容ASCII。
Unicode编码,也称统一码,万国码。我们在Unicode统一码:计算机科学领域里的业界标准文中也曾提到了,Unicode是一个通用的字符集,最多可以表示1114112个字符,它包含了世界上几乎所有语言的字符和符号,支持多种不同的语言和地区。由统一码联盟于1990年开始研发,1994年正式发布1.0版本,2022年9月13日发布15.0版本。是当今比较流行的编码标准,其中又以UTF-8编码方式最为流行。
Unicode编码与GB18030编码都对ASCII编码兼容,但是两者是两种不同编码,也可以进行相互转换。
总之,这些常见的中文编码字符集在计算机中都有着广泛的应用,不同的字符集适用于不同的语言和地区,支持不同的字符集和编码方式。在处理不同语言的文字时,需要根据实际情况选择相应的字符集和编码方式,以保证信息的正确性和可读性。
领取专属 10元无门槛券
私享最新 技术干货