开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

linux gb18030

Linux GB18030 是指在 Linux 操作系统中使用 GB18030 编码标准。GB18030 是中国国家标准的字符编码，它兼容 GBK 和 GB2312，并且支持更多的汉字字符以及其他语言的字符。

基础概念

GB18030：

是一种多字节字符编码，用于表示中文和其他语言的文本。
它定义了超过7万个字符，包括简体和繁体汉字、日文假名、韩文字母等。
GB18030 编码标准是中华人民共和国国家标准，具有强制性。

相关优势

广泛的字符支持：GB18030 支持几乎所有的中文字符，以及许多其他亚洲语言的字符。
向后兼容：它可以兼容 GBK 和 GB2312 编码，方便旧系统的迁移和使用。
国际化：由于支持多种语言，GB18030 有助于实现软件的国际化。

类型与应用场景

类型：

GB18030 可以分为单字节区和多字节区，其中单字节区对应 ASCII 字符，多字节区用于表示各种语言的字符。

应用场景：

在中国大陆，GB18030 是官方推荐的字符编码标准，广泛应用于政府、教育、金融等领域。
对于需要处理多种语言文本的应用程序，如文本编辑器、网页浏览器等，GB18030 提供了必要的支持。

遇到的问题及解决方法

常见问题：

在某些情况下，Linux 系统可能默认使用 UTF-8 编码，导致 GB18030 编码的文件显示乱码。
安装或配置软件时，可能会因为编码不匹配而出现问题。

解决方法：

设置系统区域：
设置系统区域：
编辑文件时的编码设置：使用文本编辑器（如 Vim 或 Emacs）时，可以指定文件的编码格式。
编辑文件时的编码设置：使用文本编辑器（如 Vim 或 Emacs）时，可以指定文件的编码格式。
软件安装配置：在编译或安装软件时，确保指定正确的编码选项。
软件安装配置：在编译或安装软件时，确保指定正确的编码选项。

通过以上设置，可以确保 Linux 系统正确处理 GB18030 编码的文本，避免乱码和其他相关问题。

示例代码

以下是一个简单的 Python 脚本示例，展示如何在程序中处理 GB18030 编码的文件：

# -*- coding: gb18030 -*-

def read_gb18030_file(file_path):
    with open(file_path, 'r', encoding='gb18030') as file:
        content = file.read()
    return content

def write_gb18030_file(file_path, content):
    with open(file_path, 'w', encoding='gb18030') as file:
        file.write(content)

# 示例使用
file_content = read_gb18030_file('example.txt')
print(file_content)
write_gb18030_file('output.txt', file_content)

通过这种方式，可以确保在 Python 程序中正确读取和写入 GB18030 编码的文件。

希望这些信息对你有所帮助！如果有更多具体问题，请随时提问。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Python3 处理 gb18030 乱

【环境】 Windows 10 x64 Python 3.6.3 【关于 gb18030 编码】 GB 18030 wiki：https://zh.wikipedia.org/wiki/GB_18030...【解码错误的处理方式】错误： UnicodeDecodeError: 'gb18030' codec can't decode byte 0xff in position 129535: illegal...bytes.decode codecs.register_error 样例异常对象：UnicodeDecodeError 方案一：自定义 replace_errors： import codecs # gb18030...文件 # 将乱码转化为十六进制字符串，例如：b'\xff' 转为字符串 0xFF # 将不可打印单字节转为十六进制字符串，例如：b'\xff' 转为字符串 0x7F # srcFile 为原始 gb18030...') with open(dstFile, mode='w', encoding='gb18030') as fout: fout.write(repairedText)

1.4K1 0

gbk的不可映射字符_编码gb18030的不可映射字符

Windows CMD和Power Shell的默认编码格式是GBK（汉字内码扩展规范即国标），而VScode、Notepad++甚至是记事本等编辑器的默认...

8991 0

一图弄懂ASCII、GB2312、GBK、GB18030编码

本文中先介绍一下ASCII，GB2312，GBK和GB18030编码。之所以把这几个放在一起介绍，是因为他们的相关性非常强。...【4】GB18030 然而，GBK的两万多字也已经无法满足我们的需求了，还有更多可能你自己从来没见过的汉字需要编码。...我国在2000年和2005年分别颁布的两次GB18030编码，其中2005年的是在2000年基础上进一步补充。至此，GB18030编码的中文文件已经有七万多个汉字了，甚至包含了少数民族文字。...另外GB18030在上图中占的面积虽然很小，但是它是4bytes编码，这图只展示了前两位。如果后两位也算上，GB18030的字数要远多于GBK。...至于GB18030编码，由于字数实在太多太难写，已经很难在网上找到在线的编码全表了。

47.5K16 5

java字符串gb18030编码和utf8编码互转

在做接口联调的时候出现访问对方的时候需要把编码转成gb18030格式的，我这边默认是utf8，这个困扰了很长时间，在网上百度发现大部分字符串转编码都是使用string.getByte(“编码格式”)的方式字节转码...equals(null)); String str = "ab丁亦凝";//编译环境默认是utf8格式 byte[] bytes = str.getBytes(Charset.forName("GB18030..."));//这一步就是转成gb18030格式的字节码 for (byte b : bytes) { System.out.print(b...+ " "); } //字节码转成gb18030的字符串 String str4 = new String(bytes, "GB18030");..."));//这里对面返回的文字编码是GB18030， //gb18030转utf8 byte[] bytes2 = respXml.getBytes(Charset.forName("UTF-8

2.4K2 0

vim 乱码问题解决及原理全面分析

比如说，我:set fenc=utf-8然后:w就把文件存成utf-8的了，:set fenc=gb18030再:w就把文件存成gb18030的了。...-8解码到了一半出错(所谓出错的意思是某个地方无法用utf-8正确地解码)，那么就从头来用gb18030重新尝试解码，如果gb18030又出错(注意gb18030并不是像utf-8似的规则编码，所以所谓的出错只是...在 linux下，随着你的系统locale可能设为zh_CN.gb18030或者zh_CN.utf-8，你的enc要对应的设为gb18030或者 utf-8(或者gbk之类的)。...但是这里有一个问题，就是fencs 的顺序跟解码成功率有很大关系，根据我的经验utf-8在前比gb18030在前成功率要高一些，那么如果我新建文件默认想让它是gb18030编码怎么办？...一个方法是每次新建文件后都:set fenc=gb18030一下，不过我发现在vimrc里面设置fenc=gb18030也能达到这个效果。

3.6K1 0

可恶的乱码! pluma 和 gedit 汉字乱码解决

问题来了，又是装不了，32位无法启动引导，64位安装中要么Time out..要么fata error..实在搞不定，换了Linux Mint 16 Mate 64位，毫无压力的装好了……好蛋疼…… 配置好...由于Linux mint Mate 16 默认的是Pluma文本编辑器，中文显示乱码，goolge之，说的挺好，但没有解决问题，通过探索，下为解决方案： Linux Mint中Pluma： 1....将auto-detected-encodings 修改为： [‘GB2312’, ‘UTF-8’, ‘CURRENT’, ‘ISO-8859-15’, ‘UTF-16’, ‘GBK’, ‘GB18030...Encodings中auto-detected-encodings 修改为： [‘GB2312’, ‘UTF-8’, ‘CURRENT’, ‘ISO-8859-15’, ‘UTF-16’, ‘GBK’, ‘GB18030

3.1K2 0

Python学习系列（第一章）：Pyt

4.2：Linux 下面： ### vim helloworld.py #!/usr/bin/env python print ("hello world!!!!")...2000年的 GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。...现在的PC平台必须支持GB18030，对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。...按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。有的中文Windows的缺省内码还是GBK，可以通过GB18030升级包升级到GB18030。...不过GB18030相对GBK增加的字符，普通人是很难用到的，通常我们还是用GBK指代中文Windows内码。

9253 0

GB2312、GBK、GB18030 这几种字符集的主要区别是什么？

3 GB18030 GB 18030，全称：国家标准 GB 18030-2005《信息技术中文编码字符集》，是中华人民共和国现时最新的内码字集，是 GB 18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充

3.2K3 1

Vim编码知识,乱码问题

文本编码　　常见的文本编码包括:ASCII、GBK、GB2312、GB18030、UTF8、UTF16等，各种编码的来源与详细知识请参考以下的这篇文档：http://hi.baidu.com/sinper9527...Linux操作系统默认编码都是UTF-8,如果没有特殊情况，最好设置encoding为UTF-8。...set fileencodings=ucs-bom,utf-8,cp936,gb18030,big5,euc-jp,euc-kr,latin1 注意 latin1 是一种非常宽松的编码方式,如果你把...(1) 在Native Linux/Unix环境下，locale的值与tenc的值不同 (2) 在Windows环境下，终端软件设置的Encoding（可以认为是locale）的值与tenc的值不同...,utf8 (2) 中文环境utf8码将你的locale设置为zh_CN.utf8，然后将VIM设置如下： set enc=utf8 set fencs=utf8,gbk,gb2312,gb18030

1.7K1 0

source insight中文注释乱码问题的解决方案

2、借助Linux下的iconv命令 (1)关于iconv命令的用法，可以在Linux下的终端键入iconv --help或者iconv --usage来查看可以参考这篇文章：http://www.firekyrin.com.../archives/249.html 即可以使用iconv库函数（包含在glib中）和iconv命令来执行编码转换，即： iconv -f utf-8 -t gb18030 file1.txt -o...file2.txt 将utf-8编码的file1.txt文件转换成gb18030编码的file2.txt文件。...(2)使用Ruby脚本转换参考这篇文章：使用Iconv将Utf-8转换成ASCII(on Linux) 这两种方法说实话还不如第1种方法实用。

11.6K2 0

Python基础知识之一

Linux or Mac下：无需安装，一般自带不是Python2.6就是Python2.7如果要安装Python3.X的话，Linux下如果你的系统版本较低的话，默认安装源里面是没有的，这样就需要你用源码安装...在linux 下创建一个文件叫hello.py,并输入 print("Hello World") 然后执行命令:python hello.py,输出 lab1:~ nock$ vim hello.pylab1...现在的PC平台必须支持GB18030，对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。...按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。有的中文Windows的缺省内码还是GBK，可以通过GB18030升级包升级到GB18030。...不过GB18030相对GBK增加的字符，普通人是很难用到的，通常我们还是用GBK指代中文Windows内码。

4883 0

web前端几个小知识点笔记

isMac; if (isUnix) return "Unix"; var isLinux = (String(navigator.platform).indexOf("Linux...") > -1); if (isLinux) return "Linux"; if (isWin) { var isWin2K = sUserAgent.indexOf...中的汉字数量相同，主要增加了扩展 A 部分； GB18030-2005 中的汉字大致与 Unicode 4.1 中的汉字数量相同，主要增加了扩展 B 部分；由于 Unicode 5.2 的发布，估计 GB18030...需要说明的是在 GB18030 中扩展 B 部分并不是强制标准。如果想查看 GB18030 的标准文本，请访问 http://www.gb168.cn 中的强标阅读。...简体中文(GB18030) 补充：使用楷体_GB2312、仿宋_GB2312后，在 Windows 7/Vista/2008 中可能不再显示为对应的字体。

1.1K5 0

解决vim编辑文件时中文乱码

编辑文件时，输入中文时，中文乱码： #vim /root/.vimrc 输入如下配置： syntax on set fileencodings=ucs-bom,utf-8,utf-16,gbk,big5,gb18030...情况2：在windows上编写的文件，上传至Linux上，vim编辑时乱码。...原因是windows默认使用gbk编码，在Linux上，使用iconv命令可以转码： #iconv -f GBK -t UTF-8 test.txt -o test2.txt 再次vim编辑时OK。

11K1 0

0754-5.16.2-Hive中使用Substr拆分含中文乱码字符串报错异常分析

4.处理中文字符的编码有GB2312/GBK/GB18030等，常用的GBK和GB2312在这个时候并不能满足数据的正常解析，在这里尝试使用GB18030编码来对字符解析编码拆分测试 ?...`col`,'GB18030'),1,10),'GB18030')) as `XACCOUNT`, trim(decode(substr(encode(`test_gb18030`....`col`,'GB18030'),12,4),'GB18030')) as `BANK`, ... trim(decode(substr(encode(`test_gb18030`....`col`,'GB18030'),2318,11),'GB18030')) as `PAYTDY_LMT` from `test_gb18030`; ?...3.处理中文字符编码方式有GB2312/GBK/GB1803等，GB18030兼容GBK，GBK兼容GB2312，因此在针对中文的解析时如果出错，可以使用最新的GB18030编码集进行解析。

2K2 0

编码

1 GB18030字节数组转UTF-8字符串 public static String gB18030ByteArrayToUtf8String(byte[] bytes) { ByteBuffer...byteBuffer = ByteBuffer.wrap(bytes); CharBuffer gb18030 = Charset.forName("GB18030").decode(...byteBuffer); ByteBuffer utf8 = Charset.forName("UTF8").encode(gb18030); return new String...(utf8.array()); } 2 字符串转GB18030字节数组 public static byte[] utf8ToGb18030ByteArray(String str) {...ByteBuffer gb18030 = Charset.forName("GB18030").encode(str); return gb18030.array();

7292 0

Linux命令（34）——vim命令

Linux中的vi编辑器叫vim，它是vi的增强版（vi iMproved），与vi编辑器完全兼容，而且实现了很多增强功能。...比如说，我:set fenc=utf-8然后:w就把文件存成utf-8的了，:set fenc=gb18030再:w就把文件存成gb18030的了。...(所谓出错的意思是某个地方无法用utf-8正确地解码)，那么就从头来用gb18030重新尝试解码，如果gb18030又出错(注意gb18030并不是像utf-8似的规则编码，所以所谓的出错只是说某个编码没有对应的有意义的字...在 linux下，随着你的系统locale可能设为zh_CN.gb18030或者zh_CN.utf-8，你的enc要对应的设为gb18030或者 utf-8(或者gbk之类的) termencoding...---- 参考文献 [1]man vi [2]Linux命令大全.vi命令 [3]VIM乱码原因与解决方案 [4]Vim如何插入特殊字符

2.5K3 0

python之day1

在Linux下（为2.7版本）： #!...2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。...现在的PC平台必须支持GB18030，对嵌入式产品暂不作要求，所以手机、MP3一般只支持GB2312。...按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集（DBCS）。有的中文Windows的缺省内码还是GBK，可以通过GB18030升级包升级到GBK18030。...不过GB18030相对GBK增加的字符，普通人是很难用到的，通常我们还是用GBK指代中文Windows内码。

4752 0

Python 学习入门（6）—— 网页爬虫

首先需要介绍一下网页中的中文编码方式，一般网页的编码会在标签中标出，目前有三种，分别是GB2312，GBK，GB18030，三种编码是兼容的。...从包含的中文字符个数比较：GB2312 GB18030，因此如果网页标称的编码为GB2312，但内容里实际上用到了属于GBK或者GB18030的中文字符，那么编码工具就会解析错误，导致编码退回到最基本的...=headers) content = urllib2.urlopen(req).read() content = bs4.BeautifulSoup(content, from_encoding='GB18030...是替代正则表达式的利器，下文讲解BS4的安装过程和使用方法 1、安装bs4 下载地址：Download Beautiful Soup 下载： beautifulsoup4-4.3.2.tar.gz，解压： linux...下 tar xvf beautifulsoup4-4.3.2.tar.gz，win7下直接解压即可 linux，进入目录执行： 1, python setup.py build 2, python

2.1K2 0

java socket通讯乱码问题的解决

在项目开发中遇到这种情况对方系统的编码为gb18030，而我们系统的编码为utf-8，两个系统直接使用socket进行通讯在通讯过程中我们系统作为客户端需要按照gb18030进行报文发送，而当接受到对方系统的报文时我们需要将报文按照...gb18030进行解码具体测试代码如下： socket服务端： import java.io.BufferedInputStream; import java.io.BufferedReader; import...()); PrintWriter out = new PrintWriter(new OutputStreamWriter(client.getOutputStream(),"GB18030...的，因此在接受到socket服务端的报文后我们需要按照gb18030进行解码 clientstring = new String(buf,0,size,”GB18030″); 而socket客户端因为编码是...(client.getOutputStream(),”GB18030″)); 发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/156985.html原文链接：https

2.8K3 0

gbk,utf-8,unicode编码转换

u'\u024f' uc = unichr(code) print uc, type(uc) 输出字符,类型，特别注意unicode类型，处理起来有点不同，两个字节算一个字符 ɏ,unicode 转gb18030...编码 uc.encode('gb18030') '\x810\xab6' gbk = uc.encode('gb18030') print type(gbk) 类型是str ...gbk = uc.encode('gb18030') gbkcode = str() for el in gbk: gbkcode += '%02x'%ord(el) print gbkcode...utf-8') 输出 '\xc9\x8f' 解码 utf8 = uc.encode('utf-8') utf8.decode('utf-8') 输出 u'\u024f' gbk.decode('gb18030...base=16) print code uc = unichr(code) print uc getcosins(uc, 2) ucgbk = uc.encode('gb18030

4.8K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭