Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >[oeasy]python0127_中文系统_gbk_BIG5_南极星_内码转化

[oeasy]python0127_中文系统_gbk_BIG5_南极星_内码转化

原创
作者头像
oeasy
发布于 2023-04-05 11:16:58
发布于 2023-04-05 11:16:58
5730
举报

中文系统bgk 回忆上次内容

  • 汉字字形通过
  • 点阵式打字机
  • 像素级寻址的屏幕
  • 进入了计算机的世界

添加图片注释,不超过 140 字(可选)

  • 在海峡对岸的台湾同胞
  • 也进入了汉字时代
  • 他们会使用GB2312编码吗?
  • 能互通吗?🤔

中国台湾

  • BIG5 码
  • 是由 5 个公司联合制作的
  • 收录次序 取决于 频率
  • 然后是 笔画数
  • 然后是 康熙字典
  • 同时用 BIG5 编码和解码也是没有问题的
  • 但如果用BIG5编码
  • 却用gb2312解码就会有问题

添加图片注释,不超过 140 字(可选)

  • 不过存储的内容在文件里
  • 系统不知道用什么解码时
  • 默认自动会用 gb2312 解码
  • 这就造成了自动乱码

反之亦然

  • 我们用 gb2312 编码的文字
  • 用 gb2312 可以打开
  • 但是用 BIG5 打开就是乱码
  • 也需要转化

添加图片注释,不超过 140 字(可选)

  • 转化工具是有的
  • 能解决问题但很麻烦
  • 大量的输入输出编码解码的问题
  • 令人头大

添加图片注释,不超过 140 字(可选)

  • 确实麻烦

解决办法

  • 麻烦的地方正是机会所在

添加图片注释,不超过 140 字(可选)

  • 当时如果日文游戏或者台湾地区的游戏不能玩
  • 可能是因为字符编码格式不一致
  • 可以用南极星调整字符编码格式
  • 把不同编码格式进行转化
  • 把字节按照正确的方式进行解码
  • 就可以玩啦
  • 没有个标准整合一下吗?

GBK

  • GBK 即汉字内码扩展规范
  • 在GB2312的基础上扩展了繁体字符集
  • K 为汉语拼音 Kuo Zhan(扩展)中“扩”字的声母
  • 英文全称 Chinese Internal Code Specification
  • 最初是微软搞的
  • 虽然不是国家标准
  • 却是事实上的技术规范

添加图片注释,不超过 140 字(可选)

  • 共收入 21886 个汉字和图形符号
  • GB 2312 中的全部汉字、非汉字符号
  • BIG5 中的全部汉字(繁体兼容 GBK1)
  • 将 汉字、日本汉字、朝鲜汉字融合了
  • 合计 20902 个汉字
  • 标准并不是一蹴而就的

标准的烟花

  • 正如ASA X3.4-1963
  • 到 ASA X3.4-1965
  • 最终到ascii

添加图片注释,不超过 140 字(可选)

  • GB也在不断进化
  • 从GB/T 1355-86
  • 到GB/T 1355-2021
  • 这是小麦粉标准的进化
  • 从GB2312-1986
  • 再到GBK
  • 这是中文字符标准的进化
  • 但是还是有问题
  • GBK虽然兼容了BIG5 中的全部汉字
  • 但是无法兼容编码
  • 用GBK打开BIG5编码的文件还是乱码

问题

  • 如果新GBK兼容了BIG5编码
  • 就无法向前兼容gb2312

添加图片注释,不超过 140 字(可选)

  • 这无解了吗?
  • 时间自会给我们答案
  • 老天自有安排!

推荐一款 点阵字库

  • 中文点阵
  • 最小也需要 7x7 像素

添加图片注释,不超过 140 字(可选)

  • 这个风格很独特

字体辨识度

  • 字体辨识度

添加图片注释,不超过 140 字(可选)

字体样式

  • 1994年的《魔兽争霸》
  • 像素字体在RGB显卡的支持下
  • 字体不但可以有衬线
  • 而且可以有立体感

添加图片注释,不超过 140 字(可选)

  • 配色也很细腻

中文隶书

  • 智冠公司出品的《三国演义》

添加图片注释,不超过 140 字(可选)

  • 使用隶书和车马符号
  • 代表那个三国时代

终端时代的中文超文本编辑器

添加图片注释,不超过 140 字(可选)

  • 当时的wps系统

wps

  • 当时还没有所见即所得

添加图片注释,不超过 140 字(可选)

  • 使用一些编辑标记
  • 制作富文本

添加图片注释,不超过 140 字(可选)

  • 只有打印预览才能查看效果

中文之星

添加图片注释,不超过 140 字(可选)

  • 还可以做艺术字特效

总结

  • 中国的简体和繁体汉字
  • 字符数量都超级大
  • 彼此还认对方为乱码
  • 如果有一种编码 将所有的字符都能编进去就好了
  • 中日韩(CJK)
  • 简体繁体
  • 欧洲各种拼音
  • 梵文
  • 阿拉伯文
  • 等等等都包括进去

添加图片注释,不超过 140 字(可选)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
为什么不建议在MySQL中使用 utf8 ?
MySQL 字符编码集中有两套 UTF-8 编码实现:utf8 和 utf8mb4。
Guide哥
2021/10/21
1.2K0
[oeasy]python0125_汉字打印机_点阵式打字机_汉字字形码
汉字字形码 回忆上次内容 IBM 将 ASCII 扩展之后 规定了 一个字节的字符集并制作了 相应的字形库​添加图片注释,不超过 140 字(可选)这种显示模式和字符大小之下 中文该如何进入计算机世界呢?🤔从打印机开始 原来的打印头 字型定死​添加图片注释,不超过 140 字(可选)中文印刷 落后于英文中文打字机 就是一个梦中文打字机 ​添加图片注释,不超过 140 字(可选) 中文打字员 ​添加图片注释,不超过 140 字(可选) 针式打印机 通过字库数据来驱动针头​添加图片注
oeasy
2023/04/04
6860
[oeasy]python0125_汉字打印机_点阵式打字机_汉字字形码
编码的秘密(python版)
编码(python版) 最近在学习python的过程中,被不同的编码搞得有点晕,于是看了前人的留下的文档,加上自己的理解,准备写下来,分享给正在为编码苦苦了挣扎的你。 编码的概念 编码就是将信息从一种格式转换成另一种格式,计算机只认识二进制,简单的理解,将我们眼睛看到的文字转换为计算机能够识别的二进制格式视为编码,而二进制以某种编码格式转换为我们能看的文字的过程可以看成是解码。既然计算机只能认识二进制0,1,那么我们用的字母、数字和文字等是怎样和他们对应的呢?那
小小科
2018/05/03
8840
编码的秘密(python版)
[oeasy]python0111_字型码_字符字型编码_点阵字库_ascii演化
编码进化 回忆上次内容 上次回顾了 早期的英文字符点阵 最小的 3*5 通用的 5*7 点阵字库逐渐规范化 ​ 添加图片注释,不超过 140 字(可选) 这些点阵字符的字型 究竟是如何被存储的呢?🤔 1602 ​ 添加图片注释,不超过 140 字(可选) 1602 2行 x 16个字符 每个字符个 5x7 个像素 ​ 添加图片注释,不超过 140 字(可选) 绿色的风格 字形码 把字型 进行 编码 所谓 编码 就是把 字体的长相 弄到计算机的字节中去 可以设置 比一般
oeasy
2023/03/18
5890
[oeasy]python0111_字型码_字符字型编码_点阵字库_ascii演化
常见字符集&乱码问题
位数:ASCII是用7位表示的,能表示128个字符;其扩展使用8位表示,表示256个字符。
全栈程序员站长
2022/09/05
7200
计算机基础篇 | 一看就懂的字符集、ASCII、GBK、UTF-8、Unicode、乱码、字符编码问题
做通信的时候,或者使用IO流读写数据的时候脑袋总是晕晕乎乎的。 与计算机打交道久了,不可避免会看到“鬼画符”式的乱码,让人云里雾里的,特别烦人。
烟雨平生
2023/10/20
6K0
计算机基础篇 | 一看就懂的字符集、ASCII、GBK、UTF-8、Unicode、乱码、字符编码问题
[oeasy]python0048_注释_comment_设置默认编码格式
#!/usr/bin/python3 #vim: set fileencoding=utf-8
oeasy
2023/05/04
8980
[oeasy]python0048_注释_comment_设置默认编码格式
字符编码那点事:快速理解ASCII、Unicode、GBK和UTF-8
原作者:阮一峰(ruanyifeng.com),现重新整理发布,感谢原作者的无私分享。
JackJiang
2018/08/29
2.3K0
转载:从程序员的角度看ASCII, GB2312, UNICODE, UTF-8
以下内容转自博客:http://blog.chinaunix.net/uid-22670933-id-1771613.html。
黯然销魂掌
2018/09/27
1K0
帮你彻底弄懂常见的中文字符编码
| 导语 本文主要介绍了业务中常见的ASCII、GB2312、GBK、GB18030、UTF8、ANSI、Latin1中文编码。如果你在业务中也曾经被乱码搞晕过,不妨我们一起探究一下。 PS:文末有今天儿童节粉丝福利活动哦! 最近我的业务中涉及到了包含中文文本的内容解析。业务场景是用户上传一个包含中文的文本文件,我们需要根据约定好的字段格式解析该文本,并将内容导入到数据库中。但用户所传上来的文件中文编码经常会不一样,于是我们的数据库中经常会有乱码出现。为了解决该问题,就有了这篇文章…… 1、字符编码要做
腾讯NEXT学位
2020/06/02
3.5K0
前端基础-HTML(meta标签)
这种情况就是乱码,是因为我们输入的中文,往计算机中保存的时候,最终都要转成2进制的数据形式,也就是说有一个编码的过程,在保存文件的时候默认使用的是ANSI编码格式,浏览器显示文件中内容的时候,还需要将2进制的数据转换成文字形式显示出来,也就是说还有解码的过程,浏览器被指定为utf-8格式来解码,也就是说编码和解码不一致所造成的乱码
cwl_java
2020/04/07
1.2K0
前端基础-HTML(meta标签)
汉字到底占几个字节丨C「建议收藏」
ANSI:最早的时候计算机ASCII码只能表示256个符号(含控制符号),这个字符集表示英文字母足够,其中,我们键盘上可见的符号的编码范围是从32到126(大小写英文字母、数字、英文符号等)。但表示汉字、日语、韩语就不太够用了,汉字常用字有3000多个。
全栈程序员站长
2022/09/13
1.1K0
字符编码详解及由来
真空管时代的计算机尽管已经步入了现代计算机的范畴,但其体积之大、能耗之高、故障之多、价格之贵大大制约了它的普及应用。直到1947年,由Bell实验室的William B. Shockley、 John Bardeen和Walter H. Brattain.发明了晶体管,开辟了电子时代新纪元,电子计算机也找到了腾飞的起点,一发而不可收……
黄规速
2022/04/14
9510
字符编码详解及由来
ANSI和ASCII、GBK和GB2312、Unicode和UTF-8的区别
NSI码(American National Standards Institute)
全栈程序员站长
2022/07/01
2.1K0
关于win10下codeblock的中文乱码问题解决
乱码问题主要是因为不同平台的编码不同造成的,你是GBK/GB2312,我是UTF-8;不同的IDE应该都提供了相应的解决方案,但需要用户自己配置一下,在codeblock下解决方案如下:
码事漫谈
2024/12/20
2340
关于win10下codeblock的中文乱码问题解决
做网站,乱码?应该选用什么编码?GB2312 ? UTF-8 ?
================================================起================================================
书童小二
2018/09/03
5.9K0
[oeasy]python0132_[专业选修]utf-8_unicode_transformation_format_8_编码方式
utf-8 回忆上次内容 上次再次输出了大红心<span style="color:red">♥</span> 找到了红心对应的编码 黑红梅方都对应有编码 原来的编码叫做 ascii️ \
oeasy
2023/04/10
3530
[oeasy]python0132_[专业选修]utf-8_unicode_transformation_format_8_编码方式
乱码问题分析
大家好,又见面了,我是你们的朋友全栈君。 字符乱码的事,估计大家都遇到过,很烦,什么utf-8、GBK、GB2312转来转去,不知道什么时候才能转正常。我们做个试验,如果你是windows系统,打开记事本,新建一个文件,输入”联通”两个字之后,保存,关闭,然后再次打开,出现了什么现象?乱码!那你赶紧去找IT吧,你中招了!开玩笑的,这是著名的“windows联通之谜事件”。继续往下看,后面会有谜底的解释。那么我们就讨论下字符编码哪些事吧,首先我们看几个真实遇到的乱码的故障实例。
全栈程序员站长
2022/09/01
1.6K0
精述字符编码
带你了解ASCII,Latin1,ANSI,Unicode,UCS-2,UCS-4,UTF-8,UTF-16,UTF-32,GB2312,GB13000,GBK,GB18030,BIG5,BMP,Code Page,BOM,MBCS,Little Endian,Big Endian,内码,外码。
恋喵大鲤鱼
2018/08/03
1.6K0
精述字符编码
mysql 256byte可以存多少汉字,字符编码length,char_length函数
mysql 256byte可以存多少汉字,字符编码length,char_length函数
oktokeep
2024/12/10
1720
推荐阅读
相关推荐
为什么不建议在MySQL中使用 utf8 ?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档