首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

架构师必须掌握的各种编码:ASCII、ISO-8859-1、GB2312...

ISO-8859-1 既然ASCII只能表示128个字符,显示是不能完全表示完的,所以ISO-8859-1扩展了ASCII编码,在ASCII编码之上又增加了西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字符号...ISO-8859-1也是单字节编码,但它是一个8位的容器,它能表示256个字符。 GB2312 全称为信息交换用汉字编码字符集,是中国于1980年发布,主要用于计算机系统中的汉字处理。...它主要采用单字节、双字节、四字节对字符编码,它是向下兼容GB2312和GBK的,虽然是我国的强制使用标准,但在实际生产中很少用到,用得最多的反而是GBK和GB2312。...UNICODE 为了自己的语言能在计算机中正常显示,每个国家和地区都有各自的编码,所以编码多了谁也不认识对方的编码,这时候ISO组织就提出了一种新的编码叫UNICODE编码让全球的文化、字符、符号都能支持...UTF-8对ASCII字符使用单字节存储,单个字符损坏也不会影响后面的字符,所以UTF-8非常适合在网络上面传统,也是现在使用最广泛的编码之一。

2.2K70

字符集

GBXXXX GB2312 编码 GB2312 编码 :它的全称是《信息交换用汉字编码字符集 基本集》,它是双字节编码,每个汉字及符号以两个字节来表示。...,共收录了 21003 个汉字,完全兼容 GB2312-80 标准,支持国际标准 ISO/IEC10646-1 和国家标准 GB13000-1 中的全部中日韩汉字,并包含了 BIG5 编码中的所有汉字。...采用变长字节表示即单字节、双字节和四字节三种方式对字符编码。可表示27484个文字Big5Big5 编码Big5 编码:又称为大五码或五大码,适用于台湾、香港地区的一个繁体字编码方案。...GB2312、GBK、UTF-8、UTF-16 这几种格式都可以用来对汉字进行编码,在实际应用中具体选择哪种编码方式,需要根据实际应用场景,当前的应用场景是编码效率重要还是减少存储空间重要。...其他常见术语: ANSI 编码:各个国家和地区独立制定的既兼容 ASCII 编码又彼此之间不兼容的字符编码,微软统称为 ANSI 编码,又称为"MBCS(Muilti-Bytes Charecter Set

1.7K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    精述字符编码

    ANSI编码不是单一明确的字符编码,是对不同国家和地区不同编码的一个统称,根据当前系统的语言环境采用相应的编码方式。...GB2312(又名GB2312–1980)是中华人民共和国国家标准简体中文字符集,全称《信息交换用汉字编码字符集》,由中国国家标准总局1980年发布,1981年5月1日实施。...Big5虽普及于港澳台地区等繁体中文通行区,但长期以来并非当地的国家/地区标准或官方标准,而只是业界标准。...每个国家或地区都有自己的一套编码方案,于是当信息在国际间间流是就会出现乱码问题,好比世界上每个国家都有自己的语言,相互交流时就会出现障碍。...于是Windows使用代码页(code page)来标识各个国家和地区字符编码,所以代码页就是字符编码的代号。

    1.5K32

    如何查看windows操作系统的默认编码?

    例如:我的活动代码页为:936,所以它对应的编码格式为GBK。 ?   代码页是字符集编码的别名,也有人称"内码表"。早期,代码页是IBM称呼电脑BIOS本身支持的字符集编码的名称。...当时通用的操作系统都是命令行界面系统,这些操作系统直接使用BIOS供应的VGA功能来显示字符,操作系统的编码支持也就依靠BIOS的编码。现在这BIOS代码页被称为OEM代码页。...图形操作系统解决了此问题,图形操作系统使用自己字符呈现引擎可以支持很多不同的字符集编码。早期IBM和微软内部使用特别数字来标记这些编码,其实大多的这些编码已经有自己的名称了。...下表列出了所有支持的代码页及其国家(地区)或者语言: 代码页 国家(地区)或语言 437 美国 708 阿拉伯文(ASMO 708) 720.../SI) 50225 韩文(ISO) 50932 日文(自动选择) 50949 韩文(自动选择) 51932 日文(EUC) 51949

    19.9K20

    《面试季》高频面试题-编码,乱码知识

    但是,因为闯荡这者的不同,所表达的字符就存在差异,所以针对不同的闯荡地区,存在不同的编码,如果不是同一个地区使用了其他地区的编码方式进行转换,就会出现"乱码",计算机就会看不懂。...通常特定的字符集采用特定的编码方式(即一种字符集对应一种字符编码,如: ASCII、ISO-8859-1、GB2312、GBK都是表示了字符集又表示了对应的字符编码,但Unicode字符集是特例,它对应的字符编码有...:UTF-8、UTF-16、UTF-32) 查看电脑默认的字符编码 1、打开控制台(win+R),输入cmd回车 2、右键菜单栏选择属性 3、当前代码页就是对应的字符集编码 编码和解码的由来   ...(二)GBXXXX字符集   (1) GB2312字符集: 全称:《信息交换用汉字编码字符集》,刚开始ASCII字符集只包含了阿拉伯数字、字母和一些特殊符号,这个编码只适用于美国和西方的一些国家,而不适用于使用汉字的国家...(3)GB18030字符集 全称: 国家标准GB 18030-2005《信息技术 中文编码字符集》,因为GBK是由微软首先制定的,并不属于国家标准,所以国家为了兼容GBK字符集制定了GB18030字符集

    59210

    【知识点扫盲】什么是域名以及域名解析

    顶级域名 顶级域名分为三类:一、国家和地区顶级域名,二、是通用顶级域名,三、新顶级域名。 一个域名由多级组成。从后往前看,域名的第一级是顶级域,它包括通用顶级域以及国家和地区顶级域。...国家和地区顶级域名(Country code top-level domain,英语:ccTLD),简称国家顶级域,是用两字母的国家或地区名缩写代称的顶级域,其域名的指定及分配,政治因素考量凌驾在技术和商业因素之上...200多个国家都按照ISO3166国家代码分配了顶级域名,例如中国是.cn,日本是.jp等。...NS记录 NS记录:是域名DNS服务器记录,全称Name Server记录,用来指定该域名由哪个DNS服务器来对您的域名进行解析。 ​...一、按照级别分类 1、顶级域名 顶级域名又分为两类: 一是国家顶级域名(national top-level domainnames,简称nTLDs),目前200多个国家都按照ISO3166国家代码分配了顶级域名

    7.6K10

    刨根究底字符编码之七——ANSI编码与代码页(Code Page)

    如前所述,在全世界所有国家和民族的文字符号统一编码的Unicode编码方案问世之前,各个国家、民族为了用计算机记录并显示自己的字符,都在ASCII编码方案的基础上,设计了各自的编码方案。...比如欧洲先后设计了EASCII和ISO/IEC 8859系列字符编码方案;为了显示中文及相关字符,中国设计了GB系列编码(“GB”为“国标”的汉语拼音首字母缩写,即“国家标准”之意)。...同样,日文、韩文、世界各国文字都有它们各自的编码。所有这些各个国家和地区所独立制定的既兼容ASCII又互相不兼容的字符编码,微软统称为ANSI编码。...例如,微软所用的ANSI代码页1252(CP1252)对应于ISO 8859-1字符集(即Latin-1字符集,但CP1252对Latin-1有扩展,其中编码128~159也被定义了字符,这是与Latin...微软于是在Windows操作系统没有转向UTF-16(UTF-16的推出要早于现在被广为认可的UTF-8)作为编码实现之前(即Windows2000发布之前),定义了一系列支持不同国家和地区所制定的字符集的代码页

    1.6K10

    万字长文讲解编码知识,看这文就够了!

    (1)Unicode与 ISO 10646 全世界很多个国家都在为自己的文字编码,并且互不相通,不同的语言字符编码值相同却代表不同的符号(例如:韩文编码EUC-KR中“한국어”的编码值正好是汉字编码GBK...还是ISO高瞻远瞩,一开始就确定了UCS是一个31位的编码字符集(即用一个大小不超过2的31次方的整数数字为每个字符编号),这回真的足以容纳古往今来所有国家,所有语言所包含的字符了(是的,任何国家,任何小语种都包括...除此之外ISO10646标准为“通用字符集”(UCS)还定义了一种31位的编码形式(即UCS-4),UCS-4全称UniversalCharacter Set coded in 4 octets,其编码固定占用...不同的国家和地区制定了不同的标准,由此产生了 GB2312、GBK、GB18030、Big5、Shift_JIS 等各自的编码标准。...在非 Unicode 环境下,由于不同国家和地区采用的字符集不一致,很可能出现无法正常显示所有字符的情况。

    3K30

    GB2312、GBK、GB18030 这几种字符集的主要区别是什么?

    1 GB2312-80 GB 2312 或 GB 2312-80 是中国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》,又称 GB 0,由中国国家标准总局发布,1981 年 5...GB 2312 对任意一个图形字符都采用两个字节表示,并对所收汉字进行了“分区”处理,每区含有 94 个汉字/符号,分别对应第一字节和第二字节。这种表示方式也称为区位码。 01-09 区为特殊符号。...与 ISO 10646 相应的国家标准 GB 13000 中的其它 CJK 汉字,以上合计 20902 个汉字。 其它汉字、部首、符号,共计 984 个。...GBK 向下与 GB 2312 完全兼容,向上支持 ISO 10646 国际标准,在前者向后者过渡过程中起到的承上启下的作用。...3 GB18030 GB 18030,全称:国家标准 GB 18030-2005《信息技术中文编码字符集》,是中华人民共和国现时最新的内码字集,是 GB 18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充

    3.2K31

    字符编码的前世今生——一文读懂字符编码

    GBK,有的是UTF-16,甚至还有ISO编码等等,经此一事,查遍资料,最终成功的解决了问题,同时也让我对字符编码问题有了深入理解。...最早制定的编码方案称做GB2312编码,全称叫做《信息交换用汉字编码字符集》,它是国家标准总局1980年发布的。...GBK 编码 GB2312编码表是真的不够用啊,随着计算机在各行业内的应用,汉字不够用的窘迫也日益突出,最终在1995年12月1日制定了GBK编码,全称《汉字内码扩展规范》。...UCS 通用字符集(Universal Character Set),是由ISO制定的ISO 10646编码方式。ISO是国际标准化组织,主要就是定制国际通用标准的。...其实没有那么复杂,GB2312或者GBK它是中国人自己的编码,是地区性的,而Unicode是国际的,就这样看待就很Ok了。

    2.1K40

    网络编程常用的几种字符编码

    因为 ASCII 字符集实在太小了,现在就有了 ISO-8859-1。对我们来说这个字符集的最大问题就是不能支持中文,韩语,日文,在欧美国家用用还行。...但是很多软件默认都使用 ISO-8859-1,欧美国家的程序员又没有太多字符集的需求,因此很有可能会默认就使用这个字符集,所以你也可以吐槽下。中文字符集中文字符集就是我们常用的 GB 字符集了。...GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。...GB180302000年3月17日发布的汉字编码国家标准GB18030编码,是对GBK编码的扩充,覆盖中文、日文、朝鲜语和中国少数民族文字,其中收录27484个汉字。...BIG5这个简称就是繁体中文使用的,主要在台湾,香港地区使用。BIG5编码又称大五码,是繁体中文字符集编码标准,共收录13060个中文字,其中有二字为重复编码。

    98630

    全栈之前端 | 11.HTML常用编码集及其Entity实体符号编码介绍篇

    全称: 美国标准信息交换码 (Aerican Standard Code for Information Interchange), 是一种最早的字符编码标准并等于国际标准ISO/IEC646,用于表示英语和西欧语言中常见的字符...全称:美国国家标准学会(American National Standards Institute)(是一个标准化组织,负责制定和推广各种标准), ASCII编码是ANSI制定的标准之一,ANSI在1986...每个国家为了显示本国的语言,都对ASCII码进行了扩展,通常使用2个字节(16位二进制)来表示一个汉字,共可以表示2^16=65536个汉字,例如 中国的ANSI编码是GB2312编码(简体),对6763...ISO Latin字符集对指定的字符串进行编码。...(对实体数字的支持却很好)。

    1K20

    Java国际化本地化实战

    1 简介 “国际化信息”也称为“本地化信息”,一般需要两个条件才可以确定一个特定类型的本地化信息 “语言类型” “国家/地区的类型” 如中文本地化信息既有中国大陆地区的中文,又有中国台湾、中国香港地区的中文...国家/地区参数也由标准的ISO国家/地区代码表示,这些代码是由ISO-3166标准定义的,每个国家/地区由两个大写字母表示 查看ISO-3166的标准代码 http://www.iso.ch/iso.../en/prods-services/iso3166ma/02iso-3166-code-lists/list-en1.html 一些语言和国家/地区的标准代码 ?...2 Locale 类 java.util.Locale是表示语言和国家/地区信息的本地化类,是创建国际化应用的基础。...国际化资源文件的命名规范规定资源名称采用以下的方式进行命名: __国家/地区代码>.properties 其中,语言代码和国家/地区代码都是可选的。

    2.4K41

    开发实践|MySQL的字符集(一)

    写作目的 前几篇博文也可谓是铁打的营盘流水的兵,固定的知识每个人都在写,每个人也都在学习。希望此文对大家也有所帮助。...字符集是字符的集合。 字符集和字符编码一一对应,计算机在读取、解析、显示时根据这个对应关系显示对应的字符编码,使得计算机可以懂得这个约定是什么,最后展示给用户。...在我们的这个世界中,有很多字符集,他们描述不同的国家的语言信息。不同国家根据自己的特性制造出来了不同的字符集。...ASCII字符集 最早的编码字符集,全称是American Standard Code for Information Interchange,源于美国信息互换标准编码,基于罗马字母表产生的。...GBK全称《汉字内码扩展规范》,支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字。GBK字符集中,中文字符占2个字节,英文占1个字节。

    21000

    三分钟科普:LBS定位能力以及应用

    3.2 终端设备/网页对定位信息的采集 设备 采集方法以及权限 安卓系统 安卓权限系统分为普通权限和危险权限,定位属于危险权限,需要用户授权。...IOS系统 待补充 网页 待补充 安卓QQ浏览器授权弹框示意图: image.png 四、国家/地区/城市代码 国家/城市/地区都用通用数字或英文代码表示,定位服务也会返回此类代码供业务使用,便于定位结果的流通和使用场景扩散...国内城市一般使用国家每年发布的行政区划代码。全球就没有通用的城市编码,一般直接用名称表示。国家级别有通用的代码(国际标准化组织的ISO 3166-1)。...4.2 国家和地区代码(ISO 3166-1) 国家代码(或国家编码)是一组用来代表国家和境外领土的地理代码。国家代码是由字母或数字组成的短字串,方便用于数据处理和通讯。...世界上有许多不同的国家代码标准,其中最广为人知是为国际标准化组织的ISO 3166-1,包含三种格式。

    10.7K31

    计算机程序的思维逻辑 (6) - 如何从乱码中恢复 (上)?

    本节主要介绍各种编码,乱码产生的原因,以及简单乱码的恢复。下节我们介绍复杂乱码的恢复,以及Java中对字符和文本的处理。...Ascii码对美国是够用了,但对别的国家而言却是不够的,于是,各个国家的各种计算机厂商就发明了各种各种的编码方式以表示自己国家的字符,为了保持与Ascii码的兼容性,一般都是将最高位设置为1。...在这些扩展的编码中,在西欧国家中流行的是ISO 8859-1和Windows-1252,在中国是GB2312,GBK,GB18030和Big5,我们逐个来看下这些编码。...中国香港中国台湾地区的主要编码是Big5。 如果文本里的字符都是Ascii码字符,那么采用以上所说的任一编码方式都是一一样的。...Unicode 以上我们介绍了中文和西欧的字符与编码,但世界上还有很多别的国家的字符,每个国家的各种计算机厂商都对自己常用的字符进行编码,在编码的时候基本忽略了别的国家的字符和编码,甚至忽略了同一国家的其他计算机厂商

    1.3K50

    MySQL字符编码指南--基础篇

    但地球其它地方的人们也需要现代化,也要使用计算机,靠ASCII仅仅7个bit,128个字符位是不可能表示所有国家、地区的字符的。特别是像汉字这种非拼音字符,常用的也有几千个,1个字节都放下不。...ANSI体系:又称为ISO-646,ASCII只对基本控制符号、英文、数字、标点进行了编码,为了在计算机上存储各个国家的语言,各个国家根据自己的语言特点,制定了完全兼容ASCII的编码,例如西欧语言的latin...ASCII编码是一个7位的容器,ISO-8859-1编码是一个8位的容器。标准latin1编码表:图片在上表中,0×20是空格、0xA0是不换行空格、0xAD是选择性连接号。...3.2 GB2312->GBK->GB18030GB2312:GB 2312 或 GB 2312-80 是中华人民共和国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》,又称GB0,由中国国家标准总局发布...例如GBKUTF16对照表、JISUTF16对照表。6. 编码识别对于一个文本文件,计算机如何知道是采用何种编码并进行正确的显示呢?

    77401

    计算机基础篇 | 一看就懂的字符集、ASCII、GBK、UTF-8、Unicode、乱码、字符编码问题

    各个国家和地区在制定编码标准的时候,“字符集”和“编码”一般都是同时制定的。...在ASCII字符集基础上包含了新增128个字符的字符集就叫做扩展ASCII字符集或ISO-8859-1字符集或Latin-1。 这个办法,解决了一些欧美国家的字符编码问题。...这样看来,是不是每个国家都可以设计一套属于自己国家的编码: 随着计算机技术发展迅速,各国之间的信息交流也越来越频繁,但是不同国家、不同语言之间的文字编码标准却各不相同,这给信息交流带来了很大的困难。...GB2312 GB2312全称《信息交换用汉字编码字符集——基本集》,是中国最早的中文字符集,属于双字节字符集 (DBCS)。...ISO-8859-1字符集应用最广泛。 因为ISO-8859-1编码范围使用了单字节内的所有空间,在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。这是一个很重要的特性。

    5.4K11

    字符编码详解及由来

    ISO 陆续制定了一批适用于不同地区的扩充 ASCII 字符集,每种扩充 ASCII 字符集分别可以扩充 128 个字符,比如,法语中的é的编码为130(二进制10000010)。...为了显示本国语言,必须对ASCII编码进行扩充,于是不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。...GB 18030,全称:国家标准GB 18030-2005《信息技术 中文编码字符集》,是中华人民共和国现时最新的内码字集,是GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充...因为当时各个国家都像中国这样搞出一套自己的编码标准,结果互相之间谁也不懂谁的编码,谁也不支持别人的编码,连大陆和台湾这样只相隔了150海里,使用 着同一种语言的兄弟地区,也分别采用了不同的 DBCS 编码方案...选择完”编码方式“后,点击”保存“按钮,文件的编码方式就立刻转换好了。

    91820

    国际化语种名称的标识

    国内因为版号的问题,导致很多游戏厂商选择出海。在国际化的市场要想取得好的成绩,就必须要做好深度的本地化,其中最基础的一块就是语言。...为了给用户提供更好的游戏体验,通常用户第一次进游戏的时候,会根据用户当前设备设置里所选择的语言来设置游戏的默认语言。 通常系统返回的是  语言-国家/地区标识,如 ja-jp,日语-日本。...每一个语言都可能对应很多国家/地区,一个国家/地区也可能有很多种语言。比如中国香港,可能用繁体中文 zh-HK/zh-Hant-HK 或者 en-HK。...详情可查看维基百科>> ISO 51924 列表>>  简体中文就是 Hans 繁体中文就是 Hant 最后一个是地区 region,它在  ISO 3166 规范 中定义过了,这里使用二位字母表示...preferredLanguage : en-CN  (这里的CN就是上面截图中的地区-中国这一栏) 如果选择 English(Canada)加拿大地区,则会输出 en-CA preferredLanguage

    2.5K20
    领券