Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >C++11 Unicode支持

C++11 Unicode支持

作者头像
恋喵大鲤鱼
发布于 2018-09-27 08:02:39
发布于 2018-09-27 08:02:39
2.5K00
代码可运行
举报
文章被收录于专栏:C/C++基础C/C++基础
运行总次数:0
代码可运行

1.char16_t与char32_t

在C++98中,为了支持Unicode字符,使用wchar_t类型来表示“宽字符”,但并没有严格规定位宽,而是让wchar_t的宽度由编译器实现,因此不同的编译器有着不同的实现方式,GNU C++规定wchar_t为32位,Visual C++规定为16位。由于wchar_t宽度没有一个统规定,导致使用wchar_t的代码在不同平台间移植时,可能出现问题。这一状况在C++11中得到了一定的改善,从此Unicode字符的存储有了统一类型: (1)char16_t:用于存储UTF-16编码的Unicode字符。 (2)char32_t:用于存储UTF-32编码的Unicode字符。 至于UTF-8编码的Unicode数据,C++11还是使用了8bits宽度的char类型数组来表示,而char16_t和char32_t的宽度由其名称可以看出,char16_t为16bits,char32_t为32bits。

2.定义字符串的5种方式

除了使用新类型char16_t与char32_t来表示Unicode字符,此外,C++11还新增了三种前缀来定义不同编码的字符串,新增前缀如下: (1)u8表示为UTF-8编码; (2)u表示为UTF-16编码; (3)U表示为UTF-32编码。 C++98中有两种定义字符串的方式,一是直接使用双引号定义多字节字符串,二是通过前缀“L”表示wchar_t字符串(宽字符串)。至此,C++中共有5种定义字符串的方式。

3.影响字符串正确处理的因素

在使用不同方式定义不同编码的字符串时,我们需要注意影响字符串处理和显示的几个因素有编辑器、编译器和输出环境。

代码编辑器采用何种编码方式决定了字符串最初的编码,比如编辑器如果采用GBK,那么代码文件中的所有字符都是以GBK编码存储。当编译器处理字符串时,可以通过前缀来判断字符串的编码类型,如果目标编码与原编码不同,则编译器会进行转换,比如C++11中的前缀u8表示目标编码为UTF-8的字符,如果代码文件采用的是GBK,编译器按照UTF-8去解析字符串常量,则可能会出现错误。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
//代码文件为GBK编码
#include <iomanip>
#include <iostream> 
using namespace std;

int main()
{
    const char* sTest = u8"你好";
    for(int i=0;sTest[i]!=0;++i)
    {
        cout<<setiosflags(ios::uppercase)<<hex<<(uint32_t)(uint8_t)sTest[i]<<" ";
    }
    return 0;
}
//编译选项:g++ -std=c++0x -finput-charset=utf-8 test.cpp

程序输出结果:C4 E3 BA C3。这个码值是GBK的码值,因为“你”的GBK码值是0xC4E3,“好”的GBK码值是0xBAC3。可见,编译器未成功地将GBK编码的“你好”转换为UTF-8的码值“你”(E4 BD A0)“好”(E5 A5 BD),原因是使用编译选项-finput-charset=utf-8指定代码文件编码为UTF-8,而实际上代码文件编码为GBK,导致编译器出现错误的认知。如果使用-finput-charset=gbk,那么编译器在编译时会将GBK编码的“你好”转换为UTF-8编码,正确输出E4 BD A0 E5 A5 BD。

代码编辑器和编译器这两个环节在处理字符串如果没有问题,那么最后就是显示环节。字符串的正确显示依赖于输出环境。C++输出流对象cout能够保证的是将数据以二进制输出到输出设备,但输出设备(比如Linux shell或者Windows console)是否能够支持特定的编码类型的输出,则取决于输出环境。比如Linux虚拟终端XShell,配置终端编码类型为GBK,则无法显示输出的UTF-8编码字符串。

一个字符串从定义到处理再到输出,涉及到编辑器、编译器和输出环境三个因素,正确的处理和显示需要三个因素的共同保障,每一个环节都不能出错。一个字符串的处理流程与因素如下图所示:

当然如果想避开编辑器编码对字符串的影响,可以使用Unicode码值来定义字符串常量,参看如下代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
//代码文件为GBK编码
#include <iomanip>
#include <iostream> 
using namespace std;

int main()
{
    const char* sTest = u8"\u4F60\u597D";   //你好的Uunicode码值分别是:0x4F60和0x597D
    for(int i=0;sTest[i]!=0;++i)
    {
        cout<<setiosflags(ios::uppercase)<<hex<<(uint32_t)(uint8_t)sTest[i]<<" ";
    }
    return 0;
}
//编译选项:g++ -std=c++0x -finput-charset=utf-8 test.cpp

程序输出结果:E4 BD A0 E5 A5 BD。可见,即使编译器对代码文件的编码理解有误,仍然可以正确地以UTF-8编码输出“你好”的码值。原因是ASCII字符使用GBK与UTF-8编码码值是相同的,所以直接书写Unicode码值来表示字符串是一种比较保险的做法,缺点就是难以阅读。

4.Unicode的库支持

C++11在标准库中增加了一些Unicode编码转换的函数,开发人员可以使用库中的一些新增编码转换函数来完成各种Unicode编码间的转换,函数原型如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
//多字节字符转换为UTF-16编码
size_t mbrtoc16 ( char16_t * pc16, const char * pmb, size_t max, mbstate_t * ps);

//UTF-16字符转换为多字节字符
size_t c16rtomb ( char * pmb, char16_t c16, mbstate_t * ps );

//多字节字符转换为UTF-32编码
size_t mbrtoc32 ( char32_t * pc32, const char * pmb, size_t max, mbstate_t * ps);

//UTF-32字符转换为多字节字符
size_t c32rtomb ( char * pmb, char32_t c32, mbstate_t * ps );

函数名称中mb表示multi-byte(多字节),rto表示convert to(转换为),c16表示char16_t,了解这些,可以根据函数名称直观的理解它们的作用。下面给一下UTF-16字符串转换为多字节字符串(以GBK为例)的例子:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#include <uchar.h>
#include <string.h>
#include <locale>
#include <iomanip>
#include <iostream> 
using namespace std;

int main()
{
    const char16_t* utf16 = u"\u4F60\u597D\u554A";
    size_t utf16Len=char_traits<char16_t>::length(utf16);

    char* gbk =new char[utf16Len*2+1];
    memset(gbk,0, utf16Len * 2 + 1);
    char* pGbk = gbk;

    setlocale(LC_ALL, "zh_CN.gbk");
    mbstate_t mbs;                       //转换状态
    size_t length = 0;
    while (*utf16)
    {
        pGbk += length;
        length = c16rtomb(pGbk, *utf16, &mbs);
        if (length == 0 || pGbk - gbk>sizeof(gbk))
        {
            cout << "failed" << endl;
            break;                      //转换失败
        }
        ++utf16;
    }
    for (int i = 0; gbk[i] != 0; ++i)
    {
        cout << setiosflags(ios::uppercase) << hex << (uint32_t)(uint8_t)gbk[i] << " ";
    }
    return 0;
}
//编译选项:g++ -std=c++0x test.cpp

程序输出结果:C4 E3 BA C3 B0 A1。可见,使用c16rtomb()完成了将“你好啊”从UTF-16编码到多字节编码(GBK)的转换。上面的转换,我们用到了locale机制。locale表示的是一个地域的特征,包括字符编码、数字时间表示形式、货币符号等。locale串使用“zh_CN.gbk”表示目的多字节字符串使用GBK编码。

上面通过Unicode字符的转换来完成字符串的转换,实际上C++提供了一个类模板codecvt用于完成Unicode字符串与多字节字符串之间的转换,主要分为4种:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
codecvt<char,char,mbstate_t>     //performs no conversion
codecvt<wchar_t,char,mbstate_t>  //converts between native wide and narrow character sets
codecvt<char16_t,char,mbstate_t> //converts between UTF16 and UTF8 encodings, since C++11
codecvt<char32_t,char,mbstate_t> //converts between UTF32 and UTF8 encodings,since C++11

上面的codecvt实际上是locale的一个facet,facet可以简单地理解为locale的一些接口。通过codecvt,可以完成当前locale下多字节编码字符串与Unicode字符间的转换,也包括Unicode字符编码间的转换。这里的多字节字符串不仅可以试UTF-8,也可以是GBK或者其它编码,实际依赖于locale所采用的编码方式。每种codecvt负责不同类型编码的转换,但是目前编译器的支持情况并没有那么完整,一种locale并不一定支持所有的codecvt,程序员可以通过has_facet函数模板来查询指定locale下的支持情况。参考代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#include <locale>
#include <iostream> 
using namespace std;

int main()
{
    //定义一个locale并查询该locale是否支持一些facet
    locale lc("zh_CN.gbk");
    bool can_cvt = has_facet<codecvt<char, char, mbstate_t>>(lc);
    if (!can_cvt)
        cout<<"do not support char-char facet"<<endl;
    can_cvt = has_facet<codecvt<wchar_t, char, mbstate_t>>(lc);
    if (!can_cvt)
        cout << "do not support wchar_t-char facet" << endl;
    can_cvt = has_facet<codecvt<char16_t, char, mbstate_t>>(lc);
    if (!can_cvt)
        cout << "do not support char16_t-char facet" << endl;
    can_cvt = has_facet<codecvt<char32_t, char, mbstate_t>>(lc);
    if (!can_cvt)
        cout << "do not support char32_t-char facet" << endl;
}
//编译选项:g++ -std=c++11 test.cpp
//g++版本:gcc version 4.8.5 20150623 (Red Hat 4.8.5-4) (GCC)

程序输出结果:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
do not support char16_t-char facet
do not support char32_t-char facet

由此可见,从char到char16_t与char32_t转换的两种facet还没有被实验机使用的编译器支持。

假如实验机支持从char与char16_t的转换,可参考如下代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#include <uchar.h>
#include <string.h>
#include <locale>
#include <iomanip>
#include <iostream> 
using namespace std;

int main()
{
    typedef std::codecvt<char16_t,char,std::mbstate_t> facet_type;
    std::locale mylocale("zh_CN.gbk");

    try
    {
        const facet_type& myfacet = std::use_facet<facet_type>(mylocale);

        const char16_t* utf16 = u"\u4F60\u597D\u554A";      //你好啊
        size_t utf16Len = char_traits<char16_t>::length(utf16);
        cout<< utf16Len <<endl;
        char* gbk = new char[utf16Len*2+1];
        memset(gbk, 0, utf16Len * 2 + 1);
        std::mbstate_t mystate;                             //转换状态
        const char16_t* pwc;                                //from_next
        char* pc;                                           //to_next

        facet_type::result myresult = myfacet.out(mystate,utf16,utf16+utf16Len+1,pwc, gbk, gbk + utf16Len * 2+1, pc);

        if (myresult == facet_type::ok)
        {
            std::cout << "Translation successful:" << endl;
        }
        for (int i = 0; gbk[i] != 0; ++i)
        {
            cout << setiosflags(ios::uppercase) << hex << (uint32_t)(uint8_t)gbk[i] << " ";
        }
        delete[] gbk;
    }
    catch(...)
    {
        cout<<"do not support char16_t-char facet"<<endl;
        return -1;
    }
    return 0;
}

由于实验环境并不支持char与char16_t相互转换的facet,所以程序输出结果为:do not support char16_t-char facet。

5.u16string与u32string

C++11新增了UTF-16和UTF-32编码的字符类型char16_t和char32_t,当然少不了对应的字符串类型,分别是u16string与与u32string,二者的存在类似与string与wstring。四者的定义如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
typedef basic_string<char> string;
typedef basic_string<wchar_t> wstring;
typedef basic_string<char16_t> u16string;
typedef basic_string<char32_t> u32string;

我们对string与wstring应该比较熟悉,对于u16string与u32string在用法上是差不多了,有相同的成员接口与类型,只需要记住其存储的字符编码类型不同即可。下面看一下u16string使用的简单示例。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#include <iomanip>
#include <iostream> 
using namespace std;

int main()
{
    u16string u16str = u"\u4F60\u597D\u554A";   //你好啊
    cout << u16str.length() << endl;            //字符数   
    for (int i = 0; i<u16str.length(); ++i)
    {
        cout << setiosflags(ios::uppercase) << hex << (uint16_t)u16str[i] << " ";
    }
}

程序输出:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
3
4F60 597D 554A。

参考文献

[1]深入理解C++11[M].8.3Unicode支持

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018年08月24日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
c++11新特性之宽窄字符转换
  C++11增加了unicode字面量的支持,可以通过L来定义宽字符:str::wstring str = L”中国人”;
全栈程序员站长
2022/07/18
8170
C++11特性
VS2010版本的C++新增了C++11特性,对原有的C++标准库扩展,融合BOOST库等三方库
sofu456
2020/06/16
5830
AI智能分析开发中采用c++中文编码出现乱码是什么导致的?
EasyCVR的AI智能分析版本在做研发的时候,就受到了很多朋友的关注,EasyCVR的人脸识别功能采用了Go语言,使用c/c++ 的头文件和dll文件。在C++ 中如果出现中文,会出现乱码的问题,使用notepad++打开保存的二进制文件,出现乱码。
TSINGSEE青犀视频
2021/12/15
1.6K0
tinyxml2使用方法
XMLNode: XMLNode is a base class for every object that is in the XMLDocument Object Model (DOM), except XMLAttributes.Nodes have siblings, aparent, and children which can be navigated. A node is always in a XMLDocument.The type of a XMLNode can be queried, and it can be cast to its more definedtype.
全栈程序员站长
2022/06/28
1.4K0
tinyxml2使用方法
C++11基础学习系列一
---- 概述 C++11标准越来越趋于稳定和成熟,国外c++11如火如荼而国内却依然处于观望期。每当提到C++很多程序员都很抵触,特别是学术界的呼声更高一些。其实不然,语言即工具,语言的好坏不在于本身,而在于驾驭它和适用它所在的范围所决定的。那么为什么国内大多数程序员都会遭到抵触呢?我觉得原因有如下(不要劈我,仅此个人意见): C++是对C语言进行了抽象同时又支持了很多面向对象的特性,在趋于底层设计时又对上层进行封装和扩展。它是从计算机科学层面去设计和演化的,如果想写出高效和稳定的程序,那么你就必须具备基
吕海峰
2018/04/03
9320
C++11基础学习系列一
C++字符编码于MSVC和GCC之间的区别
转载自:http://blog.csdn.net/dbzhang800/article/details/7540905
用户7886150
2021/02/17
1.1K0
C11 标准特性研究
C11标准是C语言标准的第三版(2011年由ISO/IEC发布),前一个标准版本是C99标准。
用户7886150
2021/02/17
1.2K0
C++进阶—>带你理解多字节编码与Unicode码
本篇文章将讲解C++开发中容易混淆的另一个概念——多字节字符集与Unicode字符集。
用户7886150
2021/02/20
2.6K0
[Qt]中文乱码问题-1
原文链接:https://blog.csdn.net/humanking7/article/details/81292013
祥知道
2020/03/10
1.4K0
C++多字节与宽字符串的相互转换
代码编译运行环境:Windows 64bits+VS2017+Debug+Win32
恋喵大鲤鱼
2019/02/22
5K0
移动开发之浅析cocos2d-x的中文支持问题
  题记:这阵子一直在学习cocos2d-x,其跨平台的特性确实让人舒爽,引擎的框架概念也很成熟,虽然相应的第三方工具略显单薄,但也无愧是一件移动开发的利器啊,有兴趣的朋友有时间就多了解一下吧 :)
用户2615200
2018/08/02
5360
移动开发之浅析cocos2d-x的中文支持问题
C/C++中char*与wchar_t*之间的转换
代码编译运行环境:Windows 64bits+VS2017+Debug+Win32
恋喵大鲤鱼
2018/08/03
11.7K0
【C++指南】string(一):string从入门到掌握
本文将深入探讨 C++ 中string的奥秘,从其产生的根源basic_string模板类开始,逐步介绍std::string、wstring、u16string和u32string等相关类型,揭示它们之间的关系,以及它们与std库的紧密联系,并对basic_string的函数功能进行简要概述。
倔强的石头
2025/03/11
2100
【C++指南】string(一):string从入门到掌握
C++那些事之string那些事
当我们使用C++时,库的基础知识比较熟悉,尤其是在C++中创建字符串时使用的std::string。这无疑是对旧的C风格“字符串”(使用以空字符结尾的字符数组)的一种改进。然而,C++标准库在C++17和C++20中引入了更有用的组件,可以帮助你编写更高效的代码。
公众号guangcity
2023/11/23
4310
C++那些事之string那些事
Visual Studio——使用多字节字符集与使用Unicode字符集
VS集成开发环境,字符集选择“使用多字节字符集”和“使用Unicode字符集”的直接区别就是:编译器是否增加了宏定义——UNICODE。当选择“使用Unicode字符集”时,编译器会增加宏定义——UNICODE;而选择“使用多字节字符集”时,编译器则不会增加宏定义——UNICODE。
全栈程序员站长
2022/11/03
4.2K0
C++20 中的std::c8rtomb和 std::mbrtoc8
C++20 标准引入了对 UTF-8 编码的更好支持,其中包括两个重要的函数:std::c8rtomb 和 std::mbrtoc8。这两个函数分别用于将 UTF-8 编码的字符转换为窄多字节字符表示,以及将窄多字节字符转换为 UTF-8 编码。这些功能对于处理多语言文本和国际化应用非常关键。
码事漫谈
2025/03/26
800
C++20 中的std::c8rtomb和 std::mbrtoc8
PaddleOCR C++动态库编译及调用识别(一)
本篇就来看看如何把PaddleOCR的源码重新编译成动态库,供OpenCV的Demo调用。
Vaccae
2021/07/30
4.8K1
PaddleOCR C++动态库编译及调用识别(一)
c标准库总结
学习c语言十几年了,却从来没有完整的将c标准库看一看,我想在这一点上我是欠缺的。作为一个技术人员,无论什么时候都不能忘记自己最擅长的技能,这次借一个偶然的契机,翻一翻c标准库,希望以后自己在技术上越来越牛。
用户7886150
2021/02/25
1.4K0
多字节与宽字符串的相互转换
说到多字节字符串与宽字符串,不得不说一下多字节字符与宽字符。多字节字符实际上是由多个字节来表示一个字符,在各个国家和地区采用不同的编码方案,不同编码方案字符码值是不同的,比如常见的中国大陆的GBK和GB18030、台湾同胞的Big5h,以及国际通过的UTF8编码等。宽字符指的是由统一码联盟制定的Unicode编码方案收录的字符,使用4个字节来表示一个字符。关于字符编码可参见博文精述字符编码。
恋喵大鲤鱼
2018/08/03
2.8K0
C++20 新特性:char8_t 的诞生与意义
在 C++ 的发展历程中,语言标准不断演进,以适应日益复杂的编程需求和多样的应用场景。C++20 的发布带来了诸多令人兴奋的新特性,其中 char8_t 的引入尤其值得关注。它不仅改变了我们处理 UTF-8 字符串的方式,还为 C++ 的国际化和跨平台开发提供了更强大的支持。本文将深入探讨 char8_t 的背景、特性以及如何在实际开发中使用它。
码事漫谈
2025/02/28
1020
C++20 新特性:char8_t 的诞生与意义
相关推荐
c++11新特性之宽窄字符转换
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验