如何在C中获取存储在char *下的多字节字符的Unicode值？

在C语言中，获取存储在char *下的多字节字符的Unicode值通常涉及到使用特定的库函数，因为C标准库本身并不直接支持Unicode。最常用的方法是使用wchar_t类型和相关的宽字符函数，或者使用第三方库如ICU（International Components for Unicode）。

基础概念

**char ***: 这是一个指向字符数组的指针，通常用于表示ASCII或MBCS（多字节字符集）字符串。
wchar_t: 这是一个宽字符类型，用于表示Unicode字符。在Windows上，wchar_t通常是16位的，而在Linux上通常是32位的。
Unicode: 是一个国际标准，为世界上所有的字符和符号分配了一个唯一的数字编号。

类型

MBCS (Multi-Byte Character Set): 用于表示非英语字符集，如中文或日文，每个字符可能占用多个字节。
UTF (Unicode Transformation Format): 是一种针对Unicode的可变长度字符编码，包括UTF-8、UTF-16和UTF-32等。

应用场景

国际化的应用程序需要处理多种语言的文本。
数据库和文件系统操作需要支持非ASCII字符。

解决问题的方法

使用`wchar_t`和宽字符函数

首先，你需要将多字节字符串转换为宽字符字符串。这可以通过mbstowcs函数完成。

#include <stdlib.h>
#include <locale.h>
#include <wchar.h>

int main() {
    setlocale(LC_ALL, ""); // 设置本地化环境

    char *mbstr = "你好，世界！";
    size_t mbstrlen = strlen(mbstr) + 1;
    wchar_t *wcstr = malloc(sizeof(wchar_t) * mbstrlen);

    mbstowcs(wcstr, mbstr, mbstrlen);

    // 现在wcstr包含了宽字符字符串
    // 获取第一个字符的Unicode值
    wchar_t first_char = wcstr[0];
    printf("Unicode value of the first character: %lc\n", first_char);

    free(wcstr);
    return 0;
}

获取宽字符的Unicode值，可以直接通过其整数值来获取。

使用ICU库

ICU库提供了更全面的Unicode支持，包括转换、字符串处理等功能。

#include <unicode/unistr.h>
#include <unicode/ustream.h>
#include <iostream>

int main() {
    icu::UnicodeString unicodeStr = icu::UnicodeString::fromUTF8("你好，世界！");
    UChar32 firstChar = unicodeStr.char32At(0);
    std::cout << "Unicode value of the first character: " << firstChar << std::endl;
    return 0;
}