前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >C#.Net筑基-String字符串超全总结 [深度好文]

C#.Net筑基-String字符串超全总结 [深度好文]

作者头像
郑子铭
发布2024-07-12 14:38:18
3240
发布2024-07-12 14:38:18
举报
文章被收录于专栏:DotNet NB && CloudNative

字符串是日常编码中最常用的引用类型了,可能没有之一,加上字符串的不可变性、驻留性,很容易产生性能问题,因此必须全面了解一下。

01、字符与字符编码

1.1、字符Char

字符 char 表示为 Unicode字符,在C#中用 UTF-16 编码表示,占用2个字节(16位)大小,字面量用单引号''包裹。

代码语言:javascript
复制
char c = 'A';

Console.WriteLine(char.IsDigit('3'));

Console.WriteLine(char.IsNumber('1'));

Console.WriteLine(char.IsLetter('A'));

Console.WriteLine(char.IsLower('a'));

Console.WriteLine(char.IsUpper('A'));
Console.WriteLine(char.GetUnicodeCategory('A')); //获取字符分类

  • char 是值类型(结构体),以16位整数形式存储,char可隐式转换为int
  • 字符串可以看做是char序列(数组),字符串是引用类型。
代码语言:javascript
复制
string str = "Hello World";
Console.WriteLine(str[0]);  //H
Console.WriteLine(str[10]); //d
Console.WriteLine(str[0].GetType().Name); //Char

1.2、字符集Unicode与字符编码

一般情况下字符串长度string.Length 就是可见的文本字符数量,但这并不绝对相等。大多数字符都是一个char组成,然而有些字符无法用一个char表示,如表情、不常用字符等,他们会用两个char(4个字节)来表示。

代码语言:javascript
复制
"a".Length.Dump();    //1
"🔊".Length.Dump();  //2
"🚩".Length.Dump();  //2
"⏰".Length.Dump();  //1
"你好".Length.Dump(); //2
"臢".Length.Dump();   //1
$"{(int)'A':X4}".Dump(); //0041
//上面的dump() 是一个扩展方法,作用同Console.WritLine()

Unicode 是国际标准、通用字符集,涵盖了世界上几乎所有的文字、符号,可以满足跨平台、跨语言的文本信息编码。Unicode 有100W+个字符地址空间,地址范围是 0x0000 - 0x10FFFF,每个字符都有自己的编码,目前已分配了大约10W+个。通常使用“U+”后跟一个十六进制数来表示,例如字母A的Unicode码点是U+0041

Unicode 字符集中包含多个分类(平面):其中最常用的就是基本平面,大部分常用字符都在这里面。

  • 🔸基本多文种平面(BMP,Basic Multilingual Plane):Unicode 的BMP区域几乎包含了所有常用的字符,如几十种主流语言,及30000+的汉字,BMP区域的字符都只需要1个char(2个字节)表示。
  • 🔸辅助平面(SMP):包含其他不常使用的字符,如一些历史文字、音乐符号、数学符号和表情符号等。该区域大多用两个char(4个字节)表示一个符号。

Unicode 是一种字符集,而实际在计算机上存储时需要用一个确定的编码方案,常见的就是UTF-8、UTF-16、UTF32。

  • UTF-16:2个字节表示BMP中的字符,其他字符会需要4个字节,C#、Java语言内部就是使用的UTF-16来表示的字符串。
  • UTF-8:变长编码,使用1到4个字节来表示一个Unicode字符,在互联网使用广泛。特别是存储 ASCII 为主的内容时,变长编码可以显著节约存储空间。

📢ASCII 字符集只包含 128个 基础字符,涵盖键盘上的字母、数字、常用符号。Unicode 是包含 ASCII字符集的,最前面128 个字符就是。在UTF-8编码中 ASCII字符只需要1个字节。


02、String基础

字符串 string 是一个不可变(不可修改)的字符序列(数组),为引用类型,字面量用双引号""包裹。

代码语言:javascript
复制
string s1 = "sam";
string s2 = new string('1',5);//11111
Console.WriteLine(s2[0]); //像数组一样操作字符串中的字符
string s3 = "";
string s4 = string.Empty; //效果同上
//相等比较
object s1= "Hello".Substring(0,2);
object s2 = "Hello".Substring(0,2);  
(s1==s2).Dump();        //False
(s1.Equals(s2)).Dump(); //True
  • 字符串是引用类型,因此可以用null表示,不过一般空字符建议用string.Empty(或"")表示。
  • 字符串可以当做 字符数组一样操作,只是不能修改。
  • 字符串的相等为值比较,只要字符序列相同即可。例外情况请是如果用object==比较,只会比较引用地址。

🚩 字符串在存储、转换为字节码时需指定编码,一般默认为 UTF-8,这是广泛使用的编码类型,更节省空间。

2.1、字符串常用API

代码语言:javascript
复制
字符串中字符数量

2.2、字符串的不变性、驻留性

字符串是一种有一点点特别的引用类型,因为其不变性,所以在参数传递时有点像值类型。

  • 🔸不变性:字符串一经创建,值不可变。对字符串的各种修改操作都会创建新的字符串对象,这一点要非常重视,应尽量避免,较少不必要的内存开销。
  • 🔸驻留性:运行时将字符串值存储在“驻留池(字符串池)”中,相同值的字符串都复用同一地址。

不变性、驻留性 是.Net对string 的性能优化,提升字符串的处理性能。如下示例中,s1、s2字符串是同一个引用。

代码语言:javascript
复制
string s1 = "hello";
string s2 = "hello";
Console.WriteLine(s1 == s2);                      //True
Console.WriteLine(s1.Equals(s2));                 //True
Console.WriteLine(Object.ReferenceEquals(s1,s2)); //True

当然不是所有字符串都会驻留,那样驻留池不就撑爆了吗!一般只有两种情况下字符串会被驻留:

  • 字面量的字符串,这在编译阶段就能确定的“字符串常量值”。相同值的字符串只会分配一次,后面的就会复用同一引用。
  • 通过 string.Intern(string) 方法主动添加驻留池。
代码语言:javascript
复制
string st1 = "123" + "abc";   
 string st2 = "123abc";   
  string st3 = st2.Substring(0,3);    
代码语言:javascript
复制
看看上面代码生成的IL代码:
  • 常量的字符串"123" + "abc"连接被编译器优化了。
  • 常量字符串使用指令“ldstr”加载的到栈,该指令会先查看驻留池中是否已存在,如果已存在则直接返回已有字符串对象的地址,否则就加入。

驻留的字符串(字符串池)在托管堆上存储,大家共享,内部其实是一个哈希表,存储被驻留的字符串和其内存地址。驻留池生命周期同进程,并不受GC管理,因此无法被回收。因此需要注意:

  • lock锁不能用string,避免使用同一个锁(字符串引用)。
  • 避免创建字面量的大字符串,会常住内存无法释放,当然也不要滥用string.Intern(string) 方法。

2.3、字符串的查找、比较

string 的 比较字符串 是默认包含文化和区分大小写的顺序比较,C#内置的一个字符串比较规则(枚举)StringComparison,可设置比较规则。在很多内置方法中使用,包括 String.Equals、String.Compare、String.IndexOf 和 String.StartsWith等。

📢 微软官方建议在使用上述字符串比较方法中明确指定 StringComparison 参数值,而不是默认的比较规则。

代码语言:javascript
复制
public enum StringComparison
{
  CurrentCulture,
  CurrentCultureIgnoreCase,
  InvariantCulture,
  InvariantCultureIgnoreCase,
  Ordinal,
  OrdinalIgnoreCase
}
void Main()
{
  string.Equals("ABC","abc",StringComparison.Ordinal);           //Fasle
  string.Equals("ABC","abc",StringComparison.OrdinalIgnoreCase); //True
  string.Compare("ABC","abc",StringComparison.Ordinal);          //-32
  string.Compare("ABC","abc",StringComparison.OrdinalIgnoreCase);//0
}
代码语言:javascript
复制
枚举值说明CurrentCulture本地语言区域规则,适用于给用户显示的内容CurrentCultureIgnoreCase同上+忽略大小写InvariantCulture固定语言区域,适用于存储的数据InvariantCultureIgnoreCase同上+忽略大小写Ordinal二进制值顺序比较字符串,比较快⚡OrdinalIgnoreCase同上+忽略大小写

如果单纯从性能角度考虑,考虑语言文化的字符串比较其实比较慢,来测试对比一下。测试代码:

代码语言:javascript
复制
string s1 = "hellohellohellohello";
string s2 = "helloHelloHelloHello";
 
public bool Equals() => s1.Equals(s2);//False
 
public bool Equals_CurrentCulture() => s1.Equals(s2,StringComparison.CurrentCulture);//False
public bool Equals_CurrentCultureIgnoreCase() => s1.Equals(s2,StringComparison.CurrentCultureIgnoreCase);//True
public bool Equals_InvariantCulture() => s1.Equals(s2,StringComparison.InvariantCulture);//False
public bool Equals_InvariantCultureIgnoreCase() => s1.Equals(s2,StringComparison.InvariantCultureIgnoreCase);//True
public bool Equals_Ordinal() => s1.Equals(s2,StringComparison.Ordinal);//False
public bool Equals_OrdinalIgnoreCase() => s1.Equals(s2,StringComparison.OrdinalIgnoreCase);//True
 
public bool Equals_Span() => s1.AsSpan() == s2.AsSpan();//False
  • 上面7个方法 分别测试了Equals的默认版本、及带参 StringComparison 的不同比较规则的性能。
  • 最后加了一个使用Span 的相等比较,更多关于Span的资料查看《高性能的Span、Memory》。

🚩测结结论:

  • Span最快,其次无参Equals()版本、Ordinal,他们都是只比较二进制值,不考虑文化信息。
  • 个人理解,如果不考虑一些比较特别的语言(如瑞典语、土耳其语、 阿塞拜疆语等),只是针对英文、中文的字符串,一般不用考虑文化语义。
  • Equals()默认是不考虑文化语义的字符值比较,但有些比较方法就不一定能了,比如StartsWithCompare 默认的是带文化语义的CurrentCulture规则,因此推荐主动配置 StringComparison 参数。

2.4、字符串转义\

转义字符:反斜杠“\”

转义序列

字符名称

Unicode 编码

\'

单引号

0x0027

\"

双引号

0x0022

\0

null

0x0000

\b

Backspace

0x0008

\f

换页

0x000C

\n

换行

0x000A

\r

回车

0x000D

\t

水平制表符

0x0009


03、🚩字符串连接的8种方式

字符串连接(组装)的使用是非常频繁的,.Net中提供了多种姿势来实现,各有特点。

代码语言:javascript
复制
"hello"+str,其实编译后为 string.Concat ("hello", str)

字面量字符串的相加会被编译器优化,直接合并为一个字符串。

代码语言:javascript
复制
var str1 = "Hello " + "world" + " !";
var str2 = DateTime.Now.Year + "年" + DateTime.Now.Month + "月";
 
//编译后的代码:
string str1 = "Hello world !";
string str2 = string.Concat (DateTime.Now.Year.ToString (), "年", DateTime.Now.Month.ToString (), "月");

3.1、字符串格式化 String.Format

String.Format 方法是早期比较常用的字符串组织方式,后来$字符串插值 问世后就逐步被打入冷宫了。

代码语言:javascript
复制
string.Format("{0}+{1} = {2}",1,2,3);  //1+2 = 3
string.Format("Hello {0},{0}","sam");  //Hello sam,sam
String.Format("It is now {0:yyyy-MM-dd} at {0:hh:mm:ss}", DateTime.Now); //It is now 2024-01-17 at 10:56:33
String.Format("买了{0}个桔子,共花了{1:C2}。", 4,25.445); //买了4个桔子,共花了¥25.45。

基本语法规则就是用 {index}来占位,在后面的参数中给出值。

  • 索引位置从0开始,必须连续递增,可以重复。
  • 索引的位置对应后面参数的顺序位置,必须对应,参数不能少(抛出异常),可以多。
  • 字符串格式规则参考后文《字符串格式总结》。

3.2、$字符串插值

字符串插值的格式:$"{<interpolationExpression>}",大括号中可以是一个变量,一个(简单)表达式语句,还支持设置格式。功能强大、使用方便,老人孩子都爱用!

  • {}字符转义,用两个{{}}即可,如果只有一边,则用单引号'{{',即输出为{
  • 使用三元运算符?表达式,用括号包起来即可,因为“:”在插值字符串中有特殊含义,即格式化。
  • 字符串格式规则参考后文《字符串格式总结》。
代码语言:javascript
复制
var name = "sam";
Console.WriteLine($"Hello {name}!");  //Hello sam!
Console.WriteLine($"日期:{DateTime.Now.AddDays(1):yyyy-MM-dd HH:mm:ss}");  //日期:2024-01-18 23:21:55!
Console.WriteLine($"ThreadID:{Environment.CurrentManagedThreadId:0000}");  //ThreadID:0001
Console.WriteLine($"Length:{name.Length}");  //Length:3
Console.WriteLine($"Length:{(name.Length>3?"OK":"Error")}");  //Length:Error
  • 3.3、@字符串支持任意字符

@标记的字符串为字面量字符串 ,不需要使用转义字符了,可搭配$字符串插值使用。文件路径地址都会用到@,两个冒号表示一个冒号,@"a""b" ==a"b

代码语言:javascript
复制

var path= @"D:\GApp\LINQPad 8\x64";    
var file = $@"D:\GApp\LINQPad 8\x64\{DateTime.Now:D}";    
var maxText = @"Hi All:      第一行        换行      ";

3.4、👍🏻StringBuilder

StringBuilder 字符串修理工程师,顾名思义,就是专门用来组装字符串的,可以看做是一个可变长字符集合。适用于把很多字符串组装到一起的场景,避免了大量临时字符串对象的创建,可显著提升性能。

代码语言:javascript
复制
var sb = new StringBuilder(100);
sb.Append("sam");
sb[0] = 'F';  //Fam
sb.AppendLine("age");
sb.Append("age").Append(Environment.NewLine); //效果同上
sb.Insert(2,"---");
sb.Replace("age","Age");
 
var result = sb.ToString(); //获取结果
代码语言:javascript
复制
获取、设置字符容量(实际占用内存),默认16,当内容增多容量不足时,会自动扩容。
  • 各种Append方法都返回自身,可用来链式编程。
  • StringBuilder 默认容量为16,内部有一个char数组m_ChunkChars(缓冲区)来存储字符内容,如下StringBuilder构造函数源码:
代码语言:javascript
复制

public StringBuilder()  
  {    
  m_MaxCapacity = int.MaxValue;  
    m_ChunkChars = new char[16]; 
       }    
  • 当不断追加字符串,容量不足会自动扩容,扩容的过程其实就是创建更大的字符数组(容量翻倍),把原来的值拷贝过来,这个过程会涉及数组对象创建、内存拷贝。

📢 一般使用StringBuilder 建议尽量给一个合理的默认容量大小,尽量避免、减少频繁的扩容。


04、🚩字符串格式化大全

📢字符串格式语法:{index/interpolationExpression [,alignment][:formatString]}

  • ,alignment可选,设置字符串的对齐长度,如果位数不够则空格补齐,正数部补左边,负数补右边。
  • :formatString指定格式规则。一次只能指定一个格式规则,可和,alignment共存。
代码语言:javascript
复制
//,alignment 示例
var name = "sam";
$"name:{name,6}.";    //字符长度6,前面补齐空格 //name:   sam.
$"name:{name,-6}.";   //字符长度6,后面补齐空格 //name:sam   .
"1123+1 = {(1223+1),6:#,#.##}";                //1123+1 =  1,224
string.Format("1123+1 = {0,6:#,#.##}",1223+1); //1123+1 =  1,224

4.1、数值格式

🚩标准数值格式:

代码语言:javascript
复制
科学计数法(指数),数字"3"为小数精度,$"{12345.2:E3}"
 //1.235E+004,E+4
表示10的4次方;如果是E-4
则表示为小数(除以10的四次方) 1E-4 = 0.0001

🚩自定义的数值格式:

代码语言:javascript
复制
数字占位符,不强制占位,$"{123:#,###.##}" //123

📢热知识:小数格式化截断时都会四舍五入,(int)double 强转换是直接截断整数部分,相当于向下取整。 🔊冷知识:土耳其文化中的小数点为“逗号”,而非“点”。

4.2、日期时间格式

代码语言:javascript
复制
年份,yyyy
 //2024,yy
 //24

4.3、其他格式

代码语言:javascript
复制
枚举的字符串名称,其中F用于Flags,$"{UType.User:G}"
 //User

🚩格式MSDN参考资料:

  • 所有整型和浮点类型。(请参阅 标准数字格式字符串 和 自定义数值格式字符串。)
  • DateTime 和 DateTimeOffset。(请参阅 标准日期和时间格式字符串 和 自定义日期和时间格式字符串。)
  • 所有枚举类型。(请参阅 枚举格式字符串.)
  • TimeSpan 值。(请参阅 标准 TimeSpan 格式字符串 和 自定义 TimeSpan 格式字符串。)
  • GUID。(请参阅 Guid.ToString(String) 方法。)

06、高性能字符串实践

提高string处理性能的核心就是:尽量减少临时字符串对象的创建。

  • 高频常用字符串(非字面量)可考虑主动驻留字符串,string.Intern(name)
  • 字符串的比较、查找,优先用Span,或者尽量使用无文化语义的比较StringComparison.Ordinal
  • 大量字符串连接使用StringBuilder,且尽量给定一个合适的容量大小,避免频繁的扩容。
  • 少量字符串连接用字符串插值即可,创建StringBuilder也是有成本的。
  • 如果有大量StringBuilder 的使用,可以考虑用StringBuilderCache,或池化StringBuilder。

6.1、比较字符串

  • 字符串查找、拆分字符串、解析字符串,推荐使用Span,参考《高性能的Span、Memory》。
  • 查找、比较字符串,尽量指定 StringComparisonOrdinalOrdinalIgnoreCase,采用无文化特征的比较性能更快。
代码语言:javascript
复制
var sb = new StringBuilder(100);
sb.Append("sam");
sb[0] = 'F';  //Fam
sb.AppendLine("age");
sb.Append("age").Append(Environment.NewLine); //效果同上
sb.Insert(2,"---");
sb.Replace("age","Age");
 
var result = sb.ToString(); //获取结果

6.2、字符串真的不能修改吗?

字符串其实也是可以修改的,当然是用非常规手段。

  • ref获取指定字符的引用地址(指针地址)。
代码语言:javascript
复制
static void Main(string[] args)
{
  var str1 = "hello";
    var str2 = "hello";
  //修改第0位
    ref var c1 = ref MemoryMarshal.GetReference<char>(str1);
  c1 = 'H';
  //修改第一位
  ref var c2 = ref MemoryMarshal.GetReference<char>(str1.AsSpan(1));
  c2 = 'E';
  Console.WriteLine(str1);//输出:HEllo
  Console.WriteLine(str2);//输出:HEllo
}
  • 直接使用指针修改字符值。
代码语言:javascript
复制
void Main()
{
  var str1 = "hello";
  var str2 = "hello";
  unsafe
  {
    fixed (char* c = str2)
    {
      c[0] = 'H';
      c[1] = 'E';
    }
  }
  Console.WriteLine(str1); //HEllo
  Console.WriteLine(str2); //HEllo
}

参考资料

  • C# 文档:https://learn.microsoft.com/zh-cn/dotnet/csharp/
  • 《C#8.0 In a Nutshell》
  • .NET面试题解析(03)-string与字符串操作:https://www.cnblogs.com/anding/p/5240313.html
  • .NET 中的字符编码:https://learn.microsoft.com/zh-cn/dotnet/standard/base-types/character-encoding-introduction
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DotNet NB 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01、字符与字符编码
    • 1.1、字符Char
    • 02、String基础
      • 2.1、字符串常用API
        • 2.2、字符串的不变性、驻留性
          • 2.3、字符串的查找、比较
            • 2.4、字符串转义\
            • 03、🚩字符串连接的8种方式
              • 3.1、字符串格式化 String.Format
                • 3.2、$字符串插值
                • 04、🚩字符串格式化大全
                  • 4.1、数值格式
                    • 4.2、日期时间格式
                      • 4.3、其他格式
                      • 06、高性能字符串实践
                        • 6.1、比较字符串
                          • 6.2、字符串真的不能修改吗?
                          • 参考资料
                          相关产品与服务
                          对象存储
                          对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
                          领券
                          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档