但如果有人问你,“Unicode,GBK和UTF-8有什么区别?”, 你能自信地给他一句简短清晰的回答吗? 如果不能的话, 那还是看一下这篇文章吧....>>> u'A'
u'A'
目前unicode字符集表示完所有字符后还有剩余, 这些暂时用不到的部分通常用占位符FFFD表示....('gbk')
'\xcd\xcd'
前面也说过, unicode暂时没用到码点会用占位符FFFD来表示, 如果这个占位符被错误解析, 就会被当作有意义的内容了:
>>> u'\uFFFD'.encode...其他
在Windows的Notepad.exe中, 保存文件的格式可以看到有如下几种:
notepad
可刚刚不是说Unicode只是字符集吗, 为什么上面显示可以保存为Unicode"编码”?...这也是为什么Windows对UTF8的支持如此之差的原因之一吧.
后记
说了这么多, 现在让我们回到一开始的问题, 如果有人问你"Unicode,GBK和UTF-8有什么区别?”