首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >关于UTF-8快速验证的论文

关于UTF-8快速验证的论文
EN

Stack Overflow用户
提问于 2011-06-29 23:25:22
回答 1查看 195关注 0票数 2

有关于UTF-8验证器/解码器的最新技术论文吗?我见过一些“野外”的实现,它们使用聪明的循环,在常见情况下(例如,所有7位ASCII输入),每次迭代最多处理8个字节。

EN

回答 1

Stack Overflow用户

发布于 2012-03-02 01:19:02

我不知道论文,它可能有点太具体了,对于严格的科学分析来说是一个狭窄的主题,而更像是一个工程问题。你可以先看看不同的库是如何处理这个问题的。一些解决方案将使用特定于语言的技巧,而另一些则非常通用。对于Java,您可以从Javolution的一部分UTF8ByteBufferReader的代码开始。我发现这比语言中内置的字符集转换器快得多。我相信(但我不确定)后者对许多编码和特定于编码的数据文件使用一段通用的代码。相反,Javolution有专门为UTF-8设计的代码。

对于某些情况,例如,如果你可能会浪费一些内存,如果你现在知道你遇到的大多数字符将来自基本的多语言平面,你可以尝试更积极的查找表,例如,首先通过上面描述的方法计算字节长度,如果它是1或2字节(也许3也有意义),在表中查找解码的字符。但是,请记住,要对此算法和您尝试的任何其他算法进行基准测试,因为它根本不需要更快(位操作非常快,并且使用大查找表时,引用的局部性和偏移量计算也不是完全自由的)。

无论如何,我建议您从Javolution代码或其他类似的库开始。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6523148

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档