老师需要我使用OCR将PDF中文古籍中的文字识别出来,先前我是直接使用开源的PaddleOCR在本地进行识别(未经过进一步训练),它对于较规范的中文简体识别的还不错,可一到了中文繁体字就开始胡言乱语了。以如下中医文献举例:
右侧第一列的识别结果为(多了我想你们也不会看):
理想的结果是:“凡癰疽之疾,比他病最酷,聖人推爲雜病之先。自古雖有傷醫一科,及鬼遺等論,後人”
我们来数一数,一列33个字,正确识别了22个字,但其中大部分正确被识别出来的都是对中文简体的识别,而对中文繁体字的识别基本是全军覆没。顺便一提,后续在使用其他云服务中的OCR识别时,某些中文繁体字、生僻字也未被未包含在模型的训练集中,导致这些字未被模型识别为“文字”。这倒提醒我今后专门对中文繁体进行训练还是有必要的。
我用PaddleOCR跑了一轮后就将结果提交给了老师,但看着这一百多页千疮百孔的错字,我陷入了沉思。
既然都到大语言模型时代了,那就免不了问一手GPT,检查一下通用模型对中文繁体识别情况。
话不多说,我们直接看结果:
诶,看着是不是感觉还可以?但是大模型总是能给你惊喜,它识别率是还不错,但其识别的顺序却有些混乱(也许是识别图片使用了卷积),给人感觉是一块一块的,一列还没结束突然跳到下一列去了。要么就又回到上一列去了,呼~。
在我用微信查看这些令人懊恼的图片的时候,想起微信不是自带文字识别功能吗?那我就试吧,结果,我直接大吃一惊,这对中文繁体字的识别效果也太好了吧!!!不仅准确率高, 而且把每个字都框选出来了(到现在还是没找到能将每个字选中对应的Tencent API,求告知)。
识别结果为(仅列出第一列):“凡癣疽之疾,比他病最酷,聖人推爲雜病之先。自古雖有瘍醫一科,及鬼遺等論,後人”,33个字中仅仅错了1个!!我的天哪,大厂终究是大厂啊,原来腾讯OCR做的这般精确。跟你们猜的一样,我接下来直接跑去腾讯云注册了一个账号,直接开始“拿来主义”,看着TencentOCR上面通用模型96%的精确度,我直接掏钱(不过买的是高精度模型,但在尝试过99%高精度模型对繁体中文的识别准确率不是很好)。之后发现原来好多好多模型有免费额度(原谅我在付费前没找到)竟然有1000条/月,我总共也就充了1000条,废话不多说,我赶紧就开始了我的调用之旅,但是结果竟没有微信上面的文字识别效果好。调用后生成的结果为:“凡擁症之疾‘比他病最酷一聖人推為雜病之先。自古離有瘍醫一科)及鬼遺等論一後人”。多错了一个字,但是也很好了呀,应该是微信在识别之前还有一些预处理工作。然后我就将使用TencentOCR识别 出来的古籍再一次发给了老师。
后面又多试了几下,发现参数"LanguageType"选中"mix“对于古籍的识别率反而高于”zh_rare“。但是有些字会被识别到“日文”就有些烦恼了,要是能够选择混合语言的同时排除特定的语言就好了(比如日文)。
在学会调用TencentOCR之后我仿佛开启了新大门,那么会不会其他云服务器
中的OCR也很不错呢?于是我又去尝试了阿里和华为的OCR。我就直接上结果了。
小编货比三家,你觉得他们谁做的更好呢?(我觉得还是微信自带的最顶)开个玩笑。
三家对于“癰”字都没能识别出来,但是在将腾讯OCR的参数选择为"zh_rare"(中文生僻字时)竟然能够识别出来,可是这样其他的简单的字却被识别失败了😔。华为云很明显是数据集中没有该字(因为压根没将“癰”当成一个字),但在其他字的识别都是很准确的。
综上,给我的感觉是顶级大厂之间也很难对繁体字做到很好的处理,如果需要让我对这三家排个序,当然这只针对中文繁体而言,应该是腾讯>华为>阿里。如果华为能标注更多中文繁体字,那冠军一定是华为了,而且其中仅有华为的文字识别是能够不做位置处理,直接能够将竖行的字识别为一块文字,而腾讯和阿里则需要在代码中根据坐标信息进行修改。不过需要注意,华为可没有腾讯的每月1000条的免费额度,随随便便调用两个api都要付费。
在使用腾讯OCR的时候意外发现有这个活动,第一次在腾讯开发者社区写文章,有奖励谁会不心动呢,也算是一种缘分吧,希望腾讯OCR做得越来越好(要是能够告诉我微信中的文字识别是怎样做的就更好了)。要是觉得文章写得还不错,可以给文章点个赞哦,这对我真的很重要。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有