首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >混合语言OCR

混合语言OCR
EN

Data Science用户
提问于 2022-07-19 08:18:14
回答 1查看 38关注 0票数 2

我在解决一个表格数据识别任务

最大的问题是混合语言图片的识别。

我正在为OCR使用tesseract,但是它不能同时识别两种语言。

以下是输出的示例:

如果我用'eng+rus‘作为lang选项,它就不能识别英语,所以我的问题是:有办法同时识别这两种语言吗?所以输出看起来应该是: KitchenAidХолодильникKCFMA 60150 R

EN

回答 1

Data Science用户

发布于 2022-07-26 15:18:03

根据https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html#simplest-invocation-to-ocr-an-image,通过尝试eng+rus,您正在做正确的事情。这就是问题的答案。

您也可以尝试rus+eng (尽管根据那些只影响所需时间的文档?)。

如果这不能提供足够好的质量,一种可能是微调您自己的数据。请参阅https://tesseract-ocr.github.io/tessdoc/#training-for-tesseract-5https://tesseract-ocr.github.io/tessdoc/tess5/TrainingTesseract-5.html#introduction,其中提到了微调,即使在相对有限的培训数据下,也可能产生良好的效果。

另一种方法是运行OCR两次,分别为英文和俄文,然后分析产生的字符串以确定是否合适。例如,与字典匹配,或在字符语言模型中运行。这里的想法是,"Xonogunbxuk“并不是所有的英语。"KncnenAR“(抱歉,不能在这里输入西里尔字母)看上去不像有效的俄语。即使是“60150 R”和"601508“也是可以做到的,如果你知道你希望代码总是5位,那么大写字母就可以了。

请注意,这并不是真正的额外工作:无论如何,您都需要一个验证步骤,因为OCR输出即使在一种语言中也是不可靠的。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/112785

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档