我在解决一个表格数据识别任务
最大的问题是混合语言图片的识别。
我正在为OCR使用tesseract,但是它不能同时识别两种语言。
以下是输出的示例:
如果我用'eng+rus‘作为lang选项,它就不能识别英语,所以我的问题是:有办法同时识别这两种语言吗?所以输出看起来应该是: KitchenAidХолодильникKCFMA 60150 R
发布于 2022-07-26 15:18:03
根据https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html#simplest-invocation-to-ocr-an-image,通过尝试eng+rus
,您正在做正确的事情。这就是问题的答案。
您也可以尝试rus+eng
(尽管根据那些只影响所需时间的文档?)。
如果这不能提供足够好的质量,一种可能是微调您自己的数据。请参阅https://tesseract-ocr.github.io/tessdoc/#training-for-tesseract-5和https://tesseract-ocr.github.io/tessdoc/tess5/TrainingTesseract-5.html#introduction,其中提到了微调,即使在相对有限的培训数据下,也可能产生良好的效果。
另一种方法是运行OCR两次,分别为英文和俄文,然后分析产生的字符串以确定是否合适。例如,与字典匹配,或在字符语言模型中运行。这里的想法是,"Xonogunbxuk“并不是所有的英语。"KncnenAR“(抱歉,不能在这里输入西里尔字母)看上去不像有效的俄语。即使是“60150 R”和"601508“也是可以做到的,如果你知道你希望代码总是5位,那么大写字母就可以了。
请注意,这并不是真正的额外工作:无论如何,您都需要一个验证步骤,因为OCR输出即使在一种语言中也是不可靠的。
https://datascience.stackexchange.com/questions/112785
复制相似问题