我不打算垃圾邮件,此外,谷歌已经使验证码与reCaptcha过时。我做这个项目是为了学习更多关于OCR的知识,最终可能是学习神经网络。
所以我有一张来自验证码的图像,我已经取得了一定的进展,但是关于tesseract的文档并没有很好地记录下来。这是我到目前为止的代码,结果如下所示。
from selenium import webdriver
from selenium.webdriver.common import keys
import time
import random
import pytesseract
from pytesseract import image_to_string
我有一个非常具体的场景文本检测和解析问题。我甚至不确定你是否能说这是一个真实的场景文本。
我从一张身份证照片中提取了一个姓名字段:
我可以立即开始在图像上应用一些OCR,但我相信还可以应用进一步的文本本地化。为了实现这一形象:
你知道任何这样的文本本地化算法吗?我已经试过“FASText by Busta”、“EAST by argman”,他们工作得很得体。有关于这个特定任务的算法吗?
在文本本地化之后,我认为现在是应用OCR的最佳时机。现在我感到迷茫了。您推荐使用哪一种?我已经试过“Tesseract”了,但效果不太好。使用Tensorflow为文档字符制作自己的OCR是否更好?
我正在尝试制作一个“测验扫描器”,它使用OCR在线扫描测验,这样我就可以自己从在线来源汇编测验,以便能够离线回答它们。我厌倦了复制和粘贴的事情,只使用OCR代替。 我对光学字符识别部分没有问题,因为我现在遇到的问题是,我需要将问题从选择中分离出来,从正确和错误的选择中分离出来。下面是我尝试分离它们的一个过于简化的代码。 我需要将它们分开,因为我想将其导出到excel中的电子表格中。真的需要你的帮助,一如既往的堆栈溢出社区 import re
scannedmcq = 'Insert Question Here @ A(correct) > B > C > D
我试图使用tesseract OCR从图像(如在线美容产品图像)中提取文本,但大多数情况下,它无法检测到白色文本。问题是文本是混合的(,一些文本是黑色的,白色的,另一些是白色的,在黑色的上),有什么方法可以克服这一点,提高OCR检测白文本的能力吗?
经过预处理后,请找到附加图像( OCR作为输入的图像)。
文本提取的结果如下:
答:如果3éue a.‘一次,一次
湿疹手部修复霜。BRe ie ccm Sec意味着se gern
EgencuC es De Uae ene ai Ml.
TS邱考尔4“:3 alas :E
Risted& recowiniendeda _a PEC Ry