我有一个100+手写页面的pdf格式,我需要转换为机器可读的文本。到目前为止,我已经尝试了tesseract和一个免费的在线工具,但没有成功。结果似乎是胡言乱语。
tesseract myscan.png out -l eng
我已经附上了一个示例页面。它包含文本、数学符号(例如,整数符号)和偶尔的图片。
也许我用错了tesseract?有没有人能试着从这上面得到一个好的输出呢?
我需要一个Matlab函数,为数字和字母识别准备图像。 我现在需要的是将原始的RGB图像转换为二进制图像,其中的每个像素都是白色的,除了与字母和数字对应的像素,以及所有数字和字母必须显示为彩色/饱和,即显示为充满颜色。 ? 这是我测试过的代码。正如你所看到的,字母或数字的一些像素是白色的。 I = imread('img6.png'); % read the image into the matrix
Ig = rgb2gray(I);
Icon = imadjust(Ig);
subplot(2,2,1)
imshow(Ig)
subplot(2,2,2)
im
我正在实施一个OCR系统。Tesseract API用于提取。在提取文本之前,使用OpenCV对图像进行预处理。在预处理灰度的情况下,进行了锐化和自适应阈值处理。在提取图像中的文本后,将获得以下输出。
预期输出
Let's talk ;-)
获得输出
" yr _ W??? V. ? _
W fag '7? |g§3:? V
é claw?!
有人知道原因吗?我编辑了这个问题,因为我采取了一种不同的方式来实现我的项目,我输入了一个图像,并使用opnCV来锐化图像。这是输入图像.
然后我得到了下面的输出.。当我使用锐化图像为Tesseract Api,它提供混合字符。但是
我正在寻找一种将整个Java项目转换为C#的免费方法。我跟随,这个教程有点过时了。
在Windows上使用露娜时,我发现了以下错误:
在尝试更新在我的环境中工作的引用之后,我得到了
...\run-sharpen.xml:59: The following error occurred while executing this line:
...\run-sharpen.xml:20: exec returned: 13
在该日志文件中,无法在注册表中找到"java.lang.RuntimeException: Application“sharpen.core.application。