我正在使用OCR来识别护照的详细信息,因为我使用的是Tesseract Java API。为了获得更好的准确性,我需要将整个图像(可以是.png,.jpeg,.tiff)仅划分为文本区域。有没有什么开放源码的java库可以把文本区域和图片分开?请对此给我任何建议。
发布于 2016-11-24 16:01:24
Marvin正是为此目的提供了一种方法。
public static java.util.List<MarvinSegment> findTextRegions(MarvinImage imageIn,
int maxWhiteSpace,
int maxFontLineWidth,
int minTextWidth,
int grayScaleThreshold)
输入图像:
输出画面:
源码:
import static marvin.MarvinPluginCollection.*;
public class TextRegions{
public static void main(String[] args) {
MarvinImage image = MarvinImageIO.loadImage("./res/passport.png");
MarvinImage originalImage = image.clone();
List<MarvinSegment> segments = findTextRegions(image, 15, 8, 30, 150);
for(MarvinSegment s:segments){
if(s.height >= 5){
originalImage.drawRect(s.x1, s.y1, s.x2-s.x1, s.y2-s.y1, Color.red);
}
}
MarvinImageIO.saveImage(originalImage, "./res/passport_2.png");
}
}
发布于 2016-10-25 11:16:13
您最好的选择是使用OpenCV (有用于Java的绑定)。
这个问题很难解决,而且没有在所有情况下都有效的解决方案。我会查看像this one这样的帖子中的建议,并尝试为您的特定情况找到最佳解决方案。
https://stackoverflow.com/questions/40236472
复制相似问题