我用来识别图片上的数字
var engine = new TesseractEngine(@"C:\Projects\tessdata", "eng", EngineMode.Default,);
var currentImage = TakeScreen();
var page = engine.Process(ScaleByPercent(currentImage, 500));
var text = page.GetText().Replace("\n", "");
比例:
public Bitmap ScaleB
我有一个100+手写页面的pdf格式,我需要转换为机器可读的文本。到目前为止,我已经尝试了tesseract和一个免费的在线工具,但没有成功。结果似乎是胡言乱语。
tesseract myscan.png out -l eng
我已经附上了一个示例页面。它包含文本、数学符号(例如,整数符号)和偶尔的图片。
也许我用错了tesseract?有没有人能试着从这上面得到一个好的输出呢?
我被要求在线出版一本完整的书,就像Google Books做的那样?例如,它是可查看和可打印的,但不能下载。
这个过程基本上是“高质量扫描”吗?在这些高质量的图像上,是否有任何开源的解决方案来“大规模生成”“水印”?假设你有一张原始图片。当用户在线查看它时,我重新创建了图像并在图像" on - the -fly“上添加了水印和其他一些文本。python中是否存在这样的库?
有什么建议吗?如果你以前这样做过,请分享。
谢谢