下面是我测试Tesseract性能的非常简单的程序。我得到的结果并不像预期的那样,尽管这张照片质量很高,截图也很清晰(不是一张复杂的彩色图片)。请看我的代码和下面的结果。我不知道我是不是做错了什么事,或者说,魔兽世界的引擎不能处理这个问题?
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Drawing.Imaging;
using
因此,我正在开发一个简单的移动应用程序项目(主要是为了好玩),它使用Android上的OCR库(tesseract)扫描相机图片,对文本进行一些处理,并将其返回给用户。
我想知道的是,是否有人知道以编程(或统计)的方式来判断字符串是实际的单词,还是只是胡说八道。(我现在只针对英语,FYI)
例如,OCR可能会读取图片并返回。
String returned = "The quick brown fox."
或者,它可能会读另一张图片,然后返回。
String returned = "$. _- %/ hj @;+__~"
显然,返回的第一个字符串会产生单词,而第