我用Java编写了一个OCR程序,它扫描文档并找到其中的所有文本。我的主要任务是找到发票号码,可以是6或更多的整数。
我使用了子字符串功能,但效率不高,因为该数字的位置随每个文档的变化而变化,但它总是出现在OCR文本的前三行中。
我想用Java 8编写代码,在这里我可以迭代前三行,并得到这6个连续的数字。
我正在使用Tesseract作为OCR。
示例:
,——— ————i_
g DAILYW RK SHE 278464
E C 0 mp] on THE POUJER Hello, Mumbai, Co. Maha
从这里,我需要提取数字278464。
救命啊!!
我想在PDF发票上显示客户为其订单输入的凭单代码。获取特定发票的购物车规则的代码如下所示。
SELECT *
FROM `'._DB_PREFIX_.'order_cart_rule` ocr
WHERE ocr.`id_order` = '.(int)$this->id
这将获得每个代金券的使用金额、ID等,但是代金券代码本身位于一个称为"cart_rule“的不同表中。这两个表由"id_cart_rule“属性连接。我想加入每个购物车规则的代码,这样我就可以在发票上显示它。我想它应该看起来像这样:
SELECT *
FROM `'._D
我需要一些帮助,我正在解决一个问题,我有一个发票的图像的OCR,我想从中提取某些数据,如发票号码,金额,日期等,这些都存在于OCR中。我尝试了分类模型,我将OCR中的每个句子分别传递给模型,并预测发票编号或日期或其他任何东西,但这种方法需要很多时间,我认为这不是正确的方法。
所以,我在想,是否有一种算法,可以让我有一个输入字符串,并从该字符串映射输出,例如,发票编号,日期和金额都在字符串中。
例如:
Inp string: The invoice 1234 is due on 12 oct 2018 with amount of 287
Output: Invoice Number: 123
我在我的项目中使用AspriseOCR从图像中识别文本。aspriseOCR.jar文件被正确地配置为我的Eclipse库,但是得到了下面的错误。有人能指点我怎么解决这个问题吗?
java.lang.UnsatisfiedLinkError: no AspriseOCR in java.library.path
at java.lang.ClassLoader.loadLibrary(ClassLoader.java:1860)
at java.lang.Runtime.loadLibrary0(Runtime.java:845)
at java.lang.System.loadLibrary
我开始学习Asprise技术。我想使用一种将图像转换为文本(OCR)的方法。
import com.asprise.util.ocr.OCR;
public class Test {
public static void main(String[] args) throws IOException {
BufferedImage image = ImageIO.read(new File("D:\\HEAD2.png"));
String s = new OCR().recognizeEverything(image);
大家好,我有一个用java编写的代码,在net beans中运行得很好,但是当我想在eclipse中运行时,这个异常出现了。
Exception in thread "main" class com.aspose.ocr.internal.g: Culture Name: en-US-EN is not a supported culture
com.aspose.ocr.internal.aP.b(Unknown Source)
com.aspose.ocr.internal.aP.<init>(Unknown Source)
com.aspose.ocr.in
请允许我问一个相当新鲜的问题。到目前为止,我一直在使用像或这样的本地工具来完成这项工作,但这是相当老套的,我被敦促“迁移到google”。
设置
我有不同类型的各种文档(如JPG和PDF)的(培训)数据集,并且根据某些特性(如流行颜色、重复布局),我打算将它们分类,例如invoice type 1、invoice type 2、not an invoice。在第二步,我想OCR某些预定义的领域,每一份文件和摘录,例如公司的地址发送发票和日期。
我所设想的架构
在现代平台作为服务(),我已经建立了一个UI,我可以上传新的文件。然后,这些文件被本地存储在一个文件名为(或MongoDB)的目录中