经过大量的实验,我仍然不能让下面的脚本工作。我需要一些关于如何诊断这个特定Perl问题的指导。提前谢谢。
此脚本用于测试Office2007OCRAPI的使用:
use warnings;
use strict;
use Win32::OLE;
use Win32::OLE::Const;
Win32::OLE::Const->Load("Microsoft Office Document Imaging 12\.0 Type Library")
or
die "Cannot use the Office 2007 OCR API";
my $miD
我在uipath是新的,我使用PDF活动来读取与Google的Pdf文本,因为我想得到包含图像的pdf文本。
首先,我只使用Pdf文本,它工作得很好。然后,我使用Pdf与OCR,然后它显示了这个错误。
但是当我运行它时,它给出了一个错误:-
"Google OCR : Error performing OCR: TessErrorLoadEngine"
Please help me to read the Pdf file.
请允许我问一个相当新鲜的问题。到目前为止,我一直在使用像或这样的本地工具来完成这项工作,但这是相当老套的,我被敦促“迁移到google”。
设置
我有不同类型的各种文档(如JPG和PDF)的(培训)数据集,并且根据某些特性(如流行颜色、重复布局),我打算将它们分类,例如invoice type 1、invoice type 2、not an invoice。在第二步,我想OCR某些预定义的领域,每一份文件和摘录,例如公司的地址发送发票和日期。
我所设想的架构
在现代平台作为服务(),我已经建立了一个UI,我可以上传新的文件。然后,这些文件被本地存储在一个文件名为(或MongoDB)的目录中
我有一个使用正则表达式从文本(format =mm)中提取日期的代码。
备注:文本是在票据图像上使用OCR获取的。因此,预期的日期格式是,但是它可以是任何随机文本,因为它是使用OCR获得的。
import re
date_reg_exp = re.compile('\d{2}[-/.]\d{2}[-/.]\d{4}') #works for mm-dd-yyyy
matches_list=date_reg_exp.findall(test_str)
for match in matches_list2:
print match
如果我有一个字符串'This is a