有没有人有经验,如何OCR几个图像,并创建一个输出PDF文件与识别的文本在C#中的Nicomsoft OCR?看起来它可以做到,但是我的C#代码由于某些原因没有生成任何PDF:
NSOCRLib.NSOCRClass NsOCR = new NSOCRLib.NSOCRClass();
NsOCR.Engine_InitializeAdvanced(out CfgObj, out OcrObj, out ImgObj);
for (i = 0; i < ImageCnt; i++)
{
NsOCR.Img_LoadFile(ImgObj, ImageFiles[i]);
N
我已经获得了以下用于将pdf文件上传到google docs的实现(取自gdata API示例):
def UploadResourceSample():
"""Upload a document, and convert to Google Docs."""
client = CreateClient()
doc = gdata.docs.data.Resource(type='document', title='My Sample Doc')
# This is a convenient MS
下午好,我在我的项目中有一个问题,这是PDF压缩,过程如下:提取图像从一个PDF Hang OCR压缩股票OCR +合并图像和转换PDF每页结合所有生成的pdf格式与光学字符识别,光学字符识别PDFcon作为最终产品之一。我的原始文件大小为11MB,压缩后为4.2MB。整个过程运行得很完美,但我遇到的问题是OCR过程的速度。我在网上查看,我看到了一种方法来规避该过程,这是获得的原始PDF的文本层,并将其传递到最终的PDF是压缩的,尝试一些代码,如删除所有图像的PDF和单独与文本层,并插入我的压缩图像,但问题相比于上面提供的正常过程中,该文件的重量增加了超过4.2MB,这对我来说并不方便。当我寻
正如标题所述,有没有办法使用Python对一个文件夹中的所有pdf文件进行OCR?我有下面的代码,但它只有一个文件的OCR一次和提取文本。我想做一个文件夹中所有的pdf的一般光学字符识别。如果可以的话,请让我知道。
from wand.image import Image
from PIL import Image as PI
import pyocr
import pyocr.builders
import io
tool = pyocr.get_available_tools()[0]
lang = tool.get_available_languages()[1]
req_image
我有一个包含pdf文件的目录。我已经编写了在将文件名传递给wand.image类的对象时执行光学字符识别的代码。我现在想做的是循环遍历pdf文件的目录,为每个pdf生成一个OCR的txt文件,并将其保存在某个目录中。到目前为止,我写的代码如下: import io
from PIL import Image
import pytesseract
from wand.image import Image as wi
pdf = wi(filename = r"D:\files\aba7d525-04b8-4474-a40d-e94f9656ed42.pdf", reso
我有一个应用程序,用户可以上传pdf,并将其转换为text以供进一步处理。事情是,一些上传的文件是图像pdf,所以转换不工作。与其将所有pdf分解成图像,然后再将它们分割成ocr,我更愿意只发送那些已被证明或检测为图像的图像,有什么方法可以这样做吗,我正在linux (debian)环境中使用php
更新
在搜索最终解决方案时,我遵循了@Andrew的建议,计算了生成的txt文件中的字数,如果它少于10个单词,则继续下一步: pdf到图像以供以后的ocr识别,这就是我现在正在做的工作……
// convert any file with pdf extension to text
$cmd =
我有一个方法,在我们的软件,从PDF,从扫描或文本生成的文本。
我通常先尝试GetTextFromPage()方法。如果它不返回文本,那么我将移到页面的OCR上。
我有一个特别的6页PDF,前三页是扫描文件,最后两页是一份表格。
在这个PDF文件中,我得到了一个我无法解决的错误。
'StandardEncoding' is not a supported encoding name. For information on defining a custom encoding, see the documentation for the Encoding.RegisterProv
我正在尝试使用perl从扫描的PDF中获取文本,所以我在perl中使用了PDF::OCR2模块,但我无法安装此模块,安装Image::OCR::Tesseract模块失败,我使用的是CentOS7,这是我在安装过程中的错误。
one dependency not OK (Image::OCR::Tesseract); additionally test harness failed
/usr/bin/make test -- NOT OK
//hint// to see the cpan-testers results for installing this module, try: