我试图利用计算机视觉API对OCR,一个PDF文件,是一个扫描的文件,但被视为图像PDF。
我已经测试过它,它告诉我PDF是"InvalidImageFormat",“输入数据不是有效的图像”。当我在PNG上测试它时,它工作得很好。
是否有对PDF图像使用API,或者有一个Azure API,我可以结合使用去PDF > PNG >文本?
发布于 2018-10-30 06:56:30
编辑
由于已提供了额外的服务,虽然我个人并没有尝试其中一些服务,但它们可能符合这个目的。
https://learn.microsoft.com/en-us/azure/search/cognitive-search-concept-intro
在将来的某一时刻,当它变成GA的时候。https://aws.amazon.com/textract/
原始答案
不幸的是,Azure没有PDF集成,因为它的计算机视觉API。要使用Azure计算机视觉,您需要自己将pdf更改为图像(JPG、PNG、BMP、GIF)。
Google do现在提供了pdf集成,到目前为止,我从测试中看到了一些非常好的结果。
这是通过vision客户端的asyncBatchAnnotateFiles方法完成的(我一直在使用API的NodeJS变体)
它可以处理多达2000页的文件,结果被分成20个页面段并输出到。
发布于 2019-03-15 11:54:17
Microsoft最近提供的最新OCR服务称为https://westus.dev.cognitive.microsoft.com/docs/services/5adf991815e1060e6355ad44/operations/587f2c6a154055056008f200,它的性能明显优于以前的OCR引擎。识别文本现在可以与https://westus.dev.cognitive.microsoft.com/docs/services/5adf991815e1060e6355ad44/operations/2afb498089f74080d7ef85eb一起使用,它可以读取和数字化多达200页的PDF文档。
发布于 2019-11-11 00:53:49
有一种新的认知服务API名为Azure Form Recognizer (目前处于预览阶段-2019年11月),它将完成以下工作:
https://azure.microsoft.com/en-gb/services/cognitive-services/form-recognizer/
它可以处理所需的文件格式:
格式必须是JPG,PNG或PDF (文本或扫描)。文本嵌入PDF是最好的,因为在字符提取和定位方面没有出错的可能性。
https://learn.microsoft.com/en-us/azure/cognitive-services/form-recognizer/overview
下面是官方形式Recognizer文档的链接:
注意:
https://stackoverflow.com/questions/52558774
复制相似问题