首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >Azure计算机视觉API - OCR到PDF文件上的文本

Azure计算机视觉API - OCR到PDF文件上的文本
EN

Stack Overflow用户
提问于 2018-09-28 07:47:02
回答 6查看 20.9K关注 0票数 10

我试图利用计算机视觉API对OCR,一个PDF文件,是一个扫描的文件,但被视为图像PDF。

我已经测试过它,它告诉我PDF是"InvalidImageFormat",“输入数据不是有效的图像”。当我在PNG上测试它时,它工作得很好。

是否有对PDF图像使用API,或者有一个Azure API,我可以结合使用去PDF > PNG >文本?

EN

回答 6

Stack Overflow用户

回答已采纳

发布于 2018-10-30 06:56:30

编辑

由于已提供了额外的服务,虽然我个人并没有尝试其中一些服务,但它们可能符合这个目的。

https://learn.microsoft.com/en-us/azure/search/cognitive-search-concept-intro

在将来的某一时刻,当它变成GA的时候。https://aws.amazon.com/textract/

原始答案

不幸的是,Azure没有PDF集成,因为它的计算机视觉API。要使用Azure计算机视觉,您需要自己将pdf更改为图像(JPG、PNG、BMP、GIF)。

Google do现在提供了pdf集成,到目前为止,我从测试中看到了一些非常好的结果。

这是通过vision客户端的asyncBatchAnnotateFiles方法完成的(我一直在使用API的NodeJS变体)

它可以处理多达2000页的文件,结果被分成20个页面段并输出到。

https://cloud.google.com/vision/docs/pdf

票数 8
EN

Stack Overflow用户

发布于 2019-03-15 11:54:17

Microsoft最近提供的最新OCR服务称为https://westus.dev.cognitive.microsoft.com/docs/services/5adf991815e1060e6355ad44/operations/587f2c6a154055056008f200,它的性能明显优于以前的OCR引擎。识别文本现在可以与https://westus.dev.cognitive.microsoft.com/docs/services/5adf991815e1060e6355ad44/operations/2afb498089f74080d7ef85eb一起使用,它可以读取和数字化多达200页的PDF文档。

票数 8
EN

Stack Overflow用户

发布于 2019-11-11 00:53:49

有一种新的认知服务API名为Azure Form Recognizer (目前处于预览阶段-2019年11月),它将完成以下工作:

https://azure.microsoft.com/en-gb/services/cognitive-services/form-recognizer/

它可以处理所需的文件格式:

格式必须是JPG,PNG或PDF (文本或扫描)。文本嵌入PDF是最好的,因为在字符提取和定位方面没有出错的可能性。

https://learn.microsoft.com/en-us/azure/cognitive-services/form-recognizer/overview

下面是官方形式Recognizer文档的链接:

https://westus2.dev.cognitive.microsoft.com/docs/services/form-recognizer-api/operations/AnalyzeWithCustomModel

注意:

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52558774

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档