我正在转换PDF,以抓取一些数据使用java。我正在使用Tesseract来抓取图像PDF,并使用PDFBox来抓取非图像PDF。通常,我们可以通过从PDF中选择文本来检查PDF是否为图像,如果您无法突出显示PDF中的文本,则它是图像PDF。我想知道在java中有没有一种方法可以知道PDF是图像PDF还是非图像PDF?
发布于 2020-07-26 03:00:08
你可以使用PDFBox从PDF中拉出文本。如果没有太多的文本,或者检索到的文本是胡言乱语,那么它更有可能是图像PDF。
https://stackoverflow.com/questions/63073221
复制相似问题