我得到了这个错误,而解析的PDF文件使用pypdf2,我是随同错误的PDF附件。I have attached the PDF to be parsed please click to view 有人能帮上忙吗?import PyPDF2
read_pdf = PyPDF2.PdfFileReader(pdfName)page = read_pdf.getPage(0)
page_content = page.e
似乎Solr没有正确解析我的PDF文件。我想知道有没有其他方法可以替代Apache Tika (我相信它在内部使用PDFBox )来解析PDF文件?我已经通过PDFBox (最新版本)直接运行PDF来隔离问题,这也有同样的问题。一些OCR商业软件,如Omnifind,在PDF上工作很好,但我们不能以同样的方式将它们与Solr集成,购买也不是一个选择。