我有数以千计的可搜索PDF,其中有些高达1GB,超过2000页。我需要能够搜索这些文件中的文本字符串使用Node.js应用程序。
现在,文件存储在桶中。
做这件事最好的方法是什么?
一些备选方案:
pdf-text-extract的内容。然后使用MySQL查询搜索文本字符串。我完全疯了吗?有更好的办法吗?
发布于 2018-08-14 19:34:45
有专门的文本搜索库,如这一个或这。很可能您需要从每个pdf中提取纯文本,保存并索引它们。然后,您将能够运行搜索查询。为此特定任务设置数据库可能是过分的。
https://stackoverflow.com/questions/51848164
复制相似问题