开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >用Node.js搜索PDF文本

问用Node.js搜索PDF文本
EN

Stack Overflow用户

提问于 2018-08-14 18:59:04

回答 1查看 4.4K关注 0票数 3

我有数以千计的可搜索PDF，其中有些高达1GB，超过2000页。我需要能够搜索这些文件中的文本字符串使用Node.js应用程序。

现在，文件存储在桶中。

做这件事最好的方法是什么？

一些备选方案：

将PDF文件中的文本读入MySQL中，使用类似于NPM包pdf-text-extract的内容。然后使用MySQL查询搜索文本字符串。
直接使用NPM软件包搜索PDF文件。

我完全疯了吗？有更好的办法吗？

google-app-engine

EN

回答 1

Stack Overflow用户

发布于 2018-08-14 19:34:45

有专门的文本搜索库，如这一个或这。很可能您需要从每个pdf中提取纯文本，保存并索引它们。然后，您将能够运行搜索查询。为此特定任务设置数据库可能是过分的。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51848164

复制

相似问题