首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用Node.js搜索PDF文本

用Node.js搜索PDF文本
EN

Stack Overflow用户
提问于 2018-08-14 18:59:04
回答 1查看 4.4K关注 0票数 3

我有数以千计的可搜索PDF,其中有些高达1GB,超过2000页。我需要能够搜索这些文件中的文本字符串使用Node.js应用程序。

现在,文件存储在桶中。

做这件事最好的方法是什么?

一些备选方案:

  • 将PDF文件中的文本读入MySQL中,使用类似于NPM包pdf-text-extract的内容。然后使用MySQL查询搜索文本字符串。
  • 直接使用NPM软件包搜索PDF文件。

我完全疯了吗?有更好的办法吗?

EN

回答 1

Stack Overflow用户

发布于 2018-08-14 19:34:45

有专门的文本搜索库,如这一个。很可能您需要从每个pdf中提取纯文本,保存并索引它们。然后,您将能够运行搜索查询。为此特定任务设置数据库可能是过分的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51848164

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档