首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Github项目推荐 | Ambar:开源的文档搜素引擎

Ambar: Document Search Engine Site:https://ambar.cloud/ ?...Ambar是一个开源文档搜索引擎,具有自动爬取、OCR、标记和即时全文搜索功能。...项目地址: https://github.com/RD17/ambar Ambar定义了在工作流中实现全文文档搜索的新方法: 使用单个 docker-compose 文件就能轻松部署Ambar 在文档和图像内容中执行类似...google的搜索 Ambar支持所有流行的文档格式,如果需要的话也可以执行OCR 给你的文档打标签 使用一个简单的REST Api将Ambar集成到你的工作流中 特点 搜索 教程:掌握Ambar搜索查询..., 俄罗斯语 ambar_ru, 德语 ambar_de, 意大利语 ambar_it, 波兰语 ambar_pl, 中文 ambar_cn, 中日韩统一表意文字 ambar_cjk 爬取 Ambar

5.4K30

ElasticSearch 高亮显示大文档搜索结果的策略和性能对比

2016年12月,我们开始研究Ambar——一个文档搜索系统。Ambar使用ElasticSearch作为核心搜索引擎。...在Ambar开发的过程中,我们处理了很多与ES相关的问题,我们想分享我们得到的宝贵经验。让我们从每个搜索系统的一个重要功能开始——高亮显示搜索结果。...因为Ambar是一个文档搜索系统,我说的文档也是指文件,所以它必须处理非常大的文件(就全文搜索而言),大小大于100Mb。本文介绍了在利用ElasticSearch高亮显示大型文档时如何达到高性能。...定义问题 Ambar使用ES作为搜索引擎,搜索经过解析的文件/文档内容及其元数据。...下面是Ambar在ES中存储一个文档的例子: { sha256: "1a4ad2c5469090928a318a4d9e4f3b21cf1451c7fdc602480e48678282ced02c

2.3K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    扫码

    添加站长 进交流群

    领取专属 10元无门槛券

    手把手带您无忧上云

    扫码加入开发者社群

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭
      领券