前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >国产开源的文档转换器:MinerU

国产开源的文档转换器:MinerU

作者头像
姓王者
发布2025-03-28 12:13:02
发布2025-03-28 12:13:02
870
举报
文章被收录于专栏:姓王者的博客姓王者的博客

简介

MinerU是由OpenDataLab团队打造的大模型时代的文档提取/转换神器

支持PDF、Word、PPT等多种文档的智能解析,可用于机器学习、大模型语料生产、RAG等场景

特点

  • 多语种支持
  • 多类型支持
  • 导出格式为json markdown
  • 客户端无需登录
  • 开源免费
  • 真国产(上海人工智能实验室)

使用效果

我用了一个很长的pdf文档来试了一下,解析的效果很好

2025-03-27-192249
2025-03-27-192249

渲染出来的markdown效果很好,但是某些公式识别的不够准确

2025-03-27-192359
2025-03-27-192359

一些复杂图标直接改成图片引用进行处理

转化为markdown方便编辑,转化为json方便数据处理

不过在转换成markdown中.标题都是一级标题,没有层次(这可能是pdf标题格式的问题?),导致我尝试在web渲染markdown时锚点全是h1,seo优化极差 : (

总结

总体来说效果还是不错的,未来应该会推出更多的格式转换

推荐大家试一试,有硬件条件的可以本地部署一个玩玩

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-03-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 特点
  • 使用效果
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档