MinerU是由OpenDataLab团队打造的大模型时代的文档提取/转换神器
支持PDF、Word、PPT等多种文档的智能解析,可用于机器学习、大模型语料生产、RAG等场景
我用了一个很长的pdf文档来试了一下,解析的效果很好
渲染出来的markdown效果很好,但是某些公式识别的不够准确
一些复杂图标直接改成图片引用进行处理
转化为markdown方便编辑,转化为json方便数据处理
不过在转换成markdown中.标题都是一级标题,没有层次(这可能是pdf标题格式的问题?),导致我尝试在web渲染markdown时锚点全是h1,seo优化极差 : (
总体来说效果还是不错的,未来应该会推出更多的格式转换
推荐大家试一试,有硬件条件的可以本地部署一个玩玩
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有