PDFMathTranslate,一款在GitHub上备受欢迎的PDF翻译项目,专注于解决PDF文档翻译中的难题,特别是针对包含复杂数学公式、图表和科技术语的专业文档。它不仅提供了高质量的翻译服务,还保持了原文的格式和排版,使译文PDF在内容和版式上与原文高度一致。
今天给大家介绍一下该项目,感兴趣的朋友可以亲自部署体验一下!
开源项目地址:https://github.com/Byaidu/PDFMathTranslate
PyMuPDF
库(又名fitz
)来解析PDF文档,提取文本、图像、字体和页面布局等信息。mathpix-snippet
或sympy
等库进行公式识别与解析,确保翻译后的公式保持原样。ReportLab
库来保持原文的排版和样式,包括字体、颜色、边框和页面边距等。pip install pdf2zh
pdf2zh document.pdf
无需预先安装 Python 环境
下载 setup.bat 并双击运行
@echo offsetlocal enabledelayedexpansion
set PYTHON_URL=https://www.python.org/ftp/python/3.12.7/python-3.12.7-embed-amd64.zipset PIP_URL=https://bootstrap.pypa.io/get-pip.pyset HF_ENDPOINT=https://hf-mirror.comset PIP_MIRROR=https://mirrors.aliyun.com/pypi/simple
if not exist pdf2zh_dist/python.exe ( powershell -Command "& {Invoke-WebRequest -Uri !PYTHON_URL! -OutFile python.zip}" powershell -Command "& {Expand-Archive -Path python.zip -DestinationPath pdf2zh_dist -Force}" del python.zip echo import site >> pdf2zh_dist/python312._pth)cd pdf2zh_dist
if not exist Scripts/pip.exe ( powershell -Command "& {Invoke-WebRequest -Uri !PIP_URL! -OutFile get-pip.py}" python get-pip.py)path Scripts
pip install --no-warn-script-location --upgrade pdf2zh -i !PIP_MIRROR!pdf2zh -i
pause
pip install pdf2zh
pdf2zh -i
http://localhost:7860/
查看 documentation for GUI 获取细节说明
docker pull byaidu/pdf2zhdocker run -d -p 7860:7860 byaidu/pdf2zh
http://localhost:7
https://www.modelscope.cn/studios/AI-ModelScope/PDFMathTranslate
首先上传一个英文文档test.pdf,该文章381k,共2页。
这里选择是Bing模型,大家可以自己去尝试其他模型。下图
转换过程大概需要几分钟,下图是转换之后的文件。
翻译后的效果如下图:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。