Google 文档翻译的问题 最近两周给极客智坊新增了 PDF 文档翻译和批量网页翻译的能力,PDF 文档翻译要先支持顺序提取所有文字、链接、图片、表格,这一块还是挺复杂的,因为 PDF 本身是一个侧重表现层显示而非结构标准化的文档格式...,即便是强如 Google/DeepL 的 PDF 文档解析也有不尽如人意的地方,比如下面红框是 Google 翻译 https://arxiv.org/pdf/2310.15987.pdf 这篇论文的时候提取的图片...至于翻译质量,在非常有深度的行业内容翻译的时候,Google 翻译也并不准确,比如下面这个: 把代码都翻译了,这对于 IT 技术类的 PDF 文档来说,就非常不友好了。...所以,这里我需要选择更好的 PDF 文档提取技术然后通过 GPT 模型进行翻译,以解决信息完整性和翻译质量问题。尤其是 PDF 文档信息提取,耗费了非常多的时间和精力,不过终于还是解决了这个问题。...极客智坊 PDF 文档翻译 要翻译 PDF 文档,请进入极客翻译页面,点击顶部文档翻译Tab按钮,选择翻译用的AI模型和目标语言,然后点击上传按钮上传待翻译的PDF文件即可,我们以前面 Google 翻译的那篇
翻译服务选择免费的百度翻译api:https://api.fanyi.baidu.com/ 标准版服务完全免费,不限使用字符量 完成身份认证,还可免费升级至高级版、尊享版,每月享受200万免费字符量及增值服务...from pdfminer.layout import * from pdfminer.pdfinterp import PDFTextExtractionNotAllowed #**********翻译部分...result_tar += i["dst"] # print(result_ori, " --> ", result_tar) print("翻译文本...文件,获取文件中包含的各种对象 ''' # 解析pdf文件函数 def parse(pdf_path): textName = pdf_path.split('\\')[-1].split('...pdf转txt: ? 翻译: ?
与大多数翻译软件相比,这款软件最大的特点就是:复制一下,即可翻译。 ? 其中针对外文PDF内容复制翻译的优化,更是深得人心。...一般情况下,复制PDF内容并将其粘贴到网页翻译中时,会有额外的换行符,导致翻译出现乱码,翻译结果简直不忍直视,比如这样: ? 想要更好的翻译结果,就要一一删除这些换行符,阅读效率就大打折扣。...只需复制一下,悬浮窗就会自动出现翻译结果,不需要额外处理换行问题,翻译文本还能编辑。 ? 这款软件使用的是谷歌翻译的API,在翻译的质量和响应速度上都有保证。...除了“复制即可翻译”和“解决PDF复制翻译的问题”,这款软件还有其他很多功能。...Elliott Zheng表示,从理论上,应该只需要简单的修改、打包就可以实现linux版本以及osx版,欢迎有兴趣、有需求的同学开个PR。
1️⃣ 在线翻译工具(快速、免安装)适合 小文件或临时翻译:Google 翻译网址:https://translate.google.com步骤:打开网页 → 点击“文档”选项卡。上传 PDF 文件。...DeepL 翻译网址:https://www.deepl.com/translator支持上传 PDF(免费版有大小限制,Pro 版更大文件)。翻译质量较 Google 翻译更自然。...有道翻译 / 百度翻译支持 PDF 上传翻译,操作类似。...2️⃣ 使用 PDF 转 Word / 文本 → 翻译(保留排版)适合 内容较长或需要保留格式:步骤:使用 Adobe Acrobat / SmallPDF / ILovePDF 将 PDF 转成 Word...3️⃣ 使用专业 PDF 翻译软件适合 批量或大文件翻译:ABBYY FineReader支持 OCR 识别和 PDF 翻译。可以直接输出中文 PDF。
1. pdfunite Linux 下可以使用 pdfunite 命令来合并多个 PDF 文件。...如果你的 Linux 发行版上没有该命令,需要安装 poppler-utils(Debian 系)或 poppler(Arch 系)软件。...如果需要其他的排序规则,可以结合 Linux 下的 sort 命令来自定义顺序。sort 详细介绍参见 sort --help。 2....如果你的 Linux 发行版上没有 pdftk 命令,需要手动安装 PDFtk 软件。...pdftk 合并 PDF 的示例如下: pdftk 1.pdf 2.pdf 3.pdf cat output 123.pdf # 拼接多个 PDF 文件 pdftk A=1.pdf B=2.pdf
一、TOP1 会译:目前值得重点推荐,智能精准的AI翻译插件, 官网说会译是「用AI技术做双语对照翻译的插件,能翻网页、图片、PDF、视频字幕,所有网站都能用」。听着挺普通?...刷英文新闻时,鼠标轻轻悬停在单词上,底下立刻弹出中文解释;打开PDF论文,右键点「会译翻译」,几秒钟就能看到和原文格式一模一样的双语文档;连看Youtube视频,它都能自动跳出双语字幕……以前翻译得「复制...网页翻译2. PDF翻译:论文党/打工人的「救急神器」 翻译PDF是我最头疼的事!普通工具要么翻完乱码,要么格式全散,重新排版得半小时。...会译的「PDF翻译」简直是魔法——上传PDF后,系统自动认段落、表格、公式,翻译结果和原文**位置、字体、格式一模一样**。 前阵子帮导师翻120页的AI白皮书,里面全是图表公式。...,但PDF/视频翻译指望不上说白了,会译不是某方面的「单项冠军」,而是「全能选手」——网页、PDF、视频、学习,它都能「接住」,这是其他工具比不了的。
本文是对PDF Explained(by John Whitington)第二章《Building a Simple PDF》的摘要式翻译。 本章我们将使用文本编辑器手动构建PDF内容。...然后我们将使用 pdftk将其转换为有效的PDF文件,并在PDF查看器中进行查看。...关于PDFTK(THE PDF TOOLKIT) pdftk是一个开源的命令行程序,它的功能有: 合并分割PDF文档 旋转PDF页面 加解密 填充PDF表单 加水印和图章 打印和修改PDF元数据(metadata...第一行将文件标识为PDF并给出版本号: %PDF-1.1 //PDF version 1.1 header 第二行很难输入文本编辑器,因为它包含不可打印的字符。 我们将它留给pdftk处理。...文件,将输出写入hello.pdf: pdftk hello-broken.pdf output hello.pdf pdftk读取文件及其对象,修补错误同时将缺失数据补全。
但翻译工具的“翻车现场”也不少见——普通翻译插件直接覆盖原文导致格式错乱,代码块、公式被拆解得支离破碎;专业术语翻译不准,“API endpoint”翻成“应用编程接口终点”让人摸不着头脑;PDF翻译后乱码一堆...---2从“通用翻译”到“专业领域”:技术术语翻译准到“标红注释”技术文档的难点不仅在于语言,更在于专业术语的精准度。...---3全场景覆盖:从网页到PDF,技术人需要的它都能“接住”技术人的跨语言需求远不止网页阅读:偶尔要处理英文论文、合同文档,或者用手机查看海外技术博客,这些场景下的翻译体验同样关键。...会译的全场景支持几乎覆盖了技术人的所有需求:网页翻译:支持Chrome、Edge等主流浏览器,自动识别技术博客、GitHub、Stack Overflow等站点,翻译时优先保留代码块、表格等元素;PDF...翻译:上传PDF后,系统会自动识别段落、公式、表格,翻译结果与原文位置、字体完全一致。
1. pdfseparate Linux 下可以使用 pdfseparate 命令来分割 PDF 文件。...如果你的 Linux 发行版上没有该命令,需要安装 poppler-utils(Debian 系)或 poppler(Arch 系)软件。...pdfunite 命令的语法格式如下: pdfunite -f -l PDF-sourcefile> PDF-destfile> # 从单个 PDF 文件中提取指定范围页面...如果你的 Linux 发行版上没有 pdftk 命令,需要手动安装 PDFtk 软件。...pdftk 分割 PDF 的示例如下: pdftk 123.pdf cat 1-45 output out1_45.pdf # 从单个 PDF 文件中提取指定范围页面 其中,cat
本文是对PDF Explained(by John Whitington)的摘要式翻译。 一. 一点历史 PDF的发展 PDF起初是Adobe的一个内部项目,其目标是创建一种平台无关的文档交换方式。...PDF1.0于1993发布,包括Acrobat Distiller(用于创建和编辑PDF文件)和Acroba t Reader(只能用于查看),两款软件都是收费的。...PDF的优点 随机访问和线性化 不同与PostScript,PDF中的任何对象均可在常数时间内任意访问。这意味着访问第150页不会比第1页更困难。...特殊种类的PDF 有一些PDF格式的特殊变体,它们是PDF的子集。每个文件都是一个合法的PDF文档,但是做了一些限制。其中的两个是PDF/A和PDF/X,他们有各自的ISO标准。...PDF/A PDF/A标准(ISO 190005-1:2005)定义了一套文档规则,主要用于图片馆,档案馆和一些机构的长期存档文件。
pdf等文档工具功能完备效果不错:https://smallpdf.com/ google翻译:https://translate.google.com/toolkit/list?
翻译软件一大堆,谷歌、有道、百度等等。段落翻译效果,只有谷歌一家勉强能用。对于PDF文档翻译,对不起,谷歌也是无能为力。 CopyTranslator有效的解决了这个问题。...相信我,你只需要这一款翻译软件。 复制即翻译 PDF格式无乱码 阅读英文文章早该这样了 小通刚开始接触英文文献时简直要疯了,一周只能看一篇文章。...网上找各种翻译工具,虽然都有段落翻译,但是也顶不住PDF复制粘贴的尴尬。 ▼PDF文本复制粘贴后格式乱码 ?...粘贴后出现很多分行符,PDF的超级Bug 相信大家都遇到过这个情况,从PDF文档复制出来的文本,粘贴后格式都很乱。不仅段落格式消失,几乎每个句子都会打乱。别说翻译了,复制出来引用都要从新排版一次。...复制PDF文本后,软件通过监听剪贴板,将文本内容格式化后,粘贴在文本框,并将其中文译为显示在下面的文本框中。整个过程仅花费数秒时间。 啥?
这几天在爬了Python的官方文档,但是它里面全是英文,只有数字,没有汉字,原谅我这个英语渣渣搞不懂,只能靠翻译了,如果是复制到百度翻译的话太慢,耗时间。...所以就直接用爬虫来搞了,自动化翻译文档 这是百度翻译的页面 ? 刚开始想用urllib去做,但是给我报了一个我的浏览器版本太低了,估计就是得加headers和UA。...这个简单,直接可以使用requests或者urllib抓取,然后转换成pdf。我的是在框架里面,有点麻烦,如果你觉得麻烦可以直接请求。...我是直接将一个div里面的这个内容全部拿下来,然后拼接一个新的html,将这个新的HTML转换成PDF。...第二阶段就是打开这个pdf,读取该文档,将其发送到百度翻译的框框,获取翻译的结果,重新保存 -----------读取文档-------- def read_pdf_to_text(self
在我们日常生活中可能会接触到众多外文PDF资料,那么我们怎么才能把他们快速翻译成中文呢?今天给大家分享几个小方法。...第一种方法(office word 2013或以上版本,网络): 右键点击PDF文件选择“打开方式”>>”Word 2016“ ? 打开以后选择“审阅”>>“翻译”>>“翻译文档” ?...第二种方法: 如果你想翻译的准确一点或者更美观一点,可以试一下一下方法(chrome或其他可以安装谷歌翻译插件的浏览器、Google翻译插件、可以登录Google.com的网络环境、office2013...或以上版本或其他可以将PDF转为网页文档的软件) 和第一种方法的第一步一样,右键点击PDF文件选择“打开方式”>>”Word 2016“ ?...打开后点击Google翻译插件>>翻译此页面(如果不反应可以多点击几下)就可以了。 ? 翻译后效果: ? 第2.5个方法 如果大家的电脑不能使用Google翻译,或者没有安装chrome。
本文是对PDF Explained(by John Whitington)第三章《File Structure》的摘要式翻译。...Header PDF文件的第一行指出了文档版本号。在我们的示例中,是: %PDF-1.1 指明了该文件是PDF 1.1版本。...系统是向后兼容的,因此线性化的PDF文件也可视为普通的PDF,可以被不支持线性化PDF的阅读器读取。 线性化的PDF文件可以通过文件顶部(header之后)的线性化字典加以识别。...例: pdfopt input.pdf output.pdf 这会将input.pdf线性化并将结果写入output.pdf。...如何读PDF文件 要读取PDF文件,将其从一系列字节转换为内存中的“对象图”,通常有如下步骤: 从文件开头读取PDF header,确认这确实是PDF文档并获取其版本号。
【注】Inkscape 有个缺点,即每次只能处理一个 PDF 页面,不能同时将整个 PDF 文档导入 Inkscape。...1.2 终端操作 inkscape --export-type="svg" --export-filename="output" --pdf-page=1 input.pdf # 指定 PDF...PDF 页面导出 png 图片 其中,如果 --pdf-page 参数未指定,则默认处理 PDF 首页。...Ghostscript Ghostscript 是一款 PDF 文件和 PostScript 编程语言之间的转换器,安装了 Ghostscript 的 Linux 发行版都会有 gs 命令。...Poppler Poppler 是一个基于 Xpdf 的 PDF 渲染库,如果你的 Linux 发行版上没有该命令,需要安装 poppler-utils(Debian 系)或 poppler(Arch
1. img2pdf Linux 下可以使用 img2pdf 工具来将图片转为 PDF 文件。...如果你的 Linux 发行版上没有安装 img2pdf,可以使用包管理器(Ubuntu 上的 apt、ArchLinux 上的 pacman 等)手动安装,或者直接使用 pip 进行安装 pip install...img2pdf。...img2pdf 支持的图像格式有:JPEG、JPEG2000、PNG、TIFF,img2pdf 更多参数介绍参见 img2pdf --help。...如果需要其他的排序规则,可以结合 Linux 下的 sort 命令来自定义顺序。sort 详细介绍参见 sort --help。
本文是对PDF Explained(by John Whitington)第四章《Document Structure》的摘要式翻译。...本章我们来看PDF的逻辑结构,涉及trailer字典,文档目录(document catalog)和页面树以及PDF中两种常见结构:文本字符串和日期。...一个典型的PDF文档逻辑结构如下图所示: ? Trailer字典 这份字典位于文件尾部而不是文件的主体中,如果程序想要读取PDF文档,首先要做的就是处理trailer字典。.../Producer 文本字串 将此文件转换为PDF的程序的名称。.../PageLayout 名称 指定PDF查看器使用的页面布局。
短的文章,直接丢进kimichat、ChatGPT里面很快就可以翻译完成,而且效果很佳。但是,很长的PDF文档整篇需要翻译,怎么办呢?...●腾讯交互翻译TranSmart https://transmart.qq.com/ 软件下载后,点击左边的文件翻译,然后选择PDF文档,即可快速完成翻译。...) 800万字符、有页数的docx/pdf/pptx300页、文本文件(txt)10MB、二进制文件(pdf/docx/pptxxlsx)40MB 腾讯交互翻译的翻译质量一般,要求不高的话够用,但谈不上很好...https://app.immersivetranslate.com/ 在沉浸式翻译浏览器插件图标上右击,选择:翻译本地PDF文件,然后上传文档,即可翻译。...如果想要翻译效果好的话,可以选择openai翻译引擎,是调用ChatGPT完成翻译。 ●谷歌网页翻译 先把PDF网页转换为网页,然后用网页的谷歌翻译、火山翻译、搜狗翻译等来完成。
科研党熬夜翻译论文却遭遇表格错乱,商务人士处理合同翻译后格式全乱需重新排版,学生党因PDF翻译工具收费限制无法完成文献阅读——这些场景是否让你倍感困扰?...PDF翻译的核心痛点从来不是"能不能译",而是"译得准不准、格式保不保、用着贵不贵"。...一、测评维度与工具说明本次测评选取的5款工具均为当前市场活跃度较高的PDF翻译解决方案,涵盖专业软件、在线工具及综合平台:会译:全场景智能翻译插件的PDF专项功能,以多AI模型协同和格式保真为核心卖点Adobe...Acrobat:PDF编辑领域标杆软件,内置翻译模块DeepL PDF Translator:AI翻译领域明星产品,以译文流畅度见长Google Translate:全球用户量最大的免费翻译工具全能翻译官...2025年最值得推荐的PDF翻译工具。