开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用PyPDF2检测Google Docs生成的PDF文件中未嵌入的字体

PyPDF2是一个用于处理PDF文件的Python库。它提供了一系列功能，包括合并、拆分、提取文本、提取图像等。使用PyPDF2可以检测Google Docs生成的PDF文件中未嵌入的字体。

未嵌入的字体是指在PDF文件中使用了某种字体，但该字体并未被嵌入到PDF文件中。这意味着在打开该PDF文件时，如果系统中没有该字体，那么可能会导致字体显示不正确或无法显示。

为了检测Google Docs生成的PDF文件中未嵌入的字体，可以使用PyPDF2库的以下步骤：

导入PyPDF2库：

import PyPDF2

打开PDF文件：

pdf_file = open('your_pdf_file.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

遍历PDF文件的每一页：

for page_num in range(pdf_reader.numPages):
    page = pdf_reader.getPage(page_num)

获取每一页中的字体信息：

font_list = page.extract_fonts()

检查字体是否嵌入：

for font in font_list:
    if not font['embedded']:
        print("未嵌入的字体:", font['name'])

通过以上步骤，我们可以获取Google Docs生成的PDF文件中未嵌入的字体信息。

对于解决未嵌入字体的问题，可以考虑以下方案：

将字体嵌入到PDF文件中：可以使用PyPDF2库或其他PDF处理工具，将所需字体嵌入到PDF文件中，以确保字体在任何设备上都能正确显示。
使用系统默认字体：如果无法嵌入字体，可以选择使用系统默认字体替代未嵌入的字体，以确保文档在不同设备上的一致性。

腾讯云提供了一系列与PDF文件处理相关的产品和服务，例如腾讯云文档转换（https://cloud.tencent.com/product/tmtc）和腾讯云云托管（https://cloud.tencent.com/product/tch）等。这些产品可以帮助您处理和转换PDF文件，满足您的需求。

相关搜索:如何使用PDFBox将标准字体嵌入到生成的PDF中使用extrafonts包嵌入字体后，在pdf文件中未显示Unicode字符如何更改使用DDX文件生成的PDF中目录的字体？使用PyPDF2从目录中的PDF文件提取文本 pdfkit库未在生成的pdf文件中嵌入图像文件未出现在Google Drive中-使用Python创建的Google docs 使用pypdf2将文件夹中的所有pdf文件合并到一个pdf中使用Python和Google Vision检测PDF文件上的文本时，出现JSON解码错误在基于TypeScript/eslint/Webpack的生成环境中检测未使用的导出符号自动生成的索引列不会导出到使用Jquery Datatable生成的文件( pdf、excel)中如何在Xamarin窗体中使用嵌入式资源字体文件中的图标通过apache日志检测服务器中未使用的文件/文件夹为什么Google Cloud Vision api无法检测特定pdf文件中的文本，尽管它在非常相似的pdf文件上运行良好？在mac osx上使用latex(特别是pdflatex)生成时,pdf文档中的字体搞砸了 R shiny中的下载处理程序不会生成PDF文件(使用rmarkdown::render())引导程序生成的HTML文件不能使用wkhtmltopdf在PDF中呈现CSS Trend micro在Install4J生成的安装程序中检测到“未授权文件加密”如何从Google Cloud SQL managed Postgres中删除未使用的临时文件？使用Google Chrome [MacOS；终端]输入网站输入并为文件夹中的所有文件生成输出如何使用Selenium C#从webapp下载生成的pdf文件并将其附加到Visual Studio中的测试结果

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

LangChain和Gemini打造问答应用

本文将指导您集成 LangChain 和 Google 的 Gemini LLM 模型,构建一个基于 PDF 文件的问答应用。...在本教程中，我们将探索 LangChain 编程框架（用于在应用程序中使用大型语言模型（LLM））与 Google 的 Gemini LLM 的集成，以构建基于 PDF 文件的问答应用程序。...python -m venv venv source venv/bin/activate 使用以下内容创建 requirements.txt 文件： pypdf2 chromadb google.generativeai...文件您可以使用任何您选择的 PDF 文件。...但在本教程中，我们将加载一家虚构公司的员工手册。下面的代码加载 PDF 文件，并将其拆分为长度为 250 个字符的块，每个块之间重叠 50 个字符。

1651 0

【Python】给PDF添加水印

前言利用 PyPDF2 处理 PDF 文件，相关文档：https://pythonhosted.org/PyPDF2/ 本文针对仅有 PDF 文件，而无相关 PDF 编辑器的情况下，给 PDF 添加水印...一、前期准备安装 PyPDF2 ，命令提示框输入: pip install PyPDF2 新建 watermark.pdf 文件实际的水印，可以在此文件里修改水印文字的字体和位置。...PDF文件合并实现添加水印；第一种方法的水印文件是通过 word 另存为 PDF，第二种方法是自动创建一个 PDF 文件；第二种方法与第一种相比，水印的字体不能随意改变，不支持中文，省去了方法一中手动生成...PDF 水印的步骤；第一种方法可以任意修改水印的位置和字体。...参考文献 1：python pdf加水印 2：Python中通过PyPDF2实现PDF添加水印本次的分享就到这里 *** [11] 好书不厌百回读，熟读自知其中意。

5.6K2 1

用 Python 编辑 PDF 文件

本文将说明如何使用 PyPDF2 以及正则表达式操作 PDF 文件，并从中提取有关信息。...PyPDF2 在 Python 中，用于处理 PDF 文件的库有很多，比如： pdfrw slate PDFQuery pdfminer pdfplumber 以上列举的几个是比较典型的库，此外还有很多...PyPDF2 只能读取 PDF 文档中的文本，无法从 PDF 中获取图像或其他媒体文件。...PDF 文件中的各种字体、位置和其他参数之间存在差异。...复制了一个页面，并将其添加到另一个新文档中！读取所有文本前面使用 PyPDF2 ，读取了特定页面的文本。是否可以一次性就获取 PDF 的所有文本呢？“这个应该有”。显然，一个简单方法就是循环。

2.9K3 0

【Python】给PDF添加水印

本文针对仅有 PDF 文件，而无相关 PDF 编辑器的情况下，给 PDF 添加水印。...一、前期准备安装 PyPDF2 ，命令提示框输入: pip install PyPDF2 新建 watermark.pdf 文件实际的水印，可以在此文件里修改水印文字的字体和位置。...PDF文件合并实现添加水印；第一种方法的水印文件是通过 word 另存为 PDF，第二种方法是自动创建一个 PDF 文件；第二种方法与第一种相比，水印的字体不能随意改变，不支持中文，省去了方法一中手动生成...PDF 水印的步骤；第一种方法可以任意修改水印的位置和字体。...参考文献 [1]：python pdf加水印 [2]：Python中通过PyPDF2实现PDF添加水印

1.3K4 0

Python | PDF 提取文本的几种方法

前言常见的 PDF 文件可以分为两类：一种是文本转化而成（Text-Based），通常可以直接复制和粘贴；另一种是扫描文件而成（Scanned），比如影印书籍、插入图片制成的文件。...依据此分类，将 Python 中处理 PDF 文件的第三方库可以简单归类：文本转化：PyPDF2,pdfminer,textract,slate 等库可用于提取文本；pdfplumber,camelot...说的是：Python-tesseract 是 Google Tesseract-OCR 引擎的包装。...小结本文对 Python 中从 PDF 提取信息的方法进行了介绍，并将主要第三方库进行了对比。可以看出，PDF 的转换是一个比较麻烦的事，转换效果很大程度取决于文档本身的质量。...如果文件量比较小，还不如复制粘贴，或者使用 APP 和网站处理来得快。

11.5K4 1

PyMuPDF 1.24.4 中文文档（十三）

总体从版本 1.4 开始，PDF 支持将任意文件作为 PDF 文档文件的一部分（“嵌入式文件流”）嵌入其中（参见章节“7.11.4 嵌入式文件流”，第 103 页的 Adobe PDF 参考手册）。...在许多方面，这与 ZIP 文件或 MS Windows 中的 OLE 技术中的概念相似。然而，PDF 嵌入式文件不支持像 ZIP 格式那样的目录结构。一个嵌入式文件可以包含自身的嵌入式文件。...除了嵌入式文件外，PDF 1.7 还添加了集合到其支持范围中。这是一种高级的存储和展示嵌入式文件元信息（即任意和可扩展属性）的方式。...在许多方面，这与 ZIP 文件或 MS Windows 中的 OLE 技术中发现的概念相似。但是，PDF 嵌入文件不支持像 ZIP 格式那样的目录结构。一个嵌入文件可以包含其自身的嵌入文件。...将旧的docs/faq.rst移动到单独的docs/recipes-*文件中。移除了一些未使用的文件和目录。

8661 1

使用PyPDF2模块处理PDF文件通用方法技巧

大家好，又见面了，我是你们的朋友全栈君。基本概念：PDF和Word文档是二进制文件，除了文本之外还保存字体，颜色，布局等信息。...处理PDF文件，使用PyPDF2模块，PyPDF2不能从PDF文档中提取图像、图表或其他媒体，但可提取文本，作为字符串返回。...在文件用正确的口令解密之前，尝试调用函数来读取文件会返回错误。解密PDF使用pdfreader.decrypt(‘口令字符串’)函数，提供正确的口令返回1 否则返回0。...PDF中拷贝页面、旋转页面、重叠页面以及加密文件。...实际生成文件需调用PdfFileWriter对象的write()方法。write()方法接受一个普通的以写二进制模式?打开的File对象。

1.2K3 0

Office三件套批量转PDF以及PDF书签读写与加水印

书签的提取与写入 PDF书签提取 PDF书签保存到文件从文件读取PDF书签数据向PDF写入书签数据给PDF加水印生成水印PDF文件 PyPDF2库批量加水印拷贝书签加水印同时复制书签 PyMuPDF...： PDF书签的提取与写入后面我们打算使用 PyPDF2 来批量加水印，比较尴尬的是用这个库只能重新创建 PDF 文件，导致书签丢失，所以我们需要事先能提取标签并写入才行。...拷贝书签下面我们将书签从原始文件拷贝到加过水印的 PDF 文件中： from PyPDF2 import PdfFileReader, PdfFileWriter def get_pdf_Bookmark...PyMuPDF给PDF加文字水印前面我们使用PyPDF2库给PDF增加了背景底图性质的图片水印，那有什么方法可以给PDF增加文字型的水印呢？那就是通过PyPDF2库。...如果直接给未经 PyPDF2 库压缩的 PDF 增加文字水印会导致文件大小增加较大，此时还可以使用 PyPDF2 库对 PDF进行压缩输出。

2.9K1 0

在 Python 中创建和修改 PDF 文件

您可以通过单击以下链接下载示例中使用的材料：从 PDF 中提取文本在本节中，您将学习如何阅读 PDF 文件并使用PyPDF2包提取文本。...现在，您可以ugly_rotated2.pdf在当前工作目录中打开该文件，并将其与ugly_rotated.pdf之前生成的文件进行比较。它们应该看起来相同。...在本节中，您将使用ReportLab 工具包从头开始生成 PDF 文件。 ReportLab 是用于创建 PDF 的全功能解决方案。有一个需要花钱使用的商业版本，但也有一个功能有限的开源版本。...使用reportlab，您可以从头开始创建表格、表单，甚至是高质量的图形！在ReportLab的用户手册中包含的如何从头开始生成PDF文档的例子太多了。...结论：在 Python 中创建和修改 PDF 文件在本教程中，您学习了如何使用PyPDF2和reportlab包创建和修改 PDF 文件。

12.9K7 0

使用Chainlit、Qdrant和Zephyr构建用于文档问答的大型语言模型应用程序

•使用PyPDF2进行文本提取：利用PyPDF2工具从上传的PDF文档中有效地提取文本内容，确保提取的准确性。...•重新排序上下文检索的结果：不直接返回检索到的文档，可以使用给定查询的上下文来压缩它们，以便只返回相关信息。•生成AI系统集成：将检索到的文档及其元数据传递给生成AI系统。...触发先进的认知过程，根据文档中的上下文洞察力生成信息丰富的回答。•用户回应综合：通过将生成AI系统生成的综合答案回传给用户，以一个体贴且全面的回应形式恰当地回答原始查询中的问题。...文本分块和处理文本：「- 使用指定参数的RecursiveCharacterTextSplitter将PDF文件中的文本拆分为块。...•代码然后处理PDF文本，为每个块创建元数据，并将其存储在Chroma向量存储中。语言模型和检索器 •代码使用HuggingFaceBgeEmbeddings的语言模型对文本进行嵌入。

1.5K2 0

Python 自动化指南（繁琐工作自动化）第二版：十五、使用 PDF 和 WORD 文档

除了文本，它们还存储大量的字体、颜色和布局信息。如果您想让您的程序读写 PDF 或 Word 文档，您需要做的不仅仅是简单地将它们的文件名传递给open()。...图 15-7：restyled.docx文件你可以在python-docx.readthe docs.io/en/latest/user/styles.html找到关于 Python-Docx 使用样式的更完整的文档...从 Word 文档创建 PDF PyPDF2 模块不允许您直接创建 PDF 文档，但是如果您使用的是 Windows 并且安装了 Microsoft Word，则有一种方法可以使用 Python 生成...可以使用PyPDF2模块读写 PDF 文档。不幸的是，由于复杂的 PDF 文件格式，从 PDF 文档中读取文本可能并不总是能够完美地转换为字符串，有些 PDF 可能根本不可读。...PDF 偏执狂使用第 10 章的中的os.walk()函数，编写一个脚本，该脚本将检查文件夹（及其子文件夹）中的每个 PDF，并使用命令行中提供的密码加密 PDF。

3.6K5 0

PPT自动化处理

字体名称 2 .font.bold 是否加粗 3 .font.italic 是否斜体 4 .font.color 字体颜色 5 .font.size 字体大小 PDF自动化处理 pypdf2模块...可以读取、写入、分割、合并PDF文件非Python标准模块，需要单独安装 pdfplumber模块可以更好地读取PDF文件内容可以提取PDF中的表格非Python标准模块，需要单独安装 pip...install pypdf2 pip install pdfplumber 打开PDF文件 pdfplumber.open(filename) 获取指定索引页的PDF .pages[index...] 提取文本 .extract_text() 提取表格 .extract_table() 提取多张表格口 .extract_tables() 使用Python操作PDF文档打开指定的...PDF文件 PdfFileReader（filename）获取PDF文件的总页数 .getNumPages() 创建PDF文件 PdfFileWriter() 添加page页

1011 0

python自动化办公——python操作Excel、Word、PDF集合大全

1）修改表格中的内容 ① 向某个格子中写入内容并保存 ② .append()：向表格中插入行数据 ③ 在python中使用excel函数公式(很有用... 6）设置行高和列宽 7）合并单元格章节二：python使用PyPDF2和pdfplumber操作pdf 1、PyPDF2和pdfplumber库介绍 ... 章节二：python使用PyPDF2和pdfplumber操作pdf 1、PyPDF2和pdfplumber库介绍 PyPDF2官网： PyPDF2官网，可以更好的读取、写入、分割、合并PDF...文件；pdfplumber官网：pdfplumber官网，可以更好地读取PDF文件内容和提取PDF中的表格；这两个库不属于python标准库，都需要单独安装； 2、python提取PDF文字内容 1...pdf 这里有一个“时间序列.pdf”的文件，共3页，我们将其每一页存为一个PDF文件。

1.8K0 0

在python中有多个对应的库可以操作Pdf文件，其中最常用的是Pypdf2

在python中有多个对应的库可以操作Pdf文件，其中最常用的是Pypdf2PyPDF是一个操作pdf的模块，现在最常用的版本是PyPDF2;需要注意的是，这个库不能操作pdf获取文字信息PyPDF2介绍...安装PyPDF2使用pip包管理器安装PyPDF2最新版本：pip install PyPDF2编辑器推荐使用VSCode,启动VSCode，可以直接选择打开“终端”菜单，进行库的安装和程序的运行；非常的方便使用...PyPDF2PyPdf2中有两个模块，分别是:读取库 PDFFileReader操作库 PdfFileWriter1、使用PDFFileReader可以获取pdf文件的基本信息，还可以获取到每一页pdf...(input_path)pdfWriter = PdfFileWriter()addPage 向此 PDF 文件添加页面该页面通常是从一个PdfFileReader实例中获取的pdfWriter.addPage...(fname, fdata) 在 PDF 中嵌入文件# pdfWriter.addAttachment(fname="附件一.txt", fdata=b'Hello world!')

8751 0

用Python玩转PDF的各种骚操作

尽管PDF最初是由Adobe发明的，但它现在是由国际标准化组织（ISO）维护的开放标准。你可以通过使用PyPDF2包在Python中处理已先存在的PDF。...如何从Python中提取PDF文档信息我们可以使用PyPDF2从PDF中提取元数据和一些文本，尤其是当在预先存在的PDF文件上执行某些类型的自动化时是非常有用的。...我们可以打印出该信息并将其返回以备将来使用。虽然PyPDF2具有.extractText()，可以在其页面对象上使用提取文本（本例中未显示），但它的效果不是很好。...首先遍历输入的paths，并为每个输入创建一个PDF阅读对象。然后遍历PDF文件中的所有页面，并使用.addpage()将这些页面写入writer对象。...对于PDF中的每个页面，创建一个新的PDF的writer实例并向其添加单个页面。然后，将该页面写入一个唯一命名的文件。脚本运行完毕后，就可以将原始PDF的每个页面拆分为单独的PDF。如何添加水印？

2.1K5 0

51. Python 数据处理（2）

，如果名称改变，则生成新名称的文件。...#所以，由上代码可以分析出，如果文件原本就存在，而你要修改它，不能直接使用xlwt，必须使用 xlutils.copy 方法复制一份出来再修改，最后保存或覆盖原文件。 #原表格内容 ?...pdf文件安装pypdf2 # pip install pypdf2 import PyPDF2 import os # 建立一个装pdf文件的数组 xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx...文件内容一页一页的复制到新建的空白pdf里 pdfOutput = open('combine.pdf', 'wb') # 生成combine.pdf文件 pdfWriter.write(pdfOutput...： format : 识别图像的源格式，如果该文件不是从文件中读取的，则被置为 None 值。

6212 0

软件测试|教你用Python处理PDF文件（二）

前言上一篇文章我们介绍了Python使用pypdf2实现读取PDF文件的文本内容，合并PDF文件，以及为PDF文件添加水印，本篇文章我们来介绍使用Python实现对PDF文件的加密解密。...环境准备我们还是使用PyPDF2这个库来实现对PDF文件的加密解密操作，安装命令如下： pip install PyPDF2 文件加密有的时候，我们并不希望所有人都能看到PDF文件的内容，所以我们就需要给...") writer = PdfWriter() # 拷贝每一页的内容 for page in reader.pages: writer.add_page(page) # 在新的pdf文件中添加密码...(f) 运行代码后，生成一个新的加密文件，点击查看时，会提示需要输入密码，如下：图片文件解密当我们要查看加密文件的内容时，可以使用这个功能，我们就以上面加密生成的文件为例，对加密文件进行解密，代码如下...为PDF文件加密解密的方法，加密解密是我们常用的操作，使用该方法，可以提高我们的工作效率。

2032 0

这52页pdf，顶10篇python自动化办公文章

1）修改表格中的内容 ① 向某个格子中写入内容并保存 ② .append()：向表格中插入行数据 ③ 在python中使用excel函数公式(很有用) ④ .insert_cols()和.insert_rows...表格文件 ⑫ sheet.freeze_panes：冻结窗口 ⑬ sheet.auto_filter.ref：给表格添加“筛选器” 4、批量调整字体和样式 1）修改字体样式 2）获取表格中格子的字体样式...3）设置对齐样式 4）设置边框样式 5）设置填充样式 6）设置行高和列宽 7）合并单元格章节二：python使用PyPDF2和pdfplumber操作pdf 1、PyPDF2和pdfplumber...② 拆分pdf 2）旋转及排序pdf ① 旋转pdf ② 排序pdf 4、pdf批量加水印及加密、解密 1）批量加水印 2）批量加密、解密 ① 加密pdf ② 解密pdf并保存为未加密的pdf 章节三...很重要) 3、利用Python调整Word文档样式 1）修改文字字体样式 2）修改段落样式 ① 对齐样式 ② 行间距调整 ③ 段前与段后间距欢迎关注黄同学的CSDN！

4K2 0

如何使用Python玩转PDF各种骚操作？

尽管PDF最初是由Adobe发明的，但它现在是由国际标准化组织（ISO）维护的开放标准。你可以通过使用PyPDF2包在Python中处理已先存在的PDF。...如何从Python中提取PDF文档信息我们可以使用PyPDF2从PDF中提取元数据和一些文本，尤其是当在预先存在的PDF文件上执行某些类型的自动化时是非常有用的。...我们可以打印出该信息并将其返回以备将来使用。虽然PyPDF2具有.extractText()，可以在其页面对象上使用提取文本（本例中未显示），但它的效果不是很好。...首先遍历输入的paths，并为每个输入创建一个PDF阅读对象。然后遍历PDF文件中的所有页面，并使用.addpage()将这些页面写入writer对象。...以下是如何使用PyPDF2将PDF拆分为多个文件： from PyPDF2 import PdfFileReader, PdfFileWriter def split(path, name_of_split

2K2 0

技术学习：Python（11）｜操作PDF

q=pd找到很多这种第三方库来供给我们使用，这些库可以很方便的处理word、excel、ppt、pdf等文件，今天我们就学习一下Python处理PDF文档的两个常用库「pdfplumber」、「pypdf2...然后在文件所在目录下面执行这个命令，将pdf转为CSV文件： Aion.Liu $ pdfplumber background-checks.cs 转换后使用...’) 打开一个pdf文件的路径，文件字节码对象或者类文件字节码对象。...从上面一段代码，不难看出来，这里是可以提取pdf中的一个表格，并且打印到了控制台。除了提取表格，还可以在提取前设置提取的table_settings属性。...如果您计划使用 PyPDF2 加密或解密使用 AES 的 PDF，您将需要安装一些额外的依赖项。使用常规安装支持使用 RC4 加密。

3991 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭