首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

猝发和cat后pdf的大小增加了十倍(使用pdftk)

猝发和cat后pdf的大小增加了十倍(使用pdftk)。

猝发(Burst)是指将一个包含多个页面的PDF文件拆分成多个单页的PDF文件。这个操作可以通过使用pdftk(PDF Toolkit)工具来实现。pdftk是一款开源的命令行工具,用于处理PDF文件。

cat命令是Linux系统中的一个命令,用于连接文件并打印到标准输出。在这个上下文中,cat命令用于将多个单页的PDF文件合并成一个包含多个页面的PDF文件。

根据提供的信息,猝发和cat操作后导致PDF文件的大小增加了十倍。这可能是由于以下原因导致的:

  1. 图像压缩:原始PDF文件中的图像可能经过了压缩,而在猝发和cat操作后,这些图像可能没有被重新压缩,导致文件大小增加。
  2. 字体嵌入:原始PDF文件中的字体可能被嵌入到文件中,而在猝发和cat操作后,这些字体可能没有被正确地嵌入,导致文件大小增加。
  3. 元数据重复:原始PDF文件中可能包含了一些元数据(如作者、标题等),而在猝发和cat操作后,这些元数据可能被重复添加到每个单页的PDF文件中,导致文件大小增加。

为了解决这个问题,可以尝试以下方法:

  1. 使用其他工具:除了pdftk,还有其他一些工具可以用于处理PDF文件,如Ghostscript、PDFtk Server等。尝试使用其他工具进行猝发和cat操作,看是否能够减小文件大小。
  2. 优化图像压缩:使用图像处理工具对PDF文件中的图像进行优化和压缩,以减小文件大小。可以尝试使用腾讯云的图片处理服务(https://cloud.tencent.com/product/img),该服务提供了丰富的图像处理功能。
  3. 检查字体嵌入:检查PDF文件中的字体嵌入情况,确保字体正确地嵌入到文件中,避免重复嵌入导致文件大小增加。
  4. 清理元数据:使用PDF编辑工具清理PDF文件中的重复元数据,以减小文件大小。腾讯云的文档转换服务(https://cloud.tencent.com/product/dcv)提供了PDF编辑功能,可以尝试使用该服务进行元数据清理。

总结起来,猝发和cat操作后导致PDF文件大小增加十倍可能是由于图像压缩、字体嵌入和元数据重复等原因导致的。可以尝试使用其他工具、优化图像压缩、检查字体嵌入和清理元数据等方法来解决这个问题。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

Ubuntu中使用pdftkPDF文件进行合并、分离

可以看到合并之后对大小是2M。是前面三个文件合并之后大小。 拆分PDF 使用burst参数来拆分PDF。...如果需要指定切割每一个pdf文件名,可以添加output参数,后面跟上前缀: bob@ubuntu-20-04:~/test$ pdftk user-guide.pdf burst output user-guide...下面命令使用owner_pwuser_pw设置编辑密码访问密码。...提取奇数页面 使用下面命令提取出文件中奇数页,使用参数是1-endodd意思是从第一页到尾页选择odd(奇数页),导出为odd-started_guide.pdf文件。...bob@ubuntu-20-04:~/test$ pdftk started_guide.pdf cat 1-endodd output odd- started_guide.pdf 提取偶数页面 使用下面命令提取出文件中偶数页

1.4K20

动态提取PDF内容终极秘籍!兼一个超强网站推荐!| PA重要资源

看例子: 合并PDFpdftk 1.pdf 2.pdf 3.pdf cat output 123.pdf 或者 (使用通配符): pdftk *.pdf cat output combined.pdf...two.pdf cat A1-7 B1-5 A8 output combined.pdf 旋转PDF第一页为顺时针90度(向东)(其余页方向不变,2-end表示第2页到最后一页) pdftk in.pdf...cat 1E 2-end output out.pdf 旋转PDF第一页为逆时针(向西)90度,只提取第一页 pdftk in.pdf cat 1W output out.pdf 选择所有PDF页面...180度: pdftk in.pdf cat 1-endS output out.pdf 使用128强度加密PDF(安全模式,只读) pdftk in.pdf output mydoc.128.pdf...通过上面的步骤得到pdf文件信息,我们接下来先用比较基础文本拆分方法从pdf信息中分离出pdf文件页数,以后我们再讲其他更加方便方法(但涉及到正则、或其他dos命令用法)。

1.3K10
  • 在 Linux 上安装 pdftk-java命令方式

    然而,也可以用 pdftk-java 将封面预置到 PDF 中: $ pdftk cover.pdf body.pdf \ cat \ output book.pdf 在这个例子中,动作是 cat ...即 连接concatenate 缩写, Linux  cat 命令 一样,它将一个或多个 PDF 文件串联成一个数据流,数据流被引导到“输出output”参数指定任何文件中。...因此,我删除那一页是第 2 页。 将一个 PDF 分割成不同文件 将一个 PDF 文件分割成许多不同文件也使用 cat 动作,它原理与删除页面相似。...你可以通过将你想要页面发送到一个新文件来分割一个 PDF: $ pdftk book.pdf \ cat 1-15 \ output part-1.pdf$ pdftk book.pdf \ cat...虽然大多数现代 PDF 浏览器,比如 GNOME Evince KDE Okular,都可以填写 PDF 表格,但你也可以在 pdftk-java 帮助下填写 PDF 表格。

    1.5K30

    pdf文件插入一页,Power Automate是怎么自动做到? | PA实战

    比如要将adv.pdf文件中页面插入到“01 Nov 2029.pdf”文件后面,我们可以直接添加“合并PDF文件”步骤,选择要“插入”(合并)文件,确保adv.pdf文件在列表最前面,再配置相应合并...- 2 - 在指定页位置插入 理论上来说,在指定页面位置插入其他pdf文件(页),可以通过两次使用“将PDF文件页面提取到新PDF文件”功能,将pdf文件以指定要插入页面的位置进行“分拆”,提取成两个独立...pdf文件,然后再要插入pdf文件进行合并。...- 3 - 借助pdftk轻松插入页 前面提到,如果要通过拆分再合并方式实现页面插入,需要借助pdftk工具进行页面数识别,既然这样,倒不如直接使用pdftk工具合并pdf文档命令——炒鸡强大、灵活...比如,要将adv.pdf文件插入到文件“01 Nov 2029.pdf第3页pdftk处理命令可写为: pdftk A="01 Nov 2019.pdf" B="adv.pdf" cat A1-

    92530

    几百个pdf文件要删除广告页?Power Automate批量轻松搞定! | PA实战案例

    - 1 - 待删除页在固定位置 这个情况也可以使用“将PDF页面提取到新PDF”功能来实现,但是,问题在于仍然要借助pdftk工具识别出pdf文件总页数,因此,我们直接使用pdftk工具合并功能,...直接合并(删除)掉相应页面——该合并功能实在太好用,具体使用方法在此再举例赘述一下: 比如,要将adv.pdf文件插入到文件“01 Nov 2029.pdf第3页pdftk处理命令可写为: pdftk...A="01 Nov 2019.pdf" B="adv.pdf" cat A1-3 B A4-end output out.pdf 这个命令写法很有意思:将"01 Nov 2019.pdf"文件设为A...Step-03 在循环中添加“运行DOS命令” 注意其中DOS命令写法: 1、pdftk命令要按自己存放pdftk工具文件路径写完整:如我这里是“E:\RPA\pdf\PDFtk\pdftk.exe...但是,经研究,发现pdftk支持我们将pdf文件按页拆成不同文件(每页一个),这样,我们再针对拆分文件提取其内容进行判断,如果包含特定信息,我们直接把该页文件删除,然后再对剩下页文件进行合并,不就能达到同样目的了吗

    1.2K30

    PDF Explained(翻译)第二章 构建一个简单PDF

    然后我们将使用 pdftk将其转换为有效PDF文件,并在PDF查看器中进行查看。...关于PDFTK(THE PDF TOOLKIT) pdftk是一个开源命令行程序,它功能有: 合并分割PDF文档 旋转PDF页面 加解密 填充PDF表单 加水印图章 打印修改PDF元数据(metadata...构建元素 我们将PDF数据输入到文本文件中。 我们会跳过一些难以手动填充信息,依靠pdftk来填充它。我们会: 使用简短header。...它包含纸张大小,以及对页面列表,图形内容资源间接引用。...它们被链接到了页面字典中 /Contents条目。 流对象由一个字典其后原始数据流组成,包含了一系列操作答操作数。通常这些内容会被压缩以减少文件大小,但我们是手动输入,不去压缩它。

    1.4K30

    前端使用puppeteer 爬虫生成《React.js 小书》PDF并合并

    使用最新 JavaScript浏览器功能直接在最新版本 Chrome中运行测试。 捕获时间线跟踪 您网站,以帮助诊断性能问题。 测试 Chrome扩展程序。...3.7 返回宽高,用于设置视图大小 3.8 设置视图大小,创建生成 pdf 4、关闭浏览器 具体代码:可以查看这里爬虫生成《React.js小书》 pdf每一小节代码 // node 执行这个文件...(毕竟笔者是写程序,所以就用代码来实现合并了) 这个 pdf-merge依赖 pdftk 安装 PDFtk Windows 下载并安装 笔者安装,重启电脑才能使用。...Debian, Ubuntu 安装 笔者在Ubuntu系统安装,即可使用。...总之可以用来做很多有趣事情。 2、用 puppeteer 生成每一小节 pdf,用依赖 pdftk pdf-merge npm包, 合并成一个新 pdf文件。

    2.7K20

    从Slideshare.net 下载Slide方法:

    2)、Acrobat安装完成,缺省在控制面板“打印机传真”中创建了“Adobe PDF虚拟打印机,设置“Adobe PDF属性:     “Adobe PDF属性->打印首选项->布局->...方向”:设置为横向     “Adobe PDF属性->打印首选项->Adobe PDF设置->Adobe PDF页面大小”:设置为Slide 7.5 x 10     3)、将下载SWF文件直接拖到浏览器中...需要安装swftools、pdftk、imagemagick 包     大致方法:     1、使用wget -q –O 获得指定url地址文档所有swf文件实际地址并下载     2、使用swftools...4、使用pdftk将多个pdf文件合并成一个pdf文件      在合并多个pdf文件为一个pdf文件时候,由于需要按照页面顺序合并,因此使用了sort -k1.3       PDFS=`ls *.pdf...+adjoin %d.pdf     PDFS=`ls *.pdf | sort -k1.3 `     pdftk $PDFS cat output $DOCSHORT.pdf     cd

    11.8K31

    AHB学习笔记1.AHB概述2.AHB信号3.AHB传输4.控制信号

    典型AHB系统包括以下部分: 可支持高带宽传输主干总线 AHB主设备(如高性能CPUDMA设备等) AHB从设备(存储器APB桥等) 1.2.AHB互连 AHB互连使用多路复用器策略,由以下几个部分组成...ahb_basic_nowait.png 无等待传输下,一个传输与三个时钟沿有关: 第一个时钟沿:第一个时钟沿,主机将地址信息控制信息发送到总线上 第二个时钟沿:第二个时钟沿上,从机采样主机地址信息控制信息...从机需要使用OKAY状态回应 NONSEQ(10):标志主机当前发送地址控制信号与上一次传输无关(单次传输就是该状态) SEQ(11):标记主机处于猝发传输中间部分,即当前发送地址控制信号与上一次地址控制信号有关...ahb_trantype.JPG 第一次传输,开启一次猝发传输,因此该地址与上一次传输无关,使用类型NONSEQ 第二次传输,无法立刻进行传输,因此使用BUSY标记延迟一个周期,延迟可以进行传输,且处于猝发传输中...16拍回卷猝发 111 INCR16 16拍增量猝发 注意一次猝发传输不能跨越1kB地址区间,且传输起始地址必须与数据类型对应,例如传输字数据二进制起始地址必须满足两位为00。

    5.8K100

    PDF标准详解(一)——PDF文档结构

    ,通过它我们可以知道当前PDF文档一些具体信息,例如根节点位置,交叉引用表大小 它们之间关系如下图: PDFHello World 说了这么多,我们来试试来自己编辑一个hello world...因为PDF是可移植文档,它需要在不同设备上显示同样内容,这里不能使用像素,如果使用像素,在同样尺寸显示器上如果显示器像素分辨率不同,那么显示结果将会不同。所以这里一般使用磅作为单位。...再说明文档读取过程前,我们先使用一些工具来补全这个文档,这里使用 pdftk 工具。...可以在这里 进行下载,完成之后,使用如下命令进行补全 pdftk hello.pdf output hello-full.pdf 成功后会得到如下内容 %PDF-1.0 %忏嫌 1 0 obj <<...包含所有页面对象,这个文档只有一个页面对象 找到Page 对象可以根据 Resources Contents属性可以找到页面内容页面引用资源。

    41711

    技术|十个鲜为人知Linux命令-Part 5

    47.lsof-iTCP:80-sTCP:LISTEN该命令会输出所用正在使用80端口进程/服务名称。在80端口运行下列命令会更好理解这个命令,它会列出所用运行在该端口进程/服务。.../Desktop/squeeze.iso49.pdftkpdftk命令用来合并几个pdf文件。你必须安装有pdftk程序。如果还没有,请用apt或yum来获取相应包。...$pdftk1.pdf2.pdf3.pdf….10.pdfcatoutputmerged.pdf50.ps-LF-uuser_name该命令会输出一个用户进程线程。...如果你需要频繁(以不同用户身份)登入或登出桌面时,那就需要startx来救场。这个命令建立了一个新会话从而避免了在一个会话中反复登入登出。...为了在X会话间进行交换,我们可以通过‘ctrl+Alt+F7’‘ctrl+Alt+F8’组合键来完成。

    43430

    软硬件融合技术内幕 终极篇 (8) —— 美味豆汁

    两个地址发送完毕,CASRAS恢复高电平,从DQ也就是数据线读出数据。...有一天,Z同学发现,自己常去豆汁店隔壁便利店有卖漱口水香水,于是每次Z同学享用完豆汁,都要去隔壁便利店购买漱口水香水。从此,两个人重归于好,达成了生命大河蟹。...这叫做猝发访问(Burst Access)。...EDO内存也增加了对Burst Address支持,如图: 图中,由于CPU读写内存地址是连续,DRAM控制器发送了Row AddressColumn Address,可以连续读取一串数据...SDRAM读写时序如上图。注意到SDRAM可以在发送Row AddrCol Addr同时,发送读写命令信号,并支持EDO内存猝发读写等特性。

    29520

    AXI协议中通道结构

    AXI4协议基于猝发式传输机制。在地址通道上,每个交易有地址控制信息,这些信息描述了需要传输数据性质。...图4‑14 写通道结构 通道定义 五个独立通道都包含一组标记信息信号,并且使用双向 VALID READY信号实现握手机制。...AXI 协议支持以下机制: l可变长度猝发,每次猝发完成1-16次数据传输 l支持8-1024字节传输块猝发 l地址卷回、地址递增地址固定猝发 l通过独占交易锁定交易实现原子操作 l系统级缓存和缓冲控制...写响应通道 写响应通道是从设备对写交易作出响应通道。所有写交易使用完成信号。 不是猝发中每个独立数据传输都返回一个完成信号,而是每个猝发完成一起返回一个完成信号。...另外,当给定一个互联,在其内部几乎任何一点处均可以使用寄存器片。它对处理器高速内存之间实现直接,快速链接非常有利。但使用简单寄存器片去分离一个较长路径给低性能外设。

    1.1K30

    linux中50个有用命令汇总

    最后一个命令将使用sudo运行。 2.python -m SimpleHTTPServer:通过端口 8000 为当前工作目录创建一个简单网页。....*)/;’.这个简单脚本在终端中打开用户未读邮件。 19.screen:从会话中分离重新连接长时间运行进程。 20.file: 输出关于文件类型信息。 21.id: 打印用户组 ID。...25.du -h –max-depth=1 Command:以人类可读格式输出当前文件夹内所有文件和文件夹大小。 26.expr:从终端解决简单数学计算。...31.tac: 以相反顺序打印文件内容。 32.strace: 一个调试工具。 33.disown -a && exit Command:在后台运行命令,即使在终端会话关闭也是如此。...48.find -size +100M: 这个命令组合,列出所有大小为 100M 或更大文件,文件夹。 49.pdftk: 将许多 pdf 文件连接成一个好方法。

    1.4K20

    6.1 总线概念结构形态

    单总线: 使用一条单一系统总线来连接CPU、内存I/O设备。...即使后来增加了具有简单仲裁逻辑DMA控制器以支持DMA传送,但仍不能满足多CPU环境要求。 总线信号是CPU引脚信号延伸,故总线结构紧密与CPU相关,通用性较差。 2....当某个设备请求使用总线时,在该设备所属请求线上发出申请信号BRi(1)。 CPU按优先原则同意给出授权信号BGi作为回答(2)。...即以FRAME#无效,IRDY#也变为无效时刻表明一个总线周期结束。由此可见,PCI数据传送以猝发式传送为基本机制,单一数据传送反而成为猝发式传送一个特例。...即在FRAME#变为有效目标地址送上AD线,目标方在延迟一个时钟周期必须以DEVSEL#信号有效予以响应。否则,主设备中止总线周期。 (7)主方结束一个总线周期时不要求目标方确认。

    1.9K20

    重回榜首BERT改进版开源了,千块V100、160GB纯文本大模型

    此外,XLNet 数据集扩充十倍,它 TPU 训练成本也增加了 5 倍,也许 RoBERTa 也遵循同样规则? 数据 BERT 模型预训练关键是大量文本数据。...也许十倍量级数据增加,可能还不如几倍高质量数据带来提升大。...表 3:在 BOOKCORPUS WIKIPEDIA 上用不同 batch 大小(bsz)训练基础模型在留出训练数据(ppl)开发集上困惑度。 4....原版 BERT 实现使用字符级别的 BPE 词汇,大小为 30K,是在利用启发式分词规则对输入进行预处理之后学得。...这种做法分别为 BERTBASE BERTLARGE 增加了 15M 20M 额外参数量。 实验结果 Facebook 研究人员综合所有这些改进,并评估了其影响。

    37950

    重回榜首BERT改进版开源了,千块V100、160GB纯文本大模型

    此外,XLNet 数据集扩充十倍,它 TPU 训练成本也增加了 5 倍,也许 RoBERTa 也遵循同样规则? 数据 BERT 模型预训练关键是大量文本数据。...也许十倍量级数据增加,可能还不如几倍高质量数据带来提升大。...表 3:在 BOOKCORPUS WIKIPEDIA 上用不同 batch 大小(bsz)训练基础模型在留出训练数据(ppl)开发集上困惑度。 4....原版 BERT 实现使用字符级别的 BPE 词汇,大小为 30K,是在利用启发式分词规则对输入进行预处理之后学得。...这种做法分别为 BERTBASE BERTLARGE 增加了 15M 20M 额外参数量。 实验结果 Facebook 研究人员综合所有这些改进,并评估了其影响。

    50520
    领券