首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >PDF生成器标识

PDF生成器标识
EN

Stack Overflow用户
提问于 2020-10-01 23:19:56
回答 1查看 70关注 0票数 0

识别自动生成的PDF的生成器/检测模式的最佳方法是什么?我一直在使用Tabula和文本分析来提取文件识别后的数据,但我很难将文件分派到正确的解析器。显然,PDF没有关于作者的元数据,并且文件名可以更改,因此不是一个准确的身份识别来源。

谢谢,亚瑟

EN

回答 1

Stack Overflow用户

发布于 2020-10-02 01:40:09

你可以看看预告片:

代码语言:javascript
运行
复制
trailer
<<
/Size 9
/Root 1 0 R
/Info 8 0 R
>>
startxref
626
%%EOF

..。扫描一下/Info。将有一个包含元数据的8 0(在本例中)部分,例如

代码语言:javascript
运行
复制
8 0 obj
<<
/Creator (PDFDUMP WIN32 )
/CreationDate (D:20201231000000)
>>
endobj

但是当元数据部分不是直接的(例如,包含十六进制代码,或者间接指向另一个部分)时,它将变得更加复杂。

当元数据是这样的时候,它会变得很棘手:

代码语言:javascript
运行
复制
42 0 obj
(git-cheat-sheet-education)
endobj
43 0 obj
(Mac OS X 10.9.1 Quartz PDFContext)
endobj
44 0 obj
(Adobe Illustrator CC \(Macintosh\))
endobj
45 0 obj
(D:20140224195805Z00'00')
endobj
1 0 obj
<< /Title 42 0 R /Producer 43 0 R /Creator 44 0 R /CreationDate 45 0 R /ModDate
45 0 R >>
endobj

有相当多的开源代码,可以为你显示PDF元数据。

我不确定我是否回答了你的问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64158398

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档