文章/答案/技术大牛

发布

社区首页 >问答首页 >PDF生成器标识

问PDF生成器标识
EN

Stack Overflow用户

提问于 2020-10-01 23:19:56

回答 1查看 70关注 0票数 0

识别自动生成的PDF的生成器/检测模式的最佳方法是什么？我一直在使用Tabula和文本分析来提取文件识别后的数据，但我很难将文件分派到正确的解析器。显然，PDF没有关于作者的元数据，并且文件名可以更改，因此不是一个准确的身份识别来源。

谢谢，亚瑟

signature

parsing

pdf

回答 1

Stack Overflow用户

发布于 2020-10-02 01:40:09

你可以看看预告片：

trailer
<<
/Size 9
/Root 1 0 R
/Info 8 0 R
>>
startxref
626
%%EOF

..。扫描一下/Info。将有一个包含元数据的8 0(在本例中)部分，例如

8 0 obj
<<
/Creator (PDFDUMP WIN32 )
/CreationDate (D:20201231000000)
>>
endobj

但是当元数据部分不是直接的(例如，包含十六进制代码，或者间接指向另一个部分)时，它将变得更加复杂。

当元数据是这样的时候，它会变得很棘手：

42 0 obj
(git-cheat-sheet-education)
endobj
43 0 obj
(Mac OS X 10.9.1 Quartz PDFContext)
endobj
44 0 obj
(Adobe Illustrator CC \(Macintosh\))
endobj
45 0 obj
(D:20140224195805Z00'00')
endobj
1 0 obj
<< /Title 42 0 R /Producer 43 0 R /Creator 44 0 R /CreationDate 45 0 R /ModDate
45 0 R >>
endobj

有相当多的开源代码，可以为你显示PDF元数据。

我不确定我是否回答了你的问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64158398

复制

相似问题

问PDF生成器标识
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDF生成器标识EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDF生成器标识
EN