识别自动生成的PDF的生成器/检测模式的最佳方法是什么?我一直在使用Tabula和文本分析来提取文件识别后的数据,但我很难将文件分派到正确的解析器。显然,PDF没有关于作者的元数据,并且文件名可以更改,因此不是一个准确的身份识别来源。
谢谢,亚瑟
发布于 2020-10-02 01:40:09
你可以看看预告片:
trailer
<<
/Size 9
/Root 1 0 R
/Info 8 0 R
>>
startxref
626
%%EOF
..。扫描一下/Info
。将有一个包含元数据的8 0
(在本例中)部分,例如
8 0 obj
<<
/Creator (PDFDUMP WIN32 )
/CreationDate (D:20201231000000)
>>
endobj
但是当元数据部分不是直接的(例如,包含十六进制代码,或者间接指向另一个部分)时,它将变得更加复杂。
当元数据是这样的时候,它会变得很棘手:
42 0 obj
(git-cheat-sheet-education)
endobj
43 0 obj
(Mac OS X 10.9.1 Quartz PDFContext)
endobj
44 0 obj
(Adobe Illustrator CC \(Macintosh\))
endobj
45 0 obj
(D:20140224195805Z00'00')
endobj
1 0 obj
<< /Title 42 0 R /Producer 43 0 R /Creator 44 0 R /CreationDate 45 0 R /ModDate
45 0 R >>
endobj
有相当多的开源代码,可以为你显示PDF元数据。
我不确定我是否回答了你的问题。
https://stackoverflow.com/questions/64158398
复制相似问题