我编写了一个检测恶意pdf文件的代码。我需要做的是:
我扫描的每一个pdf我都希望将其哈希值保存在散列数据库中,并且输出将保存在输出容器中,因此如果我有另一个pdf文件要扫描,我将检查它的散列值是否存在于散列数据库中,然后我将从输出容器中打印输出。但是,如果哈希值不存在,则将其添加到散列数据库中,并将输出添加到输出容器中。
我如何做到这一点,以及如何将散列值与输出容器中的输出链接起来。
发布于 2014-06-16 18:47:14
你担心什么样的恶意文件?损坏的文件或含有病毒的pdfs?
要在python中使用pdf,可以使用pyPdf。
然后,您可以像这样打开该文件:
from pyPdf import PdfFileReader
my_doc = PdfFileReader(file("myfile.pdf", "rb"))
这样,您将检查它是否是有效的文件。
关于链接,它可以在数据库本身中创建吗?
https://stackoverflow.com/questions/24250028
复制相似问题