首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用Python分析PDF文件

使用Python分析PDF文件
EN

Stack Overflow用户
提问于 2014-06-16 18:36:53
回答 1查看 1.4K关注 0票数 1

我编写了一个检测恶意pdf文件的代码。我需要做的是:

我扫描的每一个pdf我都希望将其哈希值保存在散列数据库中,并且输出将保存在输出容器中,因此如果我有另一个pdf文件要扫描,我将检查它的散列值是否存在于散列数据库中,然后我将从输出容器中打印输出。但是,如果哈希值不存在,则将其添加到散列数据库中,并将输出添加到输出容器中。

我如何做到这一点,以及如何将散列值与输出容器中的输出链接起来。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-06-16 18:47:14

你担心什么样的恶意文件?损坏的文件或含有病毒的pdfs?

要在python中使用pdf,可以使用pyPdf

然后,您可以像这样打开该文件:

代码语言:javascript
运行
复制
from pyPdf import PdfFileReader
my_doc = PdfFileReader(file("myfile.pdf", "rb"))

这样,您将检查它是否是有效的文件。

关于链接,它可以在数据库本身中创建吗?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24250028

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档