文件创建者信息提取是文件拷贝检测的一个重要维度信息,前面WORD文档的创建者信息可以通过成熟的python-docx库来进行提取,而EXCEL文件的属性信息,目前还没有成熟的提取方法。
因此只能采取笨办法,即用解压缩文件工具,打开EXCEL文件,可以看到里面的文件树存在docProps/core.xml的目录。
core.xml文件打开的效果如下:
因此,可以采用读取压缩包中文件的方式来进行信息的抽取,对应的python代码如下:
def get_excel_author(excel_file):
# open zipfile
zf = zipfile.ZipFile(excel_file)
# use lxml to parse the xml file we are interested in
doc = lxml.etree.fromstring(zf.read('docProps/core.xml'))
attr_nodes = doc.getgetchildren()
# retrieve creator
#ns={'dc': 'http://purl.org/dc/elements/1.1/'}
# creator = doc.xpath('//dc:creator', namespaces=ns)[0].text
return {'作者':attr_nodes[0].text,'创建时间':attr_nodes[2].text,'修改人':attr_nodes[1].text,
'最后修改时间':attr_nodes[3].text}
显示的结果如下:
{'作者': None, '创建时间': '2018-10-15T15:04:42Z', '修改人': '77851', '最后修改时间': '2019-10-30T04:56:58Z'}
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。