我正在寻找一种从excel/word/ppt文件中提取文本的简单方法。目的是用大海捞针索引内容。
有一些包,如xlrd和熊猫,可以在excel上使用,但它们远远超出了我的需要,我不确定它们是否会直接从框中打印出单元格的未格式化文本内容。
有谁知道绕过这件事的简单方法吗?我猜ms office文件必须是xml格式的。
谢谢!
一个。
发布于 2013-10-21 09:21:44
我以前“用手”做过这件事--事实证明.(doc\ppt\xls)x文件只是包含所有内容的.xml文件的压缩文件。因此,如果您找不到更好的工具来读取内容,可以使用zipfile
和您最喜欢的xml解析器。
https://stackoverflow.com/questions/19500625
复制相似问题