首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >使用python从ms office文件中提取文本

使用python从ms office文件中提取文本
EN

Stack Overflow用户
提问于 2013-10-21 09:07:28
回答 1查看 652关注 0票数 1

我正在寻找一种从excel/word/ppt文件中提取文本的简单方法。目的是用大海捞针索引内容。

有一些包,如xlrd和熊猫,可以在excel上使用,但它们远远超出了我的需要,我不确定它们是否会直接从框中打印出单元格的未格式化文本内容。

有谁知道绕过这件事的简单方法吗?我猜ms office文件必须是xml格式的。

谢谢!

一个。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-10-21 09:21:44

我以前“用手”做过这件事--事实证明.(doc\ppt\xls)x文件只是包含所有内容的.xml文件的压缩文件。因此,如果您找不到更好的工具来读取内容,可以使用zipfile和您最喜欢的xml解析器。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19500625

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档