首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用PHP清理字符串中的垃圾文本?

如何使用PHP清理字符串中的垃圾文本?
EN

Stack Overflow用户
提问于 2010-12-23 02:02:30
回答 2查看 660关注 0票数 1

我正在尝试解析word文档文件。我使用PHP上传文件,然后尝试使用file_get_contents();函数获取内容,但问题是当它显示在前端时,会有很多垃圾代码,比如

代码语言:javascript
运行
复制
Æ�Ѐ¤d�¤d�[$\$gd®l±����„h¤d�¤d�[$\$^„hgd®l±���
&�F�¤d�¤d�[$\$gd3¡���gd3¡����„,¤d�¤d�[$\$^„,gd(E����¤d�¤d�[$\$gdÿ/��<��C��D��I��Å������O��P��‚��¡��¢��¬��­��®��Ù��ã��ó��ô�����

所以我的问题是,我如何清理这个文本?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-12-23 02:04:55

Word文档(如docx和doc)不是普通的文本文件--它们实际上是专有的文件类型,而不仅仅是字节0中的文本--这就是它们具有奇特的格式和字体的原因。.docx文件实际上是包含大量XML和样式的归档(.zip文件)。

最好的办法是使用文本输入表单,或者在线查找允许您仅提取文本的代码。或者,将文档文件下载到您自己的计算机上,并使用您自己的MS word副本打开它。

票数 1
EN

Stack Overflow用户

发布于 2010-12-23 02:10:42

也许可以试一试?http://www.phpclasses.org/package/3553-PHP-Edit-Microsoft-Word-documents-using-COM-objects.html

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4512162

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档