我正在尝试解析word文档文件。我使用PHP上传文件,然后尝试使用file_get_contents();函数获取内容,但问题是当它显示在前端时,会有很多垃圾代码,比如
Æ�Ѐ¤d�¤d�[$\$gd®l±����„h¤d�¤d�[$\$^„hgd®l±���
&�F�¤d�¤d�[$\$gd3¡���gd3¡����„,¤d�¤d�[$\$^„,gd(E����¤d�¤d�[$\$gdÿ/��<��C��D��I��Å������O��P��‚��¡��¢��¬����®��Ù��ã��ó��ô�����所以我的问题是,我如何清理这个文本?
发布于 2010-12-23 02:04:55
Word文档(如docx和doc)不是普通的文本文件--它们实际上是专有的文件类型,而不仅仅是字节0中的文本--这就是它们具有奇特的格式和字体的原因。.docx文件实际上是包含大量XML和样式的归档(.zip文件)。
最好的办法是使用文本输入表单,或者在线查找允许您仅提取文本的代码。或者,将文档文件下载到您自己的计算机上,并使用您自己的MS word副本打开它。
发布于 2010-12-23 02:10:42
也许可以试一试?http://www.phpclasses.org/package/3553-PHP-Edit-Microsoft-Word-documents-using-COM-objects.html
https://stackoverflow.com/questions/4512162
复制相似问题