有没有明确和适当的过程来转换一个pdf文件到一个word文件中的所有格式和图像在asp.net网络应用程序?
发布于 2012-11-01 23:17:54
要做到这一点,最好的方法是使用OCR。它将识别PDF文件中的文本和图像,然后您可以将其保存到DOC文件中。我知道一个名为leadtools的第三方工具包,它应该可以帮助您满足您的需求,因为它支持ASP.NET环境。您可以查看他们的Online OCR Demo,也可以查看他们的网站以了解更多信息,或者联系他们的支持团队。
发布于 2012-10-31 15:16:43
PDF是一种表示格式,其中所有内容都按绝对位置放置。没有段落和其他结构化元素(除非它是带标签的PDF)。从技术上讲,您可以按任意顺序逐个字符输出每个单词,但从视觉上看,它看起来就像一个普通文本。因此,为了正确地转换为word,需要进行内容识别或某种类型的光学字符识别(例如ABBYY FineReader)
市场上有一些付费组件,允许进行文本提取,也有一些可以将页面转换为图像(显然,这不是转换为word的理想方法)。
https://stackoverflow.com/questions/13149363
复制相似问题