我有一组图像,用于运行OCR应用程序。此过程将生成一个带有字符偏移的XML文件。然后使用Acrobat 9将图像转换成PDF格式。现在,我想将XML文件信息作为一个不可见的文本层添加到PDF中,以实现可搜索的PDF。有一条容易的免费的路吗?
一些细节:
我不想使用Acrobat的OCR功能;
OCR进程将生成一个XML文件,其中包含以下元素:
<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample lin
在我校的Linux集群(使用Red )时,我试图远程查看PDF。问题是,我不知道哪些PDF浏览器是预先安装的。我试着用
yum install okular
但我得到
Loaded plugins: fastestmirror, langpacks, priorities, product-id, search-disabled-repos,
subscription-manager
You need to be root to perform this command.
当ssh‘’ed远程进入集群时,是否有一种方法可以查看我已经拥有的PDF查看器,并且(假设没有预先安装),有没有一种简单
我在使用Apache PDFBox,
我想把一个RGB文件转换成另一个灰度文件,而不使用图像方法,因为它的文件大小很大-_- !!
所以这就是我的步骤:
从Adobe导出一个(A4) First.pdf,包含图像、文本、矢量对象.
我读了First.pdf文件。完成了!
使用LayerUtility,从First.pdf复制页面,旋转它们并将它们放到新的PDF文件(A4) Second.pdf中。完成了!
- this method preferred because i need vector-objects to reduce the size.
然后,我想将它