腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
大型
pdf
文件
中
提取
文本
时
,
PDFBox
占用
非常大
的
空间
、
我正在使用
PDFBox
从
pdf
文件
中使用AsyncTask类来获取
文本
。但问题是,如果
pdf
文件
的
大小
非常大
,那么它需要大量
的
时间来加载。是否有任何其他解决方案来获取
文本
或内容
从
大型
pdf
file.This是我
的
班级: public class AsyncTaskClass extends AsyncTask<Void,
浏览 0
提问于2017-07-19
得票数 0
1
回答
将从
PDF
中
解析
的
文本
与
PDFBox
进行匹配
、
、
、
最近,我很难找到使用
PDFBox
从
PDF
中
解析出来
的
字符串。我
的
解决方案可能对其他人有帮助。使用这样
的
PDFBox
从
PDF
中
获得了一个
文本
列表(为了简洁起见省略了例外情况):PDDocument documentpdfStripper.getLineSeparato
浏览 4
提问于2017-07-05
得票数 0
回答已采纳
1
回答
波斯
文件
的
PDFBOX
、
、
、
、
我想使用
pdfBox
从
波斯语
pdf
文件
中
提取
测试,但是它返回所有波斯字符
的
"?" (它正确地返回同一文档
中
的
拉丁单词)。 我怎么才能修好它?有什么建议吗?
浏览 3
提问于2018-08-29
得票数 3
1
回答
使用POI或Tika
提取
文本
、流到流,而无需在内存中加载整个
文件
。
、
、
、
、
我试图使用Apache和
PDFBox
本身,或者在Apache
的
上下文中,
从
大量
的
Microsoft和
PDF
文件
中
提取
和处理纯
文本
(在某些情况下是数百个megs )。另外,我
的
应用程序是多线程
的
,所以我将同时解析其中
的
许多
大型
文件
。 在这种情况下,我必须以流式方式处理
文件
。在此过程
中
的
任何一步都不能将整个
浏览 6
提问于2014-07-30
得票数 1
3
回答
从
PDf
到String
、
、
、
获取
PDF
文件
的
文本
(单词)为一个长字符串或字符串数组
的
最简单方法是什么? 我试过
pdfbox
,但它对我不起作用。
浏览 0
提问于2009-11-05
得票数 7
4
回答
使用apache camel解析
pdf
文件
、
、
、
如何使用Apache Camel读取/解析
pdf
文件
。有任何特定
的
示例或代码片段来解析该
文件
吗?感谢你
的
帮助。 提前谢谢。
浏览 8
提问于2013-10-30
得票数 0
1
回答
使用IcePDF或
PDFBox
从
PDF
生成HTML页面
、
、
、
我想使用IcePDF或
PDFBox
从
PDF
中
提取
内容。但我现在不知道如何继续
从
提取
的
文本
和图像生成HTML网页。
浏览 6
提问于2012-12-24
得票数 1
2
回答
PDF
提取
时
忽略表格
、
、
、
我正在尝试用Java制作一个
文本
处理应用程序,它需要
文本
作为输入。现在,我
从
用户指定
的
PDF
文件
中
提取
此输入。我正在使用
PdfBox
进行
文本
提取
。我遇到
的
问题是,
PDF
文件
可能包含表格、方程式和特殊符号,所以
PdfBox
提取
的
文本
在很多地方都包含垃圾。由于这个原因,我
的
<em
浏览 2
提问于2012-03-27
得票数 0
1
回答
从
UTF-8格式
pdf
文件
中
读取并以cp1252格式写入写入器。
、
、
、
、
我正在尝试使用
文件
流从一个
pdf
文件
中
读取,我想用cp1252编码格式将它写给一个作者。oos.toString(out,"UTF-8");writer.write(ch);oos.close(); 但是输出是错误
的
,因为
文本
是不可读
的
(没有正确转换)。
浏览 3
提问于2016-03-21
得票数 0
2
回答
Apache
PDFBox
删除字符之间
的
空格。
、
、
我们使用
PDFBox
从
PDF
中
提取
文本
。 在
文本
提取
之后,我们得到以下
文本
:(空格加在',‘和’8‘之间) 这是我们
的
代码:PDDocument
pdf
浏览 2
提问于2015-04-10
得票数 6
回答已采纳
1
回答
java.lang.NoClassDefFoundError:未能初始化类org.apache.
pdfbox
.pdmodel.PDPage
、
从
Java服务
提取
PDF
文件
中
的
文本
时
出现此错误。在Windows Server上使用JDK1.8和
PDFbox
1.8.6。
浏览 41
提问于2021-05-05
得票数 0
2
回答
如何在java
中
读取
pdf
文件
、
我正在处理一个需要读取
pdf
文件
的
java项目。但是,在不使用任何外部库
的
情况下,可以使用java内建特性读取
pdf
文件
吗?
浏览 4
提问于2012-05-31
得票数 0
回答已采纳
5
回答
从
PDF
(google应用程序引擎)中
提取
文本
、
、
有没有免费
的
Java库可以
从
PDF
中
提取
文本
,与Google应用程序引擎兼容?有没有其他方法可以
从
PDF
中
提取
文本
?我试过,不幸
的
是他们不能正确处理非英文字符。
浏览 6
提问于2010-03-28
得票数 2
回答已采纳
1
回答
如何在java
中
替换
PDF
文件
的
内容,无论是段落还是句子。
、
我有一个
PDF
文件
。我想用(.doc/ .docx/ .xls)这样
的
文件
中
的
一些其他
文本
替换这个
文件
中
的
几个段落。如何在同一
PDF
文档
中
逐段或逐句扫描和编辑
文本
。 提前谢谢你..
浏览 0
提问于2013-10-23
得票数 0
5
回答
如何使用Apache
PDFBox
从
PDF
文件
中
提取
文本
、
我想用Apache
PDFBox
从
给定
的
PDF
文件
中
提取
文本
。main" java.lang.NullPointerException我将
pdfbox
-1.8.5.jar和fontbox-1.8.5.jar添加到类路径
中
。编辑 我在程序
的
开头添加了System.out.println(
浏览 121
提问于2014-05-23
得票数 31
回答已采纳
2
回答
在android
中
处理
pdf
的
PDFBox
、
我正尝试在我
的
android应用程序中使用
pdfbox
lib,但是我得到了 java.lang.NoClassDefFoundError: org.
pdfbox
.pdmodel.PDDocument这个错误,我正在开发
的
商业应用程序,我不能使用其他库喜欢它
的
文本
.So我
的
问题是,我们可以在.as中使用
PDfBox
。File(Environment.getExternalStorageDirectory()+File.separator+"
浏览 6
提问于2012-03-14
得票数 2
3
回答
PDFBox
:拆分
pdf
和输出前缀
、
、
、
、
我喜欢使用
PDFBox
从一个大
的
PDF
文件
中
提取
一个页面。我所有的“真正
的
”
PDF
文件
都位于一个目录下。因此,如果我
提取
一个页面,我喜欢将该页面保存到单个页面的不同目录
中
)。(或通过管道将其标准输出)带有选项PDFSplit seams
的
P
浏览 3
提问于2012-12-10
得票数 0
回答已采纳
1
回答
如何使用
PDFBox
java
从
PDF
中
识别和删除隐藏
的
文本
我使用
pdfbox
库读取
PDF
中
的
文本
,并将其保存在
文本
文件
中
。它也读取隐藏
的
文本
,这是不可见
的
PDF
是通过
PDF
阅读器查看。我
的
要求是获得这些隐藏
文本
的
一些特征,以区别于正常
文本
。
浏览 0
提问于2020-09-17
得票数 2
回答已采纳
1
回答
从
PDF
格式
的
图像中
提取
文本
、
、
、
、
假设我
的
用户去了他们办公室
的
扫描仪。扫描仪能够生成扫描文档
的
PDF
。这基本上就是我所拥有的
文件
类型。iText of
P
浏览 5
提问于2015-08-18
得票数 2
回答已采纳
3
回答
如何使用
pdfbox
提取
文本
内容
的
字体样式?
、
我正在使用
pdfbox
库
从
pdf
文件
中
提取
文本
内容。我可以
提取
所有的
文本
,但找不到
提取
字体样式
的
方法。
浏览 10
提问于2011-08-04
得票数 6
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
SpringBoot 实现 PDF 添加水印有哪些方案?
SpringBoot 实现 PDF 添加水印,5 种实现方案
python玩转PDF文档
万能PDF转换工具pdf shaper免费专业版
File Juicer mac版v4.87
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券