腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
PDFBOX
读取
pdf
的
文本
时
偶尔
会
返回
\
r
\
n
java
、
pdfbox
我目前正在
使用
PDFBox
来
读取
我继承
的
一组
pdf
的
文本
。 String documentText = sw.toString() 对于大多数文件,我在documentText字段中处理
文本
但是,对于24个文件中
的
3个,第一个文件
的
documentText内容是“\
浏览 21
提问于2017-02-24
得票数 0
2
回答
用变量从生成
的
PDF
文档中提取
文本
java
、
pdf
、
pdfbox
、
apache-tika
我正在从
PDF
文档中提取
文本
。此
PDF
是
使用
WS从AS400
读取
数据生成
的
。因此,在打印
文本
时
,输出如下:is 123、is 124是is 400中
的
变量。Java APi无法从变量及其打印变量名中
读取
值,而不
浏览 6
提问于2017-11-13
得票数 0
1
回答
将TrueType编码
的
标识-H字符串在
pdf
中替换为
PDFBox
java
、
pdfbox
我
的
任务是替换
pdf
中
的
字符串。不幸
的
是,该字符串是
使用
标识-H编码
的
TrueType CID字体。:COSDictionary{(COSName{Length}:COSInt{647})(COSName{Filter}:COSName{FlateDecode}) }) })COSStrin
浏览 1
提问于2016-04-25
得票数 2
1
回答
来自两行
的
字母互换,Adobe Reader可以完成此工作
java
、
pdfbox
我有一个关于
pdfbox
1.8.13
的
问题。我正在试着从一个单页
PDF
文档中
读取
整个
文本
。Adobe Reader可以做到这一点,
pdfbox
可以
读取
几乎整个页面,但会将文档
的
前两行和最后两行打乱,以便字母互换。 有没有人知道如何解决这样
的
问题?第一,问在哪里,第二,我如何与您共享
PDF
,第三,是否有人有可能检查是否问题也存在于版本2.0.7
的
pdfbox
,我理解奇怪是完全不同<
浏览 3
提问于2017-08-08
得票数 1
回答已采纳
2
回答
Java -从
PDF
文件中提取非重复单词
java
、
pdfbox
、
full-text-indexing
我用Java编写了一个简单
的
程序,
使用
PDFBox
从
PDF
文件中提取单词。它从
PDF
中
读取
文本
并逐字摘录。String[] args) throws Exception { Stri
浏览 0
提问于2018-10-09
得票数 0
回答已采纳
1
回答
如何
使用
PDDocument.loadNonSeq,大型
pdf
剥离器/解析
文本
技术
java
、
pdf
、
pdfbox
、
pdftotext
我有一些关于解析
pdf
的
问题以及如何: 我有一个大
的
pdf
,我需要解析它并获得
文本
内容。我
使用
PDDocument.load()和PDFTextStripper逐页提取数据(pdfstripper有setStartPage(
n
)和setEndPage(
n
),
n
=
n
+1每一个页面循环)。是否<
浏览 5
提问于2015-10-09
得票数 1
回答已采纳
2
回答
如何将
pdf
页面中
文本
的
坐标从左下角更改为左上角
c#
、
pdf
、
itext
、
coordinates
、
pdfbox
我正在
使用
PDFBOX
和itextsharp并处理一个
pdf
。这样我就可以得到矩形内
文本
的
文本
坐标。
使用
itextsharp.dll提取矩形坐标。基本上,我从itextsharp.dll获得矩形坐标,其中itextsharp
使用
坐标系统作为左下角。我从
PDFBOX
得到
pdf
页面
文本
,其中
PDFBOX
使用
坐标系统作为左上角。并
使用
PDFBO
浏览 6
提问于2014-12-31
得票数 1
回答已采纳
1
回答
同样地,在Apache创建中
的
字符空间
java
、
apache
、
pdf
、
pdfbox
、
text-formatting
我正在尝试
使用
Apache
PDFBox
创建
PDF
文件,其内容是每行80个字符
的
纯
文本
消息。当我试图创建
PDF
时
,我注意到空格、_和其他字符占用了行
的
不同宽度,并且不能像在
文本
编辑器中那样格式化它们。import org.apache.
pdfbox
.pdmodel.PDDocument; import org.apache.
pdfbox
.pdmodel.PDDocumentInformation;i
浏览 4
提问于2016-12-08
得票数 0
回答已采纳
3
回答
PDF
到
文本
问题- Python阿拉伯字符在某些位置被翻转
python
、
pdf
、
fonts
、
pdfbox
、
apache-tika
我有
pdf
文件,是
使用
Almohanad字体(发现)。我
使用
Python
的
Tika来提取这些pdfs中
的
文本
。提取效果很好。然而,对于一些字符来说,结果
会
变得一团糟。是上面提到
的
pdf
文件中
的
一个示例。import requestsfrom tika import parser from_path = ".实际上是可读
的</em
浏览 3
提问于2021-03-17
得票数 1
5
回答
如何
使用
Apache
PDFBox
从
PDF
文件中提取
文本
java
、
pdfbox
我想用Apache
PDFBox
从给定
的
PDF
文件中提取
文本
。main" java.lang.NullPointerException我将
pdfbox
编辑 我在程序
的
开头添加了System.out.println("program starts");。我运行了它,然后我得到了上面提到
的
相同
的
错误,并且
浏览 121
提问于2014-05-23
得票数 31
回答已采纳
1
回答
在java中通过
pdfbox
读取
pdf
java
、
pdf
、
pdfbox
我在
使用
pdfbox
阅读
pdf
时
遇到了一个问题。我
的
实际
pdf
部分不可读,所以当我在编辑器中复制和粘贴不可读部分时,它会显示小方框符号,但当我试图通过
pdfbox
读取
同一个文件
时
,这些字符就不会被
读取
(而且我也不希望它们被
读取
)。有一个
pdfbox
示例,其中我们在pdfTextStripper类下重写了pdfTextStripper方法,以获得一些额外
的
字体属性。
浏览 1
提问于2016-06-16
得票数 1
回答已采纳
2
回答
在可见签名-
pdfbox
上写入unicode
文本
pdf
、
pdfbox
、
adobe-reader
我们用
PDFBox
构建
PDF
。我也有明显
的
签名。s而不是
文本
。问题1)当我看到
PDF
结构
时
,有问题-标记而不是
文本
.是。我不知道怎么用unicode字符写?Tjendstream我有编码WinAsciEncoding
的
字体。我可以在
pdfbox
中
使用
另一种编码吗?.中嵌入了字体,但是
文本
是用这种字体编写
的
,而不是(在可见
浏览 1
提问于2013-07-17
得票数 1
2
回答
Apache
PDFBox
删除字符之间
的
空格。
pdfbox
、
text-extraction
、
pdf-parsing
我们
使用
PDFBox
从
PDF
中提取
文本
。 在
文本
提取之后,我们得到以下
文本
:(空格加在',‘和’8‘之间) 这是我们
的
代码:PDDocument
pdf
= PDDocument.load(reu
浏览 2
提问于2015-04-10
得票数 6
回答已采纳
1
回答
当我尝试
读取
PDF
时
,
PDFBox
读取
空字符串
c#
、
.net
、
parsing
、
pdf
、
pdfbox
我正在尝试
使用
pdf
box从文件中
读取
文本
,以便在文件系统中对其进行排序。我正在
使用
C#。我可以从互联网上
读取
示例
pdf
,但出于某种原因,我试图
读取
的
pdf
只
返回
一个没有实际字符
的
字符串。下面是我
使用
的
代码:using org.apache.
pdfbo
浏览 5
提问于2018-08-09
得票数 0
1
回答
PDFBox
getText未
返回
所有可见
文本
pdf
、
pdfbox
、
text-extraction
我
使用
PDFBox
从我
的
PDF
文档中提取
文本
。它检索
文本
,但不是全部(具体而言,似乎缺少标题/页眉和页脚
文本
)。缺少
的
部分不是图像,而是在
使用
foxit阅读器中
的
文本
视图
时
提取出来
的
。我
使用
的
是1.8.12版本,并用2.0.2做了一个测试用例,看看它是否
会
返回
更多
的
浏览 6
提问于2016-08-16
得票数 0
回答已采纳
1
回答
PDFBox
1.8.10:填充和签名
PDF
生成无效签名
java
、
pdf
、
pdfbox
、
sign
、
pdf-form
我在
PDF
文档中(以编程方式)填写一份表单(AcroPdf),然后在文档上签名。我从doc.
pdf
开始,创建doc_filled.
pdf
,
使用
PDFBox
的
setFields.java示例。然后,我根据签名示例,
使用
一些代码签署doc_filled.
pdf
,创建doc?filled_signed.
pdf
,并在Acrobat中打开
pdf
。输入
的
字段数据是可见
的
,签名面板告诉我 “此签
浏览 5
提问于2015-10-01
得票数 6
回答已采纳
2
回答
PdfBox
PDF
到图像转换linux (字符间距问题)
java
、
linux
、
image
、
pdf
、
pdfbox
我正在
使用
PdfBox
-1.6.0.jar来执行从
PDF
到图像(.png)
的
转换。我注意到,当代码在Linux上执行时,与在Windows上执行
的
适当字符间距(与
pdf
相比)相比,有明显
的
字符间距差异(增加)。 字体为Helvetica。寻找为什么存在行为差异
的
线索。任何帮助都是非常感谢
的
。
浏览 1
提问于2012-01-28
得票数 2
2
回答
上传到IIS应用程序时
PDF
到
文本
转换?
.net
、
asp.net
、
pdf
、
text
我研究过几个C#动态链接库,但没有发现任何特别有效
的
方法。我
的
要求是:
PDFBox
是用Java编写
的
,因此我需
浏览 1
提问于2009-04-30
得票数 0
回答已采纳
1
回答
无需互操作即可获取
PDF
+中
的
所有单词及其位置
c#
、
parsing
、
pdf
、
mono
我需要用C#代码解析一个
PDF
,并得到它
的
每一个字加上该字在文档中
的
位置。我不能
使用
互操作,因为这将在Mono上运行。 非常感谢您
的
建议!
浏览 0
提问于2011-02-22
得票数 2
回答已采纳
2
回答
字符串中
的
java十六进制数据
java
、
string
、
hex
我在JAVA中
使用
PDFBOX
读取
了一个
PDF
文件,并将数据转换为
文本
并保存为字符串。我发现很多
文本
数据被X‘C2A0包围。我
使用
PDFBOX
如下: { this.pdDoc= null; parser
浏览 0
提问于2016-11-27
得票数 0
回答已采纳
点击加载更多
相关
资讯
SpringBoot 实现 PDF 添加水印有哪些方案?
SpringBoot 实现 PDF 添加水印,5 种实现方案
Go语言文件读取
输入与输出(二)
python文件操作全套讲解(二):写入文件
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券