腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
PDF
注释
中
字节
字符串
的
奇怪
损坏
,
无法
在
utf-8
(
pdfminer
)
中
解码
、
、
、
、
我有一个
奇怪
的
问题弹出时,试图从一个
pdf
文件抓取链接。该链接在
pdf
文件
中
显示为“”。然而,它
的
结果是:
在
PDFObjRef上执行resolve()方法时。为什么在那里
的
链接
浏览 10
提问于2019-07-19
得票数 0
回答已采纳
2
回答
UnicodeDecodeError:'
utf-8
‘编
解码
器
无法
解码
位置162
中
的
字节
0 0xff :无效开始
字节
、
、
我正在从s3
中
获取数据,我需要从一个
pdf
文件中提取文本。import boto3 from
pdfminer
.converter import TextConverter aws_secret_access_key='XXXXXXX') obj = s3.Object(s3_bucket_name, 'XXXXXX.
pdf
浏览 1
提问于2022-03-21
得票数 0
1
回答
UnicodeDecodeError:'charmap‘编
解码
器
无法
解码
位置386处
的
字节
0x8d :字符映射到<undefined>
、
、
、
我试图用slate库读取一个
pdf
文件,但它抛出了这个错误:File "C:\Python3\lib\site-packages\
pdfminer
\pdfparser.py", line 646, in __init___buffer_decode(d
浏览 27
提问于2018-12-13
得票数 3
回答已采纳
2
回答
读取js
中
的
文件将会
损坏
文件。
、
、
、
在
js
中
,我正在运行以下代码 contentType: "application/json",reader.result是的输出,然后
在
php{ "name" : "test.
pd
浏览 38
提问于2020-07-31
得票数 2
回答已采纳
2
回答
Python:用
UTF-8
以二进制模式打开
PDF
、
、
我试图使用PyPDF4打开一个
PDF
文件。)text = pageObj.extract(pdfObj) 它
的
工作很好,除了
PDF
的
内容是德语和特殊字符(乌姆卢特我
无法
更改二进制代码
的
编码,但如果不使用二进制代码,则会出现错误 文件"/usr/local/lib/python3.8/site-packages/PyPDF4
浏览 11
提问于2020-10-21
得票数 1
回答已采纳
1
回答
在
Python 3
中
将
PDF
文件
的
字节
内容存储
在
Elasticsearch
中
、
我读
的
PDF
文件是这样
的
: bytes_content = file.read()我试图
在
Elasticsearch
中
存储"bytes_content“,但是我得到了一个错误: TypeError: Object of type 'bytes' is not JSON serializable我尝试将"bytes_
浏览 0
提问于2019-11-15
得票数 0
6
回答
在
Python
中
读取
PDF
属性/元数据
、
、
如何使用Python读取存储
在
PDF
文件
中
的
属性/元数据,如标题、作者、主题和关键字?
浏览 3
提问于2013-01-08
得票数 42
回答已采纳
2
回答
用Pisa / xhtml2
pdf
在
Python语言中创建pdfs
、
、
、
我知道
在
Python
中
创建
pdf
有很多问题,但我还没有看到任何基于Pisa或xhtml2
pdf
创建
pdf
的
问题。然后 pisa.startViewer('mypdf.
pdf
&
浏览 2
提问于2011-12-09
得票数 2
3
回答
使用
PdfMiner
和PyPDF2合并列提取文本
、
、
我尝试使用
pdfMiner
解析
pdf
文件文本,但提取
的
文本被合并。我使用
的
是以下链接
中
的
pdf
文件。 from
pdfminer
.layout import
浏览 0
提问于2013-04-01
得票数 8
1
回答
解压缩嵌入
的
PDF
- PDFInterpreterError:未知运算符:'\x00‘
、
、
、
使用Scrapy,我想下载一个
pdf
到读取二进制文件到内存
中
,并提取内容。我意识到
pdf
被嵌入到一个页面
中
,如下所示: <embed id="plugin" type="application/x-google-chrome-
pdf
" src="http:xxx/DocumentInquiry.aspxDocumentNo=12502
的
response.body时,我看到一个以以下内容开头
的
<e
浏览 3
提问于2017-11-23
得票数 0
3
回答
pdfminer
上
的
警告
、
、
、
我已经
在
堆栈溢出中找到并(略微)修改了这个脚本,以便它能够
在
python 3.3上工作: retstr = StringIO()警告:根:未定义: PD
浏览 1
提问于2015-04-21
得票数 6
回答已采纳
5
回答
如何使用Python 3.6将任何格式
的
文件转换为文本格式?
、
、
、
但是得到了错误,
无法
理解如何解决它。import textract File "<stdin>", line 1 SyntaxError: (unicode error) 'unicodeescape' codec
浏览 2
提问于2017-05-01
得票数 1
3
回答
将二进制数据转换为Unicode
、
、
、
、
在这里提供
的
所有编码
中
,,我应该使用哪种编码将二进制数据
解码
为unicode,而不会在我将其编码回
字符串
时
损坏
? 我用过raw_unicode_data,但它不起作用。例如:我
在
帖子中上传图片(但不是作为文件附件)。Django使用
utf-8
将POST数据转换为unicode。但是,当从unicode转换回
字符串
(同样使用
utf-8
)时,数据会
损坏
。我使用了raw_unicode_data,也发生了同样
的</
浏览 1
提问于2011-02-24
得票数 1
回答已采纳
2
回答
用UTF8和base64编码将
字节
数组转换为xml?
、
、
、
、
我正在尝试从这个get服务
中
获取一个xml(
utf-8
)。我尝试过多种方法尝试将xml从
字节
数组中提取出来,例如:encodingconverter 当使用Encoding.UTF8.GetString(
字节
)
解码
字节
数组时,我得到一个带有
奇怪
符号和符号
的
字符串
,但也有一些以%
PDF
-1.4开头
的
文本。将
字节
数组写入
pdf
文件<e
浏览 3
提问于2013-12-19
得票数 0
回答已采纳
2
回答
Python -将
pdf
转换为文本,编码错误
、
、
、
、
我试着把
pdf
文件转换成txt文件。(
pdf
文件示例)#!"
pdf
= codecs.open(filename, "rb", encoding= 'lati
浏览 0
提问于2015-03-15
得票数 0
回答已采纳
2
回答
PDF
文件到Dict返回
奇怪
的
字符
、
、
、
我正在尝试创建一个程序,利用
pdfminer
来读取DnD字符表(可填充
的
PDF
),并将填充内容放入字典
中
。在编辑
PDF
并再次运行程序时,我在打印字典条目时得到一个
奇怪
的
字符序列。编辑时
的
输出(我
在
PDF
中
完全更改了ClassLevel等): ('ClassLevel', '\\xfe\\xff\\x00C\\x00l\\x00a\\x00s\\x00s\\x00L\\x
浏览 45
提问于2019-09-24
得票数 0
回答已采纳
1
回答
路径不打印
字符串
值
、
我最近发现了这个非常方便
的
pdf
转换库。我正在尝试将
pdf
转换成
字符串
值。以便解析数据并转换为csv文件。我想为将来自动化这一点,所以我不能使用Tabula。我正在调用一些模块,以便将
pdf
转换成
字符串
。用于
字符串
转换
的
部分
无法
工作。(
pdf
2string.py)这里是
pdf
转换成
字符串
的
一部分。 rsrc
浏览 6
提问于2016-05-13
得票数 0
回答已采纳
1
回答
NSString unicode编码问题
、
、
、
我
在
将
字符串
转换为可读内容时遇到了问题。substring = [NSString stringWithUTF8String:[symbol.data cStringUsingEncoding:NSUTF8StringEncoding]];它显示为窶冱,这是我不想要
的
,它应该显示为‘。
浏览 0
提问于2011-03-27
得票数 0
回答已采纳
1
回答
用pdfbox操作顶域更改复选框onValue
的
编码
、
对于具有父字段
的
文本字段,我做了一些顶字段操作。到目前为止,这是可行
的
,但表单也包含一些复选框,不会更改。但是当我将被操纵
的
pdf
存储到磁盘并检查复选框
的
值时,我可以看到cb_a.0
的
值已经从ß?我
的
进一步处理失败了,因为这个意外
的
改变,有什么办法防止吗? byte[] encodingPdfByte
浏览 4
提问于2018-01-16
得票数 0
1
回答
如何将协议缓冲区二进制数据(Integer)编码/
解码
为
字符串
,将
字符串
编码为二进制?
、
、
、
、
smack (xmpp)只能传输
字符串
类型数据。协议缓冲区可以产生
字节
数组数据。所以,我做这个 使用协议缓冲区解析来自byte[]
的
数据更改了Integer
的
值。这些值
在
xxxx
浏览 4
提问于2015-03-26
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python中的encode和decode函数详解
python 零基础学习(六)
Python3 大作战之 encode与decode 讲解
python普通文件读取问题汇总
SQL注入最易懂系列教程
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券