PDF注释中字节字符串的奇怪损坏，无法在utf-8 (pdfminer)中解码_无法在pandas中读取tsv文件。给定UnicodeDecodeError：'utf-8‘编解码器无法解码位置113中的字节0xa5 :无效的起始字节_将字符串转换为字节会导致UnicodeDecodeError：'utf-8‘编解码器无法解码位置4中的字节0xa0 :起始字节无效 - 腾讯云开发者社区

、、、、

我有一个奇怪的问题弹出时，试图从一个pdf文件抓取链接。该链接在pdf文件中显示为“”。然而，它的结果是：在PDFObjRef上执行resolve()方法时。为什么在那里的链接

浏览 10提问于2019-07-19得票数 0

回答已采纳

2回答

UnicodeDecodeError：'utf-8‘编解码器无法解码位置162中的字节0 0xff :无效开始字节

、、

我正在从s3中获取数据，我需要从一个pdf文件中提取文本。import boto3 from pdfminer.converter import TextConverter aws_secret_access_key='XXXXXXX') obj = s3.Object(s3_bucket_name, 'XXXXXX.pdf

浏览 1提问于2022-03-21得票数 0

1回答

UnicodeDecodeError：'charmap‘编解码器无法解码位置386处的字节0x8d :字符映射到<undefined>

、、、

我试图用slate库读取一个pdf文件，但它抛出了这个错误：File "C:\Python3\lib\site-packages\pdfminer\pdfparser.py", line 646, in __init___buffer_decode(d

浏览 27提问于2018-12-13得票数 3

回答已采纳

2回答

读取js中的文件将会损坏文件。

、、、

在js中，我正在运行以下代码 contentType: "application/json",reader.result是的输出，然后在php{ "name" : "test.pd

浏览 38提问于2020-07-31得票数 2

回答已采纳

2回答

Python:用UTF-8以二进制模式打开PDF

、、

我试图使用PyPDF4打开一个PDF文件。)text = pageObj.extract(pdfObj) 它的工作很好，除了PDF的内容是德语和特殊字符(乌姆卢特我无法更改二进制代码的编码，但如果不使用二进制代码，则会出现错误文件"/usr/local/lib/python3.8/site-packages/PyPDF4

浏览 11提问于2020-10-21得票数 1

回答已采纳

1回答

在Python 3中将PDF文件的字节内容存储在Elasticsearch中

、

我读的PDF文件是这样的： bytes_content = file.read()我试图在Elasticsearch中存储"bytes_content“，但是我得到了一个错误： TypeError: Object of type 'bytes' is not JSON serializable我尝试将"bytes_

浏览 0提问于2019-11-15得票数 0

6回答

在Python中读取PDF属性/元数据

、、

如何使用Python读取存储在PDF文件中的属性/元数据，如标题、作者、主题和关键字？

浏览 3提问于2013-01-08得票数 42

回答已采纳

2回答

用Pisa / xhtml2pdf在Python语言中创建pdfs

、、、

我知道在Python中创建pdf有很多问题，但我还没有看到任何基于Pisa或xhtml2pdf创建pdf的问题。然后 pisa.startViewer('mypdf.pdf&

浏览 2提问于2011-12-09得票数 2

3回答

使用PdfMiner和PyPDF2合并列提取文本

、、

我尝试使用pdfMiner解析pdf文件文本，但提取的文本被合并。我使用的是以下链接中的pdf文件。 from pdfminer.layout import

浏览 0提问于2013-04-01得票数 8

1回答

解压缩嵌入的PDF* - PDFInterpreterError:未知运算符：'\x00‘*

、、、

使用Scrapy，我想下载一个pdf到读取二进制文件到内存中，并提取内容。我意识到pdf被嵌入到一个页面中，如下所示： <embed id="plugin" type="application/x-google-chrome-pdf" src="http:xxx/DocumentInquiry.aspxDocumentNo=12502的response.body时，我看到一个以以下内容开头的<e

浏览 3提问于2017-11-23得票数 0

3回答

pdfminer上的警告

、、、

我已经在堆栈溢出中找到并(略微)修改了这个脚本，以便它能够在python 3.3上工作： retstr = StringIO()警告:根:未定义: PD

浏览 1提问于2015-04-21得票数 6

回答已采纳

5回答

如何使用Python 3.6将任何格式的文件转换为文本格式？

、、、

但是得到了错误，无法理解如何解决它。import textract File "<stdin>", line 1 SyntaxError: (unicode error) 'unicodeescape' codec

浏览 2提问于2017-05-01得票数 1

3回答

将二进制数据转换为Unicode

、、、、

在这里提供的所有编码中，，我应该使用哪种编码将二进制数据解码为unicode，而不会在我将其编码回字符串时损坏？我用过raw_unicode_data，但它不起作用。例如:我在帖子中上传图片(但不是作为文件附件)。Django使用utf-8将POST数据转换为unicode。但是，当从unicode转换回字符串(同样使用utf-8)时，数据会损坏。我使用了raw_unicode_data，也发生了同样的</

浏览 1提问于2011-02-24得票数 1

回答已采纳

2回答

用UTF8和base64编码将字节数组转换为xml？

、、、、

我正在尝试从这个get服务中获取一个xml(utf-8)。我尝试过多种方法尝试将xml从字节数组中提取出来，例如：encodingconverter 当使用Encoding.UTF8.GetString(字节)解码字节数组时，我得到一个带有奇怪符号和符号的字符串，但也有一些以%PDF-1.4开头的文本。将字节数组写入pdf文件<e

浏览 3提问于2013-12-19得票数 0

回答已采纳

2回答

Python -将pdf转换为文本，编码错误

、、、、

我试着把pdf文件转换成txt文件。( pdf文件示例)#!"pdf = codecs.open(filename, "rb", encoding= 'lati

浏览 0提问于2015-03-15得票数 0

回答已采纳

2回答

PDF文件到Dict返回奇怪的字符

、、、

我正在尝试创建一个程序，利用pdfminer来读取DnD字符表(可填充的PDF)，并将填充内容放入字典中。在编辑PDF并再次运行程序时，我在打印字典条目时得到一个奇怪的字符序列。编辑时的输出(我在PDF中完全更改了ClassLevel等)： ('ClassLevel', '\\xfe\\xff\\x00C\\x00l\\x00a\\x00s\\x00s\\x00L\\x

浏览 45提问于2019-09-24得票数 0

回答已采纳

1回答

路径不打印字符串值

、

我最近发现了这个非常方便的pdf转换库。我正在尝试将pdf转换成字符串值。以便解析数据并转换为csv文件。我想为将来自动化这一点，所以我不能使用Tabula。我正在调用一些模块，以便将pdf转换成字符串。用于字符串转换的部分无法工作。(pdf2string.py)这里是pdf转换成字符串的一部分。 rsrc

浏览 6提问于2016-05-13得票数 0

回答已采纳

1回答

NSString unicode编码问题

、、、

我在将字符串转换为可读内容时遇到了问题。substring = [NSString stringWithUTF8String:[symbol.data cStringUsingEncoding:NSUTF8StringEncoding]];它显示为窶冱，这是我不想要的，它应该显示为‘。

浏览 0提问于2011-03-27得票数 0

回答已采纳

1回答

用pdfbox操作顶域更改复选框onValue的编码

、

对于具有父字段的文本字段，我做了一些顶字段操作。到目前为止，这是可行的，但表单也包含一些复选框，不会更改。但是当我将被操纵的pdf存储到磁盘并检查复选框的值时，我可以看到cb_a.0的值已经从ß?我的进一步处理失败了，因为这个意外的改变，有什么办法防止吗？ byte[] encodingPdfByte

浏览 4提问于2018-01-16得票数 0

1回答

如何将协议缓冲区二进制数据(Integer)编码/解码为字符串，将字符串编码为二进制？

、、、、

smack (xmpp)只能传输字符串类型数据。协议缓冲区可以产生字节数组数据。所以，我做这个使用协议缓冲区解析来自byte[]的数据更改了Integer的值。这些值在xxxx

浏览 4提问于2015-03-26得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云