当尝试用pdfminer.six提取文本时，我如何修复'UnicodeDecodeError‘？

、、、

使用通过pip install git+https://github.com/pdfminer/pdfminer.six.git安装的pdfminer ( )时出现UnicodeEncodeErrorFile "/usr/lib/python2.7/StringIO.py", line 271, in getvalueUnicodeDecodeError: &#x

浏览 1提问于2017-07-14得票数 2

1回答

UnicodeDecodeError：'ascii‘编解码器无法解码位置6的字节0xe2 :序数不在范围内(128个)

、、

帮我找出我的python代码出了什么问题。lib/python2.7/site-packages/nltk/tokenize/punkt.py"，第542行，在_tokenize_words中，plaintext.split(‘\n’)中的行: UnicodeDecodeError

浏览 2提问于2017-04-22得票数 1

1回答

pyHook还是pythoncom bug？

、、

我用的是64位的Windows 7。我正在运行pyHook包附带的example.py文件(下面发布的代码)。每当我的活动窗口是Skype时，要么我的计算机崩溃，要么我得到'TypeError: KeyboardSwitch() missing 8个必需的位置参数：..‘。我假设示例中的代码是正确的，如果我没有使用Skype，它运行得很好。有什么想法吗？

浏览 2提问于2015-04-03得票数 2

1回答

我正在编写一个程序，对目录中的文件进行加密和解密，它似乎可以很好地处理文本文件。但是，当涉及到其他文件类型(如PNG文件)时，我会得到错误信息。UnicodeDecodeError: 'charmap' codec can't decode byte 0x81 in position 114: character 这是我正在使用的代码的一个小示例： file = open("example.pn

浏览 14提问于2022-08-17得票数 0

3回答

用Aspose在中查找给定的单词

、、

我正在尝试检查是否包含一个给定的单词，但它不起作用。这是我的班级，负责检查ppt文件：{ }我叫它是为了检查一个给定的词FindContentOfPpt().Is

浏览 2提问于2018-08-11得票数 0

回答已采纳

1回答

用无效的unicode初始化`io.StringIO`，这样`.readlines`会失败吗？

、、

是否有可能用无效的UTF-8字符串初始化io.StringIO (或等效的)，使其在调用readlines()时失败？我知道这是一个奇怪的请求，但我试图在单元测试中再现一个失败模式。目前，我试图读取一个文本文件，并意外地得到一个二进制文件。我的代码与我想在一个测试用例中再现它，然后修复它(捕

浏览 4提问于2016-12-19得票数 3

1回答

写入文件时的Python UnicodeEncodeError

、、、

我使用"pdfminer.six"，一个python库，从我拥有的几个PDF中提取所有文本。我的方法运行得很完美，但是对于某些pdfs，它可能有一些特殊字符，当我将它写到文本文件时，我会得到"Unicode编码错误：'charmap‘编解码器无法在位置271130:字符映射到'\u03b2’中编码字符现在，我知道正在发生什么，但我想知道如何以最好的方式对待它。这是让<

浏览 3提问于2017-11-03得票数 1

回答已采纳

2回答

带{float:right]的<span>标记在IE7中拉伸容器

、、

我有一个A标签按钮，里面有Span，用来保存图标。它在所有浏览器中都工作得很好。我应用了WHen : right将跨度移到右边，它在所有浏览器(火狐，IE8+等)上都工作得很好。除了IE7 (我知道...但我需要修复它)。因此，当跨度向左浮动时，IE7工作得很好。我不想改变超文本</

浏览 1提问于2012-07-19得票数 2

回答已采纳

2回答

如何使用gocolly刮取html表格单元格中的分行符？

、

我在试着保存格式当colly解压它时，我得到以下信息: address line1addressline2 没有空格或换行，因为所有的html都已从文本中删除。如何解决/修复此问题，以便从

浏览 1提问于2018-09-07得票数 1

回答已采纳

1回答

无法在从Silmarillion中提取的文本上使用NLTK

、、、

我试着用Tolkein的Silmarillion作为练习文本，用nltk学习一些NLP。我在NLTK周围使用TextBlob包装器()，因为它要容易得多。stone, and did not speak again' ) UnicodeDecodeError: 'ascii' codec can't decode byte0xc3 in position 1

浏览 3提问于2013-08-25得票数 0

回答已采纳

1回答

错误回溯(最近一次调用)：在Python中读取.txt文件之后

、

这是我第一次尝试用Python编程 with open('/Users/solidaneziri/Downloads/Data_Exercise_1.txt') as infile: print(line.split()[0]) 这是我在读取文件时写的代码，它编译并运行了第一次，在第一次我一直收到这个错误后，我不知道如何修复它 &#

浏览 39提问于2021-10-20得票数 0

2回答

如何从eBooks上读取ISBN

、、、、

我正在创建一个数据库来存储我的eBook集合。如何访问此内容？有没有什么源码或者DLL可以做到这一点呢？

浏览 2提问于2009-01-02得票数 3

回答已采纳

2回答

UnicodeDecodeError：“ascii”编解码器无法解码字节...Python 2.7和

、

我正在读取一个文本文件，其中包含来自许多不同国家/地区的unicode字符。文件中的数据也是JSON格式。当我在Eclipse中测试代码时，它工作得很好。当我在终端中运行我的代码时，它抛出一个错误: UnicodeDecodeError：'ascii‘编解码器无法解码位置17中的字节0xc3 :

浏览 1提问于2013-03-27得票数 0

1回答

Python3.9 UnicodeDecodeError:TypeError：init()获得了一个意想不到的关键字参数“编码”

、、

UnicodeDecodeError：'utf-8‘编解码器无法解码位置3的字节Oxef :无效的连续字节这是我的代码： import fil

浏览 10提问于2022-10-08得票数 0

3回答

如何在包含多个窗体的ASP.NET MVC页面上显示验证错误

、

我有一个名为ReceiveItem的顶级页面。在该页面中，我有两个不同的FORM-只有一个将被填写和提交(取决于该项目是如何接收的)。从UI的角度来看，这一切都运行得很好。ReceiveItem.aspx> <ReceiveOrderReturn.ascx>除了，我不知道如何正确显示验证错误TempData["Cost"

浏览 0提问于2009-08-15得票数 0

回答已采纳

2回答

如何并行执行多个测试套件？

、、

我已经测试了5个不同的商店(英国，美国，FR，IN，PT)的web应用程序套件。大约有250个测试用例。在部署之后，我需要为所有这些存储执行测试套件，一个存储大约需要6小时。我得按顺序开始执行。我打算并行执行。我有一个独立的桌面，我在上面配置了Jenkins，我试过，每次触发两个作业，不幸的是我的系统崩溃了。使用Jenkins或其他(我听说过docker容器)是否有有效的方法来做到这一点？

浏览 0提问于2019-01-24得票数 1

2回答

使用BeautifulSoup在标记边界上断开单词

、

我正在尝试用BeautifulSoup将html解析为文本，但我遇到了一个问题:一些单词被没有空格的标签分割：所以当我提取文本时，我得到：一些句子也会连接到一个句子中： INTODUCTION There are many...也可能是我可以修复一些标签上的句子分隔？

浏览 13提问于2018-08-10得票数 0

1回答

当两个bug互相抵消的时候测试？

、、

(我发现了这两个bug，因为还有其他测试用例，这两个bug不会相互抵消。)如果任何一个bug都修复了(但不是两者兼而有之)，那么这个测试用例就会突然开始失败。我应该如何注释测试以处理这种情况？通常，当出现错误时，我只需引用bug报告将测试标记为预期的失败。在这种情况下，我不能将其标记为预期的失败，因为测试本身并没有失败。当开发人员修复了这两个bug中的一个时，他们可能会惊讶地看到一

浏览 0提问于2014-04-19得票数 2

1回答

如何修复这个奇怪的损坏的pdf问题

、

我们通过将它们的页面提取到单独的文件中来处理大量传入的pdf。有时我们会遇到这个奇怪的问题。每个提取的页面将几乎是整个文件的大小。例如，如果pdf是500Mb，有1000个页面，那么从其中提取单独的页面将产生1000个文件，每个文件500mb。即使当打开单独的页面文件时，您也只能看到其中的一个页面。在此之后，提取页面的问题就解决了。页面开始正确提取，并且大小较小。到目前为止，我们已经遇到了一些文件，而且可能还会遇到更多。我试着寻找一个工具来自动<em

浏览 4提问于2017-01-19得票数 0

1回答

用Angular.JS构建游戏

、、、、

对于GameJam，我尝试用AngularJS中的精灵和小动画编写一个简单的基于web的文本冒险游戏。我对棱角有点陌生，很难弄清楚如何构造它。我想我的麻烦来自于我与Controllers和Directives的斗争。任何熟悉A

浏览 0提问于2016-06-27得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

UnicodeDecodeError：'ascii‘编解码器无法解码位置6的字节0xe2 :序数不在范围内(128个)

pyHook还是pythoncom bug？

加密和解密PNG文件失败

用Aspose在中查找给定的单词

用无效的unicode初始化`io.StringIO`，这样`.readlines`会失败吗？

写入文件时的Python UnicodeEncodeError

带{float:right]的<span>标记在IE7中拉伸容器

如何使用gocolly刮取html表格单元格中的分行符？

无法在从Silmarillion中提取的文本上使用NLTK

错误回溯(最近一次调用)：在Python中读取.txt文件之后

如何从eBooks上读取ISBN

UnicodeDecodeError：“ascii”编解码器无法解码字节...Python 2.7和

Python3.9 UnicodeDecodeError:TypeError：init()获得了一个意想不到的关键字参数“编码”

如何在包含多个窗体的ASP.NET MVC页面上显示验证错误

如何并行执行多个测试套件？

使用BeautifulSoup在标记边界上断开单词

当两个bug互相抵消的时候测试？

如何修复这个奇怪的损坏的pdf问题

用Angular.JS构建游戏

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐