首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用BeautifulSoup编码错误汉字

用BeautifulSoup编码错误汉字
EN

Stack Overflow用户
提问于 2019-02-14 15:14:44
回答 1查看 84关注 0票数 1

我正在使用BeautifulSoup报废一个网站的数据,但cmd中的中文字符显示不正确。

它打印\u7b54\u6848\u9808\而不是中文字符。

这是我的代码:(网站编码是utf-8。)

代码语言:javascript
运行
复制
for item in links:
    print (item)
    page = urllib2.urlopen(item)
    #page.encoding = 'utf8'
    page = page.read().decode('utf-8')
    soup = BeautifulSoup(page , 'lxml')

    divTag = soup.find_all("div", {"class": "t_fsz"})
    for tag in divTag:
        postData = tag.find_all("td")
        print (postData)

我尝试了不同的编码/解码,但总是得到相同的输出。我怎样才能得到正确的汉字?谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-02-14 15:17:19

在Python2上,您需要为当前的输出编码encodeprint的字符串。

我们不知道您的系统是如何配置的,但您应该能够找到数百个类似的问题--可能是在您的平台中抛出的问题,以及您在搜索中用来缩小范围的编码。

如果可能的话,我建议改用Python3。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54684975

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档