我正在使用BeautifulSoup报废一个网站的数据,但cmd中的中文字符显示不正确。
它打印\u7b54\u6848\u9808\而不是中文字符。
这是我的代码:(网站编码是utf-8。)
for item in links:
print (item)
page = urllib2.urlopen(item)
#page.encoding = 'utf8'
page = page.read().decode('utf-8')
soup = BeautifulSoup(page , 'lxml')
divTag = soup.find_all("div", {"class": "t_fsz"})
for tag in divTag:
postData = tag.find_all("td")
print (postData)
我尝试了不同的编码/解码,但总是得到相同的输出。我怎样才能得到正确的汉字?谢谢!
发布于 2019-02-14 15:17:19
在Python2上,您需要为当前的输出编码encode
您print
的字符串。
我们不知道您的系统是如何配置的,但您应该能够找到数百个类似的问题--可能是在您的平台中抛出的问题,以及您在搜索中用来缩小范围的编码。
如果可能的话,我建议改用Python3。
https://stackoverflow.com/questions/54684975
复制相似问题