我想要删除html文本块的<p>标记内的文本。我正在尝试标准化一些文本,并删除所有类、对齐和其他信息。我能找到的每个例子似乎都涉及到剥离html,而我不想剥离标签。我只想把它们都弄清楚。<p class='MsoBodyText' align='left'></p>
some other paragrap
我正试图从网上抓起一篇文章,并把它写到数据库中。article = article.decode('utf-8')'ascii' codec can't decode byte 0xc3 in position 25729: ordinal not in range(128)article = article.encode('utf-8')UnicodeDecodeError: 'ascii' codec can't decode byte 0xc4 in