我正在清理一个原始文本从网站,以便它可以标记成明确的句子,以训练词嵌入。以一个为例:
Xét xử ông Đinh La Thăng và đồng phạm: Luật sư nói tránh thành án lệ</h4></li></ul></div></div</li></ul></div><
我无法在漂亮汤中使用xpath获取文本,但selenium可以使用doubleclick命令获得文本。我怎么才能用漂亮的汤得到元素呢?我试过:from lxml import etree#Function to Find the element[@id='pages']/div/section/div[5]&